このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230124となっている論文です。

PDF登録状況(公開日: 20230124)

TitleAuthorsAbstract論文公表日・翻訳日
# 全スピン読み出しによる1軸ツイスト量子Cram\'{e}r-Rao結合の飽和

Saturating the one-axis twisting quantum Cram\'{e}r-Rao bound with a total spin readout ( http://arxiv.org/abs/2207.11462v2 )

ライセンス: Link先を確認
T.J. Volkoff and Michael J. Martin(参考訳) 1軸ねじれスピンコヒーレント状態を持つ干渉法において、最小の量子クレード(e)r-rao境界は、1軸ツイストへの1回の呼び出し、時間反転1軸ツイストへの呼び出し、最終的な全スピン測定(すなわちツイスト・アントウィストプロトコル)の漸近誤差法によって飽和していることを示す。 この結果は、まず、1軸ねじれのメロジカル位相図が、常に1つのQFI値$N(N+1)/2$で漸近的に特徴づけられ、次に、この値が飽和するモーメント誤差の方法を持つツイスト・アンウィストプロトコルを構築することによって導かれる。 有限レンジ一軸ねじれの場合も同様に解析され、短レンジと長距離の相互作用状態の両方において、メトロジカル位相図の単純な関数形式が見つかる。 数値的な証拠は、ツイスト型プロトコルの有限レンジ類似は、すべての相互作用時間に対して有限レンジの1軸ツイストスピンコヒーレント状態と干渉法で達成可能な最低量子Cram\'{e}r-Rao境界を漸近的に飽和させるモーメント誤差の方法を示すことができることを示唆している。

We show that the lowest quantum Cram\'{e}r-Rao bound achievable in interferometry with a one-axis twisted spin coherent state is saturated by the asymptotic method of moments error of a protocol that uses one call to the one-axis twisting, one call to time-reversed one-axis twisting, and a final total spin measurement (i.e., a twist-untwist protocol). The result is derived by first showing that the metrological phase diagram for one-axis twisting is asymptotically characterized by a single QFI value $N(N+1)/2$ for all times, then constructing a twist-untwist protocol having a method of moments error that saturates this value. The case of finite-range one-axis twisting is similarly analyzed, and a simple functional form for the metrological phase diagram is found in both the short-range and long-range interaction regimes. Numerical evidence suggests that the finite-range analogues of twist-untwist protocols can exhibit a method of moments error that asymptotically saturates the lowest quantum Cram\'{e}r-Rao bound achievable in interferometry with finite-range one-axis twisted spin coherent states for all interaction times.
翻訳日:2023-02-04 00:28:02 公開日:2023-01-24
# 2つの加速量子ビットに対する有効マスター方程式

Effective master equations for two accelerated qubits ( http://arxiv.org/abs/2207.13750v3 )

ライセンス: Link先を確認
Greg Kaplanek and Erickson Tjoa(参考訳) オープン・エフェクト・フィールド理論法を用いて, 常に加速するUnruh-DeWitt検出器の2つの問題を再検討する。 本研究では,本論文の標準値とは異なるマルコフ近似を用いて,合同検出器状態の時間発展について検討する。 このマルコフ極限は、開系マスター方程式の標準的な導出とは対照的に、回転波近似(RWA)を呼び出すことなく、動的進化写像の完全な正の定理を既に示していることを示す。 このマルコフ近似の妥当性の領域を明示的に計算することにより、通常の微視的導出における完全な正則性の欠如は、レッドフィールド方程式がその有効性領域の外側で使われているという事実(副次的)に起因していると主張する。 マルコフ近似の妥当性に違反する文献で研究されている2つのよく知られた事例を示す。 (i) ``stacked track''' 限界(検出器軌道が互いに上にあると判断される場合)、及び (ii)大きな間隙対加速度比。 rwaの有無に関わらずマルコフ力学は、絡み合い力学に対する異なる質的予測をもたらす可能性があるので、我々の研究は全ての近似の有効性の体系を適切に追跡する必要があることを強調する。

We revisit the problem involving two constantly accelerating Unruh-DeWitt detectors using Open Effective Field Theory methods. We study the time evolution of the joint detector state using a Markovian approximation which differs from the standard one taken in the literature. We show that this Markovian limit already implies the complete positivity of the dynamical evolution map without invoking the rotating wave approximation (RWA), in contrast to standard derivations of open system master equations. By calculating explicitly the domain of validity of this Markovian approximation, we argue that the lack of complete positivity in the usual microscopic derivation stems from the (subtle) fact that the Redfield equation is used outside its domain of validity. We give two well-known cases studied in the literature that violate the validity of the Markovian approximation: (i) the ``stacked trajectory'' limit (when detector trajectories are taken to be on top of one another), and (ii) large gap-to-acceleration ratio. Since Markovian dynamics with or without RWA can lead to different qualitative predictions for entanglement dynamics, our work emphasizes the need to properly track the regime of validity of all approximations.
翻訳日:2023-02-03 07:29:11 公開日:2023-01-24
# 制約付きハミルトニアンのトロッター・スズズキインプリメンテーションにおける指数関数的スケーリングの克服:2+1 u(1)格子ゲージ理論

Overcoming exponential scaling with system size in Trotter-Suzuki implementations of constrained Hamiltonians: 2+1 U(1) lattice gauge theories ( http://arxiv.org/abs/2208.03333v2 )

ライセンス: Link先を確認
Dorota M. Grabowska, Christopher Kane, Benjamin Nachman and Christian W. Bauer(参考訳) 多くの量子システムにとって、時間発展をシミュレーションする古典的な計算コストは、システム規模において指数関数的にスケールする。 同時に、量子コンピュータは、システムサイズと多項式的にスケールするリソースを使用して、これらのシステムの一部のシミュレーションを可能にすることが示されている。 従来のデバイスでは実現不可能なシミュレーションに量子コンピュータを使用する可能性を考えると、量子アルゴリズムのスケーリングを慎重に研究することが最重要である。 この研究はハミルトニアン(Hamiltonian)という用語を、システムサイズで指数関数的にスケールする量子資源を必要とする制約付きシステムのクラスで定義する。 重要な例は、周期境界条件を持つ格子上のコンパクト u(1) ゲージ理論である。 磁気ガウスの法則を事前に課すことでハミルトニアンに制約を導入し、指数関数的に深い回路となる。 次に、演算子基底の再定義を用いて、このスケーリングをシステムサイズの多項式に還元する手法を開発した。 演算子基底の変化を定義する行列の明示的な構成と、関連する計算コストのスケーリングを与える。

For many quantum systems of interest, the classical computational cost of simulating their time evolution scales exponentially in the system size. At the same time, quantum computers have been shown to allow for simulations of some of these systems using resources that scale polynomially with the system size. Given the potential for using quantum computers for simulations that are not feasible using classical devices, it is paramount that one studies the scaling of quantum algorithms carefully. This work identifies a term in the Hamiltonian of a class of constrained systems that naively requires quantum resources that scale exponentially in the system size. An important example is a compact U(1) gauge theory on lattices with periodic boundary conditions. Imposing the magnetic Gauss' law a priori introduces a constraint into that Hamiltonian that naively results in an exponentially deep circuit. A method is then developed that reduces this scaling to polynomial in the system size, using a redefinition of the operator basis. An explicit construction of the matrices defining the change of operator basis, as well as the scaling of the associated computational cost, is given.
翻訳日:2023-02-02 04:48:32 公開日:2023-01-24
# 非線形プラズモニックキャビティにおける励起子-プラズモンポラリトン状態による縮退パラメトリックダウンコンバージョン

Degenerate parametric down-conversion facilitated by exciton-plasmon polariton states in nonlinear plasmonic cavity ( http://arxiv.org/abs/2208.03929v2 )

ライセンス: Link先を確認
Andrei Piryatinski and Maxim Sukharev(参考訳) 非線形プラズモン空洞の単一表面プラズモン (SP) モードに近接場相互作用により結合した2レベル量子エミッタ (QEs) のアンサンブルにおける縮退パラメトリックダウンコンバージョン (DPDC) の効果について検討した。 本研究では,SPの2次高調波応答付近に非整合QEが遷移周波数を調整した系の非平衡力学を捉える量子駆動散逸モデルを開発する。 強い結合状態、すなわちSP-QE相互作用速度が系の散逸速度を超えることを考えると、通常の定常状態と溶出状態の相転移に起因する臨界SP-QE結合が見つかる。 システムの定常状態を超えるゆらぎを調べることで、新しい初等励起、すなわち2sp量子数とqesの単一励起状態によって形成される励起子-プラズモンポラリトンを予測する。 2-SP量子の寄与は、Dicke と Tavis-Cummings モデルで知られている $\sqrt{{\cal N}_o}$-scaling とは対照的に、SP-QE 相互作用速度と QEs の数である ${\cal N}_o$ との線形スケーリングをもたらす。 さらに,SP-QE相互作用のスケーリングが臨界結合近傍の偏光子分散とパワースペクトルに与える影響について検討した。 この目的のために、QEの有限アンサンブルとモデル熱力学限界を仮定した計算結果を比較する。 算出されたパワースペクトルは、第2高調波周波数近傍のQEによるコヒーレント光子放出と、SPによる基本周波数における相関光子対放出(フォトニックDPDC効果)との相互作用を予測する。

We study the effect of degenerate parametric down-conversion (DPDC) in an ensemble of two-level quantum emitters (QEs) coupled via near-field interactions to a single surface plasmon (SP) mode of a nonlinear plasmonic cavity. For this purpose, we develop a quantum driven-dissipative model capturing non-equilibrium dynamics of the system in which incoherently pumped QEs have transition frequency tuned near the second-harmonic response of the SPs. Considering the strong coupling regime, i.e., the SP-QE interaction rate exceeds system dissipation rates, we find a critical SP-QE coupling attributed to the phase transition between normal and lasing steady states. Examining fluctuations above the system's steady states, we predict new elementary excitations, namely, the exciton-plasmon polaritons formed by the two-SP quanta and single-exciton states of QEs. The contribution of two-SP quanta results in the linear scaling of the SP-QE interaction rate with the number of QEs, ${\cal N}_o$, as opposed to the $\sqrt{{\cal N}_o}$-scaling known for the Dicke and Tavis-Cummings models. We further examine how SP-QE interaction scaling affects the polariton dispersions and power spectra in the vicinity of the critical coupling. For this purpose, we compare the calculation results assuming a finite ensemble of QEs and the model thermodynamic limit. The calculated power spectra predict an interplay of coherent photon emission by QEs near the second-harmonic frequency and correlated photon-pair emission at the fundamental frequency by the SPs (i.e., the photonic DPDC effect).
翻訳日:2023-02-01 21:56:54 公開日:2023-01-24
# 水素化物二原子分子の結合解離による変分量子固有解法のスケーリング限界の探求

Exploring the scaling limitations of the variational quantum eigensolver with the bond dissociation of hydride diatomic molecules ( http://arxiv.org/abs/2208.07411v2 )

ライセンス: Link先を確認
Jacob M. Clary, Eric B. Jones, Derek Vigil-Fowler, Christopher Chang, Peter Graf(参考訳) 強い相関電子を含む材料シミュレーションは、最先端の電子構造法に根本的な課題をもたらすが、量子コンピューティングの理想的なユースケースであると仮定される。 これまで、変動量子固有解法(VQE)アルゴリズムが化学的に正確な総エネルギーを予測できるにもかかわらず、量子コンピュータは現実世界の応用に関連する大きさと複雑さの分子をシミュレートしていない。 しかしながら、分子触媒のような中等度サイズの強い相関系の多くの応用により、VQEの成功は、短期量子プロセッサにおける有用な化学モデリングに向けた重要な道のりである。 本稿では,この方向への大きな一歩を踏み出します。 VQEを用いて、TiH、LiH、NaH、KH二原子水和物分子の結合解離曲線を計算するために、(エミュレートされた)量子コンピュータのステップ、書き込み、並列コードを実行する。 TiHはd軌道と強い電子相関を持つ比較的単純な化学系として選ばれた。 既存の量子ハードウェアにおける現在のvqeの実装は、量子ビット誤り率、利用可能な量子ビット数、許容ゲート深さによって制限されているため、最近の研究は、sおよびpブロック要素を含む化学系に焦点を当てている。 我々は,TiHのVQE + UCCSD計算を通じて,実量子ハードウェア上でのd軌道を持つ分子のモデリングの可能性を評価する。 我々は、d軌道の包含と、正しいTiH物理を捉えるために必要となるUCCSDアンサッツの使用により、この問題のコストが劇的に増加することを実証した。 我々は、vqe+uccsdを用いて現在の量子コンピューティングハードウェア上でtihをモデル化するために必要な近似誤差率を推定し、ハードウェアとエラー訂正アルゴリズムが大幅に改善されるまで禁止される可能性が高いことを示す。

Materials simulations involving strongly correlated electrons pose fundamental challenges to state-of-the-art electronic structure methods but are hypothesized to be the ideal use case for quantum computing. To date, no quantum computer has simulated a molecule of a size and complexity relevant to real-world applications, despite the fact that the variational quantum eigensolver (VQE) algorithm can predict chemically accurate total energies. Nevertheless, because of the many applications of moderately-sized, strongly correlated systems, such as molecular catalysts, the successful use of the VQE stands as an important waypoint in the advancement toward useful chemical modeling on near-term quantum processors. In this paper, we take a significant step in this direction. We lay out the steps, write, and run parallel code for an (emulated) quantum computer to compute the bond dissociation curves of the TiH, LiH, NaH, and KH diatomic hydride molecules using VQE. TiH was chosen as a relatively simple chemical system that incorporates d orbitals and strong electron correlation. Because current VQE implementations on existing quantum hardware are limited by qubit error rates, the number of qubits available, and the allowable gate depth, recent studies have focused on chemical systems involving s and p block elements. Through VQE + UCCSD calculations of TiH, we evaluate the near-term feasibility of modeling a molecule with d-orbitals on real quantum hardware. We demonstrate that the inclusion of d-orbitals and the use of the UCCSD ansatz, which are both necessary to capture the correct TiH physics, dramatically increase the cost of this problem. We estimate the approximate error rates necessary to model TiH on current quantum computing hardware using VQE+UCCSD and show them to likely be prohibitive until significant improvements in hardware and error correction algorithms are available.
翻訳日:2023-01-31 01:19:28 公開日:2023-01-24
# 限界量子ニューラルネットワークモデルによる量子位相検出の一般化

Quantum phase detection generalisation from marginal quantum neural network models ( http://arxiv.org/abs/2208.08748v2 )

ライセンス: Link先を確認
Saverio Monaco, Oriel Kiss, Antonio Mandarino, Sofia Vallecorsa and Michele Grossi(参考訳) 量子機械学習は、例えば位相図のような量子状態に関する情報を抽出する上で有望な利点を提供する。 しかし、トレーニングラベルへのアクセスは、教師付きアプローチの大きなボトルネックであり、新しい物理学に関する洞察を得るのを防ぐ。 この書簡では、量子畳み込みニューラルネットワークを用いて、解析解が不足しているモデルの位相図を決定し、可積分モデルを表現する位相図の限界点のみを訓練することにより、この限界を克服する。 より具体的には、強磁性、常磁性、反磁性を持つ軸方向の次アレスト近傍イジング(ANNNI)ハミルトニアンは、全相図を再現可能であることを示す。

Quantum machine learning offers a promising advantage in extracting information about quantum states, e.g. phase diagram. However, access to training labels is a major bottleneck for any supervised approach, preventing getting insights about new physics. In this Letter, using quantum convolutional neural networks, we overcome this limit by determining the phase diagram of a model where analytical solutions are lacking, by training only on marginal points of the phase diagram, where integrable models are represented. More specifically, we consider the axial next-nearest-neighbor Ising (ANNNI) Hamiltonian, which possesses a ferromagnetic, paramagnetic and antiphase, showing that the whole phase diagram can be reproduced.
翻訳日:2023-01-30 17:52:25 公開日:2023-01-24
# 組合せテストのためのベンチマークジェネレータ

A Benchmark Generator for Combinatorial Testing ( http://arxiv.org/abs/2301.08134v2 )

ライセンス: Link先を確認
Carlos Ansotegui and Eduard Torres(参考訳) Combinatorial Testing(CT)ツールは、幅広いシステム(トレインシステム、グラフィカルユーザインタフェース(GUI)、自律運転システムなど)を適切にテストするために不可欠である。 CTツールの開発には活発な研究コミュニティがあるが、CTツール自体をテストするのに十分なリソースを提供するには、パラドックス的にはほとんど注意が払われていない。 特に、その正確性、有効性、効率性を示す利用可能なベンチマークのセットは、かなり限られている。 本稿では,他の研究コミュニティが有意義なベンチマークを作成するために,利用可能なコンビネータ問題の多くに含まれる構造を,基本的に借用するCTベンチマークの新たなジェネレータを提案する。 また,これらのベンチマークを用いてCTツールの広範な評価を行う。 本研究により,特定のCTツールの使用状況について,いくつかの知見が得られた。

Combinatorial Testing (CT) tools are essential to test properly a wide range of systems (train systems, Graphical User Interfaces (GUIs), autonomous driving systems, etc). While there is an active research community working on developing CT tools, paradoxically little attention has been paid to making available enough resources to test the CT tools themselves. In particular, the set of available benchmarks to asses their correctness, effectiveness and efficiency is rather limited. In this paper, we introduce a new generator of CT benchmarks that essentially borrows the structure contained in the plethora of available Combinatorial Problems from other research communities in order to create meaningful benchmarks. We additionally perform an extensive evaluation of CT tools with these new benchmarks. Thanks to this study we provide some insights on under which circumstances a particular CT tool should be used.
翻訳日:2023-01-29 13:58:10 公開日:2023-01-24
# Enactive Artificial Intelligence: ロボットと人間のインタラクションにおけるジェンダーノルムの変換

Enactive Artificial Intelligence: Subverting Gender Norms in Robot-Human Interaction ( http://arxiv.org/abs/2301.08741v2 )

ライセンス: Link先を確認
Ines Hipolito, Katie Winkle, Merete Lie(参考訳) Enactive Artificial Intelligence (eAI)は、ジェンダーを含むAIへの新たな方向性を動機付けている。 われわれの価値観を反映する鏡の他に、AIデザインは文化的なアイデンティティの行動を形成する上で大きな影響を与えている。 伝統的に表現されない、白人、シッジェンダー、異性愛的な支配的な物語は部分的であり、社会的疎外化の活発な車両である。 この論文は、エノクティビズム(enactivism)から引き出されたもので、まずAIデザインを文化的な実践として特徴付け、フェミニストのテクノサイエンスの原則、すなわち、ジェンダーやその他の具体化されたアイデンティティマーカーがAIに絡み合っているかによって規定される。 これらの原則は、フェミニストの人間-ロボット相互作用の特定のケースで議論される。 eaiロボットとは、(1)個人と社会のアイデンティティにおいて文化的役割を担うロボットであり、(2)この役割は人間とロボットのダイナミックな相互作用の形をとり、(3)インタラクションは具体化されている。 最終的に、eAIから引き出されたこの論文は、I.eAI性非包括的AIとIIのガイドラインを提供する。 ロボットデザインの ジェンダー規範を覆すのです

Enactive Artificial Intelligence (eAI) motivates new directions towards gender-inclusive AI. Beyond a mirror reflecting our values, AI design has a profound impact on shaping the enaction of cultural identities. The traditionally unrepresentative, white, cisgender, heterosexual dominant narratives are partial, and thereby active vehicles of social marginalisation. Drawing from enactivism, the paper first characterises AI design as a cultural practice; which is then specified in feminist technoscience principles, i.e. how gender and other embodied identity markers are entangled in AI. These principles are then discussed in the specific case of feminist human-robot interaction. The paper, then, stipulates the conditions for eAI: an eAI robot is a robot that (1) plays a cultural role in individual and social identity, (2) this role takes the form of human-robot dynamical interaction, and (3) interaction is embodied. Drawing from eAI, finally, the paper offers guidelines for I. eAI gender-inclusive AI, and II. subverting existing gender norms of robot design.
翻訳日:2023-01-29 13:49:52 公開日:2023-01-24
# 食品組成知識基盤の半自動構築

Semi-Automated Construction of Food Composition Knowledge Base ( http://arxiv.org/abs/2301.11322v1 )

ライセンス: Link先を確認
Jason Youn, Fangzhou Li, Ilias Tagkopoulos(参考訳) 食品の植物、微生物、マクロ栄養素を貯蔵する食品組成知識基盤は、研究および産業用途の両方に有用である。 既存の知識ベースの多くはそのような情報をキュレーションしようとするが、時間を要する手動のキュレーションプロセスによって制限されることが多い。 食品科学分野以外では、事前訓練された言語モデルを用いた自然言語処理手法が、構造化されていないテキストから知識を抽出する有望な結果を示している。 本研究では,オンラインの科学文献から食品組成の知識ベースを構築するための半自動フレームワークを提案する。 そこで本研究では,制限付き学習データを最適に活用可能な,事前学習型BioBERT言語モデルをアクティブな学習環境に活用する。 我々の研究は、人間のループモデルが、ますます増加するビッグデータに順応するAI支援食品システムへの一歩であることを実証している。

A food composition knowledge base, which stores the essential phyto-, micro-, and macro-nutrients of foods is useful for both research and industrial applications. Although many existing knowledge bases attempt to curate such information, they are often limited by time-consuming manual curation processes. Outside of the food science domain, natural language processing methods that utilize pre-trained language models have recently shown promising results for extracting knowledge from unstructured text. In this work, we propose a semi-automated framework for constructing a knowledge base of food composition from the scientific literature available online. To this end, we utilize a pre-trained BioBERT language model in an active learning setup that allows the optimal use of limited training data. Our work demonstrates how human-in-the-loop models are a step toward AI-assisted food systems that scale well to the ever-increasing big data.
翻訳日:2023-01-27 12:39:19 公開日:2023-01-24
# 中心スピン量子ビットで作製した多体一重項

A many-body singlet prepared by a central spin qubit ( http://arxiv.org/abs/2301.10258v1 )

ライセンス: Link先を確認
Leon Zaporski, Stijn R. de Wit, Takuya Isogawa, Martin Hayhurst Appel, Claire Le Gall, Mete Atat\"ure, Dorian A. Gangloff(参考訳) 制御可能な量子多体システムは、絡み合いの性質に関する基礎研究のためのプラットフォームであり、幅広い種類のアルゴリズムとシミュレーションのために計算速度を上げることを約束する。 特に、密度の高いスピンアンサンブル内のエンジニアリングの絡み合いは、それを堅牢な量子メモリや計算プラットフォームに変えることができる。 近年の高密度中心スピンシステムの実験的進歩は、中心スピン量子ビットをアンサンブルの便利なプロキシとして用いるアルゴリズムの設計を動機付けている。 ここでは、中心スピンを用いて2つの高密度スピンアンサンブルを純粋な反偏極状態に初期化し、そこから結合されたアンサンブルから多体絡み状態(シングルト)を生成するプロトコルを提案する。 我々は,マルチマテリアルプラットフォームのプロトコル性能を定量化し,現実的なデコヒーレンスレベルが存在する場合でも実装可能であることを示す。 このプロトコルでは、既知の多体状態の合成と密なスピンアンサンブルにおける絡み合い工学へのアルゴリズム的アプローチを導入し、より広範な量子状態のクラスに拡張することができる。

Controllable quantum many-body systems are platforms for fundamental investigations into the nature of entanglement and promise to deliver computational speed-up for a broad class of algorithms and simulations. In particular, engineering entanglement within a dense spin ensemble can turn it into a robust quantum memory or a computational platform. Recent experimental progress in dense central spin systems motivates the design of algorithms that use a central-spin qubit as a convenient proxy for the ensemble. Here we propose a protocol that uses a central spin to initialize two dense spin ensembles into a pure anti-polarized state and from there creates a many-body entangled state -- a singlet -- from the combined ensemble. We quantify the protocol performance for multiple material platforms and show that it can be implemented even in the presence of realistic levels of decoherence. Our protocol introduces an algorithmic approach to preparation of a known many-body state and to entanglement engineering in a dense spin ensemble, which can be extended towards a broad class of collective quantum states.
翻訳日:2023-01-26 16:42:48 公開日:2023-01-24
# 微分物理学によるスコアマッチング

Score Matching via Differentiable Physics ( http://arxiv.org/abs/2301.10250v1 )

ライセンス: Link先を確認
Benjamin J. Holzschuh, Simona Vegetti, Nils Thuerey(参考訳) 確率微分方程式(sdes)に基づく拡散モデルは、ノイズを加えることによって、時間とともにデータ分布 $p(\mathbf{x})$ を徐々に摂動させる。 ニューラルネットワークは、スコア $\nabla_\mathbf{x} \log p_t(\mathbf{x})$ at time $t$ を近似するように訓練される。 本稿では,拡散のような自然非決定論的物理過程の存在下での物理操作者による時間発展に関連するスコアフィールドの学習に焦点をあてる。 従来の手法と決定的な違いは、我々のアプローチの根底にあるSDEが、物理系の状態を後から別の状態に変換することである。 その目的のために、基礎となるSDE定式化のドリフトを微分可能シミュレータやニューラルネットワークによる物理近似に置き換える。 そこで我々は,確率フローODE(prosistal flow ODE)に基づく異なるトレーニング戦略を提案し,シミュレーショントラジェクトリのトレーニングセットに適合させ,スコアマッチングの目的との関係を議論する。 推定のために、逆時間SDEを用いて与えられた終状態に向かって進化する可塑性軌道をサンプリングし、異なる挑戦的逆問題に対するアプローチの競合性を実証する。

Diffusion models based on stochastic differential equations (SDEs) gradually perturb a data distribution $p(\mathbf{x})$ over time by adding noise to it. A neural network is trained to approximate the score $\nabla_\mathbf{x} \log p_t(\mathbf{x})$ at time $t$, which can be used to reverse the corruption process. In this paper, we focus on learning the score field that is associated with the time evolution according to a physics operator in the presence of natural non-deterministic physical processes like diffusion. A decisive difference to previous methods is that the SDE underlying our approach transforms the state of a physical system to another state at a later time. For that purpose, we replace the drift of the underlying SDE formulation with a differentiable simulator or a neural network approximation of the physics. We propose different training strategies based on the so-called probability flow ODE to fit a training set of simulation trajectories and discuss their relation to the score matching objective. For inference, we sample plausible trajectories that evolve towards a given end state using the reverse-time SDE and demonstrate the competitiveness of our approach for different challenging inverse problems.
翻訳日:2023-01-26 16:42:31 公開日:2023-01-24
# PushWorld: ツールと可動障害による計画操作のためのベンチマーク

PushWorld: A benchmark for manipulation planning with tools and movable obstacles ( http://arxiv.org/abs/2301.10289v1 )

ライセンス: Link先を確認
Ken Kansky, Skanda Vaidyanath, Scott Swingle, Xinghua Lou, Miguel Lazaro-Gredilla, Dileep George(参考訳) 人工知能の最近の進歩は、StarcraftやGoのような環境で人間レベルのパフォーマンスを達成したが、現代のアルゴリズムでは、多くの物理的推論タスクが難しいままである。 これまでに、可動障害物が存在する場合や操作にツールを使用する場合など、物体を操作する物理的タスクにおいて、アルゴリズムが評価されている例はほとんどない。 このようなタスクの研究を促進するために,移動障害物とツールの操作計画を必要とする簡易な物理環境であるPushWorldを紹介した。 我々はpddlおよびopenaiジム環境で200以上のpushworldパズルのベンチマークを提供する。 本ベンチマークでは,最先端の古典的計画と強化学習アルゴリズムを評価し,その基礎的結果が人間レベルの性能以下であることが判明した。 そして、ベースライン間の最も多くのパズルを解決する、新しい古典的な計画ヒューリスティックを提供し、最高のベースラインプランナーよりも35倍高速ですが、人間レベルのパフォーマンスを保ちます。

While recent advances in artificial intelligence have achieved human-level performance in environments like Starcraft and Go, many physical reasoning tasks remain challenging for modern algorithms. To date, few algorithms have been evaluated on physical tasks that involve manipulating objects when movable obstacles are present and when tools must be used to perform the manipulation. To promote research on such tasks, we introduce PushWorld, an environment with simplistic physics that requires manipulation planning with both movable obstacles and tools. We provide a benchmark of more than 200 PushWorld puzzles in PDDL and in an OpenAI Gym environment. We evaluate state-of-the-art classical planning and reinforcement learning algorithms on this benchmark, and we find that these baseline results are below human-level performance. We then provide a new classical planning heuristic that solves the most puzzles among the baselines, and although it is 35 times faster than the best baseline planner, it remains below human-level performance.
翻訳日:2023-01-26 16:34:27 公開日:2023-01-24
# スタイルインフュージョンによるオーディエンス中心自然言語生成

Audience-Centric Natural Language Generation via Style Infusion ( http://arxiv.org/abs/2301.10283v1 )

ライセンス: Link先を確認
Samraj Moorjani, Adit Krishnan, Hari Sundaram, Ewa Maslowska, Aravind Sankar(参考訳) コンテキスト的に適切なオーディエンス対応言語スタイルを採用することは、ユーザ中心の言語生成システム(例えば、チャットボット、コンピュータ支援ライティング、ダイアログシステム)の成功に不可欠である。 既存のアプローチでは,大量の並列データや非並列データによるテキストの転送を実証しているが,観客非依存の外部要因に基づく基礎的なスタイルは,2つの理由から本質的に制限されている。 まず,観衆特有のスタイルデータを大量に収集することは困難である。 第二に、いくつかのスタイル的目的(説得性、記憶可能性、共感など)は聴衆のフィードバックなしでは定義が難しい。 本稿では,事前学習された言語生成モデルにおける聴衆のスタイル的嗜好に影響を及ぼす,スタイル注入の新しい課題を提案する。 人間は直接得点よりも対数比較が優れている(つまり、サンプルはサンプルbよりも説得力があり、ポリト/共感性が高い)ので、我々は限定された対数判断を利用して、スタイル分析モデルをブートストラップし、シードセットの判断を強化します。 そして、学習したテキストスタイルをGPT-2ベースのテキストジェネレータに注入し、流速とスタイルの採用のバランスをとる。 定量的・質的評価により,我々の輸液アプローチが汎用テキストプロンプトを用いた説得力のあるスタイライゼーション例を生成できることを示す。 コードとデータはhttps://github.com/CrowdDynamicsLab/StyleInfusionでアクセスできる。

Adopting contextually appropriate, audience-tailored linguistic styles is critical to the success of user-centric language generation systems (e.g., chatbots, computer-aided writing, dialog systems). While existing approaches demonstrate textual style transfer with large volumes of parallel or non-parallel data, we argue that grounding style on audience-independent external factors is innately limiting for two reasons. First, it is difficult to collect large volumes of audience-specific stylistic data. Second, some stylistic objectives (e.g., persuasiveness, memorability, empathy) are hard to define without audience feedback. In this paper, we propose the novel task of style infusion - infusing the stylistic preferences of audiences in pretrained language generation models. Since humans are better at pairwise comparisons than direct scoring - i.e., is Sample-A more persuasive/polite/empathic than Sample-B - we leverage limited pairwise human judgments to bootstrap a style analysis model and augment our seed set of judgments. We then infuse the learned textual style in a GPT-2 based text generator while balancing fluency and style adoption. With quantitative and qualitative assessments, we show that our infusion approach can generate compelling stylized examples with generic text prompts. The code and data are accessible at https://github.com/CrowdDynamicsLab/StyleInfusion.
翻訳日:2023-01-26 16:34:11 公開日:2023-01-24
# エッジにおける時間畳み込みネットワークのための軽量ニューラルネットワーク探索

Lightweight Neural Architecture Search for Temporal Convolutional Networks at the Edge ( http://arxiv.org/abs/2301.10281v1 )

ライセンス: Link先を確認
Matteo Risso, Alessio Burrello, Francesco Conti, Lorenzo Lamberti, Yukai Chen, Luca Benini, Enrico Macii, Massimo Poncino, Daniele Jahier Pagliari(参考訳) ニューラルアーキテクチャサーチ(NAS)は、画像分類やオブジェクト検出といった複雑なタスクに対して、ディープラーニング(DL)モデルの構造を最適化するためのゴートアプローチになりつつある。 しかしながら、DLの他の関連アプリケーション、特にエッジでは、時系列処理に基づいており、NASがあまり探索されていないユニークな特徴を持つモデルを必要とする。 この研究は特に、より複雑なリカレントアーキテクチャの代替として最近登場した時系列処理の畳み込みモデルであるTCN(Temporal Convolutional Networks)に焦点を当てている。 我々は,TNの最も特異なアーキテクチャパラメータ,すなわちダイレーション,受容場,各層における特徴の数を明示的に最適化する最初のNASツールを提案する。 提案手法は,精度とパラメータ/操作数の良好なトレードオフを提供するネットワークを探索し,組込みプラットフォームへの効率的なデプロイを可能にする。 提案したNASは,音声および生体信号を含む4つの実世界のエッジ関連タスクでテストする。 その結果,本手法は単一シードネットワークから,種と同じ精度のモデルと15.9~152倍のパラメータを持つpareto最適アーキテクチャの豊富なコレクションを得ることができた。 ProxylessNAS、MorphNet、FBNetV2の3つの最先端NASツールと比較し、TNの検索スペースを最大10^12xまで拡大し、低GPUメモリと検索時間を要する優れた解を得る。 我々はNAS出力を2つの異なるエッジデバイス、マルチコアGreenWaves Technology GAP8 IoTプロセッサとシングルコアSTマイクロエレクトロニクスSTM32H7マイクロコントローラにデプロイする。 最先端のハンドチューニングモデルでは、2つの目標に対してそれぞれ5.5xと3.8xのレイテンシとエネルギーを、精度の損失なく削減する。

Neural Architecture Search (NAS) is quickly becoming the go-to approach to optimize the structure of Deep Learning (DL) models for complex tasks such as Image Classification or Object Detection. However, many other relevant applications of DL, especially at the edge, are based on time-series processing and require models with unique features, for which NAS is less explored. This work focuses in particular on Temporal Convolutional Networks (TCNs), a convolutional model for time-series processing that has recently emerged as a promising alternative to more complex recurrent architectures. We propose the first NAS tool that explicitly targets the optimization of the most peculiar architectural parameters of TCNs, namely dilation, receptive-field and number of features in each layer. The proposed approach searches for networks that offer good trade-offs between accuracy and number of parameters/operations, enabling an efficient deployment on embedded platforms. We test the proposed NAS on four real-world, edge-relevant tasks, involving audio and bio-signals. Results show that, starting from a single seed network, our method is capable of obtaining a rich collection of Pareto optimal architectures, among which we obtain models with the same accuracy as the seed, and 15.9-152x fewer parameters. Compared to three state-of-the-art NAS tools, ProxylessNAS, MorphNet and FBNetV2, our method explores a larger search space for TCNs (up to 10^12x) and obtains superior solutions, while requiring low GPU memory and search time. We deploy our NAS outputs on two distinct edge devices, the multicore GreenWaves Technology GAP8 IoT processor and the single-core STMicroelectronics STM32H7 microcontroller. With respect to the state-of-the-art hand-tuned models, we reduce latency and energy of up to 5.5x and 3.8x on the two targets respectively, without any accuracy loss.
翻訳日:2023-01-26 16:33:45 公開日:2023-01-24
# NeSIG: 計画問題生成のためのニューロシンボリックな学習方法

NeSIG: A Neuro-Symbolic Method for Learning to Generate Planning Problems ( http://arxiv.org/abs/2301.10280v1 )

ライセンス: Link先を確認
Carlos N\'u\~nez-Molina, Pablo Mesejo, Juan Fern\'andez-Olivares(参考訳) 自動計画の分野においては、例えば、機械学習のトレーニングデータや、計画競争のベンチマークとして使用するために、特定のドメインからの一連の計画問題が必要となることが多い。 ほとんどの場合、これらの問題は手動かドメイン固有のジェネレータによって作成され、人間のデザイナーに負担をかける。 本稿では,nesigを最善の知識として,有効で多様で解決が難しい計画問題を自動的に生成する,第1のドメインに依存しない手法を提案する。 我々は,問題生成をマルコフ決定プロセスとして定式化し,深い強化学習を用いて2つの生成方針を訓練し,望ましい特性を持つ問題を生成する。 我々は,いくつかの古典的領域で実験を行い,有効かつ多様な問題を生成するが難易度を最適化しない手作りのドメイン固有生成器と比較した。 その結果、NeSIGは、優れた多様性を維持しつつ、競合するアプローチよりも困難である有効な問題を自動生成できることを示した。

In the field of Automated Planning there is often the need for a set of planning problems from a particular domain, e.g., to be used as training data for Machine Learning or as benchmarks in planning competitions. In most cases, these problems are created either by hand or by a domain-specific generator, putting a burden on the human designers. In this paper we propose NeSIG, to the best of our knowledge the first domain-independent method for automatically generating planning problems that are valid, diverse and difficult to solve. We formulate problem generation as a Markov Decision Process and train two generative policies with Deep Reinforcement Learning to generate problems with the desired properties. We conduct experiments on several classical domains, comparing our method with handcrafted domain-specific generators that generate valid and diverse problems but do not optimize difficulty. The results show NeSIG is able to automatically generate valid problems of greater difficulty than the competitor approaches, while maintaining good diversity.
翻訳日:2023-01-26 16:33:12 公開日:2023-01-24
# 加速と現実化:2D材料はニューロモルフィック・ハードウェアと人間の脳のギャップを橋渡しできるか?

Accelerate & Actualize: Can 2D Materials Bridge the Gap Between Neuromorphic Hardware and the Human Brain? ( http://arxiv.org/abs/2301.10277v1 )

ライセンス: Link先を確認
Xiwen Liu, Keshava Katti, and Deep Jariwala(参考訳) 二次元(2D)材料は、従来の電子材料やシリコンベースのハードウェアとの統合を容易にするための電子構造、物理的性質、原子の薄いファンデルワールス構造の多様性のために、フォン・ノイマン計算アーキテクチャのパラダイムを超えてデバイスやシステムにエキサイティングな機会を与える。 非揮発性メモリ(NVM)デバイスの主要クラスは、ニューロモルフィックコンピューティングハードウェアへの応用のためのシナプスデバイスとしての動作を含む2D材料を用いて実証されている。 原子的に薄い構造、優れた物理的特性、すなわち機械的強度、電気的および熱的伝導度、およびゲート可変電子特性は、NVMデバイスやシステムにおいて性能上の利点と新規な機能をもたらす。 しかし、既存の材料や技術と比較してデバイスの性能と変動性は、実際のアプリケーションにとって大きな関心事である。 最終的に、新しい種類の電子材料としての2d材料の進歩、特にニューロモルフィックエレクトロニクスの分野でのそれらの応用は、所望の結晶品質、欠陥密度、位相純度を持つ薄膜形式のスケーラブルな合成に依存している。

Two-dimensional (2D) materials present an exciting opportunity for devices and systems beyond the von Neumann computing architecture paradigm due to their diversity of electronic structure, physical properties, and atomically-thin, van der Waals structures that enable ease of integration with conventional electronic materials and silicon-based hardware. All major classes of non-volatile memory (NVM) devices have been demonstrated using 2D materials, including their operation as synaptic devices for applications in neuromorphic computing hardware. Their atomically-thin structure, superior physical properties, i.e., mechanical strength, electrical and thermal conductivity, as well as gate-tunable electronic properties provide performance advantages and novel functionality in NVM devices and systems. However, device performance and variability as compared to incumbent materials and technology remain major concerns for real applications. Ultimately, the progress of 2D materials as a novel class of electronic materials and specifically their application in the area of neuromorphic electronics will depend on their scalable synthesis in thin-film form with desired crystal quality, defect density, and phase purity.
翻訳日:2023-01-26 16:32:52 公開日:2023-01-24
# 2次元材料中の量子エミッタの集団に対するひずみ誘起動的制御

Strain-induced dynamic control over the population of quantum emitters in two-dimensional materials ( http://arxiv.org/abs/2301.10273v1 )

ライセンス: Link先を確認
Matteo Savaresi, Abel Mart\'inez-Su\'arez, Davide Tedeschi, Giuseppe Ronco, Aurelio Hierro-Rodr\'iguez, Stephen McVitie, Sandra Stroj, Johannes Aberl, Moritz Brehm, Victor M. Garc\'ia-Su\'arez, Michele B. Rota, Pablo Alonso-Gonz\'alez, Javier Mart\'in-S\'anchez, Rinaldo Trotta(参考訳) 2次元材料における量子エミッタの発見は、量子フォトニクスへの適合性を評価する研究の急増を引き起こしている。 微視的な起源はまだ激しい研究の対象であるが、秩序ある量子エミッタの配列は、量子光放出が起こる2d結晶の局所領域に向けて励起子を駆動するために用いられる静的歪勾配を用いて日常的に製造される。 しかし、個々の量子エミッターの出現を制御するために動的手法でひずみを用いる可能性はまだ研究されていない。 そこで本研究では, WSe2単層膜を圧電柱に集積し, 静的および動的ひずみを生じさせるハイブリッド半導体-圧電素子を提案する。 静的ひずみは、光子反束を示す量子エミッタの形成を誘導するために初めて用いられる。 その励起子数と放出エネルギーは圧電柱への電圧印加によって可逆的に制御される。 ドリフト拡散方程式と組み合わせた数値シミュレーションにより、これらの効果はひずみによって引き起こされた分断ポテンシャルの地形の変化によるものであることが示される。 我々の研究は、2次元材料における量子エミッタの形成におけるひずみの役割に関する関連知見を提供し、必要に応じてそれらをオン/オフする方法を提案する。

The discovery of quantum emitters in two-dimensional materials has triggered a surge of research to assess their suitability for quantum photonics. While their microscopic origin is still the subject of intense studies, ordered arrays of quantum emitters are routinely fabricated using static strain-gradients, which are used to drive excitons toward localized regions of the 2D crystals where quantum-light-emission takes place. However, the possibility of using strain in a dynamic fashion to control the appearance of individual quantum emitters has never been explored so far. In this work, we tackle this challenge by introducing a novel hybrid semiconductor-piezoelectric device in which WSe2 monolayers are integrated onto piezoelectric pillars delivering both static and dynamic strains. Static strains are first used to induce the formation of quantum emitters, whose emission shows photon anti-bunching. Their excitonic population and emission energy are then reversibly controlled via the application of a voltage to the piezoelectric pillar. Numerical simulations combined with drift-diffusion equations show that these effects are due to a strain-induced modification of the confining-potential landscape, which in turn leads to a net redistribution of excitons among the different quantum emitters. Our work provides relevant insights into the role of strain in the formation of quantum emitters in 2D materials and suggests a method to switch them on and off on demand.
翻訳日:2023-01-26 16:32:30 公開日:2023-01-24
# CV-QKDにおけるコンポーザブルキーレートの改善

Improved composable key rates for CV-QKD ( http://arxiv.org/abs/2301.10270v1 )

ライセンス: Link先を確認
Stefano Pirandola and Panagiotis Papanastasiou(参考訳) 量子鍵分布(QKD)の現代のセキュリティ証明は、有限サイズ効果と構成可能な側面を考慮する必要がある。 これは、ボゾンコヒーレント状態の伝達と検出に基づく連続可変(CV)プロトコルのケースでもある。 本稿では,集団攻撃による汎用CV-QKDプロトコルの構成可能な鍵レートに関する改良式を提供するために,従来の理論に基づいて構築する。 次に,ガウス変調に基づく定式化を典型的なプロトコルに適用し,その性能を従来の結果と比較した。

Modern security proofs of quantum key distribution (QKD) must take finite-size effects and composable aspects into consideration. This is also the case for continuous-variable (CV) protocols which are based on the transmission and detection of bosonic coherent states. In this paper, we build on previous theory to provide an improved formula for the composable key rate of a generic CV-QKD protocol under collective attacks. We then apply the refined formula to typical protocols, based on Gaussian modulation, comparing their performance with previous results.
翻訳日:2023-01-26 16:32:05 公開日:2023-01-24
# マルチプレーン光変換によるセンシング回転

Sensing rotations with multiplane light conversion ( http://arxiv.org/abs/2301.10265v1 )

ライセンス: Link先を確認
M. Eriksson, A. Z. Goldberg, M. Hiekkam\"aki, F. Bouchard, G. Leuchs, R. Fickler and L. L. Sanchez-Soto(参考訳) 一般回転の3つのパラメータを推定する実験を報告する。 このスキームは量子クレーア・ラオ境界によって決定される究極の精度を達成する量子状態を用いる。 我々は、光の軌道角運動量を用いて実験的な状態を実現し、空間モードの有限集合上で任意のユニタリ変換を行うことができるマルチプレーン光変換装置を用いて回転を実装した。 観測された性能は、次世代の回転センサーの潜在的な応用範囲を示唆している。

We report an experiment estimating the three parameters of a general rotation. The scheme uses quantum states attaining the ultimate precision dictated by the quantum Cram\'er-Rao bound. We realize the states experimentally using the orbital angular momentum of light and implement the rotations with a multiplane light conversion setup, which allows one to perform arbitrary unitary transformations on a finite set of spatial modes. The observed performance suggests a range of potential applications in the next generation of rotation sensors.
翻訳日:2023-01-26 16:31:50 公開日:2023-01-24
# 古典重力と量子物質との一貫した結合は基本的に不可逆である

Any consistent coupling between classical gravity and quantum matter is fundamentally irreversible ( http://arxiv.org/abs/2301.10261v1 )

ライセンス: Link先を確認
Thomas D. Galley, Flaminia Giacomini, John H. Selby(参考訳) 重力が量子系によって導かれるとき、基本相互作用の仲介者としての役割と、本質的に古典的である時空の性質を決定する上での役割との間には緊張関係がある。 基本的には、この緊張は量子論または一般相対性理論の基本原理の1つを破ることになるが、特定のモデルに頼らずにどれかを評価するのは難しい。 本稿では、一般確率理論(GPT)を用いて、理論に依存しない方法でこの問題に答える。 重力場と単一物質系との相互作用を考察し、重力が古典的である場合、次の仮定の少なくとも1つに違反する必要があることを示すノーゴー定理を導出する。 (i) 物質の自由度は、完全に非古典的自由度によって記述される。 (ii)物質の自由度と重力場の相互作用は可逆的である。 (iii)重力場に対する自由度逆反応。 これは、古典重力と量子物質の理論は、オッペンハイムやアルの最近のモデルと同様に、基本的に不可逆であることを示している。 逆に、量子物質と重力場の間の相互作用が可逆であると仮定すると、重力場は古典的でない。

When gravity is sourced by a quantum system, there is tension between its role as the mediator of a fundamental interaction, which is expected to acquire nonclassical features, and its role in determining the properties of spacetime, which is inherently classical. Fundamentally, this tension should result in breaking one of the fundamental principles of quantum theory or general relativity, but it is usually hard to assess which one without resorting to a specific model. Here, we answer this question in a theory-independent way using General Probabilistic Theories (GPTs). We consider the interactions of the gravitational field with a single matter system, and derive a no-go theorem showing that when gravity is classical at least one of the following assumptions needs to be violated: (i) Matter degrees of freedom are described by fully non-classical degrees of freedom; (ii) Interactions between matter degrees of freedom and the gravitational field are reversible; (iii) Matter degrees of freedom back-react on the gravitational field. We argue that this implies that theories of classical gravity and quantum matter must be fundamentally irreversible, as is the case in the recent model of Oppenheim et al. Conversely if we require that the interaction between quantum matter and the gravitational field are reversible, then the gravitational field must be non-classical.
翻訳日:2023-01-26 16:31:38 公開日:2023-01-24
# SPIDER機器における干渉画像の学習

Learned Interferometric Imaging for the SPIDER Instrument ( http://arxiv.org/abs/2301.10260v1 )

ライセンス: Link先を確認
Matthijs Mars, Marta M. Betcke, Jason D. McEwen(参考訳) spider(segmented planar imaging detector for electro-optical reconnaissance for electro-optical reconnaissance)は、現在の大型宇宙望遠鏡の代替として、大きさ、重量、消費電力の削減を目的とした光学干渉イメージングデバイスである。 これは干渉イメージングによって達成される。 干渉計測による画像再構成の最先端手法は、計算コストが高く手作りの先行技術を必要とする近位最適化技術を採用している。 本研究では,SPIDER計測器を用いて画像再構成を行う2つの手法を提案する。 これらのアプローチでは、ディープラーニングを使用してトレーニングデータから事前情報を学習し、復元品質を高め、画像の復元に要する計算時間を格段に削減する。 復元時間は${\sim} 10$ミリ秒に短縮され、初めてSPIDERによるリアルタイムイメージングが可能になった。 さらに,天文画像などのトレーニングデータが少ない領域でも,十分なトレーニングデータが得られる領域からの転送学習を活用することで,これらの手法を適用できることを示す。

The Segmented Planar Imaging Detector for Electro-Optical Reconnaissance (SPIDER) is an optical interferometric imaging device that aims to offer an alternative to the large space telescope designs of today with reduced size, weight and power consumption. This is achieved through interferometric imaging. State-of-the-art methods for reconstructing images from interferometric measurements adopt proximal optimization techniques, which are computationally expensive and require handcrafted priors. In this work we present two data-driven approaches for reconstructing images from measurements made by the SPIDER instrument. These approaches use deep learning to learn prior information from training data, increasing the reconstruction quality, and significantly reducing the computation time required to recover images by orders of magnitude. Reconstruction time is reduced to ${\sim} 10$ milliseconds, opening up the possibility of real-time imaging with SPIDER for the first time. Furthermore, we show that these methods can also be applied in domains where training data is scarce, such as astronomical imaging, by leveraging transfer learning from domains where plenty of training data are available.
翻訳日:2023-01-26 16:31:07 公開日:2023-01-24
# RADTTSを用いた多言語多言語マルチスピーカTS

Multilingual Multiaccented Multispeaker TTS with RADTTS ( http://arxiv.org/abs/2301.10335v1 )

ライセンス: Link先を確認
Rohan Badlani, Rafael Valle, Kevin J. Shih, Jo\~ao Felipe Santos, Siddharth Gururani, Bryan Catanzaro(参考訳) 我々は,個々の音声の特徴を維持しつつ,適切なアクセントで音声を生成する多言語音声合成システムの構築に取り組んでいる。 これは、複数の言語でバイリンガルトレーニングデータを取得するのが高価であり、そのようなデータが欠如すると、話者、言語、アクセントが絡み合う強い相関関係が生まれ、転送能力が低下するからである。 これを解決するために、アクセント、言語、話者、きめ細かい$F_0$およびエネルギー特徴を明示的に制御したRADTTSに基づく多言語多話者音声合成モデルを提案する。 提案モデルはバイリンガル学習データに依存しない。 7つのアクセントからなるオープンソースのデータセットにおいて、任意の話者の合成アクセントを制御する能力を示す。 人間の主観的評価は、我々のモデルがコントロールされたベースラインよりも話者の声とアクセントの質を保ちつつ、すべてのターゲット言語とデータセットのアクセントで流行った音声を合成できることを示しています。

We work to create a multilingual speech synthesis system which can generate speech with the proper accent while retaining the characteristics of an individual voice. This is challenging to do because it is expensive to obtain bilingual training data in multiple languages, and the lack of such data results in strong correlations that entangle speaker, language, and accent, resulting in poor transfer capabilities. To overcome this, we present a multilingual, multiaccented, multispeaker speech synthesis model based on RADTTS with explicit control over accent, language, speaker and fine-grained $F_0$ and energy features. Our proposed model does not rely on bilingual training data. We demonstrate an ability to control synthesized accent for any speaker in an open-source dataset comprising of 7 accents. Human subjective evaluation demonstrates that our model can better retain a speaker's voice and accent quality than controlled baselines while synthesizing fluent speech in all target languages and accents in our dataset.
翻訳日:2023-01-26 16:24:47 公開日:2023-01-24
# 行動依存型非定常環境のオフポリティ評価

Off-Policy Evaluation for Action-Dependent Non-Stationary Environments ( http://arxiv.org/abs/2301.10330v1 )

ライセンス: Link先を確認
Yash Chandak, Shiv Shankar, Nathaniel D. Bastian, Bruno Castro da Silva, Emma Brunskil, Philip S. Thomas(参考訳) シーケンシャルな意思決定の方法は、根底にある決定プロセスが定常であるという基本的な仮定に基づいて構築されることが多い。 これは、実世界の問題は外部要因(パッシブ非定常性)、システム自体との相互作用によって引き起こされる変化(アクティブ非定常性)、あるいはその両方(ハイブリッド非定常性)によってしばしば変化するため、そのような方法の適用を制限する。 本研究では,アクティブ,パッシブ,ハイブリッドの非定常性による構造的変化の中で,オン・ポリシーおよびオフ・ポリシー評価の根本的な課題に向けて第一歩を踏み出す。 この目標に向けて,非定常性が経時変化をもたらすような高次定常性仮定を行うが,その方法が固定される。 本研究では,反事実推論の二重応用と,新しい重要度重み付け楽器変動回帰を用いて,政策の過去の業績の変化における構造構造の低バイアスと低分散推定を両立させるアルゴリズムを提案する。 最後に、非定常性を示す実世界のアプリケーションに触発されたいくつかの領域におけるOPENの将来のパフォーマンスを予測する方法について、有望な結果を示す。

Methods for sequential decision-making are often built upon a foundational assumption that the underlying decision process is stationary. This limits the application of such methods because real-world problems are often subject to changes due to external factors (passive non-stationarity), changes induced by interactions with the system itself (active non-stationarity), or both (hybrid non-stationarity). In this work, we take the first steps towards the fundamental challenge of on-policy and off-policy evaluation amidst structured changes due to active, passive, or hybrid non-stationarity. Towards this goal, we make a higher-order stationarity assumption such that non-stationarity results in changes over time, but the way changes happen is fixed. We propose, OPEN, an algorithm that uses a double application of counterfactual reasoning and a novel importance-weighted instrument-variable regression to obtain both a lower bias and a lower variance estimate of the structure in the changes of a policy's past performances. Finally, we show promising results on how OPEN can be used to predict future performances for several domains inspired by real-world applications that exhibit non-stationarity.
翻訳日:2023-01-26 16:24:28 公開日:2023-01-24
# サポートラインを用いた多次元クラスタの生成

Generating Multidimensional Clusters With Support Lines ( http://arxiv.org/abs/2301.10327v1 )

ライセンス: Link先を確認
Nuno Fachada, Diogo de Andrade(参考訳) 合成データは、クラスタリング技術の評価、実際のデータの補完と拡張、与えられた問題空間のより完全なカバレッジを可能にするために不可欠である。 結果として、合成データジェネレータは、よく理解された生成手順と、クラスタ分析アルゴリズムを体系的に調査するための解釈可能な手段を提供しながら、膨大な量のデータを生成する可能性がある。 ここでは、任意の分布を用いて線分で支えられた多次元クラスタを生成することができる合成データ生成のためのモジュラープロシージャである「textit{Clugen}」を提案する。 \textit{Clugen}はオープンソースで、100\%の単体テストと完全なドキュメントで、Python、R、Julia、MATLAB/Octaveエコシステムで利用可能である。 提案手法は,多様な次元においてリッチで多様な結果を生成することができ,クラスタリングアルゴリズムの評価に適しており,多様なクラスタリング関連研究タスクにおいて広く利用されるフレームワークとなる可能性を秘めている。

Synthetic data is essential for assessing clustering techniques, complementing and extending real data, and allowing for a more complete coverage of a given problem's space. In turn, synthetic data generators have the potential of creating vast amounts of data -- a crucial activity when real-world data is at premium -- while providing a well-understood generation procedure and an interpretable instrument for methodically investigating cluster analysis algorithms. Here, we present \textit{Clugen}, a modular procedure for synthetic data generation, capable of creating multidimensional clusters supported by line segments using arbitrary distributions. \textit{Clugen} is open source, 100\% unit tested and fully documented, and is available for the Python, R, Julia and MATLAB/Octave ecosystems. We demonstrate that our proposal is able to produce rich and varied results in various dimensions, is fit for use in the assessment of clustering algorithms, and has the potential to be a widely used framework in diverse clustering-related research tasks.
翻訳日:2023-01-26 16:24:09 公開日:2023-01-24
# オンデマンド量子ドット単一光子と共振原子量子メモリのコヒーレント量子相互結合

Coherent Quantum Interconnection between On-Demand Quantum Dot Single Photons and a Resonant Atomic Quantum Memory ( http://arxiv.org/abs/2301.10326v1 )

ライセンス: Link先を確認
Guo-Dong Cui, Lucas Schweickert, Klaus D. J\"ons, Mehdi Namazi, Thomas Lettner, Katharina D. Zeuner, Lara Scavuzzo Monta\~na, Saimon Filipe Covre da Silva, Marcus Reindl, Huiying Huang, Rinaldo Trotta, Armando Rastelli, Val Zwiller, Eden Figueroa(参考訳) 長距離量子通信は、絡み合い分布の量子的優位性を達成するために、インアウトライトマターインタフェースを開発する必要がある。 理想的には、これらの量子相互接続は、できるだけ早く、高速な絡み合った量子ビット分布を達成するべきである。 ここでは、GaAs量子ドットからオンデマンドに生成された単一光子と原子アンサンブルとのコヒーレント量子交換を、$^{87}$Rb蒸気量子メモリで示す。 開放量子系解析により、量子化された光子の電界と原子アンサンブルのコヒーレンスの間のマッピングを示す。 その結果,高速なハイブリッド量子ネットワーク構築に必要な短時間のスケールで,量子光・物質相互作用を理解する上で重要な役割を担っている。

Long-range quantum communication requires the development of in-out light-matter interfaces to achieve a quantum advantage in entanglement distribution. Ideally, these quantum interconnections should be as fast as possible to achieve high-rate entangled qubits distribution. Here, we demonstrate the coherent quanta exchange between single photons generated on-demand from a GaAs quantum dot and atomic ensemble in a $^{87}$Rb vapor quantum memory. Through an open quantum system analysis, we demonstrate the mapping between the quantized electric field of photons and the coherence of the atomic ensemble. Our results play a pivotal role in understanding quantum light-matter interactions at the short time scales required to build fast hybrid quantum networks.
翻訳日:2023-01-26 16:23:50 公開日:2023-01-24
# データから動的システムを学習する: 単純なクロスバリデーションの観点から : 第5報 132カオス力学系のためのスパースカーネルフロー

Learning Dynamical Systems from Data: A Simple Cross-Validation Perspective, Part V: Sparse Kernel Flows for 132 Chaotic Dynamical Systems ( http://arxiv.org/abs/2301.10321v1 )

ライセンス: Link先を確認
Lu Yang and Xiuwen Sun and Boumediene Hamzi and Houman Owhadi and Naiming Xie(参考訳) 有限個の観測状態から力学系のベクトル場を回帰することは、そのような系の代理モデルを学ぶ自然な方法である。 データから力学系を学ぶためのシンプルで解釈可能な方法は、そのベクトル場をカーネルフローを使って学習できるデータ適応カーネルと補間することである。 Kernel Flowsの方法は、カーネルの最適パラメータを、半分のデータを使用すると精度が著しく低下しない場合、カーネルが良いという前提に基づいて学習する訓練可能な機械学習手法である。 目的関数は短期的な予測か、他のカーネルフローの変種に対する他の目的かもしれない。 しかし、この方法はベースカーネルの選択によって制限される。 本稿では,カーネルの大辞典を出発点として,カーネルの ``best'' を学習するために, \emph{sparse kernel flow } の手法を提案する。 これは、要素核の線形結合であるカーネルのスパース化に基づいている。 このアプローチを132のカオスシステムのライブラリに適用する。

Regressing the vector field of a dynamical system from a finite number of observed states is a natural way to learn surrogate models for such systems. A simple and interpretable way to learn a dynamical system from data is to interpolate its vector-field with a data-adapted kernel which can be learned by using Kernel Flows. The method of Kernel Flows is a trainable machine learning method that learns the optimal parameters of a kernel based on the premise that a kernel is good if there is no significant loss in accuracy if half of the data is used. The objective function could be a short-term prediction or some other objective for other variants of Kernel Flows). However, this method is limited by the choice of the base kernel. In this paper, we introduce the method of \emph{Sparse Kernel Flows } in order to learn the ``best'' kernel by starting from a large dictionary of kernels. It is based on sparsifying a kernel that is a linear combination of elemental kernels. We apply this approach to a library of 132 chaotic systems.
翻訳日:2023-01-26 16:23:36 公開日:2023-01-24
# データ設計: 機械学習のための積極的なデータ収集とイテレーション

Designing Data: Proactive Data Collection and Iteration for Machine Learning ( http://arxiv.org/abs/2301.10319v1 )

ライセンス: Link先を確認
Aspen Hopkins, Fred Hohman, Luca Zappella, Xavier Suau Cuadros and Dominik Moritz(参考訳) データ収集の多様性の欠如は、機械学習(ML)アプリケーションに重大な障害を引き起こしている。 ML開発者はコンパイル後の介入を行うが、これらは時間がかかり、包括的ではない。 したがって、データセットが実世界の変動性を反映しているかどうかを評価するためには、データ収集、イテレーション、モデルトレーニングを追跡および管理する新しい方法が必要である。 本稿では,HCIの概念とML手法を結合するデータ収集における,反復的バイアス緩和手法であるデータ設計について述べる。 本プロセスは,(1)事前収集計画,(2)回帰的にプロンプトし,期待されるデータ分布を文書化する,(2)標本の多様性を体系的に奨励する収集監視,(3)不慣れなサンプルを分散(ood)手法で同定するデータ親密度を含む。 我々は、データ収集とMLケーススタディを適用して、設計データをインスタンス化する。 設計”データセットでトレーニングされたモデルが、同じようなサイズだがターゲットの少ないデータセットでトレーニングされたモデルよりも、交差点グループ間でより一般的なものになります。

Lack of diversity in data collection has caused significant failures in machine learning (ML) applications. While ML developers perform post-collection interventions, these are time intensive and rarely comprehensive. Thus, new methods to track and manage data collection, iteration, and model training are necessary for evaluating whether datasets reflect real world variability. We present designing data, an iterative, bias mitigating approach to data collection connecting HCI concepts with ML techniques. Our process includes (1) Pre-Collection Planning, to reflexively prompt and document expected data distributions; (2) Collection Monitoring, to systematically encourage sampling diversity; and (3) Data Familiarity, to identify samples that are unfamiliar to a model through Out-of-Distribution (OOD) methods. We instantiate designing data through our own data collection and applied ML case study. We find models trained on "designed" datasets generalize better across intersectional groups than those trained on similarly sized but less targeted datasets, and that data familiarity is effective for debugging datasets.
翻訳日:2023-01-26 16:23:18 公開日:2023-01-24
# 多項式から逆法への直接的還元

A Direct Reduction from the Polynomial to the Adversary Method ( http://arxiv.org/abs/2301.10317v1 )

ライセンス: Link先を確認
Aleksandrs Belovs(参考訳) 多項式と逆法は、量子アルゴリズムのクエリ複雑性に対する下界を証明する2つの主要なツールである。 どちらの方法も多くのアプリケーションを見つけており、いくつかの問題は1つの方法に適している。 逆法は一般の負重み付きバージョンでは有界誤差量子アルゴリズムでは厳密であるが、多項式法はそうではないことが知られている。 前者の厳密性により、任意の多項式下界に対して、対応する逆下界が存在するべきである。 しかし、直接の削減は分かっていない。 本稿では, 逆多項式法に対して, 多項式法(二重多項式の形で) から逆多項式法へ単純かつ直接還元する。 これは、双対多項式の形の任意の下界が、実際には特定の形式の逆下界であることを示している。

The polynomial and the adversary methods are the two main tools for proving lower bounds on query complexity of quantum algorithms. Both methods have found a large number of applications, some problems more suitable for one method, some for the other. It is known though that the adversary method, in its general negative-weighted version, is tight for bounded-error quantum algorithms, whereas the polynomial method is not. By the tightness of the former, for any polynomial lower bound, there ought to exist a corresponding adversary lower bound. However, direct reduction was not known. In this paper, we give a simple and direct reduction from the polynomial method (in the form of a dual polynomial) to the adversary method. This shows that any lower bound in the form of a dual polynomial is actually an adversary lower bound of a specific form.
翻訳日:2023-01-26 16:22:57 公開日:2023-01-24
# interactive-chain-prompting: 対話型言語間条件生成のための曖昧性解決

Interactive-Chain-Prompting: Ambiguity Resolution for Crosslingual Conditional Generation with Interaction ( http://arxiv.org/abs/2301.10309v1 )

ライセンス: Link先を確認
Jonathan Pilault, Xavier Garcia, Arthur Bra\v{z}inskas, Orhan Firat(参考訳) 言語間条件生成(例えば機械翻訳)は、長い間スケーリングの利点を享受してきた。 それでも、スケールだけでは克服できない問題がある。 例えば、ある言語のソースクエリは、余分なコンテキストを持たずに、別の言語で複数の翻訳オプションを生成できる。 しかし、翻訳者の好みや目標に応じて、1つの翻訳のみが受け入れられる。 間違ったオプションを選択することは翻訳の有用性と品質に大きな影響を与える可能性がある。 そこで本稿では,トランスレータモデルとユーザモデルの間の中間段階の一連の質問,回答,生成を行う対話型チェーンプロセッシング手法を提案し,あいまいさに対処するサブプロブレムのリストへの変換を減らし,最終的なテキストを生成する前にそのようなサブプロブレムを解消する。 曖昧さの解決能力を確認し,翻訳品質を評価するために,4つの言語の推論において曖昧さをもたらす異なる言語現象を示すデータセットを作成する。 この方向のさらなる探索を促進するため、すべてのデータセットをリリースする。 対話型チェーンのプロンプトは、8つのインタラクションを例示として、背景情報に直接アクセスしてあいまいさを解決するプロンプトベースの手法を一貫して上回っている。

Crosslingual conditional generation (e.g., machine translation) has long enjoyed the benefits of scaling. Nonetheless, there are still issues that scale alone may not overcome. A source query in one language, for instance, may yield several translation options in another language without any extra context. Only one translation could be acceptable however, depending on the translator's preferences and goals. Choosing the incorrect option might significantly affect translation usefulness and quality. We propose a novel method interactive-chain prompting -- a series of question, answering and generation intermediate steps between a Translator model and a User model -- that reduces translations into a list of subproblems addressing ambiguities and then resolving such subproblems before producing the final text to be translated. To check ambiguity resolution capabilities and evaluate translation quality, we create a dataset exhibiting different linguistic phenomena which leads to ambiguities at inference for four languages. To encourage further exploration in this direction, we release all datasets. We note that interactive-chain prompting, using eight interactions as exemplars, consistently surpasses prompt-based methods with direct access to background information to resolve ambiguities.
翻訳日:2023-01-26 16:22:44 公開日:2023-01-24
# 大きな言語モデルは、人間に似た物語イベントをセグメンテーションできる

Large language models can segment narrative events similarly to humans ( http://arxiv.org/abs/2301.10297v1 )

ライセンス: Link先を確認
Sebastian Michelmann, Manoj Kumar, Kenneth A. Norman, Mariya Toneva(参考訳) 人間は、連続した経験において、"restaurant visits"や"train rides"のような個別の出来事を知覚する。 人間の事象知覚を研究するための重要な前提条件の1つは、ある出来事が終わり、別の出来事が始まるときに、研究者が定量化できる能力である。 通常、この情報は複数の観察者から行動アノテーションを集約することによって導き出される。 本稿では,人間のアノテーションの代わりに,大規模言語モデル GPT-3 を用いてイベント境界を導出する手法を提案する。 GPT-3は連続した物語テキストをイベントに分割できることを示す。 GPT-3アノテーションはヒトのイベントアノテーションと大きく相関している。 さらに、これらのGPT由来のアノテーションは、(人間のアノテーションを平均化することによって得られる)「合意」ソリューションの良好な近似を実現し、GPT-3で特定される境界は、平均的に、個々の人間のアノテーションによって特定される境界よりも、コンセンサスに近い。 この結果は、GPT-3が自動イベントアノテーションの実現可能なソリューションであり、大きな言語モデルにおける人間の認識と予測のさらなる並列性を示すことを示唆している。 将来的には、GPT-3は人間の事象知覚の基礎となる原理の解明に役立つかもしれない。

Humans perceive discrete events such as "restaurant visits" and "train rides" in their continuous experience. One important prerequisite for studying human event perception is the ability of researchers to quantify when one event ends and another begins. Typically, this information is derived by aggregating behavioral annotations from several observers. Here we present an alternative computational approach where event boundaries are derived using a large language model, GPT-3, instead of using human annotations. We demonstrate that GPT-3 can segment continuous narrative text into events. GPT-3-annotated events are significantly correlated with human event annotations. Furthermore, these GPT-derived annotations achieve a good approximation of the "consensus" solution (obtained by averaging across human annotations); the boundaries identified by GPT-3 are closer to the consensus, on average, than boundaries identified by individual human annotators. This finding suggests that GPT-3 provides a feasible solution for automated event annotations, and it demonstrates a further parallel between human cognition and prediction in large language models. In the future, GPT-3 may thereby help to elucidate the principles underlying human event perception.
翻訳日:2023-01-26 16:22:27 公開日:2023-01-24
# リングキャビティにおけるフォトンエコー:パルス領域アプローチ

Photon echo in ring cavity: pulse area approach ( http://arxiv.org/abs/2301.10294v1 )

ライセンス: Link先を確認
Sergey A. Moiseev and Ravil V. Urmancheev(参考訳) 光と共鳴原子アンサンブルの共鳴相互作用を研究するための多用途解析ツールとしてパルス領域アプローチが確立されている。 近年、空洞補助スキームにおける光子とスピンエコーはますます興味深いものになっている。 本稿では,リングキャビティに配置された原子アンサンブルにおける一次および多重パルスエコー生成を記述するために,光子エコーパルス領域アプローチを開発する。 パルス領域アプローチは、相対エコーの大きさを予測し、システムが単一または複数パルス発生方式で動作しているかを示す。 また、これらの世代体制の実現に必要な条件も分析する。 本研究は、光及びマイクロ波空洞における光子/スピンエコーと量子メモリのエコーに基づくプロトコルの解析研究のためのパルス領域定理手法を開発する。

Pulse area approach has been established as a versatile analytical tool for studying the resonant interaction between the light and the resonant atomic ensemble. In recent years photon and spin echoes in cavity assisted schemes become increasingly interesting. In this article we develop the photon echo pulse area approach to describe primary and multi-pulse echo generation in the atomic ensemble placed in the ring cavity. We show that the pulse area approach predicts relative echo magnitudes and whether the system is operating in a single- or a multi-pulse generation regime. We also analyze the conditions needed for the realization of these generation regimes. This work develops the pulse area theorem approach for analytical study of photon/spin echoes in optical and microwave cavities and echo based protocols of quantum memory.
翻訳日:2023-01-26 16:22:12 公開日:2023-01-24
# ベクトルシンボリックアーキテクチャの容量解析

Capacity Analysis of Vector Symbolic Architectures ( http://arxiv.org/abs/2301.10352v1 )

ライセンス: Link先を確認
Kenneth L. Clarkson, Shashanka Ubaru, Elizabeth Yang(参考訳) 超次元コンピューティング(HDC)は、高次元ベクトルと様々なベクトル演算を用いてシンボルを表現・操作する生物学的に着想を得たフレームワークである。 特定のベクトル空間と2つのベクトル演算のアンサンブル(1つは「束ねる」、もう1つは「結合する」)は、「ベクトル記号アーキテクチャ」(VSA)と呼ばれるものを形成する。 VSAsは多くのアプリケーションで採用され、経験的に研究されているが、VSAsに関する多くの理論的疑問は未解決のままである。 我々は、人気のある3つのVSA(MAP-I, MAP-B, バイナリスパース)の*表現能力に関する理論的解析を行う。 ここでの表現能力は、ある記号的タスクを実行するのに必要なVSAベクトルの次元上の上限(例えば、集合メンバシップ$i \in S$のテストや、集合交叉サイズ$|S \cap T|$)を与えられた精度で推定する。 また、連想メモリの単純なモデルであるMAP-I VSAとホップフィールドネットワークの関係を記述し、通常VSAに要求されるのと同じタスクを実行するホップフィールドネットワークの能力を分析する。 MAP-I の解析では,Jonson-Lindenstrauss 変換のような *sketching* (Digitality reduction) アルゴリズムの出力として VSA ベクトルをキャストしている。 また、我々の知る限り、MAP-Iからの一般対結合の束におけるテストセットメンバシップの最初の分析も提供する。 バイナリスパースVSAはブルームフィルタと関連があることがよく知られており、ブルームフィルタとカウントブルームフィルタのセット交叉の解析を行う。 MAP-BとBinary Sparseの結合解析は、いくつかの濃度不等式の新しい応用を含む。

Hyperdimensional computing (HDC) is a biologically-inspired framework that uses high-dimensional vectors and various vector operations to represent and manipulate symbols. The ensemble of a particular vector space and two vector operations (one addition-like for "bundling" and one outer-product-like for "binding") form what is called a "vector symbolic architecture" (VSA). While VSAs have been employed in numerous applications and studied empirically, many theoretical questions about VSAs remain open. We provide theoretical analyses for the *representation capacities* of three popular VSAs: MAP-I, MAP-B, and Binary Sparse. Representation capacity here refers to upper bounds on the dimensions of the VSA vectors required to perform certain symbolic tasks (such as testing for set membership $i \in S$ and estimating set intersection sizes $|S \cap T|$) to a given degree of accuracy. We also describe a relationship between the MAP-I VSA to Hopfield networks, which are simple models of associative memory, and analyze the ability of Hopfield networks to perform some of the same tasks that are typically asked of VSAs. Our analysis of MAP-I casts the VSA vectors as the outputs of *sketching* (dimensionality reduction) algorithms such as the Johnson-Lindenstrauss transform; this provides a clean, simple framework for obtaining bounds on MAP-I's representation capacity. We also provide, to our knowledge, the first analysis of testing set membership in a bundle of general pairwise bindings from MAP-I. Binary sparse VSAs are well-known to be related to Bloom filters; we give analyses of set intersection for Bloom and Counting Bloom filters. Our analysis of MAP-B and Binary Sparse bundling include new applications of several concentration inequalities.
翻訳日:2023-01-26 16:15:04 公開日:2023-01-24
# トウガラシの葉形質の個体群的解析を可能にする少ないショット学習

Few-Shot Learning Enables Population-Scale Analysis of Leaf Traits in Populus trichocarpa ( http://arxiv.org/abs/2301.10351v1 )

ライセンス: Link先を確認
John Lagergren, Mirko Pavicic, Hari B. Chhetri, Larry M. York, P. Doug Hyatt, David Kainer, Erica M. Rutter, Kevin Flores, Gail Taylor, Daniel Jacobson, Jared Streich(参考訳) 植物表現型は一般的に、時間と費用のかかる取り組みであり、研究者の大規模な集団は、生物学的に関連のある植物形質を注意深く測定する必要がある。 本研究では,これらの課題に対して,畳み込みニューラルネットワーク(CNN)を用いて,葉体を分割し,フィールドで得られた2,906 P. trichocarpa の葉像を可視化する。 従来の手法とは対照的に、我々のアプローチ (i)実験的又は画像前処理を必要としない。 (ii)RGBの生画像をフル解像度で使用し、 (iii) 訓練に必要なサンプルはごくわずかである(例:静脈セグメンテーションの8つの画像のみ)。 従来のオープンソース画像処理ツールを用いて得られたセグメンテーションから葉形態および静脈トポロジーに関連する形質を抽出し、実世界の物理的測定を用いて検証し、ゲノムワイドな関連研究を行い、形質を制御する遺伝子を同定する。 このようにして、現在の作業は、植物表現型コミュニティを提供するように設計されている。 (i)最小限のトレーニングデータを必要とする高速で正確な画像に基づく特徴抽出方法 (ii)ドメイン科学者や機械学習研究者のための、68種類のリーフ表現型を含む新しい集団規模のデータセット。 数発の学習コード、データ、結果はすべて公開されています。

Plant phenotyping is typically a time-consuming and expensive endeavor, requiring large groups of researchers to meticulously measure biologically relevant plant traits, and is the main bottleneck in understanding plant adaptation and the genetic architecture underlying complex traits at population scale. In this work, we address these challenges by leveraging few-shot learning with convolutional neural networks (CNNs) to segment the leaf body and visible venation of 2,906 P. trichocarpa leaf images obtained in the field. In contrast to previous methods, our approach (i) does not require experimental or image pre-processing, (ii) uses the raw RGB images at full resolution, and (iii) requires very few samples for training (e.g., just eight images for vein segmentation). Traits relating to leaf morphology and vein topology are extracted from the resulting segmentations using traditional open-source image-processing tools, validated using real-world physical measurements, and used to conduct a genome-wide association study to identify genes controlling the traits. In this way, the current work is designed to provide the plant phenotyping community with (i) methods for fast and accurate image-based feature extraction that require minimal training data, and (ii) a new population-scale data set, including 68 different leaf phenotypes, for domain scientists and machine learning researchers. All of the few-shot learning code, data, and results are made publicly available.
翻訳日:2023-01-26 16:14:31 公開日:2023-01-24
# 動的時間ウォーピングのコスト関数のパラメータ化と時系列分類への応用

Parameterizing the cost function of Dynamic Time Warping with application to time series classification ( http://arxiv.org/abs/2301.10350v1 )

ライセンス: Link先を確認
Matthieu Herrmann, Chang Wei Tan, Geoffrey I. Webb(参考訳) ダイナミック・タイム・ワーピング (dynamic time warping, dtw) は、2シリーズの点を互いに整列させる一般的な時系列距離尺度である。 これらのアライメントは、異なる速度で展開するプロセスを可能にするために時間次元のウォーピングをサポートする。 距離は、時間次元の許容可能なワープに対して得られるアライメントの最小コストである。 2つの点のアライメントのコストは、それらの点の値の差の関数である。 原価関数はこの差の絶対値であった。 他のコスト関数も提案されている。 人気があるのは、その違いの正方形だ。 しかし、我々の知る限り、これは異なるコスト関数を使用することによる相対的な影響と、異なるタスクにコスト関数をチューニングする可能性の両方についての最初の調査である。 この論文では、パラメータ {\gamma} を持つチューナブルコスト関数 {\lambda}{\gamma} を用いることで、そうする。 高い値がより大きい対の差に重みを置くのに対し、低い値はより小さい対の差に重みを置くことを示す。 我々は、DTW近傍と近接森林分類器の両方の精度を大幅に向上させることを実証した。

Dynamic Time Warping (DTW) is a popular time series distance measure that aligns the points in two series with one another. These alignments support warping of the time dimension to allow for processes that unfold at differing rates. The distance is the minimum sum of costs of the resulting alignments over any allowable warping of the time dimension. The cost of an alignment of two points is a function of the difference in the values of those points. The original cost function was the absolute value of this difference. Other cost functions have been proposed. A popular alternative is the square of the difference. However, to our knowledge, this is the first investigation of both the relative impacts of using different cost functions and the potential to tune cost functions to different tasks. We do so in this paper by using a tunable cost function {\lambda}{\gamma} with parameter {\gamma}. We show that higher values of {\gamma} place greater weight on larger pairwise differences, while lower values place greater weight on smaller pairwise differences. We demonstrate that training {\gamma} significantly improves the accuracy of both the DTW nearest neighbor and Proximity Forest classifiers.
翻訳日:2023-01-26 16:14:06 公開日:2023-01-24
# GePA*SE: 低速評価のための一般化エッジベース並列A*

GePA*SE: Generalized Edge-Based Parallel A* for Slow Evaluations ( http://arxiv.org/abs/2301.10347v1 )

ライセンス: Link先を確認
Shohin Mukherjee, Maxim Likhachev(参考訳) 並列探索アルゴリズムは、現代のプロセッサのマルチスレッド機能を活用することにより、計画速度を改善することが示されている。 このようなアルゴリズムの1つは状態展開を並列化することでこれを達成し、もう1つはエッジ評価を効果的に並列化する。 ePA*SEは、アクション空間が高価なが同様の評価時間を持つアクションを含むドメインをターゲットにしている。 しかし、多くのロボット分野において、アクションのコストとその結果を評価するのに必要な計算作業において、アクション空間は異種である。 そこで我々は,GePA*SEについて紹介する: 一般化エッジベースParallel A* for Slow Evaluationsは,PA*SEとePA*SEのキーアイデア,すなわち状態展開とエッジ評価の並列化を一般化する。 これは、それらを評価するのに様々な計算労力を必要とするアクションを持つドメインに適用性を拡張する。 特に,動作プリミティブの計算に安価かつ高価な動作空間を有する高自由度ロボットアームの操作計画に焦点をあてた。 gepa*seのオープンソースコードとベースラインはここで入手できる。 https://github.com/shohinm/parallel_search。

Parallel search algorithms have been shown to improve planning speed by harnessing the multithreading capability of modern processors. One such algorithm PA*SE achieves this by parallelizing state expansions, whereas another algorithm ePA*SE achieves this by effectively parallelizing edge evaluations. ePA*SE targets domains in which the action space comprises actions with expensive but similar evaluation times. However, in a number of robotics domains, the action space is heterogenous in the computational effort required to evaluate the cost of an action and its outcome. Motivated by this, we introduce GePA*SE: Generalized Edge-based Parallel A* for Slow Evaluations, which generalizes the key ideas of PA*SE and ePA*SE i.e. parallelization of state expansions and edge evaluations respectively. This extends its applicability to domains that have actions requiring varying computational effort to evaluate them. In particular, we focus on manipulation planning for a high-DoF robot arm which has an action space comprising both cheap and expensive to compute motion primitives. The open-source code for GePA*SE along with the baselines is available here: https://github.com/shohinm/parallel_search
翻訳日:2023-01-26 16:13:47 公開日:2023-01-24
# climax: 気象と気候の基礎モデル

ClimaX: A foundation model for weather and climate ( http://arxiv.org/abs/2301.10343v1 )

ライセンス: Link先を確認
Tung Nguyen, Johannes Brandstetter, Ashish Kapoor, Jayesh K. Gupta, Aditya Grover(参考訳) 天気と気候のモデリングに対する最先端のアプローチのほとんどは、物理に則った大気の数値モデルに基づいている。 これらのアプローチは、近似が難しい複数の変数間の非線形ダイナミクスと複雑な相互作用をモデル化することを目的としている。 さらに、このような数値モデルの多くは、特に大気現象を微粒な空間分解能と時間分解能でモデル化する場合、計算集約的である。 機械学習に基づく最近のデータ駆動アプローチは、ディープニューラルネットワークを使用してデータ駆動機能マッピングを学習することで、下流の予測や投影タスクを直接解決することを目指している。 しかしながら、これらのネットワークは、特定の時空間的タスクのために、キュレートされた均質な気候データセットを使用して訓練されるため、数値モデルの一般化が欠如している。 さまざまな変数、時空間カバレッジ、物理的接地にまたがる不均質なデータセットを使用してトレーニング可能な、気象と気候科学のための柔軟で汎用的なディープラーニングモデルであるclimaxを開発し、実証する。 ClimaXはTransformerアーキテクチャを拡張し、汎用性を維持しながら利用可能な計算を効果的に利用できる新しいエンコーディングと集約ブロックを提供する。 ClimaXはCMIP6から派生した気候データセットの自己教師型学習目標で事前訓練されている。 事前訓練されたクライマックスは、予訓練中に大気変数や時空間スケールを含む、様々な気候や気象タスクに対処するために微調整することができる。 既存のデータ駆動ベースラインと比較して,ClimaXのこの一般化は,低解像度や計算予算で事前訓練した場合でも,天気予報や気象予報のベンチマークにおいて優れた性能を示すことを示す。

Most state-of-the-art approaches for weather and climate modeling are based on physics-informed numerical models of the atmosphere. These approaches aim to model the non-linear dynamics and complex interactions between multiple variables, which are challenging to approximate. Additionally, many such numerical models are computationally intensive, especially when modeling the atmospheric phenomenon at a fine-grained spatial and temporal resolution. Recent data-driven approaches based on machine learning instead aim to directly solve a downstream forecasting or projection task by learning a data-driven functional mapping using deep neural networks. However, these networks are trained using curated and homogeneous climate datasets for specific spatiotemporal tasks, and thus lack the generality of numerical models. We develop and demonstrate ClimaX, a flexible and generalizable deep learning model for weather and climate science that can be trained using heterogeneous datasets spanning different variables, spatio-temporal coverage, and physical groundings. ClimaX extends the Transformer architecture with novel encoding and aggregation blocks that allow effective use of available compute while maintaining general utility. ClimaX is pre-trained with a self-supervised learning objective on climate datasets derived from CMIP6. The pre-trained ClimaX can then be fine-tuned to address a breadth of climate and weather tasks, including those that involve atmospheric variables and spatio-temporal scales unseen during pretraining. Compared to existing data-driven baselines, we show that this generality in ClimaX results in superior performance on benchmarks for weather forecasting and climate projections, even when pretrained at lower resolutions and compute budgets.
翻訳日:2023-01-26 16:13:27 公開日:2023-01-24
# AutoCost: ゼロ違反強化学習の本質的なコスト向上

AutoCost: Evolving Intrinsic Cost for Zero-violation Reinforcement Learning ( http://arxiv.org/abs/2301.10339v1 )

ライセンス: Link先を確認
Tairan He, Weiye Zhao, Changliu Liu(参考訳) 安全性は、現実世界の制御タスクへの深層強化学習(RL)の適用を制限する重要なハードルである。 この目的のために、制約付き強化学習はコスト関数を利用してマルコフ決定プロセスの安全性を向上させる。 しかし、そのような制約付きRL法は、コスト制限がゼロであってもゼロ違反を達成できない。 本稿では,そのような障害の原因を解析し,制約付きrlにおいて適切なコスト関数が重要な役割を果たすことを示唆する。 この分析にインスパイアされたAutoCostは、制約付きRLがゼロ違反性能を達成するのに役立つコスト関数を自動的に検索する、シンプルで効果的なフレームワークである。 安全なRLベンチマークであるSafety Gym上で提案手法と検索コスト関数を検証した。 我々は,我々のコスト関数を用いた補助エージェントの性能を,同じ政策学習者を用いるベースラインエージェントに付加的な内在コストを提供するために比較する。 その結果,全環境における本質的なコストを伴う収束ポリシは制約違反をゼロとし,ベースラインに匹敵する性能を達成できた。

Safety is a critical hurdle that limits the application of deep reinforcement learning (RL) to real-world control tasks. To this end, constrained reinforcement learning leverages cost functions to improve safety in constrained Markov decision processes. However, such constrained RL methods fail to achieve zero violation even when the cost limit is zero. This paper analyzes the reason for such failure, which suggests that a proper cost function plays an important role in constrained RL. Inspired by the analysis, we propose AutoCost, a simple yet effective framework that automatically searches for cost functions that help constrained RL to achieve zero-violation performance. We validate the proposed method and the searched cost function on the safe RL benchmark Safety Gym. We compare the performance of augmented agents that use our cost function to provide additive intrinsic costs with baseline agents that use the same policy learners but with only extrinsic costs. Results show that the converged policies with intrinsic costs in all environments achieve zero constraint violation and comparable performance with baselines.
翻訳日:2023-01-26 16:13:00 公開日:2023-01-24
# この抽象化はAIによって生成されるか? AIによる科学テキストと人文科学テキストのギャップに関する研究

Is This Abstract Generated by AI? A Research for the Gap between AI-generated Scientific Text and Human-written Scientific Text ( http://arxiv.org/abs/2301.10416v1 )

ライセンス: Link先を確認
Yongqiang Ma, Jiawei Liu, Fan Yi(参考訳) 背景: 最近のニューラル言語モデルは、非常に制御性が高く、滑らかで、文法的なテキストを生成する上で大きな一歩を踏み出した。 最近の研究によると、AI生成のテキストは、クラウドソーシングワーカーのための人間による文章とは区別できないが、AI生成のテキストには、さらに微妙で見つけにくい誤りがある。 方法:本論文では,AIが生み出す科学内容と人間による文章とのギャップについて検討する。 具体的には、まず、GPT生成した科学的テキストを検出するために、利用可能なツールやモデルをいくつか採用する。 次に,2種類のコンテンツ間の類似点と相違点を分析するために,文体の特徴を利用する。 さらに、一貫性、一貫性、言語冗長性、事実的誤りといった、より複雑で深い視点も、詳細な分析のために考慮される。 RESULT: 結果は、AIが人間の書いたコンテンツと同じくらい正確な科学的コンテンツを生成できる可能性を示唆していますが、深さと全体的な品質の差はまだあります。 AIが生成する科学コンテンツは、言語冗長性や事実上の問題にエラーを含むことが多い。 結論:AI生成科学テキストと人文科学テキストの間に「書体スタイル」のギャップが存在することがわかった。 さらに,解析結果に基づいて,未知あるいは新規な領域分布と異なる生成法に使用できる,モデルに依存しない,あるいは分布に依存しない一連の特徴を要約する。 今後の研究は、高品質なコンテンツを生成するためのAIモデルの能力の向上だけでなく、AI生成コンテンツの生成と使用に関する倫理的およびセキュリティ上の懸念の調査と対処にも焦点をあてるべきである。

BACKGROUND: Recent neural language models have taken a significant step forward in producing remarkably controllable, fluent, and grammatical text. Although some recent works have found that AI-generated text is not distinguishable from human-authored writing for crowd-sourcing workers, there still exist errors in AI-generated text which are even subtler and harder to spot. METHOD: In this paper, we investigate the gap between scientific content generated by AI and written by humans. Specifically, we first adopt several publicly available tools or models to investigate the performance for detecting GPT-generated scientific text. Then we utilize features from writing style to analyze the similarities and differences between the two types of content. Furthermore, more complex and deep perspectives, such as consistency, coherence, language redundancy, and factual errors, are also taken into consideration for in-depth analysis. RESULT: The results suggest that while AI has the potential to generate scientific content that is as accurate as human-written content, there is still a gap in terms of depth and overall quality. AI-generated scientific content is more likely to contain errors in language redundancy and factual issues. CONCLUSION: We find that there exists a ``writing style'' gap between AI-generated scientific text and human-written scientific text. Moreover, based on the analysis result, we summarize a series of model-agnostic or distribution-agnostic features, which could be utilized to unknown or novel domain distribution and different generation methods. Future research should focus on not only improving the capabilities of AI models to produce high-quality content but also examining and addressing ethical and security concerns related to the generation and the use of AI-generated content.
翻訳日:2023-01-26 15:56:54 公開日:2023-01-24
# 面外磁化イットリウム鉄ガーネット膜におけるマグノンBECの直接観察

Direct observation of magnon BEC in an out-of-plane magnetized yttrium iron garnet film ( http://arxiv.org/abs/2301.10725v1 )

ライセンス: Link先を確認
G. A. Knyazev, A. N. Kuzmichev, P. E. Petrov, I. V. Savochkin, P. M. Vetoshko, V. I. Belotelov, Yu. M. Bunkov(参考訳) ボース・エインステイン凝縮は、その質量と温度に応じて、ボソニック粒子の適切な密度で起こる。 スピン波状態からマノンボース・アインシュタイン凝縮状態(mbec)への移行をマイクロ波ポンピングにより実験的に観察することができた。 光学的手法を用いてマグノン密度と位相の空間分布を登録した。 初めて、定常マグノンのコヒーレントな状態が、その励起領域から遠く離れた場所で証明された。

Bose-Einstain condensation occurs at an appropriate density of bosonic particles, depending on their mass and temperature. We were able to experimentally observe the transition from the spin wave regime to the magnon Bose-Einstein condensed state (mBEC) with increasing magnon density by a microwave pumping. We used optical methods to register the spatial distribution of the magnon density and phase. For the first time, a coherent state of stationary magnons was demonstrated far from the region of their excitation.
翻訳日:2023-01-26 14:43:58 公開日:2023-01-24
# スペクトルデータ分類のための1次元畳み込みニューラルネットワークと機械学習アルゴリズム : Covid-19のケーススタディ

1D Convolutional neural networks and machine learning algorithms for spectral data classification with a case study for Covid-19 ( http://arxiv.org/abs/2301.10746v1 )

ライセンス: Link先を確認
Breno Aguiar Krohling and Renato A Krohling(参考訳) 機械学習とディープラーニングのアルゴリズムは、様々な分野の知識の問題解決にますます使われている。 これらの領域のうち、ケモメトリックスはスペクトルデータ解析におけるこれらのアルゴリズムの適用から恩恵を受けている。 一般的に、Support Vector MachinesやPartial Least Squaresといったアルゴリズムがスペクトルデータセットに適用され、分類や回帰処理が行われる。 本稿では,1次元畳み込みニューラルネットワーク (1d-cnn) を提案する。 ほとんどの場合、スペクトル信号は騒がしく、クラス間で重複している。 まず,1d-cnnを機械学習アルゴリズムやケモメトリックスで用いられる標準アルゴリズムと比較し,文献で利用可能な最も既知のデータセットのスペクトルデータ分類について広範な実験を行った。 次に、新型コロナウイルスの原因となるSARS-COV2ウイルスのスペクトルサンプルを、最近、分光分析によって収集した。 実験の結果、機械学習アルゴリズムや標準アルゴリズムよりも1d-cnnの方が優れた性能を示し、平均精度96.5%、特異性98%、感度94%を得た。 その結果,将来的には1d-cnnを自動システムで感染症などのウイルス疾患を診断できる可能性が示唆された。

Machine and deep learning algorithms have increasingly been applied to solve problems in various areas of knowledge. Among these areas, Chemometrics has been benefited from the application of these algorithms in spectral data analysis. Commonly, algorithms such as Support Vector Machines and Partial Least Squares are applied to spectral datasets to perform classification and regression tasks. In this paper, we present a 1D convolutional neural networks (1D-CNN) to evaluate the effectiveness on spectral data obtained from spectroscopy. In most cases, the spectrum signals are noisy and present overlap among classes. Firstly, we perform extensive experiments including 1D-CNN compared to machine learning algorithms and standard algorithms used in Chemometrics on spectral data classification for the most known datasets available in the literature. Next, spectral samples of the SARS-COV2 virus, which causes the COVID-19, have recently been collected via spectroscopy was used as a case study. Experimental results indicate superior performance of 1D-CNN over machine learning algorithms and standard algorithms, obtaining an average accuracy of 96.5%, specificity of 98%, and sensitivity of 94%. The promissing obtained results indicate the feasibility to use 1D-CNN in automated systems to diagnose COVID-19 and other viral diseases in the future.
翻訳日:2023-01-26 14:33:33 公開日:2023-01-24
# 食品安全シナリオの影響評価のための枠組み

A Framework for Evaluating the Impact of Food Security Scenarios ( http://arxiv.org/abs/2301.09320v2 )

ライセンス: Link先を確認
Rachid Belmeskine, Abed Benaichouche(参考訳) 本研究は,食品の安全性に及ぼすシナリオの影響を予測し,その応用を事例研究で示すアプローチを提案する。 このアプローチには,(1)シナリオ定義,(2)シナリオテンプレートを用いてシナリオの仮定と影響をエンドユーザが指定するシナリオ定義,(2)シナリオ評価,(3)ベクトル自己回帰(VAR)モデルをモンテカルロシミュレーションと組み合わせてシナリオの影響を予測するシナリオ評価,の2つのステップがある。 このケーススタディは、国連食糧農業機関(faostat)、世界銀行、アメリカ合衆国農務省(usda)のデータを用いて作成された、プロプライエタリな時系列食品安全保障データベースに基づいている。 データベースには、生産、貿易、消費、価格、可用性、アクセス、栄養価など、食品の安全に関する様々な指標に関する幅広いデータが含まれている。 その結果,提案手法は,食品セキュリティに対するシナリオの潜在的な影響を予測するために,また,プロプライエタリな時系列食品セキュリティデータベースを用いて,このアプローチをサポートすることができることが示された。 この研究は、このアプローチが、食品価格やケーススタディ地域での可用性などの食品の安全性に関する意思決定プロセスにどのように影響を与えるかについて、具体的な洞察を提供する。

This study proposes an approach for predicting the impacts of scenarios on food security and demonstrates its application in a case study. The approach involves two main steps: (1) scenario definition, in which the end user specifies the assumptions and impacts of the scenario using a scenario template, and (2) scenario evaluation, in which a Vector Autoregression (VAR) model is used in combination with Monte Carlo simulation to generate predictions for the impacts of the scenario based on the defined assumptions and impacts. The case study is based on a proprietary time series food security database created using data from the Food and Agriculture Organization of the United Nations (FAOSTAT), the World Bank, and the United States Department of Agriculture (USDA). The database contains a wide range of data on various indicators of food security, such as production, trade, consumption, prices, availability, access, and nutritional value. The results show that the proposed approach can be used to predict the potential impacts of scenarios on food security and that the proprietary time series food security database can be used to support this approach. The study provides specific insights on how this approach can inform decision-making processes related to food security such as food prices and availability in the case study region.
翻訳日:2023-01-25 15:16:15 公開日:2023-01-24
# FRAME:エゴセントリックなマルチロボット探査のための高速でロバストな3Dポイントクラウドマップの統合

FRAME: Fast and Robust Autonomous 3D point cloud Map-merging for Egocentric multi-robot exploration ( http://arxiv.org/abs/2301.09213v2 )

ライセンス: Link先を確認
Nikolaos Stathoulopoulos, Anton Koval, Ali-akbar Agha-mohammadi and George Nikolakopoulos(参考訳) 本稿では,ロボットの姿勢に対する手動の初期推測や事前の知識に依存しない重なり検出とアライメントに基づく,自己中心型異種マルチロボット探索のための3Dポイントクラウドマップ統合フレームワークを提案する。 提案手法では,最先端の場所認識学習記述子を用いて,フレームワークのメインパイプラインを通じて高速かつ堅牢な領域重複推定を行う。これにより,一般的に3次元マップ統合で使用されるグローバルな特徴抽出と特徴マッチングプロセスの必要性がなくなる。 領域重なり推定は、ポイントクラウド登録アルゴリズムであるFast-GICPの初期条件として適用され、最終的なアライメントと洗練されたアライメントを提供する均一な剛性変換を提供する。 提案手法の有効性は,地上と空中の両方のロボットを配置し,センサ構成が異なる地下環境における複数フィールド多ロボット探査ミッションに基づいて実験的に評価される。

This article presents a 3D point cloud map-merging framework for egocentric heterogeneous multi-robot exploration, based on overlap detection and alignment, that is independent of a manual initial guess or prior knowledge of the robots' poses. The novel proposed solution utilizes state-of-the-art place recognition learned descriptors, that through the framework's main pipeline, offer a fast and robust region overlap estimation, hence eliminating the need for the time-consuming global feature extraction and feature matching process that is typically used in 3D map integration. The region overlap estimation provides a homogeneous rigid transform that is applied as an initial condition in the point cloud registration algorithm Fast-GICP, which provides the final and refined alignment. The efficacy of the proposed framework is experimentally evaluated based on multiple field multi-robot exploration missions in underground environments, where both ground and aerial robots are deployed, with different sensor configurations.
翻訳日:2023-01-25 15:15:53 公開日:2023-01-24
# 追加パーソナライゼーションによるフェデレーション勧告

Federated Recommendation with Additive Personalization ( http://arxiv.org/abs/2301.09109v2 )

ライセンス: Link先を確認
Zhiwei Li, Guodong Long, Tianyi Zhou(参考訳) プライバシに関する懸念が高まる中、連合環境でのレコメンデーションシステムの開発は、次世代のインターネットサービスアーキテクチャを開発するための新しいパラダイムとなる。 しかしながら、既存のアプローチは通常、プライバシ保護のための追加メカニズムを備えた分散レコメンデーションフレームワークから派生しているため、ほとんどのアプローチは、連合レコメンデーション設定の新しいコンテキストにおいて、パーソナライズを完全に活用できない。 本稿では,ユーザ埋め込みを学習し,ユーザによるアイテム埋め込みの個人的視点を学習することで推奨を高める,FedRAP(Federated Recommendation with Additive Personalization)と呼ばれる新しいアプローチを提案する。 具体的には、すべてのユーザから集約されたスパースなグローバルアイテム埋め込みにパーソナライズされたアイテムを追加することでパーソナライズする。 また,クライアント固有の項目埋め込みのばらつきが大きいことによる性能低下を軽減するために,正規化重みを徐々に増やすことで,項目埋め込みの個人化を付加するカリキュラム学習機構が適用されている。 通信オーバヘッドを低減するため,グローバルアイテム埋め込みの疎正規化により統一的な定式化が提案されている。 4つの実世界のレコメンデーションデータセットの実験結果から,FedRAPの有効性が示された。

With rising concerns about privacy, developing recommendation systems in a federated setting become a new paradigm to develop next-generation Internet service architecture. However, existing approaches are usually derived from a distributed recommendation framework with an additional mechanism for privacy protection, thus most of them fail to fully exploit personalization in the new context of federated recommendation settings. In this paper, we propose a novel approach called Federated Recommendation with Additive Personalization (FedRAP) to enhance recommendation by learning user embedding and the user's personal view of item embeddings. Specifically, the proposed additive personalization is to add a personalized item embedding to a sparse global item embedding aggregated from all users. Moreover, a curriculum learning mechanism has been applied for additive personalization on item embeddings by gradually increasing regularization weights to mitigate the performance degradation caused by large variances among client-specific item embeddings. A unified formulation has been proposed with a sparse regularization of global item embeddings for reducing communication overhead. Experimental results on four real-world recommendation datasets demonstrate the effectiveness of FedRAP.
翻訳日:2023-01-25 15:15:34 公開日:2023-01-24
# 擬似微分作用素の効率的な量子ブロック符号化について

On efficient quantum block encoding of pseudo-differential operators ( http://arxiv.org/abs/2301.08908v2 )

ライセンス: Link先を確認
Haoya Li, Hongkang Ni, Lexing Ying(参考訳) ブロック符号化は多くの既存の量子アルゴリズムの中核にある。 一方、高密度作用素の効率的かつ明示的なブロック符号化は、一般に難しい問題として認識される。 本稿では、擬微分演算子(PDOs)と呼ばれる高密度演算子のリッチなファミリーのブロック符号化に関する包括的研究を行う。 まず、汎用PDOのブロック符号化方式を開発する。 次に、分離可能な構造を持つPDOのより効率的なスキームを提案する。 最後に,完全分離構造を持つpdoに対する明示的かつ効率的なブロック符号化アルゴリズムを示す。 複雑度解析は、提示された全てのブロック符号化アルゴリズムに対して提供される。 理論結果の適用例は、変数係数楕円演算子の表現や、量子線形系アルゴリズム(QLSA)を起動せずに楕円演算子の逆演算などである。

Block encoding lies at the core of many existing quantum algorithms. Meanwhile, efficient and explicit block encodings of dense operators are commonly acknowledged as a challenging problem. This paper presents a comprehensive study of the block encoding of a rich family of dense operators: the pseudo-differential operators (PDOs). First, a block encoding scheme for generic PDOs is developed. Then we propose a more efficient scheme for PDOs with a separable structure. Finally, we demonstrate an explicit and efficient block encoding algorithm for PDOs with a dimension-wise fully separable structure. Complexity analysis is provided for all block encoding algorithms presented. The application of theoretical results is illustrated with worked examples, including the representation of variable coefficient elliptic operators and the computation of the inverse of elliptic operators without invoking quantum linear system algorithms (QLSAs).
翻訳日:2023-01-25 15:15:13 公開日:2023-01-24
# E(n)-等価性をもつ空間的注意運動ネットワーク

Spatial Attention Kinetic Networks with E(n)-Equivariance ( http://arxiv.org/abs/2301.08893v2 )

ライセンス: Link先を確認
Yuanqing Wang and John D. Chodera(参考訳) n-次元幾何空間上の回転、変換、反射、置換に同値なニューラルネットワークは、複雑なポテンシャルエネルギー表面を正確かつ安価にモデル化し、複雑な力学系のサンプリングや時間発展を導くといったタスクの物理モデリングにおいて、期待されている。 現在の最先端の手法では、計算コストが高い粒子間の高次相互作用を符号化するために球面調和を用いる。 本稿では,ノード環境を普遍的に近似しながら等価性を達成するために,エッジベクトルの神経パラメータ付き線形結合を用いた簡易な代替関数形式を提案する。 この知見を取り入れた空間的注意運動ネットワークをE(n)-equivariance(SAKE)を用いて設計し、多体モデリングタスクにおいて極めて高速な動作を実現する。

Neural networks that are equivariant to rotations, translations, reflections, and permutations on n-dimensional geometric space have shown promise in physical modeling for tasks such as accurately but inexpensively modeling complex potential energy surfaces to guiding the sampling of complex dynamical systems or forecasting their time evolution. Current state-of-the-art methods employ spherical harmonics to encode higher-order interactions among particles, which are computationally expensive. In this paper, we propose a simple alternative functional form that uses neurally parametrized linear combinations of edge vectors to achieve equivariance while still universally approximating node environments. Incorporating this insight, we design spatial attention kinetic networks with E(n)-equivariance, or SAKE, which are competitive in many-body system modeling tasks while being significantly faster.
翻訳日:2023-01-25 15:15:02 公開日:2023-01-24
# AccDecoder: ニューラル強化ビデオ分析のための高速化デコーディング

AccDecoder: Accelerated Decoding for Neural-enhanced Video Analytics ( http://arxiv.org/abs/2301.08664v2 )

ライセンス: Link先を確認
Tingting Yuan, Liang Mi, Weijun Wang, Haipeng Dai, Xiaoming Fu(参考訳) ビデオストリームの品質は、ニューラルネットワークベースのビデオ分析の鍵となる。 しかし、低品質ビデオは、例えばアップストリーム帯域幅の制限などにより、低品質カメラや過剰圧縮/縮小ビデオストリーミングプロトコルによって、既存の監視システムによって必然的に収集される。 この問題に対処するために、既存の研究では、画質向上器(例えば、ニューラル超解像)を使用してビデオの品質を改善する(例えば、解像度)。 それでも、品質向上剤の直接適用は、受け入れられないレイテンシをもたらすため、実際には機能しない。 本稿では,リアルタイム・ニューラルエンハンスドビデオ解析のための新しい高速化デコーダ accdecoder を提案する。 AccDecoderは、Deep Reinforcement Learning (DRL)を介して適応的にいくつかのフレームを選択して、ニューラル超解像により品質を高め、参照する未選択フレームをスケールアップすることで、精度が6-21%向上する。 AccDecoderは、DNNベースの推論のためにDRLを使用して重要なフレームをフィルタリングし、フレームとブロック間の参照関係を抽出することで、他のフレームに対して結果を再利用することで効率的な推論機能を提供する。

The quality of the video stream is key to neural network-based video analytics. However, low-quality video is inevitably collected by existing surveillance systems because of poor quality cameras or over-compressed/pruned video streaming protocols, e.g., as a result of upstream bandwidth limit. To address this issue, existing studies use quality enhancers (e.g., neural super-resolution) to improve the quality of videos (e.g., resolution) and eventually ensure inference accuracy. Nevertheless, directly applying quality enhancers does not work in practice because it will introduce unacceptable latency. In this paper, we present AccDecoder, a novel accelerated decoder for real-time and neural-enhanced video analytics. AccDecoder can select a few frames adaptively via Deep Reinforcement Learning (DRL) to enhance the quality by neural super-resolution and then up-scale the unselected frames that reference them, which leads to 6-21% accuracy improvement. AccDecoder provides efficient inference capability via filtering important frames using DRL for DNN-based inference and reusing the results for the other frames via extracting the reference relationship among frames and blocks, which results in a latency reduction of 20-80% than baselines.
翻訳日:2023-01-25 15:14:45 公開日:2023-01-24
# 強化学習による生成スレート勧告

Generative Slate Recommendation with Reinforcement Learning ( http://arxiv.org/abs/2301.08632v2 )

ライセンス: Link先を確認
Romain Deffayet, Thibaut Thonet, Jean-Michel Renders, Maarten de Rijke(参考訳) 最近の研究では、レコメンダシステムにおける長期ユーザエンゲージメントを最適化するために強化学習(rl)アルゴリズムを採用しており、ユーザの退屈さやフィルターバブルのような一般的な落とし穴を回避している。 彼らはレコメンデーションのシーケンシャルでインタラクティブな性質を捉え、長期的な報酬に対処し、筋電図的行動を避けるための原則的な方法を提供する。 しかしながら、RLアプローチは、組み合わせアクション空間のため、各相互作用ターンで項目のリストが推奨されるスレートレコメンデーションシナリオにおいて、難解である。 この設定では、アクションはアイテムの組み合わせを含むことができるスレートに対応する。 従来の研究では、トラクタビリティを確保するためにアクションを適切に分解することを提案したが、これらは制限的、時には非現実的な仮定に依存している。 そこで本研究では,変分オートエンコーダによって学習される連続的で低次元な潜在空間にスレートを符号化する手法を提案する。 そして、RLエージェントは、この潜伏空間における連続的な作用を選択し、最終的に対応するスレートにデコードされる。 そうすることで私たちは (i)前回の作業に必要な仮定を緩和し、 (二)独立した項目の代わりにフルスレートをモデル化することにより行動選択の質を向上させる。 シミュレーション環境で行った実験では,ベースラインの基礎となる制約的な仮定が解除された場合のベースラインに対するスレート生成モデルの有効性を確認した。 以上より,生成モデルを用いた表現学習は,一般化された rl ベーススレートレコメンデーションへの有望な方向であることが示唆された。

Recent research has employed reinforcement learning (RL) algorithms to optimize long-term user engagement in recommender systems, thereby avoiding common pitfalls such as user boredom and filter bubbles. They capture the sequential and interactive nature of recommendations, and thus offer a principled way to deal with long-term rewards and avoid myopic behaviors. However, RL approaches are intractable in the slate recommendation scenario - where a list of items is recommended at each interaction turn - due to the combinatorial action space. In that setting, an action corresponds to a slate that may contain any combination of items. While previous work has proposed well-chosen decompositions of actions so as to ensure tractability, these rely on restrictive and sometimes unrealistic assumptions. Instead, in this work we propose to encode slates in a continuous, low-dimensional latent space learned by a variational auto-encoder. Then, the RL agent selects continuous actions in this latent space, which are ultimately decoded into the corresponding slates. By doing so, we are able to (i) relax assumptions required by previous work, and (ii) improve the quality of the action selection by modeling full slates instead of independent items, in particular by enabling diversity. Our experiments performed on a wide array of simulated environments confirm the effectiveness of our generative modeling of slates over baselines in practical scenarios where the restrictive assumptions underlying the baselines are lifted. Our findings suggest that representation learning using generative models is a promising direction towards generalizable RL-based slate recommendation.
翻訳日:2023-01-25 15:14:21 公開日:2023-01-24
# 言語非依存データ駆動逆テキスト正規化

Language Agnostic Data-Driven Inverse Text Normalization ( http://arxiv.org/abs/2301.08506v2 )

ライセンス: Link先を確認
Szu-Jui Chen, Debjyoti Paul, Yutong Pang, Peng Su, Xuedong Zhang(参考訳) 自動音声認識(ASR)モデルが出現すると、音声形式のテキスト(ASRから)を書式に変換することが緊急に必要となる。 この逆テキスト正規化(ITN)問題は、様々な分野から研究者の注目を集めている。 近年,データ駆動型itn手法が高品質な書式テキストを出力できることが示されている。 ラベル付き音声データセットの不足のため、非英語データ駆動型itnの研究は非常に限られている。 本研究では,このギャップを埋めるため,言語に依存しないITNフレームワークを提案する。 具体的には、低リソース言語のためのニューラルネットワーク変換データと組み合わせて、データ拡張を利用する。 さらに,英語データのみを利用可能とする言語非依存itnモデルの評価手法を設計する。 この言語非依存モデリングアプローチは,高リソース言語の性能を維持しつつ低リソース言語に有効であることを示す。

With the emergence of automatic speech recognition (ASR) models, converting the spoken form text (from ASR) to the written form is in urgent need. This inverse text normalization (ITN) problem attracts the attention of researchers from various fields. Recently, several works show that data-driven ITN methods can output high-quality written form text. Due to the scarcity of labeled spoken-written datasets, the studies on non-English data-driven ITN are quite limited. In this work, we propose a language-agnostic data-driven ITN framework to fill this gap. Specifically, we leverage the data augmentation in conjunction with neural machine translated data for low resource languages. Moreover, we design an evaluation method for language agnostic ITN model when only English data is available. Our empirical evaluation shows this language agnostic modeling approach is effective for low resource languages while preserving the performance for high resource languages.
翻訳日:2023-01-25 15:13:55 公開日:2023-01-24
# アフターワンプロブレムアウト性能予測のためのRF+クラスト

RF+clust for Leave-One-Problem-Out Performance Prediction ( http://arxiv.org/abs/2301.09524v2 )

ライセンス: Link先を確認
Ana Nikolikj, Carola Doerr, Tome Eftimov(参考訳) per-instance automatic algorithm configuration and selectionは近年、進化的計算において重要な瞬間を得ている。 自動化機械学習(automl)の2つの重要な、時には暗黙的な要素は 1)問題インスタンスの特徴に基づく表現と 2) 特定のアルゴリズムインスタンスが与えられた問題インスタンス上でどれだけうまく機能するかを推定するために,特徴を入力とする性能予測手法。 当然のことながら、一般的な機械学習モデルでは、特徴に基づく表現が不足している、あるいはトレーニングデータにカバーされていないインスタンスの予測に失敗し、トレーニング中に見られない問題に対するモデルの一般化能力が低下する。 本研究では,特徴空間におけるコサイン類似度を用いて,性能予測を求める課題に十分近い問題インスタンスに対して,アルゴリズムが求めた性能値の重み付け平均値を用いて,標準ランダムフォレスト(rf)モデル予測を改善することができるかを分析する。 rf+clustアプローチは,いくつかの問題に対してより正確な性能予測を行うが,その予測能力は,選択された類似度閾値と,コサイン類似度を測定する特徴ポートフォリオに依存する。

Per-instance automated algorithm configuration and selection are gaining significant moments in evolutionary computation in recent years. Two crucial, sometimes implicit, ingredients for these automated machine learning (AutoML) methods are 1) feature-based representations of the problem instances and 2) performance prediction methods that take the features as input to estimate how well a specific algorithm instance will perform on a given problem instance. Non-surprisingly, common machine learning models fail to make predictions for instances whose feature-based representation is underrepresented or not covered in the training data, resulting in poor generalization ability of the models for problems not seen during training.In this work, we study leave-one-problem-out (LOPO) performance prediction. We analyze whether standard random forest (RF) model predictions can be improved by calibrating them with a weighted average of performance values obtained by the algorithm on problem instances that are sufficiently close to the problem for which a performance prediction is sought, measured by cosine similarity in feature space. While our RF+clust approach obtains more accurate performance prediction for several problems, its predictive power crucially depends on the chosen similarity threshold as well as on the feature portfolio for which the cosine similarity is measured, thereby opening a new angle for feature selection in a zero-shot learning setting, as LOPO is termed in machine learning.
翻訳日:2023-01-25 15:04:44 公開日:2023-01-24
# 頭蓋顔面重ね合わせの識別限界に関する研究

Study on the identification limits of craniofacial superimposition ( http://arxiv.org/abs/2301.09461v2 )

ライセンス: Link先を確認
\'Oscar Ib\'a\~nez, Enrique Bermejo, Andrea Valsecchi(参考訳) 頭蓋顔面の重ね合わせは、頭蓋骨の像と多数の人物のアンテモーテム顔像の重ね合わせと、その形態的対応の分析を含む。 1世紀にわたって使われてきたが、堅固な科学的アプローチ、重要な信頼性研究、国際標準がないため、まだ成熟して完全に受け入れられた技術ではない。 本稿では,鑑識識別技術としての頭蓋顔面重ね合わせの限界に関する包括的実験を行う。 この研究は、ランドマークに基づく自動3D/2D重ね合わせ法による100万回以上の比較実験を含む。 分析対象は320名, 頭蓋顔面ランドマーク29名であった。

Craniofacial Superimposition involves the superimposition of an image of a skull with a number of ante-mortem face images of an individual and the analysis of their morphological correspondence. Despite being used for one century, it is not yet a mature and fully accepted technique due to the absence of solid scientific approaches, significant reliability studies, and international standards. In this paper we present a comprehensive experimentation on the limitations of Craniofacial Superimposition as a forensic identification technique. The study involves different experiments over more than 1 Million comparisons performed by a landmark-based automatic 3D/2D superimposition method. The total sample analyzed consists of 320 subjects and 29 craniofacial landmarks.
翻訳日:2023-01-25 15:04:20 公開日:2023-01-24
# 差を強調するために類似性を用いる:胸部x線登録法における解剖学的仮定の影響について

Employing similarity to highlight differences: On the impact of anatomical assumptions in chest X-ray registration methods ( http://arxiv.org/abs/2301.09338v2 )

ライセンス: Link先を確認
Astrid Berg, Eva Vandersmissen, Maria Wimmer, David Major, Theresa Neubauer, Dimitrios Lenis, Jeroen Cant, Annemiek Snoeckx and Katja B\"uhler(参考訳) 胸部x線所見の検出と解釈を容易にするため、同じ患者の以前の画像との比較は放射線科医にとって非常に有用である。 現在、胸部X線を自動的に検査するディープラーニング手法の最も一般的なアプローチは、患者の歴史を無視し、単一の画像のみを正常または異常に分類するものである。 それにもかかわらず、画像登録による比較作業を支援するいくつかの方法が過去に提案されている。 しかし, 心内膜や灌流などの病理学的変化を見逃しがちである。 固定解剖学的構造の仮定や登録品質の測定により、動画像と固定画像の差異の可視化に影響を及ぼす不自然に変形したワープ場が生成される。 我々は,解剖学的ペナライズド登録のための個々のリブペアセグメンテーションに基づく新しいパラダイムを通じて,これらの制限を克服することを目指している。 本手法は,ワープフィールドの折り畳み率を術式の1/6に制限する自然な方法であり,リブの重なりを25%以上増加させ,他の方法で見落とされた病理像の相違を示唆するものである。 国立衛生研究所(NIH)データセット上で,25点未満から50点のラベル付きトレーニング画像から,ホールドロップアウト,弱いラベル付け,粗大な微細化,ガウス混合ヒストグラムマッチングを用いて,解剖学的にペナル化された畳み込み多段階解を開発した。 本手法の利点を統計的に評価し,現在使用されている胸部x線登録基準の限界を強調する。

To facilitate both the detection and the interpretation of findings in chest X-rays, comparison with a previous image of the same patient is very valuable to radiologists. Today, the most common approach for deep learning methods to automatically inspect chest X-rays disregards the patient history and classifies only single images as normal or abnormal. Nevertheless, several methods for assisting in the task of comparison through image registration have been proposed in the past. However, as we illustrate, they tend to miss specific types of pathological changes like cardiomegaly and effusion. Due to assumptions on fixed anatomical structures or their measurements of registration quality, they produce unnaturally deformed warp fields impacting visualization of differences between moving and fixed images. We aim to overcome these limitations, through a new paradigm based on individual rib pair segmentation for anatomy penalized registration. Our method proves to be a natural way to limit the folding percentage of the warp field to 1/6 of the state of the art while increasing the overlap of ribs by more than 25%, implying difference images showing pathological changes overlooked by other methods. We develop an anatomically penalized convolutional multi-stage solution on the National Institutes of Health (NIH) data set, starting from less than 25 fully and 50 partly labeled training images, employing sequential instance memory segmentation with hole dropout, weak labeling, coarse-to-fine refinement and Gaussian mixture model histogram matching. We statistically evaluate the benefits of our method and highlight the limits of currently used metrics for registration of chest X-rays.
翻訳日:2023-01-25 15:04:10 公開日:2023-01-24
# 大規模事前学習型言語モデルでストーリーテリングを学習できる例は少ないか?

Can Very Large Pretrained Language Models Learn Storytelling With A Few Examples? ( http://arxiv.org/abs/2301.09790v1 )

ライセンス: Link先を確認
Zhuohan Xie, Trevor Cohn, Jey Han Lau(参考訳) 事前学習された言語モデルは、ストーリーの自動生成のために個別に流れる文を生成することができるが、それらは一貫性があり、賢明で興味深いストーリーを生成するのに苦労している。 現在のSOTA(State-of-the-art)ストーリー生成モデルは、プロットやコモンセンス知識のような高レベルな特徴を使って、生成されたストーリーの品質を改善する。 GPT3のような非常に大きな事前学習言語モデル(VLPLM)を用いたプロンプトベースの学習は、様々なNLPタスクでさえ、印象的な性能を示した。 本稿では,vlplmのストーリー生成能力を,スタイル,レジスタ,長さの異なる3種類のデータセットにおけるsomaモデルと比較するために,vlplmの自動評価と人間評価を用いた広範囲な研究を行った。 その結果、vlplmは、他のストーリー生成モデルよりもずっと高品質なストーリーを創造し、ある程度のライバルの人間作家を輩出したが、予備的な調査により、世界の知識を伴うシナリオにおいて、実際のストーリーが'plagiarise''になる傾向があることが判明した。

While pre-trained language models can generate individually fluent sentences for automatic story generation, they struggle to generate stories that are coherent, sensible and interesting. Current state-of-the-art (SOTA) story generation models explore using higher-level features such as plots or commonsense knowledge to improve the quality of generated stories. Prompt-based learning using very large pre-trained language models (VLPLMs) such as GPT3 has demonstrated impressive performance even across various NLP tasks. In this paper, we present an extensive study using automatic and human evaluation to compare the story generation capability of VLPLMs to those SOTA models in three different datasets where stories differ in style, register and length. Our results show that VLPLMs generate much higher quality stories than other story generation models, and to a certain extent rival human authors, although preliminary investigation also reveals that they tend to ``plagiarise'' real stories in scenarios that involve world knowledge.
翻訳日:2023-01-25 14:40:27 公開日:2023-01-24
# Transformer-Patcher:ニューロン1個分のミス

Transformer-Patcher: One Mistake worth One Neuron ( http://arxiv.org/abs/2301.09785v1 )

ライセンス: Link先を確認
Zeyu Huang, Yikang Shen, Xiaofeng Zhang, Jie Zhou, Wenge Rong, Zhang Xiong(参考訳) 大規模トランスフォーマーベースの事前訓練言語モデル(PLM)が、ほぼすべての自然言語処理(NLP)タスクを支配している。 それでも、彼らは時々間違いを犯します。 産業環境にデプロイされたモデルの場合、これらのミスを迅速かつ堅牢に修正することは、ユーザエクスペリエンスを改善する上で不可欠です。 以前の作業では、モデル編集(ME)のような問題を形式化し、主に1つのミスの修正に重点を置いています。 しかし、ワンミス修正シナリオは現実世界の課題の正確な抽象化ではない。 aiサービスのデプロイでは、繰り返し発生する間違いがあり、修正が間に合わなければ同じ間違いが再発する可能性がある。 したがって、望ましい解決策は、失敗が止まらないように見えるとすぐに修正することです。 そこで我々は,既存のMEを逐次モデル編集(SME)に拡張し,より実用的な編集手法の開発を支援する。 我々の研究は、現在のmeメソッドのほとんどが、このシナリオで不満足な結果が得られることを示している。 次にtransformer-patcherを紹介する。transformer-patcherは、最後のフィードフォワードネットワーク層に数個のニューロンを追加してトレーニングするだけで、transformerベースのモデルの振る舞いをシフトできる新しいモデルエディタである。 分類タスクと生成タスクの両方の実験結果から、Transformer-Patcherは数千のエラー(信頼性)を逐次修正し、その等価な入力(一般性)に一般化し、無関係な入力(ローカリティ)に対するモデルの精度を維持する。 提案手法は,従来の微調整およびハイパーネットワークに基づく手法より優れ,逐次モデル編集(SME)の最先端性能を実現する。 コードはhttps://github.com/zeroyuhuang/transformer-patcherで入手できる。

Large Transformer-based Pretrained Language Models (PLMs) dominate almost all Natural Language Processing (NLP) tasks. Nevertheless, they still make mistakes from time to time. For a model deployed in an industrial environment, fixing these mistakes quickly and robustly is vital to improve user experiences. Previous works formalize such problems as Model Editing (ME) and mostly focus on fixing one mistake. However, the one-mistake-fixing scenario is not an accurate abstraction of the real-world challenge. In the deployment of AI services, there are ever-emerging mistakes, and the same mistake may recur if not corrected in time. Thus a preferable solution is to rectify the mistakes as soon as they appear nonstop. Therefore, we extend the existing ME into Sequential Model Editing (SME) to help develop more practical editing methods. Our study shows that most current ME methods could yield unsatisfying results in this scenario. We then introduce Transformer-Patcher, a novel model editor that can shift the behavior of transformer-based models by simply adding and training a few neurons in the last Feed-Forward Network layer. Experimental results on both classification and generation tasks show that Transformer-Patcher can successively correct up to thousands of errors (Reliability) and generalize to their equivalent inputs (Generality) while retaining the model's accuracy on irrelevant inputs (Locality). Our method outperforms previous fine-tuning and HyperNetwork-based methods and achieves state-of-the-art performance for Sequential Model Editing (SME). The code is available at https://github.com/ZeroYuHuang/Transformer-Patcher.
翻訳日:2023-01-25 14:40:11 公開日:2023-01-24
# ニューラルベースビデオコーデックエンハンスメントのためのビットレートの差分推定

Differentiable bit-rate estimation for neural-based video codec enhancement ( http://arxiv.org/abs/2301.09776v1 )

ライセンス: Link先を確認
Amir Said, Manish Kumar Singh, Reza Pourreza(参考訳) ニューラルネットワーク(NN)は、符号化されたビデオの前処理と後処理によって、標準的なビデオ圧縮を改善することができる。 最適なnnトレーニングには、標準的なコーデックを、勾配バックプロパゲーションに使用される推定ビットレートと歪みのデリバティブを提供するコーデックプロキシに置き換える必要がある。 標準コーデックのエントロピー符号化は変換係数間の非線形依存性を考慮した設計であるため、ビットレートは単純な対係数推定器では十分に近似できない。 本稿では,エンド・ツー・エンドのニューラルコーデックのトレーニングに使用されるタイプに類似したビットレート推定のための新しい手法を提案する。 これは、推定値とその勾配に対する閉形式公式を提供する数学的モデルから定義され、計算複雑性を減少させる。 実験結果はHEVC/H.265コーデックビットレートの推定における手法の精度を示す。

Neural networks (NN) can improve standard video compression by pre- and post-processing the encoded video. For optimal NN training, the standard codec needs to be replaced with a codec proxy that can provide derivatives of estimated bit-rate and distortion, which are used for gradient back-propagation. Since entropy coding of standard codecs is designed to take into account non-linear dependencies between transform coefficients, bit-rates cannot be well approximated with simple per-coefficient estimators. This paper presents a new approach for bit-rate estimation that is similar to the type employed in training end-to-end neural codecs, and able to efficiently take into account those statistical dependencies. It is defined from a mathematical model that provides closed-form formulas for the estimates and their gradients, reducing the computational complexity. Experimental results demonstrate the method's accuracy in estimating HEVC/H.265 codec bit-rates.
翻訳日:2023-01-25 14:39:40 公開日:2023-01-24
# 模倣学習のための言語誘導タスク適応

Language-guided Task Adaptation for Imitation Learning ( http://arxiv.org/abs/2301.09770v1 )

ライセンス: Link先を確認
Prasoon Goyal, Raymond J. Mooney, Scott Niekum(参考訳) 本稿では,自然言語でコミュニケーションするタスク間の差異を指標として,関連するタスクのデモンストレーションからタスクを学習する,新たな設定を提案する。 提案された設定では、少ない労力の言語記述を提供することで、他のタスクからのデモンストレーションを再利用することが可能であり、エージェントエラーを修正するためのフィードバックを提供するためにも使用できる。 この提案された設定の進捗を可能にするために、さまざまなタスク適応をカバーする2つのベンチマーク、Room RearrangementとRoom Navigationを作成します。 さらに、タスクのエンティティとその関係を推論するためにトランスフォーマティブベースのモデルを用いて、対象タスクのポリシーを学ぶフレームワークを提案する。

We introduce a novel setting, wherein an agent needs to learn a task from a demonstration of a related task with the difference between the tasks communicated in natural language. The proposed setting allows reusing demonstrations from other tasks, by providing low effort language descriptions, and can also be used to provide feedback to correct agent errors, which are both important desiderata for building intelligent agents that assist humans in daily tasks. To enable progress in this proposed setting, we create two benchmarks -- Room Rearrangement and Room Navigation -- that cover a diverse set of task adaptations. Further, we propose a framework that uses a transformer-based model to reason about the entities in the tasks and their relationships, to learn a policy for the target task
翻訳日:2023-01-25 14:39:24 公開日:2023-01-24
# Truveta Mapper: ゼロショットオントロジーアライメントフレームワーク

Truveta Mapper: A Zero-shot Ontology Alignment Framework ( http://arxiv.org/abs/2301.09767v1 )

ライセンス: Link先を確認
Mariyam Amir, Murchana Baruah, Mahsa Eslamialishah, Sina Ehsani, Alireza Bahramali, Sadra Naddaf-Sh, Saman Zarandioon(参考訳) 本稿では,教師なしオントロジーマッチング(OM)やオントロジーアライメント(OA)を翻訳タスクとして扱うことにより,新たな視点を提案する。 オントロジーはグラフとして表現され、ソースオントロジーグラフのノードからターゲットオントロジーグラフのパスへの変換が行われる。 提案手法であるtruveta mapper (tm) はマルチタスクシーケンスからシーケンスへのトランスフォーマーモデルを利用して,ゼロショット,統一,エンドツーエンドの方法で複数のオントロジー間のアライメントを行う。 マルチタスクにより、手動で明示的な相互オントロジーデータを必要とすることなく、トランスファーラーニングを通じて異なるオントロジー間の関係を暗黙的に学習することができる。 これにより、フォーム化されたフレームワークが、ランタイムレイテンシとアライメント品質の両方において、既存のソリューションを上回ることができる。 モデルは事前トレーニングされ、公開されているテキストコーパスと内部オントロジーデータのみに微調整される。 提案されたソリューションは、最先端のアプローチ、Edit-Similarity、LogMap、AML、BERTMap、および最近発表されたオントロジーアライメント評価イニシアチブ(OAEI22)における新しいOMフレームワークよりも優れており、既存のエンドツーエンドメソッドの2次処理とは対照的に、ログ線形の複雑さを提供する。

In this paper, a new perspective is suggested for unsupervised Ontology Matching (OM) or Ontology Alignment (OA) by treating it as a translation task. Ontologies are represented as graphs, and the translation is performed from a node in the source ontology graph to a path in the target ontology graph. The proposed framework, Truveta Mapper (TM), leverages a multi-task sequence-to-sequence transformer model to perform alignment across multiple ontologies in a zero-shot, unified and end-to-end manner. Multi-tasking enables the model to implicitly learn the relationship between different ontologies via transfer-learning without requiring any explicit cross-ontology manually labeled data. This also enables the formulated framework to outperform existing solutions for both runtime latency and alignment quality. The model is pre-trained and fine-tuned only on publicly available text corpus and inner-ontologies data. The proposed solution outperforms state-of-the-art approaches, Edit-Similarity, LogMap, AML, BERTMap, and the recently presented new OM frameworks in Ontology Alignment Evaluation Initiative (OAEI22), offers log-linear complexity in contrast to quadratic in the existing end-to-end methods, and overall makes the OM task efficient and more straightforward without much post-processing involving mapping extension or mapping repair.
翻訳日:2023-01-25 14:39:12 公開日:2023-01-24
# ディクサラスマニピュレーションのための制約付き強化学習

Constrained Reinforcement Learning for Dexterous Manipulation ( http://arxiv.org/abs/2301.09766v1 )

ライセンス: Link先を確認
Abhineet Jain, Jack Kolb and Harish Ravichandar(参考訳) 既存の学習アプローチでは、デモや環境との相互作用を使ってブラックボックスニューラルネットワークをトレーニングし、ロボットがどのようにスキルを学ぶか、ポストトレーニングを実行するかをほとんど制御できない。 これらのアプローチは、トレーニングの初期段階において、ロボットの動作が自身のハードウェアや環境、あるいはその周辺にいる人間に不利で潜在的に有害である可能性があるため、物理的プラットフォームに実装された場合、重大な課題となる。 これらの制限に対処する潜在的な方法は、トレーニング中のロボットの動作やロールアウトを制限し、ガイドする学習中に制約を加えることである。 他領域における制約付きアプローチの成功に触発されて,24-DOFロボットハンドラーに位置に基づく制約を加えて,制約付きポリシー最適化を用いてオブジェクトの移動を行う方法を検討した。 単純な幾何学的制約は、ロボットが制約なしに物体に向かって動くことを学習することを保証する。 さらに、この制約によるトレーニングでは、スキルを習得するためには、非制約のサンプルと同じ数のサンプルが必要になる。 これらの発見は、ロボットが敏感で安全な動作を素早く達成し、ハードウェアの展開に関する懸念を緩和する上で、いかにシンプルな制約が役立つかを明らかにした。 また,これらの制約の厳密性の影響を調査し,厳密度の違いが学習結果に与える影響に関する知見を報告する。 私たちのコードはhttps://github.com/GT-STAR-Lab/constrained-rl-dexterous-manipulationで利用可能です。

Existing learning approaches to dexterous manipulation use demonstrations or interactions with the environment to train black-box neural networks that provide little control over how the robot learns the skills or how it would perform post training. These approaches pose significant challenges when implemented on physical platforms given that, during initial stages of training, the robot's behavior could be erratic and potentially harmful to its own hardware, the environment, or any humans in the vicinity. A potential way to address these limitations is to add constraints during learning that restrict and guide the robot's behavior during training as well as roll outs. Inspired by the success of constrained approaches in other domains, we investigate the effects of adding position-based constraints to a 24-DOF robot hand learning to perform object relocation using Constrained Policy Optimization. We find that a simple geometric constraint can ensure the robot learns to move towards the object sooner than without constraints. Further, training with this constraint requires a similar number of samples as its unconstrained counterpart to master the skill. These findings shed light on how simple constraints can help robots achieve sensible and safe behavior quickly and ease concerns surrounding hardware deployment. We also investigate the effects of the strictness of these constraints and report findings that provide insights into how different degrees of strictness affect learning outcomes. Our code is available at https://github.com/GT-STAR-Lab/constrained-rl-dexterous-manipulation.
翻訳日:2023-01-25 14:38:40 公開日:2023-01-24
# 分散学習のためのモデル非依存サンプル重み付け

Model Agnostic Sample Reweighting for Out-of-Distribution Learning ( http://arxiv.org/abs/2301.09819v1 )

ライセンス: Link先を確認
Xiao Zhou, Yong Lin, Renjie Pi, Weizhong Zhang, Renzhe Xu, Peng Cui, Tong Zhang(参考訳) 分散ロバスト最適化(DRO)と不変リスク最小化(IRM)は、機械学習モデルのアウト・オブ・ディストリビューション(OOD)一般化性能を改善するために提案される2つの一般的な手法である。 小型モデルでは有効であるが、これらの手法は大規模過パラメータモデルによる過度適合に弱いことが観察されている。 本研究は,特に過パラメータシナリオにおいて,ood問題を効果的に解決するための原理的手法であるsam\textbf{pl}e r\textbf{e}weighting (\textbf{maple})を提案する。 私たちの重要なアイデアは、トレーニングサンプルの効果的な再重み付けを見つけることで、重み付きトレーニングデータに対する大きなモデルの標準的な経験的リスク最小化トレーニングにより、oodの一般化性能が向上することです。 オーバーフィッティング問題は、一般化の複雑さがモデルサイズではなくサンプルウェイトの探索空間に依存するサンプル再重み付けの探索のために二段階の定式化を考えることで解決される。 モデルサイズに対するMAPLEの不感度を証明するために線形の場合の理論解析を行い,その優位性を実証的に検証した。 コードは \url{https://github.com/x-zho14/maple} で入手できる。

Distributionally robust optimization (DRO) and invariant risk minimization (IRM) are two popular methods proposed to improve out-of-distribution (OOD) generalization performance of machine learning models. While effective for small models, it has been observed that these methods can be vulnerable to overfitting with large overparameterized models. This work proposes a principled method, \textbf{M}odel \textbf{A}gnostic sam\textbf{PL}e r\textbf{E}weighting (\textbf{MAPLE}), to effectively address OOD problem, especially in overparameterized scenarios. Our key idea is to find an effective reweighting of the training samples so that the standard empirical risk minimization training of a large model on the weighted training data leads to superior OOD generalization performance. The overfitting issue is addressed by considering a bilevel formulation to search for the sample reweighting, in which the generalization complexity depends on the search space of sample weights instead of the model size. We present theoretical analysis in linear case to prove the insensitivity of MAPLE to model size, and empirically verify its superiority in surpassing state-of-the-art methods by a large margin. Code is available at \url{https://github.com/x-zho14/MAPLE}.
翻訳日:2023-01-25 14:31:11 公開日:2023-01-24
# SMART:contRol変換器を用いた自己教師型マルチタスクプリトランザ

SMART: Self-supervised Multi-task pretrAining with contRol Transformers ( http://arxiv.org/abs/2301.09816v1 )

ライセンス: Link先を確認
Yanchao Sun, Shuang Ma, Ratnesh Madaan, Rogerio Bonatti, Furong Huang, Ashish Kapoor(参考訳) 自己教師付き事前学習は、明示的なラベルなしで表現を事前学習することで、統一モデルが様々な下流タスクに容易に適応できる言語および視覚領域で広く研究されている。 しかし、逐次的な意思決定タスクに関しては、高次元の知覚情報と長い相互作用の地平線上の逐次制御の複雑さの両方に対処できる事前学習アプローチを適切に設計することは困難である。 様々なタスクに対応可能な表現を事前訓練したい場合、この課題は組合せ的に複雑になる。 そこで本研究では,逐次的意思決定のための一般的な事前学習パイプラインを定式化し,制御トランスフォーマ (smart)} を用いた汎用事前学習フレームワーク \textit{self-supervised multi-task pretraining を提案する。 事前学習体制を体系的に検討することにより、制御変換器(CT)と制御中心の新たな事前学習目標を自己管理的に設計する。 smartは、タスク間で転送可能な短期的制御と長期的制御に関連する共通の必須情報を取得するよう表現を奨励する。 我々は、Imitation Learning (IL) やReinforcement Learning (RL) といった異なる学習シナリオ下で、SMARTは、見知らぬ下流のタスクやドメイン間の学習効率を著しく向上することを示す。 SMARTは、提案された制御中心の目標に適合し、事前学習と微調整の間の分散シフトに耐性があり、ランダムに収集される低品質の事前学習データセットでもうまく機能する。

Self-supervised pretraining has been extensively studied in language and vision domains, where a unified model can be easily adapted to various downstream tasks by pretraining representations without explicit labels. When it comes to sequential decision-making tasks, however, it is difficult to properly design such a pretraining approach that can cope with both high-dimensional perceptual information and the complexity of sequential control over long interaction horizons. The challenge becomes combinatorially more complex if we want to pretrain representations amenable to a large variety of tasks. To tackle this problem, in this work, we formulate a general pretraining-finetuning pipeline for sequential decision making, under which we propose a generic pretraining framework \textit{Self-supervised Multi-task pretrAining with contRol Transformer (SMART)}. By systematically investigating pretraining regimes, we carefully design a Control Transformer (CT) coupled with a novel control-centric pretraining objective in a self-supervised manner. SMART encourages the representation to capture the common essential information relevant to short-term control and long-term control, which is transferrable across tasks. We show by extensive experiments in DeepMind Control Suite that SMART significantly improves the learning efficiency among seen and unseen downstream tasks and domains under different learning scenarios including Imitation Learning (IL) and Reinforcement Learning (RL). Benefiting from the proposed control-centric objective, SMART is resilient to distribution shift between pretraining and finetuning, and even works well with low-quality pretraining datasets that are randomly collected.
翻訳日:2023-01-25 14:30:44 公開日:2023-01-24
# 臨床うつ病重症度の個人化予測のための混合効果ランダムフォレスト

Mixed Effects Random Forests for Personalised Predictions of Clinical Depression Severity ( http://arxiv.org/abs/2301.09815v1 )

ライセンス: Link先を確認
Robert A. Lewis, Asma Ghandeharioun, Szymon Fedor, Paola Pedrelli, Rosalind Picard, David Mischoulon(参考訳) 本研究は,31名のうつ病患者を対象とした8週間の研究から得られたマルチモーダル生理・デジタル活動データを用いて,ランダム林がうつ病の正確な予測を可能にすることを示す。 ハミルトン抑うつ評価尺度 (HDRS_17) の予測において, ランダム林の混合効果は, 標準ランダム林と個人平均ベースラインを上回った。 後者の基準と比較すると,平均絶対誤差(p<0.05)で0.199~0.276の精度が有意に向上した(p<0.05)。 これらの単純なベースラインは、メンタルヘルス予測タスクにおいて、機械学習の手法を頻繁に上回ります。 モデルパラメータをデータセット内の個人にパーソナライズする混合効果ランダムフォレストの有効性により,この結果が改善されることが示唆された。 しかし、これらの改善は、トレーニング時にラベル付き患者データがモデルで利用できるシナリオにのみ関係していることがわかった。 新しい患者に一般化する際の精度向上策は今後の重要な課題として残されている。

This work demonstrates how mixed effects random forests enable accurate predictions of depression severity using multimodal physiological and digital activity data collected from an 8-week study involving 31 patients with major depressive disorder. We show that mixed effects random forests outperform standard random forests and personal average baselines when predicting clinical Hamilton Depression Rating Scale scores (HDRS_17). Compared to the latter baseline, accuracy is significantly improved for each patient by an average of 0.199-0.276 in terms of mean absolute error (p<0.05). This is noteworthy as these simple baselines frequently outperform machine learning methods in mental health prediction tasks. We suggest that this improved performance results from the ability of the mixed effects random forest to personalise model parameters to individuals in the dataset. However, we find that these improvements pertain exclusively to scenarios where labelled patient data are available to the model at training time. Investigating methods that improve accuracy when generalising to new patients is left as important future work.
翻訳日:2023-01-25 14:30:14 公開日:2023-01-24
# Slice-and-Forge: グラフ畳み込みネットワークアクセラレータのキャッシュ利用の改善

Slice-and-Forge: Making Better Use of Caches for Graph Convolutional Network Accelerators ( http://arxiv.org/abs/2301.09813v1 )

ライセンス: Link先を確認
Mingi Yoo, Jaeyong Song, Hyeyoon Lee, Jounghoo Lee, Namhyung Kim, Youngsok Kim, Jinho Lee(参考訳) グラフ畳み込みネットワーク(graph convolutional network, gcns)は、従来のディープニューラルネットワークではサポートできないさまざまなデータフォーマットを処理できるため、ますます人気が高まっている。 GCNのためのハードウェアアクセラレータを設計する上で重要な課題のひとつは、データアクセスパターンの巨大なサイズとランダムさであり、オンチップキャッシュの制限された効率を大幅に低下させる。 不規則なデータアクセスを緩和することでキャッシュの有効性を向上させることを目的とした先行研究では、従来のグラフ処理アプリケーションで使用される頂点タイリング技術を用いることが多い。 キャッシュ効率を向上させるのに効果的であるが、これらのアプローチは、最適な設定がターゲットの入力データセットに大きく依存するタイリング構成に敏感であることが多い。 さらに、既存のソリューションでは、試行錯誤による手動チューニング、あるいは準最適解析モデルに依存する必要がある。 本稿では,gcns用の効率的なハードウェアアクセラレータであるslice-and-forge(snf)を提案する。 SnFは機能スライシングと呼ばれるタイリング戦略を選択し、機能を垂直スライスに分割し、実行の最外ループで処理する。 この選択により、複数のラウンドで不規則なグラフデータに対して同じ計算パターンが繰り返される。 このような繰り返しを利用して、SnFはそのタイルサイズを動的に調整する。 実験結果から,snfは,マルチエンジン設定の以前の作業と比較して,ジオメアンで1.73倍,小規模設定で1.46倍の性能を,オフライン解析を必要とせずに達成できることがわかった。

Graph convolutional networks (GCNs) are becoming increasingly popular as they can process a wide variety of data formats that prior deep neural networks cannot easily support. One key challenge in designing hardware accelerators for GCNs is the vast size and randomness in their data access patterns which greatly reduces the effectiveness of the limited on-chip cache. Aimed at improving the effectiveness of the cache by mitigating the irregular data accesses, prior studies often employ the vertex tiling techniques used in traditional graph processing applications. While being effective at enhancing the cache efficiency, those approaches are often sensitive to the tiling configurations where the optimal setting heavily depends on target input datasets. Furthermore, the existing solutions require manual tuning through trial-and-error or rely on sub-optimal analytical models. In this paper, we propose Slice-and-Forge (SnF), an efficient hardware accelerator for GCNs which greatly improves the effectiveness of the limited on-chip cache. SnF chooses a tiling strategy named feature slicing that splits the features into vertical slices and processes them in the outermost loop of the execution. This particular choice results in a repetition of the identical computational patterns over irregular graph data over multiple rounds. Taking advantage of such repetitions, SnF dynamically tunes its tile size. Our experimental results reveal that SnF can achieve 1.73x higher performance in geomean compared to prior work on multi-engine settings, and 1.46x higher performance in geomean on small scale settings, without the need for off-line analyses.
翻訳日:2023-01-25 14:29:58 公開日:2023-01-24
# 時系列予測のためのマルチビューカーネルPCA

Multi-view Kernel PCA for Time series Forecasting ( http://arxiv.org/abs/2301.09811v1 )

ライセンス: Link先を確認
Arun Pandey, Hannes De Meulemeester, Bart De Moor and Johan A.K. Suykens(参考訳) 本稿では,マルチ変数時系列予測のためのカーネル主成分分析モデルを提案する。 トレーニング問題は、入力および出力データのビューに対応する2つのカーネル行列の和の固有値分解である。 出力ビューに線形カーネルを使用すると、予測方程式がカーネルリッジ回帰の形式をとることが示される。 そのカーネルが非線形である場合、入力空間の点を予測するために、画像前問題を解く必要がある。 いくつかの標準時系列データセット上でモデルを評価し、アブレーション研究を行い、関連するモデルをベンチマークし、その結果について議論する。

In this paper, we propose a kernel principal component analysis model for multi-variate time series forecasting, where the training and prediction schemes are derived from the multi-view formulation of Restricted Kernel Machines. The training problem is simply an eigenvalue decomposition of the summation of two kernel matrices corresponding to the views of the input and output data. When a linear kernel is used for the output view, it is shown that the forecasting equation takes the form of kernel ridge regression. When that kernel is non-linear, a pre-image problem has to be solved to forecast a point in the input space. We evaluate the model on several standard time series datasets, perform ablation studies, benchmark with closely related models and discuss its results.
翻訳日:2023-01-25 14:29:31 公開日:2023-01-24
# 概念事前学習による低リソース構成意味解析

Low-Resource Compositional Semantic Parsing with Concept Pretraining ( http://arxiv.org/abs/2301.09809v1 )

ライセンス: Link先を確認
Subendhu Rongali, Mukund Sridhar Harakere, Haidar Khan, Konstantine Arkoudas, Wael Hamza, and Andrew McCallum(参考訳) セマンティック解析は、自然言語を構造化された意味表現にマッピングすることで、Alexa、Siri、Google Assistantといったデジタル音声アシスタントにおいて重要な役割を果たす。 新しいドメインを追加することで音声アシスタントの機能を改善したい場合、基礎となるセマンティックパースモデルは、時間と費用のかかる新しいドメインの注釈付きサンプルを使って再トレーニングする必要があります。 本研究では,新しいドメインに関するメタデータが少量で,新たなトレーニングデータ(ゼロショット)やごく少数の例(フェーショット)がなければ,そのようなドメイン適応を自動的に実行するアーキテクチャを提案する。 基本のseq2seqアーキテクチャを使用し、新しいドメインからインテントとスロットタグをエンコードする概念エンコーダでそれを拡張します。 また, Wikidataを用いてセック2セックモデルを事前学習し, 重要な概念を学習し, 低リソース環境下での良好な性能を実現するための新しいデコーダ指向アプローチを提案する。 本研究では,TOPv2データセットの合成意味解析における数ショットと0ショットの結果を報告し,TOPv2データセットとSNIPSデータセットの少数ショット設定において,我々のモデルが先行アプローチより優れていることを示す。

Semantic parsing plays a key role in digital voice assistants such as Alexa, Siri, and Google Assistant by mapping natural language to structured meaning representations. When we want to improve the capabilities of a voice assistant by adding a new domain, the underlying semantic parsing model needs to be retrained using thousands of annotated examples from the new domain, which is time-consuming and expensive. In this work, we present an architecture to perform such domain adaptation automatically, with only a small amount of metadata about the new domain and without any new training data (zero-shot) or with very few examples (few-shot). We use a base seq2seq (sequence-to-sequence) architecture and augment it with a concept encoder that encodes intent and slot tags from the new domain. We also introduce a novel decoder-focused approach to pretrain seq2seq models to be concept aware using Wikidata and use it to help our model learn important concepts and perform well in low-resource settings. We report few-shot and zero-shot results for compositional semantic parsing on the TOPv2 dataset and show that our model outperforms prior approaches in few-shot settings for the TOPv2 and SNIPS datasets.
翻訳日:2023-01-25 14:29:20 公開日:2023-01-24
# 制約付きオンライン凸最適化における動的回帰と制約違反について

On Dynamic Regret and Constraint Violations in Constrained Online Convex Optimization ( http://arxiv.org/abs/2301.09808v1 )

ライセンス: Link先を確認
Rahul Vaze(参考訳) オンライン凸最適化(oco)問題の制約付きバージョンが検討されている。 スロットタイムでは、各スロットに対して、最初にアクションが選択される。 その後、選択されたアクションポイントで評価された損失機能及び制約違反罰を明らかにする。 各スロットに対して、損失関数と制約集合を定義する関数の両方が滑らかで強凸であると仮定される。 また、アクションが選択されると、現在のアクションの小さな近傍で実現可能なセットに関するローカル情報も明らかにする。 アルゴリズムは、記述されたフィードバックに基づいて選択時点で最大1つの勾配を計算でき、次のアクションを選択することができる。 アルゴリズムの目標は、ダイナミックな後悔(オラクルの損失と比較して損失)と制約違反のペナルティ(オラクルのペナルティと比較して罰金)を同時に最小化することである。 提案するアルゴリズムは,現在の動作の周囲に適度に選択された集合上の射影勾配勾配を追従する。 動的後悔と制約違反の両方が、連続する最適動作間の距離の和である {\it path-length} によって順序的に有界であることを示す。 さらに、導出した境界が最良であることを示す。

A constrained version of the online convex optimization (OCO) problem is considered. With slotted time, for each slot, first an action is chosen. Subsequently the loss function and the constraint violation penalty evaluated at the chosen action point is revealed. For each slot, both the loss function as well as the function defining the constraint set is assumed to be smooth and strongly convex. In addition, once an action is chosen, local information about a feasible set within a small neighborhood of the current action is also revealed. An algorithm is allowed to compute at most one gradient at its point of choice given the described feedback to choose the next action. The goal of an algorithm is to simultaneously minimize the dynamic regret (loss incurred compared to the oracle's loss) and the constraint violation penalty (penalty accrued compared to the oracle's penalty). We propose an algorithm that follows projected gradient descent over a suitably chosen set around the current action. We show that both the dynamic regret and the constraint violation is order-wise bounded by the {\it path-length}, the sum of the distances between the consecutive optimal actions. Moreover, we show that the derived bounds are the best possible.
翻訳日:2023-01-25 14:28:59 公開日:2023-01-24
# IoT侵入検出のための不均一領域適応:幾何学的グラフアライメントアプローチ

Heterogeneous Domain Adaptation for IoT Intrusion Detection: A Geometric Graph Alignment Approach ( http://arxiv.org/abs/2301.09801v1 )

ライセンス: Link先を確認
Jiashu Wu, Hao Dai, Yang Wang, Kejiang Ye, Chengzhong Xu(参考訳) データ不足は、IoT侵入検出(IID)に取り組む際のデータ依存アルゴリズムのユーザビリティを妨げる。 そこで我々は,データリッチネットワーク侵入検出(NID)ドメインを利用して,IIDドメインのより正確な侵入検出を行う。 本稿では,幾何グラフアライメント(gga)アプローチを用いて,ドメイン間の幾何学的異質性を隠蔽し,侵入知識伝達を改善する。 具体的には、各侵入領域は、頂点と辺がそれぞれ侵入圏とカテゴリワイド相互関係を表すグラフとして定式化される。 全体形状は、異なる侵入ドメイングラフ間の隣接行列を識別できない混乱した識別器を介して保存される。 回転回避機構と中心点マッチング機構は、それぞれ回転と対称性によるグラフのずれを避けるために用いられる。 さらに、カテゴリごとの意味知識は頂点レベルのアライメントとして振る舞う。 対象データを利用するために、ネットワーク予測、幾何特性、周辺情報を協調的に考慮した擬似ラベル選択機構を用いて、きめ細かい擬似ラベル割り当てを生成する。 侵入グラフを異なる粒度から幾何的に整列させると、転送された侵入知識はIDDの性能を高めることができる。 いくつかの侵入データセットに関する総合的な実験は、GGAアプローチの最先端性能を示し、GGA構成コンポーネントの有用性を検証する。

Data scarcity hinders the usability of data-dependent algorithms when tackling IoT intrusion detection (IID). To address this, we utilise the data rich network intrusion detection (NID) domain to facilitate more accurate intrusion detection for IID domains. In this paper, a Geometric Graph Alignment (GGA) approach is leveraged to mask the geometric heterogeneities between domains for better intrusion knowledge transfer. Specifically, each intrusion domain is formulated as a graph where vertices and edges represent intrusion categories and category-wise interrelationships, respectively. The overall shape is preserved via a confused discriminator incapable to identify adjacency matrices between different intrusion domain graphs. A rotation avoidance mechanism and a centre point matching mechanism is used to avoid graph misalignment due to rotation and symmetry, respectively. Besides, category-wise semantic knowledge is transferred to act as vertex-level alignment. To exploit the target data, a pseudo-label election mechanism that jointly considers network prediction, geometric property and neighbourhood information is used to produce fine-grained pseudo-label assignment. Upon aligning the intrusion graphs geometrically from different granularities, the transferred intrusion knowledge can boost IID performance. Comprehensive experiments on several intrusion datasets demonstrate state-of-the-art performance of the GGA approach and validate the usefulness of GGA constituting components.
翻訳日:2023-01-25 14:28:45 公開日:2023-01-24
# LDMIC:学習型分散マルチビュー画像符号化

LDMIC: Learning-based Distributed Multi-view Image Coding ( http://arxiv.org/abs/2301.09799v1 )

ライセンス: Link先を確認
Xinjie Zhang, Jiawei Shao, Jun Zhang(参考訳) マルチビュー画像圧縮は3D関連アプリケーションにおいて重要な役割を果たす。 既存の手法では予測符号化アーキテクチャが採用されており、その場合の差分と残差情報を圧縮するために共同符号化が必要となる。 これにより、カメラ間のコラボレーションが要求され、異なるビュー間のエピポーラ幾何学的制約が強制されるため、ランダムに重なり合う視野を持つ分散カメラシステムにおいて、これらの方法の展開が困難になる。 一方、分散音源符号化理論は、独立符号化と共同復号により相関音源の効率的なデータ圧縮を実現することが可能であり、学習に基づく分散多視点画像符号化(LDMIC)フレームワークの設計を動機付けている。 独立エンコーダでは、画像間の幾何学的関係に敏感なグローバルなビュー間相関を効果的に捉えるために、デコーダのクロスアテンション機構に基づくシンプルで効果的なジョイントコンテキスト転送モジュールを導入する。 実験の結果,LDMICは符号化速度を高速に保ちながら,従来のMIC法と学習ベースのMIC法の両方に優れていた。 コードはhttps://github.com/Xinjie-Q/LDMICでリリースされる。

Multi-view image compression plays a critical role in 3D-related applications. Existing methods adopt a predictive coding architecture, which requires joint encoding to compress the corresponding disparity as well as residual information. This demands collaboration among cameras and enforces the epipolar geometric constraint between different views, which makes it challenging to deploy these methods in distributed camera systems with randomly overlapping fields of view. Meanwhile, distributed source coding theory indicates that efficient data compression of correlated sources can be achieved by independent encoding and joint decoding, which motivates us to design a learning-based distributed multi-view image coding (LDMIC) framework. With independent encoders, LDMIC introduces a simple yet effective joint context transfer module based on the cross-attention mechanism at the decoder to effectively capture the global inter-view correlations, which is insensitive to the geometric relationships between images. Experimental results show that LDMIC significantly outperforms both traditional and learning-based MIC methods while enjoying fast encoding speed. Code will be released at https://github.com/Xinjie-Q/LDMIC.
翻訳日:2023-01-25 14:28:24 公開日:2023-01-24
# 間接構造ヘルスモニタリングによる損傷の定量化

Quantification of Damage Using Indirect Structural Health Monitoring ( http://arxiv.org/abs/2301.09791v1 )

ライセンス: Link先を確認
Achyuth Madabhushi(参考訳) 橋梁が壊れないようにするため、構造的健康モニタリングが重要である。 直接監視は複雑で費用がかかるため、間接的な手法は研究に重点を置いている。 間接的な監視はより安価で実行が容易だが、正確な結果を得るためには課題がある。 本研究は加速度計による損傷定量化に焦点を当てる。 模型橋と車体に4つの加速度計が取り付けられた車両で試験が行われた。 異なる損傷レベルをシミュレートするために橋に異なる重みが置かれ、31の試験が20の異なる損傷レベルのために行われた。 収集した加速度データを正規化し,その上で高速フーリエ変換(FFT)を行った。 正規化加速度データと正規化FFTデータの両方を非線形主成分分析(それぞれ)に入力し、各データセットに対して3つの主成分を抽出した。 モデル開発のための教師付き機械学習手法として、サポートベクトル回帰(SVR)とガウスプロセス回帰(GPR)が用いられた。 複数のモデルが作成され、最良のモデルを選ぶことができ、モデルは平均二乗誤差(mse)を見て比較された。 この方法論は、現実世界のアプリケーションでどれだけ効果的かを測定するために、この分野で適用されるべきです。

Structural health monitoring is important to make sure bridges do not fail. Since direct monitoring can be complicated and expensive, indirect methods have been a focus on research. Indirect monitoring can be much cheaper and easier to conduct, however there are challenges with getting accurate results. This work focuses on damage quantification by using accelerometers. Tests were conducted on a model bridge and car with four accelerometers attached to to the vehicle. Different weights were placed on the bridge to simulate different levels of damage, and 31 tests were run for 20 different damage levels. The acceleration data collected was normalized and a Fast-Fourier Transform (FFT) was performed on that data. Both the normalized acceleration data and the normalized FFT data were inputted into a Non-Linear Principal Component Analysis (separately) and three principal components were extracted for each data set. Support Vector Regression (SVR) and Gaussian Process Regression (GPR) were used as the supervised machine learning methods to develop models. Multiple models were created so that the best one could be selected, and the models were compared by looking at their Mean Squared Errors (MSE). This methodology should be applied in the field to measure how effective it can be in real world applications.
翻訳日:2023-01-25 14:28:03 公開日:2023-01-24
# 近傍のホモフィリガイドグラフ畳み込みネットワーク

Neighborhood Homophily-Guided Graph Convolutional Network ( http://arxiv.org/abs/2301.09851v1 )

ライセンス: Link先を確認
Shengbo Gong, Jiajun Zhou, Chenxuan Xie, Qi Xuan(参考訳) グラフニューラルネットワーク(gnns)は、グラフ指向タスクにおいて著しく進歩した。 しかし、多くの実世界のグラフはヘテロフィリーあるいはローホモフィリーを含み、古典的なGNNのホモフィリーな仮定に挑戦し、結果として性能が低下する。 GNNの普遍性を改善するために多くの研究がなされているが、ラベルの再利用と提案されたメトリクスとモデルの相関を考えることはめったにない。 本稿ではまず,ノード近傍におけるラベルの複雑さや純度を測定するために,Neighborhood Homophily(\textit{NH})という新しい指標を設計する。 さらに、この計量を古典的グラフ畳み込みネットワーク(GCN)アーキテクチャに組み入れて、その近傍に \textbf{H}omophily-\textbf{G}uided \textbf{G}raph \textbf{C}onvolutional \textbf{N}etwork (\textbf{NHGCN})を提案する。 このフレームワークでは、ノードは推定された \textit{nh} 値でグループ化され、メッセージの伝搬と集約の間、グループ内の重み共有を実現する。 次に生成されたノード予測を使用して、新しい \textit{nh}値を推定および更新する。 メトリック推定とモデル推論の2つのプロセスは、よりよいノード分類を達成するために交互に最適化される。 ホモ親和性およびヘテロ親和性ベンチマークの広範な実験は、普遍性問題に対する半教師付きノード分類における最先端の全体的な性能を達成することを示した。

Graph neural networks (GNNs) have achieved remarkable advances in graph-oriented tasks. However, many real-world graphs contain heterophily or low homophily, challenging the homophily assumption of classical GNNs and resulting in low performance. Although many studies have emerged to improve the universality of GNNs, they rarely consider the label reuse and the correlation of their proposed metrics and models. In this paper, we first design a new metric, named Neighborhood Homophily (\textit{NH}), to measure the label complexity or purity in the neighborhood of nodes. Furthermore, we incorporate this metric into the classical graph convolutional network (GCN) architecture and propose \textbf{N}eighborhood \textbf{H}omophily-\textbf{G}uided \textbf{G}raph \textbf{C}onvolutional \textbf{N}etwork (\textbf{NHGCN}). In this framework, nodes are grouped by estimated \textit{NH} values to achieve intra-group weight sharing during message propagation and aggregation. Then the generated node predictions are used to estimate and update new \textit{NH} values. The two processes of metric estimation and model inference are alternately optimized to achieve better node classification. Extensive experiments on both homophilous and heterophilous benchmarks demonstrate that \textbf{NHGCN} achieves state-of-the-art overall performance on semi-supervised node classification for the universality problem.
翻訳日:2023-01-25 14:21:38 公開日:2023-01-24
# RD-NAS:ゼロコストプロキシのランク付けによるワンショットスーパーネットランク付け能力の向上

RD-NAS: Enhancing One-shot Supernet Ranking Ability via Ranking Distillation from Zero-cost Proxies ( http://arxiv.org/abs/2301.09850v1 )

ライセンス: Link先を確認
Peijie Dong, Xin Niu, Lujun Li, Zhiliang Tian, Xiaodong Wang, Zimian Wei, Hengyue Pan, Dongsheng Li(参考訳) neural architecture search (nas) は効果的なニューラルネットワーク構造の自動設計において大きな進歩を遂げているが、計算の重荷を負っている。 ワンショットNASは重量共有による負担を大幅に軽減し、計算効率を向上させる。 ゼロショットNASは、トレーニングを行わない初期状態からネットワークの性能を予測することで、さらにコストを削減する。 どちらの手法も"良い"アーキテクチャと"悪い"アーキテクチャ、すなわち予測と真のパフォーマンスの一貫性をランク付けすることを目的としている。 本稿では,ゼロコストプロキシを安価な教師として活用し,マージンランキングの損失を利用してランキング知識を蒸留する,ランキング一貫性を高めるために,ランキング蒸留ワンショットNAS(RD-NAS)を提案する。 具体的には,グループ距離をマージンとして導入することにより,ゼロショットNASからワンショットNASへのランキング知識を抽出するマージンサブネットサンプリング手法を提案する。 NAS-Bench-201 と ResNet ベースの検索空間の評価は,RD-NAS がそれぞれ 10.7 % と 9.65 % の改善を達成していることを示している。 私たちのコードはhttps://github.com/pprp/CVPR2022-NAS-competition-Track1-3th-solutionで利用可能です。

Neural architecture search (NAS) has made tremendous progress in the automatic design of effective neural network structures but suffers from a heavy computational burden. One-shot NAS significantly alleviates the burden through weight sharing and improves computational efficiency. Zero-shot NAS further reduces the cost by predicting the performance of the network from its initial state, which conducts no training. Both methods aim to distinguish between "good" and "bad" architectures, i.e., ranking consistency of predicted and true performance. In this paper, we propose Ranking Distillation one-shot NAS (RD-NAS) to enhance ranking consistency, which utilizes zero-cost proxies as the cheap teacher and adopts the margin ranking loss to distill the ranking knowledge. Specifically, we propose a margin subnet sampler to distill the ranking knowledge from zero-shot NAS to one-shot NAS by introducing Group distance as margin. Our evaluation of the NAS-Bench-201 and ResNet-based search space demonstrates that RD-NAS achieve 10.7\% and 9.65\% improvements in ranking ability, respectively. Our codes are available at https://github.com/pprp/CVPR2022-NAS-competition-Track1-3th-solution
翻訳日:2023-01-25 14:21:06 公開日:2023-01-24
# Gossiped and Quantized Online Multi-Kernel Learning

Gossiped and Quantized Online Multi-Kernel Learning ( http://arxiv.org/abs/2301.09848v1 )

ライセンス: Link先を確認
Tomas Ortega and Hamid Jafarkhani(参考訳) 事前情報がほとんど得られず、集中学習が不可能なオンラインカーネル学習の場合、過去の研究では、ネットワーク内の全てのノードが通信できる限り、分散およびオンラインマルチカーネル学習がサブ線形後悔をもたらすことが示されている(通信ネットワークは完全なグラフである)。 さらに、しばしばパフォーマンスボトルネックとなる通信負荷を管理するために、ノード間の通信を定量化することができる。 このレターは、これらの結果を非完全連結グラフに拡大し、無線センサーネットワークでよく見られる。 この課題に対処するため,我々はゴシップアルゴリズムを提案し,それを実現する証明を与える。 実データを用いた実験の結果を確認した。

In instances of online kernel learning where little prior information is available and centralized learning is unfeasible, past research has shown that distributed and online multi-kernel learning provides sub-linear regret as long as every pair of nodes in the network can communicate (i.e., the communications network is a complete graph). In addition, to manage the communication load, which is often a performance bottleneck, communications between nodes can be quantized. This letter expands on these results to non-fully connected graphs, which is often the case in wireless sensor networks. To address this challenge, we propose a gossip algorithm and provide a proof that it achieves sub-linear regret. Experiments with real datasets confirm our findings.
翻訳日:2023-01-25 14:20:44 公開日:2023-01-24
# 差分位相シフト量子鍵分布の有限鍵セキュリティ解析

Finite-key security analysis of differential-phase-shift quantum key distribution ( http://arxiv.org/abs/2301.09844v1 )

ライセンス: Link先を確認
Akihiro Mizutani, Yuki Takeuchi, Kiyoshi Tamaki(参考訳) 微分位相シフト(DPS)量子鍵分布(QKD)は、レーザー源と受動検出ユニットを用いて簡単な設定で実装できる主要なQKDプロトコルの1つである。 近年, [npj Quant. Inf. 5, 87 (2019)] において, 無限個のパルスを仮定して, このプロトコルの情報理論的セキュリティ証明が確立されている。 dpsプロトコルを現実の世界に実装するには,有限個のパルス数でセキュリティを分析することが不可欠である。 セキュリティ証明の有限サイズ体制への拡張は、プライバシーの増幅の量を決定するために統計的変動の調節を必要とする。 このような場合、吾妻の不平等がしばしば用いられるが、残念ながら、DPSプロトコルの場合、これはキーレートがかなり低いことを示す。 この低い鍵レートは、発生確率が非常に小さい3光子放出に関する確率の合計を緩やかに見積もることによるものである。 我々の研究の主な貢献は、最近発見された新しい濃度不等式である加藤の不等式を利用して、この障害を克服できることである。 その結果、DPSプロトコルのキーレートが大幅に向上する。 例えば、典型的な実験パラメータを仮定すると、3Mbitのシークレットキーが77km以上8.3時間生成され、現実的な設定でDPS QKDの実現可能性を示す。

Differential-phase-shift (DPS) quantum key distribution (QKD) is one of the major QKD protocols that can be implemented with a simple setup using a laser source and a passive detection unit. Recently, an information-theoretic security proof of this protocol has been established in [npj Quant. Inf. 5, 87 (2019)] assuming the infinitely large number of emitted pulses. To implement the DPS protocol in a real-life world, it is indispensable to analyze the security with the finite number of emitted pulses. The extension of the security proof to the finite-size regime requires the accommodation of the statistical fluctuations to determine the amount of privacy amplification. In doing so, Azuma's inequality is often employed, but unfortunately we show that in the case of the DPS protocol, this results in a substantially low key rate. This low key rate is due to a loose estimation of the sum of probabilities regarding three-photon emission whose probability of occurrence is very small. The main contribution of our work is to show that this obstacle can be overcome by exploiting the recently found novel concentration inequality, Kato's inequality. As a result, the key rate of the DPS protocol is drastically improved. For instance, assuming typical experimental parameters, a 3 Mbit secret key can be generated over 77 km for 8.3 hours, which shows the feasibility of DPS QKD under a realistic setup.
翻訳日:2023-01-25 14:20:31 公開日:2023-01-24
# 計算流体力学とニューラルネットワークを用いた臨界波群法の実装

Implementation of the Critical Wave Groups Method with Computational Fluid Dynamics and Neural Networks ( http://arxiv.org/abs/2301.09834v1 )

ライセンス: Link先を確認
Kevin M. Silva and Kevin J. Maki(参考訳) 船の反応の正確かつ効率的な予測は、船の流体力学において難しい問題である。 計算効率のよい数値流体力学ツールと共に確率論的枠組みが開発され、研究者や設計者が極限をよりよく理解できるようになった。 しかし、これらの流体力学ツールが極端な出来事の間に物理を定量的に表す能力は限られている。 計算流体力学 (CFD) を用いた臨界波群 (CWG) 確率法の実装に成功した。 cwg法ではモンテカルロ法よりもシミュレーションに要する時間が少ないが、必要なシミュレーションの量は高価である。 本研究の目的は,長い短期記憶(LSTM)ニューラルネットワークの構築により,CFDにCWGを実装する際の計算コストを削減することである。 限られた量のシミュレーションでモデルをトレーニングした後、モデルは確率を計算するために大量の予測を提供することができる。 この新しい枠組みは、海軍研究局タンブルホーム (ONRT) の2-Dの船体で、シーステート7の船体と無速のビーム海で実証されている。 新しいフレームワークは、計算コストの2桁の削減で、純粋にCFD駆動のCWGフレームワークを表す予測を生成することができる。

Accurate and efficient prediction of extreme ship responses continues to be a challenging problem in ship hydrodynamics. Probabilistic frameworks in conjunction with computationally efficient numerical hydrodynamic tools have been developed that allow researchers and designers to better understand extremes. However, the ability of these hydrodynamic tools to represent the physics quantitatively during extreme events is limited. Previous research successfully implemented the critical wave groups (CWG) probabilistic method with computational fluid dynamics (CFD). Although the CWG method allows for less simulation time than a Monte Carlo approach, the large quantity of simulations required is cost prohibitive. The objective of the present paper is to reduce the computational cost of implementing CWG with CFD, through the construction of long short-term memory (LSTM) neural networks. After training the models with a limited quantity of simulations, the models can provide a larger quantity of predictions to calculate the probability. The new framework is demonstrated with a 2-D midship section of the Office of Naval Research Tumblehome (ONRT) hull in Sea State 7 and beam seas at zero speed. The new framework is able to produce predictions that are representative of a purely CFD-driven CWG framework, with two orders of magnitude of computational cost savings.
翻訳日:2023-01-25 14:20:08 公開日:2023-01-24
# tutteの定理に基づくハイブリッドブール制約による量子インスパイアされた完全マッチング問題を解く

Solving Quantum-Inspired Perfect Matching Problems via Tutte's Theorem-Based Hybrid Boolean Constraints ( http://arxiv.org/abs/2301.09833v1 )

ライセンス: Link先を確認
Moshe Y. Vardi and Zhiwei Zhang(参考訳) 異なるタイプの制約を持つブール制約-満足問題(ハイブリッド制約)の満足度を決定することは、重要なアプリケーションにおいてよく研究される問題である。 ここでは,量子コンピューティングにおけるハイブリッドブール制約の新しい応用について検討する。 この問題は、エッジカラーグラフにおける制約付き完全マッチングに関連している。 汎用ハイブリッド制約ソルバは強力であるが,ハイブリッド制約がスケールしにくいため,制約マッチング問題の直接エンコーディングが依然として必要であることを示す。 本稿では,グラフ理論におけるtutteの定理に基づく新しい符号化法と最適化手法を提案する。 実験の結果,satソルバを用いた適切な言語でのエンコーディングは,制約付きマッチングベンチマークにおいて,多くの競合手法よりもかなり優れていることがわかった。 本研究は,強力な汎用制約ソルバを適用する際に問題固有のエンコーディングを設計する必要性を明らかにした。

Determining the satisfiability of Boolean constraint-satisfaction problems with different types of constraints, that is hybrid constraints, is a well-studied problem with important applications. We study here a new application of hybrid Boolean constraints, which arises in quantum computing. The problem relates to constrained perfect matching in edge-colored graphs. While general-purpose hybrid constraint solvers can be powerful, we show that direct encodings of the constrained-matching problem as hybrid constraints scale poorly and special techniques are still needed. We propose a novel encoding based on Tutte's Theorem in graph theory as well as optimization techniques. Empirical results demonstrate that our encoding, in suitable languages with advanced SAT solvers, scales significantly better than a number of competing approaches on constrained-matching benchmarks. Our study identifies the necessity of designing problem-specific encodings when applying powerful general-purpose constraint solvers.
翻訳日:2023-01-25 14:19:47 公開日:2023-01-24
# 条件付きノッチ変位:単一キュービットによる高速マルチオシレータ制御

Conditional not displacement: fast multi-oscillator control with a single qubit ( http://arxiv.org/abs/2301.09831v1 )

ライセンス: Link先を確認
Asaf A. Diringer, Eliya Blumenthal, Avishay Grinberg, Liang Jiang, Shay Hacohen-Gourgy(参考訳) ボソニック符号化は量子情報処理のアプローチであり、多くのレベルの高調波発振器を符号化することでハードウェアのオーバーヘッドを低くする。 複数のモードへのスケーリングには、独立したコントロールのために分離する必要があるが、高速なインタラクションには強く結合されている。 マルチモードでの高速かつ効率的なユニバーサル制御は、まだ未解決の問題である。 本研究では,単一のアンシラキュービットに弱結合したボソニックキュービットの高速マルチモード生成と制御を可能にする制御法を開発した。 弱結合性は独立制御に優れるが, 弱結合性にもかかわらず, 高速制御が可能となる。 超伝導トランスモンキュービットを多モード超伝導キャビティに結合させることで制御を実証する。 マルチモードキャビティの異なるモードにおいて、絡み合った状態と別々の状態の両方を作り、個別のモードと結合したモードの制御を示す。 その結果, 典型的な時間スケールである分散結合率の逆数に操作時間は制限されず, 実際には約2桁超えていることがわかった。 本方式は,マルチモードボソニックコードとハードウェアのより効率的なスケーリングを可能にする。

Bosonic encoding is an approach for quantum information processing, promising lower hardware overhead by encoding in the many levels of a harmonic oscillator. Scaling to multiple modes requires them to be decoupled for independent control, yet strongly coupled for fast interaction. How to perform fast and efficient universal control on multiple modes remains an open problem. We develop a control method that enables fast multi-mode generation and control of bosonic qubits which are weakly coupled to a single ancilla qubit. The weak coupling allows for excellent independent control, despite the weak ancilla coupling our method allows for fast control. We demonstrate our control by using a superconducting transmon qubit coupled to a multi-mode superconducting cavity. We create both entangled and separate cat-states in different modes of a multi-mode cavity, showing the individual and coupled control of the modes. We show that the operation time is not limited by the inverse of the dispersive coupling rate, which is the typical timescale, and we exceed it in practice by almost 2 orders of magnitude. Our scheme allows for multi-mode bosonic codes as well as more efficient scaling of hardware.
翻訳日:2023-01-25 14:19:33 公開日:2023-01-24
# Optimus-CC:3次元並列性を考慮した大規模NLPモデル学習

Optimus-CC: Efficient Large NLP Model Training with 3D Parallelism Aware Communication Compression ( http://arxiv.org/abs/2301.09830v1 )

ライセンス: Link先を確認
Jaeyong Song, Jinkyu Yim, Jaewon Jung, Hongsun Jang, Hyung-Jin Kim, Youngsok Kim, Jinho Lee(参考訳) 現代の大規模自然言語処理(nlp)モデルのトレーニングでは、3次元並列処理を複数のgpuに分割することが一般的である。 しかし、そのような手法はノード間通信のオーバーヘッドが高い。 通信圧縮はノード間トラフィック量を削減することでオーバーヘッドを軽減する方法のひとつだが、既存の圧縮技術は3次元並列性を持つNLPモデルに適用すべき限界がある。 1)データ並列化トラフィックのみをターゲットとし、 2)既存の圧縮方式はすでにモデル品質に悪影響を与えている。 本稿では,大規模NLPモデルの高速かつスケーラブルな分散トレーニングフレームワークであるOptimus-CCについて述べる。 Optimus-CCは、既存の通信圧縮フレームワークとは異なる。 具体的には、既存のデータ並列トラフィック圧縮手法に加えて、ステージ間バックプロパゲーションと埋め込み同期を圧縮する。 次に,圧縮によるモデル品質低下を回避する手法を提案する。 さらに,本手法が圧縮誤差の抑制に有効であることを示す数学的および経験的分析を行った。 最後に、パイプラインを分析し、クリティカルパス上にあるトラフィックを選択的に圧縮する。 これにより圧縮エラーの低減が図れる。 gpuクラスタ上でソリューションを実証し、モデル品質を犠牲にすることなく、分散トレーニングのための最先端ソリューションから優れたスピードアップを実現します。

In training of modern large natural language processing (NLP) models, it has become a common practice to split models using 3D parallelism to multiple GPUs. Such technique, however, suffers from a high overhead of inter-node communication. Compressing the communication is one way to mitigate the overhead by reducing the inter-node traffic volume; however, the existing compression techniques have critical limitations to be applied for NLP models with 3D parallelism in that 1) only the data parallelism traffic is targeted, and 2) the existing compression schemes already harm the model quality too much. In this paper, we present Optimus-CC, a fast and scalable distributed training framework for large NLP models with aggressive communication compression. Optimus-CC differs from existing communication compression frameworks in the following ways: First, we compress pipeline parallel (inter-stage) traffic. In specific, we compress the inter-stage backpropagation and the embedding synchronization in addition to the existing data-parallel traffic compression methods. Second, we propose techniques to avoid the model quality drop that comes from the compression. We further provide mathematical and empirical analyses to show that our techniques can successfully suppress the compression error. Lastly, we analyze the pipeline and opt to selectively compress those traffic lying on the critical path. This further helps reduce the compression error. We demonstrate our solution on a GPU cluster, and achieve superior speedup from the baseline state-of-the-art solutions for distributed training without sacrificing the model quality.
翻訳日:2023-01-25 14:19:14 公開日:2023-01-24
# ハイブリッド変分量子コンピューティングのためのユニタリ結合クラスタアンサテズにおけるパラメータ冗長性

Parameter Redundancy in the Unitary Coupled-Cluster Ansatze for Hybrid Variational Quantum Computing ( http://arxiv.org/abs/2301.09825v1 )

ライセンス: Link先を確認
Shashank G Mehendale and Bo Peng and Niranjan Govind and Yuri Alexeev(参考訳) 変分量子コンピューティングにおいてよく使われる化学に着想を得たアプローチの1つは、ユニタリ・カップリング・クラスタ(UCC)アンサツェである。 厳密な限界に近づく体系的な方法であるにもかかわらず、標準のucc ansatzeのパラメータ数はシステムサイズに関して不利なスケーリングを示し、短期的な量子デバイスでの使用を妨げている。 UCCアンサーゼのいくつかの変種をより優れたスケーリングで提案する試みがなされている。 本稿では,スピン適応型定式化,小さな振幅フィルタリング,エントロピーに基づく軌道選択手法を用いて,一元結合クラスタシングルとダブルス(UCCSD)アンサーゼのパラメータ冗長性を検討した。 本手法を用いた数値実験の結果, 最適化すべきパラメータ数と収束までの時間において, 従来のudcsd-vqeシミュレーションと比較して有意にコスト削減効果が示された。 また,パラメータ冗長性をさらに探求するために,機械学習技術の応用の可能性についても論じ,今後の研究の方向性を示す。

One of the commonly used chemical-inspired approaches in variational quantum computing is the unitary coupled-cluster (UCC) ansatze. Despite being a systematic way of approaching the exact limit, the number of parameters in the standard UCC ansatze exhibits unfavorable scaling with respect to the system size, hindering its practical use on near-term quantum devices. Efforts have been taken to propose some variants of UCC ansatze with better scaling. In this paper we explore the parameter redundancy in the preparation of unitary coupled-cluster singles and doubles (UCCSD) ansatze employing spin-adapted formulation, small amplitude filtration, and entropy-based orbital selection approaches. Numerical results of using our approach on some small molecules have exhibited a significant cost reduction in the number of parameters to be optimized and in the time to convergence compared with conventional UCCSD-VQE simulations. We also discuss the potential application of some machine learning techniques in further exploring the parameter redundancy, providing a possible direction for future studies.
翻訳日:2023-01-25 14:18:55 公開日:2023-01-24
# 事前学習モデルによる微調整の安定性解析

A Stability Analysis of Fine-Tuning a Pre-Trained Model ( http://arxiv.org/abs/2301.09820v1 )

ライセンス: Link先を確認
Zihao Fu, Anthony Man-Cho So, Nigel Collier(参考訳) トレーニング済みモデル(BERT、ALBERT、RoBERTa、T5、GPTなど)の微調整は、最近のNLP研究で最も有望なパラダイムの1つであることが証明されている。 しかし、最近の多くの研究は、微調整が不安定な問題、すなわち同じ設定で同じモデルをチューニングすることで、性能が著しく異なることを示している。 近年の多くの研究でこの問題を解決するための様々な方法が提案されているが、これらの方法がなぜどのように機能するのかは理論的に理解されていない。 本稿では,2つの一般的な設定,すなわちフル微調整とヘッドチューニングに焦点を当てたファインチューニングの理論的安定性解析を提案する。 各設定の下で安定性を定義し、対応する安定性境界を証明する。 理論的境界は、いくつかの既存手法が微調整手順を安定化できる理由と方法を説明する。 観測された経験的発見のほとんどを説明することに加えて,提案する理論分析フレームワークは,有効かつ証明可能な手法の設計にも役立てることができる。 本理論に基づき, 最大マージン正則化 (mmr), マルチヘッド損失 (mhloss), 自己教師なし再訓練 (surt) という, 微調整手順を安定化するための3つの新しい戦略を提案する。 11のベンチマークデータセットと数百の合成分類データセットについて,提案手法を広範囲に評価した。 実験の結果,提案手法は微調整手順を著しく安定化し,理論解析と相関することがわかった。

Fine-tuning a pre-trained model (such as BERT, ALBERT, RoBERTa, T5, GPT, etc.) has proven to be one of the most promising paradigms in recent NLP research. However, numerous recent works indicate that fine-tuning suffers from the instability problem, i.e., tuning the same model under the same setting results in significantly different performance. Many recent works have proposed different methods to solve this problem, but there is no theoretical understanding of why and how these methods work. In this paper, we propose a novel theoretical stability analysis of fine-tuning that focuses on two commonly used settings, namely, full fine-tuning and head tuning. We define the stability under each setting and prove the corresponding stability bounds. The theoretical bounds explain why and how several existing methods can stabilize the fine-tuning procedure. In addition to being able to explain most of the observed empirical discoveries, our proposed theoretical analysis framework can also help in the design of effective and provable methods. Based on our theory, we propose three novel strategies to stabilize the fine-tuning procedure, namely, Maximal Margin Regularizer (MMR), Multi-Head Loss (MHLoss), and Self Unsupervised Re-Training (SURT). We extensively evaluate our proposed approaches on 11 widely used real-world benchmark datasets, as well as hundreds of synthetic classification datasets. The experiment results show that our proposed methods significantly stabilize the fine-tuning procedure and also corroborate our theoretical analysis.
翻訳日:2023-01-25 14:18:36 公開日:2023-01-24
# 共変触媒は相関と良い量子参照フレームをほとんど分解しない

Covariant catalysis requires correlations and good quantum reference frames degrade little ( http://arxiv.org/abs/2301.09877v1 )

ライセンス: Link先を確認
Lauritz van Luijk, Reinhard F. Werner, Henrik Wilming(参考訳) 触媒 (catalyst) は、与えられた操作上の制約の下では到達不能な量子状態間の動的経路を開放する量子システムであり、同時に量子状態も変更しない。 ここでは、対称性群のユニタリ表現に関して任意の量子チャネルを共変させなければならない対称性と保存法則によって課される制限を考察し、2つの結果を示す。 まず、正確な触媒が有用であるためには、利害関係系または与えられた過程を共変ユニタリダイナミクスに拡張する自由度のいずれかの相関関係を構築する必要がある。 これは純粋な状態の触媒が役に立たない理由を説明する。 第二に、量子系(参照フレーム)が、大域的共変量子チャネルを介して他の系上の高精度ユニタリダイナミクス(保存則に違反する可能性がある)にシミュレートするために使用される場合、このチャネルは、基準系がおよそ触媒的であるように選択することができる。 言い換えれば、ユニタリダイナミクスをシミュレートする参照フレームが高精度に分解されるのはごくわずかである。

Catalysts are quantum systems that open up dynamical pathways between quantum states which are otherwise inaccessible under a given set of operational restrictions while, at the same time, they do not change their quantum state. We here consider the restrictions imposed by symmetries and conservation laws, where any quantum channel has to be covariant with respect to the unitary representation of a symmetry group, and present two results. First, for an exact catalyst to be useful, it has to build up correlations to either the system of interest or the degrees of freedom dilating the given process to covariant unitary dynamics. This explains why catalysts in pure states are useless. Second, if a quantum system ("reference frame") is used to simulate to high precision unitary dynamics (which possibly violates the conservation law) on another system via a global, covariant quantum channel, then this channel can be chosen so that the reference frame is approximately catalytic. In other words, a reference frame that simulates unitary dynamics to high precision degrades only very little.
翻訳日:2023-01-25 14:11:48 公開日:2023-01-24
# 知識グラフを用いたモジュール最適化アルゴリズムの性能予測

Using Knowledge Graphs for Performance Prediction of Modular Optimization Algorithms ( http://arxiv.org/abs/2301.09876v1 )

ライセンス: Link先を確認
Ana Kostovska, Diederick Vermetten, Sa\v{s}o D\v{z}eroski, Pan\v{c}e Panov, Tome Eftimov, Carola Doerr(参考訳) 経験的データは進化的計算研究において重要な役割を担っている。 利用可能なデータをよりよく活用するために、オントロジは構造化された方法で保存を整理するために文献で提案されている。 しかしながら、これらの形式的手法がドメイン知識を捉える可能性については、まだ実証されていない。 本研究では,最近提案されたoption ontologyの拡張を基盤としたパフォーマンス予測モデルを評価する。 具体的には,モジュール型ブラックボックス最適化アルゴリズムの表現に必要な語彙でOPTIONオントロジーを拡張する。 次に、拡張OPTIONオントロジーを用いて、24個のノイズレスBBOBベンチマーク関数に対して、2つのモジュラアルゴリズムフレームワークmodCMAとmodDEの固定予算性能データを含む知識グラフを作成する。 我々は知識グラフ埋め込み手法を用いて性能予測モデルを構築した。 複数の異なる評価シナリオを用いて、知識グラフの文脈におけるかなり標準的な予測モデルタスクであるトリプル分類手法が、与えられたアルゴリズムインスタンスが与えられた問題インスタンスに対して特定の目標精度を達成できるかどうかを正確に予測できることを示す。 このアプローチはアルゴリズムと問題の特徴表現を必要とする。 後者はすでに十分に開発されていますが、私たちの仕事がコミュニティに適切なアルゴリズム表現で協力する動機づけになることを願っています。

Empirical data plays an important role in evolutionary computation research. To make better use of the available data, ontologies have been proposed in the literature to organize their storage in a structured way. However, the full potential of these formal methods to capture our domain knowledge has yet to be demonstrated. In this work, we evaluate a performance prediction model built on top of the extension of the recently proposed OPTION ontology. More specifically, we first extend the OPTION ontology with the vocabulary needed to represent modular black-box optimization algorithms. Then, we use the extended OPTION ontology, to create knowledge graphs with fixed-budget performance data for two modular algorithm frameworks, modCMA, and modDE, for the 24 noiseless BBOB benchmark functions. We build the performance prediction model using a knowledge graph embedding-based methodology. Using a number of different evaluation scenarios, we show that a triple classification approach, a fairly standard predictive modeling task in the context of knowledge graphs, can correctly predict whether a given algorithm instance will be able to achieve a certain target precision for a given problem instance. This approach requires feature representation of algorithms and problems. While the latter is already well developed, we hope that our work will motivate the community to collaborate on appropriate algorithm representations.
翻訳日:2023-01-25 14:11:29 公開日:2023-01-24
# 強誘電体大ポラロンのロータ格子モデル

Rotor Lattice Model of Ferroelectric Large Polarons ( http://arxiv.org/abs/2301.09875v1 )

ライセンス: Link先を確認
Georgios M. Koutentakis, Areg Ghazaryan, and Mikhail Lemeshko(参考訳) ハイブリッドペロブスカイトにおける電荷輸送の最小モデルを提案し、これは最近提案された強誘電体大型ポーラロンの形成の直観的な説明を提供する。 短距離電荷-ロータ相互作用がロータの長距離強誘電率順序につながり,キャリアの移動に強い影響を与えることを示す。 我々の理論が初期のモデルのいずれかに還元できない非摂動的レジームでは、実験とよく一致してポーラロンの性質を予測する。 これは分子材料の電子的性質を明らかにする単純なモデルの可能性を示している。

We present a minimal model of charge transport in hybrid perovskites, which provides an intuitive explanation for the recently proposed formation of ferroelectric large polarons. We demonstrate that short-ranged charge--rotor interactions lead to long-range ferroelectic ordering of rotors, which strongly affects the carrier mobility. In the nonperturbative regime, where our theory cannot be reduced to any of the earlier models, we predict polaron properties in good agreement with experiment. This shows the potential of simple models to reveal electronic properties of molecular materials.
翻訳日:2023-01-25 14:11:09 公開日:2023-01-24
# 通信波長における多光子減算による非ガウス量子状態の生成

Non-Gaussian quantum state generation by multi-photon subtraction at the telecommunication wavelength ( http://arxiv.org/abs/2301.09871v1 )

ライセンス: Link先を確認
Mamoru Endo, Ruofan He, Tatsuki Sonoyama, Kazuma Takahashi, Takahiro Kashiwazaki, Takeshi Umeki, Sachiko Takasu, Kaori Hattori, Daiji Fukuda, Kosuke Fukui, Kan Takase, Warit Asavanant, Petr Marek, Radim Filip, Akira Furusawa(参考訳) 連続変数量子情報処理の分野では、ウィグナー関数の負の値を持つ非ガウス状態がフォールトトレラントな普遍量子コンピュータの開発に不可欠である。 いくつかの非ガウス状態が実験的に生成されているが、成熟した光通信技術が利用可能な通信波長帯において、高速量子計算に必要な超短光波パケットを用いるものは存在しない。 本稿では,光子サブトラクションを最大3光子に用いた1545.32nm帯の短波長8-psの光パケット上での非ガウス状態の生成について述べる。 我々は、低損失空間モード導波路光パラメトリック増幅器、超伝導遷移エッジセンサ、位相同期パルスホモダイン計測システムを用いて、損失補正を3光子サブトラクションまで行わずにウィグナー関数の負の値を観測した。 これらの結果はより複雑な非ガウス状態の生成に拡張することができ、高速光量子計算のための重要な技術である。

In the field of continuous-variable quantum information processing, non-Gaussian states with negative values of the Wigner function are crucial for the development of a fault-tolerant universal quantum computer. While several non-Gaussian states have been generated experimentally, none have been created using ultrashort optical wave packets, which are necessary for high-speed quantum computation, in the telecommunication wavelength band where mature optical communication technology is available. In this paper, we present the generation of non-Gaussian states on wave packets with a short 8-ps duration in the 1545.32 nm telecommunication wavelength band using photon subtraction up to three photons. We used a low-loss, quasi-single spatial mode waveguide optical parametric amplifier, a superconducting transition edge sensor, and a phase-locked pulsed homodyne measurement system to observe negative values of the Wigner function without loss correction up to three-photon subtraction. These results can be extended to the generation of more complicated non-Gaussian states and are a key technology in the pursuit of high-speed optical quantum computation.
翻訳日:2023-01-25 14:10:59 公開日:2023-01-24
# 時系列解析のためのコンテキスト固有カーネルベース隠れマルコフモデル

Context-specific kernel-based hidden Markov model for time series analysis ( http://arxiv.org/abs/2301.09870v1 )

ライセンス: Link先を確認
Carlos Puerto-Santana, Concha Bielza, Pedro Larra\~naga, Gustav Eje Henter(参考訳) 従来の隠れマルコフモデルは確率的線形データを理解し、モデル化するための有用なツールであり、非ガウス的データや平均データでは、ガウス的隠れマルコフモデルの混合のようなモデルは精度行列の計算に悩まされ、多くの不要なパラメータを持つ。 結果として、そのようなモデルは、全ての変数が独立であると仮定された場合、非現実的であるかもしれない仮説によりよく機能する。 核密度推定に基づく隠れマルコフモデルは、非ガウスデータもモデル化できるが、変数間の独立性を仮定する。 本稿では,カーネル密度推定に基づく新しい隠れマルコフモデルを提案する。 提案モデルと期待最大化アルゴリズムに基づく学習アルゴリズムについて述べる。 さらに、合成データと実データを用いて、関連するHMMと比較する。 以上の結果から,提案モデルによる確率と分類精度の利点を定量化し,分析した。

Traditional hidden Markov models have been a useful tool to understand and model stochastic dynamic linear data; in the case of non-Gaussian data or not linear in mean data, models such as mixture of Gaussian hidden Markov models suffer from the computation of precision matrices and have a lot of unnecessary parameters. As a consequence, such models often perform better when it is assumed that all variables are independent, a hypothesis that may be unrealistic. Hidden Markov models based on kernel density estimation is also capable of modeling non Gaussian data, but they assume independence between variables. In this article, we introduce a new hidden Markov model based on kernel density estimation, which is capable of introducing kernel dependencies using context-specific Bayesian networks. The proposed model is described, together with a learning algorithm based on the expectation-maximization algorithm. Additionally, the model is compared with related HMMs using synthetic and real data. From the results, the benefits in likelihood and classification accuracy from the proposed model are quantified and analyzed.
翻訳日:2023-01-25 14:10:43 公開日:2023-01-24
# 高能率角形ウィンドウ変換器を用いた画像超解像

Image Super-Resolution using Efficient Striped Window Transformer ( http://arxiv.org/abs/2301.09869v1 )

ライセンス: Link先を確認
Jinpeng Shi, Hui Li, Tianle Liu, Yulong Liu, Mingjian Zhang, Jinchen Zhu, Ling Zheng, Shizhuang Weng(参考訳) 近年, 単一像超解離反応 (SR) において, トランスフォーマー法は顕著な進歩を遂げている。 しかし,軽量sr (lsr) では,モデルの性能と複雑さのバランスをとることが困難である。 本稿では,効率のよい窓形変圧器(eswt)を提案する。 ESWTは効率的な変換層(ETL)で構成されており、クリーンな構造と冗長な操作を避けることができる。 さらに,長期依存関係のモデリングにおいて,より効率的なESWTを実現するために,ストライプウィンドウ機構を設計した。 トランスの可能性をさらに活用するために,新しいフレキシブルウィンドウトレーニング戦略を提案する。 追加のコストがなければ、この戦略はESWTの性能をさらに向上させることができる。 拡張実験により,提案手法は,パラメータが小さく,推論が速く,FLOPが小さく,メモリ消費が小さく,モデル性能と複雑性のトレードオフが良好であることを示す。

Recently, transformer-based methods have made impressive progress in single-image super-resolu-tion (SR). However, these methods are difficult to apply to lightweight SR (LSR) due to the challenge of balancing model performance and complexity. In this paper, we propose an efficient striped window transformer (ESWT). ESWT consists of efficient transformation layers (ETLs), allowing a clean structure and avoiding redundant operations. Moreover, we designed a striped window mechanism to obtain a more efficient ESWT in modeling long-term dependencies. To further exploit the potential of the transformer, we propose a novel flexible window training strategy. Without any additional cost, this strategy can further improve the performance of ESWT. Extensive experiments show that the proposed method outperforms state-of-the-art transformer-based LSR methods with fewer parameters, faster inference, smaller FLOPs, and less memory consumption, achieving a better trade-off between model performance and complexity.
翻訳日:2023-01-25 14:10:26 公開日:2023-01-24
# 同じか違うか? 著者分析のためのディフベクター

Same or Different? Diff-Vectors for Authorship Analysis ( http://arxiv.org/abs/2301.09862v1 )

ライセンス: Link先を確認
Silvia Corbara and Alejandro Moreo and Fabrizio Sebastiani(参考訳) 本研究では,教師付き学習者への入力として与えられた文書のベクトル表現をどのように捉えるかという基本的な変遷の著者識別課題に対する効果について検討する。 `classic'' の著者名分析では、特徴ベクトルは文書を表し、特徴の値は文書内の特徴の相対周波数(関数の増大)を表し、クラスラベルは文書の著者を表す。 代わりに、特徴ベクトルが2つの文書の無順序対を表し、特徴ベクトルの値は2つの文書における特徴の相対周波数(またはそれらの機能の増加)の絶対差を表し、クラスラベルは2つの文書が同一の著者であるか否かを示す。 この後者(リアナー非依存)の表現は、過去にも時々用いられてきたが、体系的に研究されることはなかった。 我々は、それが有利であり、いくつかのケース(例えば、著者の検証)では、標準的な表現よりもトレーニングプロセスにはるかに多くの情報を提供すると論じている。 いくつかの公開データセットで実施した実験では、ドキュメントペア(diff-vectorsと呼ぶ)を表す特徴ベクトルが、オーサシップ識別タスクの有効性を体系的に改善していること、特にトレーニングデータが不足している場合(実際のオーサシップ識別シナリオの場合が多いため)が示されています。 dvsは自然に第1の問題を解決するためのものであるが、第2と第3の問題を解決するための2つの新しい方法を提供し、第1の解法をビルディングブロックとして使用する。

We investigate the effects on authorship identification tasks of a fundamental shift in how to conceive the vectorial representations of documents that are given as input to a supervised learner. In ``classic'' authorship analysis a feature vector represents a document, the value of a feature represents (an increasing function of) the relative frequency of the feature in the document, and the class label represents the author of the document. We instead investigate the situation in which a feature vector represents an unordered pair of documents, the value of a feature represents the absolute difference in the relative frequencies (or increasing functions thereof) of the feature in the two documents, and the class label indicates whether the two documents are from the same author or not. This latter (learner-independent) type of representation has been occasionally used before, but has never been studied systematically. We argue that it is advantageous, and that in some cases (e.g., authorship verification) it provides a much larger quantity of information to the training process than the standard representation. The experiments that we carry out on several publicly available datasets (among which one that we here make available for the first time) show that feature vectors representing pairs of documents (that we here call Diff-Vectors) bring about systematic improvements in the effectiveness of authorship identification tasks, and especially so when training data are scarce (as it is often the case in real-life authorship identification scenarios). Our experiments tackle same-author verification, authorship verification, and closed-set authorship attribution; while DVs are naturally geared for solving the 1st, we also provide two novel methods for solving the 2nd and 3rd that use a solver for the 1st as a building block.
翻訳日:2023-01-25 14:10:11 公開日:2023-01-24
# 反応する流れの予測物理学-アウェアハイブリッド減数次モデル

A predictive physics-aware hybrid reduced order model for reacting flows ( http://arxiv.org/abs/2301.09860v1 )

ライセンス: Link先を確認
Adri\'an Corrochano, Rodolfo S.M. Freitas, Alessandro Parente, Soledad Le Clainche(参考訳) 本研究では,反応する流れ問題の解法として,新しいハイブリッド予測還元順序モデル(rom)を提案する。 このアルゴリズムは,POD(Proper Orthogonal Decomposition)とディープラーニングアーキテクチャを組み合わせた次元削減に基づいている。 自由度は、数千の時間的点から、対応する時間的係数を持ついくつかのPODモードへと減少する。 再帰的(RNN)と畳み込み(CNN)ニューラルネットワークに基づいて、時間係数を予測するために、2つの異なるディープラーニングアーキテクチャがテストされている。 各アーキテクチャから、ニューラルネットワークの各パラメータの振る舞いを理解するために、さまざまなモデルが作成されている。 その結果,これらのアーキテクチャはPODモードの時間係数やスナップショット全体を予測できることがわかった。 rnnは解析された全ての変数に対する予測誤差が低い。 このモデルはまた、伝達学習能力を示すより複雑なシミュレーションを予測できることを示した。

In this work, a new hybrid predictive Reduced Order Model (ROM) is proposed to solve reacting flow problems. This algorithm is based on a dimensionality reduction using Proper Orthogonal Decomposition (POD) combined with deep learning architectures. The number of degrees of freedom is reduced from thousands of temporal points to a few POD modes with their corresponding temporal coefficients. Two different deep learning architectures have been tested to predict the temporal coefficients, based on recursive (RNN) and convolutional (CNN) neural networks. From each architecture, different models have been created to understand the behavior of each parameter of the neural network. Results show that these architectures are able to predict the temporal coefficients of the POD modes, as well as the whole snapshots. The RNN shows lower prediction error for all the variables analyzed. The model was also found capable of predicting more complex simulations showing transfer learning capabilities.
翻訳日:2023-01-25 14:09:43 公開日:2023-01-24
# powerquant: 非一様量子化に対する自己同型探索

PowerQuant: Automorphism Search for Non-Uniform Quantization ( http://arxiv.org/abs/2301.09858v1 )

ライセンス: Link先を確認
Edouard Yvinec, Arnaud Dapogny, Matthieu Cord, Kevin Bailly(参考訳) ディープニューラルネットワーク(DNN)は現在、コンピュータビジョンなどの多くの領域で広く使われている。 しかし、その高いレイテンシのため、dnnの配置は、重みとアクティベーションをエンコードするビット数を減少させる量子化のような圧縮技術の開発にかかっている。 プライバシとセキュリティに対する懸念が高まり、精度が拡大して、データフリーな技術の開発が動機になっている。 本稿では,既存の手法の限界として量子化演算子の均一性を同一視し,データフリーな非一様法を提案する。 より具体的には、専用ハードウェアと実装がなければ、非一様量子化はdnnが行う数学的操作の性質を変えるものではないと論じている。 これにより、$(\mathbb{R}_+^*,\times)$ の連続自己同型が探索され、指数関数によって定義されるパワー関数に沸騰する。 このパラメータを求めるために,各層の再構成誤差を最適化する手法を提案する。 推定時には、PowerQuantと呼ばれる我々の手法は、量子化されたDNNアクティベーション関数の単純な修正しか必要としないことを示す。 そのため、無視できるオーバーヘッドだけで、様々な構成で既存のメソッドよりも大幅に優れています。

Deep neural networks (DNNs) are nowadays ubiquitous in many domains such as computer vision. However, due to their high latency, the deployment of DNNs hinges on the development of compression techniques such as quantization which consists in lowering the number of bits used to encode the weights and activations. Growing concerns for privacy and security have motivated the development of data-free techniques, at the expanse of accuracy. In this paper, we identity the uniformity of the quantization operator as a limitation of existing approaches, and propose a data-free non-uniform method. More specifically, we argue that to be readily usable without dedicated hardware and implementation, non-uniform quantization shall not change the nature of the mathematical operations performed by the DNN. This leads to search among the continuous automorphisms of $(\mathbb{R}_+^*,\times)$, which boils down to the power functions defined by their exponent. To find this parameter, we propose to optimize the reconstruction error of each layer: in particular, we show that this procedure is locally convex and admits a unique solution. At inference time, we show that our approach, dubbed PowerQuant, only require simple modifications in the quantized DNN activation functions. As such, with only negligible overhead, it significantly outperforms existing methods in a variety of configurations.
翻訳日:2023-01-25 14:09:30 公開日:2023-01-24
# 部分観測可能なマッピング環境における複数物体配置計画のための効果的なベースライン

Effective Baselines for Multiple Object Rearrangement Planning in Partially Observable Mapped Environments ( http://arxiv.org/abs/2301.09854v1 )

ライセンス: Link先を確認
Engin Tekin, Elaheh Barati, Nitin Kamra, Ruta Desai(参考訳) ハウスクリーニングから料理まで、多くの現実世界のタスクは、エージェントが特定のオブジェクトを適切なゴール状態に保つ必要があるマルチオブジェクト再配置問題として定式化することができる。 このような問題に対して,事前指定された目標状態,完全な操作とオブジェクト認識機能の提供,環境の静的マップなど,再配置すべきオブジェクトの初期位置が不明な設定に注目する。 我々の目標は,このような部分的可観測性の下で,家庭支援型知的エージェントが効率的に再配置を計画できるようにすることである。 これは、環境探索と再配置計画の間の効率的なトレードオフを必要としており、この問題の長期的性質のために困難である。 この問題を進展させるために,我々はまず,オブジェクト数やレセプタクル数,エージェント搬送能力,環境レイアウトなど様々な要因が,古典的手法による再配置の探索と計画に及ぼす影響を解析した。 次に,設計計画のためのモノリシックおよびモジュール型深層強化学習(drl)手法について検討した。 モノリシックDRL法は多目的再配置に必要な長期計画では成功しない。 その代わり、モジュラーグリーディアプローチは驚くほどうまく機能し、多目的再配置問題における部分可観測性を持つ計画の競争ベースラインとして現れる。 また、我々は、再配置が必要なオブジェクトが一様に環境に分散されているとき、我々の欲張りなモジュラーエージェントが経験的に最適であることを示します。

Many real-world tasks, from house-cleaning to cooking, can be formulated as multi-object rearrangement problems -- where an agent needs to get specific objects into appropriate goal states. For such problems, we focus on the setting that assumes a pre-specified goal state, availability of perfect manipulation and object recognition capabilities, and a static map of the environment but unknown initial location of objects to be rearranged. Our goal is to enable home-assistive intelligent agents to efficiently plan for rearrangement under such partial observability. This requires efficient trade-offs between exploration of the environment and planning for rearrangement, which is challenging because of long-horizon nature of the problem. To make progress on this problem, we first analyze the effects of various factors such as number of objects and receptacles, agent carrying capacity, environment layouts etc. on exploration and planning for rearrangement using classical methods. We then investigate both monolithic and modular deep reinforcement learning (DRL) methods for planning in our setting. We find that monolithic DRL methods do not succeed at long-horizon planning needed for multi-object rearrangement. Instead, modular greedy approaches surprisingly perform reasonably well and emerge as competitive baselines for planning with partial observability in multi-object rearrangement problems. We also show that our greedy modular agents are empirically optimal when the objects that need to be rearranged are uniformly distributed in the environment -- thereby contributing baselines with strong performance for future work on multi-object rearrangement planning in partially observable settings.
翻訳日:2023-01-25 14:09:07 公開日:2023-01-24
# 結論に基づく反論生成

Conclusion-based Counter-Argument Generation ( http://arxiv.org/abs/2301.09911v1 )

ライセンス: Link先を確認
Milad Alshomary and Henning Wachsmuth(参考訳) 現実世界の議論では、議論に対処する最も一般的な方法は、その主要なポイント、すなわち結論に対する推論である。 自然言語対論の自動生成に関する既存の研究は、おそらく多くの議論がその結論を暗黙に残しているため、結論との関係に対処しない。 本稿では,実効的な反弁生成の鍵は,議論の結論を明示的にモデル化し,生成したカウンターのスタンスがその結論とは正反対であることを保証することであると仮定する。 特に、入力引数の結論とカウンタの両方を生成することを共同で学習するマルチタスクアプローチを提案する。 このアプローチは、生成した結論に最も反対するスタンスを持つ多様な候補群からカウンターを選択するスタンスベースのランキングコンポーネントを用いる。 自動評価と手動評価の両方において,我々のアプローチが,強いベースラインよりも関連性とスタンスアドレッシングカウンタを生成することの証拠を提供する。

In real-world debates, the most common way to counter an argument is to reason against its main point, that is, its conclusion. Existing work on the automatic generation of natural language counter-arguments does not address the relation to the conclusion, possibly because many arguments leave their conclusion implicit. In this paper, we hypothesize that the key to effective counter-argument generation is to explicitly model the argument's conclusion and to ensure that the stance of the generated counter is opposite to that conclusion. In particular, we propose a multitask approach that jointly learns to generate both the conclusion and the counter of an input argument. The approach employs a stance-based ranking component that selects the counter from a diverse set of generated candidates whose stance best opposes the generated conclusion. In both automatic and manual evaluation, we provide evidence that our approach generates more relevant and stance-adhering counters than strong baselines.
翻訳日:2023-01-25 14:02:51 公開日:2023-01-24
# 言語横断型ドイツ生物医学情報抽出--ゼロショットからヒューマン・イン・ザ・ループへ

Cross-lingual German Biomedical Information Extraction: from Zero-shot to Human-in-the-Loop ( http://arxiv.org/abs/2301.09908v1 )

ライセンス: Link先を確認
Siting Liang and Mareike Hartmann and Daniel Sonntag(参考訳) 本稿では,ドイツ臨床物語からバイオメディカル情報を少量の注釈で抽出するプロジェクトを提案する。 まず,この問題を解決するために,トランスファーラーニングとアクティブラーニングの応用戦略について述べる。 その後,インタラクティブ環境におけるモデルインスペクション提供とユーザアノテーション取得の両面において,ユーザインタフェースの設計について検討する。

This paper presents our project proposal for extracting biomedical information from German clinical narratives with limited amounts of annotations. We first describe the applied strategies in transfer learning and active learning for solving our problem. After that, we discuss the design of the user interface for both supplying model inspection and obtaining user annotations in the interactive environment.
翻訳日:2023-01-25 14:02:34 公開日:2023-01-24
# 嗅覚物体検出のための伝達学習

Transfer Learning for Olfactory Object Detection ( http://arxiv.org/abs/2301.09906v1 )

ライセンス: Link先を確認
Mathias Zinnen, Prathmesh Madhu, Peter Bell, Andreas Maier, and Vincent Christlein(参考訳) 物体検出事前学習に用いる複数のデータセットにおけるスタイルとカテゴリの類似性について検討する。 物体検出事前学習のさらなる段階を含むと、検出性能を大幅に向上させることができる。 我々の実験は、事前学習とターゲットデータセットのスタイルの類似性が一致したカテゴリよりも重要でないことを示唆するが、この仮説を検証するためにはさらなる実験が必要である。

We investigate the effect of style and category similarity in multiple datasets used for object detection pretraining. We find that including an additional stage of object-detection pretraining can increase the detection performance considerably. While our experiments suggest that style similarities between pre-training and target datasets are less important than matching categories, further experiments are needed to verify this hypothesis.
翻訳日:2023-01-25 14:02:27 公開日:2023-01-24
# 機械学習のための顔アノテーションにおけるラベルバイアスの調査

Investigating Labeler Bias in Face Annotation for Machine Learning ( http://arxiv.org/abs/2301.09902v1 )

ライセンス: Link先を確認
Luke Haliburton and Sinksar Ghebremedhin and Robin Welsch and Albrecht Schmidt and Sven Mayer(参考訳) 人工知能にますます依存する世界では、人工知能の人間性に対する倫理的影響を考えることは、これまで以上に重要である。 これは本質的にバイアスのあるデータセットを作成し、その後、医療、雇用、教育、法執行における不正確または不公平な決定につながる。 そこで我々は,異なる民族や性別のイメージをラベル付けタスクに用いて,ラベル付けバイアスの存在を調査・測定する研究を行った。 その結果、参加者は意思決定プロセスに影響を及ぼすステレオタイプを持ち、ラベラーの人口動態はラベルに影響を与えていることがわかった。 また,ラベラーバイアスがデータセットに与える影響についても論じた。 全体としては、データのバイアスを可能な限り早く識別し、修正するために、人工知能トレーニングプロセス全体を通して高い透明性を維持する必要があります。

In a world increasingly reliant on artificial intelligence, it is more important than ever to consider the ethical implications of artificial intelligence on humanity. One key under-explored challenge is labeler bias, which can create inherently biased datasets for training and subsequently lead to inaccurate or unfair decisions in healthcare, employment, education, and law enforcement. Hence, we conducted a study to investigate and measure the existence of labeler bias using images of people from different ethnicities and sexes in a labeling task. Our results show that participants possess stereotypes that influence their decision-making process and that labeler demographics impact assigned labels. We also discuss how labeler bias influences datasets and, subsequently, the models trained on them. Overall, a high degree of transparency must be maintained throughout the entire artificial intelligence training process to identify and correct biases in the data as early as possible.
翻訳日:2023-01-25 14:02:21 公開日:2023-01-24
# 機械学習を用いた危機管理のための災害ニュースの自動識別

Automated Identification of Disaster News For Crisis Management Using Machine Learning ( http://arxiv.org/abs/2301.09896v1 )

ライセンス: Link先を確認
Lord Christian Carl H. Regacho, Ai Matsushita, Angie M. Ceniza-Canillo(参考訳) 多くのニュースソースがTyphoon Rai(地元でもTyphoon Odetteと呼ばれている)と偽のニュースメディアを取り上げている。 この研究は、正当性と不正なニュース記事を識別できるモデルを作成するために、この問題に光を当てた。 そこで私たちは、ロジスティック回帰(Logistic Regression)、ランダムフォレスト(Random Forest)、マルチノミアル・ネイブベイズ(Multinomial Naive Bayes)という機械学習アルゴリズムを選択しました。 単語のバグ、TF-IDF、Lemmatizationがモデルに実装された。 正当性と不正なソースから160のデータセットを取得し、機械学習をトレーニングし、テストした。 すべての機械学習技術を組み合わせることで、91.07%の精度、88.33%の精度、94.64%のリコール、91.38%のf1スコアに到達し、tf-idfモデルは91.18%の精度、86.89%の精度、94.64%のリコール、90.60%のf1スコアに到達した。

A lot of news sources picked up on Typhoon Rai (also known locally as Typhoon Odette), along with fake news outlets. The study honed in on the issue, to create a model that can identify between legitimate and illegitimate news articles. With this in mind, we chose the following machine learning algorithms in our development: Logistic Regression, Random Forest and Multinomial Naive Bayes. Bag of Words, TF-IDF and Lemmatization were implemented in the Model. Gathering 160 datasets from legitimate and illegitimate sources, the machine learning was trained and tested. By combining all the machine learning techniques, the Combined BOW model was able to reach an accuracy of 91.07%, precision of 88.33%, recall of 94.64%, and F1 score of 91.38% and Combined TF-IDF model was able to reach an accuracy of 91.18%, precision of 86.89%, recall of 94.64%, and F1 score of 90.60%.
翻訳日:2023-01-25 14:02:07 公開日:2023-01-24
# 深層学習による精巣組織の組織像における尿細管上皮層分画法

Deep learning-based method for segmenting epithelial layer of tubules in histopathological images of testicular tissue ( http://arxiv.org/abs/2301.09887v1 )

ライセンス: Link先を確認
Azadeh Fakhrzadeh, Pouya Karimian, Mahsa Meyari, Cris L. Luengo Hendriks, Lena Holm, Christian Sonne, Rune Dietz, Ellinor Sp\"orndly-Nees(参考訳) 男性生殖が環境化学物質の影響を受けているとの懸念が高まっている。 環境汚染物質の悪影響を決定する一つの方法は、野生動物をモニターとして使用し、病理組織学を用いて精巣毒性を評価することである。 自動的手法は, 組織病理の定量的評価において, 手動評価の主観性を克服し, プロセスを加速するために必要な手段である。 精巣組織の組織像を自動処理する手法を提案する。 半niferous tubeuleの上皮層を分画することは、組織の異常を検出する自動化方法を開発するための前提条件である。 本論文では,半円管の上皮層を組織像で区分するエンコーダ-デコーダ完全連結畳み込みニューラルネットワーク(f-cnn)モデルを提案する。 エンコーダでResNet-34モジュールを使用すると、勾配の消失を回避し、ネットワーク収束を加速するショートカット機構が追加される。 圧縮・励起(se)注意ブロックを、上皮のセグメンテーション及び局在性を改善する符号化モジュールに統合する。 管の上皮層がターゲットクラスである2クラス問題に対して,提案手法を適用した。 提案手法のf-score と iou は 0.85 と 0.92 である。 提案手法は限られた訓練セットで訓練されるが、独立データセット上では良好に動作し、他の最先端手法よりも優れる。 エンコーダの事前訓練されたResNet-34とデコーダのアテンションブロックにより,セグメンテーションと一般化が向上する。 提案法は, 哺乳動物由来の精巣組織画像に適用でき, 完全自動化精巣組織処理パイプラインの第1部として利用することができる。 データセットとコードはGitHubで公開されている。

There is growing concern that male reproduction is affected by environmental chemicals. One way to determine the adverse effect of environmental pollutants is to use wild animals as monitors and evaluate testicular toxicity using histopathology. Automated methods are necessary tools in the quantitative assessment of histopathology to overcome the subjectivity of manual evaluation and accelerate the process. We propose an automated method to process histology images of testicular tissue. Segmenting the epithelial layer of the seminiferous tubule is a prerequisite for developing automated methods to detect abnormalities in tissue. We suggest an encoder-decoder fully connected convolutional neural network (F-CNN) model to segment the epithelial layer of the seminiferous tubules in histological images. Using ResNet-34 modules in the encoder adds a shortcut mechanism to avoid the gradient vanishing and accelerate the network convergence. The squeeze & excitation (SE) attention block is integrated into the encoding module improving the segmentation and localization of epithelium. We applied the proposed method for the 2-class problem where the epithelial layer of the tubule is the target class. The f-score and IoU of the proposed method are 0.85 and 0.92. Although the proposed method is trained on a limited training set, it performs well on an independent dataset and outperforms other state-of-the-art methods. The pretrained ResNet-34 in the encoder and attention block suggested in the decoder result in better segmentation and generalization. The proposed method can be applied to testicular tissue images from any mammalian species and can be used as the first part of a fully automated testicular tissue processing pipeline. The dataset and codes are publicly available on GitHub.
翻訳日:2023-01-25 14:01:45 公開日:2023-01-24
# 構造的物理近似を用いた配向基準の物理的実現

Physical realization of realignment criteria using structural physical approximation ( http://arxiv.org/abs/2301.09884v1 )

ライセンス: Link先を確認
Shruti Aggarwal, Anu Kumari, Satyabrata Adhikari(参考訳) 量子絡み検出は量子情報処理において重要な資源であるため、量子情報理論において重要な問題である。 配向基準は、二部量子系と多部量子系における絡み合った状態を検出する強力なツールである。 これは、うまく機能するので、絡み合い検出の重要な基準であり、負の部分転置絡み状態(npte)だけでなく、正の部分転置絡み状態(ppte)にとっても重要な基準である。 有向写像に対応する行列は不定であるため、写像の実験的な実装は不明瞭なタスクである。 本稿では,まず,構造的物理的近似法(spa)を用いて,実測写像を正の写像に近似し,その後,実測写像の構造的物理的近似(spa-r)が完全に正であることを示す。 構築された地図の電位は、物理的に測定できるモーメントを用いて特徴づけられる。 次に,不等式という形でspa-rマップに基づく分離可能性基準を開発し,開発した評価基準がnpteだけでなくppteも検出することを示した。 得られた結果を支持するいくつかの例を提示した。 さらに、配向写像の近似により生じる可能性のある誤差を解析した。

Entanglement detection is an important problem in quantum information theory because quantum entanglement is a key resource in quantum information processing. Realignment criteria is a powerful tool for detection of entangled states in bipartite and multipartite quantum system. It is an important criteria for entanglement detection because it works well; not only for negative partial transpose entangled states (NPTES) but also for positive partial transpose entangled states (PPTES). Since the matrix corresponding to realignment map is indefinite so the experimental implementation of the map is an obscure task. In this work, firstly, we have approximated the realignment map to a positive map using the method of structural physical approximation (SPA) and then we have shown that the structural physical approximation of realignment map (SPA-R) is completely positive. Positivity of the constructed map is characterized using moments which can be physically measured. Next, we develop a separability criterion based on our SPA-R map in the form of an inequality and have shown that the developed criterion not only detect NPTES but also PPTES. We have provided some examples to support the results obtained. Moreover, we have analysed the error that may occur because of approximating the realignment map.
翻訳日:2023-01-25 14:01:17 公開日:2023-01-24
# 確率的二レベルコアセット選択

Probabilistic Bilevel Coreset Selection ( http://arxiv.org/abs/2301.09880v1 )

ライセンス: Link先を確認
Xiao Zhou, Renjie Pi, Weizhong Zhang, Yong Lin, Tong Zhang(参考訳) 教師付き学習におけるコアセット選択の目標は、データの重み付けされたサブセットを作成することだ。 既存の手法は、連続学習やストリーミングといったリソース制約のあるシナリオにおいて有望な結果を得た。 しかし、既存のアルゴリズムのほとんどは従来の機械学習モデルに限定されている。 大規模モデルに対処できるアルゴリズムは、離散部分集合選択問題の解決が困難であり、コアセットが大きくなると計算コストが高くなり、しばしば準最適結果を生成するため、欲求的な探索手法を採用する。 本研究では,各トレーニングサンプルの確率的重みを学習することにより,コアセット選択の連続確率的2レベル定式化を初めて提案する。 全体的な目的は、二段階最適化問題として提示される。 1)内ループはコアセットをサンプリングし、収束するようモデルを訓練し、 2)アウターループは、モデルの性能に応じて、サンプル確率を段階的に更新する。 重要なのは,非バイアスポリシー勾配による二段階最適化問題に対する効率的な解法を,暗黙的な分化に支障をきたすことなく開発することである。 我々は,学習手順の収束特性を提供し,様々なタスク,特にラベルノイズやクラス不均衡のシナリオにおいて,様々なコアセット選択法に対するアルゴリズムの優越性を示す。

The goal of coreset selection in supervised learning is to produce a weighted subset of data, so that training only on the subset achieves similar performance as training on the entire dataset. Existing methods achieved promising results in resource-constrained scenarios such as continual learning and streaming. However, most of the existing algorithms are limited to traditional machine learning models. A few algorithms that can handle large models adopt greedy search approaches due to the difficulty in solving the discrete subset selection problem, which is computationally costly when coreset becomes larger and often produces suboptimal results. In this work, for the first time we propose a continuous probabilistic bilevel formulation of coreset selection by learning a probablistic weight for each training sample. The overall objective is posed as a bilevel optimization problem, where 1) the inner loop samples coresets and train the model to convergence and 2) the outer loop updates the sample probability progressively according to the model's performance. Importantly, we develop an efficient solver to the bilevel optimization problem via unbiased policy gradient without trouble of implicit differentiation. We provide the convergence property of our training procedure and demonstrate the superiority of our algorithm against various coreset selection methods in various tasks, especially in more challenging label-noise and class-imbalance scenarios.
翻訳日:2023-01-25 14:00:55 公開日:2023-01-24
# データ拡張アローンは、対人訓練を改善する

Data Augmentation Alone Can Improve Adversarial Training ( http://arxiv.org/abs/2301.09879v1 )

ライセンス: Link先を確認
Lin Li, Michael Spratling(参考訳) 敵の訓練は強固な過剰フィッティングの問題に苦しめられ、それが一般化性能を著しく損なう。 標準訓練における過剰フィッティングの防止に有効なデータ拡張は、多くの先行研究によって、敵訓練における過剰フィッティングの緩和に効果がないことが観察されている。 この研究は、以前の結果とは対照的に、データ拡張だけでは、敵の訓練における精度と堅牢性を大幅に向上させることができることを証明している。 データ強化の硬さと多様性は、堅牢なオーバーフィッティングと戦う上で重要な要素であることがわかった。 一般に、多様性は正確性と堅牢性の両方を改善できるが、硬度は一定の限界内で正確さのコストで堅牢性を高め、その限界を乗り越えて両方を劣化させる。 そこで我々はまず,従来の品種 (Padcrop) に比べて多様性が向上した新しい作物形質転換(Cropshift)を提案する。 そこで我々は,cropshiftに基づく新しいデータ拡張スキームを提案し,その多様性とバランスの取れたハードネスについて述べる。 経験的に,本手法は,敵訓練におけるデータ拡張の精度と頑健性を実現する。 さらに、重量平均値と組み合わせた場合、あるいはそれを超える場合、頑丈なオーバーフィッティングを緩和する最適な現代正規化手法の性能が向上する。 コードは、https://github.com/TreeLLi/DA-Alone-Improves-AT.comで入手できる。

Adversarial training suffers from the issue of robust overfitting, which seriously impairs its generalization performance. Data augmentation, which is effective at preventing overfitting in standard training, has been observed by many previous works to be ineffective in mitigating overfitting in adversarial training. This work proves that, contrary to previous findings, data augmentation alone can significantly boost accuracy and robustness in adversarial training. We find that the hardness and the diversity of data augmentation are important factors in combating robust overfitting. In general, diversity can improve both accuracy and robustness, while hardness can boost robustness at the cost of accuracy within a certain limit and degrade them both over that limit. To mitigate robust overfitting, we first propose a new crop transformation, Cropshift, which has improved diversity compared to the conventional one (Padcrop). We then propose a new data augmentation scheme, based on Cropshift, with much improved diversity and well-balanced hardness. Empirically, our augmentation method achieves the state-of-the-art accuracy and robustness for data augmentations in adversarial training. Furthermore, when combined with weight averaging it matches, or even exceeds, the performance of the best contemporary regularization methods for alleviating robust overfitting. Code is available at: https://github.com/TreeLLi/DA-Alone-Improves-AT.
翻訳日:2023-01-25 14:00:37 公開日:2023-01-24
# 匂い: 嗅覚物体認識に関するicpr2022 odeuropaチャレンジ

ODOR: The ICPR2022 ODeuropa Challenge on Olfactory Object Recognition ( http://arxiv.org/abs/2301.09878v1 )

ライセンス: Link先を確認
Mathias Zinnen, Prathmesh Madhu, Ronak Kosti, Peter Bell, Andreas Maier, Vincent Christlein(参考訳) Odeuropa Challenge on Olfactory Object Recognitionは、視覚芸術における物体検出の発展を促進し、デジタル遺産に対する嗅覚的視点を促進することを目的としている。 歴史的美術品における物体検出は、様々な様式や芸術時代のために特に困難である。 さらに,事前定義された対象オブジェクトの特異性や履歴のばらつきによって,クラス内分散が大きく,データセットラベルの長い尾の分布が複雑であり,トレーニング例が少ないものもある。 これらの課題は、参加者がドメイン適応や少人数の学習を使って革新的なアプローチを作るよう促すだろう。 トレーニングと検証セット(パブリック)に分割した,20120個の厳密な拘束ボックスを備えた2647のアートワークのデータセットを提供する。 1140のアートワークと15の480のアノテーションを含むテストセットは、課題評価のためにプライベートに保持される。

The Odeuropa Challenge on Olfactory Object Recognition aims to foster the development of object detection in the visual arts and to promote an olfactory perspective on digital heritage. Object detection in historical artworks is particularly challenging due to varying styles and artistic periods. Moreover, the task is complicated due to the particularity and historical variance of predefined target objects, which exhibit a large intra-class variance, and the long tail distribution of the dataset labels, with some objects having only very few training examples. These challenges should encourage participants to create innovative approaches using domain adaptation or few-shot learning. We provide a dataset of 2647 artworks annotated with 20 120 tightly fit bounding boxes that are split into a training and validation set (public). A test set containing 1140 artworks and 15 480 annotations is kept private for the challenge evaluation.
翻訳日:2023-01-25 14:00:14 公開日:2023-01-24
# 説明可能な深層強化学習の現状と課題

Explainable Deep Reinforcement Learning: State of the Art and Challenges ( http://arxiv.org/abs/2301.09937v1 )

ライセンス: Link先を確認
George A. Vouros(参考訳) これは倫理的な懸念と信頼の問題から重要であり、信頼性、堅牢性、監査性、公平性に強く関連しており、高いレベルの自動化において、特に意思決定において重要なケースにおいて、人間と機械の両方が重要な役割を担っている。 研究コミュニティは、クローズド(またはブラック)予測ボックスの説明可能性に多くの注意を払っているが、エージェントが現実世界で自律的に行動するのをサポートするクローズドボックスメソッドの説明可能性には、膨大なニーズがある。 強化学習法、特に深層版はそのようなクローズドボックス法である。 本稿では,人間操作者のニーズ,すなわち実世界の問題解決において現実的かつ批判的な決定を下す者のニーズを考慮した,説明可能な深層強化学習手法に関する技術の現状についてレビューすることを目的とする。 我々は,深層強化学習説明可能性問題の形式的仕様を提供し,一般説明可能な強化学習フレームワークに必要な構成要素を同定する。 そこで,本研究では,これらの手法の現状を包括的にレビューし,それに従うパラダイム,使用する解釈可能なモデル,提供された説明の表面表現に応じてクラスに分類する。 この記事はオープンな質問と重要な課題を特定します。

Interpretability, explainability and transparency are key issues to introducing Artificial Intelligence methods in many critical domains: This is important due to ethical concerns and trust issues strongly connected to reliability, robustness, auditability and fairness, and has important consequences towards keeping the human in the loop in high levels of automation, especially in critical cases for decision making, where both (human and the machine) play important roles. While the research community has given much attention to explainability of closed (or black) prediction boxes, there are tremendous needs for explainability of closed-box methods that support agents to act autonomously in the real world. Reinforcement learning methods, and especially their deep versions, are such closed-box methods. In this article we aim to provide a review of state of the art methods for explainable deep reinforcement learning methods, taking also into account the needs of human operators - i.e., of those that take the actual and critical decisions in solving real-world problems. We provide a formal specification of the deep reinforcement learning explainability problems, and we identify the necessary components of a general explainable reinforcement learning framework. Based on these, we provide a comprehensive review of state of the art methods, categorizing them in classes according to the paradigm they follow, the interpretable models they use, and the surface representation of explanations provided. The article concludes identifying open questions and important challenges.
翻訳日:2023-01-25 13:53:42 公開日:2023-01-24
# 局所最適分類規則の大きな集合の効率的な学習

Efficient learning of large sets of locally optimal classification rules ( http://arxiv.org/abs/2301.09936v1 )

ライセンス: Link先を確認
Van Quoc Phuong Huynh, Johannes F\"urnkranz, Florian Beck(参考訳) 従来のルール学習アルゴリズムは、単純なルールの集合を見つけることを目的としており、各ルールは可能な限り多くの例をカバーする。 本稿では,この方法で発見された規則は,それらの例の最適説明ではないかもしれないと論じる。 代わりに,1つの特殊化と1つの一般化ループからなる欲望最適化において,各トレーニング例をカバーする最善のルールを見つけることを目的とした効率的なアルゴリズムを提案する。 これらの局所最適ルールは、従来のルール学習アルゴリズムが学習したセットよりもはるかに大きい最終ルールセットのために収集され、フィルタされる。 新しい例は、この例をカバーするルールの中でベストを選択することで分類される。 小規模から超大規模のデータセットを用いた実験では,アルゴリズムの平均分類精度は最先端ルール学習アルゴリズムよりも高い。 さらに、アルゴリズムは非常に効率的で、学習されたルールセットに影響を与えることなく本質的に並列に処理できるので、分類精度が向上する。 そこで我々は,大規模分類規則の帰納化において重要なギャップを埋めると考えている。

Conventional rule learning algorithms aim at finding a set of simple rules, where each rule covers as many examples as possible. In this paper, we argue that the rules found in this way may not be the optimal explanations for each of the examples they cover. Instead, we propose an efficient algorithm that aims at finding the best rule covering each training example in a greedy optimization consisting of one specialization and one generalization loop. These locally optimal rules are collected and then filtered for a final rule set, which is much larger than the sets learned by conventional rule learning algorithms. A new example is classified by selecting the best among the rules that cover this example. In our experiments on small to very large datasets, the approach's average classification accuracy is higher than that of state-of-the-art rule learning algorithms. Moreover, the algorithm is highly efficient and can inherently be processed in parallel without affecting the learned rule set and so the classification accuracy. We thus believe that it closes an important gap for large-scale classification rule induction.
翻訳日:2023-01-25 13:53:20 公開日:2023-01-24
# 四重星系は必ずしもネストされた三重星ではない--動的安定性に対する機械学習アプローチ

Quadruple-star systems are not always nested triples: a machine learning approach to dynamical stability ( http://arxiv.org/abs/2301.09930v1 )

ライセンス: Link先を確認
Pavan Vynatheya, Rosemary A. Mardling, Adrian S. Hamers(参考訳) 四重星系の動的安定性は伝統的に、四重星を構成する2つの「ネステッド」三重星を含む問題として扱われてきた。 本研究では,機械学習アルゴリズムである多層パーセプトロンを用いて,その安定性(長期有界性)に基づいて2+2および3+1四重項を直接分類した。 分類のためのトレーニングデータセットは、それぞれ$5\times10^5$ quadruplesで構成され、高精度な$n$-bodyコードmstarを使って統合された。 また,ゼロ傾斜系の限定パラメータ空間研究を行い,四重項と三重項を直接比較した。 4重mlpモデルと3重mlpモデルの両方が,特に3+1倍の3重mlpアプローチよりも優れた性能を示した。 2+2 MLPモデルと3+1 MLPモデルの分類精度はそれぞれ94%と93%であり、"nested"三重アプローチのスコアは88%と66%である。 これは四倍体集団合成研究にとって重要な意味を持つ。 MLPモデルは、非常にシンプルで、実装もほぼ瞬間的であり、それらにアクセスするPython3スクリプトとともにGitHubで利用可能です。

The dynamical stability of quadruple-star systems has traditionally been treated as a problem involving two `nested' triples which constitute a quadruple. In this novel study, we employed a machine learning algorithm, the multi-layer perceptron (MLP), to directly classify 2+2 and 3+1 quadruples based on their stability (or long-term boundedness). The training data sets for the classification, comprised of $5\times10^5$ quadruples each, were integrated using the highly accurate direct $N$-body code MSTAR. We also carried out a limited parameter space study of zero-inclination systems to directly compare quadruples to triples. We found that both our quadruple MLP models perform better than a `nested' triple MLP approach, which is especially significant for 3+1 quadruples. The classification accuracies for the 2+2 MLP and 3+1 MLP models are 94% and 93% respectively, while the scores for the `nested' triple approach are 88% and 66% respectively. This is a crucial implication for quadruple population synthesis studies. Our MLP models, which are very simple and almost instantaneous to implement, are available on GitHub, along with Python3 scripts to access them.
翻訳日:2023-01-25 13:53:06 公開日:2023-01-24
# パラメトリック時間依存問題のモデル削減のための2段階ディープラーニングアーキテクチャ

A two stages Deep Learning Architecture for Model Reduction of Parametric Time-Dependent Problems ( http://arxiv.org/abs/2301.09926v1 )

ライセンス: Link先を確認
Isabella Carla Gonnella, Martin W. Hess, Giovanni Stabile, Gianluigi Rozza(参考訳) パラメトリックな時間依存系は実現象のモデル化において重要であり、しばしば非線形な振る舞いによって特徴づけられる。 これらの解は通常、利用可能な限られた計算資源を数えながら十分に広いパラメータ空間で一般化することが困難である。 そこで本研究では,低計算時間でその一般化を実現できる2段階の一般ディープラーニングフレームワークを提案する。 2つのパイプライン予測モデルの分離トレーニングで構成されている。 最初は、特定の数の独立したニューラルネットワークが、パラメータ空間の異なるサブセットから取られたデータセットで訓練される。 続いて、第2の予測モデルは、第1段階の推測を適切に組み合わせ、正しい予測を計算するために特化される。 この枠組みをキャビティ(レイリー・バーナードキャビティ)内の非圧縮性ナビエ・ストークス方程式に適用し、計算時間を97%削減し、グラショフ数の新たな値を求める数値解と比較する有望な結果を得た。

Parametric time-dependent systems are of a crucial importance in modeling real phenomena, often characterized by non-linear behaviors too. Those solutions are typically difficult to generalize in a sufficiently wide parameter space while counting on limited computational resources available. As such, we present a general two-stages deep learning framework able to perform that generalization with low computational effort in time. It consists in a separated training of two pipe-lined predictive models. At first, a certain number of independent neural networks are trained with data-sets taken from different subsets of the parameter space. Successively, a second predictive model is specialized to properly combine the first-stage guesses and compute the right predictions. Promising results are obtained applying the framework to incompressible Navier-Stokes equations in a cavity (Rayleigh-Bernard cavity), obtaining a 97% reduction in the computational time comparing with its numerical resolution for a new value of the Grashof number.
翻訳日:2023-01-25 13:52:45 公開日:2023-01-24
# ニューラルネットワーク量子状態をもつ量子相転移のlee-yang理論

Lee-Yang theory of quantum phase transitions with neural network quantum states ( http://arxiv.org/abs/2301.09923v1 )

ライセンス: Link先を確認
Pascal M. Vecsei, Christian Flindt, and Jose L. Lado(参考訳) 相互作用する量子多体系の位相図の予測は、凝縮体物理学と関連する分野における中心的な問題である。 従来の超伝導体からスピン液体まで、様々な量子多体系は、理論的な記述が激しい努力の焦点となっている複雑な競合相を示す。 ここでは、強相関スピン格子の臨界点を予測するために、ニューラルネットワーク量子状態と量子相転移のLee-Yang理論が結合可能であることを示す。 具体的には,1次元,2次元,3次元の異なる格子幾何学上の横場イジングモデルにおける量子相転移に対するアプローチを実装した。 リー・ヤン理論とニューラルネットワーク量子状態は、大規模量子多体法と一致する臨界場の予測をもたらすことを示した。 このような結果から,HeisenbergモデルやHubbardモデルなど,より複雑な量子多体系の位相図を決定するための出発点となる。

Predicting the phase diagram of interacting quantum many-body systems is a central problem in condensed matter physics and related fields. A variety of quantum many-body systems, ranging from unconventional superconductors to spin liquids, exhibit complex competing phases whose theoretical description has been the focus of intense efforts. Here, we show that neural network quantum states can be combined with a Lee-Yang theory of quantum phase transitions to predict the critical points of strongly-correlated spin lattices. Specifically, we implement our approach for quantum phase transitions in the transverse-field Ising model on different lattice geometries in one, two, and three dimensions. We show that the Lee-Yang theory combined with neural network quantum states yields predictions of the critical field, which are consistent with large-scale quantum many-body methods. As such, our results provide a starting point for determining the phase diagram of more complex quantum many-body systems, including frustrated Heisenberg and Hubbard models.
翻訳日:2023-01-25 13:52:28 公開日:2023-01-24
# 洗練された動的崩壊自然放射の研究の驚くべき結果:cslと重力関連崩壊は原子軌道波長スケールで特徴的な特徴を持つ

Surprising results of a refined dynamical collapse spontaneous radiation study: CSL and gravity related collapse have distinctive features at atomic orbits wavelength scale ( http://arxiv.org/abs/2301.09920v1 )

ライセンス: Link先を確認
Kristian Piscicchia, Sandro Donadi, Simone Manti, Angelo Bassi, Maaneli Derakhshani and Catalina Curceanu(参考訳) 自発的放射信号の「\gamma$-rays」範囲での実験的探索は、動的波動関数の崩壊のモデル、特に連続的な自発的局在と di\'{o}si-penrose のモデルに強い境界を生じさせた。 進行中の実験と将来の実験は、エネルギーを減らすために自発的放出現象のスキャンを必要とする元の理論の非マルコフ修正の導入によっても動機づけられたx線領域に調査を移している。 本研究では、原子系に対する自発放射率を一般化し、原子軌道の大きさの順の光子の波長、すなわちX線範囲における光子のエネルギーを考察する。 この速度の単純な高エネルギー限界は、光子波長間の複雑な相互作用、放出粒子間の距離、モデルの特徴的相関長により、強い補正を受ける。 さらに、自然放射線速度のエネルギー分布は、特定の崩壊機構に依存することが判明し、理論を識別するための新たな実験的視点が開かれた。

The experimental search of spontaneous radiation signal in the $\gamma$-Rays range produced strong bounds on the models of dynamical wave function collapse, in particular on the Continuous Spontaneous Localization and on the Di\'{o}si-Penrose. Ongoing and future experiments are moving the investigation to the X-Rays domain, also motivated by the introduction of non-Markovian modifications of the original theories, which require a scan of the spontaneous emission phenomenon for decreasing energies. In this work the spontaneous radiation rate, for an atomic system, is generalized to contemplate photons' wavelengths of the order of the atomic orbits size, i.e. photons' energies in the X-Rays range. The simple high-energy limit of the rate undergoes a strong correction, due to a complex interplay among the photon wavelength, the distances among the emitting particles, and the characteristic correlation lengths of the models. Moreover the spontaneous radiation rate energy distribution is found to depend on the specific collapse mechanism, thus opening a new experimental perspective to discriminate among the theories.
翻訳日:2023-01-25 13:52:12 公開日:2023-01-24
# ニューラルダイアログチューニングの可能性と課題

Opportunities and Challenges in Neural Dialog Tutoring ( http://arxiv.org/abs/2301.09919v1 )

ライセンス: Link先を確認
Jakub Macina, Nico Daheim, Lingzhi Wang, Tanmay Sinha, Manu Kapur, Iryna Gurevych, Mrinmaya Sachan(参考訳) ダイアログ・チューターの設計は、人間のチューターが採用する多様で複雑な教育戦略をモデル化する。 近年,大きな言語モデルを用いたニューラルな会話システムや対話コーパスの成長が著しく進んでいるが,ダイアログ学習はこれらの進歩に大きく影響を受けていない。 本稿では,これらの進歩によってもたらされる新たな機会を理解するために,言語学習のための2つのダイアログ学習データセット上で,様々な生成言語モデルを厳密に解析し,実際の教育環境において使用可能なモデルを構築する上での課題について考察する。 現在のアプローチは、指導すべき概念の数や可能な教師戦略が小さい場合、制約のある学習シナリオで学習をモデル化できるが、制約の少ないシナリオでは成績が悪い。 人的品質評価は,学生の学習機会を測り,ダイアログのエンゲージメントの程度を測る等式学習において,モデルと地味アノテーションの両方が低い性能を示すことを示している。 実際の学習環境でのモデルの振る舞いを理解するため,専門家アノテータを用いたユーザスタディを行い,会話の45%でモデル推論エラーを著しく多く発見する。 最後に,今後の成果の概要をまとめる。

Designing dialog tutors has been challenging as it involves modeling the diverse and complex pedagogical strategies employed by human tutors. Although there have been significant recent advances in neural conversational systems using large language models and growth in available dialog corpora, dialog tutoring has largely remained unaffected by these advances. In this paper, we rigorously analyze various generative language models on two dialog tutoring datasets for language learning using automatic and human evaluations to understand the new opportunities brought by these advances as well as the challenges we must overcome to build models that would be usable in real educational settings. We find that although current approaches can model tutoring in constrained learning scenarios when the number of concepts to be taught and possible teacher strategies are small, they perform poorly in less constrained scenarios. Our human quality evaluation shows that both models and ground-truth annotations exhibit low performance in terms of equitable tutoring, which measures learning opportunities for students and how engaging the dialog is. To understand the behavior of our models in a real tutoring setting, we conduct a user study using expert annotators and find a significantly large number of model reasoning errors in 45% of conversations. Finally, we connect our findings to outline future work.
翻訳日:2023-01-25 13:51:52 公開日:2023-01-24
# プログラミングコースでフィードバックを提供するスマートチューター

Smart tutor to provide feedback in programming courses ( http://arxiv.org/abs/2301.09918v1 )

ライセンス: Link先を確認
David Rold\'an-\'Alvarez(参考訳) 人工知能(AI)は、時間経過とともにますます人気を増し、過去には困難だったタスクの実行を可能にしている。 予測からカスタマイズに至るまで、AIはこの状況以外の教育環境ではなく、多くの分野で使用されている。 AIは、コンテンツをカスタマイズしたり、生徒にパーソナライズされたフィードバックを提供するために、教育現場で使われている。 このシナリオでは、プログラミング教育におけるaiは、まだ検討する必要のあるものだ。この領域では、通常、学生の仕事を評価するための評価ツールを見つけるが、プログラムの作成プロセスにおいて、学生にフィードバックを提供するためのツールは多くない。 この研究では、学生がプログラミングの質問に答えるAIベースのインテリジェントチューターを提示する。 このツールは、URJCの全コースで大学生によってテストされている。 たとえそのツールがまだ予備段階にあるとしても、学生が質問をし、正確な回答とサンプルを提供した。 学生たちは知的な家庭教師を簡単に使えるようになり、他のコースで使うのに便利なツールだと考えた。

Artificial Intelligence (AI) is becoming more and more popular as time passes, allowing to perform tasks that were difficult to do in the past. From predictions to customization, AI is being used in many areas, not being educational environments outside this situation. AI is being used in educational settings to customize contents or to provide personalized feedback to the students, among others. In this scenario, AI in programming teaching is something that still has to be explored, since in this area we usually find assessment tools that allow grading the students work, but we can not find many tools aimed towards providing feedback to the students in the process of creating their program. In this work we present an AI based intelligent tutor that answers students programming questions. The tool has been tested by university students at the URJC along a whole course. Even if the tool is still in its preliminary phase, it helped the students with their questions, providing accurate answers and examples. The students were able to use the intelligent tutor easily and they thought that it could be a useful tool to use in other courses.
翻訳日:2023-01-25 13:51:28 公開日:2023-01-24
# マルチモーダルインタラクティブ肺病変分割法 : 生理的および解剖学的クイズに基づくPET/CT画像のアノテートのためのフレームワーク

Multimodal Interactive Lung Lesion Segmentation: A Framework for Annotating PET/CT Images based on Physiological and Anatomical Cues ( http://arxiv.org/abs/2301.09914v1 )

ライセンス: Link先を確認
Verena Jasmin Hallitschke, Tobias Schlumberger, Philipp Kataliakos, Zdravko Marinov, Moon Kim, Lars Heiliger, Constantin Seibold, Jens Kleesiek, Rainer Stiefelhagen(参考訳) 近年, 深層学習により, 様々な疾患の正確な分類が可能となった。 しかし、これらのパフォーマンスは通常、大量の手動のvoxelアノテーションを必要とする。 PET/CTデータのように、1つの画像領域で全ての必要な情報が得られない場合には、この面倒なボリュームデータ処理はより複雑になる。 PET/CTデータから解剖学と生理学の手がかりを組み合わせることで,これらの問題を緩和する多モード対話型セグメンテーションフレームワークを提案する。 本フレームワークは,測地距離変換を利用してユーザアノテーションを表現し,訓練中に新しい楕円型ユーザシミュレーションスキームを実装した。 さらに,アノテーションインタフェースを2つ提案し,ユーザビリティを評価するためにユーザ調査を行う。 ドメイン内検証データセットと未確認PET/CTデータセットを用いて,本モデルの評価を行った。 コードを公開しています。 https://github.com/verena-hallitschke/pet-ct-annotate。

Recently, deep learning enabled the accurate segmentation of various diseases in medical imaging. These performances, however, typically demand large amounts of manual voxel annotations. This tedious process for volumetric data becomes more complex when not all required information is available in a single imaging domain as is the case for PET/CT data. We propose a multimodal interactive segmentation framework that mitigates these issues by combining anatomical and physiological cues from PET/CT data. Our framework utilizes the geodesic distance transform to represent the user annotations and we implement a novel ellipsoid-based user simulation scheme during training. We further propose two annotation interfaces and conduct a user study to estimate their usability. We evaluated our model on the in-domain validation dataset and an unseen PET/CT dataset. We make our code publicly available: https://github.com/verena-hallitschke/pet-ct-annotate.
翻訳日:2023-01-25 13:51:11 公開日:2023-01-24
# 実生活シナリオにおける感性分析の応用と課題

Applications and Challenges of Sentiment Analysis in Real-life Scenarios ( http://arxiv.org/abs/2301.09912v1 )

ライセンス: Link先を確認
Diptesh Kanojia, Aditya Joshi(参考訳) 知覚分析は、数十年にわたる研究で作成されたレキシコンとベンチマークデータセットの可用性の恩恵を受けている。 しかし、現実の世界への応用は、saの研究の原動力となっている。 この章では、実際のシナリオにおけるこれらの応用と関連する課題について記述する。 本章では、保健、社会政策、電子商取引、デジタル人文科学、その他のNLP分野の5つの応用に焦点を当てる。 この章は、nlp研究者に、saのアプリケーションの‘what’、‘why’、‘how’を装備することを目的としている: アプリケーションとは何か、なぜそれが重要で難しいのか、そして、saにおける現在の研究がアプリケーションをどのように扱っているのか。 ディープラーニング技術は、これらのアプリケーションにまたがる一般的なパラダイムであるが、データセットのプライバシと選択バイアスに関する課題は、複数のアプリケーションにわたる繰り返しのテーマである。

Sentiment analysis has benefited from the availability of lexicons and benchmark datasets created over decades of research. However, its applications to the real world are a driving force for research in SA. This chapter describes some of these applications and related challenges in real-life scenarios. In this chapter, we focus on five applications of SA: health, social policy, e-commerce, digital humanities and other areas of NLP. This chapter is intended to equip an NLP researcher with the `what', `why' and `how' of applications of SA: what is the application about, why it is important and challenging and how current research in SA deals with the application. We note that, while the use of deep learning techniques is a popular paradigm that spans these applications, challenges around privacy and selection bias of datasets is a recurring theme across several applications.
翻訳日:2023-01-25 13:50:56 公開日:2023-01-24
# 半教師数発クラスインクリメンタル学習のための不確実性対応蒸留

Uncertainty-Aware Distillation for Semi-Supervised Few-Shot Class-Incremental Learning ( http://arxiv.org/abs/2301.09964v1 )

ライセンス: Link先を確認
Yawen Cui, Wanxia Deng, Haoyu Chen, and Li Liu(参考訳) 大規模なベースデータセットで十分にトレーニングされたモデルを考えると、Few-Shot Class-Incremental Learning (FSCIL)は、それまで遭遇したすべてのクラスを壊滅的に忘れることなく、オーバーフィッティングを避けることで、ラベル付きサンプルから新しいクラスを漸進的に学習することを目的としている。 現在、限られたラベル付きデータを補うために、自由に利用可能なラベル付きデータを活用する半教師あり学習技術は、多くの視覚タスクにおけるパフォーマンスを高めることができる。 これまでのところ、非常に限定的な作業はセミフシルタスクに焦点を当てており、半教師付き学習の適応性問題はfscilタスクに未解決のまま残されている。 本稿では,この適応性問題に焦点をあて,UaDとCEの2つのモジュールを包含した,Uncertainty-aware Distillation with Class-Equilibrium (UaD-CE)という,シンプルで効率的なセミFSCILフレームワークを提案する。 具体的には、各インクリメンタルセッションにラベル付きデータを組み込む際に、擬似ラベル生成におけるクラスバランスの自己学習を用いたCEモジュールを導入する。 参照モデルから信頼性の高い知識を蒸留するために,不確実性誘導型知識精製と適応蒸留を組み合わせたUaDモジュールをさらに実装する。 FSCILタスクにおける半教師付き学習手法により,ラベルなしデータの適応性を向上できることを示す。

Given a model well-trained with a large-scale base dataset, Few-Shot Class-Incremental Learning (FSCIL) aims at incrementally learning novel classes from a few labeled samples by avoiding overfitting, without catastrophically forgetting all encountered classes previously. Currently, semi-supervised learning technique that harnesses freely-available unlabeled data to compensate for limited labeled data can boost the performance in numerous vision tasks, which heuristically can be applied to tackle issues in FSCIL, i.e., the Semi-supervised FSCIL (Semi-FSCIL). So far, very limited work focuses on the Semi-FSCIL task, leaving the adaptability issue of semi-supervised learning to the FSCIL task unresolved. In this paper, we focus on this adaptability issue and present a simple yet efficient Semi-FSCIL framework named Uncertainty-aware Distillation with Class-Equilibrium (UaD-CE), encompassing two modules UaD and CE. Specifically, when incorporating unlabeled data into each incremental session, we introduce the CE module that employs a class-balanced self-training to avoid the gradual dominance of easy-to-classified classes on pseudo-label generation. To distill reliable knowledge from the reference model, we further implement the UaD module that combines uncertainty-guided knowledge refinement with adaptive distillation. Comprehensive experiments on three benchmark datasets demonstrate that our method can boost the adaptability of unlabeled data with the semi-supervised learning technique in FSCIL tasks.
翻訳日:2023-01-25 13:44:57 公開日:2023-01-24
# ニューロモルフィックキーワードスポッティングにおける時間エンコーダの比較

A Comparison of Temporal Encoders for Neuromorphic Keyword Spotting with Few Neurons ( http://arxiv.org/abs/2301.09962v1 )

ライセンス: Link先を確認
Mattias Nilsson, Ton Juny Pina, Lyes Khacef, Foteini Liwicki, Elisabetta Chicca, and Fredrik Sandin(参考訳) AIを利用した仮想アシスタントの拡張により、後続の計算コストの高い音声認識に"覚醒"メカニズムを提供する低消費電力キーワードスポッティングシステムが必要である。 1つの有望なアプローチは、スパースイベント駆動センシングのためにニューロモルフィックプロセッサに実装されたニューロモルフィックセンサーとスパイキングニューラルネットワーク(SNN)を使用することである。 しかし、これは時間的エンコーディングのためのリソース効率のよいSNNメカニズムを必要としており、これらのシステムは、物理時間がその操作の本質的な特性として、ストリーミング的に情報を処理していることを考慮する必要がある。 本研究では,TIDIGITSデータセットの音声桁から計算したフォルマントのキーワードスポッティングタスクにおいて,時間差分エンコーダ (TDE) と非シナプス興奮抑制 (E-I) の2要素について,時間差分エンコーダ (TDE) と特徴抽出の2要素について比較検討した。 両エンコーダはトレーニングデータ中のフォルマント特徴の直接分類よりも性能が向上し、ロジスティック回帰モデルによる完全なバイナリ分類が可能となったが、テストセットに明確な改善はない。 リソース効率のよいキーワードスポッティングアプリケーションは、これらのエンコーダを使用することで恩恵を受けることができるが、時間定数と重みを学習する手法をさらに研究する必要がある。

With the expansion of AI-powered virtual assistants, there is a need for low-power keyword spotting systems providing a "wake-up" mechanism for subsequent computationally expensive speech recognition. One promising approach is the use of neuromorphic sensors and spiking neural networks (SNNs) implemented in neuromorphic processors for sparse event-driven sensing. However, this requires resource-efficient SNN mechanisms for temporal encoding, which need to consider that these systems process information in a streaming manner, with physical time being an intrinsic property of their operation. In this work, two candidate neurocomputational elements for temporal encoding and feature extraction in SNNs described in recent literature - the spiking time-difference encoder (TDE) and disynaptic excitatory-inhibitory (E-I) elements - are comparatively investigated in a keyword-spotting task on formants computed from spoken digits in the TIDIGITS dataset. While both encoders improve performance over direct classification of the formant features in the training data, enabling a complete binary classification with a logistic regression model, they show no clear improvements on the test set. Resource-efficient keyword spotting applications may benefit from the use of these encoders, but further work on methods for learning the time constants and weights is required to investigate their full potential.
翻訳日:2023-01-25 13:44:06 公開日:2023-01-24
# 拡散モデルのメンバシップ推論

Membership Inference of Diffusion Models ( http://arxiv.org/abs/2301.09956v1 )

ライセンス: Link先を確認
Hailong Hu, Jun Pang(参考訳) 近年,データ合成における拡散モデルが大きな成功を収めている。 しかし、拡散モデルがセンシティブなデータに適用されると、プライバシーに関する深刻な懸念がもたらされる。 本稿では,拡散モデルに対するメンバシップ推論攻撃に関する最初の研究を体系的に発表する。 損失ベースと可能性ベースという2つの攻撃手法が提案されている。 本手法は,プライバシに敏感なデータに対して異なるデータセットに対して,複数の最先端拡散モデルを用いて評価する。 広範な実験結果から,我々の攻撃は顕著な性能を発揮できることが示された。 さらに,攻撃性能に影響を与える諸要因を網羅的に検討した。 最後に,差分プライバシーを訓練した拡散モデルに対する攻撃手法の性能評価を行った。

Recent years have witnessed the tremendous success of diffusion models in data synthesis. However, when diffusion models are applied to sensitive data, they also give rise to severe privacy concerns. In this paper, we systematically present the first study about membership inference attacks against diffusion models, which aims to infer whether a sample was used to train the model. Two attack methods are proposed, namely loss-based and likelihood-based attacks. Our attack methods are evaluated on several state-of-the-art diffusion models, over different datasets in relation to privacy-sensitive data. Extensive experimental evaluations show that our attacks can achieve remarkable performance. Furthermore, we exhaustively investigate various factors which can affect attack performance. Finally, we also evaluate the performance of our attack methods on diffusion models trained with differential privacy.
翻訳日:2023-01-25 13:43:27 公開日:2023-01-24
# ニューラルポイント法による2016-2017年中央アペニン地震の予測

Forecasting the 2016-2017 Central Apennines Earthquake Sequence with a Neural Point Process ( http://arxiv.org/abs/2301.09948v1 )

ライセンス: Link先を確認
Samuel Stockman, Daniel J. Lawson, Maxmilian J. Werner(参考訳) ポイントプロセスは数十年間、地震活動の進化のモデル化において支配的であり、流行型余震シーケンス(etas)モデルが最も一般的である。 機械学習の最近の進歩は、既存のパラメトリックモデルを改善するためにニューラルネットワークを使用して、高度に柔軟なポイントプロセスモデルを構築している。 これらのフレキシブルな点過程モデルが、既存の時間的ニューラルモデルからマグニチュード領域まで拡張することにより、短期間の地震活動予測に応用できるかどうかを検証し、このモデルが目標マグニチュード閾値を超える地震を予測できることを示す。 最初に、ニューラルネットワークが合成ETASデータに適合することを示したが、シーケンスの完全な履歴に依存しないため、計算時間の短縮が必要であった。 合成データセットにおける短期的余震の不完全性を人工的にエミュレートすることにより、ニューラルモデルがETASを上回っていることが分かる。 2016-2017年中央アペニン地震の新たなカタログを用いて、入力マグニチュードの最低値に対するetasと神経モデルの予測スキルを調査した。 ビッソ地震,ノルシア地震,カンポトスト地震を用いて複数の予測実験を行い,訓練データと試験データを分割し,M3+イベントを目標とした。 どちらのモデルも以前に検討したしきい値(例えば、M3以上)でも同様に動作するが、閾値をM1.2に下げると、ニューラルモデルとは異なり、ETASの性能が低下する。 これらの成果のいくつかは、ニューラルモデルが不完全なデータを処理できることによるものであると論じている。 データ不足に対するロバストさと、ニューラルネットワークをトレーニングするスピードは、地震予報において強力な競争相手であることを示している。

Point processes have been dominant in modeling the evolution of seismicity for decades, with the Epidemic Type Aftershock Sequence (ETAS) model being most popular. Recent advances in machine learning have constructed highly flexible point process models using neural networks to improve upon existing parametric models. We investigate whether these flexible point process models can be applied to short-term seismicity forecasting by extending an existing temporal neural model to the magnitude domain and we show how this model can forecast earthquakes above a target magnitude threshold. We first demonstrate that the neural model can fit synthetic ETAS data, however, requiring less computational time because it is not dependent on the full history of the sequence. By artificially emulating short-term aftershock incompleteness in the synthetic dataset, we find that the neural model outperforms ETAS. Using a new enhanced catalog from the 2016-2017 Central Apennines earthquake sequence, we investigate the predictive skill of ETAS and the neural model with respect to the lowest input magnitude. Constructing multiple forecasting experiments using the Visso, Norcia and Campotosto earthquakes to partition training and testing data, we target M3+ events. We find both models perform similarly at previously explored thresholds (e.g., above M3), but lowering the threshold to M1.2 reduces the performance of ETAS unlike the neural model. We argue that some of these gains are due to the neural model's ability to handle incomplete data. The robustness to missing data and speed to train the neural model present it as an encouraging competitor in earthquake forecasting.
翻訳日:2023-01-25 13:43:18 公開日:2023-01-24
# 分岐と境界に潜ることを学ぶ

Learning To Dive In Branch And Bound ( http://arxiv.org/abs/2301.09943v1 )

ライセンス: Link先を確認
Max B. Paulus, Andreas Krause(参考訳) 主ヒューリスティックは分岐探索と境界探索を容易にする実現可能な解を見つけるため、混合整数線形プログラムを解くのに重要である。 主なヒューリスティックのグループはダイビングヒューリスティックである。 線形プログラムを反復的に修正し、探索ツリー内の任意のノードから深度優先探索を行う。 既存のダイバーは、しばしば実際に発生する同様の問題インスタンス間の構造的共通性を利用しない一般的な決定ルールに依存している。 そこで我々はL2Diveを提案し、グラフニューラルネットワークを用いて特定の潜水ヒューリスティックを学習する:我々は、変数の割り当てを予測するために生成モデルを訓練し、線形プログラムの双対性を利用して、モデルの予測に基づいて潜水決定を行う。 L2DiveはオープンソースのソルバSCIPに完全に統合されている。 L2Diveは、様々な組合せ最適化問題において、より良い実現可能な解を求めるために、標準ダイバーよりも優れている。 サーバロードバランシングとニューラルネットワーク検証による実世界のアプリケーションでは、l2diveは、チューニングされた(デフォルト)ソルバベースラインよりも平均で最大7%(35%)改善され、平均解決時間が20%(29%)削減される。

Primal heuristics are important for solving mixed integer linear programs, because they find feasible solutions that facilitate branch and bound search. A prominent group of primal heuristics are diving heuristics. They iteratively modify and resolve linear programs to conduct a depth-first search from any node in the search tree. Existing divers rely on generic decision rules that fail to exploit structural commonality between similar problem instances that often arise in practice. Therefore, we propose L2Dive to learn specific diving heuristics with graph neural networks: We train generative models to predict variable assignments and leverage the duality of linear programs to make diving decisions based on the model's predictions. L2Dive is fully integrated into the open-source solver SCIP. We find that L2Dive outperforms standard divers to find better feasible solutions on a range of combinatorial optimization problems. For real-world applications from server load balancing and neural network verification, L2Dive improves the primal-dual integral by up to 7% (35%) on average over a tuned (default) solver baseline and reduces average solving time by 20% (29%).
翻訳日:2023-01-25 13:42:50 公開日:2023-01-24
# ASQ-IT:強化学習エージェントの対話的説明

ASQ-IT: Interactive Explanations for Reinforcement-Learning Agents ( http://arxiv.org/abs/2301.09941v1 )

ライセンス: Link先を確認
Yotam Amitai, Guy Avni and Ofra Amir(参考訳) 強化学習手法がますます達成されるにつれて、解法を理解する必要性がより重要になる。 最も説明可能な強化学習(XRL)手法は、開発者が説明すべきことや方法に関する直感を記述する静的な説明を生成する。 対照的に、社会科学の文献では、意味のある説明は説明者と説明者との対話として構成され、より積極的な役割とエージェントとのコミュニケーションを示唆している。 本稿では,ユーザが興味のある行動の時間的特性を記述したクエリに基づいて,その環境に作用するエージェントのビデオクリップを提示する対話型ツールASQ-ITを提案する。 提案手法は,ASQ-ITのユーザインタフェースのクエリを有限トレース(LTLf)上の線形時間論理の断片にマッピングする形式的手法に基づいており,クエリ処理のアルゴリズムは自動理論に基づいている。 ユーザスタディは、エンドユーザがASQ-ITでクエリを理解し、定式化できることを示し、ASQ-ITを使用することで、エラーエージェントの動作の特定を支援する。

As reinforcement learning methods increasingly amass accomplishments, the need for comprehending their solutions becomes more crucial. Most explainable reinforcement learning (XRL) methods generate a static explanation depicting their developers' intuition of what should be explained and how. In contrast, literature from the social sciences proposes that meaningful explanations are structured as a dialog between the explainer and the explainee, suggesting a more active role for the user and her communication with the agent. In this paper, we present ASQ-IT -- an interactive tool that presents video clips of the agent acting in its environment based on queries given by the user that describe temporal properties of behaviors of interest. Our approach is based on formal methods: queries in ASQ-IT's user interface map to a fragment of Linear Temporal Logic over finite traces (LTLf), which we developed, and our algorithm for query processing is based on automata theory. User studies show that end-users can understand and formulate queries in ASQ-IT, and that using ASQ-IT assists users in identifying faulty agent behaviors.
翻訳日:2023-01-25 13:42:29 公開日:2023-01-24
# ニューラルネットワークを用いた離散中性子拡散方程式の解法

Solving the Discretised Neutron Diffusion Equations using Neural Networks ( http://arxiv.org/abs/2301.09939v1 )

ライセンス: Link先を確認
T. R. F. Phillips, C. E. Heaney, C. Boyang, A. G. Buchan, C. C. Pain(参考訳) 本稿では,人工知能(AI)ソフトウェアライブラリのツールを,標準数値法を用いて離散化された偏微分方程式(PDE)の解法として利用する新しい手法を提案する。 特に,ニューラルネットワーク内の畳み込み層の重み付けを事前に決定することにより,有限体積法と有限要素法から生じる数値的離散化を表現する方法について述べる。 重み付けは離散化方式で定義されるため、ネットワークのトレーニングは不要であり、得られた解は Fortran や C++ でしばしば書かれる標準符号で得られるものと同一である(解法耐性を考慮)。 また,aiライブラリで使用可能な関数を用いたjacobiメソッドとマルチグリッドソルバの実装方法についても述べる。 後者については、sawtoothのマルチグリッドメソッドを表現できるu-netアーキテクチャを使用します。 このような方法でAIライブラリを使用するメリットは、そのパワーと組み込み技術を活用することができることだ。 例えば、cpuやgpu、新しい世代のaiプロセッサなど、それぞれの実行はさまざまなコンピュータアーキテクチャに最適化されている。 本稿では,中性子輸送が拡散理論によって記述される原子炉物理学における固有値問題に対する提案手法を適用する。 燃料組立ベンチマークでは,Fortranを用いた標準的な方法で符号化された同一の離散化から得られた解と,新しい手法で得られた解が同一であることを示す。 そして、新しいアプローチを用いて原子炉コアベンチマークの解決を進めます。

This paper presents a new approach which uses the tools within Artificial Intelligence (AI) software libraries as an alternative way of solving partial differential equations (PDEs) that have been discretised using standard numerical methods. In particular, we describe how to represent numerical discretisations arising from the finite volume and finite element methods by pre-determining the weights of convolutional layers within a neural network. As the weights are defined by the discretisation scheme, no training of the network is required and the solutions obtained are identical (accounting for solver tolerances) to those obtained with standard codes often written in Fortran or C++. We also explain how to implement the Jacobi method and a multigrid solver using the functions available in AI libraries. For the latter, we use a U-Net architecture which is able to represent a sawtooth multigrid method. A benefit of using AI libraries in this way is that one can exploit their power and their built-in technologies. For example, their executions are already optimised for different computer architectures, whether it be CPUs, GPUs or new-generation AI processors. In this article, we apply the proposed approach to eigenvalue problems in reactor physics where neutron transport is described by diffusion theory. For a fuel assembly benchmark, we demonstrate that the solution obtained from our new approach is the same (accounting for solver tolerances) as that obtained from the same discretisation coded in a standard way using Fortran. We then proceed to solve a reactor core benchmark using the new approach.
翻訳日:2023-01-25 13:42:11 公開日:2023-01-24
# カウント状態の階層生成のためのガウス変換プロトコル

Gaussian conversion protocol for heralded generation of qunaught states ( http://arxiv.org/abs/2301.10030v1 )

ライセンス: Link先を確認
Yu Zheng, Alessandro Ferraro, Anton Frisk Kockum, and Giulia Ferrini(参考訳) フォールトトレラント量子コンピューティングの分野では、ボソニック符号を用いて量子情報をノイズから保護するために連続可変系を用いることができる。 これらの符号は量子ビット型の量子情報をより大きなボソニックヒルベルト空間にマッピングし、翻訳対称符号(Gottesman-Kitaev-Preskill (GKP)符号)や回転対称符号(猫と二項符号を含む)の2つの主要なカテゴリに分けることができる。 これらの法典の関係は、まだ完全には理解されていない。 GKPqunaught状態とゼロ論理符号化量子ビットに対応する4つの対称二項状態の2つのインスタンスをガウス演算のみを用いて変換するための反復プロトコルを提案する。 この変換は、全ガウス量子計算における二項状態の普遍性の可能性を示し、GKP状態の階層化のための新しい方法を提供する。 数値シミュレーションにより、GKPqunaught状態は98%以上、確率は約3.14%であり、反復プロトコルのわずか2ステップの後に得られる。

In the field of fault-tolerant quantum computing, continuous-variable systems can be utilized to protect quantum information from noise through the use of bosonic codes. These codes map qubit-type quantum information onto the larger bosonic Hilbert space, and can be divided into two main categories: translational-symmetric codes, such as Gottesman-Kitaev-Preskill (GKP) codes, and rotational-symmetric codes, including cat and binomial codes. The relationship between these families of codes has not yet been fully understood. We present an iterative protocol for converting between two instances of these codes GKP qunaught states and four-foldsymmetric binomial states corresponding to a zero-logical encoded qubit - using only Gaussian operations. This conversion demonstrates the potential for universality of binomial states for all-Gaussian quantum computation and provides a new method for the heraladed preparation of GKP states. Through numerical simulation, we obtain GKP qunaught states with a fidelity of over 98% and a probability of approximately 3.14%, after only two steps of our iterative protocol, though higher fidelities can be achieved with additional iterations at the cost of lower success probabilities.
翻訳日:2023-01-25 13:36:46 公開日:2023-01-24
# 非線形偏微分方程式のメッシュフリー解法としてのクープマン神経演算子

Koopman neural operator as a mesh-free solver of non-linear partial differential equations ( http://arxiv.org/abs/2301.10022v1 )

ライセンス: Link先を確認
Wei Xiong, Xiaomeng Huang, Ziyang Zhang, Ruixuan Deng, Pei Sun, Yang Tian(参考訳) 多様な偏微分方程式 (PDE) の解析解の欠如は、数値解の一連の計算技術を生み出している。 機械学習では、方程式解の異なるパラメータ化空間間をマッピングする無限次元作用素のメッシュフリー近似器の一種であるニューラル演算子の開発において、多くの最新の解法設計が達成されている。 神経オペレーターは、PDEファミリー全体を同時に学習する一般化能力を示すが、非線形PDEファミリーの長期的な振る舞いを学習しながら、正確で説明しやすいものとなる。 本稿では,これらの課題を克服するために,新しいニューラル演算子であるkoopman neural operator (kno)を提案する。 対象 pde 族の解作用素として働くバナッハ空間間の無限次元写像を学習するという同じ目的のために、方程式解の非線形力学系を定式化することで既存のモデルとは異なるアプローチをとる。 力学系のすべての観測を無限次元の線形作用素であるクープマン作用素を近似して力学系のフローマッピングに作用させることにより、単純な線形予測問題を解くことで、非線形PDEファミリー全体の解を等価に学習することができる。 ゼロショット予測や代表的なpsd(例えば、navier-stokes方程式)の長期予測実験では、knoは精度と効率(例えばモデルサイズ)のトレードオフを破る点で顕著な利点を示し、以前の最先端モデルには限界がある。 これらの結果から,より効率的なpdeソルバは物理と機械学習の共同開発により開発できることが示唆された。

The lacking of analytic solutions of diverse partial differential equations (PDEs) gives birth to series of computational techniques for numerical solutions. In machine learning, numerous latest advances of solver designs are accomplished in developing neural operators, a kind of mesh-free approximators of the infinite-dimensional operators that map between different parameterization spaces of equation solutions. Although neural operators exhibit generalization capacities for learning an entire PDE family simultaneously, they become less accurate and explainable while learning long-term behaviours of non-linear PDE families. In this paper, we propose Koopman neural operator (KNO), a new neural operator, to overcome these challenges. With the same objective of learning an infinite-dimensional mapping between Banach spaces that serves as the solution operator of target PDE family, our approach differs from existing models by formulating a non-linear dynamic system of equation solution. By approximating the Koopman operator, an infinite-dimensional linear operator governing all possible observations of the dynamic system, to act on the flow mapping of dynamic system, we can equivalently learn the solution of an entire non-linear PDE family by solving simple linear prediction problems. In zero-shot prediction and long-term prediction experiments on representative PDEs (e.g., the Navier-Stokes equation), KNO exhibits notable advantages in breaking the tradeoff between accuracy and efficiency (e.g., model size) while previous state-of-the-art models are limited. These results suggest that more efficient PDE solvers can be developed by the joint efforts from physics and machine learning.
翻訳日:2023-01-25 13:36:23 公開日:2023-01-24
# 雑音型トラップイオン量子コンピュータにおける耐故障回路設計の実用化戦略

Strategies for practical advantage of fault-tolerant circuit design in noisy trapped-ion quantum computers ( http://arxiv.org/abs/2301.10017v1 )

ライセンス: Link先を確認
Sascha Heu{\ss}en, Lukas Postler, Manuel Rispler, Ivan Pogorelov, Christian D. Marciniak, Thomas Monz, Philipp Schindler and Markus M\"uller(参考訳) フォールトトレラントな量子エラー補正は、量子コンピュータが処理する情報をノイズから保護する戦略を提供する。 フォールトトレラントなユニバーサル量子コンピュータは、原理的に無限の精度で任意の計算を行うために論理レベルでユニバーサルゲートセットを実装しなければならない。 我々は,トラップイオン量子コンピュータ [Postler et al. Nature 605.7911 (2022)] に設定された耐故障性普遍ゲートの最近のデモを特徴付け,物理量子ビット演算の論理的利点を享受するために実験装置の設計を改善するための側面を特定する。 故障耐性量子演算の分岐点を評価するための様々な基準が、イオントラップ量子コンピューティングアーキテクチャについて検討中であることを示す。 論理状態形成回路の絡み合いゲートにおけるクロストークの影響を解析した。 これらの回路は、特定の微視的ノイズモデルに対するフォールトトレランスを尊重するように設計することができる。 実験的なインフォームド・デポーラライズノイズモデルでは, 耐故障試験の本質的なノイズダイナミクスが捉えられ, クロストークは現在の物理的誤り率の状況では無視できないことがわかった。 決定論的パウリ状態の準備のために、古典情報のインシーケンス計測やフィードフォワードなしで実現できるフォールトトレラントな論理量子化初期化回路を提供する。 論理ポーリ状態と魔法状態に対する非決定論的状態生成スキームは,現在および予測される物理誤差率の予測値よりも高い論理的忠実性を持つことを示した。 本研究は,物理量子ビット演算の改善に関するガイダンスを提供し,実験的に変形したノイズモデルを,閉じ込められたイオンに基づく量子コンピュータアーキテクチャの論理的故障率を予測するツールとして検証する。

Fault-tolerant quantum error correction provides a strategy to protect information processed by a quantum computer against noise which would otherwise corrupt the data. A fault-tolerant universal quantum computer must implement a universal gate set on the logical level in order to perform arbitrary calculations to in principle unlimited precision. We characterize the recent demonstration of a fault-tolerant universal gate set in a trapped-ion quantum computer [Postler et al. Nature 605.7911 (2022)] and identify aspects to improve the design of experimental setups to reach an advantage of logical over physical qubit operation. We show that various criteria to assess the break-even point for fault-tolerant quantum operations are within reach for the ion trap quantum computing architecture under consideration. We analyze the influence of crosstalk in entangling gates for logical state preparation circuits. These circuits can be designed to respect fault tolerance for specific microscopic noise models. We find that an experimentally-informed depolarizing noise model captures the essential noise dynamics of the fault-tolerant experiment, and crosstalk is negligible in the currently accessible regime of physical error rates. For deterministic Pauli state preparation, we provide a fault-tolerant unitary logical qubit initialization circuit, which can be realized without in-sequence measurement and feed-forward of classical information. We show that non-deterministic state preparation schemes for logical Pauli and magic states perform with higher logical fidelity over their deterministic counterparts for the current and anticipated future regime of physical error rates. Our results offer guidance on improvements of physical qubit operations and validate the experimentally-informed noise model as a tool to predict logical failure rates in quantum computing architectures based on trapped ions.
翻訳日:2023-01-25 13:35:33 公開日:2023-01-24
# 学習スタイルの違いと類似性によるマイナショットフォント生成

Few-shot Font Generation by Learning Style Difference and Similarity ( http://arxiv.org/abs/2301.10008v1 )

ライセンス: Link先を確認
Xiao He, Mingrui Zhu, Nannan Wang, Xinbo Gao and Heng Yang(参考訳) FFG (Few-shot font generation) は、少数のサンプルを参照してターゲットフォントを生成しながら、元の文字のグローバルな構造を維持することを目的としている。 フォントライブラリの作成、パーソナライズされた署名、その他のシナリオに適用されている。 既存のffgメソッドは、コンテンツと参照グリフのスタイルを普遍的またはコンポーネント的に明確に分離する。 しかし、異なるスタイルでのグリフの違いや同じスタイルでのグリフの類似性を無視し、局所的な歪曲やスタイルの不整合といった成果物を生み出している。 そこで本研究では,異なるスタイルと同一スタイルの類似性(DS-Font)の差分を学習し,新しいフォント生成手法を提案する。 スタイル間のポジティブな関係とネガティブな関係を考えるために、対比学習を導入する。 具体的には,スタイルエンコーディングのための多層型プロジェクタを提案し,提案するクラスタレベルコントラストスタイル(ccs)損失による特徴的スタイル表現を実現する。 さらに,画像の異なる領域を包括的に考慮し,各スタイルを独立して区別できるマルチタスクパッチ判別器を設計する。 本手法が最先端の手法よりもはるかに優れた結果が得られることを示すため,定性的かつ定量的な評価を包括的に実施する。

Few-shot font generation (FFG) aims to preserve the underlying global structure of the original character while generating target fonts by referring to a few samples. It has been applied to font library creation, a personalized signature, and other scenarios. Existing FFG methods explicitly disentangle content and style of reference glyphs universally or component-wisely. However, they ignore the difference between glyphs in different styles and the similarity of glyphs in the same style, which results in artifacts such as local distortions and style inconsistency. To address this issue, we propose a novel font generation approach by learning the Difference between different styles and the Similarity of the same style (DS-Font). We introduce contrastive learning to consider the positive and negative relationship between styles. Specifically, we propose a multi-layer style projector for style encoding and realize a distinctive style representation via our proposed Cluster-level Contrastive Style (CCS) loss. In addition, we design a multi-task patch discriminator, which comprehensively considers different areas of the image and ensures that each style can be distinguished independently. We conduct qualitative and quantitative evaluations comprehensively to demonstrate that our approach achieves significantly better results than state-of-the-art methods.
翻訳日:2023-01-25 13:34:21 公開日:2023-01-24
# IBM量子コンピュータ上での量子ビット力学におけるパルス形状効果

Pulse shape effects in qubit dynamics demonstrated on an IBM quantum computer ( http://arxiv.org/abs/2301.10004v1 )

ライセンス: Link先を確認
Ivo S. Mihov and Nikolay V. Vitanov(参考訳) 本稿では,一定キャリア周波数のパルス形外界と量子ビットのコヒーレント相互作用について検討する。 我々は、長方形、ガウス型、双曲型、二乗型双曲型、指数型の5つの異なるパルス形状に対して、遷移線プロファイル(変形の遷移確率の依存性)を理論的、実験的に探求する。 sech$^2$ の全ての場合の理論的な記述は、シュル=オディンガー方程式の解析解や文献で得られる正確な近似に基づいている。 sech$^2$ パルスに対しては、非常に正確なローゼンツェナー予想を用いて遷移確率の解析式を導出する。 実験結果はIBMの量子プロセッサの1つで得られる。 理論と実験の間の優れた一致が観察され、遷移確率プロファイルのパルス形状依存性の微妙な特徴を示す。 適合の精度の尺度である発散指数は、一般的に用いられる(sinc$^2$とローレンツアン)ベースラインフィットと比較して、解析モデルに対して4から7の係数による改善が特徴である。 さらに, 解析モデルに対する量子ビットの共振周波数の誤差バーの約4倍の減少率を, ベースライン適合率と比較して観測した。 これらの結果は、量子力学の解析モデリングの精度と、IBMの量子ビットの優れたコヒーレント特性の両方を示している。

We present a study of the coherent interaction of a qubit with a pulse-shaped external field of a constant carrier frequency. We explore, theoretically and experimentally, the transition line profile -- the dependence of the transition probability on the detuning -- for five different pulse shapes: rectangular, Gaussian, hyperbolic-secant, squared hyperbolic-secant and exponential. The theoretical description for all cases but sech$^2$ is based on the analytical solutions to the Schr\"odinger equation or accurate approximations available in the literature. For the sech$^2$ pulse we derive an analytical expression for the transition probability using the Rosen-Zener conjecture, which proves very accurate. The experimental results are obtained with one of IBM's quantum processors. An excellent agreement between theory and experiment is observed, demonstrating some pulse-shape-dependent fine features of the transition probability profile. The divergence index -- a measure of the accuracy of the fit -- features an improvement by a factor of 4 to 7 for the analytic models compared to the commonly used (sinc$^2$ and Lorentzian) baseline fits. Moreover, we observe a reduction by about a factor of about 4 of the error bars of the resonance frequency of the qubit for the analytic models compared to the baseline fits. These results demonstrate both the accuracy of the analytic modelling of quantum dynamics and the excellent coherent properties of IBM's qubit.
翻訳日:2023-01-25 13:34:00 公開日:2023-01-24
# 誤認識のためのマルチタスクインストラクションに基づくプロンプト

Multitask Instruction-based Prompting for Fallacy Recognition ( http://arxiv.org/abs/2301.09992v1 )

ライセンス: Link先を確認
Tariq Alhindi, Tuhin Chakrabarty, Elena Musi and Smaranda Muresan(参考訳) 虚偽は、ある立場を支持し、その妥当性について聴衆を説得するために、一見妥当な議論として使われる。 誤認を認識することは、人間と機械の両方にとって本質的に難しいタスクである。 さらに、計算モデルの大きな課題は、入力形式の違い(例えば、質問-回答ペア、文と誤読フラグメント)、ジャンル(例えば、ソーシャルメディア、対話、ニュース)、およびデータセットのタイプと数(データセット毎に5から18種類)で、誤字はデータセットによって異なる形式化されているという事実にある。 誤り認識タスクの解決に向けて、データセット間の差異を複数のタスクとしてアプローチし、T5モデルに基づくマルチタスク設定における命令ベースのプロンプトが、T5、BERT、GPT-3のような特定のデータセットに構築されたアプローチに対してどのように改善するかを示す。 このマルチタスク手法により,ドメインやジャンルにまたがる28個のユニークな誤認識を識別し,クラスごとの結果(すなわち,誤字型)を分析して,モデルサイズと選択の促進効果について検討する。 最後に,アノテーション品質がモデル性能に及ぼす影響と,このアプローチを外部知識で補完する可能性について検討した。

Fallacies are used as seemingly valid arguments to support a position and persuade the audience about its validity. Recognizing fallacies is an intrinsically difficult task both for humans and machines. Moreover, a big challenge for computational models lies in the fact that fallacies are formulated differently across the datasets with differences in the input format (e.g., question-answer pair, sentence with fallacy fragment), genre (e.g., social media, dialogue, news), as well as types and number of fallacies (from 5 to 18 types per dataset). To move towards solving the fallacy recognition task, we approach these differences across datasets as multiple tasks and show how instruction-based prompting in a multitask setup based on the T5 model improves the results against approaches built for a specific dataset such as T5, BERT or GPT-3. We show the ability of this multitask prompting approach to recognize 28 unique fallacies across domains and genres and study the effect of model size and prompt choice by analyzing the per-class (i.e., fallacy type) results. Finally, we analyze the effect of annotation quality on model performance, and the feasibility of complementing this approach with external knowledge.
翻訳日:2023-01-25 13:33:35 公開日:2023-01-24
# ニューラルネットワークを用いた離散中性子拡散方程式の解法:中性子輸送への応用

Solving the Discretised Neutron Diffusion Equations using Neural Networks: Applications in neutron transport ( http://arxiv.org/abs/2301.09991v1 )

ライセンス: Link先を確認
T. R. F. Phillips, C. E. Heaney, C. Boyang, A. G. Buchan, C. C. Pain(参考訳) 本稿では,AIライブラリを用いたボルツマン輸送方程式を解く。 これが魅力的な理由は、AIライブラリ内で高度に最適化されたソフトウェアを使用することができ、異なるコンピュータアーキテクチャ上で実行でき、AIとMLアプリケーションのために開発された膨大な数のコミュニティベースのソフトウェア(例えば混合算術精度やモデル並列性)を利用できるためである。 ここではボルツマン輸送方程式のこのアプローチ開発に向けての第一歩を踏み出し、これを効果的に行うために必要な方法を開発する。 以下を含む。 1)GPUや新しいAIコンピュータ上で効率的に動作させるのに必要な並列性のレベルを抽出できる空間角多重グリッド解法。 2) 高階有限要素(例えばクインティックに量子)の実装を大幅に単純化する新しい畳み込み有限要素法(convfem)。 3) 散逸を異方的に導入する新しい非線形ペトロフ・ガレルキン法

In this paper we solve the Boltzmann transport equation using AI libraries. The reason why this is attractive is because it enables one to use the highly optimised software within AI libraries, enabling one to run on different computer architectures and enables one to tap into the vast quantity of community based software that has been developed for AI and ML applications e.g. mixed arithmetic precision or model parallelism. Here we take the first steps towards developing this approach for the Boltzmann transport equation and develop the necessary methods in order to do that effectively. This includes: 1) A space-angle multigrid solution method that can extract the level of parallelism necessary to run efficiently on GPUs or new AI computers. 2) A new Convolutional Finite Element Method (ConvFEM) that greatly simplifies the implementation of high order finite elements (quadratic to quintic, say). 3) A new non-linear Petrov-Galerkin method that introduces dissipation anisotropically.
翻訳日:2023-01-25 13:33:10 公開日:2023-01-24
# 安定性保証データからの連続線形システムの推定

Inference of Continuous Linear Systems from Data with Guaranteed Stability ( http://arxiv.org/abs/2301.10060v1 )

ライセンス: Link先を確認
Pawan Goyal and Igor Pontes Duff and Peter Benner(参考訳) データから動的システムを学ぶ機械学習技術は、エンジニアリング設計において重要な役割を果たす。 本研究は,データから連続線形モデルを学習することに焦点を当てる。 動的システムの重要な特徴である安定性は、特に予測や制御といった設計タスクにおいて重要である。 したがって、安定性を保証する方法論を開発する必要がある。 そこで我々は,[Gillis/Sharma, Automatica, 2017] で提案された安定行列のパラメータ化を利用して,所望のモデルを実現する。 さらに,連続系を学習するための微分情報の推定を避けるために,推論問題を積分形式で定式化する。 コントロールシステムに関連するものを含め,いくつかの拡張についても論じる。 数値実験により, 安定行列パラメータ化と微分方程式の積分形式の組み合わせにより, 微分情報を必要としない安定系を学習できることが示されている。

Machine-learning technologies for learning dynamical systems from data play an important role in engineering design. This research focuses on learning continuous linear models from data. Stability, a key feature of dynamic systems, is especially important in design tasks such as prediction and control. Thus, there is a need to develop methodologies that provide stability guarantees. To that end, we leverage the parameterization of stable matrices proposed in [Gillis/Sharma, Automatica, 2017] to realize the desired models. Furthermore, to avoid the estimation of derivative information to learn continuous systems, we formulate the inference problem in an integral form. We also discuss a few extensions, including those related to control systems. Numerical experiments show that the combination of a stable matrix parameterization and an integral form of differential equations allows us to learn stable systems without requiring derivative information, which can be challenging to obtain in situations with noisy or limited data.
翻訳日:2023-01-25 13:27:19 公開日:2023-01-24
# 重み付き光流による平面物体追跡

Planar Object Tracking via Weighted Optical Flow ( http://arxiv.org/abs/2301.10057v1 )

ライセンス: Link先を確認
Jonas Serych, Jiri Matas(参考訳) 我々は、平面物体追跡のための新しい手法であるwoftを提案する。これは8度自由度ポーズを推定するものであり、すなわち、ホモグラフィw.r.t.参照ビューである。 この方法は、密度の高い光フローを活用し、各光フロー対応に重みを割り当てる新しいモジュールを使用し、完全に微分可能な方法で重み付き最小二乗によるホモグラフィを推定する。 訓練されたモジュールは、ほとんどの場合、不正な対応(外れ値)にゼロウェイトを割り当て、メソッドを堅牢にし、一般的に使用されるRANSACのような非微分不可能な頑健な推定器の必要性をなくす。 提案した重み付き光フロートラッカー (WOFT) は, POT-210 と POIC の2つのベンチマークにおける最先端性能を達成し,幅広いシナリオで継続的に追跡する。

We propose WOFT -- a novel method for planar object tracking that estimates a full 8 degrees-of-freedom pose, i.e. the homography w.r.t. a reference view. The method uses a novel module that leverages dense optical flow and assigns a weight to each optical flow correspondence, estimating a homography by weighted least squares in a fully differentiable manner. The trained module assigns zero weights to incorrect correspondences (outliers) in most cases, making the method robust and eliminating the need of the typically used non-differentiable robust estimators like RANSAC. The proposed weighted optical flow tracker (WOFT) achieves state-of-the-art performance on two benchmarks, POT-210 and POIC, tracking consistently well across a wide range of scenarios.
翻訳日:2023-01-25 13:27:06 公開日:2023-01-24
# サイドアイ:転がりシャッターと可動レンズを用いたスマートフォンカメラからのPOV音響盗聴の限界を特徴づける

Side Eye: Characterizing the Limits of POV Acoustic Eavesdropping from Smartphone Cameras with Rolling Shutters and Movable Lenses ( http://arxiv.org/abs/2301.10056v1 )

ライセンス: Link先を確認
Yan Long, Pirouz Naghavi, Blas Kojusner, Kevin Butler, Sara Rampazzi, Kevin Fu(参考訳) スマートフォンカメラで広く見られるローリングシャッターと可動レンズ構造は, カメラ画像上の構造音を変調し, 音響盗聴のための光音響側チャネル(POV)を作成する。 スマートフォンのカメラのハードウェアの動きは、画像が周囲の音を無意識に変調するので、音響情報を漏洩する。 実験の結果, サイドチャネルは, 光画像安定化 (OIS) やオートフォーカス (AF) など, 相補的金属酸化物半導体 (CMOS) ローリングシャッターや可動レンズの固有の挙動により増幅されることがわかった。 本稿では,スマートフォンカメラのPOVを乱す構造音による音響情報漏洩の限界を特徴付ける。 振動する物体の従来の光音響盗聴とは対照的に、このサイドチャネルでは視線が不要で、カメラの視野内での物体(天井のサフィスを想像)は不要である。 本実験では, 漏洩した音響情報を抽出し, 認識する新しい信号処理パイプラインを用いて, サイドチャネルの限界を検証した。 音声数字データセット上の10のスマートフォンによる評価では、80.66%、91.28%、99.67%が、それぞれ10の音声桁、20の話者、2の性別を認識している。 さらに、防衛戦略と実装について体系的に議論する。 スマートフォンカメラ画像ストリームからの音響盗聴の限界をモデル化し、測定し、実証することにより、物理学に基づく因果関係と、現在および将来のデバイスに対する脅威を軽減する方法を説明する。

Our research discovers how the rolling shutter and movable lens structures widely found in smartphone cameras modulate structure-borne sounds onto camera images, creating a point-of-view (POV) optical-acoustic side channel for acoustic eavesdropping. The movement of smartphone camera hardware leaks acoustic information because images unwittingly modulate ambient sound as imperceptible distortions. Our experiments find that the side channel is further amplified by intrinsic behaviors of Complementary metal-oxide-semiconductor (CMOS) rolling shutters and movable lenses such as in Optical Image Stabilization (OIS) and Auto Focus (AF). Our paper characterizes the limits of acoustic information leakage caused by structure-borne sound that perturbs the POV of smartphone cameras. In contrast with traditional optical-acoustic eavesdropping on vibrating objects, this side channel requires no line of sight and no object within the camera's field of view (images of a ceiling suffice). Our experiments test the limits of this side channel with a novel signal processing pipeline that extracts and recognizes the leaked acoustic information. Our evaluation with 10 smartphones on a spoken digit dataset reports 80.66%, 91.28%, and 99.67% accuracies on recognizing 10 spoken digits, 20 speakers, and 2 genders respectively. We further systematically discuss the possible defense strategies and implementations. By modeling, measuring, and demonstrating the limits of acoustic eavesdropping from smartphone camera image streams, our contributions explain the physics-based causality and possible ways to reduce the threat on current and future devices.
翻訳日:2023-01-25 13:26:49 公開日:2023-01-24
# 合成データに対する属性推論攻撃に対する線形再構成手法

A Linear Reconstruction Approach for Attribute Inference Attacks against Synthetic Data ( http://arxiv.org/abs/2301.10053v1 )

ライセンス: Link先を確認
Meenatchi Sundaram Muthu Selva Annamalai, Andrea Gadotti and Luc Rocher(参考訳) 調査やデジタルデバイスから大規模に収集された個人データは、統計分析や科学研究に重要な洞察を提供する。 しかし、プライバシーを守りながらデータを安全に共有することは難しい。 匿名化はプライバシーリスクを最小限にしながらデータを共有可能にするが、従来の匿名化技術は、実際には再識別攻撃に対する限定的な保護を提供するように繰り返し示されてきた。 現代の匿名化技術の中で、プライバシーと統計的ユーティリティの良好なトレードオフを見つけるための潜在的な解決策として、合成データ生成(SDG)が出現している。 合成データは通常、元のレコードの統計分布を学習するアルゴリズムを使用して生成され、元のレコードと構造的におよび統計的に類似した「人工的」レコードを生成する。 しかし、合成記録が「人工的」であるという事実は、プライバシーが保護されていることを保証しない。 本研究では,多種多様な合成データ生成アルゴリズムにおいて,プライバシ保護と統計ユーティリティ保護のトレードオフを体系的に評価する。 属性推論攻撃 (AIA) に対する保護としてプライバシをモデル化し, 従来研究されていない線形再構成攻撃を拡張し適応する。 先行研究では、AIAは少数の外れ値にのみ有効である可能性が示唆されているが、ランダムに選択されたレコードでも非常に有効であることが示されている。 また, 10^3 から 10^6 までの合成データセットに対する攻撃を評価し, 同じ生成モデルであっても, より多くの合成レコードが生成されると, 攻撃効果が劇的に増大することを示した。 全体として、我々の研究結果は、合成データは他の匿名化手法と同様にプライバシーとユーティリティのトレードオフの対象となることを証明している。

Personal data collected at scale from surveys or digital devices offers important insights for statistical analysis and scientific research. Safely sharing such data while protecting privacy is however challenging. Anonymization allows data to be shared while minimizing privacy risks, but traditional anonymization techniques have been repeatedly shown to provide limited protection against re-identification attacks in practice. Among modern anonymization techniques, synthetic data generation (SDG) has emerged as a potential solution to find a good tradeoff between privacy and statistical utility. Synthetic data is typically generated using algorithms that learn the statistical distribution of the original records, to then generate "artificial" records that are structurally and statistically similar to the original ones. Yet, the fact that synthetic records are "artificial" does not, per se, guarantee that privacy is protected. In this work, we systematically evaluate the tradeoffs between protecting privacy and preserving statistical utility for a wide range of synthetic data generation algorithms. Modeling privacy as protection against attribute inference attacks (AIAs), we extend and adapt linear reconstruction attacks, which have not been previously studied in the context of synthetic data. While prior work suggests that AIAs may be effective only on few outlier records, we show they can be very effective even on randomly selected records. We evaluate attacks on synthetic datasets ranging from 10^3 to 10^6 records, showing that even for the same generative model, the attack effectiveness can drastically increase when a larger number of synthetic records is generated. Overall, our findings prove that synthetic data is subject to privacy-utility tradeoffs just like other anonymization techniques: when good utility is preserved, attribute inference can be a risk for many data subjects.
翻訳日:2023-01-25 13:26:20 公開日:2023-01-24
# グラフ畳み込みネットワークを用いたサッカーにおけるイベント検出

Event Detection in Football using Graph Convolutional Networks ( http://arxiv.org/abs/2301.10052v1 )

ライセンス: Link先を確認
Aditya Sangram Singh Rana(参考訳) スポーツにおけるデータ収集の膨大な増加は、このデータから洞察を得るために、プロチームやメディアハウスに多くの道を開いた。 収集されたデータは、フレーム毎のプレーヤとボールの軌跡、パス、ファウル、カード、ゴールなどのイベントアノテーションを含む。 グラフ畳み込みネットワーク(GCN)は、最近この高度に構造化されていない追跡データを処理するために採用されている。 本論文では,サッカー映像からのイベント自動検出の目標に焦点を当てた。 ビデオシーケンスの各フレームにおけるプレイヤーとボールをグラフとしてモデル化する方法を示し、グラフ畳み込み層および各アクションの周辺に存在する時間的コンテキストのモデル化に使用できるプーリング手法の結果を示す。

The massive growth of data collection in sports has opened numerous avenues for professional teams and media houses to gain insights from this data. The data collected includes per frame player and ball trajectories, and event annotations such as passes, fouls, cards, goals, etc. Graph Convolutional Networks (GCNs) have recently been employed to process this highly unstructured tracking data which can be otherwise difficult to model because of lack of clarity on how to order players in a sequence and how to handle missing objects of interest. In this thesis, we focus on the goal of automatic event detection from football videos. We show how to model the players and the ball in each frame of the video sequence as a graph, and present the results for graph convolutional layers and pooling methods that can be used to model the temporal context present around each action.
翻訳日:2023-01-25 13:25:52 公開日:2023-01-24
# wise-iou:動的フォーカス機構によるバウンディングボックス回帰損失

Wise-IoU: Bounding Box Regression Loss with Dynamic Focusing Mechanism ( http://arxiv.org/abs/2301.10051v1 )

ライセンス: Link先を確認
Zanjia Tong, Yuhang Chen, Zewei Xu, Rong Yu(参考訳) オブジェクト検出にはバウンディングボックス回帰(BBR)の損失関数が不可欠である。 その良い定義はモデルに大幅なパフォーマンス改善をもたらすだろう。 既存の研究の多くは、トレーニングデータの例が高品質であり、bbr損失の適合能力の強化に重点を置いていると仮定している。 低品質の例でbbrを盲目的に強化すれば、ローカライズのパフォーマンスを損なうことになります。 Focal-EIoU v1はこの問題を解決するために提案されたが、静的集束機構(FM)のため、非単調FMの可能性は完全には利用されなかった。 このアイデアに基づいて,Wise-IoU(WIoU)と呼ばれる動的非単調FMを用いたIoUに基づく損失を提案する。 WIoUを最先端のリアルタイム検出器YOLOv7に適用すると、MS-COCOデータセット上のAP-75は53.03%から54.50%に改善される。

The loss function for bounding box regression (BBR) is essential to object detection. Its good definition will bring significant performance improvement to the model. Most existing works assume that the examples in the training data are high-quality and focus on strengthening the fitting ability of BBR loss. If we blindly strengthen BBR on low-quality examples, it will jeopardize localization performance. Focal-EIoU v1 was proposed to solve this problem, but due to its static focusing mechanism (FM), the potential of non-monotonic FM was not fully exploited. Based on this idea, we propose an IoU-based loss with a dynamic non-monotonic FM named Wise-IoU (WIoU). When WIoU is applied to the state-of-the-art real-time detector YOLOv7, the AP-75 on the MS-COCO dataset is improved from 53.03% to 54.50%.
翻訳日:2023-01-25 13:25:36 公開日:2023-01-24
# 変圧器による映像塗装における光学的フロー誘導

Exploiting Optical Flow Guidance for Transformer-Based Video Inpainting ( http://arxiv.org/abs/2301.10048v1 )

ライセンス: Link先を確認
Kaidong Zhang, Jialun Peng, Jingjing Fu, Dong Liu(参考訳) トランスフォーマーはマルチヘッド・セルフアテンション(MHSA)機構によってビデオ処理に広く利用されている。 しかし,mhsa機構は,劣化した領域に関連する特徴が劣化し,不正確な自己注意を伴わないため,映像インパインティングが本質的に困難となる。 この問題はクエリ劣化と呼ばれ、最初に光学フローを完了し、フローを使って自己注意を導くことで緩和される可能性がある。 さらにフローガイダンスを活用し,より効率的かつ効率的な映像インペインティングを追求するためにfgt++を提案する。 まず,局所アグリゲーションとエッジ損失を用いて,軽量なフロー補完ネットワークを設計する。 第2に,問合せ劣化に対処するために,動きの不一致を利用して特徴量を高めるフロー誘導機能統合モジュールと,その特徴を特徴量に応じて逸脱させるフロー誘導機能伝達モジュールを提案する。 第3に、時間的および空間的次元に沿って変換器を分離し、時間的変形可能なMHSA機構でトークンの選択にフローを使用し、大域トークンは双対視点MHSA機構で内窓局所トークンと結合する。 FGT++は、既存のビデオインパインティングネットワークを質的かつ定量的に上回っていると実験的に評価されている。

Transformers have been widely used for video processing owing to the multi-head self attention (MHSA) mechanism. However, the MHSA mechanism encounters an intrinsic difficulty for video inpainting, since the features associated with the corrupted regions are degraded and incur inaccurate self attention. This problem, termed query degradation, may be mitigated by first completing optical flows and then using the flows to guide the self attention, which was verified in our previous work - flow-guided transformer (FGT). We further exploit the flow guidance and propose FGT++ to pursue more effective and efficient video inpainting. First, we design a lightweight flow completion network by using local aggregation and edge loss. Second, to address the query degradation, we propose a flow guidance feature integration module, which uses the motion discrepancy to enhance the features, together with a flow-guided feature propagation module that warps the features according to the flows. Third, we decouple the transformer along the temporal and spatial dimensions, where flows are used to select the tokens through a temporally deformable MHSA mechanism, and global tokens are combined with the inner-window local tokens through a dual perspective MHSA mechanism. FGT++ is experimentally evaluated to be outperforming the existing video inpainting networks qualitatively and quantitatively.
翻訳日:2023-01-25 13:25:21 公開日:2023-01-24
# DiffMotion:Denoising Diffusion Modelを用いた音声によるジェスチャー合成

DiffMotion: Speech-Driven Gesture Synthesis Using Denoising Diffusion Model ( http://arxiv.org/abs/2301.10047v1 )

ライセンス: Link先を確認
Fan Zhang, Naye Ji, Fuxing Gao, Yongping Li(参考訳) 音声によるジェスチャー合成は、仮想人間の創造に対する関心が高まっている分野である。 しかし、重要な課題は、音声とジェスチャーの複雑な1対1マッピングである。 以前の研究では、生成モデルによる大きな進歩を探求し、達成してきた。 ともあれ、ほとんどの合成ジェスチャーはいまだに自然ではない。 本稿では拡散モデルに基づく新しい音声駆動ジェスチャー合成アーキテクチャであるDiffMotionを提案する。 モデルは、自己回帰的時間エンコーダと、復調拡散確率モジュールとを備える。 エンコーダは、音声入力と歴史的なジェスチャーの時間的文脈を抽出する。 拡散モジュールはパラメータ化されたマルコフ連鎖を学習し、簡単な分布を徐々に複雑な分布に変換し、付随する音声に応じてジェスチャーを生成する。 主観的・主観的評価はベースラインと比較し,本手法が自然・多彩なジェスチレーションを生み出し,拡散モデルによるジェスチャ合成の利点を実証する。

Speech-driven gesture synthesis is a field of growing interest in virtual human creation. However, a critical challenge is the inherent intricate one-to-many mapping between speech and gestures. Previous studies have explored and achieved significant progress with generative models. Notwithstanding, most synthetic gestures are still vastly less natural. This paper presents DiffMotion, a novel speech-driven gesture synthesis architecture based on diffusion models. The model comprises an autoregressive temporal encoder and a denoising diffusion probability Module. The encoder extracts the temporal context of the speech input and historical gestures. The diffusion module learns a parameterized Markov chain to gradually convert a simple distribution into a complex distribution and generates the gestures according to the accompanied speech. Compared with baselines, objective and subjective evaluations confirm that our approach can produce natural and diverse gesticulation and demonstrate the benefits of diffusion-based models on speech-driven gesture synthesis.
翻訳日:2023-01-25 13:24:57 公開日:2023-01-24
# 軽量画像分類モデルのためのプログレッシブメタポーリング学習

Progressive Meta-Pooling Learning for Lightweight Image Classification Model ( http://arxiv.org/abs/2301.10038v1 )

ライセンス: Link先を確認
Peijie Dong, Xin Niu, Zhiliang Tian, Lujun Li, Xiaodong Wang, Zimian Wei, Hengyue Pan, Dongsheng Li(参考訳) エッジデバイスのための実用的なネットワークは、メモリと計算コストを節約するために、浅い深さと小さな畳み込みカーネルを採用しており、これは制限された受容フィールドに繋がる。 従来の効率的な学習方法は、ニューラルネットワーク設計における受容場の役割を無視して、軽量な畳み込み設計にフォーカスしている。 本稿では,パラメータ化プーリングに基づく操作からなる軽量ネットワークにおいて,受容場を学習可能にするメタプールフレームワークを提案する。 具体的には,軽量モデルの各層に対して多目的受容場を提供するために,プール操作からなるパラメータ化空間拡張器を提案する。 次に、パラメータ化された空間エンハンサーに対して、適切な受容場サイズを得るためのプログレッシブメタプール学習(pmpl)戦略を提案する。 ImageNetデータセットの結果、Meta-Poolingを使用したMobileNetV2は74.6\%で、MobileNetV2の2.3\%を上回っている。

Practical networks for edge devices adopt shallow depth and small convolutional kernels to save memory and computational cost, which leads to a restricted receptive field. Conventional efficient learning methods focus on lightweight convolution designs, ignoring the role of the receptive field in neural network design. In this paper, we propose the Meta-Pooling framework to make the receptive field learnable for a lightweight network, which consists of parameterized pooling-based operations. Specifically, we introduce a parameterized spatial enhancer, which is composed of pooling operations to provide versatile receptive fields for each layer of a lightweight model. Then, we present a Progressive Meta-Pooling Learning (PMPL) strategy for the parameterized spatial enhancer to acquire a suitable receptive field size. The results on the ImageNet dataset demonstrate that MobileNetV2 using Meta-Pooling achieves top1 accuracy of 74.6\%, which outperforms MobileNetV2 by 2.3\%.
翻訳日:2023-01-25 13:24:44 公開日:2023-01-24
# 実演家としての大規模言語モデル--法的基準による人工知能とのロバストなコミュニケーションをめざして

Large Language Models as Fiduciaries: A Case Study Toward Robustly Communicating With Artificial Intelligence Through Legal Standards ( http://arxiv.org/abs/2301.10095v1 )

ライセンス: Link先を確認
John J. Nay(参考訳) 人工知能(AI)は、研究アシスタントとしてウェブを閲覧し、資金を管理するなど、ますます自律的な役割を担っている。 しかし、AI行動の目標と制限を指定することは難しい。 法的契約の当事者が将来の関係のあらゆる潜在的な「もし」偶然を予見できないのと同様に、あらゆる状況において望ましいai行動を特定することはできない。 法的基準は、本質的に曖昧で不特定な目標の堅牢なコミュニケーションを促進する。 法的基準を用いる命令(言語モデルの場合、"prompts")は、AIエージェントが、新しい状況に適応可能な指令の精神についての共通理解を発達させ、世界の特定されていない状態に対処するための許容可能な行動に関する期待を一般化することを可能にする。 標準には、平易な言語やプログラミング言語など、他の目標仕様言語に欠けるコンテキストが組み込まれている。 米国裁判所の意見から構築した何千もの評価ラベルに関する実証的研究を通じて、我々は、大規模言語モデル(LLM)がAIエージェントの最も関係の深い法的基準の1つ、すなわち義務を「理解」し始めていることを実証した。 モデル間でのパフォーマンス比較は、LLMが改良されたコア能力を示し続けるにつれ、法的基準の理解も改善され続けることを示唆している。 openaiの最新のllmはデータに78%の精度があり、以前のリリースでは73%の精度があり、2020年のgpt-3論文のモデルでは27%の精度(ランダムより低い)がある。 我々の研究は、法律標準に対するAI理解をより広く評価し、法的フィードバック(RLLF)による強化学習を実施するためのフレームワークに向けた最初のステップである。

Artificial Intelligence (AI) is taking on increasingly autonomous roles, e.g., browsing the web as a research assistant and managing money. But specifying goals and restrictions for AI behavior is difficult. Similar to how parties to a legal contract cannot foresee every potential "if-then" contingency of their future relationship, we cannot specify desired AI behavior for all circumstances. Legal standards facilitate the robust communication of inherently vague and underspecified goals. Instructions (in the case of language models, "prompts") that employ legal standards will allow AI agents to develop shared understandings of the spirit of a directive that can adapt to novel situations, and generalize expectations regarding acceptable actions to take in unspecified states of the world. Standards have built-in context that is lacking from other goal specification languages, such as plain language and programming languages. Through an empirical study on thousands of evaluation labels we constructed from U.S. court opinions, we demonstrate that large language models (LLMs) are beginning to exhibit an "understanding" of one of the most relevant legal standards for AI agents: fiduciary obligations. Performance comparisons across models suggest that, as LLMs continue to exhibit improved core capabilities, their legal standards understanding will also continue to improve. OpenAI's latest LLM has 78% accuracy on our data, their previous release has 73% accuracy, and a model from their 2020 GPT-3 paper has 27% accuracy (worse than random). Our research is an initial step toward a framework for evaluating AI understanding of legal standards more broadly, and for conducting reinforcement learning with legal feedback (RLLF).
翻訳日:2023-01-25 13:17:47 公開日:2023-01-24
# 計算時間を増やすことなく推論を増加させるモデルスープ

Model soups to increase inference without increasing compute time ( http://arxiv.org/abs/2301.10092v1 )

ライセンス: Link先を確認
Charles Dansereau, Milo Sobral, Maninder Bhogal and Mehdi Zalai(参考訳) 本稿では,3種類のモデル(ResNet,ViT,EfficientNet)におけるモデルスープのパフォーマンスを,arXiv:2203.05482の3種類のスープレシピ(Greedy Soup Sorted,Greedy Soup Random,Uniform soup)を用いて比較し,著者の成果を再現する。 次に、Pruned Soupと呼ばれる新しいSoup Recipeを紹介します。 スープの結果は、トレーニング済みのビジョントランスフォーマーの最高の個別モデルよりも優れていたが、ResNetやEfficientNetでは最悪だった。 刈り取ったスープは,原紙に提示された均一で欲深いスープよりも優れていた。 また,実験中に発見された重量制限についても検討した。 モデルスープライブラリのコードと、異なるモデルによる実験は以下の通りである。

In this paper, we compare Model Soups performances on three different models (ResNet, ViT and EfficientNet) using three Soup Recipes (Greedy Soup Sorted, Greedy Soup Random and Uniform soup) from arXiv:2203.05482, and reproduce the results of the authors. We then introduce a new Soup Recipe called Pruned Soup. Results from the soups were better than the best individual model for the pre-trained vision transformer, but were much worst for the ResNet and the EfficientNet. Our pruned soup performed better than the uniform and greedy soups presented in the original paper. We also discuss the limitations of weight-averaging that were found during the experiments. The code for our model soup library and the experiments with different models can be found here: https://github.com/milo-sobral/ModelSoup
翻訳日:2023-01-25 13:17:15 公開日:2023-01-24
# 電力(ネット)負荷の適応確率予測

Adaptive Probabilistic Forecasting of Electricity (Net-)Load ( http://arxiv.org/abs/2301.10090v1 )

ライセンス: Link先を確認
Joseph de Vilmarest, Jethro Browell, Matteo Fasiolo, Yannig Goude (EDF R&D), Olivier Wintenberger (SU)(参考訳) 電力負荷予測に重点を置き,3つの重要特性を満たした。 まず、設定は適応的であり、利用可能な最新の観測を考慮に入れてモデルを使用し、システム変更に自動的に対応可能な予測戦略を作成します。 第2に,ポイント予測よりも確率論を考える。実際,電気システムの効率的かつ確実に運用するためには,不確実性定量化が必要である。 第3に、従来の負荷(消費のみ)とnetload(消費少ない組込み生成)の両方を考慮する。 提案手法はkalmanフィルタを応用し,適応点負荷予測に有効である。 確率的予測は、点予測モデルの残差の量的回帰によって得られる。 我々は,オンライン勾配勾配勾配を用いた適応的分位回帰を実現する。複数の学習率と専門家の集約を考慮した勾配ステップサイズの選択は避ける。 本手法を,イギリスにおける地域ネット負荷と米国7大都市の需要の2つのデータセットに適用する。 適応的手法は、ユースケースと確率予測の両方において、予測性能を大幅に改善する。

We focus on electricity load forecasting under three important specificities. First, our setting is adaptive; we use models taking into account the most recent observations available, yielding a forecasting strategy able to automatically respond to regime changes. Second, we consider probabilistic rather than point forecasting; indeed, uncertainty quantification is required to operate electricity systems efficiently and reliably. Third, we consider both conventional load (consumption only) and netload (consumption less embedded generation). Our methodology relies on the Kalman filter, previously used successfully for adaptive point load forecasting. The probabilistic forecasts are obtained by quantile regressions on the residuals of the point forecasting model. We achieve adaptive quantile regressions using the online gradient descent; we avoid the choice of the gradient step size considering multiple learning rates and aggregation of experts. We apply the method to two data sets: the regional net-load in Great Britain and the demand of seven large cities in the United States. Adaptive procedures improve forecast performance substantially in both use cases and for both point and probabilistic forecasting.
翻訳日:2023-01-25 13:16:56 公開日:2023-01-24
# 自動計画のための改革手法:システムレビュー

Reformulation Techniques for Automated Planning: A Systematic Review ( http://arxiv.org/abs/2301.10079v1 )

ライセンス: Link先を確認
Diaeddin Alarnaouti and George Baryannis and Mauro Vallati(参考訳) 自動計画は人工知能の顕著な領域であり、インテリジェントな自律エージェントにとって重要な構成要素である。 ドメインに依存しない計画の基盤は、計画ロジック、すなわち、自動化された推論側と、与えられた問題を推論してソリューションプランを合成するために必要なドメイン知識の形式的表現を符号化する知識モデルの間の分離である。 このような分離は、計画生成の効率を改善するためにモデルがどのように表現されるかを変換する改革技術の利用を可能にする。 過去数十年にわたり、改革技術の設計に多大な研究努力が注がれている。 本稿では,この分野の総合的な展望と今後の研究を促進することを目的とした,古典的計画の改革技術に関する大規模研究の体系的なレビューを行う。 具体的な結果として、既存のテクニックのクラスを質的に比較することで、研究者がその強みと弱さを概観することができる。

Automated planning is a prominent area of Artificial Intelligence, and an important component for intelligent autonomous agents. A cornerstone of domain-independent planning is the separation between planning logic, i.e. the automated reasoning side, and the knowledge model, that encodes a formal representation of domain knowledge needed to reason upon a given problem to synthesise a solution plan. Such a separation enables the use of reformulation techniques, which transform how a model is represented in order to improve the efficiency of plan generation. Over the past decades, significant research effort has been devoted to the design of reformulation techniques. In this paper, we present a systematic review of the large body of work on reformulation techniques for classical planning, aiming to provide a holistic view of the field and to foster future research in the area. As a tangible outcome, we provide a qualitative comparison of the existing classes of techniques, that can help researchers gain an overview of their strengths and weaknesses.
翻訳日:2023-01-25 13:16:42 公開日:2023-01-24
# 自律粒子

Autonomous particles ( http://arxiv.org/abs/2301.10077v1 )

ライセンス: Link先を確認
Nikola Andrejic and Vitaly Vanchurin(参考訳) エージェントが環境に関する非常に多くの情報にアクセス可能な強化学習問題を考えるが、そのタスクを達成し、報酬を最大化するためには、非常に少ない行動しか実行できない。 明らかに、エージェントの主な問題は、非常に高次元の空間(その環境を表す)から非常に低次元の空間(その作用を表す)への写像を学ぶことである。 高度から低次元の地図は、環境に関する情報のほとんどは取るべき行動とは無関係であり、わずかな情報しか関係がないことを示している。 この論文では、関連する情報は(標準的なアプローチである)ブルート力によって学習される必要はないが、システムの本質的対称性から識別できると主張する。 我々は、対応する対称性がガリレオ対称性である自律運転の強化学習問題を詳細に分析し、学習課題は関連するパラメータ、あるいはより正確には不変量によって達成できると主張する。 数値的な実演では、他の粒子と衝突することなく運転方法を学ぶために、自動運転車(非常に原始的な車両を説明するために自律的粒子と呼ぶ)は4つの関連する不変量しか必要としないことを示した。 単純なモデルは、様々な種類の粒子(車、歩行者、建物、道路標識など)と、それらの相互作用を記述する異なる種類の不変量を含むように容易に一般化することができる。 また, 自律粒子がフェルミオン的自由度によって記述され, 関連する不変量によって媒介される相互作用がボソニック自由度によって記述されるような学習系の場理論記述も存在すべきである。

Consider a reinforcement learning problem where an agent has access to a very large amount of information about the environment, but it can only take very few actions to accomplish its task and to maximize its reward. Evidently, the main problem for the agent is to learn a map from a very high-dimensional space (which represents its environment) to a very low-dimensional space (which represents its actions). The high-to-low dimensional map implies that most of the information about the environment is irrelevant for the actions to be taken, and only a small fraction of information is relevant. In this paper we argue that the relevant information need not be learned by brute force (which is the standard approach), but can be identified from the intrinsic symmetries of the system. We analyze in details a reinforcement learning problem of autonomous driving, where the corresponding symmetry is the Galilean symmetry, and argue that the learning task can be accomplished with very few relevant parameters, or, more precisely, invariants. For a numerical demonstration, we show that the autonomous vehicles (which we call autonomous particles since they describe very primitive vehicles) need only four relevant invariants to learn how to drive very well without colliding with other particles. The simple model can be easily generalized to include different types of particles (e.g. for cars, for pedestrians, for buildings, for road signs, etc.) with different types of relevant invariants describing interactions between them. We also argue that there must exist a field theory description of the learning system where autonomous particles would be described by fermionic degrees of freedom and interactions mediated by the relevant invariants would be described by bosonic degrees of freedom.
翻訳日:2023-01-25 13:16:28 公開日:2023-01-24
# インクルーシブ言語からジェンダー中立機械翻訳へ

From Inclusive Language to Gender-Neutral Machine Translation ( http://arxiv.org/abs/2301.10075v1 )

ライセンス: Link先を確認
Andrea Piergentili, Dennis Fucci, Beatrice Savoldi, Luisa Bentivogli, Matteo Negri(参考訳) 言語におけるジェンダーの排他性は、議論と研究の中心的話題となっている。 しかし、人間と機械翻訳(mt)の言語横断的文脈におけるその応用は、ほとんど解明されていない。 本稿では、ジェンダー中立翻訳(gnt)を、翻訳におけるジェンダー排他性の形式として議論し、性別バイアスや差別を持続するmtモデルの採用を提唱する。 本稿では,ジェンダー中立化のための有用な戦略を収集・体系化するための施設ガイドライン(gil)の選定について検討する。 次に、GNTとその利用シナリオについて論じ、デシラタのリストを考案する。 最後に, MTにおけるGNT導入における主な技術的課題を明らかにする。これらの貢献を通じて, 文法におけるジェンダーマーキングの異なる規則のため, 日本語からイタリア語への翻訳に焦点をあてる。

Gender inclusivity in language has become a central topic of debate and research. Its application in the cross-lingual contexts of human and machine translation (MT), however, remains largely unexplored. Here, we discuss Gender-Neutral Translation (GNT) as a form of gender inclusivity in translation and advocate for its adoption for MT models, which have been found to perpetuate gender bias and discrimination. To this aim, we review a selection of relevant institutional guidelines for Gender-Inclusive Language (GIL) to collect and systematize useful strategies of gender neutralization. Then, we discuss GNT and its scenarios of use, devising a list of desiderata. Finally, we identify the main technical challenges to the implementation of GNT in MT. Throughout these contributions we focus on translation from English into Italian, as representative of salient linguistic transfer problems, due to the different rules for gender marking in their grammar.
翻訳日:2023-01-25 13:16:02 公開日:2023-01-24
# 説明可能なデータ駆動最適化: コンテキストから決定へ、そして再び戻る

Explainable Data-Driven Optimization: From Context to Decision and Back Again ( http://arxiv.org/abs/2301.10074v1 )

ライセンス: Link先を確認
Alexandre Forel, Axel Parmentier, Thibaut Vidal(参考訳) データ駆動最適化は、文脈情報と機械学習アルゴリズムを使用して、不確かなパラメータを持つ決定問題の解を見つける。 分類設定における機械学習モデルの解釈に多くの作業が費やされているが、学習アルゴリズムを含む決定パイプラインの説明は未解決である。 この解釈可能性の欠如は、推奨される決定を理解したり信頼したりすることができない場合があり、データ駆動ソリューションの採用を妨げる可能性がある。 データ駆動問題に対する解決策を説明するのに適した、反実的説明手法を導入することで、このギャップを埋める。 本稿では,2種類の説明法を導入し,ランダム林と隣接予測器の最も近い説明法を提案する。 在庫管理やルーティングといった運用管理の重要な問題を説明することで,このアプローチを実証する。

Data-driven optimization uses contextual information and machine learning algorithms to find solutions to decision problems with uncertain parameters. While a vast body of work is dedicated to interpreting machine learning models in the classification setting, explaining decision pipelines involving learning algorithms remains unaddressed. This lack of interpretability can block the adoption of data-driven solutions as practitioners may not understand or trust the recommended decisions. We bridge this gap by introducing a counterfactual explanation methodology tailored to explain solutions to data-driven problems. We introduce two classes of explanations and develop methods to find nearest explanations of random forest and nearest-neighbor predictors. We demonstrate our approach by explaining key problems in operations management such as inventory management and routing.
翻訳日:2023-01-25 13:15:44 公開日:2023-01-24
# 量子光と古典光を用いたホログラフィの強度干渉法

Intensity interferometry for holography with quantum and classical light ( http://arxiv.org/abs/2301.10068v1 )

ライセンス: Link先を確認
G.S. Thekkadath, D. England, F. Bouchard, Y. Zhang, M.S. Kim, B. Sussman(参考訳) Hanbury Brown と Twiss が最初に示したように、独立光源間の干渉は振幅よりも強度の相関を測定することで観測することができる。 本研究では,この強度干渉法の概念をホログラフィに適用する。 信号ビームを基準と組み合わせ、時間タグ付き単光子カメラを用いてその強度相関を測定する。 これらの相関は,信号波面を強度と位相の両方で再構成する干渉パターンを示す。 我々は1つの光子を含む古典光と量子光を用いて原理を実証する。 信号と参照は位相安定である必要はないため、この技術は局所参照を用いて自己発光またはリモートオブジェクトのホログラムを生成するために使用することができ、新しいホログラフィー応用への扉を開くことができる。

As first demonstrated by Hanbury Brown and Twiss, it is possible to observe interference between independent light sources by measuring correlations in their intensities rather than their amplitudes. In this work, we apply this concept of intensity interferometry to holography. We combine a signal beam with a reference and measure their intensity cross-correlations using a time-tagging single-photon camera. These correlations reveal an interference pattern from which we reconstruct the signal wavefront in both intensity and phase. We demonstrate the principle with classical and quantum light, including a single photon. Since the signal and reference do not need to be phase-stable, this technique can be used to generate holograms of self-luminous or remote objects using a local reference, thus opening the door to new holography applications.
翻訳日:2023-01-25 13:15:31 公開日:2023-01-24
# モデルに基づく強化学習における本質的な動機づけ

Intrinsic Motivation in Model-based Reinforcement Learning: A Brief Review ( http://arxiv.org/abs/2301.10067v1 )

ライセンス: Link先を確認
Artem Latyshev, Aleksandr I. Panov(参考訳) 強化学習研究領域は、インテリジェントエージェント制御の問題を解決するための幅広い方法を含んでいる。 進歩にもかかわらず、高度に自律的なエージェントを作成する作業は依然として大きな課題である。 この問題の潜在的な解決策の1つは、発達心理学から派生した概念である本質的動機づけである。 本稿では,エージェントが獲得した世界モデルに基づいて本質的な動機付けを決定する既存の手法について考察する。 本研究は, エージェントの構成要素における世界モデルの利用方法, 補完的な内在的報酬, 探索政策, 内在的動機付け目標の3つのカテゴリから構成される, この分野における現在の研究への体系的アプローチを提案する。 提案する統一フレームワークは、世界モデルと学習を改善する本質的な動機を用いたエージェントのアーキテクチャを記述する。 この分野における新しい技術開発の可能性についても検討する。

The reinforcement learning research area contains a wide range of methods for solving the problems of intelligent agent control. Despite the progress that has been made, the task of creating a highly autonomous agent is still a significant challenge. One potential solution to this problem is intrinsic motivation, a concept derived from developmental psychology. This review considers the existing methods for determining intrinsic motivation based on the world model obtained by the agent. We propose a systematic approach to current research in this field, which consists of three categories of methods, distinguished by the way they utilize a world model in the agent's components: complementary intrinsic reward, exploration policy, and intrinsically motivated goals. The proposed unified framework describes the architecture of agents using a world model and intrinsic motivation to improve learning. The potential for developing new techniques in this area of research is also examined.
翻訳日:2023-01-25 13:15:18 公開日:2023-01-24
# 任意の忠実度に対するMargolus-Levitin量子速度制限

The Margolus-Levitin quantum speed limit for an arbitrary fidelity ( http://arxiv.org/abs/2301.10063v1 )

ライセンス: Link先を確認
Niklas H\"ornedal, Ole S\"onnerborn(参考訳) mandelstam-tammとmargolus-levitinの量子速度限界は、孤立した量子系でよく知られた2つの進化時間推定値である。 これらの境界は通常、完全に区別可能な初期状態と最終状態のために定式化されるが、どちらも任意の忠実度を持つ状態の間で進化する系への厳密な拡張を持つ。 しかし、これらの拡張の基礎はいくつかの本質的な点で異なる。 拡張マンデルスタム-タム量子速度制限は解析的に証明され、明確な幾何学的解釈を持つ。 さらに、その限界を飽和させるシステムは、完全に分類されている。 一方、拡張されたマルゴラス-レヴィチン量子速度制限の導出は、数値的な推定に基づいている。 さらに、極限は幾何学的解釈を欠き、それに到達したシステムの完全な特徴付けは存在しない。 本稿では,マルゴラス-レヴィチン量子速度限界を解析的に導出し,その限界を飽和する系について詳細に述べる。 また、シンプレクティック・幾何学的解釈による極限も提供し、既存の量子速度制限とは性質が異なることを示す。 論文の最後には,拡張Mandelstam-TammとMargolus-Levitinの量子速度限界の最大値を分析し,拡張Margolus-Levitin量子速度限界の二重バージョンを導出する。 最大極限は、初期状態と最終状態の忠実性にかかわらず厳密である。 しかし、上限が飽和している条件は、初期状態と最終状態が完全に区別可能であるかどうかによって異なる。 双対極限もまたタイトであり、時間反転の議論から従う。 双対量子速度限界を飽和させる全ての系を記述する。

The Mandelstam-Tamm and Margolus-Levitin quantum speed limits are two well-known evolution time estimates for isolated quantum systems. These bounds are usually formulated for fully distinguishable initial and final states, but both have tight extensions to systems that evolve between states with arbitrary fidelity. However, the foundations for these extensions differ in some essential respects. The extended Mandelstam-Tamm quantum speed limit has been proven analytically and has a clear geometric interpretation. Furthermore, the systems that saturate the limit have been completely classified. The derivation of the extended Margolus-Levitin quantum speed limit, on the other hand, is based on numerical estimates. Moreover, the limit lacks a geometric interpretation, and there is no complete characterization of the systems reaching it. In this paper, we derive the extended Margolus-Levitin quantum speed limit analytically and describe in detail the systems that saturate the limit. We also provide the limit with a symplectic-geometric interpretation, indicating that it is of a different character than most existing quantum speed limits. At the end of the paper, we analyze the maximum of the extended Mandelstam-Tamm and Margolus-Levitin quantum speed limits, and we derive a dual version of the extended Margolus-Levitin quantum speed limit. The maximum limit is tight regardless of the fidelity of the initial and final states. However, the conditions under which the maximum limit is saturated differ depending on whether or not the initial and final states are fully distinguishable. The dual limit is also tight and follows from a time reversal argument. We describe all systems that saturate the dual quantum speed limit.
翻訳日:2023-01-25 13:15:07 公開日:2023-01-24
# 自己スーパービジョンによるオープンセットセミスーパービジョン学習の改善

Improving Open-Set Semi-Supervised Learning with Self-Supervision ( http://arxiv.org/abs/2301.10127v1 )

ライセンス: Link先を確認
Erik Wallin, Lennart Svensson, Fredrik Kahl, Lars Hammarstrand(参考訳) Open-set semi-supervised learning (OSSL)は、ラベル付き集合に存在しないクラスを含む半教師付き学習の現実的な設定である。 既存のOSSLメソッドの多くは、これらのアウト・オブ・ディストリビューションデータは有害であると仮定し、トレーニング目標から未知のクラスからデータを除外する努力を払っている。 対照的に,自己スーパービジョンによるラベルなしデータからの学習を容易にするosslフレームワークを提案する。 さらに,エネルギベースのスコアを用いて既知のクラスに属するデータを正確に認識し,デプロイ時の未処理データの処理に適していることを示す。 提案手法は,OSSLの最先端技術と比較して,クローズドセットの精度とオープンセットの認識の観点から,不整合性や性能を総合的に示すものである。 私たちのコードは出版時に公開される。

Open-set semi-supervised learning (OSSL) is a realistic setting of semi-supervised learning where the unlabeled training set contains classes that are not present in the labeled set. Many existing OSSL methods assume that these out-of-distribution data are harmful and put effort into excluding data from unknown classes from the training objective. In contrast, we propose an OSSL framework that facilitates learning from all unlabeled data through self-supervision. Additionally, we utilize an energy-based score to accurately recognize data belonging to the known classes, making our method well-suited for handling uncurated data in deployment. We show through extensive experimental evaluations on several datasets that our method shows overall unmatched robustness and performance in terms of closed-set accuracy and open-set recognition compared with state-of-the-art for OSSL. Our code will be released upon publication.
翻訳日:2023-01-25 13:09:31 公開日:2023-01-24
# 高スループットベイズ最適化におけるスパースガウス過程の誘導点割当

Inducing Point Allocation for Sparse Gaussian Processes in High-Throughput Bayesian Optimisation ( http://arxiv.org/abs/2301.10123v1 )

ライセンス: Link先を確認
Henry B. Moss, Sebastian W. Ober and Victor Picheny(参考訳) スパースガウス過程はハイスループットベイズ最適化 (BO) ループの鍵となる要素であるが、それらの誘導点を割り当てる既存の手法が最適化性能を著しく損なうことを示す。 決定点過程の品質・多様性分解を活用し,boでの使用を想定した最初の誘導点割当戦略を提案する。 目的関数のグローバル不確実性を低減することだけを求める既存の手法とは異なり、このアプローチは、正確な最適化に必要な有望領域の局所的高忠実度モデリングを提供する。 より一般的に、提案するフレームワークはスパースモデルにおけるモデリング能力の割り当てを柔軟に行うことができ、従って下流のシーケンシャルな意思決定タスクに適していることを実証する。

Sparse Gaussian Processes are a key component of high-throughput Bayesian Optimisation (BO) loops; however, we show that existing methods for allocating their inducing points severely hamper optimisation performance. By exploiting the quality-diversity decomposition of Determinantal Point Processes, we propose the first inducing point allocation strategy designed specifically for use in BO. Unlike existing methods which seek only to reduce global uncertainty in the objective function, our approach provides the local high-fidelity modelling of promising regions required for precise optimisation. More generally, we demonstrate that our proposed framework provides a flexible way to allocate modelling capacity in sparse models and so is suitable broad range of downstream sequential decision making tasks.
翻訳日:2023-01-25 13:09:14 公開日:2023-01-24
# 一般化オブジェクト検索

Generalized Object Search ( http://arxiv.org/abs/2301.10121v1 )

ライセンス: Link先を確認
Kaiyu Zheng(参考訳) 将来の協調ロボットは、物体を見つける能力を持つ必要がある。 このような基本的なスキルとして、オブジェクト探索は最終的には、オブジェクト検出、SLAM、モーションプランニングのような、あらゆるロボットの既製の能力になることを期待している。 しかし、既存のアプローチでは、非現実的な妥協(例えば、問題を3dから2dに減らす)、アドホックな検索戦略、あるいは実際のロボットや環境をまたいで一般化していないシミュレーションのエンドツーエンドポリシーを学習しようとする。 この論文は、部分観測可能なマルコフ決定過程(POMDP)を用いて、人間の世界の構造(オクツリー、相関など)と人間とロボットの相互作用(空間言語など)を利用してオブジェクト探索をモデル化することで、一般化されたオブジェクト探索のための実用的で効果的なシステムを実現することができると主張している。 この議論を支援するために,物体間の空間的相関や,不明瞭な空間的言語(例えば「赤い車はチェイスバンクの背後にある」など)など,視野,閉塞,ノイズ,信頼できない検出器,不確実性を考慮した3次元環境における多目的探索法とシステムを開発した。 PyGame、AirSim、AI2-THORなどのシミュレータの評価に加えて、私は3Dで一般化されたオブジェクト探索のためのロボット非依存の環境認識システムを設計し、Boston Dynamics Spotロボット、Kinova MOVOロボット、Universal Robots UR5eロボットアームにデプロイし、異なる環境でオブジェクト探索を行う。 このシステムは、例えばspotロボットがキッチンエリアのソファの下に隠れているおもちゃの猫を1分以内に見つけることができる。 この論文はまた、対象探索文献を幅広く調査し、対象探索問題設定、方法、システムに分類論を提案する。

Future collaborative robots must be capable of finding objects. As such a fundamental skill, we expect object search to eventually become an off-the-shelf capability for any robot, similar to e.g., object detection, SLAM, and motion planning. However, existing approaches either make unrealistic compromises (e.g., reduce the problem from 3D to 2D), resort to ad-hoc, greedy search strategies, or attempt to learn end-to-end policies in simulation that are yet to generalize across real robots and environments. This thesis argues that through using Partially Observable Markov Decision Processes (POMDPs) to model object search while exploiting structures in the human world (e.g., octrees, correlations) and in human-robot interaction (e.g., spatial language), a practical and effective system for generalized object search can be achieved. In support of this argument, I develop methods and systems for (multi-)object search in 3D environments under uncertainty due to limited field of view, occlusion, noisy, unreliable detectors, spatial correlations between objects, and possibly ambiguous spatial language (e.g., "The red car is behind Chase Bank"). Besides evaluation in simulators such as PyGame, AirSim, and AI2-THOR, I design and implement a robot-independent, environment-agnostic system for generalized object search in 3D and deploy it on the Boston Dynamics Spot robot, the Kinova MOVO robot, and the Universal Robots UR5e robotic arm, to perform object search in different environments. The system enables, for example, a Spot robot to find a toy cat hidden underneath a couch in a kitchen area in under one minute. This thesis also broadly surveys the object search literature, proposing taxonomies in object search problem settings, methods and systems.
翻訳日:2023-01-25 13:08:59 公開日:2023-01-24
# 生涯強化学習におけるスケーラブル・ロバスト計画のための最小値等価部分モデル

Minimal Value-Equivalent Partial Models for Scalable and Robust Planning in Lifelong Reinforcement Learning ( http://arxiv.org/abs/2301.10119v1 )

ライセンス: Link先を確認
Safa Alver, Doina Precup(参考訳) 純粋な相互作用から環境の学習モデルは、生涯にわたる強化学習エージェントを構築する上で不可欠な要素であると考えられている。 しかし、モデルに基づく強化学習の一般的な実践は、最適な決定を下す上で重要であるかどうかに関わらず、エージェントの環境のあらゆる側面をモデル化するモデルを学ぶことである。 本稿では,このようなモデルが,生涯強化学習シナリオにおいてスケーラブルで堅牢な計画実行にはあまり適していないこと,環境の関連する側面のみをモデル化する新たなモデルを提案すること,これを「最小値等価部分モデル」と呼ぶ。 これらのモデルに対して形式的な定義を提供した後、そのようなモデルで計画を行うことのスケーラビリティの利点を示す理論的結果を提供し、理論結果を実証的に示す実験を行う。 次に,これらのモデルをどのようにディープラーニングアーキテクチャで学習するかに関する有用なヒューリスティックスを提供し,分散シフトや複合モデルエラーに頑健な計画を実現するために,このような方法で学習したモデルを実証的に示す。 全体として、理論的および実証的な結果から、生涯強化学習シナリオにおいて、最小の値等価部分モデルがスケーラブルで堅牢な計画を実行する上で大きなメリットをもたらすことを示唆しています。

Learning models of the environment from pure interaction is often considered an essential component of building lifelong reinforcement learning agents. However, the common practice in model-based reinforcement learning is to learn models that model every aspect of the agent's environment, regardless of whether they are important in coming up with optimal decisions or not. In this paper, we argue that such models are not particularly well-suited for performing scalable and robust planning in lifelong reinforcement learning scenarios and we propose new kinds of models that only model the relevant aspects of the environment, which we call "minimal value-equivalent partial models". After providing a formal definition for these models, we provide theoretical results demonstrating the scalability advantages of performing planning with such models and then perform experiments to empirically illustrate our theoretical results. Then, we provide some useful heuristics on how to learn these kinds of models with deep learning architectures and empirically demonstrate that models learned in such a way can allow for performing planning that is robust to distribution shifts and compounding model errors. Overall, both our theoretical and empirical results suggest that minimal value-equivalent partial models can provide significant benefits to performing scalable and robust planning in lifelong reinforcement learning scenarios.
翻訳日:2023-01-25 13:08:26 公開日:2023-01-24
# 木組プルーニングのためのロバスト仮説テスト

A Robust Hypothesis Test for Tree Ensemble Pruning ( http://arxiv.org/abs/2301.10115v1 )

ライセンス: Link先を確認
Daniel de Marchi, Matthew Welch, Michael Kosorok(参考訳) グラディエント強化決定木は、応用機械学習において最も一般的なアルゴリズムの一つである。 柔軟性と強力なツールで、スケーラブルで計算効率のよい方法で、任意の表データセットに堅牢に適合する。 これらのモデルに合わせて調整する最も重要なパラメータの1つは、信号と現在のモデルのノイズを区別するために使われる様々なペナルティ項である。 これらの罰則は実際は有効であるが、堅牢な理論的正当化に欠ける。 本稿では,勾配強化木アンサンブルの分割品質を理論的に正当化する新しい仮説を考案し,本手法を共通のペナルティ項に代えて使用することで,試料損失の大幅な低減をもたらすことを実証する。 さらに,本手法は木成長アルゴリズムの理論的に適正な停止条件を提供する。 また,本手法の革新的拡張をいくつか提示し,多種多様な新規木刈りアルゴリズムの扉を開く。

Gradient boosted decision trees are some of the most popular algorithms in applied machine learning. They are a flexible and powerful tool that can robustly fit to any tabular dataset in a scalable and computationally efficient way. One of the most critical parameters to tune when fitting these models are the various penalty terms used to distinguish signal from noise in the current model. These penalties are effective in practice, but are lacking in robust theoretical justifications. In this paper we develop and present a novel theoretically justified hypothesis test of split quality for gradient boosted tree ensembles and demonstrate that using this method instead of the common penalty terms leads to a significant reduction in out of sample loss. Additionally, this method provides a theoretically well-justified stopping condition for the tree growing algorithm. We also present several innovative extensions to the method, opening the door for a wide variety of novel tree pruning algorithms.
翻訳日:2023-01-25 13:08:03 公開日:2023-01-24
# その生徒はいつ先生を追い越しますか。 教師学生EMAによるフェデレーション半教師型学習

When does the student surpass the teacher? Federated Semi-supervised Learning with Teacher-Student EMA ( http://arxiv.org/abs/2301.10114v1 )

ライセンス: Link先を確認
Jessica Zhao, Sayan Ghosh, Akash Bharadwaj, Chih-Yao Ma(参考訳) 半教師付き学習(ssl)はコンピュータビジョンの領域で広く注目を集め、fixmatchのような有望なアプローチの開発につながった。 トレーニングデータが分散化され、クライアントデバイスに留まるシナリオでは、SSLはフェデレートラーニングのようなプライバシ対応のトレーニング技術に統合されなければならない。 我々は、フェデレーション画像分類の問題を検討し、既存のフェデレーションssl(fssl)アプローチによるパフォーマンスとプライバシの課題について検討する。 まず、最先端のFSSLアルゴリズムでさえ、クライアントのプライバシや、クライアントのステートレスや通信コストといった現実世界の制約を、自明に妥協することができることに留意する。 第2に,ema(exponential moving average)の更新を,パフォーマンスと通信コストのトレードオフによるフェデレーション設定に統合することが困難であることを観察した。 本稿では,EMA(Exponential moving Average)更新により,プライバシと一般化性能を向上させる新しいアプローチであるFedSwitchを提案する。 FedSwitchは、教師と学生の相互適応と、擬似ラベル生成のための適応的な切り替えという、2つの特徴を持つ半教師型EMAフレームワークを使用している。 提案手法は,フェデレーション画像分類の最先端を上回り,実世界の制約に適応できるとともに,通信コストの最小化による良好な一般化性能を実現する。

Semi-Supervised Learning (SSL) has received extensive attention in the domain of computer vision, leading to development of promising approaches such as FixMatch. In scenarios where training data is decentralized and resides on client devices, SSL must be integrated with privacy-aware training techniques such as Federated Learning. We consider the problem of federated image classification and study the performance and privacy challenges with existing federated SSL (FSSL) approaches. Firstly, we note that even state-of-the-art FSSL algorithms can trivially compromise client privacy and other real-world constraints such as client statelessness and communication cost. Secondly, we observe that it is challenging to integrate EMA (Exponential Moving Average) updates into the federated setting, which comes at a trade-off between performance and communication cost. We propose a novel approach FedSwitch, that improves privacy as well as generalization performance through Exponential Moving Average (EMA) updates. FedSwitch utilizes a federated semi-supervised teacher-student EMA framework with two features - local teacher adaptation and adaptive switching between teacher and student for pseudo-label generation. Our proposed approach outperforms the state-of-the-art on federated image classification, can be adapted to real-world constraints, and achieves good generalization performance with minimal communication cost overhead.
翻訳日:2023-01-25 13:07:49 公開日:2023-01-24
# polarair: オーバーザ・エア・フェデレート学習のための圧縮センシング方式

PolarAir: A Compressed Sensing Scheme for Over-the-Air Federated Learning ( http://arxiv.org/abs/2301.10110v1 )

ライセンス: Link先を確認
Michail Gkagkos, Krishna R. Narayanan, Jean-Francois Chamberland, Costas N. Georghiades(参考訳) 我々は,付加的な白色ガウス雑音チャネル上でのフェデレート学習構成において,ディープニューラルネットワークのトレーニングを可能にする手法を探究する。 目標は、polarairと呼ばれる、複雑さの低さと線形圧縮戦略を作ることで、ユーザ側の勾配を小さくして、送信に必要なチャネル数を減らすことにある。 提案手法は, 圧縮センシング技術のファミリーに属するが, 複数のアクセス技術を用いて, センサマトリックスとリカバリ手順を構築する。 シミュレーションにより、圧縮せずに勾配を伝達するのに比べ、チャネルの使用量を30%程度削減できることが示された。 文献における他のスキームよりも提案されたスキームの主な利点は、その低時間複雑性である。 また, この圧縮スキームを圧縮センシングに基づいて構築する方法についての洞察を得るために, 学習過程における勾配更新の挙動と極性空気の性能について検討した。

We explore a scheme that enables the training of a deep neural network in a Federated Learning configuration over an additive white Gaussian noise channel. The goal is to create a low complexity, linear compression strategy, called PolarAir, that reduces the size of the gradient at the user side to lower the number of channel uses needed to transmit it. The suggested approach belongs to the family of compressed sensing techniques, yet it constructs the sensing matrix and the recovery procedure using multiple access techniques. Simulations show that it can reduce the number of channel uses by ~30% when compared to conveying the gradient without compression. The main advantage of the proposed scheme over other schemes in the literature is its low time complexity. We also investigate the behavior of gradient updates and the performance of PolarAir throughout the training process to obtain insight on how best to construct this compression scheme based on compressed sensing.
翻訳日:2023-01-25 13:07:24 公開日:2023-01-24
# ストーリーシェーピング - エージェントにストーリーによる人間的行動を教える

Story Shaping: Teaching Agents Human-like Behavior with Stories ( http://arxiv.org/abs/2301.10107v1 )

ライセンス: Link先を確認
Xiangyu Peng, Christopher Cui, Wei Zhou, Renee Jia, Mark Riedl(参考訳) 強化学習エージェントに対する報酬設計は、エージェントが世界に何らかの効果をもたらすことを望むだけでなく、その効果をどのように達成するかを気にする状況では困難である。 例えば、エージェントが常識の暗黙の理解に固執し、安全のためにどのように振る舞うかを好むか、インタラクティブなゲームで特定の役割を演じるか、といったことを望むかもしれません。 ストーリーテリングは、暗黙の手続き的な知識を伝えるためのモードである。 本稿では、強化学習エージェントが、タスクの達成方法に関する模範的な物語から暗黙の知識を推論し、現在の環境を推定されたストーリーワールドのそれに準拠した行動に本質的な報酬を与える手法であるストーリー・シェーピングを紹介する。 具体的には、ストーリーシェーピングは、観察から世界状態の知識グラフ表現を推論し、また、模範的なストーリーから知識グラフを推論する。 エージェントの推論された世界状態グラフと推定されたストーリー世界グラフとの類似性に基づいて本質的な報酬を生成する。 コモンセンス推論を必要とするテキストベースのゲームで実験を行い,仮想ゲームキャラクタとしてエージェントの振る舞いを形作る。

Reward design for reinforcement learning agents can be difficult in situations where one not only wants the agent to achieve some effect in the world but where one also cares about how that effect is achieved. For example, we might wish for an agent to adhere to a tacit understanding of commonsense, align itself to a preference for how to behave for purposes of safety, or taking on a particular role in an interactive game. Storytelling is a mode for communicating tacit procedural knowledge. We introduce a technique, Story Shaping, in which a reinforcement learning agent infers tacit knowledge from an exemplar story of how to accomplish a task and intrinsically rewards itself for performing actions that make its current environment adhere to that of the inferred story world. Specifically, Story Shaping infers a knowledge graph representation of the world state from observations, and also infers a knowledge graph from the exemplar story. An intrinsic reward is generated based on the similarity between the agent's inferred world state graph and the inferred story world graph. We conducted experiments in text-based games requiring commonsense reasoning and shaping the behaviors of agents as virtual game characters.
翻訳日:2023-01-25 13:07:10 公開日:2023-01-24
# 液体3heにおける動的性質とロートンモード減衰:自己整合モーメント法におけるab慣性研究

Dynamic properties and the roton mode attenuation in the liquid 3He: an ab initio study within the self-consistent method of moments ( http://arxiv.org/abs/2301.10103v1 )

ライセンス: Link先を確認
A.V. Filinov, J. Ara and I.M. Tkachenko(参考訳) 均一液体$^3$Heにおける密度密度動的構造因子と密度変動の固有値について, 新たな非摂動的アプローチを用いて検討した。 紹介されたモーメントの自己整合法は、スペクトル密度、2パラメータシャノン情報エントロピー最大化手順、およびシステム静的特性の重要な入力情報を提供するアブイニオパス積分モンテカルロ(PIMC)シミュレーションを含む最大9つの総和規則およびその他の正確な関係を導出する。 飽和蒸気圧における群励起の分散関係、モードのデクリメント、および^3$heの静的構造因子(ssf)の詳細な解析を行う。 結果は利用可能な実験データ~[1,2]と比較される。 この理論は、励起スペクトルの粒子-ホールセグメントにおけるロートン様特徴の明確なシグネチャを予測し、波数の範囲におけるロートンデクリメントを著しく減少させることで、波数を1.3$ a$^{-1}$ $\leq q\leq 2.2$ a$^{-1}$とする。 観察されたロートンモードは、粒子ホールバンドにおいてもよく定義された集団励起であり、しかし、強い減衰がある。 したがって、バルク液体$^3$heにおけるロートン様モードの存在は、他の強く相互作用する量子流体~[3]と同様に確認される。 スペクトルのフォノン分岐は、同じ実験データを達成するのと合理的に一致して研究される。 提案した組み合わせアプローチにより、幅広い物理パラメータおよび他の物理システムにおいて、システムの動的特性に関するab initioデータを生成することができる。

The density-density dynamic structure factor and the eigenmodes of density fluctuations in the uniform liquid $^3$He are studied using a novel non-perturbative approach. The introduced self-consistent method of moments invokes up to nine sum rules and other exact relations involving the spectral density, the two-parameter Shannon information entropy maximization procedure, and the ab initio path integral Monte Carlo (PIMC) simulations which provide crucial input information on the system static properties. Detailed analysis of the dispersion relations of collective excitations, the modes' decrements and the static structure factor (SSF) of $^3$He at the saturated vapor pressure is performed. The results are compared to available experimental data~[1,2]. Our theory predicts a clear signature of the roton-like feature in the particle-hole segment of the excitation spectrum with a significant reduction of the roton decrement in the range of wavenumbers $1.3$ A$^{-1}$ $\leq q\leq 2.2$ A$^{-1}$. The observed roton mode remains a well defined collective excitation even in the particle-hole band, where, however, it is strongly damped. Hence, the existence of the roton-like mode in the bulk liquid $^3$He is confirmed like in other strongly interacting quantum fluids~[3]. The phonon branch of the spectrum is also studied with a reasonable agreement with the same experimental data being achieved. The presented combined approach permits to produce ab initio data on the system dynamic characteristics in a wide range of physical parameters and for other physical systems.
翻訳日:2023-01-25 13:06:48 公開日:2023-01-24
# ワッフル鉄を用いた自動車点雲セマンティックセグメンテーション

Using a Waffle Iron for Automotive Point Cloud Semantic Segmentation ( http://arxiv.org/abs/2301.10100v1 )

ライセンス: Link先を確認
Gilles Puy, Alexandre Boulch, Renaud Marlet(参考訳) 自律運転データセットにおける点雲のセマンティックセグメンテーションには、広い視野で多数の点を処理できる技術が必要である。 今日、このタスクのために設計されたほとんどのディープネットワークは、メモリと計算負荷を減らすために3dスパース畳み込みを利用する。 最良の方法は、回転lidarサンプリングパターンの特異性を更に活用し、例えば円筒ボクセルや範囲画像(多点雲表現からの特徴融合)の性能をさらに向上させる。 対照的に、これらの特殊なツールなしで、うまく機能するポイントベースのバックボーンを構築できることを示します。 このバックボーンであるWaffleIronは、ジェネリックMPPと高密度な2D畳み込みに大きく依存しており、実装が容易で、調整が容易なパラメータがいくつか含まれている。 その単純さにもかかわらず、SemanticKITTIとnuScenesの実験は、WaffleIronがこれらの自律運転データセット用に設計された最良の方法と競合していることを示している。 したがって、WaffleIronは、疎い屋外点雲のセマンティックセグメンテーションのための、強力で実装が容易なベースラインである。

Semantic segmentation of point clouds in autonomous driving datasets requires techniques that can process large numbers of points over large field of views. Today, most deep networks designed for this task exploit 3D sparse convolutions to reduce memory and computational loads. The best methods then further exploit specificities of rotating lidar sampling patterns to further improve the performance, e.g., cylindrical voxels, or range images (for feature fusion from multiple point cloud representations). In contrast, we show that one can build a well-performing point-based backbone free of these specialized tools. This backbone, WaffleIron, relies heavily on generic MLPs and dense 2D convolutions, making it easy to implement, and contains just a few parameters easy to tune. Despite its simplicity, our experiments on SemanticKITTI and nuScenes show that WaffleIron competes with the best methods designed specifically for these autonomous driving datasets. Hence, WaffleIron is a strong, easy-to-implement, baseline for semantic segmentation of sparse outdoor point clouds.
翻訳日:2023-01-25 13:06:20 公開日:2023-01-24
# 電気駆動スピン量子ビットと共振器の縦結合

Longitudinal coupling between electrically driven spin-qubits and a resonator ( http://arxiv.org/abs/2301.10163v1 )

ライセンス: Link先を確認
Sarath Prem, Marcin M. Wysoki\'nski and Mircea Trif(参考訳) 半導性スピン量子ビットの成功の核心は、スピン軌道相互作用によって、それらを電気的に操作する能力である。 しかし、ほとんどの実装ではスピン量子ビットを定義するために外部磁場を必要とするため、様々な電荷ノイズ機構が活性化される。 ここでは、電場によって周期的に駆動されマイクロ波共振器に結合されるゼロ磁場における量子ドットに閉じ込められたスピン量子ビットについて研究する。 フロケ理論を用いて、運転のない最低縮退スピン状態に由来するよく定義されたフロケスピン量子ビットを同定する。 Floquetスピンキュービットと共振器との間の横方向結合と縦方向結合は、駆動周波数を変化させることで選択的に活性化できる。 これらの結合によって高速な量子ビット読み出しと2量子CPHASEゲートの実装が容易になることを示す。 最後に、スピン-光子結合はスピン-軌道相互作用によって与えられる状態の非アベリア幾何学に由来することを実証するために断熱摂動理論を用い、これらの知見を一般化し、幅広い固体スピン量子ビットに適用できることを示した。

At the core of the semiconducting spin qubits success is the ability to manipulate them electrically, enabled by the spin-orbit interactions. However, most implementations require external magnetic fields to define the spin qubit, which in turn activate various charge noise mechanisms. Here we study spin qubits confined in quantum dots at zero magnetic fields, that are driven periodically by electrical fields and are coupled to a microwave resonator. Using Floquet theory, we identify a well-defined Floquet spin-qubit originating from the lowest degenerate spin states in the absence of driving. We find both transverse and longitudinal couplings between the Floquet spin qubit and the resonator, which can be selectively activated by modifying the driving frequency. We show how these couplings can facilitate fast qubit readout and the implementation of a two-qubit CPHASE gate. Finally, we use adiabatic perturbation theory to demonstrate that the spin-photon couplings originate from the non-Abelian geometry of states endowed by the spin-orbit interactions, rendering these findings general and applicable to a wide range of solid-state spin qubits.
翻訳日:2023-01-25 12:58:57 公開日:2023-01-24
# 交互群同変ニューラルネットワークのゼリーフィッシュ特性

How Jellyfish Characterise Alternating Group Equivariant Neural Networks ( http://arxiv.org/abs/2301.10152v1 )

ライセンス: Link先を確認
Edward Pearce-Crump(参考訳) 我々は、層が$\mathbb{R}^{n}$のテンソルパワーを持つ任意の交互群(A_n$)同変ニューラルネットワークの完全な特徴付けを提供する。 特に、学習可能で線型で$A_n$-同変な層函数に対する行列の基底は、そのようなテンソルパワー空間の間の標準基底$\mathbb{R}^{n}$である。 また,本手法が局所対称性に同値なニューラルネットワークの構築にどのように一般化するかについても述べる。

We provide a full characterisation of all of the possible alternating group ($A_n$) equivariant neural networks whose layers are some tensor power of $\mathbb{R}^{n}$. In particular, we find a basis of matrices for the learnable, linear, $A_n$-equivariant layer functions between such tensor power spaces in the standard basis of $\mathbb{R}^{n}$. We also describe how our approach generalises to the construction of neural networks that are equivariant to local symmetries.
翻訳日:2023-01-25 12:58:19 公開日:2023-01-24
# 六方晶窒化ホウ素単一光子源の時間依存性マンデルQパラメータ解析

Time-dependent Mandel Q parameter analysis for a hexagonal boron nitride single photon source ( http://arxiv.org/abs/2301.10146v1 )

ライセンス: Link先を確認
Callum Jones, Jolly Xavier, Samir Vartabi Kashanian, Minh Nguyen, Igor Aharonovich, Frank Vollmer(参考訳) 時間依存マンデルQパラメータ Q(T) は、積分時間の関数として光源に対する光子数分散の測定値を提供する。 ここでは、六方晶窒化ホウ素(hBN)の量子エミッタからの単一光子放出をQ(T)を用いて特徴づける。 パルス励起下では負のqパラメータが測定され、100 nsの積分時間で光子反束を示す。 より大きな積分時間 q は正であり、フォトン統計量は超ポアソニアンとなり、3段階エミッタのモンテカルロシミュレーションと比較し、準安定シェルビング状態の影響と一致することを示した。 我々は、hBN単一光子源の技術的応用をめざして、Q(T)が単一光子放出の強度安定性に関する貴重な情報を提供することを提案する。 これは、一般的な$g^{(2)}({\tau})$関数に加えて、hBNエミッターの完全な特徴付けにも有用である。

The time-dependent Mandel Q parameter, Q(T), provides a measure of photon number variance for a light source as a function of integration time. Here, we use Q(T) to characterise single photon emission from a quantum emitter in hexagonal boron nitride (hBN). Under pulsed excitation a negative Q parameter was measured, indicating photon antibunching at an integration time of 100 ns. For larger integration times Q is positive and the photon statistics become super-Poissonian, and we show by comparison with a Monte Carlo simulation for a three-level emitter that this is consistent with the effect of a metastable shelving state. Looking towards technological applications for hBN single photon sources, we propose that Q(T) provides valuable information on the intensity stability of single photon emission. This is useful in addition to the commonly used $g^{(2)}({\tau})$ function for the complete characterisation of a hBN emitter.
翻訳日:2023-01-25 12:58:11 公開日:2023-01-24
# Semantic Scholar Open Data Platform

The Semantic Scholar Open Data Platform ( http://arxiv.org/abs/2301.10140v1 )

ライセンス: Link先を確認
Rodney Kinney, Chloe Anastasiades, Russell Authur, Iz Beltagy, Jonathan Bragg, Alexandra Buraczynski, Isabel Cachola, Stefan Candra, Yoganand Chandrasekhar, Arman Cohan, Miles Crawford, Doug Downey, Jason Dunkelberger, Oren Etzioni, Rob Evans, Sergey Feldman, Joseph Gorney, David Graham, Fangzhou Hu, Regan Huff, Daniel King, Sebastian Kohlmeier, Bailey Kuehl, Michael Langan, Daniel Lin, Haokun Liu, Kyle Lo, Jaron Lochner, Kelsey MacMillan, Tyler Murray, Chris Newell, Smita Rao, Shaurya Rohatgi, Paul Sayre, Zejiang Shen, Amanpreet Singh, Luca Soldaini, Shivashankar Subramanian, Amber Tanaka, Alex D. Wade, Linda Wagner, Lucy Lu Wang, Chris Wilhelm, Caroline Wu, Jiangjiang Yang, Angele Zamarron, Madeleine Van Zuylen, Daniel S. Weld(参考訳) 科学的なアウトプットの大量さは、科学者が分野の発展に追随するための自動化ツールの緊急ニーズを生み出している。 セマンティック・スカラー(Semantic Scholar、S2)は、学術文献の発見と理解を支援することを目的としたオープンデータプラットフォームおよびウェブサイトである。 我々は、学術的なPDFコンテンツ抽出と自動知識グラフ構築のための最先端技術を用いて、現在までに最大規模のオープンサイエンス文献グラフであるセマンティックスカラー学術グラフを構築し、200M以上の論文、80M以上の著者、550M以上の論文執筆者、2.4B以上の引用エッジを構築した。 このグラフには構造解析されたテキスト、自然言語要約、ベクター埋め込みといった高度な意味的特徴が含まれている。 本稿では,s2データ処理パイプラインのコンポーネントと,プラットフォームが提供する関連するapiについて述べる。 新しいデータの追加や既存のサービスの改善を反映して、この生きたドキュメントを更新します。

The volume of scientific output is creating an urgent need for automated tools to help scientists keep up with developments in their field. Semantic Scholar (S2) is an open data platform and website aimed at accelerating science by helping scholars discover and understand scientific literature. We combine public and proprietary data sources using state-of-the-art techniques for scholarly PDF content extraction and automatic knowledge graph construction to build the Semantic Scholar Academic Graph, the largest open scientific literature graph to-date, with 200M+ papers, 80M+ authors, 550M+ paper-authorship edges, and 2.4B+ citation edges. The graph includes advanced semantic features such as structurally parsed text, natural language summaries, and vector embeddings. In this paper, we describe the components of the S2 data processing pipeline and the associated APIs offered by the platform. We will update this living document to reflect changes as we add new data offerings and improve existing services.
翻訳日:2023-01-25 12:57:54 公開日:2023-01-24
# 相互作用生成のための二部グラフ拡散モデル

Bipartite Graph Diffusion Model for Human Interaction Generation ( http://arxiv.org/abs/2301.10134v1 )

ライセンス: Link先を確認
Baptiste Chopin, Hao Tang, Mohamed Daoudi(参考訳) 人間の自然な動きの相互作用の生成は、コンピュータビジョンとコンピュータアニメーションのホットトピックである。 人間の動作の相互作用の多様性のため、これは難しい課題である。 拡散モデルは、他の領域ですでに顕著な生成能力を示しており、このタスクのよい候補である。 本稿では,バイパートグラフ拡散法(BiGraphDiff)を提案する。 具体的には、相互作用中の骨格ノード間の固有の幾何学的制約をモデル化するために二成分ノード集合が構成される。 相互作用グラフ拡散モデルは変換器ベースであり、いくつかの最先端の動作法を組み合わせる。 提案手法は,人間のインタラクション生成タスクの先行ベンチマークにおいて,最新の結果が得られることを示す。

The generation of natural human motion interactions is a hot topic in computer vision and computer animation. It is a challenging task due to the diversity of possible human motion interactions. Diffusion models, which have already shown remarkable generative capabilities in other domains, are a good candidate for this task. In this paper, we introduce a novel bipartite graph diffusion method (BiGraphDiff) to generate human motion interactions between two persons. Specifically, bipartite node sets are constructed to model the inherent geometric constraints between skeleton nodes during interactions. The interaction graph diffusion model is transformer-based, combining some state-of-the-art motion methods. We show that the proposed achieves new state-of-the-art results on leading benchmarks for the human interaction generation task.
翻訳日:2023-01-25 12:57:35 公開日:2023-01-24
# 記号を読む:勾配Descentのハイパーパラメータ初期化への不変性に向けて

Read the Signs: Towards Invariance to Gradient Descent's Hyperparameter Initialization ( http://arxiv.org/abs/2301.10133v1 )

ライセンス: Link先を確認
Davood Wadi, Marc Fredette, Sylvain Senecal(参考訳) そこで我々は,学習率である$\alpha$をローカライズした最適化メタアルゴリズムであるactivelrを提案する。 このサイン意識アルゴリズムは、前のステップから現在のステップまで、各パラメータの更新が大きすぎるか小さすぎるかを認識し、それに応じて$\alpha$を調整する。 我々は,最近発表された勾配降下オプティマイザ(sgd with momentum, adamw, radam, adabelief)のアクティブバージョン(ours)を実装した。 ImageNet, CIFAR-10, WikiText-103, WikiText-2, PASCAL VOCにおけるResNetやTransformersなどの異なるモデルアーキテクチャを用いた実験により, 汎用性とトレーニングセットの適合性が向上し, テストオプティマイザのアクティブ変種に対するトレーニング時間が短縮された。 また,これらのオプティマイザのアクティブバリアントを初期学習率の異なる値に頑健性を示した。 さらに、大きなミニバッチサイズを使用することによる悪影響を緩和する。 したがって、activelrは、非常に長い時間と計算コストを必要とする最もよく調整された2つのハイパーパラメータのハイパーパラメータ探索の必要性を軽減する。 私たちはAI研究者や実践者たちに、より高速なトレーニング、より汎用性の向上、深層ニューラルネットワークのトレーニングにおけるカーボンフットプリントの削減のために、彼らの選択する最適化のActive variantを使用するように勧めています。

We propose ActiveLR, an optimization meta algorithm that localizes the learning rate, $\alpha$, and adapts them at each epoch according to whether the gradient at each epoch changes sign or not. This sign-conscious algorithm is aware of whether from the previous step to the current one the update of each parameter has been too large or too small and adjusts the $\alpha$ accordingly. We implement the Active version (ours) of widely used and recently published gradient descent optimizers, namely SGD with momentum, AdamW, RAdam, and AdaBelief. Our experiments on ImageNet, CIFAR-10, WikiText-103, WikiText-2, and PASCAL VOC using different model architectures, such as ResNet and Transformers, show an increase in generalizability and training set fit, and decrease in training time for the Active variants of the tested optimizers. The results also show robustness of the Active variant of these optimizers to different values of the initial learning rate. Furthermore, the detrimental effects of using large mini-batch sizes are mitigated. ActiveLR, thus, alleviates the need for hyper-parameter search for two of the most commonly tuned hyper-parameters that require heavy time and computational costs to pick. We encourage AI researchers and practitioners to use the Active variant of their optimizer of choice for faster training, better generalizability, and reducing carbon footprint of training deep neural networks.
翻訳日:2023-01-25 12:57:26 公開日:2023-01-24
# qudit脱分極チャネルの次元による量子容量減少の超加法的効果

The superadditivity effects of quantum capacity decrease with the dimension for qudit depolarizing channels ( http://arxiv.org/abs/2301.10132v1 )

ライセンス: Link先を確認
Josu Etxezarreta Martinez, Antonio deMarti iOlius and Pedro M. Crespo(参考訳) 量子チャネル容量 (quantum channel capacity) は、ノイズを受ける際に量子情報をどのように送信または修正できるかを理解するための基本的な量である。 しかし、量子チャネルコヒーレント情報は全てのチャネルに対して加法的ではないため、そのような量を計算する方法は一般には知られていない。 これは超加法的現象(superadditivity)と呼ばれ、n$チャンネルの正規化コヒーレント情報が1ショットコヒーレント情報を超えるという事実を指す。 本稿では,Qudit脱分極チャネルの量子容量の利得が考慮される系の次元とどのように関係するかを考察する。 我々は、そのようなチャネルの族に対する次元の関数として、可能な超定型効果が減少することを示すために、非閉包境界に基づく議論を利用する。 さらに、qudit脱分極チャネルの容量が$d\rightarrow\infty$のコヒーレント情報と一致することを証明している。 偏極ノイズを経験する高次元キューディットを考えると、チャネルのコヒーレント情報は達成可能な速度であるだけでなく、本質的に任意の量子ブロック符号に対して可能な最大速度である。

Quantum channel capacity is a fundamental quantity in order to understand how good can quantum information be transmitted or corrected when subjected to noise. However, it is generally not known how to compute such quantities, since the quantum channel coherent information is not additive for all channels, implying that it must be maximized over an unbounded number of channel uses. This leads to the phenomenon known as superadditivity, which refers to the fact that the regularized coherent information of $n$ channel uses exceeds one-shot coherent information. In this letter, we study how the gain in quantum capacity of qudit depolarizing channels relates to the dimension of the systems considered. We make use of an argument based on the no-cloning bound in order to proof that the possible superaditive effects decrease as a function of the dimension for such family of channels. In addition, we prove that the capacity of the qudit depolarizing channel coincides with the coherent information when $d\rightarrow\infty$. We conclude that when high dimensional qudits experiencing depolarizing noise are considered, the coherent information of the channel is not only an achievable rate but essentially the maximum possible rate for any quantum block code.
翻訳日:2023-01-25 12:56:56 公開日:2023-01-24
# Overlap-ADAPT-VQE: Overlap-Guided Compact Ans\atzeによる量子コンピュータの実用量子化学

Overlap-ADAPT-VQE: Practical Quantum Chemistry on Quantum Computers via Overlap-Guided Compact Ans\"atze ( http://arxiv.org/abs/2301.10196v1 )

ライセンス: Link先を確認
C\'esar Feniou, Muhammad Hassan, Diata Traor\'e, Emmanuel Giner, Yvon Maday, Jean-Philip Piquemal(参考訳) ADAPT-VQEは、短期量子コンピュータ上の量子化学系のハイブリッド量子古典シミュレーションのための堅牢なアルゴリズムである。 その反復過程は基底状態エネルギーに体系的に到達するが、ADAPT-VQEは局所的なエネルギーミニマに敏感であり、過度にパラメータ化された ans\atze をもたらす。 我々はOverlap-ADAPT-VQEを導入し、電子相関を既に捉えている任意の中間目標波動関数との重なりを最大化し、波動関数を増大させる。 局所的ミニマに絡み合ったエネルギー環境におけるアンサッツの構築を避けることで、オーバーラップ適応vqeは、新しい適応手順の高精度初期化に適した超コンパクトなans\"atzeを生成する。 adapt-vqeに対する顕著な利点は、回路深度の大幅な節約を含む強相関系において観察される。 この圧縮戦略は、精度の高いSCI(Selected-Configuration Interaction)古典的標的波動関数で初期化することもできるため、より大規模なシステムの化学的に正確なシミュレーションの道を開き、量子コンピューティングの力によって古典的量子化学を決定的に超越するという約束を強化する。

ADAPT-VQE is a robust algorithm for hybrid quantum-classical simulations of quantum chemical systems on near-term quantum computers. While its iterative process systematically reaches the ground state energy, ADAPT-VQE is sensitive to local energy minima, leading to over-parameterized ans\"atze. We introduce the Overlap-ADAPT-VQE to grow wave-functions by maximizing their overlap with any intermediate target wave-function that already captures some electronic correlation. By avoiding building the ansatz in the energy landscape strewn with local minima, the Overlap-ADAPT-VQE produces ultra-compact ans\"atze suitable for high-accuracy initializations of a new ADAPT procedure. Spectacular advantages over ADAPT-VQE are observed for strongly correlated systems including massive savings in circuit depth. Since this compression strategy can also be initialized with accurate Selected-Configuration Interaction (SCI) classical target wave-functions, it paves the way for chemically accurate simulations of larger systems, and strengthens the promise of decisively surpassing classical quantum chemistry through the power of quantum computing.
翻訳日:2023-01-25 12:51:14 公開日:2023-01-24
# WEASEL 2.0 - 高速・高精度・メモリ制約時系列分類のためのランダム拡張辞書変換

WEASEL 2.0 -- A Random Dilated Dictionary Transform for Fast, Accurate and Memory Constrained Time Series Classification ( http://arxiv.org/abs/2301.10194v1 )

ライセンス: Link先を確認
Patrick Sch\"afer and Ulf Leser(参考訳) 時系列 (time series) は、時系列的に順序付けられた実値の列である。 時系列分類 (time series classification, tsc) は、事前定義されたクラスの集合の1つに時系列を割り当てるタスクである。 TSCの辞書ベースの手法は、時系列中の特定のパターンの頻度を数えることに依存しており、現在最も正確なTSCアンサンブルの重要な構成要素である。 初期の辞書ベースの手法の1つがWEASELであり、これは当時非常に高速でSotAの結果を得た。 しかし、他の手法では速度と精度の両方で上回っている。 さらに、その設計は予測できないほど大きなメモリフットプリントをもたらし、多くのアプリケーションに適用できない。 本稿では, WEASEL 2.0について述べる。WEASEL 2.0は, TSCの2つの最近の進歩に基づくWEASELの完全オーバーホールである。 これら2つの技術により、WEASEL 2.0は固定サイズのメモリフットプリントで動作すると同時に、精度を向上させることができる。 UCRベンチマークセットの他の15のSotAメソッドと比較すると、WEASEL 2.0は他の辞書メソッドよりもかなり正確であり、現在の最良のメソッドよりもかなり悪いものではない。 実際、すべてのデータセットに対して最も高い中央値の精度を達成し、12の問題クラスのうち5つで最高のパフォーマンスを発揮する。 したがって、WEASEL 2.0 は現在の TSC の代替であり、将来のアンサンブルに対する潜在的に興味深いインプットであると信じている。

A time series is a sequence of sequentially ordered real values in time. Time series classification (TSC) is the task of assigning a time series to one of a set of predefined classes, usually based on a model learned from examples. Dictionary-based methods for TSC rely on counting the frequency of certain patterns in time series and are important components of the currently most accurate TSC ensembles. One of the early dictionary-based methods was WEASEL, which at its time achieved SotA results while also being very fast. However, it is outperformed both in terms of speed and accuracy by other methods. Furthermore, its design leads to an unpredictably large memory footprint, making it inapplicable for many applications. In this paper, we present WEASEL 2.0, a complete overhaul of WEASEL based on two recent advancements in TSC: Dilation and ensembling of randomized hyper-parameter settings. These two techniques allow WEASEL 2.0 to work with a fixed-size memory footprint while at the same time improving accuracy. Compared to 15 other SotA methods on the UCR benchmark set, WEASEL 2.0 is significantly more accurate than other dictionary methods and not significantly worse than the currently best methods. Actually, it achieves the highest median accuracy over all data sets, and it performs best in 5 out of 12 problem classes. We thus believe that WEASEL 2.0 is a viable alternative for current TSC and also a potentially interesting input for future ensembles.
翻訳日:2023-01-25 12:50:49 公開日:2023-01-24
# 関数理論の精製と関連する基礎

Refining and relating fundamentals of functional theory ( http://arxiv.org/abs/2301.10193v1 )

ライセンス: Link先を確認
Julia Liebert, Adam Yanis Chaou, Christian Schilling(参考訳) 1粒子還元密度行列汎関数理論 (1RDMFT) の基礎を前進させるために, 基礎的特徴と基礎概念を洗練・関連づける。 我々は、1RDMFTの範囲を簡潔に定義し、その可能な自然変数を特定し、対称性をどのように活用するかを説明する。 特に、時間反転対称性を持つ系に対して、なぜ6つの同値な普遍汎函数が存在するのかを説明し、それらの間の簡潔な関係を証明し、$v$-表現可能性の重要な概念は変数のスコープと選択に相対的であると結論付ける。 これらの基本的な概念はすべて包括的に議論され、ハバード・ダイマーとその任意の対相互作用への一般化のために説明される。 このため、実数値ヒルベルト空間と複素数値ヒルベルト空間の両方に関して、純粋かつアンサンブル汎函数を解析的に導出する。 種々の関数の比較により、基礎となる$v$-representability問題を解析的に解くことができ、その解の対の相互作用への依存性が示される。 興味深いことに、各普遍汎関数の勾配は常に領域の境界上で反動的に発散する。 その意味で、この鍵となる発見は、最近発見され、翻訳的不変な1バンド格子モデルの文脈で証明されたフェルミオン交換力の普遍的な性質を強調する。

To advance the foundation of one-particle reduced density matrix functional theory (1RDMFT) we refine and relate some of its fundamental features and underlying concepts. We define by concise means the scope of a 1RDMFT, identify its possible natural variables and explain how symmetries could be exploited. In particular, for systems with time-reversal symmetry, we explain why there exist six equivalent universal functionals, prove concise relations among them and conclude that the important notion of $v$-representability is relative to the scope and choice of variable. All these fundamental concepts are then comprehensively discussed and illustrated for the Hubbard dimer and its generalization to arbitrary pair interactions $W$. For this, we derive by analytical means the pure and ensemble functionals with respect to both the real- and complex-valued Hilbert space. The comparison of various functionals allows us to solve the underlying $v$-representability problems analytically and the dependence of its solution on the pair interaction is demonstrated. Intriguingly, the gradient of each universal functional is found to always diverge repulsively on the boundary of the domain. In that sense, this key finding emphasizes the universal character of the fermionic exchange force, recently discovered and proven in the context of translationally-invariant one-band lattice models.
翻訳日:2023-01-25 12:50:24 公開日:2023-01-24
# 量子センシングのための最適窒素濃度ナノダイヤモンド

Nanodiamonds with the Optimal Nitrogen Concentration for Quantum Sensing ( http://arxiv.org/abs/2301.10188v1 )

ライセンス: Link先を確認
James E March, Benjamin D Wood, Colin J Stephen, Soumen Mandal, Andrew M Edmonds, Daniel J Twitchen, Matthew L Markham, Oliver A Williams, Gavin W Morley(参考訳) ダイヤモンド中の負電荷窒素空孔中心(NV$^-$)は、様々なセンシング用途で利用されてきた。 室温での長いスピンコヒーレンスと緩和時間(t_2^*$, $t_2$, $t_1$)は、しばしば感度を制限するため、このために重要である。 ナノダイヤモンドにnv$^-$センターを使用することで、細胞内センシングのようなバルクダイヤモンドにアクセスできない環境での操作が可能になる。 100nm以下のダイヤモンド中のNV$^-$中心を見つけるには、かなり高い窒素濃度を用いる必要があるが、長いスピンコヒーレンス時間を達成するために、研究者は低窒素濃度を目指してきた。 ここでは, バルクダイヤモンドを用いたnv$^-$センシングにおいて従来同定されていた濃度範囲である1~10ppmの窒素を含む出発物質からナノダイヤモンドを合成することにより, 両方の目的を同時に達成できることを示す。 異方性精製多結晶ナノダイヤモンドにおけるNV$^-$中心の室温における長いスピンコヒーレンスと緩和時間について報告する。 スピンロックパルスシーケンスを用いて、スピンコヒーレンス時間である$T_2$, up 786 $\pm$ 200 $\mu$sを観測する。 また、$t_2^*$を2.06$\pm$ 0.24$\mu$sと$t_1$ timesから2.0$\pm$ 0.4 msまで測定した。

The negatively charged nitrogen-vacancy centre (NV$^-$) in diamond has been utilized in a wide variety of sensing applications. The centre's long spin coherence and relaxation times ($T_2^*$, $T_2$ and $T_1$) at room temperature are crucial to this, as they often limit sensitivity. Using NV$^-$ centres in nanodiamonds allows for operations in environments inaccessible to bulk diamond, such as intracellular sensing. Finding NV$^-$ centres in diamonds smaller than 100 nm requires the use of fairly high nitrogen concentrations, while to achieve long spin coherence times, researchers have aimed for low nitrogen concentrations. Here we show that both aims can be achieved together by choosing to make the nanodiamonds from a starting material containing 1-10 ppm of nitrogen, a concentration range previously identified for NV$^-$ centre sensing with bulk diamond, but not yet tested for nanodiamonds. We report long spin coherence and relaxation times at room temperature for single NV$^-$ centres in isotopically-purified polycrystalline ball-milled nanodiamonds. Using a spin-locking pulse sequence, we observe spin coherence times, $T_2$, up 786 $\pm$ 200 $\mu$s. We also measure $T_2^*$ times up to 2.06 $\pm$ 0.24 $\mu$s and $T_1$ times up to 2.0 $\pm$ 0.4 ms. Producing the diamonds by ball-milling allows for the efficient production of large masses of nanodiamond.
翻訳日:2023-01-25 12:50:01 公開日:2023-01-24
# 造影シャープガンを用いた病理組織像合成

Enhanced Sharp-GAN For Histopathology Image Synthesis ( http://arxiv.org/abs/2301.10187v1 )

ライセンス: Link先を確認
Sujata Butte, Haotian Wang, Aleksandar Vakanski, Min Xian(参考訳) 病理組織学画像合成は、正確ながん検出のためのディープラーニングアプローチのトレーニングにおいて、データ不足の問題に対処することを目的としている。 しかし、既存の手法では正確な核境界を持ち、アーティファクトが少ない現実的なイメージを作成するのに苦労しています。 そこで本研究では,核トポロジーと輪郭規則化を用いて合成画像の品質を向上させる新しい手法を提案する。 提案手法は核の骨格地図を用いて核トポロジーを統合し、接触核を分離する。 損失関数では、輪郭画素と非輪郭画素のコントラストを高め、輪郭画素間の類似度を高める2つの新しい輪郭正規化項を提案する。 画像品質指標と下流タスク(核セグメンテーション)を用いた2つのデータセットに対する提案手法の評価を行った。 提案手法は、Sharp-GANを2つのデータセット上の4つの画像品質指標すべてで上回る。 提案手法の合成画像からトレーニングへの統合により,TNBCデータセットの最先端セグメンテーション性能と検出品質(DQ),セグメンテーション品質(SQ),汎光学品質(PQ),集約ジャカード指数(AJI)はそれぞれ0.855,0.863,0.691,0.683となる。

Histopathology image synthesis aims to address the data shortage issue in training deep learning approaches for accurate cancer detection. However, existing methods struggle to produce realistic images that have accurate nuclei boundaries and less artifacts, which limits the application in downstream tasks. To address the challenges, we propose a novel approach that enhances the quality of synthetic images by using nuclei topology and contour regularization. The proposed approach uses the skeleton map of nuclei to integrate nuclei topology and separate touching nuclei. In the loss function, we propose two new contour regularization terms that enhance the contrast between contour and non-contour pixels and increase the similarity between contour pixels. We evaluate the proposed approach on the two datasets using image quality metrics and a downstream task (nuclei segmentation). The proposed approach outperforms Sharp-GAN in all four image quality metrics on two datasets. By integrating 6k synthetic images from the proposed approach into training, a nuclei segmentation model achieves the state-of-the-art segmentation performance on TNBC dataset and its detection quality (DQ), segmentation quality (SQ), panoptic quality (PQ), and aggregated Jaccard index (AJI) is 0.855, 0.863, 0.691, and 0.683, respectively.
翻訳日:2023-01-25 12:49:30 公開日:2023-01-24
# vihos:ヘイトスピーチはベトナム語を検知する

ViHOS: Hate Speech Spans Detection for Vietnamese ( http://arxiv.org/abs/2301.10186v1 )

ライセンス: Link先を確認
Phu Gia Hoang, Canh Duc Luu, Khanh Quoc Tran, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen(参考訳) 他のユーザーに向けられた憎しみと攻撃的な言葉の増加は、ソーシャルネットワークプラットフォームの利用の増加による悪影響の1つだ。 これにより、人間のモデレーターが分類システムによってフィルタリングされたタグ付きコメントをレビューすることが困難になる可能性がある。 この問題に対処するために、11kコメントに26kのスパンを含む最初の人間アノテーション付きコーパスであるViHOS(Vietnamese Hate and Offensive Spans)データセットを提示する。 ベトナムのコメントにヘイトフルと攻撃的なスパンの定義や、詳細なガイドラインも提供します。 さらに,様々な最先端モデルを用いて実験を行う。 特に、xlm-r$_{large}$は、単一スパン検出および全スパン検出で最高のf1-scoreを達成し、phobert$_{large}$は複数のスパン検出で最高値を得た。 最後に,誤り解析は,今後の研究のためにデータ中の特定の種類のスパンを検出することの難しさを示す。 Disclaimer: この論文には、挑発的、攻撃的、あるいは虐待的と考えられる、真のコメントが含まれています。

The rise in hateful and offensive language directed at other users is one of the adverse side effects of the increased use of social networking platforms. This could make it difficult for human moderators to review tagged comments filtered by classification systems. To help address this issue, we present the ViHOS (Vietnamese Hate and Offensive Spans) dataset, the first human-annotated corpus containing 26k spans on 11k comments. We also provide definitions of hateful and offensive spans in Vietnamese comments as well as detailed annotation guidelines. Besides, we conduct experiments with various state-of-the-art models. Specifically, XLM-R$_{Large}$ achieved the best F1-scores in Single span detection and All spans detection, while PhoBERT$_{Large}$ obtained the highest in Multiple spans detection. Finally, our error analysis demonstrates the difficulties in detecting specific types of spans in our data for future research. Disclaimer: This paper contains real comments that could be considered profane, offensive, or abusive.
翻訳日:2023-01-25 12:49:04 公開日:2023-01-24
# メソ構造:異なる時間周波数解析におけるスペクトル損失を超えて

Mesostructures: Beyond Spectrogram Loss in Differentiable Time-Frequency Analysis ( http://arxiv.org/abs/2301.10183v1 )

ライセンス: Link先を確認
Cyrus Vahidi, Han Han, Changhong Wang, Mathieu Lagrange, Gy\"orgy Fazekas and Vincent Lostanlen(参考訳) コンピュータミュージシャンはメソ構造を、波型の微細構造と音楽形式のマクロ構造の間の調音の中間レベルと呼ぶ。 メソ構造にはメロディ、アルペジオ、シンコペーション、ポリフォニック・グループ化、テクスチャコントラストなどがある。 音楽表現における中心的役割にもかかわらず、深層学習では限られた注目を集めている。 現在、オートエンコーダとニューラルオーディオシンセサイザーは、微小構造のスケールでのみ訓練され、評価されている。 本稿では、微分可能なアルペジエータと時間周波数散乱によるメソ構造音響モデリングの問題を定式化し、解決する。 時間周波数散乱がメソ構造を管理する合成パラメータ間の類似性の微分可能なモデルであることを示す。 短時間のスペクトル距離の感度を時間アライメントに暴露することにより、局所スペクトルとスペクトル時間変調の両方のレベルでの類似性の時間不変かつ多スケールの微分可能時間周波数モデルの必要性を動機付ける。

Computer musicians refer to mesostructures as the intermediate levels of articulation between the microstructure of waveshapes and the macrostructure of musical forms. Examples of mesostructures include melody, arpeggios, syncopation, polyphonic grouping, and textural contrast. Despite their central role in musical expression, they have received limited attention in deep learning. Currently, autoencoders and neural audio synthesizers are only trained and evaluated at the scale of microstructure: i.e., local amplitude variations up to 100 milliseconds or so. In this paper, we formulate and address the problem of mesostructural audio modeling via a composition of a differentiable arpeggiator and time-frequency scattering. We empirically demonstrate that time--frequency scattering serves as a differentiable model of similarity between synthesis parameters that govern mesostructure. By exposing the sensitivity of short-time spectral distances to time alignment, we motivate the need for a time-invariant and multiscale differentiable time--frequency model of similarity at the level of both local spectra and spectrotemporal modulations.
翻訳日:2023-01-25 12:48:46 公開日:2023-01-24
# adiabatic rapid passageを用いたドライブ誘発散逸の有無下での最適人口移動

Optimal population transfer using the adiabatic rapid passage in the presence of drive-induced dissipation ( http://arxiv.org/abs/2301.10182v1 )

ライセンス: Link先を確認
Nilanjana Chanda, Pratik Patnaik, Rangeet Bhattacharyya(参考訳) adiabatic rapid passage (arp) は、量子系における集団の効率的な移動や反転を達成するために広く使われている。 Landau と Zener は閉系における ARP の転送確率を正確に推定し,この確率は高い駆動振幅で向上することを示した。 近年、オープン量子システムでは、強いドライブを適用すると大きなdid(drive-induced dissipation)が発生することが判明した。 本稿では,線形チャープパルスを用いた2レベルシステム上でのARPの性能に及ぼすDIDの影響について検討する。 ランダウ・ツェナーの公式から、人口移動は駆動振幅の増加とともに増大することが知られている。 しかし,本研究では,駆動振幅のしきい値を超えると,diの悪影響により伝達確率が低下することを示す。 この2つのプロセス間の競合は、人口移動の最適な行動をもたらすことを示す。 また, 伝達の非単調な挙動を説明するための現象論的モデルを提案する。 このモデルを用いて,最大人口移動の発生時刻を推定する。 我々は、矩形パルスとガウスパルスプロファイルの解析を拡張し、ガウスパルスが長方形パルスより優れていると結論づける。

Adiabatic rapid passage (ARP) is extensively used to achieve efficient transfer or inversion of populations in quantum systems. Landau and Zener accurately estimated the transfer probability of ARP for a closed system and showed that this probability improved with higher drive amplitude. Recently, we have found that in open quantum systems, applying a strong drive can give rise to significant drive-induced dissipation (DID). Here, we investigate the effect of DID on the performance of ARP that is implemented using a linearly chirped pulse on a two-level system. From the Landau-Zener formula, the population transfer was known to be enhanced with increasing drive amplitude. However, here we show that beyond a threshold value of the drive amplitude, the transfer probability is reduced because of the detrimental effect of DID. We show that the competition between the two processes results in an optimal behavior of the population transfer. We also propose a phenomenological model that helps explain such nonmonotonic behavior of the transfer. Using this model, we estimate the optimum time at which the maximum population transfer occurs. We extend the analysis for rectangular as well as Gaussian pulse profiles and conclude that a Gaussian pulse outperforms a rectangular pulse.
翻訳日:2023-01-25 12:48:28 公開日:2023-01-24
# K-Planes: 空間、時間、出現における露光場

K-Planes: Explicit Radiance Fields in Space, Time, and Appearance ( http://arxiv.org/abs/2301.10241v1 )

ライセンス: Link先を確認
Sara Fridovich-Keil, Giacomo Meanti, Frederik Warburg, Benjamin Recht, Angjoo Kanazawa(参考訳) 任意の次元の放射場に対するホワイトボックスモデルであるk平面を導入する。 我々のモデルは、D次元のシーンを表現するためにd choose 2平面を使用し、静的(d=3)から動的(d=4)までのシームレスな方法を提供する。 この平面分解により、時間的滑らかさや多次元空間構造といった次元固有の先行要素を容易に追加でき、シーンの静的および動的成分の自然な分解を誘導する。 学習カラーベースを持つ線形特徴デコーダを用いて,非線形ブラックボックスmlpデコーダと同様の性能を実現する。 様々な合成、現実、静的、動的、固定、そして様々な外観シーンにおいて、kプレーンは競争力があり、しばしば最先端の再現フィリティを、メモリ使用量が少なく、完全な4Dグリッド上で1000倍の圧縮を実現し、純粋なPyTorch実装で高速な最適化を実現している。 ビデオ結果とコードについては、sarafridov.github.io/K-Planesを参照してください。

We introduce k-planes, a white-box model for radiance fields in arbitrary dimensions. Our model uses d choose 2 planes to represent a d-dimensional scene, providing a seamless way to go from static (d=3) to dynamic (d=4) scenes. This planar factorization makes adding dimension-specific priors easy, e.g. temporal smoothness and multi-resolution spatial structure, and induces a natural decomposition of static and dynamic components of a scene. We use a linear feature decoder with a learned color basis that yields similar performance as a nonlinear black-box MLP decoder. Across a range of synthetic and real, static and dynamic, fixed and varying appearance scenes, k-planes yields competitive and often state-of-the-art reconstruction fidelity with low memory usage, achieving 1000x compression over a full 4D grid, and fast optimization with a pure PyTorch implementation. For video results and code, please see sarafridov.github.io/K-Planes.
翻訳日:2023-01-25 12:42:01 公開日:2023-01-24
# 相補的選好下での二重マッチング

Double Matching Under Complementary Preferences ( http://arxiv.org/abs/2301.10230v1 )

ライセンス: Link先を確認
Yuantong Li, Guang Cheng, Xiaowu Dai(参考訳) 本稿では,エージェントの嗜好が未知であり,データから学ばなければならない市場と相補的な選好とのマッチング問題に対処する新しいアルゴリズムを提案する。 相補的な選好が存在するとマッチングプロセスが不安定になり、この問題を解くのが難しくなる。 この課題を克服するために、バンドレート学習フレームワークとして問題を定式化し、マルチエージェントマルチタイプトンプソンサンプリング(MMTS)アルゴリズムを提案する。 このアルゴリズムは、トンプソンサンプリングの強度を二重マッチング手法と組み合わせ、安定したマッチング結果を得る。 理論的解析により,MMTS の有効性が示され,各段階の安定が達成され,インセンティブ・コンパチビリティ特性を満足し,時間とともにサブリニアなベイズ的後悔が生じる。 本手法は,現実シナリオにおける補完的嗜好に対処するための有用な手法を提供する。

In this paper, we propose a new algorithm for addressing the problem of matching markets with complementary preferences, where agents' preferences are unknown a priori and must be learned from data. The presence of complementary preferences can lead to instability in the matching process, making this problem challenging to solve. To overcome this challenge, we formulate the problem as a bandit learning framework and propose the Multi-agent Multi-type Thompson Sampling (MMTS) algorithm. The algorithm combines the strengths of Thompson Sampling for exploration with a double matching technique to achieve a stable matching outcome. Our theoretical analysis demonstrates the effectiveness of MMTS as it is able to achieve stability at every matching step, satisfies the incentive-compatibility property, and has a sublinear Bayesian regret over time. Our approach provides a useful method for addressing complementary preferences in real-world scenarios.
翻訳日:2023-01-25 12:41:17 公開日:2023-01-24
# 大規模言語モデルのための透かし

A Watermark for Large Language Models ( http://arxiv.org/abs/2301.10226v1 )

ライセンス: Link先を確認
John Kirchenbauer, Jonas Geiping, Yuxin Wen, Jonathan Katz, Ian Miers, Tom Goldstein(参考訳) 大規模な言語モデルの潜在的な害は、モデルの出力、例えば、人間の目に見えないが短いトークンからアルゴリズムで検出可能な生成されたテキストに信号を埋め込むことによって軽減できる。 プロプライエタリな言語モデルのための透かしフレームワークを提案する。 透かしはテキストの品質に無視できない影響を与え、言語モデルapiやパラメータにアクセスせずに、効率的なオープンソースアルゴリズムを使って検出することができる。 ウォーターマークは、単語が生成される前にランダム化されたホワイトリストトークンのセットを選択し、サンプリング中にホワイトリストトークンの使用をソフトに促進する。 我々は,解釈可能なp値で透かしを検出する統計的テストを提案し,透かしの感度を解析するための情報理論の枠組みを導出する。 我々は,Open Pretrained Transformer (OPT) ファミリーのマルチビリオンパラメータモデルを用いて透かしを検証し,堅牢性とセキュリティについて議論する。

Potential harms of large language models can be mitigated by watermarking model output, i.e., embedding signals into generated text that are invisible to humans but algorithmically detectable from a short span of tokens. We propose a watermarking framework for proprietary language models. The watermark can be embedded with negligible impact on text quality, and can be detected using an efficient open-source algorithm without access to the language model API or parameters. The watermark works by selecting a randomized set of whitelist tokens before a word is generated, and then softly promoting use of whitelist tokens during sampling. We propose a statistical test for detecting the watermark with interpretable p-values, and derive an information-theoretic framework for analyzing the sensitivity of the watermark. We test the watermark using a multi-billion parameter model from the Open Pretrained Transformer (OPT) family, and discuss robustness and security.
翻訳日:2023-01-25 12:41:01 公開日:2023-01-24
# rangevit:自動運転における3次元意味セグメンテーションのための視覚トランスフォーマ

RangeViT: Towards Vision Transformers for 3D Semantic Segmentation in Autonomous Driving ( http://arxiv.org/abs/2301.10222v1 )

ライセンス: Link先を確認
Angelika Ando, Spyros Gidaris, Andrei Bursuc, Gilles Puy, Alexandre Boulch, Renaud Marlet(参考訳) 外部LiDAR点雲のキャスティングセマンティックセマンティックセグメンテーションは、例えばレンジプロジェクションによる2次元問題として、効果的で一般的なアプローチである。 これらのプロジェクションベースの手法は、通常は高速計算の恩恵を受け、他のポイントクラウド表現を使用する技術と組み合わせると、最先端の結果が得られる。 今日、投影ベースの手法は2d cnnを利用するが、コンピュータビジョンの最近の進歩により、視覚トランスフォーマー(vits)は多くの画像ベースのベンチマークで最先端の結果を得た。 本研究では,3次元セマンティックセグメンテーションのプロジェクションに基づく手法が,ViTの最近の改良の恩恵を受けるかどうかを問う。 私たちは正に答えるが、それらと3つの主要な材料を組み合わせることでのみ答える。 (a)ViTはトレーニングが難しいことで知られており、強力な表現を学ぶために多くのトレーニングデータが必要です。 RGBイメージと同じバックボーンアーキテクチャを保存することで、ポイントクラウドよりもはるかに安価でアノテート可能な大規模なイメージコレクションの長いトレーニングから知識を活用できます。 大規模な画像データセット上で、トレーニング済みのViTで最高の結果を得る。 b) 古典的な線形埋込み層に対して, 適合した畳み込み茎を置換することにより, ViTsの誘導バイアスの欠如を補う。 c)畳み込みデコーダと畳み込みステムからのスキップ接続により,畳み込みステムの低レベルだが細粒度の特徴とvitエンコーダの高レベルだが粗い予測を組み合わせることにより,画素単位での予測を洗練する。 これらの材料を用いて,本手法はRangeViTと呼ばれ,nuScenes や SemanticKITTI の既存のプロジェクションベース手法よりも優れていることを示す。 実装コードはhttps://github.com/valeoai/rangevit.comで提供します。

Casting semantic segmentation of outdoor LiDAR point clouds as a 2D problem, e.g., via range projection, is an effective and popular approach. These projection-based methods usually benefit from fast computations and, when combined with techniques which use other point cloud representations, achieve state-of-the-art results. Today, projection-based methods leverage 2D CNNs but recent advances in computer vision show that vision transformers (ViTs) have achieved state-of-the-art results in many image-based benchmarks. In this work, we question if projection-based methods for 3D semantic segmentation can benefit from these latest improvements on ViTs. We answer positively but only after combining them with three key ingredients: (a) ViTs are notoriously hard to train and require a lot of training data to learn powerful representations. By preserving the same backbone architecture as for RGB images, we can exploit the knowledge from long training on large image collections that are much cheaper to acquire and annotate than point clouds. We reach our best results with pre-trained ViTs on large image datasets. (b) We compensate ViTs' lack of inductive bias by substituting a tailored convolutional stem for the classical linear embedding layer. (c) We refine pixel-wise predictions with a convolutional decoder and a skip connection from the convolutional stem to combine low-level but fine-grained features of the the convolutional stem with the high-level but coarse predictions of the ViT encoder. With these ingredients, we show that our method, called RangeViT, outperforms existing projection-based methods on nuScenes and SemanticKITTI. We provide the implementation code at https://github.com/valeoai/rangevit.
翻訳日:2023-01-25 12:40:46 公開日:2023-01-24
# 磁気制御カプセル内視鏡によるヒト胃穿孔の検出と測定

Detecting and measuring human gastric peristalsis using magnetically controlled capsule endoscope ( http://arxiv.org/abs/2301.10218v1 )

ライセンス: Link先を確認
Xueshen Li, Yu Gan, David Duan, and Xiao Yang(参考訳) 磁気制御型カプセル内視鏡(MCCE)は, 快適性, 安全性, 麻酔のない胃疾患を診断するための新しいツールである。 本稿では,MCCE が取得したビデオシーケンスを用いてヒト胃腹膜(収縮波)を検出し,測定するアルゴリズムを開発した。 空間-時間的深層学習アルゴリズムを開発し,胃収縮波を検知し,胃パーシス周期を計測する。 MCCEビデオシーケンスの品質は、カメラモーションに比例する。 我々は、MCCEビデオシーケンスを処理するためのカメラモーション検出器(CMD)を設計し、MCCE試験中にカメラの動きを緩和する。 我々の知る限りでは、人間の胃穿孔を検知し、測定するコンピュータビジョンベースのソリューションを最初に提案する。 本手法は胃運動性を評価することにより胃疾患の診断を支援する大きな可能性を有する。

Magnetically controlled capsule endoscope (MCCE) is an emerging tool for the diagnosis of gastric diseases with the advantages of comfort, safety, and no anesthesia. In this paper, we develop algorithms to detect and measure human gastric peristalsis (contraction wave) using video sequences acquired by MCCE. We develop a spatial-temporal deep learning algorithm to detect gastric contraction waves and measure human gastric peristalsis periods. The quality of MCCE video sequences is prone to camera motion. We design a camera motion detector (CMD) to process the MCCE video sequences, mitigating the camera movement during MCCE examination. To the best of our knowledge, we are the first to propose computer vision-based solutions to detect and measure human gastric peristalsis. Our methods have great potential in assisting the diagnosis of gastric diseases by evaluating gastric motility.
翻訳日:2023-01-25 12:40:11 公開日:2023-01-24
# ハイパースペクトル画像再構成のための簡易な適応展開ネットワーク

A Simple Adaptive Unfolding Network for Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2301.10208v1 )

ライセンス: Link先を確認
Junyu Wang, Shijie Wang, Wenyu Liu, Zengqiang Zheng, Xinggang Wang(参考訳) 本稿では,ハイパースペクトル画像(HSI)再構成のための適応的代替最適化フレームワークを用いて,簡易で効率的でスケーラブルな展開ネットワークSAUNetを提案する。 SAUNetはResidual Adaptive ADMM Framework (R2ADMM)をカスタマイズし、学習可能なパラメータ群を通じてネットワークの各ステージを接続し、マスクの事前使用を促進する。 さらに,簡単な畳み込み変調ブロック(cmb)を導入し,効率的なトレーニング,スケールアップ,計算の容易化を実現している。 これら2つの設計を組み合わせることで、SAUNetは継続的改善を伴う非自明な13ステージにスケールすることができる。 ベルとホイッスルがなければ、SAUNetは従来の最先端のものと比べ性能とスピードの両方を改善し、実用的な高解像度のHSI再構築シナリオで実現可能である。 我々はCAVEとKAIST HSI再構成ベンチマークに新しい記録を設定した。 コードとモデルはhttps://github.com/hustvl/saunetで入手できる。

We present a simple, efficient, and scalable unfolding network, SAUNet, to simplify the network design with an adaptive alternate optimization framework for hyperspectral image (HSI) reconstruction. SAUNet customizes a Residual Adaptive ADMM Framework (R2ADMM) to connect each stage of the network via a group of learnable parameters to promote the usage of mask prior, which greatly stabilizes training and solves the accuracy degradation issue. Additionally, we introduce a simple convolutional modulation block (CMB), which leads to efficient training, easy scale-up, and less computation. Coupling these two designs, SAUNet can be scaled to non-trivial 13 stages with continuous improvement. Without bells and whistles, SAUNet improves both performance and speed compared with the previous state-of-the-art counterparts, which makes it feasible for practical high-resolution HSI reconstruction scenarios. We set new records on CAVE and KAIST HSI reconstruction benchmarks. Code and models are available at https://github.com/hustvl/SAUNet.
翻訳日:2023-01-25 12:39:58 公開日:2023-01-24
# 量子ノイズに対するゲージディジタル化のロバスト性

Robustness of Gauge Digitization to Quantum Noise ( http://arxiv.org/abs/2301.10207v1 )

ライセンス: Link先を確認
Erik J. Gustafson and Henry Lamm(参考訳) 量子ノイズは、高エネルギー物理シミュレーションにおける量子メモリの使用を制限する。 特に、保存された量子状態のゲージ対称性を破る。 アーベル理論および非アーベル理論に対するこの効果を調べ、ノイズチャネルを考慮した量子メモリへのゲージ理論の数値化を最適化することで、他の数値化よりもゲージ対称性が完全に失われる前の寿命を2-10\times$で延ばすことを実証する。 これらの構成により、量子誤差補正は量子場の対称性を統合し、最大のゲージ違反を優先することができる。

Quantum noise limits the use of quantum memory in high energy physics simulations. In particular, it breaks the gauge symmetry of stored quantum states. We examine this effect for abelian and nonabelian theories and demonstrate that optimizing the digitization of gauge theories to quantum memory to account for noise channels can extend the lifetime before complete loss of gauge symmetry by $2-10\times$ over some other digitizations. These constructions also allow for quantum error correction to integrate the symmetries of quantum fields and prioritize the largest gauge violations.
翻訳日:2023-01-25 12:39:39 公開日:2023-01-24
# 統計的時間パターンを抽出する神経構造

Neuronal architecture extracts statistical temporal patterns ( http://arxiv.org/abs/2301.10203v1 )

ライセンス: Link先を確認
Sandra Nestler, Moritz Helias and Matthieu Gilson(参考訳) 神経系は時間的信号を処理する必要がある。 ここでは、情報表現や処理に高次時間的(コ-)ゆらぎを用いる方法を示す。 具体的には,単純で生物学的にインスパイアされたフィードフォワードニューロンモデルを用いて,3次累積体から情報を抽出し,時系列分類を行うことを実証する。 このモデルは、非線形ゲイン関数に続くシナプス入力の重み付き線形和に依存する。 シナプス重みと非線形利得関数の両方を訓練することで、非線形性が平均に高次相関を移すことを可能にし、その結果、複数の累積体にエンコードされた情報を相乗的に使用することで分類精度を最大化することができる。 このアプローチは多変量時系列の合成および実世界のデータセット上で実証される。 さらに,生物にインスパイアされたアーキテクチャは,従来の機械学習手法と比較して,トレーニング可能なパラメータの数をより多く活用できることを示す。 本研究は,時間的変動の高次統計累積に埋め込まれた情報処理のための,専用学習アルゴリズムと組み合わせた生体神経アーキテクチャの利点を強調した。

Neuronal systems need to process temporal signals. We here show how higher-order temporal (co-)fluctuations can be employed to represent and process information. Concretely, we demonstrate that a simple biologically inspired feedforward neuronal model is able to extract information from up to the third order cumulant to perform time series classification. This model relies on a weighted linear summation of synaptic inputs followed by a nonlinear gain function. Training both - the synaptic weights and the nonlinear gain function - exposes how the non-linearity allows for the transfer of higher order correlations to the mean, which in turn enables the synergistic use of information encoded in multiple cumulants to maximize the classification accuracy. The approach is demonstrated both on a synthetic and on real world datasets of multivariate time series. Moreover, we show that the biologically inspired architecture makes better use of the number of trainable parameters as compared to a classical machine-learning scheme. Our findings emphasize the benefit of biological neuronal architectures, paired with dedicated learning algorithms, for the processing of information embedded in higher-order statistical cumulants of temporal (co-)fluctuations.
翻訳日:2023-01-25 12:39:28 公開日:2023-01-24
# カーボンカゴメナノチューブ-平板を有する準1次元ナノ構造

Carbon Kagome Nanotubes -- quasi-one-dimensional nanostructures with flat bands ( http://arxiv.org/abs/2301.10200v1 )

ライセンス: Link先を確認
Hsuan Ming Yu, Shivam Sharma, Shivang Agarwal, Olivia Liebman and Amartya S. Banerjee(参考訳) We introduce carbon Kagome nanotubes (CKNTs) -- a new allotrope of carbon formed by rolling up sheets of Kagome graphene, and investigate the properties of this material using first principles calculations. Based on the direction of rolling, we identify two principal varieties of CKNTs -- armchair and zigzag, and find that the bending stiffness associated with rolling Kagome graphene into either type of CKNT is about a third of that associated with rolling conventional graphene into carbon nanotubes (CNTs). Ab initio 分子動力学シミュレーションは、どちらのタイプのCKNTも室温で安定な構造として存在することを示唆している。 ここで探索された各CKNTは金属であり、ブリルアンゾーン全体で分散のない状態(すなわち平らなバンド)とフェルミ準位に近い状態の電子密度の特異ピークを特徴としている。 我々は, CKNTのねじりひずみおよび軸ひずみに対する力学的および電子的応答を計算し, 従来のCNTと比較した。 特に、CKNTの分散電子状態のねじれ、縮退、ディラック点と部分平坦なバンドはフェルミの2次帯域交差点から出現し、これらの特徴は比較的単純な強結合モデルを用いて説明できることを示す。 CKNTは、強い相関電子の存在によって引き起こされる魅力的な集合材料特性を潜在的に表示できる、現実的な準1次元(1D)物質の特異かつ顕著な例である。 さらに、歪んだckntsは、フラットバンド物理学とキラリティーによる異常輸送効果を一緒に研究できる興味深い物質プラットフォームを提供するかもしれない。

We introduce carbon Kagome nanotubes (CKNTs) -- a new allotrope of carbon formed by rolling up sheets of Kagome graphene, and investigate the properties of this material using first principles calculations. Based on the direction of rolling, we identify two principal varieties of CKNTs -- armchair and zigzag, and find that the bending stiffness associated with rolling Kagome graphene into either type of CKNT is about a third of that associated with rolling conventional graphene into carbon nanotubes (CNTs). Ab initio molecular dynamics simulations indicate that both types of CKNTs are likely to exist as stable structures at room temperature. Each CKNT explored here is metallic and features dispersionless states (i.e., flat bands) throughout its Brillouin zone, along with an associated singular peak in the electronic density of states, close to the Fermi level. We calculate the mechanical and electronic response of CKNTs to torsional and axial strains and compare against conventional CNTs. We show in particular, that upon twisting, degenerate dispersionless electronic states in CKNTs split, Dirac points and partially flat bands emerge from the quadratic band crossing point at the Fermi level, and that these features can be explained using a relatively simple tight-binding model. Overall, CKNTs appear to be unique and striking examples of realistic elemental quasi-one-dimensional (1D) materials that can potentially display fascinating collective material properties arising from the presence of strongly correlated electrons. Additionally, distorted CKNTs may provide an interesting material platform where flat band physics and chirality induced anomalous transport effects may be studied together.
翻訳日:2023-01-25 12:39:11 公開日:2023-01-24