このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230130となっている論文です。

PDF登録状況(公開日: 20230130)

TitleAuthorsAbstract論文公表日・翻訳日
# エネルギー保存とゆらぎ定理は量子研究と相容れない

Energy conservation and fluctuation theorem are incompatible for quantum work ( http://arxiv.org/abs/2104.09364v3 )

ライセンス: Link先を確認
Karen V. Hovhannisyan, Alberto Imparato(参考訳) コヒーレント量子系における仕事の変動を特徴づけるのは、非常に問題である。 問題の究極の源は、(\mathfrak{a}$)エネルギー保存と(\mathfrak{b}$)jarzynskiゆらぎ定理が同時に観測できないことを証明することによって明らかにされる。 条件 $\mathfrak{a}$ は、システムの任意の初期状態において、測定された平均作業は初期エネルギーと最終平均エネルギーの差に等しくなければならず、無修正のシステムは決定論的にゼロな作業を交換しなければならないことを規定する。 条件 $\mathfrak{B}$ は熱初期状態にのみ適用され、熱力学の第二法則をカプセル化する。 我々は、$\mathfrak{a}$ と $\mathfrak{b}$ が、状態の微分可能関数であり、2つの穏やかな構造制約を満たす作業計測スキームには相容れないことを証明する。 これは、すべての既存のスキームをカバーし、狭い種類のエキゾチックスキームに対してのみ、$\mathfrak{a}$と$\mathfrak{b}$を共同で観測する理論的可能性を残している。 状態独立スキームの特別だが重要な場合、状況はより厳密である: 本質的には、2点計測スキームのみが$\mathfrak{b}$ と互換性があることを証明する。

Characterizing fluctuations of work in coherent quantum systems is notoriously problematic. We reveal the ultimate source of the problem by proving that ($\mathfrak{A}$) energy conservation and ($\mathfrak{B}$) the Jarzynski fluctuation theorem cannot be observed at the same time. Condition $\mathfrak{A}$ stipulates that, for any initial state of the system, the measured average work must be equal to the difference of initial and final average energies, and that untouched systems must exchange deterministically zero work. Condition $\mathfrak{B}$ is only for thermal initial states and encapsulates the second law of thermodynamics. We prove that $\mathfrak{A}$ and $\mathfrak{B}$ are incompatible for work measurement schemes that are differentiable functions of the state and satisfy two mild structural constraints. This covers all existing schemes and leaves the theoretical possibility of jointly observing $\mathfrak{A}$ and $\mathfrak{B}$ open only for a narrow class of exotic schemes. For the special but important case of state-independent schemes, the situation is much more rigid: we prove that, essentially, only the two-point measurement scheme is compatible with $\mathfrak{B}$.
翻訳日:2023-04-03 04:40:51 公開日:2023-01-30
# 都市における空間的・社会的相互作用の社会経済構造を明らかにする

Uncovering the socioeconomic structure of spatial and social interactions in cities ( http://arxiv.org/abs/2105.02519v2 )

ライセンス: Link先を確認
Maxime Lenormand and Horacio Samaniego(参考訳) 都市移動、ソーシャルネットワーク、社会経済的地位の関係は複雑で、特にデータ不足のため理解が難しい。 ここでは,チリの都市システムにおける空間的・社会的相互作用の社会経済構造を,携帯電話データを用いて分析する。 空間的・社会的事象の概念に基づき,空間的・社会的相互作用のレベルを社会経済的地位に応じて評価する手法を開発した。 我々は,同じ社会経済状態の人々が,類似の社会経済状態の人や場所と優先的に相互作用することを示した。 また,この近接性は,週を通じて空間的および社会的相互作用にも同様に変化することが示された。 最後に,都市間相互作用を考えると,これらの優先的な相互作用が保持されていることを強調する。

The relationship between urban mobility, social networks and socioeconomic status is complex and difficult to apprehend, notably due to the lack of data. Here we use mobile phone data to analyze the socioeconomic structure of spatial and social interaction in the Chilean's urban system. Based on the concept of spatial and social events, we develop a methodology to assess the level of spatial and social interactions between locations according to their socioeconomic status. We demonstrate that people with the same socioeconomic status preferentially interact with locations and people with a similar socioeconomic status. We also show that this proximity varies similarly for both spatial and social interactions during the course of the week. Finally, we highlight that these preferential interactions appear to be holding when considering city-city interactions.
翻訳日:2023-04-01 07:57:19 公開日:2023-01-30
# 2つの重力猫状態における熱量子相関

Thermal quantum correlations in two gravitational cat states ( http://arxiv.org/abs/2106.05696v3 )

ライセンス: Link先を確認
Moises Rojas and Iarley P. Lobo(参考訳) 重力猫状態(gravcat状態)と呼ばれる2つの巨大猫状態間の弱磁場限界における重力相互作用によって引き起こされる量子相関に対する熱浴の効果について考察する。 本論文の主な目的は、熱量子密度演算子から導かれる、温度とエンタングルメント(凝縮度によって測定される)と量子コヒーレンス(量子状態と非コヒーレント状態との最小距離から定義される$l_1$-ノルムによって測定される)におけるいくつかのパラメータの影響をよく理解することである。 以上の結果から,l_1$-normと熱共起度は,質量を増加させたり,距離を縮めたりすることで著しく最適化できることがわかった。 我々は, 今後実験的に実現可能なものを含む, 異なる条件下での温度変動下でのこれらの量の挙動を考察し, 考察する。 特に熱揺らぎは、突然の絡み合いが落ちると非絡み合い量子相関を生じさせることを観測する。

We consider the effect of a thermal bath on quantum correlations induced by the gravitational interaction in the weak field limit between two massive cat states, called gravitational cat (gravcat) states. The main goal of this paper is to provide a good understanding of the effects of temperature and several parameters in the entanglement (measured by the concurrence) and quantum coherence (measured by the $l_1$-norm that is defined from the minimal distance between the quantum state and the set of incoherent states) which are derived from the thermal quantum density operator. Our results show that the thermal concurrence and $l_1$-norm can be significantly optimized by increasing the masses or decreasing the distance between them. We investigate and discuss the behavior of these quantities under temperature variations in different regimes, including some that are expected to be experimentally feasible in the future. In particular, we observe that thermal fluctuations raise non-entangled quantum correlations when entanglement suddenly drops.
翻訳日:2023-03-27 01:59:38 公開日:2023-01-30
# 非相対論的qedにおける1光子散乱について

On one photon scattering in non-relativistic qed ( http://arxiv.org/abs/2106.07789v2 )

ライセンス: Link先を確認
David G. Hasler(参考訳) 我々は、非相対論的シードの枠組みにおける原子または分子による単一光子の散乱を考察し、一方の光子散乱に対する散乱行列を分解物の境界値として表現する。

We consider scattering of a single photon by an atom or a molecule in the framework of non relativistic qed, and we express the scattering matrix for one photon scattering as a boundary value of the resolvent.
翻訳日:2023-03-26 17:30:55 公開日:2023-01-30
# 重力理論の確率論的デコンストラクション,その1:平坦空間

Probabilistic deconstruction of a theory of gravity, Part I: flat space ( http://arxiv.org/abs/2108.10916v2 )

ライセンス: Link先を確認
S. Josephine Suh(参考訳) 境界の量子力学によって誘導される反ド・ジッター・ジャッキー・タイテルボイム重力の確率過程を定義し,解析し,その確率変数は$AdS_2$で値を取る。 熱状態の境界と適切なパラメータについて、短い時間スケールと平坦空間における量子過程の漸近極限をとり、関連する古典的ジョイント分布がマルコフ特性を持つことを示す。 アインシュタインの理論の方程式は、宇宙定数項に反し、漸近過程の下での確率の量子進化の半古典的極限に現れる。 特に平坦なジャッキー・テイテルボイム重力では、アインシュタイン方程式によって解かれたコンパクト化された空間の面積はマルコフ過程の下で進化する確率密度として同定できる。

We define and analyze a stochastic process in anti-de Sitter Jackiw-Teitelboim gravity, induced by the quantum dynamics of the boundary and whose random variable takes values in $AdS_2$. With the boundary in a thermal state and for appropriate parameters, we take the asymptotic limit of the quantum process at short time scales and flat space, and show associated classical joint distributions have the Markov property. We find that Einstein's equations of the theory, sans the cosmological constant term, arise in the semi-classical limit of the quantum evolution of probability under the asymptotic process. In particular, in flat Jackiw-Teitelboim gravity, the area of compactified space solved for by Einstein's equations can be identified as a probability density evolving under the Markovian process.
翻訳日:2023-03-17 07:30:05 公開日:2023-01-30
# スチュアート-ランダウ発振器ネットワークによるマイナー埋め込み

Minor embedding with Stuart-Landau oscillator networks ( http://arxiv.org/abs/2109.10142v2 )

ライセンス: Link先を確認
Stella L. Harrison, Helgi Sigurdsson and Pavlos G. Lagoudakis(参考訳) 我々は理論上、全対全連結ネットワークにおけるスチュアート・ランダウ振動子ダイナミクスをシミュレートする量子計算アーキテクチャからの戦略を実装した。 この技術は、相互に結合した要素の密度の高いグラフをスパースに拡張し、調整可能なエッジ重みを持つ将来のオンチップ固体技術で実現される可能性がある、トライアド構造の小さな埋め込みの上に構築されている。 ケーススタディとして,完全グラフ上でxyモデルをシミュレートできるので,重度の幾何学的制約を回避できることを明らかにした。

We theoretically implement a strategy from quantum computation architectures to simulate Stuart-Landau oscillator dynamics in all-to-all connected networks, also referred to as complete graphs. The technique builds upon the triad structure minor embedding which expands dense graphs of interconnected elements into sparse ones which can potentially be realized in future on-chip solid state technologies with tunable edge weights. As a case study, we reveal that the minor embedding procedure allows simulating the XY model on complete graphs, thus bypassing a severe geometric constraint.
翻訳日:2023-03-14 03:32:37 公開日:2023-01-30
# ギブズ状態のための実用量子状態トモグラフィ

Practical Quantum State Tomography for Gibbs states ( http://arxiv.org/abs/2112.10418v2 )

ライセンス: Link先を確認
Yotam Y. Lifshitz, Eyal Bairey, Eli Arbel, Gadi Aleksandrowicz, Haggai Landa, Itai Arad(参考訳) 量子状態トモグラフィーは、量子状態の評価と検証に不可欠なツールである。 しかし、数量子ビット以上のシステムでは直接適用できないため、中規模量子デバイス上のより大きな状態の効率的なトモグラフィーは量子コンピューティングにおいて重要な課題である。 局所ハミルトニアンのギブス状態によって近似できる状態のトモグラフィーのために、適度な計算と量子リソースを必要とするトモグラフィー手法を開発した。 提案手法であるhamiltonian learning tomographyは,ギブス・ハミルトニアンに対するパラメータ付きアンサッツを得るためにハミルトン学習アルゴリズムを使用し,局所的な測定結果に対して最適化する。 本手法は,横磁場イジングモデルのギブス状態における密度行列4~10量子ビットの忠実度の高い再構成と,クラウド経由でアクセスするibm量子超伝導デバイスを用いた実験において有用性を示す。 このメソッドのコード実装はPythonのオープンソースソフトウェアとして自由に利用可能である。

Quantum state tomography is an essential tool for the characterization and verification of quantum states. However, as it cannot be directly applied to systems with more than a few qubits, efficient tomography of larger states on mid-sized quantum devices remains an important challenge in quantum computing. We develop a tomography approach that requires moderate computational and quantum resources for the tomography of states that can be approximated by Gibbs states of local Hamiltonians. The proposed method, Hamiltonian Learning Tomography, uses a Hamiltonian learning algorithm to get a parametrized ansatz for the Gibbs Hamiltonian, and optimizes it with respect to the results of local measurements. We demonstrate the utility of this method with a high fidelity reconstruction of the density matrix of 4 to 10 qubits in a Gibbs state of the transverse-field Ising model, in numerical simulations as well as in experiments on IBM Quantum superconducting devices accessed via the cloud. Code implementation of the our method is freely available as an open source software in Python.
翻訳日:2023-03-04 01:16:30 公開日:2023-01-30
# 不定形超伝導体における長距離相互作用系の励起連続表現とエキゾチック相の創発

Exact Continuum Representation of Long-range Interacting Systems and Emerging Exotic Phases in Unconventional Superconductors ( http://arxiv.org/abs/2201.11101v3 )

ライセンス: Link先を確認
Andreas A. Buchheit, Torsten Ke{\ss}ler, Peter K. Schuhmacher, Benedikt Fauseweh(参考訳) 連続限界は多体系の研究において強力なツールであるが、長距離相互作用が存在する場合の有効性はしばしば不明である。 本研究では,この問題を厳密に解決し,モデルとその連続的類似性,積分的寄与,および微細構造,格子寄与を完全に解決する用語を分離する長距離相互作用格子の正確な表現を述べる。 任意の系次元、任意の格子、任意のパワー-ロー相互作用、および線型、非線形、および多原子格子に対して、格子寄与はリーマンゼータ函数の多次元一般化、すなわちエプシュタインゼータ函数に基づいて微分作用素によって記述できることを示す。 従来型超伝導体の長距離相互作用の重要な問題を解決するために,フーリエ空間での表現を用いる。 一般化されたBardeen--Cooper-Schriefferギャップ方程式を導出し、トポロジカル相転移を持つ2次元超伝導体に出現するエキゾチック相を求める。 最後に,非平衡ヒッグス分光法を用いて,凝縮物の集団励起に対する長距離相互作用の影響を分析する。 この相互作用は、振動振幅の指数的減衰から完全な安定化まで、ヒッグスモードの安定性を微調整するために使うことができる。

Continuum limits are a powerful tool in the study of many-body systems, yet their validity is often unclear when long-range interactions are present. In this work, we rigorously address this issue and put forth an exact representation of long-range interacting lattices that separates the model into a term describing its continuous analog, the integral contribution, and a term that fully resolves the microstructure, the lattice contribution. For any system dimension, any lattice, any power-law interaction, and for linear, nonlinear, and multi-atomic lattices, we show that the lattice contribution can be described by a differential operator based on the multidimensional generalization of the Riemann zeta function, namely the Epstein zeta function. We employ our representation in Fourier space to solve the important problem of long-range interacting unconventional superconductors. We derive a generalized Bardeen--Cooper--Schrieffer gap equation and find emerging exotic phases in two-dimensional superconductors with topological phase transitions. Finally, we utilize non-equilibrium Higgs spectroscopy to analyze the impact of long-range interactions on the collective excitations of the condensate. We show that the interactions can be used to fine-tune the Higgs mode's stability, ranging from exponential decay of the oscillation amplitude up to complete stabilization.
翻訳日:2023-02-27 20:16:43 公開日:2023-01-30
# 長距離エンタングルメントの新しい実現:トポロジカル秩序に代わるフラクタルリティ

A new realization of the long-range entanglement: fractality replacing the topological order ( http://arxiv.org/abs/2201.13041v4 )

ライセンス: Link先を確認
Wei Wang(参考訳) 位相的に順序づけられた状態にある有名な長距離絡み合いの本質は、局所的な局所量子回路によって除去できない短距離相関と非局所情報のパラドックス的共存である。 異なる量子状態におけるその実現は、量子計算と量子物質の両方における焦点研究のトピックである。 しかし、証明された実現はトポロジカル秩序(拡張を含む)のパラダイム、すなわちマクロ的な符号距離を持つ量子コード構造に従わなければならない。 ここでは,新しい具体的状態における共存を厳密に証明することにより,長距離絡み合い状態の知識を広げる。 この状態は、新たに実験的に発見されたフラクタル格子幾何(1.58d)上のクウディッツを記述するもので、量子コード構造が存在しないことが示されている。 その結果、多体量子状態における長距離絡み合いの実現のための新しいパラダイムが明らかになり、量子情報と量子物質をつなぐ新しい研究が刺激される可能性がある。

The essence of the famed long-range entanglement as revealed in topologically ordered state is the paradoxical coexistence of short-range correlation and nonlocal information that cannot be removed through constant-depth local quantum circuits. Its realization in different quantum states is a focus research topic in both quantum computation and quantum matter. However, the proved realizations are subject to the paradigm of topological order (including its extensions), i.e. via a quantum code structure with macroscopic code distance. Here, we broaden the knowledge of long-range entangled states by rigorously proving the coexistence in a new concrete state. The state describes qudits on the newly experimentally discovered fractal lattice geometry (1.58D) on which the quantum code structure has been shown not to exist, i.e., there is no topological order. Our result might reveal a new paradigm for the realization of the long-range entanglement in many-body quantum states, and might stimulate new studies connecting quantum information and quantum matter.
翻訳日:2023-02-27 05:29:27 公開日:2023-01-30
# 線形および非線形微分方程式に対する改良量子アルゴリズム

Improved quantum algorithms for linear and nonlinear differential equations ( http://arxiv.org/abs/2202.01054v3 )

ライセンス: Link先を確認
Hari Krovi(参考訳) 非均一線型および非線形常微分方程式 (ODE) の先行研究に対して, 量子アルゴリズムを実質的に一般化し, 改良した。 具体的には、行列のノルムが線形なodeに対する量子アルゴリズムの実行時間を指数関数的に特徴付けし、より広い種類の線形および非線形odeへの応用への扉を開く方法を示す。 Berry et al. (2017) では、ある種類の線形ODEに対する量子アルゴリズムが与えられ、関連する行列は対角化可能である必要がある。 ここで示される線形 ode の量子アルゴリズムは、非対角化行列の多くのクラスに拡張される。 ここでのアルゴリズムは、ダイアゴナブル行列のあるクラスに対してberry et al. (2017) によって導かれる境界よりも指数関数的に高速である。 この線形odeアルゴリズムは、カールマン線形化を用いた非線形微分方程式に適用される(liu et al., (2021))。 その結果に対する改善は2倍です。 まず、エラーに対する指数的に優れた依存を得る。 この種の誤差の対数依存性は、xue et al. (2021) によっても達成されているが、等質非線形方程式のみである。 第二に、このアルゴリズムは、負の対数ノルム(非対角化行列を含む)を持つ場合、任意のスパースで可逆行列(散逸をモデル化する)を扱えるが、Liu et al., (2021) および Xue et al., (2021) は、さらに正規性を必要とする。

We present substantially generalized and improved quantum algorithms over prior work for inhomogeneous linear and nonlinear ordinary differential equations (ODE). Specifically, we show how the norm of the matrix exponential characterizes the run time of quantum algorithms for linear ODEs opening the door to an application to a wider class of linear and nonlinear ODEs. In Berry et al., (2017), a quantum algorithm for a certain class of linear ODEs is given, where the matrix involved needs to be diagonalizable. The quantum algorithm for linear ODEs presented here extends to many classes of non-diagonalizable matrices. The algorithm here is also exponentially faster than the bounds derived in Berry et al., (2017) for certain classes of diagonalizable matrices. Our linear ODE algorithm is then applied to nonlinear differential equations using Carleman linearization (an approach taken recently by us in Liu et al., (2021)). The improvement over that result is two-fold. First, we obtain an exponentially better dependence on error. This kind of logarithmic dependence on error has also been achieved by Xue et al., (2021), but only for homogeneous nonlinear equations. Second, the present algorithm can handle any sparse, invertible matrix (that models dissipation) if it has a negative log-norm (including non-diagonalizable matrices), whereas Liu et al., (2021) and Xue et al., (2021) additionally require normality.
翻訳日:2023-02-27 01:03:40 公開日:2023-01-30
# チェビシェフ距離とmax-product/lukasiewiczファジィ関係方程式系の第二元

Chebyshev distances associated to the second members of systems of Max-product/Lukasiewicz Fuzzy relational equations ( http://arxiv.org/abs/2302.08554v1 )

ライセンス: Link先を確認
Isma\"il Baaj(参考訳) 本稿では,$-max$-product のファジィ関係方程式の系と$-max$-lukasiewicz のファジィ関係方程式の系の不整合について検討する。 a \box_{\min}^{\max} x = b$ と $l_\infty$ のノルムを用いる系に対して、 (baaj, 2023) は、チェビシェフ距離 $\delta = \inf_{c \in \mathcal{c}} \vert b - c \vert$、ただし $\mathcal{c}$ は、同じ行列 $a$ で定義される一貫性系の第二元の集合である。 本稿では、(Baaj, 2023) に類似した解析式を、$$\max$-product fuzzyリレーショナル方程式の系の第2の部材と$\max$-Lukasiewicz fuzzyリレーショナル方程式の系の第2の部材と関連するチェビシェフ距離を計算するために与える。

In this article, we study the inconsistency of a system of $\max$-product fuzzy relational equations and of a system of $\max$-Lukasiewicz fuzzy relational equations. For a system of $\max-\min$ fuzzy relational equations $A \Box_{\min}^{\max} x = b$ and using the $L_\infty$ norm, (Baaj, 2023) showed that the Chebyshev distance $\Delta = \inf_{c \in \mathcal{C}} \Vert b - c \Vert$, where $\mathcal{C}$ is the set of second members of consistent systems defined with the same matrix $A$, can be computed by an explicit analytical formula according to the components of the matrix $A$ and its second member $b$. In this article, we give analytical formulas analogous to that of (Baaj, 2023) to compute the Chebyshev distance associated to the second member of a system of $\max$-product fuzzy relational equations and that associated to the second member of a system of $\max$-Lukasiewicz fuzzy relational equations.
翻訳日:2023-02-26 15:05:45 公開日:2023-01-30
# 制御制約下における量子状態伝達の最適制御

Optimal Control of Quantum State Transfer under Control Constraints ( http://arxiv.org/abs/2302.09142v1 )

ライセンス: Link先を確認
Nahid Binandeh Dehaghani and A. Pedro Aguiar(参考訳) 初期状態からリウヴィル・フォン・ノイマン方程式を満たす目標状態への量子状態変換の制御制約付き最適制御問題を考える。 最適化されるコスト関数は、フィリティの最大化とエネルギー消費の最小化のトレードオフと見なされる。 新しいアプローチとして、関連する行列値力学に対するポントリャーギン最大原理(PMP)の形で最適性条件を駆動し、次に、PMPに基づく間接手法を用いて提案された最適制御問題を解決するための時間分散計算スキームを提案する。 このアルゴリズムは磁場と相互作用するスピン粒子に適用される。

We consider a control constrained optimal control problem of quantum state transformation from an initial given state to a desired target state satisfying Liouville-von Neumann equation. The cost functional to be optimized is viewed as a trade off between maximizing fidelity and minimizing energy consumption. As a new approach, we drive the optimality conditions in the form of Pontryagin Maximum Principle (PMP) for the related matrix-valued dynamics, and next we present a time-discretized computational scheme to solve the proposed optimal control problem by using an indirect method based on the PMP. The algorithm is applied for a spin particle interacting with a magnetic field.
翻訳日:2023-02-26 14:55:27 公開日:2023-01-30
# 演算子複雑性の成長に対する究極の速度制限

Ultimate Speed Limits to the Growth of Operator Complexity ( http://arxiv.org/abs/2202.05006v2 )

ライセンス: Link先を確認
Niklas H\"ornedal, Nicoletta Carabba, Apollonas S. Matsoukas-Roubeas, Adolfo del Campo(参考訳) 孤立系において、ハイゼンベルク図形の与えられた可観測物の時間発展は、クリロフ空間において効率的に表現できる。 この表現では、初期演算子は時間が経つにつれてますます複雑になり、krylov複雑性によって定量化することができる。 我々は、クリロフ複雑性作用素とリウヴィリアンを時間発展の生成元として含むロバートソンの不確実性関係を定式化することにより、クリロフ複雑性の成長に基本的かつ普遍的な限界を導入する。 さらに, この境界が飽和する条件を示し, 量子カオスのパラダイムモデルにおいてその妥当性を示す。

In an isolated system, the time evolution of a given observable in the Heisenberg picture can be efficiently represented in Krylov space. In this representation, an initial operator becomes increasingly complex as time goes by, a feature that can be quantified by the Krylov complexity. We introduce a fundamental and universal limit to the growth of the Krylov complexity by formulating a Robertson uncertainty relation, involving the Krylov complexity operator and the Liouvillian, as generator of time evolution. We further show the conditions for this bound to be saturated and illustrate its validity in paradigmatic models of quantum chaos.
翻訳日:2023-02-26 04:59:08 公開日:2023-01-30
# 線形時間における量子計算の古典的検証

Classical Verification of Quantum Computations in Linear Time ( http://arxiv.org/abs/2202.13997v4 )

ライセンス: Link先を確認
Jiayu Zhang(参考訳) 量子計算検証問題において、量子サーバはクライアントに、量子回路$c$の評価の出力は、それが主張する結果であると納得させようとしている。 この問題は、量子計算 [arXiv:1709.06984], [arXiv:1704.04487], [arXiv:1209.0449] において理論的にも実用的にも非常に重要であると考えられている。 クライアントは計算能力に制限があると考えられており、クライアントが完全に古典的であり、量子計算問題(cvqc)の古典的な検証に繋がる点が望ましい。 合計時間複雑性に関しては、これまで最速のシングルサーバCVQCプロトコルは、$O(poly(\kappa)|C|^3)$であり、$|C|$は検証対象回路のサイズであり、$\kappa$はMahadev [arXiv:1804.01082]によって与えられるセキュリティパラメータである。 本研究では,新しい手法を開発すれば,既存のプロトコルよりもはるかに高速で,複雑な$o(poly(\kappa)|c|)$のcvqcプロトコルを新たに提供する。 我々のプロトコルは、ノイズの多いトラップドアクラウフリー関数[arxiv:1804.00640]の存在を前提として、量子ランダムオラクルモデル[arxiv:1008.0931]において安全である。 その過程で、新しい古典的チャネルリモート状態準備プロトコルである$\{|+_\theta\rangle=\frac{1}{\sqrt{2}}(|0\rangle+e^{i\theta\pi/4}|1\rangle):\theta\in \{0,1\cdots 7\}\}$(量子暗号におけるもう一つの基本的なプリミティブ)も提供する。 このプロトコルでは、この形式での$l$の独立ランダム状態の並列検証が可能であり、かつ、o(poly(\kappa)l)$時間と一定ラウンドのみで動作する。比較のために、既存の作業(より単純な状態ファミリーであっても)は、すべて非常に大きな時間と丸い複雑さを必要とする [arxiv:1904.06320][arxiv:1904.06303][arxiv:2201.13445][arxiv:2201.13430]]。

In the quantum computation verification problem, a quantum server wants to convince a client that the output of evaluating a quantum circuit $C$ is some result that it claims. This problem is considered very important both theoretically and practically in quantum computation [arXiv:1709.06984], [arXiv:1704.04487], [arXiv:1209.0449]. The client is considered to be limited in computational power, and one desirable property is that the client can be completely classical, which leads to the classical verification of quantum computation (CVQC) problem. In terms of the total time complexity, the fastest single-server CVQC protocol so far has complexity $O(poly(\kappa)|C|^3)$ where $|C|$ is the size of the circuit to be verified and $\kappa$ is the security parameter, given by Mahadev [arXiv:1804.01082]. In this work, by developing new techniques, we give a new CVQC protocol with complexity $O(poly(\kappa)|C|)$, which is significantly faster than existing protocols. Our protocol is secure in the quantum random oracle model [arXiv:1008.0931] assuming the existence of noisy trapdoor claw-free functions [arXiv:1804.00640], which are both extensively used assumptions in quantum cryptography. Along the way, we also give a new classical channel remote state preparation protocol for states in $\{|+_\theta\rangle=\frac{1}{\sqrt{2}}(|0\rangle+e^{i\theta\pi/4}|1\rangle):\theta\in \{0,1\cdots 7\}\}$, another basic primitive in quantum cryptography. Our protocol allows for parallel verifiable preparation of $L$ independently random states in this form (up to a constant overall error and a possibly unbounded server-side simulator), and runs in only $O(poly(\kappa)L)$ time and constant rounds; for comparison, existing works (even for possibly simpler state families) all require very large or unestimated time and round complexities [arXiv:1904.06320][arXiv:1904.06303][arXiv:2201.13445][arXiv:2201.13430].
翻訳日:2023-02-23 17:40:30 公開日:2023-01-30
# FETA: ニューラルネットワークの検証、トレーニング、予測アルゴリズムを施行した公正性

FETA: Fairness Enforced Verifying, Training, and Predicting Algorithms for Neural Networks ( http://arxiv.org/abs/2206.00553v2 )

ライセンス: Link先を確認
Kiarash Mohammadi, Aishwarya Sivaraman, Golnoosh Farnadi(参考訳) ニューラルネットワークによって駆動されるアルゴリズムによる決定は、人々の生活の質に直接影響を与えるアプリケーションにおいて非常に顕著になっている。 本稿では,ニューラルネットワークモデルの個別公平性を検証する,訓練し,保証する問題について検討する。 公正性を強制する一般的なアプローチは、公正の概念をモデルのパラメータに関する制約に変換することである。 しかし、そのような翻訳はトレーニングされたニューラルネットワークモデルの公正な予測を必ずしも保証しない。 この課題に対処するために,予測時に公平な制約を強制する反例付きポストプロセッシング手法を開発した。 テストやトレインデータに関するポイントのみに公正を強制する以前の作業とは対照的に、入力ドメイン内のすべてのポイントに対して公正を強制および保証することが可能です。 さらに,学習過程にフェアネスの反例を反復的に組み込んで,フェアネスを帰納バイアスとして用いるインプロセッシング手法を提案する。 我々はこれらの手法をFETAと呼ばれるツールで実装した。 実世界のデータセットに対する実証的な評価は、FETAが予測時に公正性を保証できるだけでなく、より高度な個別の公正性を示す正確なモデルを訓練できることを示している。

Algorithmic decision making driven by neural networks has become very prominent in applications that directly affect people's quality of life. In this paper, we study the problem of verifying, training, and guaranteeing individual fairness of neural network models. A popular approach for enforcing fairness is to translate a fairness notion into constraints over the parameters of the model. However, such a translation does not always guarantee fair predictions of the trained neural network model. To address this challenge, we develop a counterexample-guided post-processing technique to provably enforce fairness constraints at prediction time. Contrary to prior work that enforces fairness only on points around test or train data, we are able to enforce and guarantee fairness on all points in the input domain. Additionally, we propose an in-processing technique to use fairness as an inductive bias by iteratively incorporating fairness counterexamples in the learning process. We have implemented these techniques in a tool called FETA. Empirical evaluation on real-world datasets indicates that FETA is not only able to guarantee fairness on-the-fly at prediction time but also is able to train accurate models exhibiting a much higher degree of individual fairness.
翻訳日:2023-02-19 17:25:58 公開日:2023-01-30
# 公平とは何か? FairMLの哲学的考察と意義

What Is Fairness? Philosophical Considerations and Implications For FairML ( http://arxiv.org/abs/2205.09622v2 )

ライセンス: Link先を確認
Ludwig Bothmann, Kristina Peters, Bernd Bischl(参考訳) フェアネスを意識したML(fairML)における文献の増大は、機械学習(ML)に関連する不公平さを自動意思決定(ADM)において軽減することを目的としており、MLモデルの公平性を測定するメトリクスを定義し、訓練されたMLモデルがこれらの尺度で低い値を達成することを保証する方法を提案する。 しかし、公正とは何かという根本的な概念は、何世紀にもわたる哲学的議論とMLコミュニティにおけるこの概念の最近の採用の間にかなりのギャップを残しているため、ほとんど議論されない。 本研究では,公正性という一貫した概念を定式化し,哲学的考察をADMシステムにおけるMLモデルのトレーニングと評価のための形式的枠組みに変換することにより,このギャップを埋めようとしている。 フェアネス問題は保護属性の存在なしに既に発生しており、フェアネスと予測性能は不整合性ではなく、前者を達成するためには後者が必要であることを指摘した。 さらに,保護属性の存在下での公平性を評価する上で,なぜ因果的考察が必要なのかを論じる。 本稿では,fairmlの議論に対する言語的明快さを高め,実用的応用のための汎用アルゴリズムを提案する。

A growing body of literature in fairness-aware ML (fairML) aspires to mitigate machine learning (ML)-related unfairness in automated decision making (ADM) by defining metrics that measure fairness of an ML model and by proposing methods that ensure that trained ML models achieve low values in those measures. However, the underlying concept of fairness, i.e., the question of what fairness is, is rarely discussed, leaving a considerable gap between centuries of philosophical discussion and recent adoption of the concept in the ML community. In this work, we try to bridge this gap by formalizing a consistent concept of fairness and by translating the philosophical considerations into a formal framework for the training and evaluation of ML models in ADM systems. We derive that fairness problems can already arise without the presence of protected attributes, pointing out that fairness and predictive performance are not irreconcilable counterparts, but rather that the latter is necessary to achieve the former. Moreover, we argue why and how causal considerations are necessary when assessing fairness in the presence of protected attributes. We achieve greater linguistic clarity for the discussion of fairML and propose general algorithms for practical applications.
翻訳日:2023-02-19 17:04:25 公開日:2023-01-30
# MED1stMR: Mixed Reality to Enhance Training of Medical First Responder]{MED1stMR: Mixed Reality to Enhance Training of Medical First Responders for Challenging Contexts

MED1stMR: Mixed Reality to Enhance Training of Medical First Responder]{MED1stMR: Mixed Reality to Enhance the Training of Medical First Responders for Challenging Contexts ( http://arxiv.org/abs/2301.13124v1 )

ライセンス: Link先を確認
Helmut Schrom-Feiertag, Georg Regal, Markus Murtinger(参考訳) 人造や自然災害による多数の負傷者による大量災害が世界的に増加している。 このような状況下では、医療第一応答者(MFR)は、被害者を安定させ、さらなる支援が来るのを待つために、診断、基本的な生命維持、その他の第一支援を行う必要がある。 状況認識と急性ストレスに対する効果的な対処は、第一応答者が命を救う適切な行動を取るために不可欠である。 仮想現実(vr)は、いくつかの領域で真剣な代替手段として実証されており、いくつかの領域では、従来の学習とトレーニングを大きく改善している。 特に、mfrsのトレーニングにおける課題については、トレーニングのコンテキストが利用できないドメインの練習や学習に非常に有用である。 VRトレーニングは、同じ条件下で繰り返し作成、トレーニングできるコントロールされた、簡単に作成できる環境を提供する。 複合現実環境(mr)環境は、vr環境の動的なシミュレーションと負傷者へのハンズオンプラクティスを提供することで、現在のvrトレーニングを強化する可能性を秘めている。 MED1stMRの主目的は,MED1stMRのこの解釈に基づいて,触覚フィードバックを付加した次世代MRトレーニングを開発することである。 このワークショップの論文では、プロジェクトのビジョンを示し、議論のための質問を提案します。

Mass-casualty incidents with a large number of injured persons caused by human-made or by natural disasters are increasing globally. In such situations, medical first responders (MFRs) need to perform diagnosis, basic life support, or other first aid to help stabilize victims and keep them alive to wait for the arrival of further support. Situational awareness and effective coping with acute stressors is essential to enable first responders to take appropriate action that saves lives. Virtual Reality (VR) has been demonstrated in several domains to be a serious alternative, and in some areas also a significant improvement to conventional learning and training. Especially for the challenges in the training of MFRs, it can be highly useful for practicing and learning domains where the context of the training is not easily available. VR training offers controlled, easy-to-create environments that can be created and trained repeatedly under the same conditions. As an advanced alternative to VR, Mixed Reality (MR) environments have the potential to augment current VR training by providing a dynamic simulation of an environment and hands-on practice on injured victims. Building on this interpretation of MR, the main aim of MED1stMR is to develop a new generation of MR training with haptic feedback for enhanced realism. in this workshop paper, we will present the vision of the project and suggest questions for discussion.
翻訳日:2023-02-19 13:57:52 公開日:2023-01-30
# 仮想アシスタントハブデバイスにおける脅威モデリングとユーザリスク認識の比較(2021年)

Threat Modelling in Virtual Assistant Hub Devices Compared With User Risk Perceptions (2021) ( http://arxiv.org/abs/2301.12772v1 )

ライセンス: Link先を確認
Beckett LeClair(参考訳) 普及しているにもかかわらず、家庭内の仮想アシスタントハブ(Google NestやAmazon Alexaなど)のセキュリティについては、まだ多くの懸念がある。 消費者の恐れは、広く公表されているプライバシー侵害と、IoTネットワークをターゲットとする高名な攻撃の継続によって、多少悪化している。 文献は、消費者の理解と実際の脅威環境の間にかなりの知識ギャップがあることを示唆している。さらに、消費者と通信可能な脅威を解明するために、どの脅威モデリングアプローチがこれらのデバイスに最も適しているかを比較する作業はほとんど行われていない。 したがって、この文脈に適用される異なる脅威モデリング方法論を探求し、消費者をアクセスしやすい方法で教育することを目的としたソフトウェアのプロトタイプを作成する機会がある。 5つのアプローチ(stride, cvss, attack tree (a.k. threat tree), lindunn go, quantitative tmm)を比較した。 鍵となる知見は、STRIDEとLINDUNN GOの組み合わせは(時間制約によるCVSSの要素の可能性を秘めた)厳しい産業期限サイクルの圧力下での脅威の解明に最適であり、試行錯誤されたソフトウェアプロトタイプは消費者のエンゲージメントとデバイスのセキュリティに関する教育に有効であることを示唆している。 このような発見は、脅威を最適にモデル化しようとするIoTデバイスメーカーや、消費者間の情報セキュリティ知識を高める方法を模索する他のステークホルダーにとって有用である。

Despite increasing uptake, there are still many concerns as to the security of virtual assistant hubs (such as Google Nest and Amazon Alexa) in the home. Consumer fears have been somewhat exacerbated by widely-publicised privacy breaches, and the continued prevalence of high-profile attacks targeting IoT networks. Literature suggests a considerable knowledge gap between consumer understanding and the actual threat environment; furthermore, little work has been done to compare which threat modelling approach(es) would be most appropriate for these devices, in order to elucidate the threats which can then be communicated to consumers. There is therefore an opportunity to explore different threat modelling methodologies as applied to this context, and then use the findings to prototype a software aimed at educating consumers in an accessible manner. Five approaches (STRIDE, CVSS, Attack Trees (a.k.a. Threat Trees), LINDUNN GO, and Quantitative TMM) were compared as these were determined to be either the most prominent or potentially applicable to an IoT context. The key findings suggest that a combination of STRIDE and LINDUNN GO is optimal for elucidating threats under the pressures of a tight industry deadline cycle (with potential for elements of CVSS depending on time constraints), and that the trialled software prototype was effective at engaging consumers and educating about device security. Such findings are useful for IoT device manufacturers seeking to optimally model threats, or other stakeholders seeking ways to increase information security knowledge among consumers.
翻訳日:2023-02-19 13:56:30 公開日:2023-01-30
# 実演家としての大規模言語モデル--法的基準による人工知能とのロバストなコミュニケーションをめざして

Large Language Models as Fiduciaries: A Case Study Toward Robustly Communicating With Artificial Intelligence Through Legal Standards ( http://arxiv.org/abs/2301.10095v2 )

ライセンス: Link先を確認
John J. Nay(参考訳) 人工知能(AI)は、研究アシスタントとしてウェブを閲覧し、資金を管理するなど、ますます自律的な役割を担っている。 しかし、AI行動の目標と制限を指定することは難しい。 法的契約の当事者が将来の関係のあらゆる潜在的な「もし」偶然を予見できないのと同様に、あらゆる状況において望ましいai行動を特定することはできない。 法的基準は、本質的に曖昧で不特定な目標の堅牢なコミュニケーションを促進する。 法的基準を取り入れた(言語モデルの場合、"prompts"と呼ばれる)命令は、AIエージェントが世界の不特定状態を取るための許容可能な行動に関する期待を一般化する指令の精神についての共通理解を発達させることができる。 標準には、平易な言語やプログラミング言語など、他の目標仕様言語に欠けるコンテキストが組み込まれている。 米国裁判所の意見から構築した何千もの評価ラベルに関する実証的研究を通じて、我々は、大規模言語モデル(LLM)がAIエージェントの最も関係の深い法的基準の1つ、すなわち義務を「理解」し始めていることを実証した。 モデル間でのパフォーマンス比較は、LLMが改良されたコア能力を示し続けるにつれ、法的基準の理解も改善され続けることを示唆している。 openaiの最新のllmはデータに78%の精度があり、以前のリリースでは73%の精度があり、2020年のgpt-3論文のモデルでは27%の精度(ランダムより低い)がある。 我々の研究は、法律標準に対するAI理解をより広く評価し、法的フィードバック(RLLF)による強化学習を実施するためのフレームワークに向けた最初のステップである。

Artificial Intelligence (AI) is taking on increasingly autonomous roles, e.g., browsing the web as a research assistant and managing money. But specifying goals and restrictions for AI behavior is difficult. Similar to how parties to a legal contract cannot foresee every potential "if-then" contingency of their future relationship, we cannot specify desired AI behavior for all circumstances. Legal standards facilitate robust communication of inherently vague and underspecified goals. Instructions (in the case of language models, "prompts") that employ legal standards will allow AI agents to develop shared understandings of the spirit of a directive that generalize expectations regarding acceptable actions to take in unspecified states of the world. Standards have built-in context that is lacking from other goal specification languages, such as plain language and programming languages. Through an empirical study on thousands of evaluation labels we constructed from U.S. court opinions, we demonstrate that large language models (LLMs) are beginning to exhibit an "understanding" of one of the most relevant legal standards for AI agents: fiduciary obligations. Performance comparisons across models suggest that, as LLMs continue to exhibit improved core capabilities, their legal standards understanding will also continue to improve. OpenAI's latest LLM has 78% accuracy on our data, their previous release has 73% accuracy, and a model from their 2020 GPT-3 paper has 27% accuracy (worse than random). Our research is an initial step toward a framework for evaluating AI understanding of legal standards more broadly, and for conducting reinforcement learning with legal feedback (RLLF).
翻訳日:2023-02-19 13:48:02 公開日:2023-01-30
# 知識空間の境界を破る: 単語埋め込みによるq&a webサイトにおける知識の分析

Breaking the Boundaries of Knowledge Space: Analyzing the Knowledge Spanning on the Q&A Website through Word Embeddings ( http://arxiv.org/abs/2301.09739v2 )

ライセンス: Link先を確認
Haochuan Cui, Tiewei Li, Cheng-Jun Wang(参考訳) 創造的な疑問を提起する課題は、異なるカテゴリの知識を再結合することにある。 しかし、再結合の影響はいまだに議論の余地がある。 知識再結合理論とカテゴリー分割理論に基づいて,知識の距離と知識の階層構造が質問の魅力を形作ることを提案する。 単語埋め込みモデルと大規模なオンライン知識市場(N = 463,545)から収集したデータを用いて、質問の魅力にまたがる知識の影響は放物的であることが判明した。 しかし、知識スパンニングの非線形影響は知識の階層に付随する。 今後の知識再結合研究におけるこれらの知見の理論的および実践的意義について論じる。 本研究は,知識階層の理論的基盤を強調する知識としての質問を概念化し,研究ギャップを埋める。

The challenge of raising a creative question exists in recombining different categories of knowledge. However, the impact of recombination remains controversial. Drawing on the theories of knowledge recombination and category spanning, we propose that both the distance of knowledge spanning and the hierarchy of knowledge shape the appeal of questions. Using word embedding models and the data collected from a large online knowledge market (N = 463,545), we find that the impact of knowledge spanning on the appeal of questions is parabolic: the appeal of questions increases up to a threshold, after which point the positive effect reverses. However, the nonlinear influence of knowledge spanning is contingent upon the hierarchy of knowledge. The theoretical and practical implications of these findings for future research on knowledge recombination are discussed. We fill the research gap by conceptualizing question asking as knowledge spanning and highlighting the theoretical underpinnings of the knowledge hierarchy.
翻訳日:2023-02-19 13:43:43 公開日:2023-01-30
# John Clark's Latin Verse Machine: 19世紀の計算創造性

John Clark's Latin Verse Machine: 19th Century Computational Creativity ( http://arxiv.org/abs/2301.05570v2 )

ライセンス: Link先を確認
Mike Sharples(参考訳) ジョン・クラークはヘキサメーターのラテン詩を生成するユーレカ機械の発明者だった。 彼は1832年から13年間、無作為に2600万行以上の詩を作曲できる装置の実装に携わった。 本稿では,クラークを初期認知科学者と見なすべきであることを示唆する。 クラークは自身の機械を「カレイドスコピック進化」の理論の挿絵と表現し、ラテン詩は「機械の心の中に考えられ」機械的に生成され、展示された。 本稿では, 詩の自動生成の背景, ユーレカの設計と力学, 1845年のロンドンにおける受容, 機械による言語生成の歴史における位置について述べる。 この論文は、現代の認知科学の観点からクラークのkaleidoscopic evolutionの理論を解釈している。 これはクラークが計算創造の先駆者として認められていないことを示唆している。

John Clark was inventor of the Eureka machine to generate hexameter Latin verse. He labored for 13 years from 1832 to implement the device that could compose at random over 26 million different lines of well-formed verse. This paper proposes that Clark should be regarded as an early cognitive scientist. Clark described his machine as an illustration of a theory of "kaleidoscopic evolution" whereby the Latin verse is "conceived in the mind of the machine" then mechanically produced and displayed. We describe the background to automated generation of verse, the design and mechanics of Eureka, its reception in London in 1845 and its place in the history of language generation by machine. The article interprets Clark's theory of kaleidoscopic evolution in terms of modern cognitive science. It suggests that Clark has not been given the recognition he deserves as a pioneer of computational creativity.
翻訳日:2023-02-19 13:36:58 公開日:2023-01-30
# 『すべての白人が最初に織った』:ビデオ会議がいかにコントロールを固め、職場バイアスを悪化させるか

"All of the White People Went First": How Video Conferencing Consolidates Control and Exacerbates Workplace Bias ( http://arxiv.org/abs/2212.00849v3 )

ライセンス: Link先を確認
Mo Houtti, Moyan Zhou, Loren Terveen, and Stevie Chancellor(参考訳) 職場バイアスは従業員にネガティブな心理的結果をもたらし、より大きな組織に浸透します。 職場ミーティングは頻繁に行われ、バイアスが発生する可能性のある重要なコンテキストとなる。 ビデオ会議(VC)は、職場会議においてますます一般的になっているメディアであり、VCツールがミーティングにおけるバイアスの増加や軽減にどのように貢献するかを調査した。 22人の専門家による半構造化インタビュー調査を通じて、vcの機能によって、ミーティングリーダーはさまざまなミーティングパラメータをコントロールでき、リーダーがバイアスに影響を与える大きな役割を担っていることが分かりました。 私たちはこれを、ユーザタイル、手作り、テキストベースのチャット、ミーティング記録という4つの中核VC機能に関して実証し、VCミーティングにおけるバイアスを軽減するための2つのメカニズムのうちの少なくとも1つを採用することを推奨します。 1)会議のリーダーから技術系や他の参加者への統制の移譲 2) ミーティングのリーダが,彼らが行うコントロールをよりよく実践するのを支援する。

Workplace bias creates negative psychological outcomes for employees, permeating the larger organization. Workplace meetings are frequent, making them a key context where bias may occur. Video conferencing (VC) is an increasingly common medium for workplace meetings; we therefore investigated how VC tools contribute to increasing or reducing bias in meetings. Through a semi-structured interview study with 22 professionals, we found that VC features push meeting leaders to exercise control over various meeting parameters, giving leaders an outsized role in affecting bias. We demonstrate this with respect to four core VC features -- user tiles, raise hand, text-based chat, and meeting recording -- and recommend employing at least one of two mechanisms for mitigating bias in VC meetings -- 1) transferring control from meeting leaders to technical systems or other attendees and 2) helping meeting leaders better exercise the control they do wield.
翻訳日:2023-02-19 12:47:28 公開日:2023-01-30
# シン・ゴードンとキンク・ソリトンのウィグナー分布

Wigner distribution of Sine Gordon and Kink solitons ( http://arxiv.org/abs/2205.02531v2 )

ライセンス: Link先を確認
Ramkumar Radhakrishnan, Vikash Kumar Ojha(参考訳) ウィグナー分布は、量子力学の位相空間アナログを定式化する上で重要な役割を果たす。 ソリトンに対するシュロディンガー波動関数はソリトンに対して導出するために必要である。 導出したウィグナー分布は、位置や運動量空間における電荷分布、電流密度、波動関数振幅の計算にも利用できる。 また、量子速度制限時間の上限を計算するためにも使用できる。 両ソリトンに対するシュロディンガー波動関数の評価により,キンクおよびシン・ゴルドンソリトンに対するウィグナー分布を導出,解析した。 また、ウィグナー分布の導出した解析式から得られるソリトンに対する電荷、電流密度、量子速度制限についても論じる。

Wigner distributions play a significant role in formulating the phase space analogue of quantum mechanics. The Schrodinger wave-functional for solitons is needed to derive it for solitons. The Wigner distribution derived can further be used for calculating the charge distributions, current densities and wave function amplitude in position or momentum space. It can be also used to calculate the upper bound of the quantum speed limit time. We derive and analyze the Wigner distributions for Kink and Sine-Gordon solitons by evaluating the Schrodinger wave-functional for both solitons. The charge, current density, and quantum speed limit for solitons are also discussed which we obtain from the derived analytical expression of Wigner distributions.
翻訳日:2023-02-14 06:30:29 公開日:2023-01-30
# Rydberg 原子アレイにおける$\mathbb{Z}_3$位相秩序を持つトリマー状態

Trimer states with $\mathbb{Z}_3$ topological order in Rydberg atom arrays ( http://arxiv.org/abs/2205.10387v2 )

ライセンス: Link先を確認
Giacomo Giudice, Federica Maria Surace, Hannes Pichler, Giuliano Giudici(参考訳) トリマーはグラフ上の2つの隣接エッジとして定義される。 格子の全てのトリマー被覆の等重重ね合わせとして得られた量子状態について,各頂点にトリマーを持つ制約,いわゆるトリマー共鳴価結合(tRVB)状態について検討する。 テンソルネットワーク表現をエクスプロイトすると、これらの状態は$\mathbb{Z}_3$位相順序をホストできるか、あるいは$\mathrm{U}(1) \times \mathrm{U}(1)$局所対称性を持つ隙間のない液体であることを示す。 この連続対称性は、格子が3つの部分格子をすべて覆うような三成分化できるときに現れることを証明できる。 ギャップドの場合, 最大トリマー被覆の希釈に対するトポロジカル秩序の安定性が示され, トリマーの密度が変動する現実的なモデルに関係している。 さらに, tRVB 状態と $\mathbb{Z}_3$ 格子ゲージ理論の関係を, 前者を $\mathbb{Z}_3$ トーリック符号に滑らかに接続することで解明し, tRVB 状態上の非局所励起について議論する。 最後に,2乗格子上の希薄トリマーモデルの零温度位相図を正確に対角化して解析し,その基底状態がパラメータ空間の狭い領域における位相特性を示すことを示す。 ブロック効果を利用したRydberg原子配列に類似のモデルを実装可能であることを示す。 このセットアップにおける動的準備スキームを調査し、実験的に$\mathbb{Z}_3$量子スピン液体を探索するための実行可能な経路を提供する。

Trimers are defined as two adjacent edges on a graph. We study the quantum states obtained as equal-weight superpositions of all trimer coverings of a lattice, with the constraint of having a trimer on each vertex: the so-called trimer resonating-valence-bond (tRVB) states. Exploiting their tensor network representation, we show that these states can host $\mathbb{Z}_3$ topological order or can be gapless liquids with $\mathrm{U}(1) \times \mathrm{U}(1)$ local symmetry. We prove that this continuous symmetry emerges whenever the lattice can be tripartite such that each trimer covers all the three sublattices. In the gapped case, we demonstrate the stability of topological order against dilution of maximal trimer coverings, which is relevant for realistic models where the density of trimers can fluctuate. Furthermore, we clarify the connection between gapped tRVB states and $\mathbb{Z}_3$ lattice gauge theories by smoothly connecting the former to the $\mathbb{Z}_3$ toric code, and discuss the non-local excitations on top of tRVB states. Finally, we analyze via exact diagonalization the zero-temperature phase diagram of a diluted trimer model on the square lattice and demonstrate that the ground state exhibits topological properties in a narrow region in parameter space. We show that a similar model can be implemented in Rydberg atom arrays exploiting the blockade effect. We investigate dynamical preparation schemes in this setup and provide a viable route for probing experimentally $\mathbb{Z}_3$ quantum spin liquids.
翻訳日:2023-02-12 07:46:16 公開日:2023-01-30
# 制約付きハミルトン系としての格子上の有限群ゲージ理論

Finite-group gauge theories on lattices as Hamiltonian systems with constraints ( http://arxiv.org/abs/2206.09775v5 )

ライセンス: Link先を確認
M. F. Araujo de Resende(参考訳) 本研究では、有限ゲージ群を用いて$n $-次元格子上で定義されるゲージ理論について、古典的(連続的な)ゲージ(場)理論と類似した制約を持つハミルトン系としてどのように解釈できるかを示すために、簡潔ながら洞察に富んだ概要を示す。 この解釈は、格子ゲージ理論の概念を論じ、導入する文献では一般的には研究されていないが、ある種の量子計算をサポートするためにハミルトニアン模型を探求する最近の研究がいくつかあるので、例えば、これらのモデルの1つのクラスであるキタエフ量子二重モデルについての簡単な幾何学的見解を示すために、この解釈を用いる。

In this work, we present a brief but insightful overview of the gauge theories, which are defined on $ n $-dimensional lattices by using finite gauge groups, in order to show how they can be interpreted as a Hamiltonian system with constraints, analogous to what happens with the classical (continuous) gauge (field) theories. As this interpretation is not usually explored in the literature that discusses/introduces the concept of lattice gauge theory, but some recent works have been exploring Hamiltonian models in order to support some kind of quantum computation, we use this interpretation to, for example, present a brief geometric view of one class of these models: the Kitaev Quantum Double Models.
翻訳日:2023-02-08 18:47:35 公開日:2023-01-30
# 室温から量子基底状態に近い中間膜系のレーザー冷却

Laser cooling a membrane-in-the-middle system close to the quantum ground state from room temperature ( http://arxiv.org/abs/2206.11169v2 )

ライセンス: Link先を確認
Sampo A. Saarinen, Nenad Kralj, Eric C. Langman, Yeghishe Tsaturyan, Albert Schliesser(参考訳) 量子科学と技術における多くのプロトコルは、純粋な量子状態のシステムを初期化する必要がある。 巨大共振器の運動状態の文脈において、これは量子古典遷移を解き明かす基礎物理学の研究と、感度を高めた力と加速度の測定を可能にする。 レーザー冷却は、最も単純な純状態の1つである量子基底状態における機械的共振器の合成方法である。 しかし、熱浴による加熱と脱コヒーレンスを克服するためには、通常は低温冷却と組み合わせなければならない。 ここでは、室温から直接量子基底状態に近い超コヒーレントで軟質な機械共振器をレーザー冷却する。 この目的のために,1つのファイバーミラーと1つのフォノニッククリスタルミラーを用いた多彩な中間膜構成を実装し,室温で既にユニティに近い量子協力性に到達した。 さらに,コヒーレントと測定に基づく量子制御の強力な組み合わせを導入することにより,熱的相互変調ノイズを低減できる。 最も低い占有率は30フォノンであり、測定精度によって制限される。 低温冷却の必要性をなくすことで、光量子技術の拡散がさらに促進される。

Many protocols in quantum science and technology require initializing a system in a pure quantum state. In the context of the motional state of massive resonators, this enables studying fundamental physics at the elusive quantum-classical transition, and measuring force and acceleration with enhanced sensitivity. Laser cooling has been a method of choice to prepare mechanical resonators in the quantum ground state, one of the simplest pure states. However, in order to overcome the heating and decoherence by the thermal bath, this usually has to be combined with cryogenic cooling. Here, we laser-cool an ultracoherent, soft-clamped mechanical resonator close to the quantum ground state directly from room temperature. To this end, we implement the versatile membrane-in-the-middle setup with one fiber mirror and one phononic crystal mirror, which reaches a quantum cooperativity close to unity already at room temperature. We furthermore introduce a powerful combination of coherent and measurement-based quantum control techniques, which allows us to mitigate thermal intermodulation noise. The lowest occupancy we reach is 30 phonons, limited by measurement imprecision. Doing away with the necessity for cryogenic cooling should further facilitate the spread of optomechanical quantum technologies.
翻訳日:2023-02-08 09:47:43 公開日:2023-01-30
# GaN欠陥単光子エミッタにおける光フォノンのデコヒーレンス

Decoherence by Optical Phonons in GaN Defect Single-Photon Emitters ( http://arxiv.org/abs/2206.12636v2 )

ライセンス: Link先を確認
Yifei Geng, Jialun Luo, Len van Deurzen, Huili (Grace) Xing, Debdeep Jena, Gregory David Fuchs, Farhan Rana(参考訳) sicやダイヤモンドのような多くの単一光子欠陥エミッタにおいて、低エネルギー音響フォノンとの相互作用はデコヒーレンス率の温度依存性を判定し、zplと温度の拡幅は電力法則に従う。 GaNは600nmから700nmの波長範囲で、室温でも強いZPLを持つ明るく安定した単一光子エミッタをホストする。 本研究では,GaN SPEのZPLスペクトルと固体浸漬レンズの温度依存性を,関連する脱コヒーレンス機構の解明を目的として検討した。 50K以下の温度では、ZPLライン形状はガウスであり、ZPLライン幅は温度に依存しずスペクトル拡散に支配される。 50K以上の線幅は温度とともに単調に増加し、線状体はローレンツ系へと進化する。 非常に顕著なことに、線幅の温度依存性は電力法則に従わない。 弾性ラマン過程における光フォノンの吸収・放出による非一貫性が線状および線幅の温度依存性を決定するモデルを提案する。 本研究で調べた10Kから270Kの範囲におけるZPL線幅と線形状の温度依存性をモデル化した。 データにモデルを取り付けて抽出した19 meVの光フォノンエネルギーは、GaNの最も低い光フォノンバンド(E2(low))の18 meVゾーン中心エネルギーと非常によく一致している。 我々の研究は、GaN SPEの線幅拡大の原因となるメカニズムに光を当てている。 低エネルギー光フォノンバンド(E2(low))は、hBNやAlNを含むウルツ石結晶構造を持つほとんどのIII-V窒化物群の特徴であるので、これらの材料における欠陥エミッタにおいても重要な役割を果たすと考えられる。

In most single-photon defect emitters, such as those in SiC and diamond, interaction with low-energy acoustic phonons determines the temperature dependence of the decoherence rate and the resulting broadening of the ZPL with the temperature obeys a power law. GaN hosts bright and stable single-photon emitters in the 600 nm to 700 nm wavelength range with strong ZPLs even at room temperature. In this work, we study the temperature dependence of the ZPL spectra of GaN SPEs integrated with solid immersion lenses with the goal of understanding the relevant decoherence mechanisms. At temperatures below ~50 K, the ZPL lineshape is found to be Gaussian and the ZPL linewidth is temperature independent and dominated by spectral diffusion. Above ~50 K, the linewidth increases monotonically with the temperature and the lineshape evolves into a Lorentzian. Quite remarkably, the temperature dependence of the linewidth does not follow a power law. We propose a model in which decoherence caused by absorption/emission of optical phonons in an elastic Raman process determines the temperature dependence of the lineshape and the linewidth. Our model explains the temperature dependence of the ZPL linewidth and lineshape in the entire 10 K to 270 K temperature range explored in this work. The ~19 meV optical phonon energy extracted by fitting the model to the data matches remarkably well the ~18 meV zone center energy of the lowest optical phonon band (E2(low)) in GaN. Our work sheds light on the mechanisms responsible for linewidth broadening in GaN SPEs. Since a low energy optical phonon band (E2(low)) is a feature of most group III-V nitrides with a wurtzite crystal structure, including hBN and AlN, we expect our proposed mechanism to play an important role in defect emitters in these materials as well.
翻訳日:2023-02-08 02:05:48 公開日:2023-01-30
# 空洞真空場によって制御される量子電子輸送

Quantum electron transport controlled by cavity vacuum fields ( http://arxiv.org/abs/2206.13432v2 )

ライセンス: Link先を確認
Geva Arwas and Cristiano Ciuti(参考訳) 空洞真空場への結合が、光・物質相互作用の対向回転波による量子導体中の電子輸送にどのように影響するかを理論的に検討する。 有効電子ハミルトニアンによって予測される透過係数の観点から量子コンダクタンスを決定する。 素電子状態間の結合はフェルミ海上に1つの電子(または1つの穴)と1つの仮想空洞光子を持つ中間状態を含む仮想過程によって媒介される。 人工または無秩序な単一粒子ポテンシャルの存在下での量子伝導の挙動と空間的に変化するキャビティモードについて検討した。 例示として、この理論を1次元導体および乱れた2次元量子ホール系に適用する。 本研究では, 空洞真空場が, 電子伝導率の大幅な向上や抑制, 導電率の量子化やゆらぎの修正にどのように寄与するかを示す。

We explore theoretically how the coupling to cavity vacuum fields affects the electron transport in quantum conductors due to the counter-rotating-wave terms of light-matter interaction. We determine the quantum conductance in terms of the transmission coefficients predicted by an effective electron Hamiltonian. The coupling between bare electronic states is mediated by virtual processes involving intermediate states with one electron (or one hole) on top of the Fermi sea and one virtual cavity photon. We study the behavior of the quantum conductance in the presence of artificial or disordered single-particle potentials, as well as a spatially varying cavity mode. As illustrative examples, we apply our theory to 1D conductors and to disordered 2D quantum Hall systems. We show how the cavity vacuum fields can lead to both large enhancement or suppression of electron conductance in the ballistic regime, as well as modification of the conductance quantization and fluctuations.
翻訳日:2023-02-07 21:17:26 公開日:2023-01-30
# フェルミオン環境の精密記述のための擬似フェルミオン法:単一分子エレクトロニクスから近藤共鳴へ

A pseudo-fermion method for the exact description of fermionic environments: from single-molecule electronics to Kondo resonance ( http://arxiv.org/abs/2207.05780v2 )

ライセンス: Link先を確認
Mauro Cirio, Neill Lambert, Pengfei Liang, Po-Chen Kuo, Yueh-Nan Chen, Paul Menczel, Ken Funo, Franco Nori(参考訳) 連続電子貯水池と相互作用する任意の系の強い相互作用をモデル化する離散フェルミオン法を開発した。 このアプローチは、連続浴相関関数の擬フェルミオン分解に基づいており、この分解の精度によってのみ制限される。 この分解により、不要な近似を導入することなく、仮想擬似フェルミオンパラメータと個々の擬似フェルミオンの強い減衰を実現できることを示す。 非干渉単共振レベルに対しては、解析解と正確な階層式-運動方程式に対する我々のアプローチをベンチマークする。 また、相互作用の場合、この単純な手法は、近藤共鳴の強い相関した低温物理を捉えることができることを示す。

We develop a discrete fermion approach for modelling the strong interaction of an arbitrary system interacting with continuum electronic reservoirs. The approach is based on a pseudo-fermion decomposition of the continuum bath correlation functions, and is only limited by the accuracy of this decomposition. We show that to obtain this decomposition one can allow for imaginary pseudo-fermion parameters, and strong damping in individual pseudo-fermions, without introducing unwanted approximations. For a non-interacting single-resonant level, we benchmark our approach against an analytical solution and an exact hierachical-equations-of-motion approach. We also show that, for the interacting case, this simple method can capture the strongly correlated low-temperature physics of Kondo resonance.
翻訳日:2023-02-05 09:18:38 公開日:2023-01-30
# 測定フレーム上のシャドウトモグラフィ

Shadow tomography on measurement frames ( http://arxiv.org/abs/2301.13229v1 )

ライセンス: Link先を確認
Luca Innocenti, Salvatore Lorenzo, Ivan Palmisano, Francesco Albarelli, Alessandro Ferraro, Mauro Paternostro, G. Massimo Palma(参考訳) 観測フレームの一般理論との深い関係を示すことによって,影トモグラフィーの新しい視点を提供する。 測定フレームの形式化がシャドウトモグラフィーの自然な枠組みであることを示すことによって、'古典的なシャドウ'は、与えられた測定に関連付けられた適切な2つのフレームから導かれる偏りのない推定値に対応する。 このような視点から,計測結果の処理に使用される計測,再構成観測,推定値間の相互作用を検証し,入力状態と基底空間の寸法が推定誤差に与える影響を評価する方法を提案する。 本手法は[H]で記述した手法を一般化する。 -y。 Huang et al. など。 Nat, Nat。 Phys 16, 1050 (2020)] は, 共変測定フレームの特別な場合において, 結果が回収される。 そこで本研究では,厳密なランク-1測定フレームのクラス全体に対して,シャドウトモグラフィの追尾目標を達成できることを実証する。つまり,要求されるサンプル数と状態次元の増大を回避しつつ,有限個の一般的なランク-1有界可観測集合を正確に推定することが可能である。

We provide a new perspective on shadow tomography by demonstrating its deep connections with the general theory of measurement frames. By showing that the formalism of measurement frames offers a natural framework for shadow tomography -- in which ``classical shadows'' correspond to unbiased estimators derived from a suitable dual frame associated with the given measurement -- we highlight the intrinsic connection between standard state tomography and shadow tomography. Such perspective allows us to examine the interplay between measurements, reconstructed observables, and the estimators used to process measurement outcomes, while paving the way to assess the influence of the input state and the dimension of the underlying space on estimation errors. Our approach generalizes the method described in [H.-Y. Huang {\it et al.}, Nat. Phys. 16, 1050 (2020)], whose results are recovered in the special case of covariant measurement frames. As an application, we demonstrate that a sought-after target of shadow tomography can be achieved for the entire class of tight rank-1 measurement frames -- namely, that it is possible to accurately estimate a finite set of generic rank-1 bounded observables while avoiding the growth of the number of the required samples with the state dimension.
翻訳日:2023-02-01 18:56:00 公開日:2023-01-30
# Depth-1 Ansatzを用いた変分量子探索のほぼ完全到達性

Near-perfect Reachability of Variational Quantum Search with Depth-1 Ansatz ( http://arxiv.org/abs/2301.13224v1 )

ライセンス: Link先を確認
Junpeng Zhan(参考訳) グローバーの探索アルゴリズムは、多くの重要な科学的問題を解決する際の劇的なスピードアップで有名である。 最近提案された変分量子探索(VQS)アルゴリズムは、最大26キュービットのGroverアルゴリズムよりも指数関数的な優位性を示している。 しかし、より多くの量子ビットに対する利点はまだ証明されていない。 ここでは,Groverのアルゴリズムで要求される指数関数的に深い回路を,Ryゲートの1層,あるいはHadamardとNOTゲートの2層のいずれかで複数制御されたNOTゲートに置き換えることができることを示す。 我々は、ryゲートの単一層をアンサッツとして持つvqsが、任意に大きい非構造化データセットのよい要素を見つけるのにほぼ完全な到達可能性を持つことを証明し、到達可能性が与えられたアンサッツの量子状態を生成する能力を定量化するために到達可能性を定義する量子ビット数によって指数関数的に向上することを示す。 数値的研究は、VQSの優れた到達性をさらに検証する。 深さ1アンザッツで任意の量子ビットに対してVQSのほぼ完全な到達性を証明することは、任意の数の量子ビットに対してグロバーのアルゴリズムよりも指数関数的な優位性を証明するための重要なステップである。

Grover's search algorithm is renowned for its dramatic speedup in solving many important scientific problems. The recently proposed Variational Quantum Search (VQS) algorithm has shown an exponential advantage over Grover's algorithm for up to 26 qubits. However, its advantage for larger numbers of qubits has not yet been proven. Here we show that the exponentially deep circuit required by Grover's algorithm can be replaced by a multi-controlled NOT gate together with either a single layer of Ry gates or two layers of circuits consisting of Hadamard and NOT gates, which is valid for any number of qubits greater than five. We prove that the VQS, with a single layer of Ry gates as its Ansatz, has near-perfect reachability in finding the good element of an arbitrarily large unstructured data set, and its reachability exponentially improves with the number of qubits, where the reachability is defined to quantify the ability of a given Ansatz to generate an optimal quantum state. Numerical studies further validate the excellent reachability of the VQS. Proving the near-perfect reachability of the VQS, with a depth-1 Ansatz, for any number of qubits completes an essential step in proving its exponential advantage over Grover's algorithm for any number of qubits, and the latter proving is significant as it means that the VQS can efficiently solve NP-complete problems.
翻訳日:2023-02-01 18:55:39 公開日:2023-01-30
# 固有状態トレース距離を用いた量子多体積分性とカオスの同定

Identifying quantum many-body integrability and chaos using eigenstates trace distances ( http://arxiv.org/abs/2301.13218v1 )

ライセンス: Link先を確認
Reyhaneh Khasseh, Jiaju Zhang, Markus Heyl, and M. A. Rajabpour(参考訳) 量子多体積分性とカオスの概念は、量子物質の理解において基本的な重要性を持っているが、その正確な定義は未だ未解決のままである。 本研究では,量子多体積分可能性とカオスの代替指標を提案する。これは最寄りのサブシステムトレース距離による固有状態の統計に基づくものである。 これにより,ランダム行列理論,自由フェルミオン,bethe-ansatz 可解系,多体局在モデルなど,多種多様なパラダイムモデルシステムに対する広範な数値シミュレーションによる忠実な分類が可能となる。 レベルスポーティング統計から得られるような既存の指標は、すでに大きな成功を収めているものの、制限に直面している。 この懸念は、正確には解くことはできるが、レベルスペーシング統計に基づく特定のレジームではカオスとして分類され、導入されたインジケータは期待される量子多体積分可能性を示す。 我々は、最寄りのトレース距離で観測する普遍的な挙動について議論し、この指標が多体局在遷移などの他の文脈においても有用である可能性を指摘した。

While the concepts of quantum many-body integrability and chaos are of fundamental importance for the understanding of quantum matter, their precise definition has so far remained an open question. In this work, we introduce an alternative indicator for quantum many-body integrability and chaos, which is based on the statistics of eigenstates by means of nearest-neighbor subsystem trace distances. We show that this provides us with a faithful classification through extensive numerical simulations for a large variety of paradigmatic model systems including random matrix theories, free fermions, Bethe-ansatz solvable systems, and models of many-body localization. While existing indicators, such as those obtained from level-spacing statistics, have already been utilized with great success, they also face limitations. This concerns for instance the quantum many-body kicked top, which is exactly solvable but classified as chaotic in certain regimes based on the level-spacing statistics, while our introduced indicator signals the expected quantum many-body integrability. We discuss the universal behaviors we observe for the nearest-neighbor trace distances and point out that our indicator might be useful also in other contexts such as for the many-body localization transition.
翻訳日:2023-02-01 18:55:13 公開日:2023-01-30
# gaussian-boson-sampling-enhanced dense subgraph findingは効率的な古典アルゴリズムよりも限定的な利点を示している

Gaussian-boson-sampling-enhanced dense subgraph finding shows limited advantage over efficient classical algorithms ( http://arxiv.org/abs/2301.13217v1 )

ライセンス: Link先を確認
Naomi R. Solomons, Oliver F. Thomas, Dara P. S. McCutcheon(参考訳) 指数的量子優位性を達成するという最近の主張は、密度の低い部分グラフ発見の潜在的応用であるガウスボソンサンプリング(GBS)に注目されている。 高密度サブグラフ探索アルゴリズムに適用したgbsに対する損失やスペクトル不純物を含む誤差の発生源の影響について検討した。 これらのアルゴリズムの有効性は誤りに対して極めて堅牢であり、基礎となるGBSをシミュレートできる効率的な古典的アルゴリズムが存在することが判明した。 これらの結果は、古典的アプローチによる高密度サブグラフ問題に対するGBSベースのアルゴリズムの高速化は、ほとんどの多項式であるが、一般のGBSよりも損失と光子純度が劇的に低い量子デバイスで実現可能であることを示唆している。

Recent claims of achieving exponential quantum advantage have attracted attention to Gaussian boson sampling (GBS), a potential application of which is dense subgraph finding. We investigate the effects of sources of error including loss and spectral impurity on GBS applied to dense subgraph finding algorithms. We find that the effectiveness of these algorithms is remarkably robust to errors, to such an extent that there exist efficient classical algorithms that can simulate the underlying GBS. These results imply that the speedup of GBS-based algorithms for the dense subgraph problem over classical approaches is at most polynomial, though this could be achieved on a quantum device with dramatically less stringent requirements on loss and photon purity than general GBS.
翻訳日:2023-02-01 18:54:51 公開日:2023-01-30
# 量子多体系の波動関数ネットワーク記述とコルモゴロフ複雑性

Wave function network description and Kolmogorov complexity of quantum many-body systems ( http://arxiv.org/abs/2301.13216v1 )

ライセンス: Link先を確認
T. Mendes-Santos, M. Schmitt, A. Angelone, A. Rodriguez, P. Scholl, H. J. Williams, D. Barredo, T. Lahaye, A. Browaeys, M. Heyl, M. Dalmonte(参考訳) プログラム可能な量子デバイスは、これまでにないレベルの波動関数を探索することができる。 これは、原子と量子ビット配列の多体状態を計測ベースに投影し、システム波動関数のスナップショットを生成する能力に基づいている。 しかし、そのような観測から情報を抽出して処理することは、未解決の探求である。 しばしば低次相関関数(つまり利用可能な情報コンテンツの大半を破棄する)を分析する。 本稿では,ネットワーク理論に基づく波動関数スナップショットを記述する数学的枠組みである波動関数ネットワークを紹介する。 多体システムでは、これらのネットワークはスケールフリーになり、生物学から疫病、インターネット科学まで幅広い分野において大きな成功を収めた数学的構造である。 量子シミュレータの出力に対応するコルモゴロフ複雑性を抽出するためのプロトコルを導入し、ネットワーク間の類似性テストに基づいて、完全にスケーラブルなクロスプラットフォーム認証ツールを実装することにより、これらの手法を量子科学に適用する可能性を実証する。 最大100個の原子を操作するrydberg量子シミュレータからのデータを分析するスケールフリーネットワークの出現を実証する。 位相遷移を横切ると、相関長が増加するにつれてシステムの複雑性が減少し、データ空間における普遍的な振る舞いを構築する直接的なサインとなる。 数値シミュレーションを用いて実験を行い、信頼性90%の4$\mu$ sまでの波動関数レベルでのクロス認証を実現し、前例のない精度で実験校正間隔を決定する。 我々のフレームワークは、システム波動関数にその場でアクセス可能な量子コンピュータやシミュレータの出力に汎用的に適用でき、現在利用可能なほとんどのプラットフォームで利用できる精度と繰り返し率を求める必要がある。

Programmable quantum devices are now able to probe wave functions at unprecedented levels. This is based on the ability to project the many-body state of atom and qubit arrays onto a measurement basis which produces snapshots of the system wave function. Extracting and processing information from such observations remains, however, an open quest. One often resorts to analyzing low-order correlation functions - i.e., discarding most of the available information content. Here, we introduce wave function networks - a mathematical framework to describe wave function snapshots based on network theory. For many-body systems, these networks can become scale free - a mathematical structure that has found tremendous success in a broad set of fields, ranging from biology to epidemics to internet science. We demonstrate the potential of applying these techniques to quantum science by introducing protocols to extract the Kolmogorov complexity corresponding to the output of a quantum simulator, and implementing tools for fully scalable cross-platform certification based on similarity tests between networks. We demonstrate the emergence of scale-free networks analyzing data from Rydberg quantum simulators manipulating up to 100 atoms. We illustrate how, upon crossing a phase transition, the system complexity decreases while correlation length increases - a direct signature of build up of universal behavior in data space. Comparing experiments with numerical simulations, we achieve cross-certification at the wave-function level up to timescales of 4 $\mu$ s with a confidence level of 90%, and determine experimental calibration intervals with unprecedented accuracy. Our framework is generically applicable to the output of quantum computers and simulators with in situ access to the system wave function, and requires probing accuracy and repetition rates accessible to most currently available platforms.
翻訳日:2023-02-01 18:54:37 公開日:2023-01-30
# エンタングルメントは送信よりもテレポートが優れている

Entanglement is better teleported than transmitted ( http://arxiv.org/abs/2301.13212v1 )

ライセンス: Link先を確認
Koji Yamaguchi and Achim Kempf(参考訳) 量子場を経由する量子通信の目的では、フィールドを伝送の媒体としてだけでなく、通信タスクを補助する絡み合いの源として見ることが不可欠であることを示す。 この目的のために、Alice が最初 ancilla に絡まっており、Bob を ancilla に絡まわせるために、量子場を通して Bob と通信しようとする量子通信シナリオを考える。 アリスとボブが直接量子場に結合して通信するならば、彼らは2番目の摂動次数よりも高い順序でのみボブとアンシラの間のネガティビティを生成することができる。 次に、aliceとbobが相互作用や収穫によってフィールドから取得した絡み合いを消費する量子テレポーテーションに基づくプロトコルを提案する。 このプロトコルは、既に第2の摂動順序に負性を持たせることを示す。

We show that, for the purpose of quantum communication via a quantum field, it is essential to view the field not only as a medium for transmission but also as a source of entanglement that can aid in the communication task. To this end, we consider the quantum communication scenario where Alice is initially entangled with an ancilla and intends to communicate with Bob through a quantum field, so as to make Bob entangled with the ancilla. We find that if Alice and Bob communicate by directly coupling to the quantum field, then they can generate negativity between Bob and the ancilla only at orders that are higher than second perturbative order. We then present a protocol based on quantum teleportation in which Alice and Bob consume entanglement that they obtained from the field via interaction or harvesting. We show that this protocol can transfer negativity already to second perturbative order.
翻訳日:2023-02-01 18:54:14 公開日:2023-01-30
# 実用制約下における衛星量子鍵分布の有限鍵性能

Finite key performance of satellite quantum key distribution under practical constraints ( http://arxiv.org/abs/2301.13209v1 )

ライセンス: Link先を確認
Jasminder S. Sidhu and Thomas Brougham and Duncan McArthur and Roberto G. Pousa and Daniel K. L. Oi(参考訳) グローバルスケールの量子通信ネットワークは、量子信号の効率的な長距離分布を必要とする。 光ファイバー通信チャネルは、量子メモリとリピータの欠如による指数的損失による範囲制約を持つ。 衛星は、より良質な逆方形自由空間減衰と遠距離線を利用して大陸間量子通信を可能にする。 しかし、衛星量子鍵分布(QKD)の設計と工学は困難であり、地球上のQKDネットワークと運用の特徴的な違いはさらなる課題をもたらす。 衛星qkd(satqkd)をモデル化する典型的なアプローチは、完全な最適化されたプロトコルパラメータ空間とペイロードとプラットフォームリソースの制限の少ないパフォーマンスを推定することであった。 ここでは,ベネット・ブラザード1984 (BB84) の弱コヒーレントパルスデコイ状態プロトコルにおいて,SatQKDの実用的制約が有限鍵サイズ効果に与える影響を分析する。 我々は、軌道内チューナビリティの制限、量子乱数生成率とストレージ、ソース強度の不確かさを含むミッション設計におけるエンジニアリング上の限界とトレードオフを検討する。 我々は,SatQKDの性能限界を定量化し,長期キー生成能力を決定するとともに,今後のミッションの設計を支援する重要な性能ベンチマークを提供する。

Global-scale quantum communication networks will require efficient long-distance distribution of quantum signals. Optical fibre communication channels have range constraints due to exponential losses in the absence of quantum memories and repeaters. Satellites enable intercontinental quantum communication by exploiting more benign inverse square free-space attenuation and long sight lines. However, the design and engineering of satellite quantum key distribution (QKD) systems are difficult and characteristic differences to terrestrial QKD networks and operations pose additional challenges. The typical approach to modelling satellite QKD (SatQKD) has been to estimate performances with a fully optimised protocol parameter space and with few payload and platform resource limitations. Here, we analyse how practical constraints affect the performance of SatQKD for the Bennett-Brassard 1984 (BB84) weak coherent pulse decoy state protocol with finite key size effects. We consider engineering limitations and trade-offs in mission design including limited in-orbit tunability, quantum random number generation rates and storage, and source intensity uncertainty. We quantify practical SatQKD performance limits to determine the long-term key generation capacity and provide important performance benchmarks to support the design of upcoming missions.
翻訳日:2023-02-01 18:53:59 公開日:2023-01-30
# 特異波動関数の量子軌道解析

A quantum trajectory analysis of singular wave functions ( http://arxiv.org/abs/2301.13207v1 )

ライセンス: Link先を確認
A. S. Sanz, L. L. Sanchez-Soto, A. Aiello(参考訳) Schr\"{o}dinger 方程式は、自由粒子に対しても自然に特異点へと発展する滑らかで有限な解を認める。 この爆発は一般的に、関連する時間進化の固有の分散特性に比定される。 この特異な振る舞いを再解釈するために量子軌道の概念を用いる。 このブローアップは、量子束を特異領域に向けて駆動する基礎となる速度場を生成する局所位相変動に直接関連していることが示された。

The Schr\"{o}dinger equation admits smooth and finite solutions that spontaneously evolve into a singularity, even for a free particle. This blowup is generally ascribed to the intrinsic dispersive character of the associated time evolution. We resort to the notion of quantum trajectories to reinterpret this singular behavior. We show that the blowup can be directly related to local phase variations, which generate an underlying velocity field responsible for driving the quantum flux toward the singular region.
翻訳日:2023-02-01 18:53:39 公開日:2023-01-30
# 曲線時空におけるディラック方程式:局所フェルミ速度の役割

Dirac equation in curved spacetime: the role of local Fermi velocity ( http://arxiv.org/abs/2301.12952v1 )

ライセンス: Link先を確認
B. Bagchi, A. Gallerati, R. Ghosh(参考訳) 我々は、局所フェルミ速度の存在下で、曲線状ディラック材料中の電荷キャリアの動的方程式を研究する。 ナノスクロール円筒形状に対する後者の出現量の明示的なパラメータ化と、関連する物理的効果と観測可能な性質の議論も提供する。

We study the dynamical equations of charge carriers in curved Dirac materials, in the presence of a local Fermi velocity. An explicit parameterization of the latter emerging quantity for a nanoscroll cylindrical geometry is also provided, together with a discussion of related physical effects and observable properties.
翻訳日:2023-02-01 18:53:31 公開日:2023-01-30
# 物理インフォームドニューラルネットワークの時間的一貫性損失

Temporal Consistency Loss for Physics-Informed Neural Networks ( http://arxiv.org/abs/2301.13262v1 )

ライセンス: Link先を確認
Sukirt Thakur, Maziar Raissi, Harsa Mitra and Arezoo Ardekani(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、ディープニューラルネットワークを用いて偏微分方程式を前方および逆方向に解くために広く用いられている。 しかし、これらのネットワークのトレーニングは、マルチスケールな問題では難しい。 統計的手法はデータの回帰損失をスケールするために用いられるが、一般に方程式の損失項をスケールすることは困難である。 本稿では,ピンを訓練する目的関数における平均二乗損失項をスケールする方法を提案する。 時間微分を計算するために自動微分を用いる代わりに、後方オイラー離散化を用いる。 これにより、方程式のスケーリング用語が得られます。 本研究では,2次元および3次元ナビエ・ストークス方程式を考察し,速度および圧力場の時空間データを用いて運動粘度を決定する。 まず,本手法をテストするための数値データセットを検討する。 本手法の時間ステップサイズ,時間ステップ数,データ中のノイズ,空間分解能に対する感度をテストする。 最後に、粒子画像速度測定(PIV)実験を用いて得られた速度場を用いて基準圧力場を生成する。 次に、velocity と reference pressure field を使ってフレームワークをテストします。

Physics-informed neural networks (PINNs) have been widely used to solve partial differential equations in a forward and inverse manner using deep neural networks. However, training these networks can be challenging for multiscale problems. While statistical methods can be employed to scale the regression loss on data, it is generally challenging to scale the loss terms for equations. This paper proposes a method for scaling the mean squared loss terms in the objective function used to train PINNs. Instead of using automatic differentiation to calculate the temporal derivative, we use backward Euler discretization. This provides us with a scaling term for the equations. In this work, we consider the two and three-dimensional Navier-Stokes equations and determine the kinematic viscosity using the spatio-temporal data on the velocity and pressure fields. We first consider numerical datasets to test our method. We test the sensitivity of our method to the time step size, the number of timesteps, noise in the data, and spatial resolution. Finally, we use the velocity field obtained using Particle Image Velocimetry (PIV) experiments to generate a reference pressure field. We then test our framework using the velocity and reference pressure field.
翻訳日:2023-02-01 18:47:15 公開日:2023-01-30
# ブラインドナビゲーションエージェントの記憶における地図の出現

Emergence of Maps in the Memories of Blind Navigation Agents ( http://arxiv.org/abs/2301.13261v1 )

ライセンス: Link先を確認
Erik Wijmans, Manolis Savva, Irfan Essa, Stefan Lee, Ari S. Morcos, Dhruv Batra(参考訳) 動物航法研究は、生物が環境の空間的表現(地図)を構築、維持するものである。 私たちはマシン(特に人工知能(AI)ナビゲーションエージェント)が暗黙の(あるいは「メンタル」な)マップを構築するかどうか尋ねる。 この質問に対するポジティブな答えは (a)目立たないマップフリーニューラルネットワークの最近の文献における驚くべき現象の説明、及び b) 生物か人工かにかかわらず、インテリジェントなエンボディエージェントによるナビゲーションの基本的なメカニズムとしてのマッピングの証拠を強化すること。 動物ナビゲーションとは異なり、エージェントの知覚システムの設計と学習パラダイムの制御によって、代替のナビゲーションメカニズムを無効化することができる。 具体的には、強化学習を通じてPointGoalナビゲーション('go to $\Delta$ x, $\Delta$ y')を実行するために、エゴモーションのみに制限のある"盲検エージェントを訓練します。 我々のエージェントはナビゲーションに依存しないコンポーネント(完全接続および繰り返しニューラルネットワーク)で構成されており、我々の実験装置はマッピングに対する誘導バイアスを与えない。 Despite these harsh conditions, we find that blind agents are (1) surprisingly effective navigators in new environments (~95% success); (2) they utilize memory over long horizons (remembering ~1,000 steps of past experience in an episode); (3) this memory enables them to exhibit intelligent behavior (following walls, detecting collisions, taking shortcuts); (4) there is emergence of maps and collision detection neurons in the representations of the environment built by a blind agent as it navigates; and (5) the emergent maps are selective and task dependent (e.g. the agent 'forgets' exploratory detours). 全体として、この論文はAIのオーディエンスに新しいテクニックを提供するのではなく、驚くべき発見、洞察、説明を提供する。

Animal navigation research posits that organisms build and maintain internal spatial representations, or maps, of their environment. We ask if machines -- specifically, artificial intelligence (AI) navigation agents -- also build implicit (or 'mental') maps. A positive answer to this question would (a) explain the surprising phenomenon in recent literature of ostensibly map-free neural-networks achieving strong performance, and (b) strengthen the evidence of mapping as a fundamental mechanism for navigation by intelligent embodied agents, whether they be biological or artificial. Unlike animal navigation, we can judiciously design the agent's perceptual system and control the learning paradigm to nullify alternative navigation mechanisms. Specifically, we train 'blind' agents -- with sensing limited to only egomotion and no other sensing of any kind -- to perform PointGoal navigation ('go to $\Delta$ x, $\Delta$ y') via reinforcement learning. Our agents are composed of navigation-agnostic components (fully-connected and recurrent neural networks), and our experimental setup provides no inductive bias towards mapping. Despite these harsh conditions, we find that blind agents are (1) surprisingly effective navigators in new environments (~95% success); (2) they utilize memory over long horizons (remembering ~1,000 steps of past experience in an episode); (3) this memory enables them to exhibit intelligent behavior (following walls, detecting collisions, taking shortcuts); (4) there is emergence of maps and collision detection neurons in the representations of the environment built by a blind agent as it navigates; and (5) the emergent maps are selective and task dependent (e.g. the agent 'forgets' exploratory detours). Overall, this paper presents no new techniques for the AI audience, but a surprising finding, an insight, and an explanation.
翻訳日:2023-02-01 18:46:56 公開日:2023-01-30
# 安全小体着陸のための深部単眼ハザード検出

Deep Monocular Hazard Detection for Safe Small Body Landing ( http://arxiv.org/abs/2301.13254v1 )

ライセンス: Link先を確認
Travis Driver, Kento Tomita, Koki Ho, Panagiotis Tsiotras(参考訳) 危険検出と回避は、将来のロボット小天体のサンプル回収と着陸ミッションの鍵となる技術である。 現在の実践的手法は、地図の不確実性を解決するために、広範囲にわたる人道的検証と高価な偵察活動を必要とする先駆的な地形地図である高忠実さに依存している。 本稿では,1つの単眼画像から直接着陸安全性を予測するために,深い意味的セグメンテーション技術を活用した新しい安全性マッピングパラダイムを提案する。 我々は,osiris-rexミッションの有望なサンプルサイトの実地画像上で,正確かつ正確な安全マッピング性能を示す。

Hazard detection and avoidance is a key technology for future robotic small body sample return and lander missions. Current state-of-the-practice methods rely on high-fidelity, a priori terrain maps, which require extensive human-in-the-loop verification and expensive reconnaissance campaigns to resolve mapping uncertainties. We propose a novel safety mapping paradigm that leverages deep semantic segmentation techniques to predict landing safety directly from a single monocular image, thus reducing reliance on high-fidelity, a priori data products. We demonstrate precise and accurate safety mapping performance on real in-situ imagery of prospective sample sites from the OSIRIS-REx mission.
翻訳日:2023-02-01 18:46:28 公開日:2023-01-30
# bohm-de broglie サイクル

Bohm - de Broglie Cycles ( http://arxiv.org/abs/2301.13251v1 )

ライセンス: Link先を確認
Olivier Piguet(参考訳) de broglie-bohm量子理論では、粒子はその波動関数に関連する磁束によって決定される軌道を記述する。 これらの軌道は相対論的スピン・ワン・ハーフ粒子に対して研究され、次元3次元の無質量粒子の場合の明示的な数値計算により、波動関数が全角運動量の固有関数である場合、軌道は直線をたどる遷移時間まで徐々に増加する半径の円として始まることが示されている。 ある検出器における位置時間とそれらの確率分布も計算される。 選択されたエネルギーと運動量パラメータは、グラフェンの物理学で満たされる桁数である。

In the de Broglie-Bohm quantum theory, particles describe trajectories determined by the flux associated with their wave function. These trajectories are studied here for relativistic spin-one-half particles.Based in explicit numerical calculations for the case of a massless particle in dimension three space-time, it is shown that if the wave function is an eigenfunction of the total angular momentum, the trajectories begin as circles of slowly increasing radius until a transition time at which they tend to follow straight lines. Arrival times at some detector, as well as their probability distribution are calculated, too. The chosen energy and momentum parameters are of the orders of magnitude met in graphene's physics.
翻訳日:2023-02-01 18:46:18 公開日:2023-01-30
# オンライン損失関数学習

Online Loss Function Learning ( http://arxiv.org/abs/2301.13247v1 )

ライセンス: Link先を確認
Christian Raymond, Qi Chen, Bing Xue, Mengjie Zhang(参考訳) ロス関数学習は、機械学習モデルの損失関数を設計する重要なタスクを自動化することを目的とした、新しいメタ学習パラダイムである。 既存の損失関数学習技術は有望な結果を示し、しばしばモデルのトレーニング力学と最終的な推論性能を改善している。 しかしながら、これらのテクニックの重要な制限は、損失関数がオフラインでメタ学習されるという点であり、メタ目的はトレーニングの最初の数ステップのみを考慮し、深層ニューラルネットワークのトレーニングで一般的に使用されるものよりもはるかに短い時間軸である。 これにより、トレーニング開始時にうまく機能するが、トレーニング終了時に性能が低下する損失関数に対する大きな偏りが生じる。 この問題に対処するために,ベースモデルパラメータの更新毎にオンラインに損失関数を適応的に更新する新しい損失関数学習手法を提案する。 実験の結果,提案手法は多種多様なニューラルネットワークアーキテクチャとデータセット上で,クロスエントロピー損失とオフライン損失関数学習技術より一貫して優れていた。

Loss function learning is a new meta-learning paradigm that aims to automate the essential task of designing a loss function for a machine learning model. Existing techniques for loss function learning have shown promising results, often improving a model's training dynamics and final inference performance. However, a significant limitation of these techniques is that the loss functions are meta-learned in an offline fashion, where the meta-objective only considers the very first few steps of training, which is a significantly shorter time horizon than the one typically used for training deep neural networks. This causes significant bias towards loss functions that perform well at the very start of training but perform poorly at the end of training. To address this issue we propose a new loss function learning technique for adaptively updating the loss function online after each update to the base model parameters. The experimental results show that our proposed method consistently outperforms the cross-entropy loss and offline loss function learning techniques on a diverse range of neural network architectures and datasets.
翻訳日:2023-02-01 18:46:07 公開日:2023-01-30
# 会話型自動プログラム修復

Conversational Automated Program Repair ( http://arxiv.org/abs/2301.13246v1 )

ライセンス: Link先を確認
Chunqiu Steven Xia, Lingming Zhang(参考訳) 自動プログラム修正(APR)は、開発者がバグのパッチを自動的に生成するのに役立つ。 多くのコード関連タスクでLLM(Large Pre-Trained Language Model)を使用して得られた印象的なパフォーマンスのため、研究者はAPRにLLMを直接使用し始めた。 しかし、以前のアプローチでは、元のバギーコードから作成された同じ構成の入出力/プロンプトをllmで繰り返しサンプリングし、同じ不正なパッチを繰り返し生成するだけでなく、テストケースで重要な情報を見逃してしまう。 そこで本研究では,パッチ生成と検証を交互に交互に行うプログラム修復の新しいパラダイムである対話型aprを提案する。 会話型aprでは,事前に生成したパッチと検証フィードバックを組み合わせることで,モデルへの入力を反復的に構築する。 したがって、LLMの長期的コンテキストウインドウを活用して、以前誤ったパッチを生成することを避けるだけでなく、検証フィードバックを組み込んで、テスト中のプログラムの意味をモデルが理解できるようにする。 新たに開発したChatGPTモデルを含む10種類のLLMを評価し,従来のLLMよりも会話型APRの改善を実証した。

Automated Program Repair (APR) can help developers automatically generate patches for bugs. Due to the impressive performance obtained using Large Pre-Trained Language Models (LLMs) on many code related tasks, researchers have started to directly use LLMs for APR. However, prior approaches simply repeatedly sample the LLM given the same constructed input/prompt created from the original buggy code, which not only leads to generating the same incorrect patches repeatedly but also miss the critical information in testcases. To address these limitations, we propose conversational APR, a new paradigm for program repair that alternates between patch generation and validation in a conversational manner. In conversational APR, we iteratively build the input to the model by combining previously generated patches with validation feedback. As such, we leverage the long-term context window of LLMs to not only avoid generating previously incorrect patches but also incorporate validation feedback to help the model understand the semantic meaning of the program under test. We evaluate 10 different LLM including the newly developed ChatGPT model to demonstrate the improvement of conversational APR over the prior LLM for APR approach.
翻訳日:2023-02-01 18:45:51 公開日:2023-01-30
# Mono-STAR:モノカメラのシーンレベルの追跡と再構成

Mono-STAR: Mono-camera Scene-level Tracking and Reconstruction ( http://arxiv.org/abs/2301.13244v1 )

ライセンス: Link先を確認
Haonan Chang, Dhruv Metha Ramesh, Shijie Geng, Yuqiu Gan, Abdeslam Boularias(参考訳) 我々は,意味融合,高速モーショントラッキング,非剛性物体の変形,トポロジ的変化を同時にサポートする,初めてのリアルタイム3次元再構成システムであるMono-STARを提案する。 提案システムでは,高速動作に対応するための光フローベース2D制約とトポロジ変化を扱うための新しい意味認識変形グラフ(SADグラフ)を組み合わせた新しい最適化問題を解く。 提案システムを様々な課題場面でテストし,既存の最先端手法を著しく上回っていることを示す。

We present Mono-STAR, the first real-time 3D reconstruction system that simultaneously supports semantic fusion, fast motion tracking, non-rigid object deformation, and topological change under a unified framework. The proposed system solves a new optimization problem incorporating optical-flow-based 2D constraints to deal with fast motion and a novel semantic-aware deformation graph (SAD-graph) for handling topology change. We test the proposed system under various challenging scenes and demonstrate that it significantly outperforms existing state-of-the-art methods.
翻訳日:2023-02-01 18:45:32 公開日:2023-01-30
# SpinQ: スケーラブルなスピンキュービットアーキテクチャのためのコンパイル戦略

SpinQ: Compilation strategies for scalable spin-qubit architectures ( http://arxiv.org/abs/2301.13241v1 )

ライセンス: Link先を確認
Nikiforos Paraskevopoulos, Fabio Sebastiano, Carmen G. Almudever, Sebastian Feld(参考訳) ほとんどの量子化では、プロトタイプデバイスが利用可能であり、すでに産業研究と学術研究の両方で利用されている。 厳格な制約にもかかわらず、ハードウェアとアルゴリズムによる量子回路マッピング技術が開発され、nisq時代にアルゴリズムの実行を成功させ、主に量子ビット数の高い技術をターゲットにしている。 スピン量子ビットに基づく量子プロセッサのコンパイル方法の実装には、現在の実験装置の可用性が低く、サイズも小さいため、あまり注目されていない。 しかし、その高いスケーラビリティと急速な進歩を踏まえて、これらのスピン量子ビットデバイスに対する量子回路マッピングソリューションの探索を始めるのが時期尚早である。 本稿では、分散制御 [arXiv:1711.03807] を備えたスケーラブルなスピンキュービットクロスバーアーキテクチャのユニークなマッピング課題について論じ、このクロスバーアーキテクチャ上で量子アルゴリズムをマッピングするスケーラブルなスピンキュービットアーキテクチャのための最初のネイティブコンパイルフレームワークである$\textit{SpinQ}$を紹介した。 $\textit{SpinQ}$の中核にある$\textit{Integrated Strategy}$は、コンパイル(実行時間)のスケーラビリティを考慮しつつ、クロスバーのユニークな運用上の制約に対処し、$O(n)$の計算複雑性を持つ。 このアーキテクチャで$\textit{SpinQ}$の性能を評価するために、我々は、よく定義された量子回路の広いセットをコンパイルし、ゲートオーバーヘッド、深さオーバーヘッド、推定成功確率などの複数の指標に基づいて詳細な分析を行い、その結果、ユニークなマッピングとアーキテクチャの洞察を作成できた。 最後に、アルゴリズムの成功率を高め、他のスケーラブルなスピンキュービットアーキテクチャのための量子回路マッピング技術をさらに研究する可能性があるクロスバーアーキテクチャの新しいマッピング手法を提案する。

In most qubit realizations, prototype devices are available and are already utilized in both industry and academic research. Despite being severely constrained, hardware- and algorithm-aware quantum circuit mapping techniques have been developed for enabling successful algorithm executions during the NISQ era, targeting mostly technologies with high qubit counts. Not so much attention has been paid to the implementation of compilation methods for quantum processors based on spin-qubits due to the scarce availability of current experimental devices and their small sizes. However, based on their high scalability potential and their rapid progress it is timely to start exploring quantum circuit mapping solutions for these spin-qubit devices. In this work, we discuss the unique mapping challenges of a scalable spin-qubit crossbar architecture with shared control [arXiv:1711.03807] and introduce $\textit{SpinQ}$, the first native compilation framework for scalable spin-qubit architectures that maps quantum algorithms on this crossbar architecture. At the core of $\textit{SpinQ}$ is the $\textit{Integrated Strategy}$ that addresses the unique operational constraints of the crossbar while considering compilation (execution time) scalability, having a $O(n)$ computational complexity. To evaluate the performance of $\textit{SpinQ}$ on this novel architecture, we compiled a broad set of well-defined quantum circuits and performed an in-depth analysis based on multiple metrics such as gate overhead, depth overhead, and estimated success probability, which in turn allowed us to create unique mapping and architectural insights. Finally, we propose novel mapping technique improvements for the crossbar architecture that could increase algorithm success rates and potentially inspire further research on quantum circuit mapping techniques for other scalable spin-qubit architectures.
翻訳日:2023-02-01 18:45:22 公開日:2023-01-30
# SoftTreeMax:木探索による政策勾配の指数変数削減

SoftTreeMax: Exponential Variance Reduction in Policy Gradient via Tree Search ( http://arxiv.org/abs/2301.13236v1 )

ライセンス: Link先を確認
Gal Dalal, Assaf Hallak, Gugan Thoppe, Shie Mannor, Gal Chechik(参考訳) ポリシー勾配法の人気にもかかわらず、大きなばらつきと高いサンプル複雑さに苦しむことが知られている。 これを軽減するために、我々はSoftTreeMaxを紹介します。 SoftTreeMaxでは、複数段階の累積報酬で従来のロジットを拡張し、将来の状態のロジットを上乗せします。 softtreemax の2つの変種を考える。1つは累積報酬、もう1つは累積報酬である。 いずれの場合も勾配分散を解析し,この分散を緩和する上で,木展開ポリシーの役割を初めて明らかにする。 その結果,展開方針の関数として計画地平線が指数関数的に崩壊することを証明する。 具体的には、結果として生じる状態遷移がより近いほど、崩壊が速くなることを示す。 実用的な実装として,並列gpuベースのシミュレータを用いて高速かつ効率的な木探索を行う。 我々の分化可能なツリーベースのポリシーは、従来の単一サンプルベースの勾配ではなく、各環境における木の葉のすべての勾配を利用する。 次に, 勾配のばらつきを3桁小さくするシミュレーションを行い, 標準政策勾配と比較して, サンプルの複雑さが向上することを示した。 Atariでは、SoftTreeMaxは、分散PPOと比較して、より高速な実行時間で最大5倍のパフォーマンスを示す。 最後に,高い報酬は低い分散と相関することを示す。

Despite the popularity of policy gradient methods, they are known to suffer from large variance and high sample complexity. To mitigate this, we introduce SoftTreeMax -- a generalization of softmax that takes planning into account. In SoftTreeMax, we extend the traditional logits with the multi-step discounted cumulative reward, topped with the logits of future states. We consider two variants of SoftTreeMax, one for cumulative reward and one for exponentiated reward. For both, we analyze the gradient variance and reveal for the first time the role of a tree expansion policy in mitigating this variance. We prove that the resulting variance decays exponentially with the planning horizon as a function of the expansion policy. Specifically, we show that the closer the resulting state transitions are to uniform, the faster the decay. In a practical implementation, we utilize a parallelized GPU-based simulator for fast and efficient tree search. Our differentiable tree-based policy leverages all gradients at the tree leaves in each environment step instead of the traditional single-sample-based gradient. We then show in simulation how the variance of the gradient is reduced by three orders of magnitude, leading to better sample complexity compared to the standard policy gradient. On Atari, SoftTreeMax demonstrates up to 5x better performance in a faster run time compared to distributed PPO. Lastly, we demonstrate that high reward correlates with lower variance.
翻訳日:2023-02-01 18:44:49 公開日:2023-01-30
# 長距離ホッピングとペアリングを持つ北エフ鎖における対数・フラクタル・ボリュームロー絡み

Logarithmic, Fractal and Volume-Law Entanglement in a Kitaev chain with long-range hopping and pairing ( http://arxiv.org/abs/2301.13231v1 )

ライセンス: Link先を確認
Andrea Solfanelli, Stefano Ruffo, Sauro Succi, Nicol\`o Defenu(参考訳) 彼らの顕著な集団的特徴により、長距離の相互作用は情報拡散を促進し、局所的な相互作用を持つ従来のシステムでは観察できないエンタングルメントスケーリングの形式を生成する。 本研究では,長距離ホッピングとペアリングカップリングが崩壊するキタエフ鎖の絡み合いエントロピーの漸近挙動について,距離のパワー則を用いて検討する。 我々は,大規模サブシステムサイズ限界における基底状態の絡み合いの漸近的成長を解析的および数値的に解析し,真の非局所的な性質が極めて豊かな現象論をもたらすことを見出した。 最も顕著なのは, 強長距離体制において, 化学ポテンシャルの値や動力法則の崩壊の強さによって, 系基底状態が対数的, フラクタル的, あるいは体積則絡み合いスケーリングを持つ可能性があることであった。

Thanks to their prominent collective character, long-range interactions promote information spreading and generate forms of entanglement scaling, which cannot be observed in traditional systems with local interactions. In this work, we study the asymptotic behavior of the entanglement entropy for Kitaev chains with long-range hopping and pairing couplings decaying with a power law of the distance. We provide a fully-fledged analytical and numerical characterization of the asymptotic growth of the ground state entanglement in the large subsystem size limit, finding that the truly non-local nature of the model leads to an extremely rich phenomenology. Most significantly, in the strong long-range regime, we discovered that the system ground state may have a logarithmic, fractal, or volume-law entanglement scaling, depending on the value of the chemical potential and on the strength of the power law decay.
翻訳日:2023-02-01 18:44:30 公開日:2023-01-30
# team plan recognition: the state of the artのレビュー

Team Plan Recognition: A Review of the State of the Art ( http://arxiv.org/abs/2301.13288v1 )

ライセンス: Link先を確認
Loren Rieffer-Champlin(参考訳) 協調作業に従事する人間のグループを支援する人工知能システムの開発の必要性が高まっている。 これらのシステムは、共通の目的に向かって作業する人間のチームに対する行動の計画と関係を認識し、理解する必要がある。 この記事では、チームプラン認識に関する文献をレビューし、それを実装するための最新のロジックベースのアプローチを調査します。 まず、チーム設定における計画認識の一般的な定義や実装上の課題に関する議論など、いくつかの背景知識を提供する。 次に,論理ベースの手法に着目した推論について述べる。 最後に、論理ベースの手法(プランライブラリベースとドメイン理論ベース)の2つの主要なクラスから最近のアプローチを調査した。 私たちは、このささやかなが重要なトピックにもっと注意を向け、チームプラン認識を実装するための新しい方向性を刺激することを目指しています。

There is an increasing need to develop artificial intelligence systems that assist groups of humans working on coordinated tasks. These systems must recognize and understand the plans and relationships between actions for a team of humans working toward a common objective. This article reviews the literature on team plan recognition and surveys the most recent logic-based approaches for implementing it. First, we provide some background knowledge, including a general definition of plan recognition in a team setting and a discussion of implementation challenges. Next, we explain our reasoning for focusing on logic-based methods. Finally, we survey recent approaches from two primary classes of logic-based methods (plan library-based and domain theory-based). We aim to bring more attention to this sparse but vital topic and inspire new directions for implementing team plan recognition.
翻訳日:2023-02-01 18:38:24 公開日:2023-01-30
# MILO: 効率的なモデルトレーニングとチューニングのためのモデル非依存サブセット選択フレームワーク

MILO: Model-Agnostic Subset Selection Framework for Efficient Model Training and Tuning ( http://arxiv.org/abs/2301.13287v1 )

ライセンス: Link先を確認
Kirshnateja Killamsetty, Alexandre V. Evfimievski, Tejaswini Pedapati, Kiran Kate, Lucian Popa, Rishabh Iyer(参考訳) ディープネットワークのトレーニングと大規模なデータセットでのハイパーパラメータのチューニングは、計算集約的だ。 効率的なトレーニングのための主要な研究方向の1つは、トレーニングデータの一般化されたサブセットを選択することで、トレーニングコストを削減することである。 単純な適応的ランダムなサブセット選択ベースラインと比較して、既存のインテリジェントなサブセット選択アプローチは、モデル依存の勾配と特徴埋め込みを計算し、部分モジュラー目的のグリーディ最大化を適用するという、時間を要するサブセット選択ステップのために競合しない。 我々の重要な洞察は、下流モデルパラメータへの依存をなくすことで、サブセットを前処理ステップとして選択することができ、追加コストなしで複数のモデルをトレーニングできるということです。 そこで本研究では,モデルに依存しないサブセット選択フレームワークMILOを提案し,モデル学習からサブセット選択を分離し,より優れたモデル収束と性能を実現する。 実験結果から,miloはモデル3倍のトレーニング – 10倍の速度 – ハイパーパラメータ20倍のチューニング – 75倍の速度 – を,パフォーマンスを損なうことなく,フルデータセットのトレーニングやチューニングよりも高速にトレーニングできることがわかった。

Training deep networks and tuning hyperparameters on large datasets is computationally intensive. One of the primary research directions for efficient training is to reduce training costs by selecting well-generalizable subsets of training data. Compared to simple adaptive random subset selection baselines, existing intelligent subset selection approaches are not competitive due to the time-consuming subset selection step, which involves computing model-dependent gradients and feature embeddings and applies greedy maximization of submodular objectives. Our key insight is that removing the reliance on downstream model parameters enables subset selection as a pre-processing step and enables one to train multiple models at no additional cost. In this work, we propose MILO, a model-agnostic subset selection framework that decouples the subset selection from model training while enabling superior model convergence and performance by using an easy-to-hard curriculum. Our empirical results indicate that MILO can train models $3\times - 10 \times$ faster and tune hyperparameters $20\times - 75 \times$ faster than full-dataset training or tuning without compromising performance.
翻訳日:2023-02-01 18:38:14 公開日:2023-01-30
# 絡み合い状態は局所変換の下での絡み合いの測定に対応するか?

Do entangled states correspond to entangled measurements under local transformations? ( http://arxiv.org/abs/2301.13285v1 )

ライセンス: Link先を確認
Florian Pimpel, Martin J. Renner and Armin Tavakoli(参考訳) 純粋に絡み合った状態が、すべてのベクトルが元の状態の局所ユニタリ変換であるような測定基底に関連付けられるかどうかを調べる。 局所次元が 2, 4$ または 8$ の双党状態の場合、全ての状態が基底に対応することを証明している。 via numerics では、2つの qutrits と 3つの qubits についても、同じ結論を強く証明している。 しかし、4つの量子ビットのいくつかの状態では基底が見つからないため、全ての量子状態が対応する測度を持つわけではないと推測される。 さらに, \textit{any} 状態を基底に変換する局所ユニタリが存在するかどうかについても検討する。 そのような状態に依存しない構成が一般の量子状態には存在しないことを示すが、実数値の$n$-qubit状態に対して存在することは、$n=2,3$であることと、奇数局所次元の任意の多部系においてそのような構成が不可能であることは証明する。 その結果, 粒子数と寸法に強く依存する等絡状態と等絡状態の関係が強く示唆された。

We investigate whether pure entangled states can be associated to a measurement basis in which all vectors are local unitary transformations of the original state. We prove that for bipartite states with a local dimension that is either $2, 4$ or $8$, every state corresponds to a basis. Via numerics we strongly evidence the same conclusion also for two qutrits and three qubits. However, for some states of four qubits we are unable to find a basis, leading us to conjecture that not all quantum states admit a corresponding measurement. Furthermore, we investigate whether there can exist a set of local unitaries that transform \textit{any} state into a basis. While we show that such a state-independent construction cannot exist for general quantum states, we prove that it does exist for real-valued $n$-qubit states if and only if $n=2,3$, and that such constructions are impossible for any multipartite system of an odd local dimension. Our results suggest a rich relationship between entangled states and iso-entangled measurements with a strong dependence on both particle numbers and dimension.
翻訳日:2023-02-01 18:37:48 公開日:2023-01-30
# リカレントニューラルネットワークによるロボットチームにおける異種グラフ上のコーディネーションの学習

Learning Coordination Policies over Heterogeneous Graphs for Human-Robot Teams via Recurrent Neural Schedule Propagation ( http://arxiv.org/abs/2301.13279v1 )

ライセンス: Link先を確認
Batuhan Altundas, Zheyuan Wang, Joshua Bishop and Matthew Gombolay(参考訳) 人間とロボットのコラボレーションが労働力が増えるにつれて、人間とロボットのチームが効率的かつ直感的に協調することが不可欠になる。 従来のヒューマンロボットスケジューリングのアプローチは、大規模な問題に対して難解であり、確率的、時間的変化、あるいは専門的なドメイン知識を必要とするアプリケーション固有のヒューリスティックスを考慮に入れるのに苦労する厳密な方法を使うかのどちらかである。 本稿では,ヘテロジニアスグラフベースのエンコーダと,確率的ヒューマンロボットチームを上界および下界の時間制約下でスケジューリングするための反復スケジュールプロパゲータを組み合わせた,ディープラーニングベースのフレームワークであるhybridnetを提案する。 HybridNetのエンコーダは異種グラフ注意ネットワークを利用して、制約を考慮しながら初期環境とチームダイナミクスをモデル化する。 タスクスケジューリングをシーケンシャルな意思決定プロセスとして定式化することにより、HybridNetのリカレントなニューラルスケジュールプロパゲータは、Long Short-Term Memory(LSTM)モデルを活用して、アクションの結果を伝播して高速なスケジュール生成を実行し、タスクとエージェントのペアの選択毎に環境と対話する必要がなくなる。 結果として生じるスケジューリングポリシネットワークは、計算的に軽量で表現力の高いモデルを提供し、Reinforcement Learningアルゴリズムを介してエンドツーエンドでトレーニングできる。 作業者の確率的学習行動のモデル化が可能な,混在するロボットチームのための仮想タスクスケジューリング環境を複数ラウンドで構築する。 実験の結果、hybridnetは、pure-gnnベースのスケジューラよりも高速なランタイムで、決定論的および確率的な人間のパフォーマンスの両方において、問題サイズにわたる他のヒューマンロボットスケジューリングソリューションよりも優れていた。

As human-robot collaboration increases in the workforce, it becomes essential for human-robot teams to coordinate efficiently and intuitively. Traditional approaches for human-robot scheduling either utilize exact methods that are intractable for large-scale problems and struggle to account for stochastic, time varying human task performance, or application-specific heuristics that require expert domain knowledge to develop. We propose a deep learning-based framework, called HybridNet, combining a heterogeneous graph-based encoder with a recurrent schedule propagator for scheduling stochastic human-robot teams under upper- and lower-bound temporal constraints. The HybridNet's encoder leverages Heterogeneous Graph Attention Networks to model the initial environment and team dynamics while accounting for the constraints. By formulating task scheduling as a sequential decision-making process, the HybridNet's recurrent neural schedule propagator leverages Long Short-Term Memory (LSTM) models to propagate forward consequences of actions to carry out fast schedule generation, removing the need to interact with the environment between every task-agent pair selection. The resulting scheduling policy network provides a computationally lightweight yet highly expressive model that is end-to-end trainable via Reinforcement Learning algorithms. We develop a virtual task scheduling environment for mixed human-robot teams in a multi-round setting, capable of modeling the stochastic learning behaviors of human workers. Experimental results showed that HybridNet outperformed other human-robot scheduling solutions across problem sizes for both deterministic and stochastic human performance, with faster runtime compared to pure-GNN-based schedulers.
翻訳日:2023-02-01 18:37:29 公開日:2023-01-30
# 分散Swarmインテリジェンス

Distributed Swarm Intelligence ( http://arxiv.org/abs/2301.13276v1 )

ライセンス: Link先を確認
Karthik Reddy Kanjula, Sai Meghana Kolla(参考訳) 本稿では,最適化問題の解法としてswarm intelligenceの理解と応用を容易にする分散アプリケーションの開発について述べる。 プラットフォームには、カスタマイズ可能なランダム粒子の検索スペースが含まれており、ユーザーは特定のニーズに合わせてソリューションをカスタマイズできる。 Ray分散コンピューティングのパワーを活用することで、アプリケーションは複数のユーザを同時にサポートし、フレキシブルでスケーラブルなソリューションを提供する。 このプロジェクトの主な目的は、問題解決におけるSwarmインテリジェンスの理解と実用性を高める、ユーザフレンドリーなプラットフォームを提供することである。

This paper presents the development of a distributed application that facilitates the understanding and application of swarm intelligence in solving optimization problems. The platform comprises a search space of customizable random particles, allowing users to tailor the solution to their specific needs. By leveraging the power of Ray distributed computing, the application can support multiple users simultaneously, offering a flexible and scalable solution. The primary objective of this project is to provide a user-friendly platform that enhances the understanding and practical use of swarm intelligence in problem-solving.
翻訳日:2023-02-01 18:36:53 公開日:2023-01-30
# 最善のプライベートでロバストな線形回帰

Near Optimal Private and Robust Linear Regression ( http://arxiv.org/abs/2301.13273v1 )

ライセンス: Link先を確認
Xiyang Liu, Prateek Jain, Weihao Kong, Sewoong Oh, Arun Sai Suggala(参考訳) 我々は, 線形回帰の正準統計的推定問題を$(\varepsilon,\delta)$-differential privacy の下で$n$ i.d.~examples から検討する。 本稿では,DP-SGDアルゴリズムの2つの改良点として,サンプルの複雑性向上のための完全バッチ勾配降下法と,ロバスト性を保証するための適応クリッピング法を提案する。 敵対的腐敗がない場合、このアルゴリズムは既存の最先端アプローチを改善し、ほぼ最適なサンプル複雑性を実現する。 ラベル分解下では、これは$(\varepsilon,\delta)$-dp とロバスト性を保証する最初の効率的な線形回帰アルゴリズムである。 合成実験は我々のアプローチの優位性を確認する。

We study the canonical statistical estimation problem of linear regression from $n$ i.i.d.~examples under $(\varepsilon,\delta)$-differential privacy when some response variables are adversarially corrupted. We propose a variant of the popular differentially private stochastic gradient descent (DP-SGD) algorithm with two innovations: a full-batch gradient descent to improve sample complexity and a novel adaptive clipping to guarantee robustness. When there is no adversarial corruption, this algorithm improves upon the existing state-of-the-art approach and achieves a near optimal sample complexity. Under label-corruption, this is the first efficient linear regression algorithm to guarantee both $(\varepsilon,\delta)$-DP and robustness. Synthetic experiments confirm the superiority of our approach.
翻訳日:2023-02-01 18:36:44 公開日:2023-01-30
# 任意個の多要素データ集合からの学習のための確率論的ニューラルデータ融合

Probabilistic Neural Data Fusion for Learning from an Arbitrary Number of Multi-fidelity Data Sets ( http://arxiv.org/abs/2301.13271v1 )

ライセンス: Link先を確認
Carlos Mora, Jonathan Tammer Eweis-Labolle, Tyler Johnson, Likith Gadde, Ramin Bostanabad(参考訳) 工学や科学の多くの応用において、アナリストは複数のデータソースに同時アクセスすることができる。 このような場合、情報取得の全体的なコストは、安価な低忠実度(LF)ソースを活用して高価な高忠実度(HF)データへの依存を減らす、データ融合または多忠実度(MF)モデリングによって低減することができる。 本稿では,データ融合にニューラルネットワーク(NN)を用いる。データは非常に少ないシナリオにおいて,データの忠実度とコストのレベルが異なる任意の数のソースから得られる。 本稿では,MFモデリングを非線形多様体学習問題に変換するユニークなNNアーキテクチャを提案する。 我々のNNアーキテクチャは、低次元分布を介して各データソースが符号化される解釈可能かつ可視化可能な多様体において、LFソースの非自明(例えば、非付加的および非階層的)バイアスを逆学習する。 この確率多様体は、小さなバイアスを持つLF源がHF源に近く符号化されるようなモデル形式の不確実性を定量化する。 さらに, NNの出力にパラメータ分布を付与することにより, アレタリック不確かさの定量化だけでなく, 未確認HFデータのロバスト性や精度を向上させる厳密なスコアリングルールに基づいてネットワークの損失関数を再構成する。 分析と工学の一連の例を通して、我々の手法は様々な情報源の不確かさを定量化しながら高い予測力を提供することを示した。

In many applications in engineering and sciences analysts have simultaneous access to multiple data sources. In such cases, the overall cost of acquiring information can be reduced via data fusion or multi-fidelity (MF) modeling where one leverages inexpensive low-fidelity (LF) sources to reduce the reliance on expensive high-fidelity (HF) data. In this paper, we employ neural networks (NNs) for data fusion in scenarios where data is very scarce and obtained from an arbitrary number of sources with varying levels of fidelity and cost. We introduce a unique NN architecture that converts MF modeling into a nonlinear manifold learning problem. Our NN architecture inversely learns non-trivial (e.g., non-additive and non-hierarchical) biases of the LF sources in an interpretable and visualizable manifold where each data source is encoded via a low-dimensional distribution. This probabilistic manifold quantifies model form uncertainties such that LF sources with small bias are encoded close to the HF source. Additionally, we endow the output of our NN with a parametric distribution not only to quantify aleatoric uncertainties, but also to reformulate the network's loss function based on strictly proper scoring rules which improve robustness and accuracy on unseen HF data. Through a set of analytic and engineering examples, we demonstrate that our approach provides a high predictive power while quantifying various sources uncertainties.
翻訳日:2023-02-01 18:36:31 公開日:2023-01-30
# ペナル化最大近似法による図形モデルの構造学習とパラメータ推定

Structure Learning and Parameter Estimation for Graphical Models via Penalized Maximum Likelihood Methods ( http://arxiv.org/abs/2301.13269v1 )

ライセンス: Link先を確認
Maryia Shpak (Maria Curie-Sklodowska University in Lublin)(参考訳) 確率的グラフィカルモデル(PGM)は、非常に複雑な現実現象をモデル化するためのコンパクトで柔軟なフレームワークを提供する。 これらは、不確実性を扱う確率理論と、計算の複雑さに対処し、得られた知識を解釈し、伝達するグラフによって表される論理構造を組み合わせる。 論文では、静的なベイジアンネットワーク(BN)と、その名前が示すように時間成分を持つ連続時間ベイジアンネットワークという2つの異なるタイプのPGMについて考察する。 pgmを学ぶための第一歩となる、真の構造を回復することに興味があります。 これは、モデルと意思決定プロセスの解釈を目的として、因果的な観点から、それ自体が興味深い課題である。 論文における構造学習のすべてのアプローチは、ラッソのペナルティと同じ最大確率推定のアイデアによって統一される。 構造学習の問題は、一般化線形モデルに対するLASSO推定器における非ゼロ係数を求める問題に還元される。 CTBNの場合には、完全データと不完全データの両方に関して問題を考察する。 我々は実験で理論結果を支持する。

Probabilistic graphical models (PGMs) provide a compact and flexible framework to model very complex real-life phenomena. They combine the probability theory which deals with uncertainty and logical structure represented by a graph which allows one to cope with the computational complexity and also interpret and communicate the obtained knowledge. In the thesis, we consider two different types of PGMs: Bayesian networks (BNs) which are static, and continuous time Bayesian networks which, as the name suggests, have a temporal component. We are interested in recovering their true structure, which is the first step in learning any PGM. This is a challenging task, which is interesting in itself from the causal point of view, for the purposes of interpretation of the model and the decision-making process. All approaches for structure learning in the thesis are united by the same idea of maximum likelihood estimation with the LASSO penalty. The problem of structure learning is reduced to the problem of finding non-zero coefficients in the LASSO estimator for a generalized linear model. In the case of CTBNs, we consider the problem both for complete and incomplete data. We support the theoretical results with experiments.
翻訳日:2023-02-01 18:36:04 公開日:2023-01-30
# タスク指向対話システムにおける応答生成のための文脈動的プロンプト

Contextual Dynamic Prompting for Response Generation in Task-oriented Dialog Systems ( http://arxiv.org/abs/2301.13268v1 )

ライセンス: Link先を確認
Sandesh Swamy, Narges Tabari, Chacha Chen, and Rashmi Gangadharaiah(参考訳) 応答生成はタスク指向ダイアログシステムにおいて重要なコンポーネントの1つである。 既存の研究では、大規模な事前学習言語モデルがこのタスクに適応できることが示されている。 このような非常に大きな言語モデルを適用する典型的なパラダイムは、ダウンストリームのタスクを微調整することである。 Prompting \citep{schick2020exploiting} は多くのNLPタスクの微調整の代替である。 本研究では,タスク指向対話システムにおける応答生成のためのプロンプトの利用について検討する。 具体的には、ダイアログコンテキストからプロンプトを学習する「textit{contextual dynamic prompting」を実行するアプローチを提案する。 対話コンテキストから有用なプロンプト信号を抽出することを目指している。 multiwoz 2.2 データセット \cite{zang2020 multiwoz} の実験では、コンテキスト動的プロンプトが、\textit{combined score} \cite{mehri-etal-2019-structured} による応答生成を3つの絶対点で改善し、ダイアログ状態が組み込まれれば20ポイントの巨大な値が得られることを示した。 さらに,これらの会話に対する人間的アノテーションは,文脈を含むエージェントがバニラプレフィックスチューニングのエージェントよりも好まれていた。

Response generation is one of the critical components in task-oriented dialog systems. Existing studies have shown that large pre-trained language models can be adapted to this task. The typical paradigm of adapting such extremely large language models would be by fine-tuning on the downstream tasks which is not only time-consuming but also involves significant resources and access to fine-tuning data. Prompting \citep{schick2020exploiting} has been an alternative to fine-tuning in many NLP tasks. In our work, we explore the idea of using prompting for response generation in task-oriented dialog systems. Specifically, we propose an approach that performs \textit{contextual dynamic prompting} where the prompts are learnt from dialog contexts. We aim to distill useful prompting signals from the dialog context. On experiments with MultiWOZ 2.2 dataset \cite{zang2020multiwoz}, we show that contextual dynamic prompts improve response generation in terms of \textit{combined score} \cite{mehri-etal-2019-structured} by 3 absolute points, and a massive 20 points when dialog states are incorporated. Furthermore, human annotation on these conversations found that agents which incorporate context were preferred over agents with vanilla prefix-tuning.
翻訳日:2023-02-01 18:35:46 公開日:2023-01-30
# ArchiSound: 拡散によるオーディオ生成

ArchiSound: Audio Generation with Diffusion ( http://arxiv.org/abs/2301.13267v1 )

ライセンス: Link先を確認
Flavio Schneider(参考訳) 近年、画像生成のための拡散モデルの人気が高まり、メディア生成の他の分野におけるこれらのモデルの可能性に新たな注目が集まっている。 まだ十分に研究されていない分野の1つは、拡散モデルのオーディオ生成への応用である。 音声生成には、時間次元、長期構造、重複する複数の音の層、訓練されたリスナーだけが検出できるニュアンスなど、複数の側面の理解が必要である。 本研究では,音声生成のための拡散モデルの可能性について検討する。 本稿では,テキスト記述から複数分間の音楽を生成可能な1D U-Netを用いたテキスト条件付き遅延音声拡散手法を含む,複数の側面に対応するモデルを提案する。 各モデルに対して、単一のコンシューマGPU上でリアルタイムにターゲットとする、合理的な推論速度の維持に努めます。 トレーニングされたモデルに加えて、この分野の今後の作業を簡単にするために、オープンソースライブラリのコレクションを提供しています。 サンプルはhttps://bit.ly/audio-diffusionで見ることができる。 コードはhttps://github.com/archinetai/audio-diffusion-pytorchにある。

The recent surge in popularity of diffusion models for image generation has brought new attention to the potential of these models in other areas of media generation. One area that has yet to be fully explored is the application of diffusion models to audio generation. Audio generation requires an understanding of multiple aspects, such as the temporal dimension, long term structure, multiple layers of overlapping sounds, and the nuances that only trained listeners can detect. In this work, we investigate the potential of diffusion models for audio generation. We propose a set of models to tackle multiple aspects, including a new method for text-conditional latent audio diffusion with stacked 1D U-Nets, that can generate multiple minutes of music from a textual description. For each model, we make an effort to maintain reasonable inference speed, targeting real-time on a single consumer GPU. In addition to trained models, we provide a collection of open source libraries with the hope of simplifying future work in the field. Samples can be found at https://bit.ly/audio-diffusion. Codes are at https://github.com/archinetai/audio-diffusion-pytorch.
翻訳日:2023-02-01 18:35:20 公開日:2023-01-30
# 自律運転における適応制御のためのモデル予測制御への繰り返し強化学習の導入

Incorporating Recurrent Reinforcement Learning into Model Predictive Control for Adaptive Control in Autonomous Driving ( http://arxiv.org/abs/2301.13313v1 )

ライセンス: Link先を確認
Yuan Zhang, Joschka Boedecker, Chuxuan Li, Guyue Zhou(参考訳) モデル予測制御(MPC)は、強力な制御技術として自律運転タスクに大きな注目を集めている。 MPCコントローラの成功は、正確な内部力学モデルに依存している。 しかし、通常はシステム識別によって学習される静的パラメータは、現実世界のシナリオにおいて内部および外部の摂動の両方に適応できないことが多い。 In this paper, we firstly (1) reformulate the problem as a Partially Observed Markov Decision Process (POMDP) that absorbs the uncertainties into observations and maintains Markov property into hidden states; and (2) learn a recurrent policy continually adapting the parameters of the dynamics model via Recurrent Reinforcement Learning (RRL) for optimal and adaptive control; and (3) finally evaluate the proposed algorithm (referred as $\textit{MPC-RRL}$) in CARLA simulator and leading to robust behaviours under a wide range of perturbations.

Model Predictive Control (MPC) is attracting tremendous attention in the autonomous driving task as a powerful control technique. The success of an MPC controller strongly depends on an accurate internal dynamics model. However, the static parameters, usually learned by system identification, often fail to adapt to both internal and external perturbations in real-world scenarios. In this paper, we firstly (1) reformulate the problem as a Partially Observed Markov Decision Process (POMDP) that absorbs the uncertainties into observations and maintains Markov property into hidden states; and (2) learn a recurrent policy continually adapting the parameters of the dynamics model via Recurrent Reinforcement Learning (RRL) for optimal and adaptive control; and (3) finally evaluate the proposed algorithm (referred as $\textit{MPC-RRL}$) in CARLA simulator and leading to robust behaviours under a wide range of perturbations.
翻訳日:2023-02-01 18:30:19 公開日:2023-01-30
# 効率的な変圧器の更新

Alternating Updates for Efficient Transformers ( http://arxiv.org/abs/2301.13310v1 )

ライセンス: Link先を確認
Cenk Baykal and Dylan Cutler and Nishanth Dikkala and Nikhil Ghosh and Rina Panigrahy and Xin Wang(参考訳) 深層変圧器ネットワークの規模拡大が品質と性能の向上につながることはよく確認されている。 このスケールの増加は、計算コストと推論遅延の増加を伴うことが多い。 その結果,計算コストの増加につながることなく,大規模化のメリットを実現する手法の研究が重要となる。 計算負担を伴わずにモデル容量を増大させる簡単な実装法であるAltUp(AltUp)を導入する。 AltUpは、各レイヤでの表現のサブブロックに取り組むことで、計算時間を増やすことなく、学習した表現の拡大を可能にする。 様々なトランスフォーマーモデルと言語タスクに関する実験により,様々なベンチマークにおける交互更新の有効性が実証された。 最後に、AltUpの拡張をシーケンス次元に示すとともに、Sparse Mixture-of-Expertsモデルのような既存のアプローチと相乗的に組み合わせることで、より高いキャパシティを持つ効率的なモデルが得られることを示す。

It is well established that increasing scale in deep transformer networks leads to improved quality and performance. This increase in scale often comes with an increase in compute cost and inference latency. Consequently, research into methods which help realize the benefits of increased scale without leading to an increase in the compute cost becomes important. We introduce Alternating Updates (AltUp), a simple-to-implement method to increase a model's capacity without the computational burden. AltUp enables the widening of the learned representation without increasing the computation time by working on a subblock of the representation at each layer. Our experiments on various transformer models and language tasks demonstrate the consistent effectiveness of alternating updates on a diverse set of benchmarks. Finally, we present extensions of AltUp to the sequence dimension, and demonstrate how AltUp can be synergistically combined with existing approaches, such as Sparse Mixture-of-Experts models, to obtain efficient models with even higher capacity.
翻訳日:2023-02-01 18:30:08 公開日:2023-01-30
# 予算とROI制約を伴う自動車:効率性、レグレト、そしてパッシングダイナミクス

Autobidders with Budget and ROI Constraints: Efficiency, Regret, and Pacing Dynamics ( http://arxiv.org/abs/2301.13306v1 )

ライセンス: Link先を確認
Brendan Lucier, Sarath Pattathil, Aleksandrs Slivkins, Mengxiao Zhang(参考訳) オンライン広告プラットフォームで競合するオートバイディングアルゴリズムのゲームについて検討する。 各オートバイダは、予算および/または投資のリターンの制約の下で、繰り返しオークションの複数のラウンドで広告主の総価値を最大化する。 本稿では,全ての制約を満たすことを保証する勾配に基づく学習アルゴリズムを提案する。 本アルゴリズムはバンディットフィードバックのみを使用し,第1または第2価格オークション,および任意の「中間」オークション方式で使用できる。 我々の主な成果は、これらの自走車同士が互いに対戦するとき、全てのラウンドで得られる液体の福祉は、任意のアロケーションによって達成される最適液体の福祉の少なくとも半分であるということである。 これは、入札ダイナミクスが、広告主のバリュエーション間の相関構造によらず、均衡に収束するかどうかを議論する。

We study a game between autobidding algorithms that compete in an online advertising platform. Each autobidder is tasked with maximizing its advertiser's total value over multiple rounds of a repeated auction, subject to budget and/or return-on-investment constraints. We propose a gradient-based learning algorithm that is guaranteed to satisfy all constraints and achieves vanishing individual regret. Our algorithm uses only bandit feedback and can be used with the first- or second-price auction, as well as with any "intermediate" auction format. Our main result is that when these autobidders play against each other, the resulting expected liquid welfare over all rounds is at least half of the expected optimal liquid welfare achieved by any allocation. This holds whether or not the bidding dynamics converges to an equilibrium and regardless of the correlation structure between advertiser valuations.
翻訳日:2023-02-01 18:29:52 公開日:2023-01-30
# ラベルノイズの有無による自己蒸留の理解

Understanding Self-Distillation in the Presence of Label Noise ( http://arxiv.org/abs/2301.13304v1 )

ライセンス: Link先を確認
Rudrajit Das and Sujay Sanghavi(参考訳) 自己蒸留 (self-distillation, sd) は、最初に \enquote{teacher} モデルを訓練し、その予測を使って \textit{same} アーキテクチャで \enquote{student} モデルを訓練するプロセスである。 具体的には、学生の目的関数は$\big(\xi*\ell(\text{teacher's predictions}, \text{ student's predictions}) + (1-\xi)*\ell(\text{given labels}, \text{ student's predictions})\big)$である。 経験的に、SDはいくつかの設定でパフォーマンス向上をもたらすことが観察されている。 本稿では,2つの教師付き学習問題におけるSDの効果を,‘textit{noisy labels} を用いて理論的に特徴づける。 まず、正規化線形回帰のSD解析を行い、高ラベルノイズ状態において、基底真理パラメータを推定する際の期待誤差を最小化する$\xi$の最適値が1より驚くほど大きいことを示す。 実験では,ラベルの50\%あるいは30\%が破損した場合に,いくつかの分類データセットのクロスエントロピー損失が生じる場合でも,$\xi > 1$が$\xi \leq 1$よりもうまく機能することを示した。 さらに、最適SDが最適正則化よりも優れている場合の定量化を行う。 次に,無作為なラベル汚職を伴う二項分類におけるロジスティック回帰を解析し,学生が教師より優れているラベル汚職の範囲を精度で定量化する。 私たちの知る限りでは、これはクロスエントロピー損失の最初の結果である。

Self-distillation (SD) is the process of first training a \enquote{teacher} model and then using its predictions to train a \enquote{student} model with the \textit{same} architecture. Specifically, the student's objective function is $\big(\xi*\ell(\text{teacher's predictions}, \text{ student's predictions}) + (1-\xi)*\ell(\text{given labels}, \text{ student's predictions})\big)$, where $\ell$ is some loss function and $\xi$ is some parameter $\in [0,1]$. Empirically, SD has been observed to provide performance gains in several settings. In this paper, we theoretically characterize the effect of SD in two supervised learning problems with \textit{noisy labels}. We first analyze SD for regularized linear regression and show that in the high label noise regime, the optimal value of $\xi$ that minimizes the expected error in estimating the ground truth parameter is surprisingly greater than 1. Empirically, we show that $\xi > 1$ works better than $\xi \leq 1$ even with the cross-entropy loss for several classification datasets when 50\% or 30\% of the labels are corrupted. Further, we quantify when optimal SD is better than optimal regularization. Next, we analyze SD in the case of logistic regression for binary classification with random label corruption and quantify the range of label corruption in which the student outperforms the teacher in terms of accuracy. To our knowledge, this is the first result of its kind for the cross-entropy loss.
翻訳日:2023-02-01 18:29:36 公開日:2023-01-30
# ダブルコールバック・リーブラー最小化による潜在ガウス過程のスパース逆コレスキー近似

Variational sparse inverse Cholesky approximation for latent Gaussian processes via double Kullback-Leibler minimization ( http://arxiv.org/abs/2301.13303v1 )

ライセンス: Link先を確認
Jian Cao, Myeongjong Kang, Felix Jimenez, Huiyan Sang, Florian Schafer, Matthias Katzfuss(参考訳) 遅延ガウス過程に対するスケーラブルかつ正確な推定を実現するために,共分散行列がスパース逆コレスキー(SIC)因子を持つガウス分布の族に基づく変分近似を提案する。 後部のこの変動近似と、SIC制限されたKulback-Leibler-Optimal近似を併用する。 次に,特定のSIC順序付けと近接近傍の空間パターンに着目し,高精度な事前近似と後部近似を行う。 この設定のために、この変分近似は、反復当たりの多対数時間で確率的勾配降下によって計算できる。 提案手法であるdklgp(double-kullback-leibler-optimal gaussian process approximation)は,計算複雑性が同じである場合,誘導点や平均場近似といった代替手法よりもはるかに精度が高い場合がある。

To achieve scalable and accurate inference for latent Gaussian processes, we propose a variational approximation based on a family of Gaussian distributions whose covariance matrices have sparse inverse Cholesky (SIC) factors. We combine this variational approximation of the posterior with a similar and efficient SIC-restricted Kullback-Leibler-optimal approximation of the prior. We then focus on a particular SIC ordering and nearest-neighbor-based sparsity pattern resulting in highly accurate prior and posterior approximations. For this setting, our variational approximation can be computed via stochastic gradient descent in polylogarithmic time per iteration. We provide numerical comparisons showing that the proposed double-Kullback-Leibler-optimal Gaussian-process approximation (DKLGP) can sometimes be vastly more accurate than alternative approaches such as inducing-point and mean-field approximations at similar computational complexity.
翻訳日:2023-02-01 18:29:05 公開日:2023-01-30
# LongEval:Long-form Summarizationにおける人間の信仰評価ガイドライン

LongEval: Guidelines for Human Evaluation of Faithfulness in Long-form Summarization ( http://arxiv.org/abs/2301.13298v1 )

ライセンス: Link先を確認
Kalpesh Krishna, Erin Bransom, Bailey Kuehl, Mohit Iyyer, Pradeep Dasigi, Arman Cohan, Kyle Lo(参考訳) 自動生成したサマリーの忠実性を正確に判断するためのヒューマン評価は最善の方法だが、長いサマリーを評価する際の難易度や作業負荷の増大に対処するソリューションは少ない。 長文要約に関する162の論文を調査した結果,我々はまず,長文要約を取り巻く人間評価の実践に光を当てた。 これらの論文の73%は、モデル生成サマリーに対する人間による評価を行なわず、他の研究は、長い文書を扱う際に現れる新たな困難に直面している。 本調査に動機づけられたlongevalは,長文要約における忠実性評価のためのガイドラインのセットであり,以下の課題に対処している。 2) 正確な忠実度を維持しながらアノテータの作業量を最小化する方法 (3)ヒトは、要約とソーススニペットの自動アライメントの恩恵を受けるか? 異なるドメイン内の2つの長文要約データセット(品質とパブメド)のアノテーション研究にlongevalを展開し、より細かい判断の粒度(例えば、節レベル)に切り替えることで、忠実度スコア(例えば、std-devは18.5から6.8まで)における注釈間ばらつきを低減できることを見出した。 また,細粒度単位の部分的アノテーションからのスコアは,全アノテーションのワークロード(50%の判定で0.89のKendall's tau)のスコアと相関することを示した。 人間の判断、アノテーションテンプレート、そして将来の研究のためのPythonライブラリとしてソフトウェアをリリースします。

While human evaluation remains best practice for accurately judging the faithfulness of automatically-generated summaries, few solutions exist to address the increased difficulty and workload when evaluating long-form summaries. Through a survey of 162 papers on long-form summarization, we first shed light on current human evaluation practices surrounding long-form summaries. We find that 73% of these papers do not perform any human evaluation on model-generated summaries, while other works face new difficulties that manifest when dealing with long documents (e.g., low inter-annotator agreement). Motivated by our survey, we present LongEval, a set of guidelines for human evaluation of faithfulness in long-form summaries that addresses the following challenges: (1) How can we achieve high inter-annotator agreement on faithfulness scores? (2) How can we minimize annotator workload while maintaining accurate faithfulness scores? and (3) Do humans benefit from automated alignment between summary and source snippets? We deploy LongEval in annotation studies on two long-form summarization datasets in different domains (SQuALITY and PubMed), and we find that switching to a finer granularity of judgment (e.g., clause-level) reduces inter-annotator variance in faithfulness scores (e.g., std-dev from 18.5 to 6.8). We also show that scores from a partial annotation of fine-grained units highly correlates with scores from a full annotation workload (0.89 Kendall's tau using 50% judgments). We release our human judgments, annotation templates, and our software as a Python library for future research.
翻訳日:2023-02-01 18:28:48 公開日:2023-01-30
# 量子ボルツマンマシン:量的金融への応用

Quantum Boltzmann Machines: Applications in Quantitative Finance ( http://arxiv.org/abs/2301.13295v1 )

ライセンス: Link先を確認
Cameron Perot(参考訳) この論文では、D-Wave Advantage 4.1 量子アニールを用いて量子ボルツマン分布からサンプルを取得し、量子ボルツマンマシン(QBM)を訓練する。 本稿では,QBMを生成モデルとして使用して合成外国為替市場データを生成し,制限されたボルツマンマシン(RBM)に基づく古典的モデルに対してどのように積み上げられたかを分析する。 さらに、我々はAdvantage 4.1から得られたサンプルを理論と比較するために使用する12量子ビットの小さな問題を研究し、その過程でAdvantage 4.1が量子ボルツマン確率変数をいかにうまくサンプリングし、QBMの訓練に利用できるかについて重要な洞察を得る。 これにより、4.1の利点は古典的ボルツマン確率変数をある程度サンプリングできるが、量子ボルツマン分布からサンプルできる能力は限られていることを示すことができる。 以上の結果から,Advantage 4.1を用いてトレーニングしたQBMは,シミュレーションを用いてトレーニングしたQBMよりもノイズが大きいことが示唆された。 しかし、将来の世代アニールが望まれる理論分布に近いサンプルを生成することができれば、QBMは古典的RBMを上回る可能性がある。

In this thesis we explore using the D-Wave Advantage 4.1 quantum annealer to sample from quantum Boltzmann distributions and train quantum Boltzmann machines (QBMs). We focus on the real-world problem of using QBMs as generative models to produce synthetic foreign exchange market data and analyze how the results stack up against classical models based on restricted Boltzmann machines (RBMs). Additionally, we study a small 12-qubit problem which we use to compare samples obtained from the Advantage 4.1 with theory, and in the process gain vital insights into how well the Advantage 4.1 can sample quantum Boltzmann random variables and be used to train QBMs. Through this, we are able to show that the Advantage 4.1 can sample classical Boltzmann random variables to some extent, but is limited in its ability to sample from quantum Boltzmann distributions. Our findings indicate that QBMs trained using the Advantage 4.1 are much noisier than those trained using simulations and struggle to perform at the same level as classical RBMs. However, there is the potential for QBMs to outperform classical RBMs if future generation annealers can generate samples closer to the desired theoretical distributions.
翻訳日:2023-02-01 18:28:16 公開日:2023-01-30
# 大規模言語モデルを用いた適応機械翻訳

Adaptive Machine Translation with Large Language Models ( http://arxiv.org/abs/2301.13294v1 )

ライセンス: Link先を確認
Yasmin Moslem, Rejwanul Haque, Andy Way(参考訳) 一貫性は高品質翻訳の重要な要件である。 ドメイン固有のプロジェクトでは、事前に承認された用語と修正された翻訳に固執することが特に重要である。 機械翻訳(MT)はドメイン適応の分野で大きな進歩を遂げた。 しかし、リアルタイム適応は依然として困難である。 大規模言語モデル(LLM)は、最近、入力出力テキスト生成パターンをさらなる微調整なしで再現することを学ぶ、コンテキスト内学習の興味深い機能を示した。 LLMに翻訳ペアのリストからなるプロンプトを供給することで、推論時にドメインとスタイルの特徴をシミュレートすることができる。 本研究の目的は,リアルタイム適応型MTを改善するためにコンテキスト内学習をいかに活用できるかを検討することである。 例えば、gpt-3.5は、新しい文を翻訳しながら、ドメイン内文ペアと/または用語のセットに適応することができる。 テキスト内学習の少ない翻訳品質は,特に高リソース言語において,強力なエンコーダデコーダMTシステムよりも優れている。 さらに,強力なエンコーダ・デコーダモデルからのMTとファジィマッチングを組み合わせれば,特にサポートされていない言語において,翻訳をより改善できるかどうかを検討する。 我々は、英語-アラビア語(EN-AR)、英語-中国語(EN-ZH)、英語-フランス語(EN-FR)、英語-キニャルワンダ(EN-RW)、英語-スペイン語(EN-ES)の5言語で実験を行った。

Consistency is a key requirement of high-quality translation. It is especially important to adhere to pre-approved terminology and corrected translations in domain-specific projects. Machine translation (MT) has achieved significant progress in the area of domain adaptation. However, real-time adaptation remains challenging. Large-scale language models (LLMs) have recently shown interesting capabilities of in-context learning, where they learn to replicate certain input-output text generation patterns, without further fine-tuning. By feeding an LLM with a prompt that consists of a list of translation pairs, it can then simulate the domain and style characteristics at inference time. This work aims to investigate how we can utilize in-context learning to improve real-time adaptive MT. Our extensive experiments show promising results at translation time. For example, GPT-3.5 can adapt to a set of in-domain sentence pairs and/or terminology while translating a new sentence. We observe that the translation quality with few-shot in-context learning can surpass that of strong encoder-decoder MT systems, especially for high-resource languages. Moreover, we investigate whether we can combine MT from strong encoder-decoder models with fuzzy matches, which can further improve the translation, especially for less supported languages. We conduct our experiments across five diverse languages, namely English-to-Arabic (EN-AR), English-to-Chinese (EN-ZH), English-to-French (EN-FR), English-to-Kinyarwanda (EN-RW), and English-to-Spanish (EN-ES) language pairs.
翻訳日:2023-02-01 18:27:52 公開日:2023-01-30
# sifer: 機能シーブを使ってディープネットワークの単純さバイアスを克服する

Sifer: Overcoming simplicity bias in deep networks using a feature sieve ( http://arxiv.org/abs/2301.13293v1 )

ライセンス: Link先を確認
Rishabh Tiwari, Pradeep Shenoy(参考訳) 単純さバイアス(Simplicity bias)とは、より強くより複雑な特徴を排除し、単純で弱い予測的特徴に深く依存するディープネットワークの傾向である。 これは、多くの実世界のアプリケーションにおいてバイアス付き不正確なモデル予測を引き起こし、突発的な特徴ラベル相関を含む不完全なトレーニングデータによって悪化する。 本稿では,DNNにおける単純さバイアスに対処するための直接的,介入的手法を提案する。 我々は,ネットワークの下位層で容易に計算可能なスプリアス機能を自動的に識別し,抑制することを目指しており,より高いネットワークレベルがよりリッチで意味のある表現を抽出し,活用できるようにする。 我々は、制御されたデータセットと実世界の画像の両方に関連した特徴のこの差分抑制と強化の具体的な証拠を提供し、多くの実世界のデバイアスベンチマーク(Imagenet-Aでは11.4%、BARでは3.2%)でかなりの利得を報告している。 重要なのは、このような情報を使用しない方法にもかかわらず、既知のスプリアス属性やバイアス属性に関する知識を組み込んだ多くのベースラインよりも優れています。 深層ネットワークにおける特徴抽出と表現学習の自動化において,我々の機能シーブ作業がエキサイティングな新たな研究方向を開くと信じています。

Simplicity bias is the concerning tendency of deep networks to over-depend on simple, weakly predictive features, to the exclusion of stronger, more complex features. This causes biased, incorrect model predictions in many real-world applications, exacerbated by incomplete training data containing spurious feature-label correlations. We propose a direct, interventional method for addressing simplicity bias in DNNs, which we call the feature sieve. We aim to automatically identify and suppress easily-computable spurious features in lower layers of the network, thereby allowing the higher network levels to extract and utilize richer, more meaningful representations. We provide concrete evidence of this differential suppression & enhancement of relevant features on both controlled datasets and real-world images, and report substantial gains on many real-world debiasing benchmarks (11.4% relative gain on Imagenet-A; 3.2% on BAR, etc). Crucially, we outperform many baselines that incorporate knowledge about known spurious or biased attributes, despite our method not using any such information. We believe that our feature sieve work opens up exciting new research directions in automated adversarial feature extraction & representation learning for deep networks.
翻訳日:2023-02-01 18:27:13 公開日:2023-01-30
# 時間差学習の統計的利点について

On the Statistical Benefits of Temporal Difference Learning ( http://arxiv.org/abs/2301.13289v1 )

ライセンス: Link先を確認
David Cheikhi and Daniel Russo(参考訳) アクションに関するデータセットと結果として生じる長期的な報酬が与えられた場合、直接推定アプローチは、トレーニングデータの予測誤差を最小化する値関数に適合する。 時間差学習(TD)法は、連続した時間ステップにおける推定値の時間的矛盾を最小化することにより、値関数に適合する。 有限状態マルコフ連鎖に焦点をあてて、このアプローチの統計的利点の鮮明な漸近理論を提供する。 まず,直観的な逆軌道プーリング係数が,推定値の平均二乗誤差のパーセント減少を完全に特徴付けることを示す。 問題構造によっては、削減は巨大または存在しない可能性がある。 次に、tdの誤差は、新しい尺度(問題の軌道横断時間)の観点で境界化されており、問題の時間軸よりもずっと小さい可能性がある。

Given a dataset on actions and resulting long-term rewards, a direct estimation approach fits value functions that minimize prediction error on the training data. Temporal difference learning (TD) methods instead fit value functions by minimizing the degree of temporal inconsistency between estimates made at successive time-steps. Focusing on finite state Markov chains, we provide a crisp asymptotic theory of the statistical advantages of this approach. First, we show that an intuitive inverse trajectory pooling coefficient completely characterizes the percent reduction in mean-squared error of value estimates. Depending on problem structure, the reduction could be enormous or nonexistent. Next, we prove that there can be dramatic improvements in estimates of the difference in value-to-go for two states: TD's errors are bounded in terms of a novel measure - the problem's trajectory crossing time - which can be much smaller than the problem's time horizon.
翻訳日:2023-02-01 18:26:34 公開日:2023-01-30
# 統計的推定のためのバイアス変数生産性トリレンマ

A Bias-Variance-Privacy Trilemma for Statistical Estimation ( http://arxiv.org/abs/2301.13334v1 )

ライセンス: Link先を確認
Gautam Kamath, Argyris Mouzakis, Matthew Regehr, Vikrant Singhal, Thomas Steinke, Jonathan Ullman(参考訳) 差分的平均推定のための標準アルゴリズムは、まずサンプルを有界範囲にクリップし、次いで経験的な平均値にノイズを加える。 クリップは感度を制御し、したがってプライバシーのために付加するノイズのばらつきを制御します。 しかし、クリッピングは統計バイアスをもたらす。 我々は、このトレードオフが本質的に存在することを証明している: 任意の分布に対してバイアスが低く、分散が低く、プライバシー損失が低くなるアルゴリズムは存在しない。 正の面では、分布が対称であると仮定すると、偏りのない平均推定は近似微分プライバシーの下で可能であることを示す。 さらに, データがガウス系からサンプリングされていると仮定しても, 純あるいは集中的な微分プライバシーでは, 偏りのない平均推定は不可能であることを示す。

The canonical algorithm for differentially private mean estimation is to first clip the samples to a bounded range and then add noise to their empirical mean. Clipping controls the sensitivity and, hence, the variance of the noise that we add for privacy. But clipping also introduces statistical bias. We prove that this tradeoff is inherent: no algorithm can simultaneously have low bias, low variance, and low privacy loss for arbitrary distributions. On the positive side, we show that unbiased mean estimation is possible under approximate differential privacy if we assume that the distribution is symmetric. Furthermore, we show that, even if we assume that the data is sampled from a Gaussian, unbiased mean estimation is impossible under pure or concentrated differential privacy.
翻訳日:2023-02-01 18:20:24 公開日:2023-01-30
# 偏微分方程式を解く高速分解能ニューラルネットワーク技術

Fast Resolution Agnostic Neural Techniques to Solve Partial Differential Equations ( http://arxiv.org/abs/2301.13331v1 )

ライセンス: Link先を確認
Hrishikesh Viswanath, Md Ashiqur Rahman, Abhijeet Vyas, Andrey Shor, Beatriz Medeiros, Stephanie Hernandez, Suhas Eswarappa Prameela, Aniket Bera(参考訳) 偏微分方程式(PDE)の数値近似は、熱や音の伝播、流体の流れ、弾性、静電気、電気力学など、様々な変数の関数を含む物理学、工学、数学の問題を定式化するために日常的に用いられる。 このことが多くの複雑な現象の解決につながったが、依然として大きな制限がある。 有限要素法(FEM)や有限微分法(FDM)といった従来の手法は、かなりの時間を要するため、計算コストがかかる。 対照的に、ニューラルネットワークのような機械学習ベースの手法は、一度訓練されると高速になるが、特定の離散化に制限される傾向がある。 本稿では,PDEを数値的に近似する従来の手法と最近の機械学習に基づく手法の包括的概要を提供する。 さらに,pdeの解演算子を学習するための新規かつ高速なアプローチ(1000x)であるニューラル演算子を中心に,いくつかの重要なアーキテクチャを強調する。 これらの新しい計算手法は、基礎物理学や応用物理学における多くの問題に取り組む上で、いかに大きな利点をもたらすかに注目したい。

Numerical approximations of partial differential equations (PDEs) are routinely employed to formulate the solution of physics, engineering and mathematical problems involving functions of several variables, such as the propagation of heat or sound, fluid flow, elasticity, electrostatics, electrodynamics, and more. While this has led to solving many complex phenomena, there are still significant limitations. Conventional approaches such as Finite Element Methods (FEMs) and Finite Differential Methods (FDMs) require considerable time and are computationally expensive. In contrast, machine learning-based methods such as neural networks are faster once trained, but tend to be restricted to a specific discretization. This article aims to provide a comprehensive summary of conventional methods and recent machine learning-based methods to approximate PDEs numerically. Furthermore, we highlight several key architectures centered around the neural operator, a novel and fast approach (1000x) to learning the solution operator of a PDE. We will note how these new computational approaches can bring immense advantages in tackling many problems in fundamental and applied physics.
翻訳日:2023-02-01 18:20:12 公開日:2023-01-30
# 高速エネルギー効率推論のための混合精度ニューラルネットワーク量子化の効率的かつ効果的な方法

Efficient and Effective Methods for Mixed Precision Neural Network Quantization for Faster, Energy-efficient Inference ( http://arxiv.org/abs/2301.13330v1 )

ライセンス: Link先を確認
Deepika Bablani, Jeffrey L. Mckinstry, Steven K. Esser, Rathinakumar Appuswamy, Dharmendra S. Modha(参考訳) 効率良く効率的なディープニューラルネットワーク推論には、最小の計算、メモリ、電力を必要とする最も単純なネットワークで最先端の精度を達成することが望ましい。 ネットワークの精度を下げるための量子化は、ネットワークを単純化する強力な技術である。 一般的には、高い精度の劣化を伴わずにできるだけ積極的に定量化することが望ましい。 ネットワークの各層は量子化に対する感度が異なる可能性があるため、混合精度量子化法は、ネットワークの個々の層の精度を選択的に調整し、タスク性能の最小値(例えば、精度)を達成する。 レイヤー精度選択がタスク性能に与える影響を推定するために,以下の2つの方法を導入する。 一 エントロピー近似誘導層選択(EAGL)が速く、重量分布のエントロピーを用いること。 二 精度認識層精密選択(alps)は、単純で、層精度低減後の単一のエポック微調整に依存する。 EAGLとALPSを用いて,ResNet-50およびResNet-101分類網の4ビット層と2ビット層の混合により完全精度の精度を回復し,精度・スループットのフロンティア全体の性能向上とPSPNetセグメンテーションネットワークの同等性能を,混合精度層選択技術よりも相似的に比較し,解に到達するのに要する処理時間を桁違いに削減した。

For effective and efficient deep neural network inference, it is desirable to achieve state-of-the-art accuracy with the simplest networks requiring the least computation, memory, and power. Quantizing networks to lower precision is a powerful technique for simplifying networks. It is generally desirable to quantize as aggressively as possible without incurring significant accuracy degradation. As each layer of a network may have different sensitivity to quantization, mixed precision quantization methods selectively tune the precision of individual layers of a network to achieve a minimum drop in task performance (e.g., accuracy). To estimate the impact of layer precision choice on task performance two methods are introduced: i) Entropy Approximation Guided Layer selection (EAGL) is fast and uses the entropy of the weight distribution, and ii) Accuracy-aware Layer Precision Selection (ALPS) is straightforward and relies on single epoch fine-tuning after layer precision reduction. Using EAGL and ALPS for layer precision selection, full-precision accuracy is recovered with a mix of 4-bit and 2-bit layers for ResNet-50 and ResNet-101 classification networks, demonstrating improved performance across the entire accuracy-throughput frontier, and equivalent performance for the PSPNet segmentation network in our own commensurate comparison over leading mixed precision layer selection techniques, while requiring orders of magnitude less compute time to reach a solution.
翻訳日:2023-02-01 18:19:54 公開日:2023-01-30
# 決定-DNNF回路からの素命令列挙の複雑さについて

On the Complexity of Enumerating Prime Implicants from Decision-DNNF Circuits ( http://arxiv.org/abs/2301.13328v1 )

ライセンス: Link先を確認
Alexis de Colnet and Pierre Marquis(参考訳) 決定分解可能な否定正規形(dec-DNNF)回路で表されるブール関数の素命令を列挙する問題EnumIPを考える。 我々は列挙複雑性の枠組みの中でde-DNNFからEnumIPを研究し、出力多項式列挙問題のクラスであるOutputPにあることを証明し、より正確には多項式増分時間列挙問題のクラスであるIncPで証明する。 次に、生成すべき素因果関係にさらなる制限が課される2つの密接に関連するが、一見難しい列挙問題に焦点を当てる。 最初の問題では、サブセット最小の誘引的説明を表す素命令のみに関心を持ち、これはAIで30年以上研究されてきた概念である。 第2の問題は、機械学習分類器によって達成された予測を説明することを目的としているため、eXplainable AIの新興分野における近年の重要概念である十分な理由を表す素命令である。 サブセット最小誘引的説明や十分な理由に対応する特定の素命令を列挙することはアウトプットPにはないことを示す証拠を提供する。

We consider the problem EnumIP of enumerating prime implicants of Boolean functions represented by decision decomposable negation normal form (dec-DNNF) circuits. We study EnumIP from dec-DNNF within the framework of enumeration complexity and prove that it is in OutputP, the class of output polynomial enumeration problems, and more precisely in IncP, the class of polynomial incremental time enumeration problems. We then focus on two closely related, but seemingly harder, enumeration problems where further restrictions are put on the prime implicants to be generated. In the first problem, one is only interested in prime implicants representing subset-minimal abductive explanations, a notion much investigated in AI for more than three decades. In the second problem, the target is prime implicants representing sufficient reasons, a recent yet important notion in the emerging field of eXplainable AI, since they aim to explain predictions achieved by machine learning classifiers. We provide evidence showing that enumerating specific prime implicants corresponding to subset-minimal abductive explanations or to sufficient reasons is not in OutputP.
翻訳日:2023-02-01 18:19:26 公開日:2023-01-30
# オフラインアルゴリズムを用いたバンディットフィードバックによる組合せ型多腕バンディット問題の解法

A Framework for Adapting Offline Algorithms to Solve Combinatorial Multi-Armed Bandit Problems with Bandit Feedback ( http://arxiv.org/abs/2301.13326v1 )

ライセンス: Link先を確認
Guanyu Nie and Yididiya Y Nadew and Yanhui Zhu and Vaneet Aggarwal and Christopher John Quinn(参考訳) 本稿では,学習者が盗聴フィードバックにのみアクセスでき,報酬関数が非線形である確率的,組合せ的マルチアームバンディットの問題について検討する。 離散的オフライン近似アルゴリズムをバンドイットフィードバックのみを必要とする部分線形$\alpha$-regret 法に適用するための一般的なフレームワークを提供し,$\mathcal{o}\left(t^\frac{2}{3}\log(t)^\frac{1}{3}\right)$ 期待累積$\alpha$-regret の水平値$t$ を達成する。 このフレームワークは、関数評価において小さなエラーに対して堅牢なオフラインアルゴリズムを必要とする。 適応手順はオフライン近似アルゴリズムの明示的な知識も必要とせず、オフラインアルゴリズムはブラックボックスサブルーチンとして使うことができる。 提案フレームワークの有用性を実証するため,本フレームワークは,濃度およびknapsack制約に対する近似アルゴリズムの適用により,モジュラー下最大化における複数の問題に適用した。 knapsack制約に対する新しいCMABアルゴリズムは、実世界のデータを用いた実験において、逆設定のために開発された全帯域法よりも優れている。

We investigate the problem of stochastic, combinatorial multi-armed bandits where the learner only has access to bandit feedback and the reward function can be non-linear. We provide a general framework for adapting discrete offline approximation algorithms into sublinear $\alpha$-regret methods that only require bandit feedback, achieving $\mathcal{O}\left(T^\frac{2}{3}\log(T)^\frac{1}{3}\right)$ expected cumulative $\alpha$-regret dependence on the horizon $T$. The framework only requires the offline algorithms to be robust to small errors in function evaluation. The adaptation procedure does not even require explicit knowledge of the offline approximation algorithm -- the offline algorithm can be used as black box subroutine. To demonstrate the utility of the proposed framework, the proposed framework is applied to multiple problems in submodular maximization, adapting approximation algorithms for cardinality and for knapsack constraints. The new CMAB algorithms for knapsack constraints outperform a full-bandit method developed for the adversarial setting in experiments with real-world data.
翻訳日:2023-02-01 18:19:06 公開日:2023-01-30
# 深層強化学習によるv2nサービススケーリング

V2N Service Scaling with Deep Reinforcement Learning ( http://arxiv.org/abs/2301.13324v1 )

ライセンス: Link先を確認
Cyril Shih-Huan Hsu, Jorge Mart\'in-P\'erez, Chrysa Papagianni, Paola Grosso(参考訳) 無線ネットワークの第5世代(5G)は、車両用ユースケースの厳しい要件を満たすように設定される。 エッジコンピューティングリソースは、処理をエンドユーザに近づけることで、レイテンシを低減できる。 しかしながら、トラフィック負荷の確率的性質と物理リソースの可用性を考えると、コスト効率とパフォーマンスのよいサービスをサポートするために適切な自動スケーリングメカニズムが採用される必要がある。 この目的のために、エッジコンピューティングの垂直スケーリングにDeep Reinforcement Learning (DRL) を用いて、車両間通信をサポートする。 本稿では,Deep Deterministic Policy Gradient (DDPG) を用いてこの問題に対処する。 DDPGは連続的なアクションを学習するためのモデルなしのオフポリシーアルゴリズムであるため、離散的なスケーリングアクションをサポートするための離散化アプローチを導入する。 したがって、高次元離散作用空間に固有のスケーラビリティ問題に対処する。 実世界の車両トレースデータセットを用いて,ddpgが既存のソリューションを上回り,アクティブcpuの平均数を23%削減し,長期報酬を24%増加させることを示した。

The fifth generation (5G) of wireless networks is set out to meet the stringent requirements of vehicular use cases. Edge computing resources can aid in this direction by moving processing closer to end-users, reducing latency. However, given the stochastic nature of traffic loads and availability of physical resources, appropriate auto-scaling mechanisms need to be employed to support cost-efficient and performant services. To this end, we employ Deep Reinforcement Learning (DRL) for vertical scaling in Edge computing to support vehicular-to-network communications. We address the problem using Deep Deterministic Policy Gradient (DDPG). As DDPG is a model-free off-policy algorithm for learning continuous actions, we introduce a discretization approach to support discrete scaling actions. Thus we address scalability problems inherent to high-dimensional discrete action spaces. Employing a real-world vehicular trace data set, we show that DDPG outperforms existing solutions, reducing (at minimum) the average number of active CPUs by 23% while increasing the long-term reward by 24%.
翻訳日:2023-02-01 18:18:41 公開日:2023-01-30
# 領域一般化における公正性と正確性

Fairness and Accuracy under Domain Generalization ( http://arxiv.org/abs/2301.13323v1 )

ライセンス: Link先を確認
Thai-Hoang Pham, Xueru Zhang, Ping Zhang(参考訳) 機械学習(ML)アルゴリズムがハイテイクなアプリケーションでますます使われているため、特定の社会グループに対して偏見を抱いているのではないかという懸念が持ち上がっている。 MLモデルを公平にするための多くのアプローチが提案されているが、トレーニングとデプロイメントにおけるデータ分散が同一であるという仮定に依存しているのが一般的である。 残念ながら、これは実際には一般的に違反しており、トレーニング中に公正なモデルがデプロイ中に予期せぬ結果をもたらす可能性がある。 データセットシフトの下で堅牢なMLモデルを設計する問題は広く研究されているが、既存の研究の多くは精度の伝達にのみ焦点をあてている。 本稿では,テスト時のデータを前例のない領域からサンプリングできる領域一般化の下での公平性と精度の両立について検討する。 まず, 展開時の不公平性と期待損失に関する理論的境界を開発し, フェアネスと精度を不変表現学習を通じて完全に伝達できる条件を導出する。 これにより、トレーニングデータを用いて学習した公正MLモデルは、デプロイメント環境が変化しても高い公平性と正確性を有するように、学習アルゴリズムを設計する。 実世界のデータ実験により提案アルゴリズムが検証される。 モデル実装はhttps://github.com/pth1993/FATDMで公開されている。

As machine learning (ML) algorithms are increasingly used in high-stakes applications, concerns have arisen that they may be biased against certain social groups. Although many approaches have been proposed to make ML models fair, they typically rely on the assumption that data distributions in training and deployment are identical. Unfortunately, this is commonly violated in practice and a model that is fair during training may lead to an unexpected outcome during its deployment. Although the problem of designing robust ML models under dataset shifts has been widely studied, most existing works focus only on the transfer of accuracy. In this paper, we study the transfer of both fairness and accuracy under domain generalization where the data at test time may be sampled from never-before-seen domains. We first develop theoretical bounds on the unfairness and expected loss at deployment, and then derive sufficient conditions under which fairness and accuracy can be perfectly transferred via invariant representation learning. Guided by this, we design a learning algorithm such that fair ML models learned with training data still have high fairness and accuracy when deployment environments change. Experiments on real-world data validate the proposed algorithm. Model implementation is available at https://github.com/pth1993/FATDM.
翻訳日:2023-02-01 18:18:22 公開日:2023-01-30
# マイクロctで得られた鉱物試料からの個々の粒子のスケーラブル・アウト・オブ・ザ・ボックスセグメンテーション

[Work in progress] Scalable, out-of-the box segmentation of individual particles from mineral samples acquired with micro CT ( http://arxiv.org/abs/2301.13319v1 )

ライセンス: Link先を確認
Karol Gotkowski and Shuvam Gupta and Jose R. A. Godinho and Camila G. S. Tochtrop and Klaus H. Maier-Hein and Fabian Isensee(参考訳) 鉱物は機能する現代社会に欠かせない。 しかし、その供給量は限られており、鉱石とリサイクル可能な材料の両方から探査と抽出を最適化する必要がある。 通常、これらのプロセスは、加工された粒子の正確な性質に精巧に適応し、その形状、外観、および全体的な材料組成を広範囲に評価する必要がある。 現在のアプローチでは、粒子のバルクセグメンテーションとキャラクタリゼーションに基づいてこの分析を行い、接触粒子を分離する基本的な後処理技術に依存している。 しかし、この分離を確実に実行できないことや、新しいイメージごとにほとんどのメソッドをトレーニングまたは再構成する必要から、これらのアプローチは未解決の可能性を生かしている。 本稿では,エポキシマトリクスに埋め込まれた鉱物試料から採取した大きなマイクロct画像から個々の粒子を抽出できるインスタンス分割法を提案する。 我々のアプローチは、強力なnnU-Netフレームワークをベースとして、粒子サイズ正規化を導入し、境界コア表現を用いてインスタンスセグメンテーションを可能にし、多数の異なる材料や鉱物の粒子を含む大規模なデータセットで訓練する。 本手法は, トレーニングセットに含まれていない材料や外観など, 様々な種類の粒子に対して, アウト・オブ・ザ・ボックスで適用可能であることを示す。 したがって、新しいミネラルサンプルに適用する場合、手動のアノテーションや再訓練は不要であり、既存の手法よりも実験のスケーラビリティが著しく向上する。 私たちのコードとデータセットは公開されています。

Minerals are indispensable for a functioning modern society. Yet, their supply is limited causing a need for optimizing their exploration and extraction both from ores and recyclable materials. Typically, these processes must be meticulously adapted to the precise properties of the processed particles, requiring an extensive characterization of their shapes, appearances as well as the overall material composition. Current approaches perform this analysis based on bulk segmentation and characterization of particles, and rely on rudimentary postprocessing techniques to separate touching particles. However, due to their inability to reliably perform this separation as well as the need to retrain or reconfigure most methods for each new image, these approaches leave untapped potential to be leveraged. Here, we propose an instance segmentation method that is able to extract individual particles from large micro CT images taken from mineral samples embedded in an epoxy matrix. Our approach is based on the powerful nnU-Net framework, introduces a particle size normalization, makes use of a border-core representation to enable instance segmentation and is trained with a large dataset containing particles of numerous different materials and minerals. We demonstrate that our approach can be applied out-of-the box to a large variety of particle types, including materials and appearances that have not been part of the training set. Thus, no further manual annotations and retraining are required when applying the method to new mineral samples, enabling substantially higher scalability of experiments than existing methods. Our code and dataset are made publicly available.
翻訳日:2023-02-01 18:18:02 公開日:2023-01-30
# 効果的な候補検索によるプロキシベースゼロショットエンティティリンク

Proxy-based Zero-Shot Entity Linking by Effective Candidate Retrieval ( http://arxiv.org/abs/2301.13318v1 )

ライセンス: Link先を確認
Maciej Wiatrak, Eirini Arvaniti, Angus Brayne, Jonas Vetterle, Aaron Sim(参考訳) バイオメディカルエンティティリンクの分野における最近の進歩は、2段階の強力なアルゴリズムの開発である。 しかし、両方のステージの有効性は計算量的に高価なコンポーネントに依存する。 特に、濃密な表現検索による候補検索では、トレーニングを通してエンティティラベルセット全体にわたって繰り返し前方通過と近接探索を必要とする、ハードネガティブなサンプルを持つことが重要である。 本研究は,プロキシベースのメトリック学習損失と敵対的正規化子を組み合わせることで,候補検索段階におけるハードネガティブサンプリングの効率的な代替となることを示す。 特に、recall@1メトリックで競争力のあるパフォーマンスを示し、高価な候補ランキングステップを除外するオプションを提供します。 最後に,このモデルがゼロショット設定でどのように利用され,知識ベースから生物医学的実体を見出すかを示す。

A recent advancement in the domain of biomedical Entity Linking is the development of powerful two-stage algorithms, an initial candidate retrieval stage that generates a shortlist of entities for each mention, followed by a candidate ranking stage. However, the effectiveness of both stages are inextricably dependent on computationally expensive components. Specifically, in candidate retrieval via dense representation retrieval it is important to have hard negative samples, which require repeated forward passes and nearest neighbour searches across the entire entity label set throughout training. In this work, we show that pairing a proxy-based metric learning loss with an adversarial regularizer provides an efficient alternative to hard negative sampling in the candidate retrieval stage. In particular, we show competitive performance on the recall@1 metric, thereby providing the option to leave out the expensive candidate ranking step. Finally, we demonstrate how the model can be used in a zero-shot setting to discover out of knowledge base biomedical entities.
翻訳日:2023-02-01 18:17:33 公開日:2023-01-30
# 非平滑凸制約付き非平滑弱凸最適化のための単ループ切換次法

Single-Loop Switching Subgradient Methods for Non-Smooth Weakly Convex Optimization with Non-Smooth Convex Constraints ( http://arxiv.org/abs/2301.13314v1 )

ライセンス: Link先を確認
Yankun Huang, Qihang Lin(参考訳) 本稿では,対象関数が弱凸であり,制約関数が凸であり,どちらも非滑らかである一般非凸制約最適化問題を考える。 このタイプの問題は、公正に意識した教師あり学習のような機械学習の多くの応用から生じる。 この問題を解決するために,polyak (1965) による古典的スイッチングサブグレードエント法を,直感的かつ容易に実装可能な一階法として検討する。 この作業以前は、イテレーションの複雑さは凸最適化でのみ知られていた。 目的関数が凸でないとき, ほぼ定常点を求めるためのオラクルの複雑さを証明した。 解析は、制約関数が決定論的かつ確率的であるときに別々に導出される。 既存の方法、特にダブルループ法と比較して、スムースでない問題に対してスイッチング勾配法を適用することができ、単一のループしか持たず、内部イテレーションの数をチューニングする手間を省くことができる。

In this paper, we consider a general non-convex constrained optimization problem, where the objective function is weakly convex and the constraint function is convex while they can both be non-smooth. This class of problems arises from many applications in machine learning such as fairness-aware supervised learning. To solve this problem, we consider the classical switching subgradient method by Polyak (1965), which is an intuitive and easily implementable first-order method. Before this work, its iteration complexity was only known for convex optimization. We prove its oracle complexity for finding a nearly stationary point when the objective function is non-convex. The analysis is derived separately when the constraint function is deterministic and stochastic. Compared to existing methods, especially the double-loop methods, the switching gradient method can be applied to non-smooth problems and only has a single loop, which saves the effort on tuning the number of inner iterations.
翻訳日:2023-02-01 18:17:18 公開日:2023-01-30
# DAFD:画像分類のための特徴分散によるドメイン適応

DAFD: Domain Adaptation via Feature Disentanglement for Image Classification ( http://arxiv.org/abs/2301.13337v1 )

ライセンス: Link先を確認
Zhize Wu, Changjiang Du, Le Zou, Ming Tan, Tong Xu, Fan Cheng, Fudong Nian, and Thomas Weise(参考訳) 優れた特徴表現は、画像分類の鍵です。 実際には、イメージ分類器はトレーニング対象とは異なるシナリオで適用することができる。 このいわゆるドメインシフトは、画像分類の大幅なパフォーマンス低下につながる。 unsupervised domain adaptation (uda)はラベル付きソースドメインから学んだ知識をラベルなしのターゲットドメインに移すことで、ドメインシフトを削減する。 カテゴリ関連特徴を蒸留し,グローバルな特徴マップからカテゴリ非関連特徴を除外することにより,UDAの特徴分散を行う。 この絡み合いは、ネットワークがカテゴリ非関連情報への過度な適合を防ぎ、分類に有用な情報に集中させる。 これにより、ドメインアライメントの困難が軽減され、ターゲットドメインの分類精度が向上する。 本稿では,(1)カテゴリー関連特徴とカテゴリ関連特徴を区別するカテゴリー関連特徴選択(crfs)モジュールと,(2)異なる領域からカテゴリ関連特徴の差異を低減してきめ細かなアライメントを実現する動的局所最大平均不一致(dlmmd)モジュールという,2つの要素からなる特徴不等角化~(dafd)によるドメイン適応法を提案する。 CRFSと組み合わせることで、DLMMDモジュールはカテゴリ関連機能を適切に調整することができる。 4つの標準データセットに対して総合的な実験を行う。 本研究は,画像分類課題におけるロバスト性と有効性を明確に示し,その技術に対する競争力を明らかにした。

A good feature representation is the key to image classification. In practice, image classifiers may be applied in scenarios different from what they have been trained on. This so-called domain shift leads to a significant performance drop in image classification. Unsupervised domain adaptation (UDA) reduces the domain shift by transferring the knowledge learned from a labeled source domain to an unlabeled target domain. We perform feature disentanglement for UDA by distilling category-relevant features and excluding category-irrelevant features from the global feature maps. This disentanglement prevents the network from overfitting to category-irrelevant information and makes it focus on information useful for classification. This reduces the difficulty of domain alignment and improves the classification accuracy on the target domain. We propose a coarse-to-fine domain adaptation method called Domain Adaptation via Feature Disentanglement~(DAFD), which has two components: (1)the Category-Relevant Feature Selection (CRFS) module, which disentangles the category-relevant features from the category-irrelevant features, and (2)the Dynamic Local Maximum Mean Discrepancy (DLMMD) module, which achieves fine-grained alignment by reducing the discrepancy within the category-relevant features from different domains. Combined with the CRFS, the DLMMD module can align the category-relevant features properly. We conduct comprehensive experiment on four standard datasets. Our results clearly demonstrate the robustness and effectiveness of our approach in domain adaptive image classification tasks and its competitiveness to the state of the art.
翻訳日:2023-02-01 18:09:16 公開日:2023-01-30
# 不均一なプライバシー制約下におけるデータの公正な価値

The Fair Value of Data Under Heterogeneous Privacy Constraints ( http://arxiv.org/abs/2301.13336v1 )

ライセンス: Link先を確認
Justin Kang, Ramtin Pedarsani, Kannan Ramchandran(参考訳) 現代のデータアグリゲーションは、しばしばユーザのネットワークからデータを収集するプラットフォームの形を取る。 これまで以上に、これらのユーザーは、提供したデータがプライバシーの保証で保護されていることを要求している。 このことが最適なデータ取得フレームワークの研究につながり、最適な基準は典型的にデータを取得しようとするエージェントのユーティリティの最大化である。 これには、さまざまなプライバシレベルでデータの購入に対して、ユーザに支払いを割り当てる方法を決定することが含まれる。 本論文の主な目的は,特定のプライバシーレベルにおいて,ユーザのデータに対する公正な支払いを特徴付けることである。 フェアネスの公理的定義を、祝福されたシェープリー値に類似して提案する。 フェアネスの2つの概念が導入される。 まず、プラットフォームとユーザを共通の連合の一員として扱い、そのユーティリティをプラットフォームとユーザに分割する方法についての完全な説明を提供する。 第2のコンセプトでは、公正性はユーザ間でのみ定義され、プラットフォームの公平性に制約されたメカニズム設計の問題につながる。 個別の異種データを含む明示的な例を考察し、これらの公平性の概念をどのように適用できるかを示す。 われわれの知る限りでは、プライバシーの制約を明示的に考慮するデータに対する最初の公平性の概念だ。

Modern data aggregation often takes the form of a platform collecting data from a network of users. More than ever, these users are now requesting that the data they provide is protected with a guarantee of privacy. This has led to the study of optimal data acquisition frameworks, where the optimality criterion is typically the maximization of utility for the agent trying to acquire the data. This involves determining how to allocate payments to users for the purchase of their data at various privacy levels. The main goal of this paper is to characterize a fair amount to pay users for their data at a given privacy level. We propose an axiomatic definition of fairness, analogous to the celebrated Shapley value. Two concepts for fairness are introduced. The first treats the platform and users as members of a common coalition and provides a complete description of how to divide the utility among the platform and users. In the second concept, fairness is defined only among users, leading to a potential fairness-constrained mechanism design problem for the platform. We consider explicit examples involving private heterogeneous data and show how these notions of fairness can be applied. To the best of our knowledge, these are the first fairness concepts for data that explicitly consider privacy constraints.
翻訳日:2023-02-01 18:08:49 公開日:2023-01-30
# 視覚コモンセンス推論のためのマルチレベル信頼度最適化による擬似3次元知覚トランスフォーマ

Pseudo 3D Perception Transformer with Multi-level Confidence Optimization for Visual Commonsense Reasoning ( http://arxiv.org/abs/2301.13335v1 )

ライセンス: Link先を確認
Jian Zhu, and Hanli Wang(参考訳) Visual Commonsense Reasoning(VCR)を実行するフレームワークは、与えられた画像と質問に基づいて、その画像が推論のすべての事実を含み、十分な理解を必要とする根拠を提供する必要がある。 従来の方法では、画像上に印加された検出器を用いて、シーン内の物体の正確な位置を考慮せずに視覚オブジェクトの集合を得ることができ、オブジェクト間の空間的および意味的関係を適切に理解できない。 さらに、VCRサンプルは非常に多様であり、フレームワークのパラメータはミニバッチに基づいて過度に訓練される傾向がある。 上記の課題に対処するために, PPTMCOという多レベル信頼度最適化を用いた擬似3次元知覚変換器を提案する。 具体的には、画像中の2次元座標と共に物体の擬似3次元位置を表現するために画像深度を導入し、さらに視覚的特徴を高める。 そこで,物体間の関係が深度の影響を受けていることを考慮し,各単語を擬似深度値でタグ付けして,解答語や物体から物体への深度差によって誘導される注意機構を提案する。 フレームワークのパラメータをより最適化するために,マルチレベル推論の信頼性に基づいてミニバッチによって最適化されたパラメータを重み付け統合するモデルパラメータ推定手法を提案する。 ベンチマークVCRデータセットの実験では、提案されたフレームワークが最先端のアプローチに対してより良いパフォーマンスを示す。

A framework performing Visual Commonsense Reasoning(VCR) needs to choose an answer and further provide a rationale justifying based on the given image and question, where the image contains all the facts for reasoning and requires to be sufficiently understood. Previous methods use a detector applied on the image to obtain a set of visual objects without considering the exact positions of them in the scene, which is inadequate for properly understanding spatial and semantic relationships between objects. In addition, VCR samples are quite diverse, and parameters of the framework tend to be trained suboptimally based on mini-batches. To address above challenges, pseudo 3D perception Transformer with multi-level confidence optimization named PPTMCO is proposed for VCR in this paper. Specifically, image depth is introduced to represent pseudo 3-dimension(3D) positions of objects along with 2-dimension(2D) coordinates in the image and further enhance visual features. Then, considering that relationships between objects are influenced by depth, depth-aware Transformer is proposed to do attention mechanism guided by depth differences from answer words and objects to objects, where each word is tagged with pseudo depth value according to related objects. To better optimize parameters of the framework, a model parameter estimation method is further proposed to weightedly integrate parameters optimized by mini-batches based on multi-level reasoning confidence. Experiments on the benchmark VCR dataset demonstrate the proposed framework performs better against the state-of-the-art approaches.
翻訳日:2023-02-01 18:08:32 公開日:2023-01-30
# CSDN:高分解能血管内超音波画像の正確なリアルタイム分割のための浅部と深部ネットワーク

CSDN: Combing Shallow and Deep Networks for Accurate Real-time Segmentation of High-definition Intravascular Ultrasound Images ( http://arxiv.org/abs/2301.13648v1 )

ライセンス: Link先を確認
Shaofeng Yuan, Feng Yang(参考訳) 血管内超音波(ivus)は冠動脈のリアルタイムおよび高分解能断面像を撮影し,狭窄の評価に好適な形態である。 IVUS画像の正確なリアルタイムセグメンテーションには、ルーメンと外部弾性膜の境界線が記述される。 本稿では60MHz高分解能IVUS画像の効率的な分割のための2ストリームフレームワークを提案する。 浅いネットワークと深いネットワーク、すなわちcsdnを組み合わせたものだ。 厚いチャネルを持つ浅いネットワークは、低レベルの詳細を抽出することに焦点を当てている。 細いチャネルを持つディープネットワークは、ハイレベルなセマンティクスを学習する。 これらの情報を別々に扱うことで,モデル学習により,高精度かつ高効率なリアルタイムセグメンテーションを実現することができる。 さらにセグメンテーション性能を向上させるために、異なるタイプの特徴表現の強化と融合のために相互誘導融合モジュールが使用される。 実験の結果,我々のCSDNは解析速度とセグメンテーション精度の良好なトレードオフを達成できた。

Intravascular ultrasound (IVUS) is the preferred modality for capturing real-time and high resolution cross-sectional images of the coronary arteries, and evaluating the stenosis. Accurate and real-time segmentation of IVUS images involves the delineation of lumen and external elastic membrane borders. In this paper, we propose a two-stream framework for efficient segmentation of 60 MHz high resolution IVUS images. It combines shallow and deep networks, namely, CSDN. The shallow network with thick channels focuses to extract low-level details. The deep network with thin channels takes charge of learning high-level semantics. Treating the above information separately enables learning a model to achieve high accuracy and high efficiency for accurate real-time segmentation. To further improve the segmentation performance, mutual guided fusion module is used to enhance and fuse both different types of feature representation. The experimental results show that our CSDN accomplishes a good trade-off between analysis speed and segmentation accuracy.
翻訳日:2023-02-01 16:19:23 公開日:2023-01-30
# ChatGPTか人間か? 検出と説明。 短いチャットGPTテキスト検出のための機械学習モデルの解説

ChatGPT or Human? Detect and Explain. Explaining Decisions of Machine Learning Model for Detecting Short ChatGPT-generated Text ( http://arxiv.org/abs/2301.13852v1 )

ライセンス: Link先を確認
Sandra Mitrovi\'c, Davide Andreoletti, Omran Ayoub(参考訳) ChatGPTは、様々なドメインから異なるタイプの質問に対して文法的に不完全で一見人間的な応答を生成する能力を持っている。 ユーザ数やアプリケーションの数も前例のないペースで増加している。 残念ながら、使用と虐待は手元にある。 本稿では,このテキストが短い場合に,機械学習モデルを効果的に訓練することにより,本来の人間と見た目のテキスト(すなわちChatGPT生成)を正確に区別できるかどうかを考察する。 さらに,チャットgpt生成テキストと人間の生成テキストの区別を訓練したモデルの背後にある理由を解明するために,説明可能な人工知能フレームワークを用いる。 目標は、モデルの決定を分析し、特定のパターンや特性を識別できるかどうかを判断することだ。 本研究では,人間生成テキストとChatGPT生成テキストを比較した2つの実験を行った。 第1の実験はカスタムクエリから生成されたChatGPTテキスト、第2の実験は、オリジナルの人間生成レビューをリフレッシュして生成されたテキストである。 我々はTransformerベースのモデルを微調整し、それを予測に使用し、SHAPを使って説明する。 このモデルとパープレキシティスコアに基づくアプローチを比較し,人間とChatGPTが生成したレビューの曖昧さは,リフレッシドテキストを用いたMLモデルではより困難であることを示す。 しかし,提案手法の精度は79%である。 説明可能性を用いて、ChatGPTの文章は特定の詳細なしに丁寧であり、派手で非定型的な語彙を使用し、非個人的であり、典型的には感情を表現しない。

ChatGPT has the ability to generate grammatically flawless and seemingly-human replies to different types of questions from various domains. The number of its users and of its applications is growing at an unprecedented rate. Unfortunately, use and abuse come hand in hand. In this paper, we study whether a machine learning model can be effectively trained to accurately distinguish between original human and seemingly human (that is, ChatGPT-generated) text, especially when this text is short. Furthermore, we employ an explainable artificial intelligence framework to gain insight into the reasoning behind the model trained to differentiate between ChatGPT-generated and human-generated text. The goal is to analyze model's decisions and determine if any specific patterns or characteristics can be identified. Our study focuses on short online reviews, conducting two experiments comparing human-generated and ChatGPT-generated text. The first experiment involves ChatGPT text generated from custom queries, while the second experiment involves text generated by rephrasing original human-generated reviews. We fine-tune a Transformer-based model and use it to make predictions, which are then explained using SHAP. We compare our model with a perplexity score-based approach and find that disambiguation between human and ChatGPT-generated reviews is more challenging for the ML model when using rephrased text. However, our proposed approach still achieves an accuracy of 79%. Using explainability, we observe that ChatGPT's writing is polite, without specific details, using fancy and atypical vocabulary, impersonal, and typically it does not express feelings.
翻訳日:2023-02-01 15:15:41 公開日:2023-01-30
# 捕捉型イオン発振器の計測に基づく地中冷却

Measurement-based ground state cooling of a trapped ion oscillator ( http://arxiv.org/abs/2208.05332v2 )

ライセンス: Link先を確認
Chungsun Lee, Simon C. Webster, Jacopo Mosca Toba, Ollie Corfield, George Porter, Richard C. Thompson(参考訳) 測定ベースの冷却は、まず最初に熱状態にある量子系を、ある種の測定によって基底状態に準備する方法である。 これは、システムが望ましい状態にあることを示す測定を行うことによって行われる。 本稿では, 測定に基づく冷却手法を閉じ込めた原子イオンに適用する。 イオンはドップラーレーザー冷却により約18ドルの平均励起で熱状態に予冷却され、測定に基づく冷却技術はイオンが運動基底状態にある場合を選択する。 シーディングプロセスの忠実度は95%以上である。 この技術は、閉じ込められたイオンほどレーザー冷却に適さない他のシステムにも適用することができる。

Measurement-based cooling is a method by which a quantum system, initially in a thermal state, can be prepared in its ground state through some sort of measurement. This is done by making a measurement that heralds the system being in the desired state. Here we demonstrate the application of a measurement-based cooling technique to a trapped atomic ion. The ion is pre-cooled by Doppler laser cooling to a thermal state with a mean excitation of $\bar n \approx 18$ and the measurement-based cooling technique selects those occasions when the ion happens to be in the motional ground state. The fidelity of the heralding process is greater than 95%. This technique can be applied to other systems that are not as amenable to laser cooling as trapped ions.
翻訳日:2023-02-01 12:41:08 公開日:2023-01-30
# Baxter-Fendley自由パラフェミオンモデルにおける例外点

Exceptional Points in the Baxter-Fendley Free Parafermion Model ( http://arxiv.org/abs/2301.11031v2 )

ライセンス: Link先を確認
Robert A. Henry and Murray T. Batchelor(参考訳) 量子イジング鎖のような特定のスピン鎖は自由フェルミオンスペクトルを持ち、分離された2レベルフェルミオン系の和として表現できる。 自由パラフェルミオンは、このアイデアを$Z(N)$-対称モデルに単純な一般化である。 1989年、バクスターはイジングチェーンを直接一般化する非エルミート的だが$pt$対称モデルを発見したが、これは後にフェンドリーによって自由パラフェルミオンスペクトルであると認識された。 モデルの磁場パラメータを複素平面に拡張することにより、一連の例外点が出現し、自由スペクトルを定義する準エネルギーが縮退することを示す。 これらの点の位置に関する解析式を導出し,様々な数値解析を行った。 これらの例外点は、複雑な横体を持つイジング鎖にも存在する。 モデルは通常これらの例外点において$PT$対称ではないが、それらの近接性は$PT$対称実数直線上のモデルに大きな影響を与える。 さらに、モデルのある場合には、(負の場を持つ)実数直線上に例外点が現れることがある。

Certain spin chains, such as the quantum Ising chain, have free fermion spectra which can be expressed as the sum of decoupled two-level fermionic systems. Free parafermions are a simple generalisation of this idea to $Z(N)$-symmetric models. In 1989 Baxter discovered a non-Hermitian but $PT$-symmetric model directly generalising the Ising chain which was much later recognised by Fendley to be a free parafermion spectrum. By extending the model's magnetic field parameter to the complex plane, we show that a series of exceptional points emerges, where the quasienergies defining the free spectrum become degenerate. An analytic expression for the locations of these points is derived, and various numerical investigations are performed. These exceptional points also exist in the Ising chain with a complex transverse field. Although the model is not in general $PT$-symmetric at these exceptional points, their proximity can have a profound impact on the model on the $PT$-symmetric real line. Furthermore, in certain cases of the model an exceptional point may appear on the real line (with negative field).
翻訳日:2023-01-31 20:37:24 公開日:2023-01-30
# グラフ畳み込みネットワークの無限界安定性

Limitless stability for Graph Convolutional Networks ( http://arxiv.org/abs/2301.11443v2 )

ライセンス: Link先を確認
Christian Koke(参考訳) この研究は、グラフ畳み込みネットワークに対する厳密で斬新で広く適用可能な安定性保証と転送可能性境界を確立する。 重要なことに、グラフシフト演算子(GSO)は必ずしも正規ではないと考えられており、指向性グラフと非指向性グラフの両方のネットワークを扱える。 ノードレベルの摂動に対する安定性は、各層におけるフィルタの「適切な(スペクトル)被覆」特性に関連している。 エッジレベルの摂動に対する安定性は、リプシッツ定数や新しく導入されたフィルタのセミノルムと関連している。 位相摂動に対する安定性に関する結果は、最近開発された数理物理学に基づくツールによって得られる。 グラフ畳み込みネットワークは,gsoがグラフラプラシアンでフィルタが無限に規則的である場合に,グラフコアグライン処理(強連結サブグラフを単一ノードで置き換える)の下で安定であることが,重要かつ斬新な例として示されている。 これらの新しい理論結果は対応する数値的研究によって支持される。

This work establishes rigorous, novel and widely applicable stability guarantees and transferability bounds for graph convolutional networks -- without reference to any underlying limit object or statistical distribution. Crucially, utilized graph-shift operators (GSOs) are not necessarily assumed to be normal, allowing for the treatment of networks on both directed- and for the first time also undirected graphs. Stability to node-level perturbations is related to an 'adequate (spectral) covering' property of the filters in each layer. Stability to edge-level perturbations is related to Lipschitz constants and newly introduced semi-norms of filters. Results on stability to topological perturbations are obtained through recently developed mathematical-physics based tools. As an important and novel example, it is showcased that graph convolutional networks are stable under graph-coarse-graining procedures (replacing strongly-connected sub-graphs by single nodes) precisely if the GSO is the graph Laplacian and filters are regular at infinity. These new theoretical results are supported by corresponding numerical investigations.
翻訳日:2023-01-31 20:28:55 公開日:2023-01-30
# カーネルメソッドのスケールアップのための簡易アルゴリズム

A Simple Algorithm For Scaling Up Kernel Methods ( http://arxiv.org/abs/2301.11414v2 )

ライセンス: Link先を確認
Teng Andrea Xu, Bryan Kelly, Semyon Malamud(参考訳) 遅延トレーニング体制における無限広ニューラルネットワーク(NN)とニューラルタンジェントカーネル(NTK)の同値性の発見(Jacot et al., 2018)により、カーネルメソッドへの関心が復活した。 しかしながら、カーネルメソッドは計算の複雑さとメモリ要件のために大規模なサンプルには適さない、という従来の知見は示唆している。 そこで我々は,無作為な特徴を無作為に無限個までスケールできる,新しいランダムな特徴回帰アルゴリズムを提案する。 CIFAR-10データセット上で,本手法の性能について述べる。

The recent discovery of the equivalence between infinitely wide neural networks (NNs) in the lazy training regime and Neural Tangent Kernels (NTKs) (Jacot et al., 2018) has revived interest in kernel methods. However, conventional wisdom suggests kernel methods are unsuitable for large samples due to their computational complexity and memory requirements. We introduce a novel random feature regression algorithm that allows us (when necessary) to scale to virtually infinite numbers of random features. We illustrate the performance of our method on the CIFAR-10 dataset.
翻訳日:2023-01-31 20:28:36 公開日:2023-01-30
# Pairwise と $K$-wise の比較による人間のフィードバックによる原則強化学習

Principled Reinforcement Learning with Human Feedback from Pairwise or $K$-wise Comparisons ( http://arxiv.org/abs/2301.11270v2 )

ライセンス: Link先を確認
Banghua Zhu, Jiantao Jiao, Michael I. Jordan(参考訳) RLHF(Reinforcement Learning with Human Feedback)の理論的枠組みを提供する。 解析により、真の報酬関数が線型であるとき、広く用いられる最大極大推定器(MLE)はブラッドリー・テリー・ルーシ(BTL)モデルとプラケット・ルーシ(PL)モデルの両方に収束することを示した。 しかし、学習した報酬モデルに基づいてポリシーをトレーニングする際、MLEは失敗し、悲観的なMLEは特定のカバレッジ仮定の下で性能を改善したポリシーを提供する。 さらに、plモデルの下では、$k$-wise比較をペアワイズ比較に分割する真のmleと代替mleの両方が収束することを示す。 さらに、真のMLEは漸近的により効率的である。 InstructGPTにおける既存のRLHFアルゴリズムの実証的成功を検証し,アルゴリズム設計の新しい知見を提供する。 さらに,RLHFと最大エントロピー逆強化学習(IRL)の問題を統一し,最大エントロピーIRLに束縛された最初のサンプル複雑性を提供する。

We provide a theoretical framework for Reinforcement Learning with Human Feedback (RLHF). Our analysis shows that when the true reward function is linear, the widely used maximum likelihood estimator (MLE) converges under both the Bradley-Terry-Luce (BTL) model and the Plackett-Luce (PL) model. However, we show that when training a policy based on the learned reward model, MLE fails while a pessimistic MLE provides policies with improved performance under certain coverage assumptions. Additionally, we demonstrate that under the PL model, the true MLE and an alternative MLE that splits the $K$-wise comparison into pairwise comparisons both converge. Moreover, the true MLE is asymptotically more efficient. Our results validate the empirical success of existing RLHF algorithms in InstructGPT and provide new insights for algorithm design. Furthermore, our results unify the problem of RLHF and max-entropy Inverse Reinforcement Learning (IRL), and provide the first sample complexity bound for max-entropy IRL.
翻訳日:2023-01-31 20:27:57 公開日:2023-01-30
# I-24 MOTION:高速道路交通科学のための機器

I-24 MOTION: An instrument for freeway traffic science ( http://arxiv.org/abs/2301.11198v2 )

ライセンス: Link先を確認
Derek Gloudemans, Yanbing Wang, Junyi Ji, Gergely Zachar, Will Barbour, Daniel B. Work(参考訳) 州間高速道路24号線技術州間高速道路観測ネットワーク (I-24 MOTION) はテネシー州ナッシュビルに近い交通科学の新しい手段である。 I-24 MoTION は約4.2マイルのI-24をシームレスにカバーする276個の極マウントの高解像度交通カメラと、頻繁に観測される渋滞を伴う4-5車線(全方向)の高速道路で構成されている。 カメラは、光ファイバーネットワークを介して、コンピュータビジョン技術を用いてビデオ画像から車両軌道を抽出する計算設備に接続される。 年間約2億3000万マイルの走行がI-24 MoTIONで行われている。 この機器の主な出力は、高速道路上の各車両の位置を含む車両軌跡データセットと、その他の補助的な情報車両の寸法とクラスである。 本稿では,楽器の設計と作成について述べるとともに,楽器から生成された最初の公開データセットについて述べる。 この記事で公開されたデータセットには、10日毎に少なくとも4時間の車両軌跡データが含まれている。 システムが成熟し続けるにつれて、すべての軌道データはi24motion.org/dataで公開される。

The Interstate-24 MObility Technology Interstate Observation Network (I-24 MOTION) is a new instrument for traffic science located near Nashville, Tennessee. I-24 MOTION consists of 276 pole-mounted high-resolution traffic cameras that provide seamless coverage of approximately 4.2 miles I-24, a 4-5 lane (each direction) freeway with frequently observed congestion. The cameras are connected via fiber optic network to a compute facility where vehicle trajectories are extracted from the video imagery using computer vision techniques. Approximately 230 million vehicle miles of travel occur within I-24 MOTION annually. The main output of the instrument are vehicle trajectory datasets that contain the position of each vehicle on the freeway, as well as other supplementary information vehicle dimensions and class. This article describes the design and creation of the instrument, and provides the first publicly available datasets generated from the instrument. The datasets published with this article contains at least 4 hours of vehicle trajectory data for each of 10 days. As the system continues to mature, all trajectory data will be made publicly available at i24motion.org/data.
翻訳日:2023-01-31 20:27:15 公開日:2023-01-30
# プロトタイプベースインプットによる不完全多視点クラスタリング

Incomplete Multi-view Clustering via Prototype-based Imputation ( http://arxiv.org/abs/2301.11045v2 )

ライセンス: Link先を確認
Haobin Li, Yunfan Li, Mouxing Yang, Peng Hu, Dezhong Peng, Xi Peng(参考訳) 本稿では,不完全マルチビュークラスタリング(imvc)による2つの特徴の達成方法について検討する。 つまり 一 インスタンス共通性とは、クラスタ内インスタンスが共通のパターンを共有すること、及び ii) ビューの汎用性は、ビュー間のサンプルがビュー固有のパターンを持つべきであることを意味する。 そこで本研究では,2重アテンション層と2重コントラスト学習損失を用いた新しい2重ストリームモデルを設計し,ビュー固有のプロトタイプを学習し,サンプル・プロトタイプ関係をモデル化する。 ビューが欠落した場合,本モデルでは,欠落したビューのプロトタイプと,観察されたビューから受け継いだサンプル-プロトタイプ関係を用いてデータリカバリを行う。 我々のデュアルストリームモデルのおかげで、クラスタ固有の情報とビュー固有の情報の両方をキャプチャできるので、インスタンスの共通性とビューの汎用性はIMvCを促進するために保存できます。 11のアプローチと比較して,6つの挑戦的ベンチマークにおいて,本手法の優位性を示した。 コードはリリースされます。

In this paper, we study how to achieve two characteristics highly-expected by incomplete multi-view clustering (IMvC). Namely, i) instance commonality refers to that within-cluster instances should share a common pattern, and ii) view versatility refers to that cross-view samples should own view-specific patterns. To this end, we design a novel dual-stream model which employs a dual attention layer and a dual contrastive learning loss to learn view-specific prototypes and model the sample-prototype relationship. When the view is missed, our model performs data recovery using the prototypes in the missing view and the sample-prototype relationship inherited from the observed view. Thanks to our dual-stream model, both cluster- and view-specific information could be captured, and thus the instance commonality and view versatility could be preserved to facilitate IMvC. Extensive experiments demonstrate the superiority of our method on six challenging benchmarks compared with 11 approaches. The code will be released.
翻訳日:2023-01-31 20:25:45 公開日:2023-01-30
# 多様な人間選好からの強化学習

Reinforcement Learning from Diverse Human Preferences ( http://arxiv.org/abs/2301.11774v2 )

ライセンス: Link先を確認
Wanqi Xue, Bo An, Shuicheng Yan, Zhongwen Xu(参考訳) 報酬関数を設計する複雑さは、深層強化学習(RL)技術の幅広い応用にとって大きな障害となっている。 エージェントの望ましい行動や特性を記述することは、専門家にとっても難しい。 人間の嗜好(または嗜好に基づくRL)からの強化学習と呼ばれる新しいパラダイムが、行動軌跡内の人間の嗜好ラベルから報酬関数を学習する有望な解決策として登場した。 しかし,従来のRL法は,正確なオラクル選好ラベルの必要性によって制限されている。 本稿では,この制限に対処するため,人選好ラベルをクラウドソーシングし,人選好から学習する手法を開発した。 鍵となるアイデアは、潜在空間における正規化と修正を通じて報酬学習を安定させることである。 時間的整合性を確保するため、報酬モデルに強い制約が課せられ、その潜在空間は以前の分布に近くなる。 さらに、信頼性に基づく報酬モデルアンサンブル法は、より安定で信頼性の高い予測を生成するように設計されている。 提案手法はDMcontrol と Meta-world の様々なタスクでテストされ,様々なフィードバックから学習し,実世界の RL 手法への道を開く際に,既存の選好ベース RL アルゴリズムよりも一貫した,重要な改善が見られた。

The complexity of designing reward functions has been a major obstacle to the wide application of deep reinforcement learning (RL) techniques. Describing an agent's desired behaviors and properties can be difficult, even for experts. A new paradigm called reinforcement learning from human preferences (or preference-based RL) has emerged as a promising solution, in which reward functions are learned from human preference labels among behavior trajectories. However, existing methods for preference-based RL are limited by the need for accurate oracle preference labels. This paper addresses this limitation by developing a method for crowd-sourcing preference labels and learning from diverse human preferences. The key idea is to stabilize reward learning through regularization and correction in a latent space. To ensure temporal consistency, a strong constraint is imposed on the reward model that forces its latent space to be close to the prior distribution. Additionally, a confidence-based reward model ensembling method is designed to generate more stable and reliable predictions. The proposed method is tested on a variety of tasks in DMcontrol and Meta-world and has shown consistent and significant improvements over existing preference-based RL algorithms when learning from diverse feedback, paving the way for real-world applications of RL methods.
翻訳日:2023-01-31 20:19:24 公開日:2023-01-30
# Mo\^usai: 長期遅延拡散によるテキスト・音楽生成

Mo\^usai: Text-to-Music Generation with Long-Context Latent Diffusion ( http://arxiv.org/abs/2301.11757v2 )

ライセンス: Link先を確認
Flavio Schneider, Zhijing Jin, Bernhard Sch\"olkopf(参考訳) 画像生成のための拡散モデルの普及は、メディア合成の他の分野におけるこれらのモデルの可能性に新たな注目を集めている。 まだ十分に検討されていない分野の1つは、音楽生成への拡散モデルの適用である。 音楽生成には、時間次元、長期構造、重なり合う複数の音の層、訓練されたリスナーだけが検出できるニュアンスなど、複数の側面を扱う必要がある。 本研究では,テキスト条件音楽生成における拡散モデルの可能性について検討する。 テキスト記述から48kHzで高品質なステレオ音楽の複数分間を生成できるカスケード潜時拡散法を開発した。 各モデルに対して、単一のコンシューマGPU上でリアルタイムにターゲットとする、合理的な推論速度の維持に努めます。 トレーニングされたモデルに加えて、この分野の今後の作業を促進することを期待して、オープンソースライブラリのコレクションを提供します。 本論文の音楽サンプル: https://bit.ly/anonymous-mousai; すべてのモデルのすべての音楽サンプル: https://bit.ly/audio-diffusion; and codes: https://github.com/archinetai/audio-diffusion-pytorch

The recent surge in popularity of diffusion models for image generation has brought new attention to the potential of these models in other areas of media synthesis. One area that has yet to be fully explored is the application of diffusion models to music generation. Music generation requires to handle multiple aspects, including the temporal dimension, long-term structure, multiple layers of overlapping sounds, and nuances that only trained listeners can detect. In our work, we investigate the potential of diffusion models for text-conditional music generation. We develop a cascading latent diffusion approach that can generate multiple minutes of high-quality stereo music at 48kHz from textual descriptions. For each model, we make an effort to maintain reasonable inference speed, targeting real-time on a single consumer GPU. In addition to trained models, we provide a collection of open-source libraries with the hope of facilitating future work in the field. We open-source the following: Music samples for this paper: https://bit.ly/anonymous-mousai; all music samples for all models: https://bit.ly/audio-diffusion; and codes: https://github.com/archinetai/audio-diffusion-pytorch
翻訳日:2023-01-31 20:19:04 公開日:2023-01-30
# グラフ構造化データのグラフ自由学習:より効率的で正確な時空間学習の視点

Graph-Free Learning in Graph-Structured Data: A More Efficient and Accurate Spatiotemporal Learning Perspective ( http://arxiv.org/abs/2301.11742v2 )

ライセンス: Link先を確認
Xu Wang, Pengfei Gu, Pengkun Wang, Binwu Wang, Zhengyang Zhou, Lei Bai, Yang Wang(参考訳) 収集した時空間データから時空間相関を抽出する時空間学習は近年研究のホットスポットとなっている。 また、時空間データに固有のグラフ構造を考えると、近年の研究は、グラフ畳み込みネットワーク(GCN)を用いて、隣接行列のガイダンスで頂点特徴を集約することで空間依存を捉えることに重点を置いている。 本稿では,広範かつ深層的な実験により,既存の時空間グラフ学習モデルを包括的に分析し,グラフ学習の性能向上の鍵と考えられる設計戦略による隣接行列の抽出がほとんど効果がないことを示す。 一方,これらの実験結果から,頂点の集約方法よりも集約自体が重要であることも判明した。 これらの予備的手法により、時空間グラフ学習における空間相関を捉えるための階層正規化に基づく新しいグラフ自由空間学習モジュールが開発された。 提案したGFSモジュールは、すべてのグラフ畳み込みコンポーネントを置き換えるために、既存のモデルに簡単にプラグインできる。 厳密な理論的証明は、gfsの時間複雑性がグラフ畳み込み演算よりも著しく優れていることを示している。 グラフ構造化データ,特に大規模グラフデータの処理において,効率と学習効果の両面からGFSの優位性を検証した。

Spatiotemporal learning, which aims at extracting spatiotemporal correlations from the collected spatiotemporal data, is a research hotspot in recent years. And considering the inherent graph structure of spatiotemporal data, recent works focus on capturing spatial dependencies by utilizing Graph Convolutional Networks (GCNs) to aggregate vertex features with the guidance of adjacency matrices. In this paper, with extensive and deep-going experiments, we comprehensively analyze existing spatiotemporal graph learning models and reveal that extracting adjacency matrices with carefully design strategies, which are viewed as the key of enhancing performance on graph learning, are largely ineffective. Meanwhile, based on these experiments, we also discover that the aggregation itself is more important than the way that how vertices are aggregated. With these preliminary, a novel efficient Graph-Free Spatial (GFS) learning module based on layer normalization for capturing spatial correlations in spatiotemporal graph learning. The proposed GFS module can be easily plugged into existing models for replacing all graph convolution components. Rigorous theoretical proof demonstrates that the time complexity of GFS is significantly better than that of graph convolution operation. Extensive experiments verify the superiority of GFS in both the perspectives of efficiency and learning effect in processing graph-structured data especially extreme large scale graph data.
翻訳日:2023-01-31 20:18:43 公開日:2023-01-30
# 確率微分方程式を用いた画像復元

Image Restoration with Mean-Reverting Stochastic Differential Equations ( http://arxiv.org/abs/2301.11699v2 )

ライセンス: Link先を確認
Ziwei Luo, Fredrik K. Gustafsson, Zheng Zhao, Jens Sj\"olund and Thomas B. Sch\"on(参考訳) 本稿では,汎用画像復元のための確率微分方程式(SDE)を提案する。 鍵となる構成は、高品質な画像をガウス雑音が固定された平均状態として劣化した状態に変換する平均回帰SDEである。 そして、対応する逆時間SDEをシミュレートすることにより、タスク固有の事前知識に頼ることなく、低品質画像の原点を復元することができる。 重要なことは、提案した平均回帰SDEは閉形式解を持ち、真理時間依存スコアを計算してニューラルネットワークで学習することができる。 さらに, 学習を安定させ, 復元結果を改善するための最適逆行路を学習するための最大帰結目標を提案する。 実験では,提案手法が画像デレーシング,デブローリング,デノージングの定量的比較において高い競合性能を達成し,2つのデレーシングデータセットに新たな最先端を設定することを実証した。 最後に, 画像の超解像, 塗装, 脱湿に関する定性的な結果により, 提案手法の一般適用性をさらに実証した。 コードはhttps://github.com/algolzw/image-restoration-sdeで入手できる。

This paper presents a stochastic differential equation (SDE) approach for general-purpose image restoration. The key construction consists in a mean-reverting SDE that transforms a high-quality image into a degraded counterpart as a mean state with fixed Gaussian noise. Then, by simulating the corresponding reverse-time SDE, we are able to restore the origin of the low-quality image without relying on any task-specific prior knowledge. Crucially, the proposed mean-reverting SDE has a closed-form solution, allowing us to compute the ground truth time-dependent score and learn it with a neural network. Moreover, we propose a maximum likelihood objective to learn an optimal reverse trajectory which stabilizes the training and improves the restoration results. In the experiments, we show that our proposed method achieves highly competitive performance in quantitative comparisons on image deraining, deblurring, and denoising, setting a new state-of-the-art on two deraining datasets. Finally, the general applicability of our approach is further demonstrated via qualitative results on image super-resolution, inpainting, and dehazing. Code is available at https://github.com/Algolzw/image-restoration-sde.
翻訳日:2023-01-31 20:18:23 公開日:2023-01-30
# 自由度推定のための最大平均差の最適重み付け推定器

Optimally-Weighted Estimators of the Maximum Mean Discrepancy for Likelihood-Free Inference ( http://arxiv.org/abs/2301.11674v2 )

ライセンス: Link先を確認
Ayush Bharti, Masha Naslidnyk, Oscar Key, Samuel Kaski, Fran\c{c}ois-Xavier Briol(参考訳) Likelihood-free推論手法は典型的にはシミュレーションデータと実データの間の距離を利用する。 一般的な例として、最大平均誤差(MMD)があり、これはベイズ近似計算、最小距離推定、一般化ベイズ推論、および非パラメトリック学習フレームワーク内で使われている。 MMDは一般にルート$m$と見積もられており、$m$は模擬サンプルの数である。 これは、正確な推定を得るために大きな$m$を必要とするため、重要な計算上の課題につながる可能性がある。 本稿では,サンプルの複雑さを大幅に改善したMDDの新しい推定器を提案する。 この推定器は、低次元から中次元の入力を持つ計算コストの高い滑らかなシミュレータに特に適している。 この主張は、理論的な結果とベンチマークシミュレータに関する広範なシミュレーション研究の両方を通して支持されている。

Likelihood-free inference methods typically make use of a distance between simulated and real data. A common example is the maximum mean discrepancy (MMD), which has previously been used for approximate Bayesian computation, minimum distance estimation, generalised Bayesian inference, and within the nonparametric learning framework. The MMD is commonly estimated at a root-$m$ rate, where $m$ is the number of simulated samples. This can lead to significant computational challenges since a large $m$ is required to obtain an accurate estimate, which is crucial for parameter estimation. In this paper, we propose a novel estimator for the MMD with significantly improved sample complexity. The estimator is particularly well suited for computationally expensive smooth simulators with low- to mid-dimensional inputs. This claim is supported through both theoretical results and an extensive simulation study on benchmark simulators.
翻訳日:2023-01-31 20:18:04 公開日:2023-01-30
# 流体場予測のための消音拡散モデル

A Denoising Diffusion Model for Fluid Field Prediction ( http://arxiv.org/abs/2301.11661v2 )

ライセンス: Link先を確認
Gefan Yang, Stefan Sommer(参考訳) 本研究では,FluidDiff という非線形流体場予測モデルを提案する。 拡散過程を実行することで、モデルは高次元力学系の複雑な表現を学習し、次にランゲヴィンサンプリングを使用して、指定された初期条件下での流れ状態の予測を生成する。 モデルは有限個の離散流体シミュレーションデータを用いて訓練される。 本モデルでは,シミュレーショントレーニングデータの分布をモデル化する能力と,テストデータの正確な予測を行う能力を有することを実証する。 基礎となる物理系の事前知識を符号化せずに、新しい計算流体力学法の研究を約束する流体予測のための他の深層学習モデルと競合性能を共有する。

We propose a novel denoising diffusion generative model for predicting nonlinear fluid fields named FluidDiff. By performing a diffusion process, the model is able to learn a complex representation of the high-dimensional dynamic system, and then Langevin sampling is used to generate predictions for the flow state under specified initial conditions. The model is trained with finite, discrete fluid simulation data. We demonstrate that our model has the capacity to model the distribution of simulated training data and that it gives accurate predictions on the test data. Without encoded prior knowledge of the underlying physical system, it shares competitive performance with other deep learning models for fluid prediction, which is promising for investigation on new computational fluid dynamics methods.
翻訳日:2023-01-31 20:17:52 公開日:2023-01-30
# パラメーター効率の高い転送学習による言語モデルの分布外ロバスト性の検出

Probing Out-of-Distribution Robustness of Language Models with Parameter-Efficient Transfer Learning ( http://arxiv.org/abs/2301.11660v2 )

ライセンス: Link先を確認
Hyunsoo Cho, Choonghyun Park, Junyeop Kim, Hyuhng Joon Kim, Kang Min Yoo, and Sang-goo Lee(参考訳) プレトレーニング言語モデル (PLM) のサイズが増加し続けるにつれて, 微調整の膨大なコストを補うために, パラメータ効率の学習手法が多数提案されている。 大規模な事前学習言語モデル (PLM) と各種パラメータ効率変換学習法 (PETL) が日没ベンチマークで達成した印象的な結果にもかかわらず, 分散的にシフトした入力を効果的に処理できるかどうかは不明である。 本研究では,plmの大きさや転送方法が変化するにつれて,od(out-of-distribution)がどう変化するかを体系的に検討する。 具体的には,異なるスケールの様々な言語モデルを用いて,3つの異なる意図分類タスクにおいて,微調整,アダプタ,lora,プレフィックスチューニングを含む様々なpetl手法を評価した。

As the size of the pre-trained language model (PLM) continues to increase, numerous parameter-efficient transfer learning methods have been proposed recently to compensate for the tremendous cost of fine-tuning. Despite the impressive results achieved by large pre-trained language models (PLMs) and various parameter-efficient transfer learning (PETL) methods on sundry benchmarks, it remains unclear if they can handle inputs that have been distributionally shifted effectively. In this study, we systematically explore how the ability to detect out-of-distribution (OOD) changes as the size of the PLM grows or the transfer methods are altered. Specifically, we evaluated various PETL techniques, including fine-tuning, Adapter, LoRA, and prefix-tuning, on three different intention classification tasks, each utilizing various language models with different scales.
翻訳日:2023-01-31 20:17:42 公開日:2023-01-30
# エネルギー依存ポテンシャルと位置依存質量をもつダンケル・シュレーディンガー方程式のdarboux変換

Darboux transformations for Dunkl-Schroedinger equations with energy dependent potential and position dependent mass ( http://arxiv.org/abs/2301.11622v2 )

ライセンス: Link先を確認
Axel Schulze-Halberg and Pinaki Roy(参考訳) 我々は、エネルギー依存ポテンシャルとダンケル形式における位置依存質量を持つシュレーディンガー方程式の任意の次darboux変換を構築する。 我々の構成は、標準的なシュレーディンガーの場合と方程式を関連付ける点変換に基づいている。 本手法を用いて, 可溶性ダンクルシュレーディンガー方程式を生成する。

We construct arbitrary-order Darboux transformations for Schroedinger equations with energy-dependent potential and position-dependent mass within the Dunkl formalism. Our construction is based on a point transformation that interrelates our equations with the standard Schroedinger case. We apply our method to generate several solvable Dunkl-Schroedinger equations.
翻訳日:2023-01-31 20:17:24 公開日:2023-01-30
# ステップサイズ適応 : 逆攻撃に対する勾配に基づく手法の分析と改善のための統一的視点

Adapting Step-size: A Unified Perspective to Analyze and Improve Gradient-based Methods for Adversarial Attacks ( http://arxiv.org/abs/2301.11546v2 )

ライセンス: Link先を確認
Wei Tao, Lei Bao, Sheng Long, Gaowei Wu, Qing Tao(参考訳) 学習逆例は、ボックス制約で損失関数を最大化する最適化問題として定式化することができる。 しかし、この誘導最適化問題を解決するために、FGSM、I-FGSM、MI-FGSMといった最先端の勾配に基づく手法は、特に方向の更新において、元の手法とは異なるように見える。 本稿では,ステップサイズ適応の観点から,これらの勾配に基づく逆学習手法の統一的な理論的解釈を提案する。 これらのアルゴリズムのそれぞれが,現在の勾配情報のみを含むステップサイズルールを用いて,元の勾配法の具体的再構成であることを示す。 このような分析により、正規勾配法に基づく適応勾配に基づくアルゴリズムの幅広いクラスを示し、蓄積した勾配の情報を利用したステップサイズ戦略を統合する。 このような適応的なステップサイズ戦略は、経験的な操作を使うのではなく、勾配のスケールを直接正規化する。 重要な利点は、反復アルゴリズムの収束が保証され、最適化プロセス全体が安定化できることである。 実験の結果、我々のAdaI-FGMは一貫してI-FGSMより優れており、AdaMI-FGMはブラックボックス攻撃のMI-FGSMと競合していることがわかった。

Learning adversarial examples can be formulated as an optimization problem of maximizing the loss function with some box-constraints. However, for solving this induced optimization problem, the state-of-the-art gradient-based methods such as FGSM, I-FGSM and MI-FGSM look different from their original methods especially in updating the direction, which makes it difficult to understand them and then leaves some theoretical issues to be addressed in viewpoint of optimization. In this paper, from the perspective of adapting step-size, we provide a unified theoretical interpretation of these gradient-based adversarial learning methods. We show that each of these algorithms is in fact a specific reformulation of their original gradient methods but using the step-size rules with only current gradient information. Motivated by such analysis, we present a broad class of adaptive gradient-based algorithms based on the regular gradient methods, in which the step-size strategy utilizing information of the accumulated gradients is integrated. Such adaptive step-size strategies directly normalize the scale of the gradients rather than use some empirical operations. The important benefit is that convergence for the iterative algorithms is guaranteed and then the whole optimization process can be stabilized. The experiments demonstrate that our AdaI-FGM consistently outperforms I-FGSM and AdaMI-FGM remains competitive with MI-FGSM for black-box attacks.
翻訳日:2023-01-31 20:17:19 公開日:2023-01-30
# 深部産業画像の異常検出:調査

Deep Industrial Image Anomaly Detection: A Survey ( http://arxiv.org/abs/2301.11514v2 )

ライセンス: Link先を確認
Jiaqi Liu, Guoyang Xie, Jingbao Wang, Shangnian Li, Chengjie Wang, Feng Zheng, Yaochu Jin(参考訳) 近年のディープラーニングの急速な発展は,産業用画像異常検出(IAD)のマイルストーンとなった。 本稿では,ニューラルネットワークアーキテクチャ,監視レベル,損失関数,メトリクス,データセットの観点から,ディープラーニングに基づく画像異常検出手法の包括的なレビューを行う。 また, 工業生産から新たな環境を抽出し, 我々の提案した新たな環境下での現在のIADアプローチを概観する。 さらに,画像異常検出のオープニング課題をいくつか挙げる。 各種監視下の代表的ネットワークアーキテクチャのメリットと欠点について論じる。 最後に,研究成果を要約し,今後の研究方向性を指摘する。 さらなるリソースはhttps://github.com/M-3LAB/awesome-industrial-anomaly-detectionで入手できる。

The recent rapid development of deep learning has laid a milestone in industrial Image Anomaly Detection (IAD). In this paper, we provide a comprehensive review of deep learning-based image anomaly detection techniques, from the perspectives of neural network architectures, levels of supervision, loss functions, metrics and datasets. In addition, we extract the new setting from industrial manufacturing and review the current IAD approaches under our proposed our new setting. Moreover, we highlight several opening challenges for image anomaly detection. The merits and downsides of representative network architectures under varying supervision are discussed. Finally, we summarize the research findings and point out future research directions. More resources are available at https://github.com/M-3LAB/awesome-industrial-anomaly-detection.
翻訳日:2023-01-31 20:16:53 公開日:2023-01-30
# rgbアラビア語アルファベット手話データセット

RGB Arabic Alphabets Sign Language Dataset ( http://arxiv.org/abs/2301.11932v1 )

ライセンス: Link先を確認
Muhammad Al-Barham and Adham Alsharkawi and Musa Al-Yaman and Mohammad Al-Fetyani and Ashraf Elnagar and Ahmad Abu SaAleek and Mohammad Al-Odat(参考訳) 本稿では,RGB Arabic Alphabet Sign Language (AASL)データセットを紹介する。 AASLは、アラビア手話アルファベットの7,856の生のRGB画像と完全ラベル付きRGB画像で構成されており、我々の知る限り、最初の公開RGBデータセットである。 このデータセットは、実際のアラビア語手話分類モデルの開発に興味がある人を助けることを目的としている。 AASLは200人以上の参加者から収集され、照明、背景、画像方向、画像サイズ、画像解像度などの異なる設定で収集された。 この分野の専門家は、収集した画像を監視、検証、フィルタリングし、高品質なデータセットを確保する。 AASLはKaggleで一般公開されている。

This paper introduces the RGB Arabic Alphabet Sign Language (AASL) dataset. AASL comprises 7,856 raw and fully labelled RGB images of the Arabic sign language alphabets, which to our best knowledge is the first publicly available RGB dataset. The dataset is aimed to help those interested in developing real-life Arabic sign language classification models. AASL was collected from more than 200 participants and with different settings such as lighting, background, image orientation, image size, and image resolution. Experts in the field supervised, validated and filtered the collected images to ensure a high-quality dataset. AASL is made available to the public on Kaggle.
翻訳日:2023-01-31 20:09:14 公開日:2023-01-30
# 高次ウォーカーモードとカー非線形性との結合によるマグメカニカルバックアクション補正

Magnomechanical backaction corrections due to coupling to higher order Walker modes and Kerr nonlinearities ( http://arxiv.org/abs/2301.11920v2 )

ライセンス: Link先を確認
V. A. S. V. Bittencourt and C. A. Potts and Y. Huang and J. P. Davis and S. Viola Kusminskiy(参考訳) 磁石中のマグノンとフォノンの放射圧のような結合は、動的バックアクションによってフォノン周波数(磁気バネ効果)と崩壊率(磁気メカニカル崩壊)を変化させることができる。 このような効果は、磁気圏の均一なマグノンモード(キッテルモード)をマイクロ波空洞に結合することで最近観察されている。 特に,マグノメカニクスに基づく熱測定などの応用に必須の条件である [c.a. potts et al., arxiv:2211.13766 [quant-ph] (2022)] , 反作用を回避できる能力が実証された。 しかし, 標準理論モデルで予測されたマグノメカニカル崩壊速度から偏差が観測された。 本研究では,これらの偏差を補正による補正により考慮する。 (i)磁気ケラー非線形性及び (ii)追加のマグノンモードへのフォノンの結合。 これらの付加モードが駆動キャビティに弱く結合している場合、このモデルは平均的なkittel magnonモードの占有に比例する補正を与える。 実験の結果は磁気球面に焦点をあて、静磁場ウォーカーモードがキッテルモードと同じくらい効率的に関連するメカニカルモードと結合することを示した。 我々のモデルは実験データとよく一致している。

The radiation pressure-like coupling between magnons and phonons in magnets can modify the phonon frequency (magnomechanical spring effect) and decay rate (magnomechanical decay) via dynamical backaction. Such effects have been recently observed by coupling the uniform magnon mode of a magnetic sphere (the Kittel mode) to a microwave cavity. In particular, the ability to evade backaction effects was demonstrated [C.A. Potts et al., arXiv:2211.13766 [quant-ph] (2022)], a requisite for applications such as magnomechanical based thermometry. However, deviations were observed from the predicted magnomechanical decay rate within the standard theoretical model. In this work, we account for these deviations by considering corrections due to (i) magnetic Kerr nonlinearities and (ii) the coupling of phonons to additional magnon modes. Provided that such additional modes couple weakly to the driven cavity, our model yields a correction proportional to the average Kittel magnon mode occupation. We focus our results on magnetic spheres, where we show that the magnetostatic Walker modes couple to the relevant mechanical modes as efficiently as the Kittel mode. Our model yields excellent agreement with the experimental data.
翻訳日:2023-01-31 20:08:20 公開日:2023-01-30
# 一般損失関数をもつ重機SGDのアルゴリズム安定性

Algorithmic Stability of Heavy-Tailed SGD with General Loss Functions ( http://arxiv.org/abs/2301.11885v2 )

ライセンス: Link先を確認
Anant Raj and Lingjiong Zhu and Mert G\"urb\"uzbalaban and Umut \c{S}im\c{s}ekli(参考訳) 確率勾配降下 (sgd) における重テール現象はいくつかの実験研究で報告されている。 前回の研究では、尾の重みとSGDの一般化行動の間に強い相互作用があることが示されている。 この経験的現象に理論的に対処するために、いくつかの研究は、一般化誤差を重尾にリンクする強い位相的および統計的仮定を行った。 ごく最近、新しい一般化境界が証明され、一般化誤差と重い尾との非単調な関係が示され、これは報告された経験的観測とより関連がある。 これらの境界は、重尾確率微分方程式(SDE)を用いてSGDをモデル化できるという追加の位相的仮定を必要としないが、単純な二次問題にのみ適用できる。 本稿では、この研究の線上に構築し、非凸関数を含むより一般的な目的関数のクラスに対する一般化境界を開発する。 我々のアプローチは、重み付きSDEとその離散化に対するワッサーシュタイン安定境界の開発に基づいており、それが一般化境界に変換される。 我々の結果は非自明な仮定を必要としないが、損失関数の一般性のおかげで経験的な観測により多くの光を当てた。

Heavy-tail phenomena in stochastic gradient descent (SGD) have been reported in several empirical studies. Experimental evidence in previous works suggests a strong interplay between the heaviness of the tails and generalization behavior of SGD. To address this empirical phenomena theoretically, several works have made strong topological and statistical assumptions to link the generalization error to heavy tails. Very recently, new generalization bounds have been proven, indicating a non-monotonic relationship between the generalization error and heavy tails, which is more pertinent to the reported empirical observations. While these bounds do not require additional topological assumptions given that SGD can be modeled using a heavy-tailed stochastic differential equation (SDE), they can only apply to simple quadratic problems. In this paper, we build on this line of research and develop generalization bounds for a more general class of objective functions, which includes non-convex functions as well. Our approach is based on developing Wasserstein stability bounds for heavy-tailed SDEs and their discretizations, which we then convert to generalization bounds. Our results do not require any nontrivial assumptions; yet, they shed more light to the empirical observations, thanks to the generality of the loss functions.
翻訳日:2023-01-31 20:07:55 公開日:2023-01-30
# sober:再結合制約を用いたスケーラブルバッチベイズ最適化と二次計算

SOBER: Scalable Batch Bayesian Optimization and Quadrature using Recombination Constraints ( http://arxiv.org/abs/2301.11832v2 )

ライセンス: Link先を確認
Masaki Adachi, Satoshi Hayakawa, Saad Hamid, Martin J{\o}rgensen, Harald Oberhauser, Micheal A. Osborne(参考訳) バッチベイズ最適化(bo: batch bayesian optimization)は、高価な評価対象関数を並列にクエリできる最適化を行うサンプル効率のよい方法である。 しかし、現在の手法は大規模なバッチサイズにはスケールしない -- 実際には頻繁なデシデラタム(例えば、薬物の発見やシミュレーションに基づく推論)である。 本稿では,任意の取得関数,任意の入力空間(グラフなど),任意のカーネルを持つ,スケーラブルで多様化したバッチboを実現する新しいアルゴリズムであるsoberを提案する。 提案手法の鍵となるのは,BO のバッチ選択をベイズ二次問題 (BQ) として再構成することである。 この改革はBQタスクを相互に解く上で有益であり、BOのBQへの活用機能を導入している。 薬物発見やシミュレーションに基づく推論を含む実世界のタスクにおいて,SOBERが実質的なパフォーマンス向上をもたらすことを示す。

Batch Bayesian optimisation (BO) has shown to be a sample-efficient method of performing optimisation where expensive-to-evaluate objective functions can be queried in parallel. However, current methods do not scale to large batch sizes -- a frequent desideratum in practice (e.g. drug discovery or simulation-based inference). We present a novel algorithm, SOBER, which permits scalable and diversified batch BO with arbitrary acquisition functions, arbitrary input spaces (e.g. graph), and arbitrary kernels. The key to our approach is to reformulate batch selection for BO as a Bayesian quadrature (BQ) problem, which offers computational advantages. This reformulation is beneficial in solving BQ tasks reciprocally, which introduces the exploitative functionality of BO to BQ. We show that SOBER offers substantive performance gains in synthetic and real-world tasks, including drug discovery and simulation-based inference.
翻訳日:2023-01-31 20:07:35 公開日:2023-01-30
# PCV: ポイントクラウドベースのネットワーク検証器

PCV: A Point Cloud-Based Network Verifier ( http://arxiv.org/abs/2301.11806v2 )

ライセンス: Link先を確認
Arup Kumar Sarker, Farzana Yasmin Ahmad and Matthew B. Dwyer(参考訳) リアルタイムLiDARベースのポイントクラウドデータを用いた3Dビジョンは、特に物体の分類、セグメンテーション、検出に使用される知覚と予測モジュールにおいて、自律システム研究の重要な部分となった。 その成功にもかかわらず、ポイントクラウドベースのネットワークモデルは、複数の敵攻撃に対して脆弱であり、検証セットの変更の特定の要因が、よく訓練されたネットワークで顕著なパフォーマンス低下を引き起こす。 既存の検証器のほとんどは2次元畳み込みで完全に動作する。 複雑なアーキテクチャ、ハイパーパラメータの次元、および3次元畳み込みのため、検証者は基本的な層間検証を行うことができない。 検証を行わずに3次元視覚モデルの堅牢性を結論付けることは困難である。 なぜなら、モデルの有効性を損なうようなケースや逆入力が常に存在するからです。 本稿では, art 3d 分類器pointnet の状態の処理を成功させるポイントクラウドベースのネットワーク検証器について述べる。 訓練したポイントネットから抽出した特性を用いて,摂動入力の要因を変化させた。 我々は、モデル精度と特性係数への影響を計算し、提案したハイブリッド逆符号攻撃のような敵攻撃による摂動状態の小さなコレクションに対して、PointNetネットワークのロバスト性をテストする。 実験の結果, ポイントネットの弾性特性は, ハイブリッド型逆符号摂動戦略の影響を受けていることが明らかとなった。

3D vision with real-time LiDAR-based point cloud data became a vital part of autonomous system research, especially perception and prediction modules use for object classification, segmentation, and detection. Despite their success, point cloud-based network models are vulnerable to multiple adversarial attacks, where the certain factor of changes in the validation set causes significant performance drop in well-trained networks. Most of the existing verifiers work perfectly on 2D convolution. Due to complex architecture, dimension of hyper-parameter, and 3D convolution, no verifiers can perform the basic layer-wise verification. It is difficult to conclude the robustness of a 3D vision model without performing the verification. Because there will be always corner cases and adversarial input that can compromise the model's effectiveness. In this project, we describe a point cloud-based network verifier that successfully deals state of the art 3D classifier PointNet verifies the robustness by generating adversarial inputs. We have used extracted properties from the trained PointNet and changed certain factors for perturbation input. We calculate the impact on model accuracy versus property factor and can test PointNet network's robustness against a small collection of perturbing input states resulting from adversarial attacks like the suggested hybrid reverse signed attack. The experimental results reveal that the resilience property of PointNet is affected by our hybrid reverse signed perturbation strategy
翻訳日:2023-01-31 20:07:20 公開日:2023-01-30
# テキストから話す学習:教師なしテキスト事前学習によるゼロショット多言語テキスト音声

Learning to Speak from Text: Zero-Shot Multilingual Text-to-Speech with Unsupervised Text Pretraining ( http://arxiv.org/abs/2301.12596v1 )

ライセンス: Link先を確認
Takaaki Saeki, Soumi Maiti, Xinjian Li, Shinji Watanabe, Shinnosuke Takamichi, Hiroshi Saruwatari(参考訳) ニューラルテキスト音声(TTS)は、人間のような自然な合成音声を達成しているが、多言語TSシステムは、ペアテキストとスタジオ品質のオーディオデータを必要とするため、リソース豊富な言語に限られている。 本稿では,対象言語に対するテキストのみのデータを用いたゼロショット多言語TSを提案する。 テキストのみのデータを使用することで、テキストリソースのみが利用可能な低リソース言語向けのTSシステムの開発が可能になり、数千の言語でTTSが利用できるようになる。 本フレームワークは,多言語言語モデルの強い言語間伝達性に着想を得て,まず,多言語テキストのみのデータを用いた事前学習を行う。 次に、言語対応の埋め込み層を凍結しながら、このモデルを教師付き方法でペアデータでトレーニングする。 これにより、ペアデータには含まれず、テキストのみのデータに存在する言語に対しても推論が可能になる。 評価の結果,文字誤り率が12%未満のゼロショットTSは,見当たらない言語では高い知能性を示した。 すべての実験は公開データセットを使用して行われ、実装は再現可能である。

While neural text-to-speech (TTS) has achieved human-like natural synthetic speech, multilingual TTS systems are limited to resource-rich languages due to the need for paired text and studio-quality audio data. This paper proposes a method for zero-shot multilingual TTS using text-only data for the target language. The use of text-only data allows the development of TTS systems for low-resource languages for which only textual resources are available, making TTS accessible to thousands of languages. Inspired by the strong cross-lingual transferability of multilingual language models, our framework first performs masked language model pretraining with multilingual text-only data. Then we train this model with a paired data in a supervised manner, while freezing a language-aware embedding layer. This allows inference even for languages not included in the paired data but present in the text-only data. Evaluation results demonstrate highly intelligible zero-shot TTS with a character error rate of less than 12% for an unseen language. All experiments were conducted using public datasets and the implementation will be made available for reproducibility.
翻訳日:2023-01-31 16:13:23 公開日:2023-01-30
# 敵対的帯域攻撃

Adversarial Attacks on Adversarial Bandits ( http://arxiv.org/abs/2301.12595v1 )

ライセンス: Link先を確認
Yuzhe Ma, Zhijin Zhou(参考訳) 攻撃者が被害者のバンディットプレーヤーの行動を制御するために損失や報奨信号を乱す、敵の多腕バンディットに対するセキュリティの脅威について検討する。 攻撃者は任意の非回帰逆バンディットアルゴリズムを誤解し、各ラウンドの副線形 (t-o(t)) 個数で最適のターゲットアームを選択できるが、副線形 (o(t)) 累積攻撃コストはかかる。 この結果は、例えばオンラインレコメンデーションにおいて、アタッカーがレコメンデーターシステムをハイジャックし、望ましい製品を宣伝できるような、現実世界の盗賊ベースのシステムにおける重要なセキュリティ上の懸念を意味する。 提案した攻撃アルゴリズムは, 後悔率のみの知識を必要とするため, 被害者が使用する具体的な盗賊アルゴリズムに非依存である。 また, 被害者に依存しない攻撃アルゴリズムは, 累積攻撃コストを理論的に下限に設定した。 下限は攻撃によって達成された上限と一致しており、これは我々の攻撃が漸近的に最適であることを示している。

We study a security threat to adversarial multi-armed bandits, in which an attacker perturbs the loss or reward signal to control the behavior of the victim bandit player. We show that the attacker is able to mislead any no-regret adversarial bandit algorithm into selecting a suboptimal target arm in every but sublinear (T-o(T)) number of rounds, while incurring only sublinear (o(T)) cumulative attack cost. This result implies critical security concern in real-world bandit-based systems, e.g., in online recommendation, an attacker might be able to hijack the recommender system and promote a desired product. Our proposed attack algorithms require knowledge of only the regret rate, thus are agnostic to the concrete bandit algorithm employed by the victim player. We also derived a theoretical lower bound on the cumulative attack cost that any victim-agnostic attack algorithm must incur. The lower bound matches the upper bound achieved by our attack, which shows that our attack is asymptotically optimal.
翻訳日:2023-01-31 16:13:03 公開日:2023-01-30
# 連続生成フローネットワークの理論

A theory of continuous generative flow networks ( http://arxiv.org/abs/2301.12594v1 )

ライセンス: Link先を確認
Salem Lahlou, Tristan Deleu, Pablo Lemos, Dinghuai Zhang, Alexandra Volokhova, Alex Hern\'andez-Garc\'ia, L\'ena N\'ehale Ezzine, Yoshua Bengio, Nikolay Malkin(参考訳) ジェネレーティブフローネットワーク(Generative Flow Networks, GFlowNets)は、合成対象物上の非正規化対象分布からサンプリングするように訓練されたアモータイズされた変分推論アルゴリズムである。 GFlowNets の重要な制限は、それらが離散空間に制限されていることである。 本稿では,既存の離散GFlowNetと連続的あるいはハイブリッドな状態空間を持つGFlowNetを包含する一般化GFlowNetの理論を提案し,二つの目標を念頭に実験を行う。 まず,理論の批判点と様々な仮定の重要性について述べる。 第二に, 離散型gflownets の観測結果が連続的な場合へどのように移行するかを実証し, 従来研究したタスクにおける非 gflownet ベースラインと比較して, 強い結果を示す。 この作業は、確率的推論と様々なモデリング設定におけるGFlowNetsの適用の視点を大幅に広げる。

Generative flow networks (GFlowNets) are amortized variational inference algorithms that are trained to sample from unnormalized target distributions over compositional objects. A key limitation of GFlowNets until this time has been that they are restricted to discrete spaces. We present a theory for generalized GFlowNets, which encompasses both existing discrete GFlowNets and ones with continuous or hybrid state spaces, and perform experiments with two goals in mind. First, we illustrate critical points of the theory and the importance of various assumptions. Second, we empirically demonstrate how observations about discrete GFlowNets transfer to the continuous case and show strong results compared to non-GFlowNet baselines on several previously studied tasks. This work greatly widens the perspectives for the application of GFlowNets in probabilistic inference and various modeling settings.
翻訳日:2023-01-31 16:12:44 公開日:2023-01-30
# 分布的ロバストな安全強化学習のためのリスク-逆モデル不確かさ

Risk-Averse Model Uncertainty for Distributionally Robust Safe Reinforcement Learning ( http://arxiv.org/abs/2301.12593v1 )

ライセンス: Link先を確認
James Queeney and Mouhacine Benosman(参考訳) 多くの現実世界のドメインは、不確実性の存在下での安全な意思決定を必要とする。 本研究では,この重要な問題にアプローチするための深層強化学習フレームワークを提案する。 我々は,コヒーレント歪みリスク尺度を用いて,モデル不確実性に対するリスク・逆の視点を考察し,我々の定式化は,性能と安全性を保証し,分布的に堅牢な安全強化学習問題と等価であることを示す。 我々は,単一のトレーニング環境へのアクセスのみを必要とする効率的な実装を提案し,本フレームワークが実世界の強化学習スイートにおいて,安全制約を伴う様々な連続制御タスクにおいて堅牢で安全なパフォーマンスを実現することを実証する。

Many real-world domains require safe decision making in the presence of uncertainty. In this work, we propose a deep reinforcement learning framework for approaching this important problem. We consider a risk-averse perspective towards model uncertainty through the use of coherent distortion risk measures, and we show that our formulation is equivalent to a distributionally robust safe reinforcement learning problem with robustness guarantees on performance and safety. We propose an efficient implementation that only requires access to a single training environment, and we demonstrate that our framework produces robust, safe performance on a variety of continuous control tasks with safety constraints in the Real-World Reinforcement Learning Suite.
翻訳日:2023-01-31 16:12:30 公開日:2023-01-30
# 欠落データを用いたマルチビューアンサンブル学習:安全な自律運転領域からの新たなデータを用いた計算フレームワークと評価

Multi-View Ensemble Learning With Missing Data: Computational Framework and Evaluations using Novel Data from the Safe Autonomous Driving Domain ( http://arxiv.org/abs/2301.12592v1 )

ライセンス: Link先を確認
Ross Greer, Lulua Rakla, Akshay Gopalkrishnan, Mohan Trivedi(参考訳) イベントを観測する複数のセンサーを持つ現実世界のアプリケーションは、情報が断続的に欠落している場合であっても、継続的に利用可能な予測を行うことが期待されている。 本研究では,4つのカメラビュー間で共有される冗長性と情報を利用したアンサンブル学習とセンサ融合の手法を,自律運転における手動動作分類の課題に適用する。 特に,並列畳み込みニューラルネットワーク間の遅延フュージョンアプローチが,単一カメラモデルにおいてさえも優れていることを示す。 このアプローチを実現するために,不足情報を扱うためのスキームを提案し,重み付き多数決やモデル組み合わせスキームなどの追加手法に対して,このレイトフュージョンアプローチの比較分析を行う。

Real-world applications with multiple sensors observing an event are expected to make continuously-available predictions, even in cases where information may be intermittently missing. We explore methods in ensemble learning and sensor fusion to make use of redundancy and information shared between four camera views, applied to the task of hand activity classification for autonomous driving. In particular, we show that a late-fusion approach between parallel convolutional neural networks can outperform even the best-placed single camera model. To enable this approach, we propose a scheme for handling missing information, and then provide comparative analysis of this late-fusion approach to additional methods such as weighted majority voting and model combination schemes.
翻訳日:2023-01-31 16:12:17 公開日:2023-01-30
# RREx-BoT: トリックの袋を使ったリモート参照式

RREx-BoT: Remote Referring Expressions with a Bag of Tricks ( http://arxiv.org/abs/2301.12614v1 )

ライセンス: Link先を確認
Gunnar A. Sigurdsson, Jesse Thomason, Gaurav S. Sukhatme, Robinson Piramuthu(参考訳) 家庭用ロボットは何年も同じ空間で動作します。 このようなロボットは、リモートオブジェクトのローカライゼーションを必要とするタスクに使用できるダイナミックマップを段階的に構築する。 しかしながら、ロボット学習のベンチマークは、観測されていない環境におけるタスクの推論を通じて一般化をテストすることが多い。 観察された環境では、オブジェクトの特定は、環境内のすべてのオブジェクト提案の中から選択される。 この直感に則り、3Dエンコーディングと動作の微調整を施した汎用視覚言語スコアリングモデルのみを用いて、REVERIEのアートモデル上におけるリモートオブジェクトの絶対的なパフォーマンス向上率を9.84%、FAOの5.04%と示す。 環境の事前探索が許された場合,REVERIEにおける先行探索手法の先行状態を超越する。 さらに,このアプローチの単純さと有用性を強調した,実世界のturletbotプラットフォーム上でのモデルを示す。 分析では,3次元座標とコンテキストの活用から,視覚言語モデルから大規模3次元探索空間への一般化まで,この課題を実現する上で不可欠な「小技の袋」について概説する。

Household robots operate in the same space for years. Such robots incrementally build dynamic maps that can be used for tasks requiring remote object localization. However, benchmarks in robot learning often test generalization through inference on tasks in unobserved environments. In an observed environment, locating an object is reduced to choosing from among all object proposals in the environment, which may number in the 100,000s. Armed with this intuition, using only a generic vision-language scoring model with minor modifications for 3d encoding and operating in an embodied environment, we demonstrate an absolute performance gain of 9.84% on remote object grounding above state of the art models for REVERIE and of 5.04% on FAO. When allowed to pre-explore an environment, we also exceed the previous state of the art pre-exploration method on REVERIE. Additionally, we demonstrate our model on a real-world TurtleBot platform, highlighting the simplicity and usefulness of the approach. Our analysis outlines a "bag of tricks" essential for accomplishing this task, from utilizing 3d coordinates and context, to generalizing vision-language models to large 3d search spaces.
翻訳日:2023-01-31 16:04:18 公開日:2023-01-30
# AudioEar:パーソナライズされた空間オーディオのための単一視点耳再構成

AudioEar: Single-View Ear Reconstruction for Personalized Spatial Audio ( http://arxiv.org/abs/2301.12613v1 )

ライセンス: Link先を確認
Xiaoyang Huang, Yanjun Wang, Yang Liu, Bingbing Ni, Wenjun Zhang, Jinxian Liu, Teng Li(参考訳) 没入型3D音響レンダリングに焦点を当てた空間オーディオは、音響産業に広く応用されている。 現在の空間音響レンダリング手法の大きな問題の1つは、正確な音源位置を生成するのに不可欠である個人の異なる解剖に基づくパーソナライゼーションの欠如である。 本研究では,学際的な観点からこの問題に対処する。 空間音響の描画は、人体の3次元形状、特に耳と強く相関している。 そこで本研究では,人間の耳を1視点画像で再構成し,パーソナライズした空間オーディオを実現することを提案する。 まず,112点の雲耳スキャンとRGB画像からなる高品質な3D耳データセットであるAudioEar3Dを紹介する。 自己教師ありに復元モデルを訓練するため,我々はさらにaudioear2dという,手作業による咬合注記と55点のランドマークを持つ2,000の画像からなる2次元耳データセットを収集した。 我々の知る限り、両者のデータセットは、公共用途において最大のスケールと最高の品質を持っている。 さらに,耳データに適した2つの損失関数を持つ合成データに基づいて,深度推定ネットワークによって誘導される再構成手法であるAudioEarMを提案する。 最後に、視覚と音響のギャップを埋めるために、再構成された耳メッシュを市販の3D人体と統合し、空間オーディオレンダリングのコアとなるパーソナライズされた頭部関連伝達関数(HRTF)をシミュレートするパイプラインを開発する。 コードとデータはhttps://github.com/seanywang0408/audioearで公開されている。

Spatial audio, which focuses on immersive 3D sound rendering, is widely applied in the acoustic industry. One of the key problems of current spatial audio rendering methods is the lack of personalization based on different anatomies of individuals, which is essential to produce accurate sound source positions. In this work, we address this problem from an interdisciplinary perspective. The rendering of spatial audio is strongly correlated with the 3D shape of human bodies, particularly ears. To this end, we propose to achieve personalized spatial audio by reconstructing 3D human ears with single-view images. First, to benchmark the ear reconstruction task, we introduce AudioEar3D, a high-quality 3D ear dataset consisting of 112 point cloud ear scans with RGB images. To self-supervisedly train a reconstruction model, we further collect a 2D ear dataset composed of 2,000 images, each one with manual annotation of occlusion and 55 landmarks, named AudioEar2D. To our knowledge, both datasets have the largest scale and best quality of their kinds for public use. Further, we propose AudioEarM, a reconstruction method guided by a depth estimation network that is trained on synthetic data, with two loss functions tailored for ear data. Lastly, to fill the gap between the vision and acoustics community, we develop a pipeline to integrate the reconstructed ear mesh with an off-the-shelf 3D human body and simulate a personalized Head-Related Transfer Function (HRTF), which is the core of spatial audio rendering. Code and data are publicly available at https://github.com/seanywang0408/AudioEar.
翻訳日:2023-01-31 16:03:56 公開日:2023-01-30
# ssr-ta: チケット自動化のためのシーケンスからシーケンスベースの専門家リカレントレコメンデーション

SSR-TA: Sequence to Sequence based expert recurrent recommendation for ticket automation ( http://arxiv.org/abs/2301.12612v1 )

ライセンス: Link先を確認
Chenhan Cao, Xiaoyu Fang, Bingqing Luo and Bin Xia(参考訳) チケットの自動化は、ITソフトウェアシステムの正常な運用に対する重要なサポートを提供する。 チケット自動化の重要な課題は、来るべきチケットの解決に専門家を割り当てることである。 しかし、何千ものチケットに直面し、不適切な割り当てによって専門家の間でチケットの転送が頻繁に行われ、時間の遅れやリソースの浪費が生じる。 チケットの自動化には,より少ないステップで適切な専門家を効果的かつ効率的に見つけることが不可欠です。 本稿では,チケットに適切な専門家を推薦するために,反復レコメンデーションネットワークと組み合わせたシーケンストシーケンスベース翻訳モデルを提案する。 シーケンシャル・トゥ・シーケンシャル・モデルはチケット記述を対応する解像度に変換し、チケット表現の潜在的かつ有用な特徴をキャプチャする。 リカレントレコメンデーションネットワークは、レコメンデーションシーケンスの前の専門家が専門家を解決できないという仮定に基づいて、適切な専門家を推薦する。 実世界の2つのデータセットにおいて,複数のベースラインをssr-taと比較する実験を行い,提案モデルがベースラインを上回ることを示した。 比較実験の結果,SSR-TAは,ユーザ生成チケットのエキスパートレコメンデーションの性能が向上していることがわかった。

The ticket automation provides crucial support for the normal operation of IT software systems. An essential task of ticket automation is to assign experts to solve upcoming tickets. However, facing thousands of tickets, inappropriate assignments will make tickets transfer frequently among experts, which causes time delays and wasted resources. Effectively and efficiently finding an appropriate expert in fewer steps is vital to ticket automation. In this paper, we proposed a sequence to sequence based translation model combined with a recurrent recommendation network to recommend appropriate experts for tickets. The sequence to sequence model transforms the ticket description into the corresponding resolution for capturing the potential and useful features of representing tickets. The recurrent recommendation network recommends the appropriate expert based on the assumption that the previous expert in the recommendation sequence cannot solve the expert. To evaluate the performance, we conducted experiments to compare several baselines with SSR-TA on two real-world datasets, and the experimental results show that our proposed model outperforms the baselines. The comparative experiment results also show that SSR-TA has a better performance of expert recommendations for user-generated tickets.
翻訳日:2023-01-31 16:03:29 公開日:2023-01-30
# 知識蒸留$\approx$ Label Smoothing: Fact or Fallacy?

Knowledge Distillation $\approx$ Label Smoothing: Fact or Fallacy? ( http://arxiv.org/abs/2301.12609v1 )

ライセンス: Link先を確認
Md Arafat Sultan(参考訳) あるモデルから別のモデルへの知識伝達のファシリテーターとしての本来の解釈とは対照的に、近年の研究では、知識蒸留(KD)は正則化の一形態であることを示唆している。 おそらくこの主張に対する最も強い支持は、ラベルスムーシング(LS)との明らかな類似性から得られるものである。 本稿では,これらの2つの手法間の等価性について,訓練対象モデルの予測的不確かさについて検討する。 異なる能力を持つ教師と学生を対象とした4つのテキスト分類タスクの実験 (a)ほとんどの設定では、kd と ls はモデルの不確実性(エントロピー)を完全に反対方向に駆動する。 b)KDでは,学生の予測の不確実性は教師の直接的機能であり,知識伝達の視点を補強する。

Contrary to its original interpretation as a facilitator of knowledge transfer from one model to another, some recent studies have suggested that knowledge distillation (KD) is instead a form of regularization. Perhaps the strongest support of all for this claim is drawn from its apparent similarities with label smoothing (LS). This paper investigates the stated equivalence between these two methods by examining the predictive uncertainties of the models they train. Experiments on four text classification tasks involving teachers and students of different capacities show that: (a) In most settings, KD and LS drive model uncertainty (entropy) in completely opposite directions, and (b) In KD, the student's predictive uncertainty is a direct function of that of its teacher, reinforcing the knowledge transfer view.
翻訳日:2023-01-31 16:03:08 公開日:2023-01-30
# NLPモデルのニューロン解釈法の評価

Evaluating Neuron Interpretation Methods of NLP Models ( http://arxiv.org/abs/2301.12608v1 )

ライセンス: Link先を確認
Yimin Fan, Fahim Dalvi, Nadir Durrani, Hassan Sajjad(参考訳) ニューロン解釈は、解釈可能性の分野で牽引力を得ており、モデルがどのように学習し、言語知識が様々な構成要素にどのように分配されるかに関する詳細な洞察を提供している。 しかし、評価ベンチマークとメトリクスの欠如は、これらの様々な手法の進歩をサイロ化させ、それらを比較し、その強みと弱点を強調している。 この違いの理由は、例えば、与えられたモデル内の多くのニューロンが同じ現象を学習し、従って1つの正しい答えが存在しないような、基底真理データセットを作成することの難しさにある。 さらに、学習された現象は複数のニューロンにまたがって一緒に作用する可能性がある。 本研究では,ニューロン解析法と他の方法との互換性を評価するための評価フレームワークを提案する。 私たちは、メソッドがほとんどのメソッドとより互換性があるほど、そのパフォーマンスについてより自信を持つことができると仮定します。 提案手法を体系的に評価し,多数のニューロン解釈法の比較分析を行った。 評価フレームワークをコミュニティに公開しています。 20のコンセプトと3つの事前学習されたモデルを使って、新しいメソッドを評価することができる。

Neuron Interpretation has gained traction in the field of interpretability, and have provided fine-grained insights into what a model learns and how language knowledge is distributed amongst its different components. However, the lack of evaluation benchmark and metrics have led to siloed progress within these various methods, with very little work comparing them and highlighting their strengths and weaknesses. The reason for this discrepancy is the difficulty of creating ground truth datasets, for example, many neurons within a given model may learn the same phenomena, and hence there may not be one correct answer. Moreover, a learned phenomenon may spread across several neurons that work together -- surfacing these to create a gold standard challenging. In this work, we propose an evaluation framework that measures the compatibility of a neuron analysis method with other methods. We hypothesize that the more compatible a method is with the majority of the methods, the more confident one can be about its performance. We systematically evaluate our proposed framework and present a comparative analysis of a large set of neuron interpretation methods. We make the evaluation framework available to the community. It enables the evaluation of any new method using 20 concepts and across three pre-trained models.The code is released at https://github.com/fdalvi/neuron-comparative-analysis
翻訳日:2023-01-31 16:02:54 公開日:2023-01-30
# グラフニューラルネットワークを用いたセルネットワークの交通予測

Traffic Prediction in Cellular Networks using Graph Neural Networks ( http://arxiv.org/abs/2301.12605v1 )

ライセンス: Link先を確認
Maryam Khalid(参考訳) セルラーネットワークは世界中で主要なコミュニケーション手段を提供するユビキタスな実体である。 セルラーネットワークにおける大きな課題の1つは、特定の基地局で過負荷となるユーザ数と通信サービスの使用量の動的変化である。 この過負荷問題に対処する解決策の1つは、一時的な基地局として機能し、過負荷の基地局からのトラフィックをオフロードできるドローンの配備である。 このソリューションの開発には2つの大きな課題がある。 第一に、ドローンは基地局周辺に存在し、将来過負荷が発生すると予測されるため、交通過負荷の予測が必要である。 第二に、ドローンはリソースに非常に制約があり、数分しか飛行できない。 影響を受ける基地局が本当に遠くなら、ドローンはそこへは到達できない。 これは、過負荷が発生する可能性があるセクターにおけるドローンの初期配置を必要とするため、トラフィック予測は必要だが、異なる空間規模で必要となる。 問題が発生する地域の空間的範囲と、ドローンが利用可能な非常に限られた電力資源は、必要な高需要ゾーンへの飛行時間を短縮するために、戦略的な位置にドローンを配置せずに克服することは、非常に困難である。 さらに、ドローンの飛行速度は有限であるため、実際に過負荷が発生する前にドローンが荷物を降ろせるように、トラヒックを予測できる予測ソリューションが採用されることが重要である。 どちらの目標も、このプロジェクトの主な目標であるセルラーネットワークトラフィックの分析と予測が必要である。

Cellular networks are ubiquitous entities that provide major means of communication all over the world. One major challenge in cellular networks is a dynamic change in the number of users and their usage of telecommunication service which results in overloading at certain base stations. One class of solution to deal with this overloading issue is the deployment of drones that can act as temporary base stations and offload the traffic from the overloaded base station. There are two main challenges in the development of this solution. Firstly, the drone is expected to be present around the base station where an overload would occur in the future thus requiring a prediction of traffic overload. Secondly, drones are highly constrained in their resources and can only fly for a few minutes. If the affected base station is really far, drones can never reach there. This requires the initial placement of drones in sectors where overloading can occur thus again requiring a traffic forecast but at a different spatial scale. It must be noted that the spatial extent of the region that the problem poses and the extremely limited power resources available to the drone pose a great challenge that is hard to overcome without deploying the drones in strategic positions to reduce the time to fly to the required high-demand zone. Moreover, since drone fly at a finite speed, it is important that a predictive solution that can forecast traffic surges is adopted so that drones are available to offload the overload before it actually happens. Both these goals require analysis and forecast of cellular network traffic which is the main goal of this project
翻訳日:2023-01-31 16:02:33 公開日:2023-01-30
# トラフィック予測にグラフニューラルネットワークは本当に必要か?

Do We Really Need Graph Neural Networks for Traffic Forecasting? ( http://arxiv.org/abs/2301.12603v1 )

ライセンス: Link先を確認
Xu Liu, Yuxuan Liang, Chao Huang, Hengchang Hu, Yushi Cao, Bryan Hooi, Roger Zimmermann(参考訳) 時空間グラフニューラルネットワーク(STGNN)がトラフィック予測の最も一般的なソリューションとなっている。 成功しながらも、ノード間の空間依存を確立するためにGNNのメッセージパッシング方式に依存しており、GNNの悪名高い非効率性を必然的に継承している。 これらの事実を踏まえて,本論文では,恥ずべきほど単純かつ極めて効果的な時空間学習手法であるsimstを提案する。 具体的には,局所的および大域的空間相関をモデル化した2つの空間学習手法により,GNNの有効性を近似する。 さらに、SimSTは様々な時間モデルと一緒に使用することができ、調整されたトレーニング戦略を含む。 我々は,SimSTの効率と有効性を評価するために,5つの交通ベンチマーク実験を行った。 実験結果から,SimSTはより洗練されたSTGNNに比べて最大39倍の予測スループットを向上するが,これはGNNが交通予測における空間モデリングの唯一の選択肢ではないことを示している。

Spatio-temporal graph neural networks (STGNN) have become the most popular solution to traffic forecasting. While successful, they rely on the message passing scheme of GNNs to establish spatial dependencies between nodes, and thus inevitably inherit GNNs' notorious inefficiency. Given these facts, in this paper, we propose an embarrassingly simple yet remarkably effective spatio-temporal learning approach, entitled SimST. Specifically, SimST approximates the efficacies of GNNs by two spatial learning techniques, which respectively model local and global spatial correlations. Moreover, SimST can be used alongside various temporal models and involves a tailored training strategy. We conduct experiments on five traffic benchmarks to assess the capability of SimST in terms of efficiency and effectiveness. Empirical results show that SimST improves the prediction throughput by up to 39 times compared to more sophisticated STGNNs while attaining comparable performance, which indicates that GNNs are not the only option for spatial modeling in traffic forecasting.
翻訳日:2023-01-31 16:02:09 公開日:2023-01-30
# 再帰的最適化された等価性を持つマルコフ決定過程の後悔境界

Regret Bounds for Markov Decision Processes with Recursive Optimized Certainty Equivalents ( http://arxiv.org/abs/2301.12601v1 )

ライセンス: Link先を確認
Wenhao Xu, Xuefeng Gao, Xuedong He(参考訳) 最適化された確実性等価(OCE)は、エントロピーリスク、条件付き値-リスク、平均分散モデルなどの重要な例をカバーするリスク尺度のファミリーである。 本稿では,再帰的OCEを用いた表在的マルコフ決定過程に基づく,新しいエピソード型リスク感応型強化学習法を提案する。 本研究では,値反復と高信頼境界に基づく効率的な学習アルゴリズムを設計する。 提案アルゴリズムの残差に基づいて上界を導出するとともに,ミニマックス下界を確立する。 我々の限界は,提案アルゴリズムが達成した後悔率は,エピソード数とアクション数に最適に依存することを示している。

The optimized certainty equivalent (OCE) is a family of risk measures that cover important examples such as entropic risk, conditional value-at-risk and mean-variance models. In this paper, we propose a new episodic risk-sensitive reinforcement learning formulation based on tabular Markov decision processes with recursive OCEs. We design an efficient learning algorithm for this problem based on value iteration and upper confidence bound. We derive an upper bound on the regret of the proposed algorithm, and also establish a minimax lower bound. Our bounds show that the regret rate achieved by our proposed algorithm has optimal dependence on the number of episodes and the number of actions.
翻訳日:2023-01-31 16:01:53 公開日:2023-01-30
# Baggingが見積もり不要の安定性を提供

Bagging Provides Assumption-free Stability ( http://arxiv.org/abs/2301.12600v1 )

ライセンス: Link先を確認
Jake A. Soloff, Rina Foygel Barber, Rebecca Willett(参考訳) バギングは機械学習モデルを安定化するための重要なテクニックである。 本稿では,境界出力を持つ任意のモデルに対して,バッジの安定性に関する有限サンプル保証を導出する。 この結果から,データの分布,基本アルゴリズムの特性,あるいは共変数の次元性に関する仮定は得られない。 我々の保証は多くの種類の袋に当てはまり、定数まで最適である。

Bagging is an important technique for stabilizing machine learning models. In this paper, we derive a finite-sample guarantee on the stability of bagging for any model with bounded outputs. Our result places no assumptions on the distribution of the data, on the properties of the base algorithm, or on the dimensionality of the covariates. Our guarantee applies to many variants of bagging and is optimal up to a constant.
翻訳日:2023-01-31 16:01:42 公開日:2023-01-30
# BLIP-2:凍結画像エンコーダと大規模言語モデルを用いたブートストラップ言語画像事前学習

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models ( http://arxiv.org/abs/2301.12597v1 )

ライセンス: Link先を確認
Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi(参考訳) 大規模モデルのエンドツーエンドトレーニングにより、視覚と言語による事前学習のコストはますます厳しくなっている。 本稿では,市販の凍結済み画像エンコーダと凍結大型言語モデルから視覚言語事前学習をブートストラップする汎用的で効率的な事前学習戦略BLIP-2を提案する。 BLIP-2は2つの段階で事前訓練された軽量クエリ変換器でモダリティギャップを埋める。 第1ステージは、凍結画像エンコーダから視覚言語表現学習をブートストラップする。 第2ステージは、凍結した言語モデルから視覚から言語への生成学習をブートストラップする。 BLIP-2は、既存の手法に比べてトレーニング可能なパラメータが大幅に少ないにもかかわらず、様々な視覚言語タスクにおける最先端のパフォーマンスを実現する。 例えば、Flamingo80BはゼロショットVQAv2で8.7%、トレーニング可能なパラメータは54倍である。 また、自然言語の指示に従うことができるゼロショット画像・テキスト生成の新たな能力を示す。

The cost of vision-and-language pre-training has become increasingly prohibitive due to end-to-end training of large-scale models. This paper proposes BLIP-2, a generic and efficient pre-training strategy that bootstraps vision-language pre-training from off-the-shelf frozen pre-trained image encoders and frozen large language models. BLIP-2 bridges the modality gap with a lightweight Querying Transformer, which is pre-trained in two stages. The first stage bootstraps vision-language representation learning from a frozen image encoder. The second stage bootstraps vision-to-language generative learning from a frozen language model. BLIP-2 achieves state-of-the-art performance on various vision-language tasks, despite having significantly fewer trainable parameters than existing methods. For example, our model outperforms Flamingo80B by 8.7% on zero-shot VQAv2 with 54x fewer trainable parameters. We also demonstrate the model's emerging capabilities of zero-shot image-to-text generation that can follow natural language instructions.
翻訳日:2023-01-31 16:01:37 公開日:2023-01-30
# 構成の探索:計算CxGの言語学的解析

Exploring the Constructicon: Linguistic Analysis of a Computational CxG ( http://arxiv.org/abs/2301.12642v1 )

ライセンス: Link先を確認
Jonathan Dunn(参考訳) 最近の研究は、コーパスを与えられたコンストラクティコンを生成するものとして、計算構成文法のタスクを定式化した。 前回の研究では、これらの教師なし文法を内部メトリクス(最小記述長など)と外部メトリクス(弁証法タスクのパフォーマンスなど)の両方を用いて評価している。 そこで本稿では,まずコンストラクティコンを学習し,その内容を言語学的観点から分析する。 この分析は、学習された構成物は9つの主要な種類の構成物に分けることができることを示している。 また,コンストラクタのトークンと型頻度は,レジスタや方言間の変動をモデル化するためにも利用できることを示す。

Recent work has formulated the task for computational construction grammar as producing a constructicon given a corpus of usage. Previous work has evaluated these unsupervised grammars using both internal metrics (for example, Minimum Description Length) and external metrics (for example, performance on a dialectology task). This paper instead takes a linguistic approach to evaluation, first learning a constructicon and then analyzing its contents from a linguistic perspective. This analysis shows that a learned constructicon can be divided into nine major types of constructions, of which Verbal and Nominal are the most common. The paper also shows that both the token and type frequency of constructions can be used to model variation across registers and dialects.
翻訳日:2023-01-31 15:54:57 公開日:2023-01-30
# Reweighted Interacting Langevin Diffusions:Accelerated Smpling Method for Optimization

Reweighted Interacting Langevin Diffusions: an Accelerated Sampling Methodfor Optimization ( http://arxiv.org/abs/2301.12640v1 )

ライセンス: Link先を確認
Junlong Lyu, Zhitang Chen, Wenlong Lyu, Jianye Hao(参考訳) 難解な最適化問題に対するサンプリング法を高速化する新しい手法を提案する。 本稿では,Langevin ダイナミックスを用いた後方分布サンプリングと最適化の本質的な関係について検討し,Reweighted Interacting Langevin Diffusion System (RILD) を近似した相互作用粒子スキームを提案する。 基礎となるシステムは、古典的なランジュバン作用素に乗法的ソース項を追加して設計され、より高い収束率とより集中的な不変測度をもたらす。 アルゴリズムの収束率と改善率を漸近的状況における既存の結果と比較した。 また,特に高次元非凸領域において,収束を加速し,不審な局所的最小値の障壁を突破する利点を示すとともに,理論的結果を検証するための様々な試験を設計した。 我々のアルゴリズムと分析は、偏微分方程式(PDE)と証明可能な保証を用いた勾配と遺伝的アルゴリズムの組み合わせに光を当てた。

We proposed a new technique to accelerate sampling methods for solving difficult optimization problems. Our method investigates the intrinsic connection between posterior distribution sampling and optimization with Langevin dynamics, and then we propose an interacting particle scheme that approximates a Reweighted Interacting Langevin Diffusion system (RILD). The underlying system is designed by adding a multiplicative source term into the classical Langevin operator, leading to a higher convergence rate and a more concentrated invariant measure. We analyze the convergence rate of our algorithm and the improvement compared to existing results in the asymptotic situation. We also design various tests to verify our theoretical results, showing the advantages of accelerating convergence and breaking through barriers of suspicious local minimums, especially in high-dimensional non-convex settings. Our algorithms and analysis shed some light on combining gradient and genetic algorithms using Partial Differential Equations (PDEs) with provable guarantees.
翻訳日:2023-01-31 15:54:44 公開日:2023-01-30
# 複数クラス視覚分類課題に対する横型学習

Lateralized Learning for Multi-Class Visual Classification Tasks ( http://arxiv.org/abs/2301.12637v1 )

ライセンス: Link先を確認
Abubakar Siddique, Will N. Browne, Gina M. Grimshaw(参考訳) コンピュータビジョンアルゴリズムの大部分は、画像に高次(抽象)パターンを見つけることができないため、人間の横方向の視覚とは異なり、敵対的な攻撃に対して頑健ではない。 深層学習は、各入力ピクセルを「ローカル感応ハッシュテーブル」の異なる部分が接続されていない場合が多く、高次パターンが発見されないような均質な方法で考える。 したがって、これらのシステムは、ノイズ、無関係、冗長なデータに対して堅牢ではないため、誤った予測を高い信頼性で行ないます。 逆に脊椎動物の脳は、側面化を通じて異質な知識を表現でき、異なる抽象レベルでモジュラー学習を可能にする。 この研究は、ノイズ、無関係、冗長なデータを含む現実世界の問題に対する横型アプローチの有効性、拡張性、堅牢性を検証することを目的としている。 複数クラス (200 クラス) の画像分類実験の結果, 新たなシステムは, 知識表現を抽象化レベルで効果的に学習し, 他の最先端技術よりも頑健であることがわかった。 重要な点として、新しい横型システムは、通常画像と敵画像の分類において、最先端のディープラーニングシステムをすべて上回っており、それぞれ19.05%41.02%と1.36%と49.22%であった。 コンピュータビジョン応用における異種・横型学習の価値を示す。

The majority of computer vision algorithms fail to find higher-order (abstract) patterns in an image so are not robust against adversarial attacks, unlike human lateralized vision. Deep learning considers each input pixel in a homogeneous manner such that different parts of a ``locality-sensitive hashing table'' are often not connected, meaning higher-order patterns are not discovered. Hence these systems are not robust against noisy, irrelevant, and redundant data, resulting in the wrong prediction being made with high confidence. Conversely, vertebrate brains afford heterogeneous knowledge representation through lateralization, enabling modular learning at different levels of abstraction. This work aims to verify the effectiveness, scalability, and robustness of a lateralized approach to real-world problems that contain noisy, irrelevant, and redundant data. The experimental results of multi-class (200 classes) image classification show that the novel system effectively learns knowledge representation at multiple levels of abstraction making it more robust than other state-of-the-art techniques. Crucially, the novel lateralized system outperformed all the state-of-the-art deep learning-based systems for the classification of normal and adversarial images by 19.05% - 41.02% and 1.36% - 49.22%, respectively. Findings demonstrate the value of heterogeneous and lateralized learning for computer vision applications.
翻訳日:2023-01-31 15:54:25 公開日:2023-01-30
# 胸部X線を用いたシームズ表現学習のための画像強化の検討

Exploring Image Augmentations for Siamese Representation Learning with Chest X-Rays ( http://arxiv.org/abs/2301.12636v1 )

ライセンス: Link先を確認
Rogier van der Sluijs, Nandita Bhaskhar, Daniel Rubin, Curtis Langlotz, Akshay Chaudhari(参考訳) 画像強化は、自己教師付き学習技術における効果的な視覚的表現学習に不可欠である。 自然画像の増強戦略は広く研究されているが、医療画像は自然画像とは大きく異なる。 このようにして、シャム語表現学習で用いられる共通の強化戦略が、医学的イメージにどの程度一般化するかは不明である。 この課題に対処するために,本研究では,学習した表現の質と堅牢性に対する様々な拡張の効果を体系的に評価する。 3つの大データセット(MIMIC-CXR, CheXpert, VinDR-CXR)にまたがる胸部X線異常検出のためのシームズネットワークの訓練と評価を行った。 線形探索,微調整,ゼロショット転送,データ効率などの実験により,学習表現の有効性を検討した。 最後に,ゼロショットトランスファーと線形プローブを用いた教師ありベースラインを最大20%上回りながら,分散データと疾患の両方によく適合するロバスト表現を導出する拡張集合を同定した。

Image augmentations are quintessential for effective visual representation learning across self-supervised learning techniques. While augmentation strategies for natural imaging have been studied extensively, medical images are vastly different from their natural counterparts. Thus, it is unknown whether common augmentation strategies employed in Siamese representation learning generalize to medical images and to what extent. To address this challenge, in this study, we systematically assess the effect of various augmentations on the quality and robustness of the learned representations. We train and evaluate Siamese Networks for abnormality detection on chest X-Rays across three large datasets (MIMIC-CXR, CheXpert and VinDR-CXR). We investigate the efficacy of the learned representations through experiments involving linear probing, fine-tuning, zero-shot transfer, and data efficiency. Finally, we identify a set of augmentations that yield robust representations that generalize well to both out-of-distribution data and diseases, while outperforming supervised baselines using just zero-shot transfer and linear probes by up to 20%.
翻訳日:2023-01-31 15:54:00 公開日:2023-01-30
# 細粒度サンプル複雑性をもつカルマンフィルタの学習

Learning the Kalman Filter with Fine-Grained Sample Complexity ( http://arxiv.org/abs/2301.12624v1 )

ライセンス: Link先を確認
Xiangyuan Zhang, Bin Hu, Tamer Ba\c{s}ar(参考訳) 離散時間無限ホライゾンカルマンフィルタにおけるモデルフリーポリシー勾配(pg)法の最初のエンドツーエンドサンプル複雑性を開発した。 具体的には、RHPG-KFフレームワークを導入し、最適なカルマンフィルタに$\epsilon$-closeの安定化フィルタを学習する際に、RHPG-KFのサンプル複雑性を$\tilde{\mathcal{O}}(\epsilon^{-2})$で示す。 特に,提案した RHPG-KF フレームワークは, 安定化フィルタの事前知識を前提とせず, オープンループ安定である必要はない。 この結果から, 統計的ノイズや(おそらくは敵対的)障害によって状態測定が破損する線形力学系を制御するために, モデルフリーPG法を適用した。

We develop the first end-to-end sample complexity of model-free policy gradient (PG) methods in discrete-time infinite-horizon Kalman filtering. Specifically, we introduce the receding-horizon policy gradient (RHPG-KF) framework and demonstrate $\tilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity for RHPG-KF in learning a stabilizing filter that is $\epsilon$-close to the optimal Kalman filter. Notably, the proposed RHPG-KF framework does not require the system to be open-loop stable nor assume any prior knowledge of a stabilizing filter. Our results shed light on applying model-free PG methods to control a linear dynamical system where the state measurements could be corrupted by statistical noises and other (possibly adversarial) disturbances.
翻訳日:2023-01-31 15:53:39 公開日:2023-01-30
# FedPass: 適応的難読化によるプライバシー保護の垂直的深層学習

FedPass: Privacy-Preserving Vertical Federated Deep Learning with Adaptive Obfuscation ( http://arxiv.org/abs/2301.12623v1 )

ライセンス: Link先を確認
Hanlin Gu, Jiahuan Luo, Yan Kang, Lixin Fan and Qiang Yang(参考訳) 垂直連合学習(VFL)では、ラベル付き機能を持つアクティブパーティが受動的パーティの補助的機能を活用してモデル性能を向上させることができる。 VFLのトレーニングフェーズと推論フェーズにおけるプライベート機能とラベルリークに関する懸念は、広く研究されている。 本稿では,適応的難読化を利用して特徴とラベルを同時に保護する,一般のプライバシ保存型垂直フェデレーション型ディープラーニングフレームワークfeedpassを提案する。 プライベート機能やラベルに関する強力なプライバシー保護機能が理論的に証明されている(Theorems 1 と 2)。 データセットやネットワークアーキテクチャが異なる広範な実験結果sは、プライバシとモデルパフォーマンスのほぼ最適のトレードオフに照らして、既存の方法に対するfeedpassの優位性を正当化する。

Vertical federated learning (VFL) allows an active party with labeled feature to leverage auxiliary features from the passive parties to improve model performance. Concerns about the private feature and label leakage in both the training and inference phases of VFL have drawn wide research attention. In this paper, we propose a general privacy-preserving vertical federated deep learning framework called FedPass, which leverages adaptive obfuscation to protect the feature and label simultaneously. Strong privacy-preserving capabilities about private features and labels are theoretically proved (in Theorems 1 and 2). Extensive experimental result s with different datasets and network architectures also justify the superiority of FedPass against existing methods in light of its near-optimal trade-off between privacy and model performance.
翻訳日:2023-01-31 15:53:22 公開日:2023-01-30
# バッファーガスを担持した分子の深い光トラップのダイナミクス

Dynamics of a buffer-gas-loaded, deep optical trap for molecules ( http://arxiv.org/abs/2301.12620v1 )

ライセンス: Link先を確認
Ashwin Singh, Lothar Maisenbacher, Ziguang Lin, Jeremy Axelrod, Cristian Panda and Holger M\"uller(参考訳) 本稿では, 深い光双極子トラップを装填したバッファガスを用いて, 低温下で小さな閉殻分子を光学的にトラップする手法について述べる。 10Kのトラップ深さは、数百GW/cm$^2$の強度に達することができる1064nmの密集したキャビティによって生成される。 分子は、1.5Kのヘリウムバッファーガスを用いてトラップに直接バッファーガスをロードされる。非常に遠方にある準静電トラップ機構は、分子の内部状態、エネルギーレベル構造、電気的および磁気的双極子モーメントに無感である。 ここでは, トラップと負荷のダイナミクス, 加熱と損失率を理論的に検討し, 10^4$-10^6$分子が捕捉される可能性が示唆された。 我々のトラップは、他の物理学分野の分子分光、低温化学反応の研究、精密測定の新しい可能性を開くだろう。

We describe an approach to optically trapping small, closed-shell molecules at cryogenic temperatures by buffer-gas loading a deep optical dipole trap. The ~10 K trap depth will be produced by a tightly-focused, 1064-nm cavity capable of reaching intensities of hundreds of GW/cm$^2$. Molecules will be directly buffer-gas loaded into the trap using a helium buffer gas at 1.5 K. The very far-off-resonant, quasi-electrostatic trapping mechanism is insensitive to a molecule's internal state, energy level structure, and its electric and magnetic dipole moment. Here, we theoretically investigate the trapping and loading dynamics, as well as the heating and loss rates, and conclude that $10^4$-$10^6$ molecules are likely to be trapped. Our trap would open new possibilities in molecular spectroscopy, studies of cold chemical reactions, and precision measurement, amongst other fields of physics.
翻訳日:2023-01-31 15:53:09 公開日:2023-01-30
# ForkMerge: マルチタスク学習におけるネガティブトランスファーの克服

ForkMerge: Overcoming Negative Transfer in Multi-Task Learning ( http://arxiv.org/abs/2301.12618v1 )

ライセンス: Link先を確認
Junguang Jiang, Baixu Chen, Junwei Pan, Ximei Wang, Liu Dapeng, Jie Jiang, Mingsheng Long(参考訳) マルチタスク学習の目的は、複数のタスクから有用な知識を活用し、全てのタスクの一般化性能を改善することである。 しかし、複数のタスクを同時に学習すると、独立して学習するよりもパフォーマンスが悪くなります。 従来の研究の多くは、マルチタスク学習における負の移動を、異なるタスク間の衝突の勾配に起因し、この問題を緩和するためのタスク勾配を操作するためのいくつかのヒューリスティックを提案している。 負転移の根本原因を十分に理解するために,最適化,一般化,仮説空間の観点から負転移を実験的に解析する。 ForkMergeは、タスク重みの異なる複数のブランチにモデルを定期的にフォークし、動的にマージすることで、負の転送を避けるために有害パラメータの更新をフィルタリングする。 一連のマルチタスク学習タスクにおいて、ForkMergeは最先端のメソッドよりもパフォーマンスが向上し、負の転送を回避している。

The goal of multi-task learning is to utilize useful knowledge from multiple related tasks to improve the generalization performance of all tasks. However, learning multiple tasks simultaneously often results in worse performance than learning them independently, which is known as negative transfer. Most previous works attribute negative transfer in multi-task learning to gradient conflicts between different tasks and propose several heuristics to manipulate the task gradients for mitigating this problem, which mainly considers the optimization difficulty and overlooks the generalization problem. To fully understand the root cause of negative transfer, we experimentally analyze negative transfer from the perspectives of optimization, generalization, and hypothesis space. Stemming from our analysis, we introduce ForkMerge, which periodically forks the model into multiple branches with different task weights, and merges dynamically to filter out detrimental parameter updates to avoid negative transfer. On a series of multi-task learning tasks, ForkMerge achieves improved performance over state-of-the-art methods and largely avoids negative transfer.
翻訳日:2023-01-31 15:52:51 公開日:2023-01-30
# Glioblastoma Segmentationのためのネットワーク型フェデレーション学習における正規化重み集合

Regularized Weight Aggregation in Networked Federated Learning for Glioblastoma Segmentation ( http://arxiv.org/abs/2301.12617v1 )

ライセンス: Link先を確認
Muhammad Irfan Khan, Mohammad Ayyaz Azeem, Esa Alhoniemi, Elina Kontio, Suleiman A. Khan and Mojtaba Jafaritadi(参考訳) 連合学習(FL)では、サーバのグローバルモデルには、重み付けのための効率的なメカニズムと、通信ペイロードの管理と最適化のための協調選択のための体系的な戦略が必要である。 本稿では, 実効的で費用効率のよい正規化重み付け手法を提案し, ラウンドごとの協力者を選別するための省力化手法を提案する。 本稿では,FeTS(Federated tumor Segmentation)2022のフェデレーション・トレーニング(重み付け)問題に対する正規化類似度重み付け法(RegSimAgg)の性能について述べる。 我々のスケーラブルなアプローチは原則であり、フラガアルであり、異種非IIDコラボレータに適している。 FeTS2021の評価基準を用いて、提案アルゴリズムのRegSimAggは、重み付けタスクにおけるFeTS2022チャレンジの最終ランキングで3位である。 私たちのソリューションは、下記でオープンソースです。

In federated learning (FL), the global model at the server requires an efficient mechanism for weight aggregation and a systematic strategy for collaboration selection to manage and optimize communication payload. We introduce a practical and cost-efficient method for regularized weight aggregation and propose a laborsaving technique to select collaborators per round. We illustrate the performance of our method, regularized similarity weight aggregation (RegSimAgg), on the Federated Tumor Segmentation (FeTS) 2022 challenge's federated training (weight aggregation) problem. Our scalable approach is principled, frugal, and suitable for heterogeneous non-IID collaborators. Using FeTS2021 evaluation criterion, our proposed algorithm RegSimAgg stands at 3rd position in the final rankings of FeTS2022 challenge in the weight aggregation task. Our solution is open sourced at: \url{https://github.com/dskhanirfan/FeTS2022}
翻訳日:2023-01-31 15:52:31 公開日:2023-01-30
# アクティブシーケンシャル2サンプルテスト

Active Sequential Two-Sample Testing ( http://arxiv.org/abs/2301.12616v1 )

ライセンス: Link先を確認
Weizhi Li, Karthikeyan Natesan Ramamurthy, Prad Kadambi, Pouria Saidi, Gautam Dasarathy, Visar Berisha(参考訳) 2つのサンプルを生成する分布が同一かどうかを2サンプルでテストした。 サンプル測定(またはサンプル特徴)が安価にアクセスできるが、グループメンバーシップ(またはラベル)が高価である新しいシナリオにおいて、2サンプルテストの問題を提起する。 この問題に対処するために,最初の \emph{active sequential two-sample testing framework} を逐次的だけでなく, \emph{actively query} サンプルラベルも考案した。 我々のテスト統計は、全てのクラス前の最大化によって1つの確率が見つかる確率比であり、もう1つは分類モデルによって与えられる。 分類モデルは適応的に更新され、次にbimodal queryと呼ばれるアクティブなクエリスキームを導いて、特徴変数とラベル変数の間に高い依存性を持つ領域のサンプルフィーチャをラベル付けする。 本論文の理論的貢献は,我々のフレームワークが<emph{anytime-valid} $p$-value</e>を生成すること,そして,到達可能な条件と軽微な仮定の下で,このフレームワークは,特徴変数とラベル変数が最も依存度が高い場合にのみ,受動的クエリスキームが達成できる最小正規化対数比統計を漸近的に生成する。 最後に、受動的クエリからアクティブクエリにいつ切り替えるかを判断し、バイモーダルクエリを適用してテストの試験能力を高めるために、 \emph{query-switching (QS)アルゴリズムを提供する。 広範な実験は、理論的な貢献とqsの有効性を正当化する。

Two-sample testing tests whether the distributions generating two samples are identical. We pose the two-sample testing problem in a new scenario where the sample measurements (or sample features) are inexpensive to access, but their group memberships (or labels) are costly. We devise the first \emph{active sequential two-sample testing framework} that not only sequentially but also \emph{actively queries} sample labels to address the problem. Our test statistic is a likelihood ratio where one likelihood is found by maximization over all class priors, and the other is given by a classification model. The classification model is adaptively updated and then used to guide an active query scheme called bimodal query to label sample features in the regions with high dependency between the feature variables and the label variables. The theoretical contributions in the paper include proof that our framework produces an \emph{anytime-valid} $p$-value; and, under reachable conditions and a mild assumption, the framework asymptotically generates a minimum normalized log-likelihood ratio statistic that a passive query scheme can only achieve when the feature variable and the label variable have the highest dependence. Lastly, we provide a \emph{query-switching (QS)} algorithm to decide when to switch from passive query to active query and adapt bimodal query to increase the testing power of our test. Extensive experiments justify our theoretical contributions and the effectiveness of QS.
翻訳日:2023-01-31 15:52:14 公開日:2023-01-30
# SingSong:歌から伴奏を生成する

SingSong: Generating musical accompaniments from singing ( http://arxiv.org/abs/2301.12662v1 )

ライセンス: Link先を確認
Chris Donahue, Antoine Caillon, Adam Roberts, Ethan Manilow, Philippe Esling, Andrea Agostinelli, Mauro Verzetti, Ian Simon, Olivier Pietquin, Neil Zeghidour, Jesse Engel(参考訳) 入力ボーカルを伴って楽器音楽を生成するシステムであるSingSongについて述べる。 そこで本稿では,音源分離と音声生成の最近の展開について述べる。 具体的には,音楽音声のコーパスに最先端の音源分離アルゴリズムを適用し,音声とインストゥルメンタル音源の整合ペアを生成する。 次に,無条件オーディオ生成のための最先端のアプローチであるaudiolm(borsos et al., 2022)を,条件付き"audio-to-audio"生成タスクに適合させ,ソース分離された(音声,楽器)ペアでトレーニングする。 同じ音声入力と比較して、リスナーはSingSongが生成した楽器を、強い検索ベースラインの楽器に比べてかなり好んで表現した。 https://g.co/magenta/singsongの例

We present SingSong, a system that generates instrumental music to accompany input vocals, potentially offering musicians and non-musicians alike an intuitive new way to create music featuring their own voice. To accomplish this, we build on recent developments in musical source separation and audio generation. Specifically, we apply a state-of-the-art source separation algorithm to a large corpus of music audio to produce aligned pairs of vocals and instrumental sources. Then, we adapt AudioLM (Borsos et al., 2022) -- a state-of-the-art approach for unconditional audio generation -- to be suitable for conditional "audio-to-audio" generation tasks, and train it on the source-separated (vocal, instrumental) pairs. In a pairwise comparison with the same vocal inputs, listeners expressed a significant preference for instrumentals generated by SingSong compared to those from a strong retrieval baseline. Sound examples at https://g.co/magenta/singsong
翻訳日:2023-01-31 15:46:48 公開日:2023-01-30
# make-an-audio:プロンプトエンハンス拡散モデルを用いたテキスト音声生成

Make-An-Audio: Text-To-Audio Generation with Prompt-Enhanced Diffusion Models ( http://arxiv.org/abs/2301.12661v1 )

ライセンス: Link先を確認
Rongjie Huang, Jiawei Huang, Dongchao Yang, Yi Ren, Luping Liu, Mingze Li, Zhenhui Ye, Jinglin Liu, Xiang Yin, Zhou Zhao(参考訳) 大規模マルチモーダル生成モデリングは、テキストから画像への生成とテキストからビデオへの生成においてマイルストーンを生み出した。 高品質のテキストオーディオペアを備えた大規模データセットの欠如、長期連続オーディオデータのモデリングの複雑さ、という2つの主な理由から、オーディオへの適用は依然として遅れている。 本研究では,これらのギャップに対処する急激な拡散モデルを用いたMake-An-Audioを提案する。 1) 蒸留処理による擬似的プロンプト強化を導入し, 言語のない音声を用いて, 等級概念構成の順序でデータ不足を軽減する。 2) スペクトルオートエンコーダを用いて波形の代わりに自己教師型音声表現を予測する。 Make-An-Audioは、頑健なコントラスト言語-オーディオ事前学習(CLAP)表現とともに、客観的および主観的なベンチマーク評価において最先端の結果を達成する。 さらに,ユーザ定義のモダリティ入力により,高精細な高忠実度音声を生成する能力を初めて解き放たれた,"no modality left behind"のx-to-audioの制御性と一般化を提案する。 オーディオサンプルはhttps://Text-to-Audio.github.ioで入手できる。

Large-scale multimodal generative modeling has created milestones in text-to-image and text-to-video generation. Its application to audio still lags behind for two main reasons: the lack of large-scale datasets with high-quality text-audio pairs, and the complexity of modeling long continuous audio data. In this work, we propose Make-An-Audio with a prompt-enhanced diffusion model that addresses these gaps by 1) introducing pseudo prompt enhancement with a distill-then-reprogram approach, it alleviates data scarcity with orders of magnitude concept compositions by using language-free audios; 2) leveraging spectrogram autoencoder to predict the self-supervised audio representation instead of waveforms. Together with robust contrastive language-audio pretraining (CLAP) representations, Make-An-Audio achieves state-of-the-art results in both objective and subjective benchmark evaluation. Moreover, we present its controllability and generalization for X-to-Audio with "No Modality Left Behind", for the first time unlocking the ability to generate high-definition, high-fidelity audios given a user-defined modality input. Audio samples are available at https://Text-to-Audio.github.io
翻訳日:2023-01-31 15:46:28 公開日:2023-01-30
# 会話検索のためのゼロショット明確化質問生成

Zero-shot Clarifying Question Generation for Conversational Search ( http://arxiv.org/abs/2301.12660v1 )

ライセンス: Link先を確認
Zhenduo Wang, Yuancheng Tu, Corby Rosset, Nick Craswell, Ming Wu, Qingyao Ai(参考訳) 検索と会話アシスタントの長年の課題は、あいまいなクエリにおけるクエリ意図の検出である。 会話探索における質問の明確化は広く研究されており,問合せの曖昧さを解決する有効な解決策であると考えられる。 既存の研究は、質問のランク付けと生成を明確にするための様々なアプローチを検討してきた。 しかし、実際の会話型検索データがないため、トレーニングに人工データセットを使用する必要があり、実世界の検索シナリオへの一般化が制限される。 その結果、業界は現実的な実装に消極的であり、実際の対話型検索データの利用をさらに停止させた。 上記のジレンマは、質問生成と会話探索を一般に明らかにするコールドスタート問題として定式化することができる。 さらに、大規模な会話ログがあるとしても、すべての可能なクエリやトピックをオープンドメイン検索シナリオで包括的にカバーできるトレーニングデータを集めることは現実的ではない。 包括的データセットを用いた質問検索・生成モデルの学習におけるバイアスの適合のリスクも重要な課題である。 本研究では,ゼロショット環境での明確化問題の生成を革新的に検討し,質問テンプレートと問合せファセットの両方を用いて,効果的かつ正確な質問生成を導く制約付き明確化質問生成システムを提案する。 実験の結果,本手法は既存のゼロショットベースラインよりも高いマージンを示した。 モデル出力に対する人間のアノテーションは、我々の方法が25.2\%、有用な18.1\%、不自然でない6.1\%、役に立たない4.%の質問を生成することを示している。

A long-standing challenge for search and conversational assistants is query intention detection in ambiguous queries. Asking clarifying questions in conversational search has been widely studied and considered an effective solution to resolve query ambiguity. Existing work have explored various approaches for clarifying question ranking and generation. However, due to the lack of real conversational search data, they have to use artificial datasets for training, which limits their generalizability to real-world search scenarios. As a result, the industry has shown reluctance to implement them in reality, further suspending the availability of real conversational search interaction data. The above dilemma can be formulated as a cold start problem of clarifying question generation and conversational search in general. Furthermore, even if we do have large-scale conversational logs, it is not realistic to gather training data that can comprehensively cover all possible queries and topics in open-domain search scenarios. The risk of fitting bias when training a clarifying question retrieval/generation model on incomprehensive dataset is thus another important challenge. In this work, we innovatively explore generating clarifying questions in a zero-shot setting to overcome the cold start problem and we propose a constrained clarifying question generation system which uses both question templates and query facets to guide the effective and precise question generation. The experiment results show that our method outperforms existing state-of-the-art zero-shot baselines by a large margin. Human annotations to our model outputs also indicate our method generates 25.2\% more natural questions, 18.1\% more useful questions, 6.1\% less unnatural and 4\% less useless questions.
翻訳日:2023-01-31 15:46:07 公開日:2023-01-30
# 広帯域導波路光パラメトリック増幅器による超高速量子コンピュータへの8db超過圧縮光発生

Over-8-dB squeezed light generation by a broadband waveguide optical parametric amplifier toward fault-tolerant ultra-fast quantum computers ( http://arxiv.org/abs/2301.12658v1 )

ライセンス: Link先を確認
Takahiro Kashiwazaki, Taichi Yamashima, Koji Enbutsu, Takushi Kazama, Asuka Inoue, Kosuke Fukui, Mamoru Endo, Takeshi Umeki, Akira Furusawa(参考訳) テラヘルツ-ブロードバンド光導波路光パラメトリック増幅器(OPA)を用いて連続波8.3-dBの励起光発生を実現し,前報(T. Kashiwazaki, et al., Appl. Phys. Lett. 119, 251104 (2021)]から測定装置を改良した。 まず, 絞り光検出の効率を向上させるため, 余分な光学系を除去し, 検出方法を低損失のホモダイン測定に切り替えることで, 有効光損失を約12%削減した。 第2に,位相同期の変動を最小限に抑えるため,周波数特性を考慮した位相同期システムを構築した。 最後に, 測定周波数とポンプパワーの最適実験パラメータを, スクイーズレベルへの依存性から明らかにした。 測定周波数は11MHzとし、ショットノイズと回路ノイズのクリアランスを最大化する。 さらに, ポンプパワーを660mwに最適化し, 位相ロックの不完全さによる消音・消音抑制を図り, より高いスクイーズレベルを得ることができた。 我々の知る限り、これは損失補正や回路ノイズ補正を伴わずに導波路OPAによる8-dBのスクイーズを行う最初の成果である。 また,PPLN導波路が消失した直後のスクイーズレベルは10dB以上と推定され,主に導波路損失によって制限されていると考えられる。 この広帯域の高系列光は、フォールトトレラントな超高速光量子コンピュータを実現する可能性を開く。

We achieved continuous-wave 8.3-dB squeezed light generation using a terahertz-order-broadband waveguide optical parametric amplifier (OPA) by improving a measurement setup from our previous work [T. Kashiwazaki, et al., Appl. Phys. Lett. 119, 251104 (2021)], where a low-loss periodically poled lithium niobate (PPLN) waveguide had shown 6.3-dB squeezing at a 6-THz frequency. First, to improve efficiency of the squeezed light detection, we reduced effective optical loss to about 12% by removing extra optics and changing the detection method into a low-loss balanced homodyne measurement. Second, to minimize phase-locking fluctuation, we constructed a frequency-optimized phase-locking system by comprehending its frequency responses. Lastly, we found optimal experimental parameters of a measurement frequency and a pump power from their dependences for the squeezing levels. The measurement frequency was decided as 11 MHz to maximize a clearance between shot and circuit noises. Furthermore, pump power was optimized as 660 mW to get higher squeezing level while suppressing anti-squeezed-noise contamination due to an imperfection of phase locking. To our knowledge, this is the first achievement of over-8-dB squeezing by waveguide OPAs without any loss-correction and circuit-noise correction. Moreover, it is shown that the squeezing level soon after our PPLN waveguide is estimated at over 10 dB, which is thought to be mainly restricted by the waveguide loss. This broadband highly-squeezed light opens the possibility to realize fault-tolerant ultra-fast optical quantum computers.
翻訳日:2023-01-31 15:45:38 公開日:2023-01-30
# replug: 検索型ブラックボックス言語モデル

REPLUG: Retrieval-Augmented Black-Box Language Models ( http://arxiv.org/abs/2301.12652v1 )

ライセンス: Link先を確認
Weijia Shi, Sewon Min, Michihiro Yasunaga, Minjoon Seo, Rich James, Mike Lewis, Luke Zettlemoyer, Wen-tau Yih(参考訳) 本稿では,言語モデル(LM)をブラックボックスとして扱い,調整可能な検索モデルで拡張する検索拡張言語モデリングフレームワークREPLUGを紹介する。 検索されたテキストをエンコードするために特別なクロスアテンション機構を持つ言語モデルを訓練する以前の検索拡張LMとは異なり、REPLUGは検索した文書を凍結したブラックボックスLMの入力に単純にプリペンドする。 このシンプルな設計は、既存の検索モデルや言語モデルにも容易に適用できる。 さらに,LMを用いて検索モデルを監督し,LMがより良い予測を行うのに役立つ文書を見つけることができることを示す。 実験の結果, 調整したレトリバーを用いたREPLUGでは, GPT-3 (175B) の言語モデルの性能が6.3%向上し, 5ショットMMLUでのコーデックスの性能が5.1%向上した。

We introduce REPLUG, a retrieval-augmented language modeling framework that treats the language model (LM) as a black box and augments it with a tuneable retrieval model. Unlike prior retrieval-augmented LMs that train language models with special cross attention mechanisms to encode the retrieved text, REPLUG simply prepends retrieved documents to the input for the frozen black-box LM. This simple design be can easily applied to any existing retrieval and language models. Furthermore, we show that the LM can be used to supervise the retrieval model, which can then find documents that help the LM make better predictions. Our experiments demonstrate that REPLUG with the tuned retriever significantly improves the performance of GPT-3 (175B) on language modeling by 6.3%, as well as the performance of Codex on five-shot MMLU by 5.1%.
翻訳日:2023-01-31 15:45:02 公開日:2023-01-30
# ディープ線形ニューラルネットワークの複雑な臨界点

Complex Critical Points of Deep Linear Neural Networks ( http://arxiv.org/abs/2301.12651v1 )

ライセンス: Link先を確認
Ayush Bharadwaj and Serkan Ho\c{s}ten(参考訳) 我々は、活性化関数が恒等関数であるときの深い線形中立ネットワークの損失関数の複素臨界点の計算について、Mehta, Chen, Tang, Hauenstein の業績を拡張した。 単一のデータポイントでトレーニングされた単一の隠れレイヤを持つネットワークでは、損失関数の複雑な臨界点の数に改善されたバウンダリを与える。 任意の数の隠れた層に対して、座標がゼロな複素臨界点が、隠れた層が1つあるネットワークを完全に分類する特定のパターンに現れることを示す。 我々は,HomotopyContinuation.jlを用いて,小さな深層線形ネットワークを定義する様々なネットワークアーキテクチャを用いた計算実験の結果を報告する。

We extend the work of Mehta, Chen, Tang, and Hauenstein on computing the complex critical points of the loss function of deep linear neutral networks when the activation function is the identity function. For networks with a single hidden layer trained on a single data point we give an improved bound on the number of complex critical points of the loss function. We show that for any number of hidden layers complex critical points with zero coordinates arise in certain patterns which we completely classify for networks with one hidden layer. We report our results of computational experiments with varying network architectures defining small deep linear networks using HomotopyContinuation.jl.
翻訳日:2023-01-31 15:44:44 公開日:2023-01-30
# アンサンブルとベイズスパースモデル発見における不確実性推定の収束

Convergence of uncertainty estimates in Ensemble and Bayesian sparse model discovery ( http://arxiv.org/abs/2301.12649v1 )

ライセンス: Link先を確認
L. Mars Gao, Urban Fasel, Steven L. Brunton, J. Nathan Kutz(参考訳) スパースモデル同定はデータからの非線形動的システム発見を可能にする。 しかしながら、スパースモデル同定のための偽発見の制御は、特に低データと高ノイズの限界において困難である。 本稿では,ノイズに対する正確性とロバスト性の観点から経験的成功を示す,アンサンブルスパースモデルの発見に関する理論的研究を行う。 特に,ブートストラップに基づくシーケンシャルしきい値最小二乗推定器の解析を行う。 このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。 さらに,アンサンブルスパースモデル探索法は,MCMCによる高価なベイズの不確実性定量化法と比較して,計算効率のよい不確実性推定を行うことができることを示した。 合成スパース線形回帰とスパースモデルの発見に関する様々な数値研究において、収束特性と不確かさの定量化との関係を実証する。 ブートストラップに基づくシーケンシャルしきい値最小二乗法は, LASSO, しきい値最小二乗法, ブートストラップ最小二乗法に比べ, スパース変数選択性能が向上することを示した。 スパースモデル発見実験において、ブートストラップに基づくシーケンシャルしきい値最小二乗法により、実値を中心とするデルタ測度とサンプルサイズの増加に収束し、妥当な不確かさの定量化が可能になることを示した。 最後に,ブートストラップ型シーケンシャルしきい値最小二乗法におけるノイズのシフトとスパーシティレベル下でのハイパーパラメータ選択に対するロバスト性の改善を,他のスパース回帰法と比較して強調する。

Sparse model identification enables nonlinear dynamical system discovery from data. However, the control of false discoveries for sparse model identification is challenging, especially in the low-data and high-noise limit. In this paper, we perform a theoretical study on ensemble sparse model discovery, which shows empirical success in terms of accuracy and robustness to noise. In particular, we analyse the bootstrapping-based sequential thresholding least-squares estimator. We show that this bootstrapping-based ensembling technique can perform a provably correct variable selection procedure with an exponential convergence rate of the error rate. In addition, we show that the ensemble sparse model discovery method can perform computationally efficient uncertainty estimation, compared to expensive Bayesian uncertainty quantification methods via MCMC. We demonstrate the convergence properties and connection to uncertainty quantification in various numerical studies on synthetic sparse linear regression and sparse model discovery. The experiments on sparse linear regression support that the bootstrapping-based sequential thresholding least-squares method has better performance for sparse variable selection compared to LASSO, thresholding least-squares, and bootstrapping-based LASSO. In the sparse model discovery experiment, we show that the bootstrapping-based sequential thresholding least-squares method can provide valid uncertainty quantification, converging to a delta measure centered around the true value with increased sample sizes. Finally, we highlight the improved robustness to hyperparameter selection under shifting noise and sparsity levels of the bootstrapping-based sequential thresholding least-squares method compared to other sparse regression methods.
翻訳日:2023-01-31 15:44:34 公開日:2023-01-30
# hBN量子センサナノアレイによる磁場イメージング

Magnetic field imaging by hBN quantum sensor nanoarray ( http://arxiv.org/abs/2301.12645v1 )

ライセンス: Link先を確認
Kento Sasaki, Yuki Nakamura, Hao Gu, Moeta Tsukamoto, Shu Nakaharai, Takuya Iwasaki, Kenji Watanabe, Takashi Taniguchi, Shinichi Ogawa, Yukinori Morita, Kensuke Kobayashi(参考訳) ナノレベルでターゲットの近くにセンサーを置くことは、量子センシングの中心的な課題である。 ヘキサゴナル窒化ホウ素(hBN)におけるホウ素空孔(V$_\text{B}^-$)欠陥を10nmの厚さで高空間分解能磁場イメージングで観察した。 ヘリウムイオン顕微鏡を用いてナノスケール精度で周期的に(100〜nm)$^2$のv$_\text{b}^-$センサスポットを配置し、金線に密着する。 センサアレイは、回折限界を超える空間分解能でワイヤ内の電流によって誘導される磁場を可視化することができる。 各センサーは実用感度が73.6~\mu\text{t/hz}^{0.5}$であり、量子材料研究に適している。 v$_\text{b}^-$量子センサを周期的に、かつ測定対象に厳密に配置する手法は、そのポテンシャルを最大化する。

Placing a sensor close to the target at the nano-level is a central challenge in quantum sensing. We demonstrate high-spatial-resolution magnetic field imaging with a boron vacancy (V$_\text{B}^-$) defects array in hexagonal boron nitride (hBN) with a few 10 nm thickness. V$_\text{B}^-$ sensor spots with a size of (100~nm)$^2$ are arranged periodically with nanoscale precision using a helium ion microscope and attached tightly to a gold wire. The sensor array allows us to visualize the magnetic field induced by the current in the wire with a spatial resolution beyond the diffraction limit. Each sensor exhibits a practical sensitivity of $73.6~\mu\text{T/Hz}^{0.5}$, suitable for quantum materials research. Our technique of arranging V$_\text{B}^-$ quantum sensors periodically and tightly on measurement targets will maximize their potential.
翻訳日:2023-01-31 15:44:07 公開日:2023-01-30
# アライメント前のタグ付け:ビデオテキスト検索のためのマルチモーダルタグの統合

Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text Retrieval ( http://arxiv.org/abs/2301.12644v1 )

ライセンス: Link先を確認
Yizhen Chen, Jie Wang, Lijian Lin, Zhongang Qi, Jin Ma, Ying Shan(参考訳) 近年,映像テキスト検索のための視覚言語アライメント学習が注目されている。 既存の手法の多くは、ビデオのマルチモーダル情報を完全に調べることなく、画像テキスト事前学習モデルの知識をビデオテキスト検索タスクに転送するか、明示的なガイダンスなしでマルチモーダル特徴をブルートフォースで融合させる。 本稿では,マルチモーダル情報をタグづけにより明示的に統合し,そのタグをアンカーとして使用することで映像テキストアライメントを改善する。 事前訓練された専門家は、オブジェクト、人、モーション、オーディオなど、複数のモダリティの情報を抽出するために利用される。 これらの情報を最大限に活用するために、視覚エンコーダ、タグエンコーダ、テキストエンコーダ、マルチフレーム視覚特徴とマルチモーダルタグ情報を共同で符号化するタグ案内型クロスモーダルエンコーダからなるTABLE(TAgging Before aLignmEnt)ネットワークを提案する。 さらに,映像とテキストの相互作用を強化するため,[視覚,タグ,テキスト]のトリプレット入力を持つ共用クロスモーダルエンコーダを構築し,さらにビデオテキストマッチング(vtm)とマスク言語モデリング(mlm)という2つの教師ありタスクを実行する。 MSR-VTT, MSVD, LSMDC, DiDeMo など, 様々なビデオテキスト検索ベンチマークにおいて, TABLE モデルにより State-Of-The-Art (SOTA) 性能が達成可能であることを示す。

Vision-language alignment learning for video-text retrieval arouses a lot of attention in recent years. Most of the existing methods either transfer the knowledge of image-text pretraining model to video-text retrieval task without fully exploring the multi-modal information of videos, or simply fuse multi-modal features in a brute force manner without explicit guidance. In this paper, we integrate multi-modal information in an explicit manner by tagging, and use the tags as the anchors for better video-text alignment. Various pretrained experts are utilized for extracting the information of multiple modalities, including object, person, motion, audio, etc. To take full advantage of these information, we propose the TABLE (TAgging Before aLignmEnt) network, which consists of a visual encoder, a tag encoder, a text encoder, and a tag-guiding cross-modal encoder for jointly encoding multi-frame visual features and multi-modal tags information. Furthermore, to strengthen the interaction between video and text, we build a joint cross-modal encoder with the triplet input of [vision, tag, text] and perform two additional supervised tasks, Video Text Matching (VTM) and Masked Language Modeling (MLM). Extensive experimental results demonstrate that the TABLE model is capable of achieving State-Of-The-Art (SOTA) performance on various video-text retrieval benchmarks, including MSR-VTT, MSVD, LSMDC and DiDeMo.
翻訳日:2023-01-31 15:43:53 公開日:2023-01-30
# ドメイン一般化のための逆スタイル拡張

Adversarial Style Augmentation for Domain Generalization ( http://arxiv.org/abs/2301.12643v1 )

ライセンス: Link先を確認
Yabin Zhang, Bin Deng, Ruihuang Li, Kui Jia, Lei Zhang(参考訳) 十分に訓練されたディープニューラルネットワークの性能が、わずかにシフトした分布を持つデータに適用された場合、著しく低下することが知られている。 近年の研究では、訓練中に特徴統計量(平均偏差、標準偏差)に一定の摂動を導入することで、クロスドメインの一般化能力を高めることが示されている。 既存の手法は通常、ミニバッチ内の特徴統計を利用してそのような摂動を行い、その表現能力を制限する。 ドメイン一般化の目的に触発されて,より効果的な統計摂動を,対人訓練を通じて生成し,より広いスタイル空間を探索する新しいASA法を導入する。 具体的には,タスク損失を最大化することにより,統計摂動の最も敏感な方向と強度を探索する。 トレーニング中の逆数統計摂動に対してモデルを更新することにより、最悪のケース領域を探索し、一般化性能を向上させることができる。 ASA の応用を容易にするため,プラグイン・アンド・プレイ方式で ASA メソッドをインスタンス化するシンプルなモジュールである AdvStyle を設計した。 クロスドメイン分類とインスタンス検索のタスクにおけるAdvStyleの有効性を正当化する。 高い平均精度と低い性能変動を実現する。 特に,本手法は,single source generalization set, \eg におけるpacsデータセットにおいて,resnet50バックボーンを用いた分類精度を 61.2\% から 67.1\% に向上させた。 私たちのコードは \url{https://github.com/YBZh/AdvStyle} で利用可能です。

It is well-known that the performance of well-trained deep neural networks may degrade significantly when they are applied to data with even slightly shifted distributions. Recent studies have shown that introducing certain perturbation on feature statistics (\eg, mean and standard deviation) during training can enhance the cross-domain generalization ability. Existing methods typically conduct such perturbation by utilizing the feature statistics within a mini-batch, limiting their representation capability. Inspired by the domain generalization objective, we introduce a novel Adversarial Style Augmentation (ASA) method, which explores broader style spaces by generating more effective statistics perturbation via adversarial training. Specifically, we first search for the most sensitive direction and intensity for statistics perturbation by maximizing the task loss. By updating the model against the adversarial statistics perturbation during training, we allow the model to explore the worst-case domain and hence improve its generalization performance. To facilitate the application of ASA, we design a simple yet effective module, namely AdvStyle, which instantiates the ASA method in a plug-and-play manner. We justify the efficacy of AdvStyle on tasks of cross-domain classification and instance retrieval. It achieves higher mean accuracy and lower performance fluctuation. Especially, our method significantly outperforms its competitors on the PACS dataset under the single source generalization setting, \eg, boosting the classification accuracy from 61.2\% to 67.1\% with a ResNet50 backbone. Our code will be available at \url{https://github.com/YBZh/AdvStyle}.
翻訳日:2023-01-31 15:43:23 公開日:2023-01-30
# エッジガイド付きマルチドメインrgb-to-tir画像変換によるラベル課題の学習

Edge-guided Multi-domain RGB-to-TIR image Translation for Training Vision Tasks with Challenging Labels ( http://arxiv.org/abs/2301.12689v1 )

ライセンス: Link先を確認
Dong-Guw Lee, Myung-Hwan Jeon, Younggun Cho and Ayoung Kim(参考訳) 注釈付き熱赤外(TIR)画像データセットの不足は、TIRイメージベースのディープラーニングネットワークをRGBに匹敵するパフォーマンスに障害を与えるだけでなく、TIRイメージベースのタスクの教師付き学習を、挑戦的なラベルで制限する。 そこで本稿では,エッジ保存に着目したマルチドメインRGBからTIRへの変換モデルを提案する。 提案手法は,元の画像のキーの詳細を保存するだけでなく,合成RGB画像と実世界のRGB画像の両方に適用した場合に,翻訳画像の正確なTIR特性を表現するために最適なTIRスタイルコードを利用する。 翻訳モデルを用いて, 端点誤差を平均56.5 %削減し, 最良物体検出マップを23.9 %削減することで, 奥行き画像に基づく光学フロー推定と被写体検出の教師付き学習を可能にした。 私たちのコードと補足資料はhttps://github.com/rpmsnu/srgb-tirで入手できます。

The insufficient number of annotated thermal infrared (TIR) image datasets not only hinders TIR image-based deep learning networks to have comparable performances to that of RGB but it also limits the supervised learning of TIR image-based tasks with challenging labels. As a remedy, we propose a modified multidomain RGB to TIR image translation model focused on edge preservation to employ annotated RGB images with challenging labels. Our proposed method not only preserves key details in the original image but also leverages the optimal TIR style code to portray accurate TIR characteristics in the translated image, when applied on both synthetic and real world RGB images. Using our translation model, we have enabled the supervised learning of deep TIR image-based optical flow estimation and object detection that ameliorated in deep TIR optical flow estimation by reduction in end point error by 56.5\% on average and the best object detection mAP of 23.9\% respectively. Our code and supplementary materials are available at https://github.com/rpmsnu/sRGB-TIR.
翻訳日:2023-01-31 15:37:16 公開日:2023-01-30
# ビデオ制作のためのエンジンベース仮想環境における動的ストーリーボード生成

Dynamic Storyboard Generation in an Engine-based Virtual Environment for Video Production ( http://arxiv.org/abs/2301.12688v1 )

ライセンス: Link先を確認
Rao Anyi, Jiang Xuekun, Guo Yuwei, Xu Linning, Yang Lei, Jin Libiao, Lin Dahua, Dai Bo(参考訳) ミニフィルムやショートフォームビデオに取り組んでいるアマチュアは通常、シーン、プロット、カメラの設定と調整の複雑なプロセスに多くの時間と労力を費やし、満足のいくビデオショットを提供する。 撮影スタッフが実際の撮影前に簡単に撮影設定をテストできる仮想環境でのストーリーボード撮影を可能にするために,仮想動的ストーリーボード(vds)を提案する。 フォーマットされたストーリースクリプトとカメラスクリプトが入力として与えられると、事前に定義されたストーリーとシネマティックルールに従って複数のキャラクターアニメーションとカメラムーブメントの提案を生成し、オフザシェルフシミュレーションエンジンでビデオをレンダリングする。 候補から高品質なダイナミックなストーリーボードをピックアップするために,プロのマニュアル作成データから学習したショット品質基準に基づいて,ショットランキング判別器を装備する。 vdsは広範囲な実験とユーザー研究を通じて包括的に検証され、その効率性、有効性、アマチュアビデオ制作を支援する大きな可能性を示す。

Amateurs working on mini-films and short-form videos usually spend lots of time and effort on the multi-round complicated process of setting and adjusting scenes, plots, and cameras to deliver satisfying video shots. We present Virtual Dynamic Storyboard (VDS) to allow users storyboarding shots in virtual environments, where the filming staff can easily test the settings of shots before the actual filming. VDS runs on a "propose-simulate-discriminate" mode: Given a formatted story script and a camera script as input, it generates several character animation and camera movement proposals following predefined story and cinematic rules to allow an off-the-shelf simulation engine to render videos. To pick up the top-quality dynamic storyboard from the candidates, we equip it with a shot ranking discriminator based on shot quality criteria learned from professional manual-created data. VDS is comprehensively validated via extensive experiments and user studies, demonstrating its efficiency, effectiveness, and great potential in assisting amateur video production.
翻訳日:2023-01-31 15:36:45 公開日:2023-01-30
# GibbsDDRM: 難解な逆問題と解法拡散回復のための部分崩壊ギブスサンプリング器

GibbsDDRM: A Partially Collapsed Gibbs Sampler for Solving Blind Inverse Problems with Denoising Diffusion Restoration ( http://arxiv.org/abs/2301.12686v1 )

ライセンス: Link先を確認
Naoki Murata, Koichi Saito, Chieh-Hsin Lai, Yuhta Takida, Toshimitsu Uesaka, Yuki Mitsufuji, and Stefano Ermon(参考訳) 事前学習された拡散モデルは様々な線形逆問題において先行的に用いられており、ノイズの多い線形測定から信号を再構成することを目的としている。 しかし、既存のアプローチは線型作用素の知識を必要とする。 本稿では,線形計測演算子が不明なブラインド設定への拡張であるgibbsddrmを提案する。 GibbsDDRMは、事前学習した拡散モデルを用いて、データ、測定、線形演算子の結合分布を構築し、ギブスサンプリング器の効率的な変種による後方サンプリングによって問題を解決する。 提案手法は問題に依存しないため,様々な逆問題に対して事前学習した拡散モデルを適用することができる。 実験では、基礎となる線形演算子に単純なジェネリックプリミティブを用いたにもかかわらず、ブラインド画像のデブロアリングと音声のデバベーションタスクの両方で高い性能を達成した。

Pre-trained diffusion models have been successfully used as priors in a variety of linear inverse problems, where the goal is to reconstruct a signal from noisy linear measurements. However, existing approaches require knowledge of the linear operator. In this paper, we propose GibbsDDRM, an extension of Denoising Diffusion Restoration Models (DDRM) to a blind setting in which the linear measurement operator is unknown. GibbsDDRM constructs a joint distribution of the data, measurements, and linear operator by using a pre-trained diffusion model for the data prior, and it solves the problem by posterior sampling with an efficient variant of a Gibbs sampler. The proposed method is problem-agnostic, meaning that a pre-trained diffusion model can be applied to various inverse problems without fine tuning. In experiments, it achieved high performance on both blind image deblurring and vocal dereverberation tasks, despite the use of simple generic priors for the underlying linear operators.
翻訳日:2023-01-31 15:36:14 公開日:2023-01-30
# ファジィ法によるメタヒューリスティックスを用いたパラメータ決定による画像コントラスト強調

Image Contrast Enhancement using Fuzzy Technique with Parameter Determination using Metaheuristics ( http://arxiv.org/abs/2301.12682v1 )

ライセンス: Link先を確認
Mohimenul Kabir, Jaiaid Mobin, Ahmad Hassanat, M. Sohel Rahman(参考訳) 本研究では,画像のコントラストを高める方法を提案する。 私たちの目標は、イメージ固有の変換を見つけることです。 私たちは変換関数としてファジィシステムを使いました。 画像に基づいてシステムをチューニングするために,遺伝的アルゴリズムとヒルクライミングを用いてファジィシステムを進化させ,いくつかの実験を行った。 本手法の異なる変種を複数の画像上でテストし、適合度において他よりも優れている2つの変種を選択する。 また,2つの変種による拡張の視覚的改善を評価するための調査を行った。 その結果,画像のコントラストを視覚的に向上させる手法が提案されている。

In this work, we have presented a way to increase the contrast of an image. Our target is to find a transformation that will be image specific. We have used a fuzzy system as our transformation function. To tune the system according to an image, we have used Genetic Algorithm and Hill Climbing in multiple ways to evolve the fuzzy system and conducted several experiments. Different variants of the method are tested on several images and two variants that are superior to others in terms of fitness are selected. We have also conducted a survey to assess the visual improvement of the enhancements made by the two variants. The survey indicates that one of the methods can enhance the contrast of the images visually.
翻訳日:2023-01-31 15:35:50 公開日:2023-01-30
# 一般変数条件下での分散確率最適化

Distributed Stochastic Optimization under a General Variance Condition ( http://arxiv.org/abs/2301.12677v1 )

ライセンス: Link先を確認
Kun Huang, Xiao Li, Shi Pu(参考訳) 分散確率最適化は,大規模機械学習問題の解法としての有効性から,近年大きな注目を集めている。 しかし、多くのアルゴリズムが経験的成功をもって提案されているにもかかわらず、それらの理論的な保証は制限的であり、確率勾配上の一定の有界性条件に依存し、一様有界性から緩和された成長条件まで様々である。 さらに,エージェント間のデータの不均一性を特徴付ける方法や,そのアルゴリズム性能への影響も課題として残されている。 このような動機を踏まえて,分散確率最適化問題を解く古典的なfedavgアルゴリズムを再検討し,滑らかな非凸対象関数に対する確率勾配上の穏やかな分散条件下で収束結果を確立する。 ほぼ確実に定常点への収束も条件の下で確立される。 さらに,データの不均一性およびその意義について,より情報的な測定について考察する。

Distributed stochastic optimization has drawn great attention recently due to its effectiveness in solving large-scale machine learning problems. However, despite that numerous algorithms have been proposed with empirical successes, their theoretical guarantees are restrictive and rely on certain boundedness conditions on the stochastic gradients, varying from uniform boundedness to the relaxed growth condition. In addition, how to characterize the data heterogeneity among the agents and its impacts on the algorithmic performance remains challenging. In light of such motivations, we revisit the classical FedAvg algorithm for solving the distributed stochastic optimization problem and establish the convergence results under only a mild variance condition on the stochastic gradients for smooth nonconvex objective functions. Almost sure convergence to a stationary point is also established under the condition. Moreover, we discuss a more informative measurement for data heterogeneity as well as its implications.
翻訳日:2023-01-31 15:35:39 公開日:2023-01-30
# フロッケ状態

Floquet States ( http://arxiv.org/abs/2301.12676v1 )

ライセンス: Link先を確認
Naoto Tsuji(参考訳) 時間周期場によって駆動される量子系は凝縮物質物理学のプラットフォームであり、「フロッケ状態」と呼ばれる有効(準)定常状態は、運転中に外界の準粒子で現れる。 例えば、孤立駆動量子系における前熱的中間状態として、あるいは環境に結合した開放量子系における非平衡定常状態として現れる。 フロッケ状態は様々な興味深い物理的性質を持ち、それらのいくつかは平衡における元の非駆動系のものと大きく異なる。 本稿では,Floquet状態の基本的側面を概観し,凝縮物質物理学におけるFloquet状態の最近の話題と応用について論じる。

Quantum systems driven by a time-periodic field are a platform of condensed matter physics where effective (quasi)stationary states, termed "Floquet states", can emerge with external-field-dressed quasiparticles during driving. They appear, for example, as a prethermal intermediate state in isolated driven quantum systems or as a nonequilibrium steady state in driven open quantum systems coupled to environment. Floquet states may have various intriguing physical properties, some of which can be drastically different from those of the original undriven systems in equilibrium. In this article, we review fundamental aspects of Floquet states, and discuss recent topics and applications of Floquet states in condensed matter physics.
翻訳日:2023-01-31 15:35:25 公開日:2023-01-30
# 制約付き解釈可能なクラスタリングのための最適決定木

Optimal Decision Trees For Interpretable Clustering with Constraints ( http://arxiv.org/abs/2301.12671v1 )

ライセンス: Link先を確認
Pouya Shati, Eldan Cohen, Sheila McIlraith(参考訳) 制約クラスタリング(Constrained clustering)は、制約として定式化された限られた量のラベル付きデータを使用し、ドメイン固有の知識を取り入れ、クラスタリングの精度を大幅に向上する半教師付きタスクである。 これまでの研究では、全ての制約を満たすことなく最適なクラスタリングを保証できる正確な最適化形式が検討されてきたが、これらのアプローチには解釈性がない。 近年、決定木は本質的に解釈可能なクラスタリングソリューションを作成するために使われてきたが、既存のアプローチではクラスタリングの制約をサポートしておらず、ソリューションの品質に関する強い理論的保証を提供していない。 本稿では,クラスタ化制約をサポートするとともに,ソリューションの品質に関する強い理論的保証を提供する,satベースの新しいクラスタリングフレームワークを提案する。 また,このようなユーザ制約の解釈可能性と満足度とのトレードオフに関する新たな知見を提示する。 私たちのフレームワークは、解釈可能で制約のあるクラスタリングのための最初のアプローチです。 実世界および合成データセットを用いた実験により、我々のアプローチは高品質で解釈可能な制約付きクラスタリングソリューションを作成できることを示した。

Constrained clustering is a semi-supervised task that employs a limited amount of labelled data, formulated as constraints, to incorporate domain-specific knowledge and to significantly improve clustering accuracy. Previous work has considered exact optimization formulations that can guarantee optimal clustering while satisfying all constraints, however these approaches lack interpretability. Recently, decision-trees have been used to produce inherently interpretable clustering solutions, however existing approaches do not support clustering constraints and do not provide strong theoretical guarantees on solution quality. In this work, we present a novel SAT-based framework for interpretable clustering that supports clustering constraints and that also provides strong theoretical guarantees on solution quality. We also present new insight into the trade-off between interpretability and satisfaction of such user-provided constraints. Our framework is the first approach for interpretable and constrained clustering. Experiments with a range of real-world and synthetic datasets demonstrate that our approach can produce high-quality and interpretable constrained clustering solutions.
翻訳日:2023-01-31 15:35:13 公開日:2023-01-30
# 近縁星820個のテクノシグナチャの深層学習による探索

A deep-learning search for technosignatures of 820 nearby stars ( http://arxiv.org/abs/2301.12670v1 )

ライセンス: Link先を確認
Peter Xiangyuan Ma, Cherry Ng, Leandro Rizk, Steve Croft, Andrew P. V. Siemion, Bryan Brzycki, Daniel Czech, Jamie Drew, Vishal Gajjar, John Hoang, Howard Isaacson, Matt Lebofsky, David MacMahon, Imke de Pater, Danny C. Price, Sofia Z. Sheikh, S. Pete Worden(参考訳) 地球外知的生命体探索(SETI)の目標は、地球外生命体を「技術記号」によって定量化することである。 1つの理論化された技術記号は狭帯域ドップラードリフト無線信号である。 無線領域におけるSETIの実施における主な課題は、ヒト無線周波数干渉(RFI)を拒絶する一般化技術を開発することである。 ここでは,最も包括的なディープラーニングに基づくテクノシグナチャ検索を今日まで紹介し,ブレークスルーリスニングイニシアチブの一環として,注意喚起のための8つの有望なeti信号を返す。 この探索はロバート・c・バード・グリーンバンク望遠鏡で観測された820のユニークなターゲットから成り、合計480, hrのオンスカイデータを含んでいる。 偽陽性率を低く保ちながら、半教師なしの方法でテクノ署名候補を識別する新しいベータコンボリューション型変分オートエンコーダを実装した。 この新しいアプローチは、SETIや他の過渡的な研究を加速する主要な解決策として、データ駆動天文学の時代を描いている。

The goal of the Search for Extraterrestrial Intelligence (SETI) is to quantify the prevalence of technological life beyond Earth via their "technosignatures". One theorized technosignature is narrowband Doppler drifting radio signals. The principal challenge in conducting SETI in the radio domain is developing a generalized technique to reject human radio frequency interference (RFI). Here, we present the most comprehensive deep-learning based technosignature search to date, returning 8 promising ETI signals of interest for re-observation as part of the Breakthrough Listen initiative. The search comprises 820 unique targets observed with the Robert C. Byrd Green Bank Telescope, totaling over 480, hr of on-sky data. We implement a novel beta-Convolutional Variational Autoencoder to identify technosignature candidates in a semi-unsupervised manner while keeping the false positive rate manageably low. This new approach presents itself as a leading solution in accelerating SETI and other transient research into the age of data-driven astronomy.
翻訳日:2023-01-31 15:34:56 公開日:2023-01-30
# NeSyFOLD:畳み込みニューラルネットワークから論理に基づく説明を生成するシステム

NeSyFOLD: A System for Generating Logic-based Explanations from Convolutional Neural Networks ( http://arxiv.org/abs/2301.12667v1 )

ライセンス: Link先を確認
Parth Padalkar, Huaduo Wang, Gopal Gupta(参考訳) 本稿では,nesyfoldと呼ばれる新しいニューロシンボリックシステムを提案する。 NeSyFOLDのトレーニングプロセスは以下の通りである。 i)入力画像データセット上で最初にCNNを事前訓練し、最後の層フィルタのアクティベーションをバイナリ値として抽出する。 次に、FOLD-SE-Mルールに基づく機械学習アルゴリズムを用いて、各フィルタに対応するバイナリアクティベーションのベクトルとして表現されたイメージを分類可能な論理プログラムを生成し、論理的説明を生成する。 FOLD-SE-Mアルゴリズムによって生成される規則は、フィルタ番号を述語として持つ。 我々はCNNフィルタを画像のセマンティックな概念に自動的にマッピングするために考案した新しいアルゴリズムを用いる。 このマッピングはルールセットの述語名(フィルタ番号)を対応する意味概念ラベルに置き換えるために使われる。 結果のルールセットは高度に解釈可能であり、人間によって直感的に理解することができる。 我々はNeSyFOLDシステムと決定木のようなアルゴリズムを用いてルールを得るERICシステムを比較した。 私たちのシステムはericよりも次のような利点があります。 i)NeSyFOLDは、正確性及び忠実性を損なうことなく、より小さなルールセットを生成する。 (ii)NeSyFOLDはフィルタ番号を意味ラベルに自動的にマッピングする。

We present a novel neurosymbolic system called NeSyFOLD that classifies images while providing a logic-based explanation of the classification. NeSyFOLD's training process is as follows: (i) We first pre-train a CNN on the input image dataset and extract activations of the last layer filters as binary values; (ii) Next, we use the FOLD-SE-M rule-based machine learning algorithm to generate a logic program that can classify an image -- represented as a vector of binary activations corresponding to each filter -- while producing a logical explanation. The rules generated by the FOLD-SE-M algorithm have filter numbers as predicates. We use a novel algorithm that we have devised for automatically mapping the CNN filters to semantic concepts in the images. This mapping is used to replace predicate names (filter numbers) in the rule-set with corresponding semantic concept labels. The resulting rule-set is highly interpretable, and can be intuitively understood by humans. We compare our NeSyFOLD system with the ERIC system that uses a decision-tree like algorithm to obtain the rules. Our system has the following advantages over ERIC: (i) NeSyFOLD generates smaller rule-sets without compromising on the accuracy and fidelity; (ii) NeSyFOLD generates the mapping of filter numbers to semantic labels automatically.
翻訳日:2023-01-31 15:34:38 公開日:2023-01-30
# 潜在スペクトルモデルを用いた高次元PDEの解法

Solving High-Dimensional PDEs with Latent Spectral Models ( http://arxiv.org/abs/2301.12664v1 )

ライセンス: Link先を確認
Haixu Wu, Tengge Hu, Huakun Luo, Jianmin Wang, Mingsheng Long(参考訳) ディープモデルは偏微分方程式(PDE)の解法において顕著な進歩を遂げた。 膨れ上がるパラダイムは、ニューラル演算子を学習してPDEの入出力マッピングを近似することである。 従来の深層モデルではマルチスケールアーキテクチャや実験的な演算子の設計が検討されてきたが、座標空間における演算子全体の学習に限られていた。 現実の物理科学問題において、pdes は高次元座標空間への離散化に依存する数値解法を持つ複素結合方程式であり、単一の作用素によって正確に近似することはできず、次元の呪いのために効率的に学習することもできない。 我々は,高次元PDEの効率的かつ高精度な解法に向けた潜在スペクトルモデル(LSM)を提案する。 座標空間を超えて、LSMは注意に基づく階層的射影ネットワークを可能にし、高次元データを線形時間でコンパクトな潜在空間に還元する。 数値解析における古典スペクトル法に着想を得て,複数の基底演算子を学習することで複雑な入力出力マッピングをうまく近似し,収束と近似の理論的保証を良好に享受する,潜時空間のPDEを解くニューラルネットワークスペクトルブロックを設計した。 実験的に、LSMは一貫した最先端を実現し、固体物理学と流体物理学の両方をカバーする7つのベンチマークで平均11.5%の相対的な利得を得る。

Deep models have achieved impressive progress in solving partial differential equations (PDEs). A burgeoning paradigm is learning neural operators to approximate the input-output mappings of PDEs. While previous deep models have explored the multiscale architectures and elaborative operator designs, they are limited to learning the operators as a whole in the coordinate space. In real physical science problems, PDEs are complex coupled equations with numerical solvers relying on discretization into high-dimensional coordinate space, which cannot be precisely approximated by a single operator nor efficiently learned for the curse of dimensionality. We present Latent Spectral Models (LSM) toward an efficient and precise solver for high-dimensional PDEs. Going beyond the coordinate space, LSM enables an attention-based hierarchical projection network to reduce the high-dimensional data into a compact latent space in linear time. Inspired by classical spectral methods in numerical analysis, we design a neural spectral block to solve PDEs in the latent space that well approximates complex input-output mappings via learning multiple basis operators, enjoying nice theoretical guarantees for convergence and approximation. Experimentally, LSM achieves consistent state-of-the-art and yields a relative gain of 11.5% averaged on seven benchmarks covering both solid and fluid physics.
翻訳日:2023-01-31 15:34:20 公開日:2023-01-30
# 共同構造学習と最適輸送によるロバスト分布グラフアライメント

Robust Attributed Graph Alignment via Joint Structure Learning and Optimal Transport ( http://arxiv.org/abs/2301.12721v1 )

ライセンス: Link先を確認
Jianheng Tang, Weiqi Zhang, Jiajin Li, Kangfei Zhao, Fugee Tsung, Jia Li(参考訳) 複数のネットワークにまたがって対応するエンティティを識別することを目的としたグラフアライメントは、さまざまな領域で広く適用されている。 整列グラフは通常、異なるソースから構築されるため、2つのグラフ間の不整合問題と特徴は、現実世界のアプリケーションではユビキタスである。 既存のほとんどのメソッドは 'embed-then-cross-compare'' パラダイムに従っており、各グラフのノード埋め込みを計算し、クロスグラフ埋め込み比較に基づいてノード対応を処理する。 しかし,これらの手法は構造や特徴の不整合が現れると不安定で準最適であることがわかった。 そこで我々は,構造学習と最適伝達アライメントを共同で行う教師なしグラフアライメントフレームワークであるslotalignを提案する。 グラフアライメントをクロスグラフ比較を必要としない2つのグラフ内行列間の最適輸送問題に変換する。 さらに,多視点構造学習を取り入れ,グラフ表現力を高め,グラフ間で継承される構造や特徴の一貫性を低下させる。 さらに,SLOTAlignの連立最適化問題に対処するため,交互スキームに基づくアルゴリズムが開発され,証明可能な収束結果も確立されている。 最後に、6つの教師なしグラフアライメントデータセットとDBP15Kナレッジグラフ(KG)アライメントベンチマークデータセットについて広範な実験を行った。 提案したSLOTAlignは、7つの教師なしグラフアライメント法と5つの特殊なKGアライメント法よりも優れた性能と強靭性を示す。

Graph alignment, which aims at identifying corresponding entities across multiple networks, has been widely applied in various domains. As the graphs to be aligned are usually constructed from different sources, the inconsistency issues of structures and features between two graphs are ubiquitous in real-world applications. Most existing methods follow the ``embed-then-cross-compare'' paradigm, which computes node embeddings in each graph and then processes node correspondences based on cross-graph embedding comparison. However, we find these methods are unstable and sub-optimal when structure or feature inconsistency appears. To this end, we propose SLOTAlign, an unsupervised graph alignment framework that jointly performs Structure Learning and Optimal Transport Alignment. We convert graph alignment to an optimal transport problem between two intra-graph matrices without the requirement of cross-graph comparison. We further incorporate multi-view structure learning to enhance graph representation power and reduce the effect of structure and feature inconsistency inherited across graphs. Moreover, an alternating scheme based algorithm has been developed to address the joint optimization problem in SLOTAlign, and the provable convergence result is also established. Finally, we conduct extensive experiments on six unsupervised graph alignment datasets and the DBP15K knowledge graph (KG) alignment benchmark dataset. The proposed SLOTAlign shows superior performance and strongest robustness over seven unsupervised graph alignment methods and five specialized KG alignment methods.
翻訳日:2023-01-31 15:28:13 公開日:2023-01-30
# 強化学習とグラフニューラルネットワークを用いた混在交通の自動断面積管理

Automatic Intersection Management in Mixed Traffic Using Reinforcement Learning and Graph Neural Networks ( http://arxiv.org/abs/2301.12717v1 )

ライセンス: Link先を確認
Marvin Klimke, Benjamin V\"olz, Michael Buchholz(参考訳) コネクテッド自動運転は、閉塞による問題を緩和するなど、都市交通効率を大幅に改善する可能性がある。 複数の車両の動作を協調的に最適化するために協調行動計画を用いることができる。 しかし、既存の自動交差点管理へのアプローチのほとんどは、完全に自動化されたトラフィックのみを考慮している。 実際には、混在する交通、すなわち、自動走行車と人力走行車による同時道路利用が普及する。 本稿では,強化学習とグラフに基づくシーン表現を協調型マルチエージェント計画に活用することを提案する。 我々は、このような機械学習手法が完全に自動化されたトラフィックに適用可能であることを示す以前の研究に基づいて構築した。 シーン表現は混在トラフィックのために拡張され、人間のドライバーの意図の不確実性を考慮する。 シミュレーションに基づく評価では,実世界データを用いて調整された雑音プロセスを通して測定の不確かさをモデル化する。 提案手法について,提案手法を改良した第1報,第1報,混合トラフィック管理のベースラインとして評価した。 自動走行車のシェアの増加に伴い、学習プランナーは車両のスループットを大幅に向上させ、相互作用による遅延を低減する。 非自動走行車も同様である。

Connected automated driving has the potential to significantly improve urban traffic efficiency, e.g., by alleviating issues due to occlusion. Cooperative behavior planning can be employed to jointly optimize the motion of multiple vehicles. Most existing approaches to automatic intersection management, however, only consider fully automated traffic. In practice, mixed traffic, i.e., the simultaneous road usage by automated and human-driven vehicles, will be prevalent. The present work proposes to leverage reinforcement learning and a graph-based scene representation for cooperative multi-agent planning. We build upon our previous works that showed the applicability of such machine learning methods to fully automated traffic. The scene representation is extended for mixed traffic and considers uncertainty in the human drivers' intentions. In the simulation-based evaluation, we model measurement uncertainties through noise processes that are tuned using real-world data. The paper evaluates the proposed method against an enhanced first in - first out scheme, our baseline for mixed traffic management. With increasing share of automated vehicles, the learned planner significantly increases the vehicle throughput and reduces the delay due to interaction. Non-automated vehicles benefit virtually alike.
翻訳日:2023-01-31 15:27:47 公開日:2023-01-30
# タスク非依存的特徴の歪みによるテキストアウトオブディストリビューション検出の微調整による劣化

Fine-Tuning Deteriorates General Textual Out-of-Distribution Detection by Distorting Task-Agnostic Features ( http://arxiv.org/abs/2301.12715v1 )

ライセンス: Link先を確認
Sishuo Chen, Wenkai Yang, Xiaohan Bi and Xu Sun(参考訳) 自然言語処理(NLP)モデルの安全なデプロイには,OOD入力の検出が不可欠である。 既存の手法、特に微調整事前訓練言語モデル(PLM)の特徴空間における統計に基づく手法は有効であると主張されているが、異なる種類の分散シフトに対する効果は未定である。 本研究は,意味的および非意味的変化を検出するための主流テキストOOD検出手法を包括的に評価する第一歩である。 1) 既存の手法は, 双方の環境では良好に動作せず, 2) セマンティックシフトを検出する不分配データに基づく微調整 PLM は, タスクに依存しない特徴の歪みに起因する非セマンティックシフトの検出を著しく劣化させる。 この問題を緩和するために,タスク非依存およびタスク特化表現から得られた信頼度を統合した,GNOMEという単純なOODスコアを提案する。 実験により、GNOMEはセマンティックシフトシナリオと非セマンティックシフトシナリオの両方でうまく機能し、同時に両方のシフトが実行される2つのクロスタスクベンチマークにおいて、さらに大幅に改善されることが示された。 私たちのコードはhttps://github.com/lancopku/GNOMEで利用可能です。

Detecting out-of-distribution (OOD) inputs is crucial for the safe deployment of natural language processing (NLP) models. Though existing methods, especially those based on the statistics in the feature space of fine-tuned pre-trained language models (PLMs), are claimed to be effective, their effectiveness on different types of distribution shifts remains underexplored. In this work, we take the first step to comprehensively evaluate the mainstream textual OOD detection methods for detecting semantic and non-semantic shifts. We find that: (1) no existing method behaves well in both settings; (2) fine-tuning PLMs on in-distribution data benefits detecting semantic shifts but severely deteriorates detecting non-semantic shifts, which can be attributed to the distortion of task-agnostic features. To alleviate the issue, we present a simple yet effective general OOD score named GNOME that integrates the confidence scores derived from the task-agnostic and task-specific representations. Experiments show that GNOME works well in both semantic and non-semantic shift scenarios, and further brings significant improvement on two cross-task benchmarks where both kinds of shifts simultaneously take place. Our code is available at https://github.com/lancopku/GNOME.
翻訳日:2023-01-31 15:27:30 公開日:2023-01-30
# 最適保守オフライン強化学習におけるアクタークリティカルの重要性

Importance Weighted Actor-Critic for Optimal Conservative Offline Reinforcement Learning ( http://arxiv.org/abs/2301.12714v1 )

ライセンス: Link先を確認
Hanlin Zhu, Paria Rashidinejad and Jiantao Jiao(参考訳) データカバレッジが不十分な複雑な環境でのオフライン強化学習(RL)のための新しいアルゴリズムであるA-Crab(平均ベルマン誤差で正規化)を提案する。 提案アルゴリズムは,オフラインデータに対して悲観的であり,平均値(重要度重み付き)のベルマン誤差が小さいアクター(政治)の評価を返す,アクター批判パラダイムと疎結合である。 従来の方法と比較すると,(1)実用的であり,一般関数近似と組み合わせた場合であっても,オフラインデータセットでカバーする最善のポリシーに収束する場合に,1/\sqrt{n}$ -- ここで$n$はオフラインデータセットのサイズ)の最適統計速度を達成する。 2)政策カバレッジ($\ell_\infty$ single-policy concentrability)の弱い平均的な概念に依存しており、政策訪問の構造を利用している。 (3) 広い範囲のハイパーパラメータでデータ収集行動ポリシーを上回り,ミニマックス最適化問題を解くことなく実現した最初のアルゴリズムである。

We propose A-Crab (Actor-Critic Regularized by Average Bellman error), a new algorithm for offline reinforcement learning (RL) in complex environments with insufficient data coverage. Our algorithm combines the marginalized importance sampling framework with the actor-critic paradigm, where the critic returns evaluations of the actor (policy) that are pessimistic relative to the offline data and have a small average (importance-weighted) Bellman error. Compared to existing methods, our algorithm simultaneously offers a number of advantages: (1) It is practical and achieves the optimal statistical rate of $1/\sqrt{N}$ -- where $N$ is the size of the offline dataset -- in converging to the best policy covered in the offline dataset, even when combined with general function approximations. (2) It relies on a weaker average notion of policy coverage (compared to the $\ell_\infty$ single-policy concentrability) that exploits the structure of policy visitations. (3) It outperforms the data-collection behavior policy over a wide-range of hyperparameters and is the first algorithm to do so without solving a minimax optimization problem.
翻訳日:2023-01-31 15:27:06 公開日:2023-01-30
# チャネル依存型人口移動 : 複雑反応経路解析のためのフレームワーク

Channel-Dependent Population Transfer: A Framework for Analyzing Complex Reaction Pathways ( http://arxiv.org/abs/2301.12712v1 )

ライセンス: Link先を確認
Amartya Bose, Peter L. Walters(参考訳) 本稿では, 散逸媒質と相互作用する非自明に連結された拡張系における量子粒子の輸送解析手法を提案する。 輸送プロセスによって取られる経路に影響を与える問題には、広く2つの異なる側面がある。 まず、それぞれのサイト間の結合が、チャネルの固有の"強度"に変換されるのが明らかです。 サイト間カップリングは別として、サイトのエネルギーに影響を与える溶媒とその相対結合強度と時間スケールが第2因子となる。 このような散逸性媒体の影響は解析がかなり困難である。 チャネル依存人口移動法 (cdpt) では, 交通量の解析により, 両効果を厳密に説明できる。 比較的単純なシステムであっても、輸送の裏側に隠された豊かさを実証する。局所散逸媒体の効果は極めて非自明であり、サイト間カップリングの相対的な大きさの影響の単純さを隠蔽することができる。 これにより、力学の性質、特に量子制御に目を向けた新しいシステムを設計する可能性に対する因子の影響に関する詳細な研究の機会が開かれる。

We present an approach of analyzing the transport of a quantum particle in a non-trivially connected extended system interacting with a dissipative medium. There are broadly two different aspects of the problem that affect the route taken by the transport process. First is obviously the couplings between the various sites, which translates into the intrinsic "strength" of a channel. Apart from the inter-site couplings, the solvents affecting the energies of the sites, and their relative coupling strengths and time-scales form the second factor. This impact of the such dissipative media is significantly more difficult to analyze. The Channel-Dependent Population Transfer (CDPT) method of analyzing the transport allows us to account for both the effects in a rigorous manner. We demonstrate the richness hidden behind the transport even for relatively simple systems -- the effect of the local dissipative media is highly non-trivial and can mask the simplicity of the effect of the relative magnitude of the inter-site couplings. This opens up possibilities in terms of detailed study of the impact of factors on the nature of dynamics, especially possibilities of design of novel systems with an eye towards quantum control.
翻訳日:2023-01-31 15:26:46 公開日:2023-01-30
# UzbekTagger: Uzbek言語用のルールベースのPOSタグ

UzbekTagger: The rule-based POS tagger for Uzbek language ( http://arxiv.org/abs/2301.12711v1 )

ライセンス: Link先を確認
Maksud Sharipov, Elmurod Kuriyozov, Ollabergan Yuldashev, Ogabek Sobirov(参考訳) 本稿では,低リソースなウズベク語に対するPOSアノテートデータセットとタグツールを提案する。 データセットには12のタグが含まれており、ルールベースのPOSタグツールの開発に使用された。 アノテーションプロセスで使用されるコーパステキストは、その代表性を確保するために、確実に20の異なるフィールドでバランスをとるようにされた。 ウズベク語は凝集言語であるため、ウズベク語の文中の単語の多くは接尾辞を加えることによって形成される。 この性質により、POSタグ付けタスクは、彼らが属する単語の幹や正しい音声を見つけるのが難しくなる。 本研究で提案する手法は,ウズベク語における単語の語幹形態のデータベースを含む接尾辞/接尾辞ストリッピングアプローチによる単語の語幹形成である。 taggerツールは注釈付きデータセット上でテストされ、ウズベク語のテキストにおける音声の識別とタグ付けにおいて高い精度を示した。 この新しく発表されたデータセットとタグツールは、言語モデリング、機械翻訳、テキストから音声への合成など、さまざまな自然言語処理タスクに使用できる。 提案されたデータセットは、Uzbekで公開された最初の種類のものだ。POS-taggerツールは、他の密接に関連するトルコ語言語のベースとして使用するピボットとしても使用できる。

This research paper presents a part-of-speech (POS) annotated dataset and tagger tool for the low-resource Uzbek language. The dataset includes 12 tags, which were used to develop a rule-based POS-tagger tool. The corpus text used in the annotation process was made sure to be balanced over 20 different fields in order to ensure its representativeness. Uzbek being an agglutinative language so the most of the words in an Uzbek sentence are formed by adding suffixes. This nature of it makes the POS-tagging task difficult to find the stems of words and the right part-of-speech they belong to. The methodology proposed in this research is the stemming of the words with an affix/suffix stripping approach including database of the stem forms of the words in the Uzbek language. The tagger tool was tested on the annotated dataset and showed high accuracy in identifying and tagging parts of speech in Uzbek text. This newly presented dataset and tagger tool can be used for a variety of natural language processing tasks such as language modeling, machine translation, and text-to-speech synthesis. The presented dataset is the first of its kind to be made publicly available for Uzbek, and the POS-tagger tool created can also be used as a pivot to use as a base for other closely-related Turkic languages.
翻訳日:2023-01-31 15:26:28 公開日:2023-01-30
# アクチュアリ応用における高次カテゴリー特徴を用いた機械学習

Machine Learning with High-Cardinality Categorical Features in Actuarial Applications ( http://arxiv.org/abs/2301.12710v1 )

ライセンス: Link先を確認
Benjamin Avanzi and Greg Taylor and Melantha Wang and Bernard Wong(参考訳) 高カード性カテゴリーの特徴は、時間データ(例えば、商業財産保険の職業)に浸透する。 ワンホット符号化のような標準的な分類法はこれらの設定では不十分である。 本稿では,高次心性カテゴリーの特徴をモデル化するための,新しい_ Generalized Linear Mixed Model Neural Network_(GLMMNet)アプローチを提案する。 GLMMNetは、ニューラルネットワークの予測能力とランダム効果推定の透明性を提供するディープラーニングフレームワークに一般化された線形混合モデルを統合する。 さらに、指数分散(ED)族における任意の分布に対処する柔軟性は、多くのアクチュアリな文脈に広く適用することができる。 GLMMNetをシミュレーション実験や実生活保険ケーススタディにおいて,既存手法との比較を行った。 特に、GLMMNetは、特に実用的なアプリケーションで価値のある透明性のメリットを提供しながら、エンティティ組み込みニューラルネットワークと相容れない性能を発揮することがよくあります。 重要なことは、我々のモデルはアクチュアリアルな応用によって動機付けられているが、より広い適用性を持つ。 GLMMNetは、高心性カテゴリ変数と応答がガウス分布によって十分にモデル化できないアプリケーションに適合する。

High-cardinality categorical features are pervasive in actuarial data (e.g. occupation in commercial property insurance). Standard categorical encoding methods like one-hot encoding are inadequate in these settings. In this work, we present a novel _Generalised Linear Mixed Model Neural Network_ ("GLMMNet") approach to the modelling of high-cardinality categorical features. The GLMMNet integrates a generalised linear mixed model in a deep learning framework, offering the predictive power of neural networks and the transparency of random effects estimates, the latter of which cannot be obtained from the entity embedding models. Further, its flexibility to deal with any distribution in the exponential dispersion (ED) family makes it widely applicable to many actuarial contexts and beyond. We illustrate and compare the GLMMNet against existing approaches in a range of simulation experiments as well as in a real-life insurance case study. Notably, we find that the GLMMNet often outperforms or at least performs comparably with an entity embedded neural network, while providing the additional benefit of transparency, which is particularly valuable in practical applications. Importantly, while our model was motivated by actuarial applications, it can have wider applicability. The GLMMNet would suit any applications that involve high-cardinality categorical variables and where the response cannot be sufficiently modelled by a Gaussian distribution.
翻訳日:2023-01-31 15:26:06 公開日:2023-01-30
# アンサンブル学習型浅回路量子分類器

Ensemble-learning variational shallow-circuit quantum classifiers ( http://arxiv.org/abs/2301.12707v1 )

ライセンス: Link先を確認
Qingyu Li, Yuhan Huang, Xiaokai Hou, Ying Li, Xiaoting Wang, Abolfazl Bayat(参考訳) 分類は教師付き学習の主な応用の1つである。 量子コンピュータの最近の進歩は、そのようなマシン上での機械学習の新しい可能性を開いた。 しかし、短期量子コンピュータの雑音性能のため、浅い回路のみを用いて分類問題を解くためのアプローチが望まれる。 本稿では,古典的および量子的データセットに対する変分量子分類器の性能を大幅に向上させる,ブートストラップ集約と適応ブースティングの2つのアンサンブル学習分類法を提案する。 このアイデアはいくつかの弱い分類器を組み合わせることで、それぞれが浅いノイズ量子回路上に実装され、高い精度で強い分類を行う。 いずれのプロトコルもエラー軽減プリミティブ分類器よりも大幅に優れているが、適応的な高速化はブートストラップ集約よりも優れた性能を示している。 さらに、トレーニングエラーは分類器の数とともに指数関数的に減衰し、実用的な実現には好ましい複雑さをもたらす。 これらのプロトコルは古典的な手書き数字や対称性で保護されたトポロジカルハミルトニアンの量子位相の識別のために例示されている。

Classification is one of the main applications of supervised learning. Recent advancement in developing quantum computers has opened a new possibility for machine learning on such machines. However, due to the noisy performance of near-term quantum computers, we desire an approach for solving classification problems with only shallow circuits. Here, we propose two ensemble-learning classification methods, namely bootstrap aggregating and adaptive boosting, which can significantly enhance the performance of variational quantum classifiers for both classical and quantum datasets. The idea is to combine several weak classifiers, each implemented on a shallow noisy quantum circuit, to make a strong one with high accuracy. While both of our protocols substantially outperform error-mitigated primitive classifiers, the adaptive boosting shows better performance than the bootstrap aggregating. In addition, its training error decays exponentially with the number of classifiers, leading to a favorable complexity for practical realization. The protocols have been exemplified for classical handwriting digits as well as quantum phase discrimination of a symmetry-protected topological Hamiltonian.
翻訳日:2023-01-31 15:25:49 公開日:2023-01-30
# KG-BERTScore:参照フリー機械翻訳評価のための知識グラフをBERTScoreに組み込む

KG-BERTScore: Incorporating Knowledge Graph into BERTScore for Reference-Free Machine Translation Evaluation ( http://arxiv.org/abs/2301.12699v1 )

ライセンス: Link先を確認
Zhanglin Wu, Min Zhang, Ming Zhu, Yinglu Li, Ting Zhu, Hao Yang, Song Peng, Ying Qin(参考訳) BERTScoreは参照型機械翻訳評価のための有効かつ堅牢な自動計量である。 本稿では,多言語知識グラフをBERTScoreに組み込んだKG-BERTScoreというメトリクスを提案する。 KG-BERTScoreは,WMT19 QEを基準のない基準値として実験した結果,基準自由機械翻訳評価の最先端指標よりも,人的判断との総合的相関性が高いことがわかった。 また,KG-BERTScoreが用いた事前学習多言語モデルと線形結合パラメータについても検討した。

BERTScore is an effective and robust automatic metric for referencebased machine translation evaluation. In this paper, we incorporate multilingual knowledge graph into BERTScore and propose a metric named KG-BERTScore, which linearly combines the results of BERTScore and bilingual named entity matching for reference-free machine translation evaluation. From the experimental results on WMT19 QE as a metric without references shared tasks, our metric KG-BERTScore gets higher overall correlation with human judgements than the current state-of-the-art metrics for reference-free machine translation evaluation.1 Moreover, the pre-trained multilingual model used by KG-BERTScore and the parameter for linear combination are also studied in this paper.
翻訳日:2023-01-31 15:25:33 公開日:2023-01-30
# 画像ベースタスクのためのロバストなメタ学習

Robust Meta Learning for Image based tasks ( http://arxiv.org/abs/2301.12698v1 )

ライセンス: Link先を確認
Penghao Jiang, Xin Ke, ZiFeng Wang, Chunxi Li(参考訳) wellを一般化した機械学習モデルは、見えないテスト例で低いエラーを取得すべきである。 したがって、トレーニングデータで最適なモデルを学ぶと、テストタスクの一般化性能が向上する可能性がある。 しかし、テストデータの分布が不明であるため、標準的な機械学習フレームワークではそのようなモデルを学習することはできない。 この課題に対処するために、未知のイメージベーステストタスクに対してより堅牢で、トレーニングタスクによる分散シフトを有する、新しい頑健なメタラーニング手法を提案する。 我々の頑健なメタ学習手法は,各分布のデータが少ない場合でも,ロバストな最適モデルを提供できる。 実験では,アルゴリズムの一般化性能が向上するだけでなく,未知の異なるテストタスクにも頑健であることが示される。

A machine learning model that generalizes well should obtain low errors on unseen test examples. Thus, if we learn an optimal model in training data, it could have better generalization performance in testing tasks. However, learning such a model is not possible in standard machine learning frameworks as the distribution of the test data is unknown. To tackle this challenge, we propose a novel robust meta-learning method, which is more robust to the image-based testing tasks which is unknown and has distribution shifts with training tasks. Our robust meta-learning method can provide robust optimal models even when data from each distribution are scarce. In experiments, we demonstrate that our algorithm not only has better generalization performance but also robust to different unknown testing tasks.
翻訳日:2023-01-31 15:25:18 公開日:2023-01-30
# 圧縮・一般化・学習

Compression, Generalization and Learning ( http://arxiv.org/abs/2301.12767v1 )

ライセンス: Link先を確認
Marco C. Campi and Simone Garatti(参考訳) 圧縮関数(英: compression function)は、観測セットを小さくしたサブセットにスリム化し、その情報内容を保存するマップである。 複数の応用において、1つの新しい観察が圧縮集合の変化をもたらす条件は、この観測が余分な情報をもたらすと解釈され、学習理論では、これは誤分類または誤予測に対応する。 本稿では,圧縮の変化の確率を制御できる新しい理論(「リスク」と呼ばれる)の基礎を述べる。 圧縮集合の濃度が(圧縮集合の大きさの上限を除いた)リスクの一貫した推定条件である条件を特定し、一般に適用可能な選好条件の下でリスクを評価する前例のない厳密な境界を証明する。 すべての結果は、観測の確率分布に関する事前知識を必要とせずに、完全に不可知的な設定で利用できる。 これらの結果は、観察駆動手法の信頼性向上に有効な支援を提供するだけでなく、ハイパーパラメータチューニングのツールとしての学習技術において、基本的な役割を果たす。

A compression function is a map that slims down an observational set into a subset of reduced size, while preserving its informational content. In multiple applications, the condition that one new observation makes the compressed set change is interpreted that this observation brings in extra information and, in learning theory, this corresponds to misclassification, or misprediction. In this paper, we lay the foundations of a new theory that allows one to keep control on the probability of change of compression (called the "risk"). We identify conditions under which the cardinality of the compressed set is a consistent estimator for the risk (without any upper limit on the size of the compressed set) and prove unprecedentedly tight bounds to evaluate the risk under a generally applicable condition of preference. All results are usable in a fully agnostic setup, without requiring any a priori knowledge on the probability distribution of the observations. Not only these results offer a valid support to develop trust in observation-driven methodologies, they also play a fundamental role in learning techniques as a tool for hyper-parameter tuning.
翻訳日:2023-01-31 15:19:23 公開日:2023-01-30
# 2粒子離散時間量子ウォークの動的条件付け

Dynamic conditioning of two particle discrete-time quantum walks ( http://arxiv.org/abs/2301.12764v1 )

ライセンス: Link先を確認
Federico Pegoraro, Philip Held, Sonja Barkhofen, Benjamin Brecht and Christine Silberhorn (Integrated Quantum Optics Group, Institute for Photonic Quantum Systems (PhoQS), Paderborn University, Paderborn, Germany)(参考訳) 実際のフォトニック量子系における損失は、スケーラビリティを多くのモードや粒子に制限し、量子情報や通信などの分野における応用を抑える、避けられない要因である。 このため、粒子源やシステムコンポーネントの品質を向上させるために、かなりの量の工学的努力が取られている。 同時に, 粒子損失の影響を軽減するために, ポストセレクションに基づくデータ解析と収集手法が用いられている。 これにより、観測者がシステムの中間伝播状態に関する知識を欠いた実験的な多粒子進化の研究が可能となった。 しかしながら, 損失が多粒子系の残存部分集合の挙動にどのような影響を及ぼすかという根本的な疑問は, 未だ研究されていない。 そこで本研究では,2つの光子の量子ウォークにおける粒子損失の影響を,既知のモードと進化ネットワークの時間ステップにおいて,他の光子の損失を条件とした1つの光子の出力確率分布を再構成する。 本稿では,制御された粒子の損失をモデル化するために考案された理論的スキームについて述べる。 最後に, 局所的な粒子損失が, 漸近的拡散特性を変化させることなく, 出力分布をいかに変化させるかを示す。 最後に、単一粒子再帰過程の2つのウォーカー一般化である量子文明問題を考案する。

In real photonic quantum systems losses are an unavoidable factor limiting the scalability to many modes and particles, restraining their application in fields as quantum information and communication. For this reason, a considerable amount of engineering effort has been taken in order to improve the quality of particle sources and system components. At the same time, data analysis and collection methods based on post-selection have been used to mitigate the effect of particle losses. This has allowed for investigating experimentally multi-particle evolutions where the observer lacks knowledge about the system's intermediate propagation states. Nonetheless, the fundamental question how losses affect the behaviour of the surviving subset of a multi-particle system has not been investigated so far. For this reason, here we study the impact of particle losses in a quantum walk of two photons reconstructing the output probability distributions for one photon conditioned on the loss of the other in a known mode and temporal step of our evolution network. We present the underlying theoretical scheme that we have devised in order to model controlled particle losses, we describe an experimental platform capable of implementing our theory in a time multiplexing encoding. In the end we show how localized particle losses change the output distributions without altering their asymptotic spreading properties. Finally we devise a quantum civilization problem, a two walker generalisation of single particle recurrence processes.
翻訳日:2023-01-31 15:19:04 公開日:2023-01-30
# グラフニューラルネットワークを用いた因果性に基づくCTR予測

Causality-based CTR Prediction using Graph Neural Networks ( http://arxiv.org/abs/2301.12762v1 )

ライセンス: Link先を確認
Panyu Zhai, Yanwu Yang and Chunjie Zhang(参考訳) オンライン広告における一般的な問題として、CTR予測は学術と産業の両方から多くの注目を集めている。 近年,グラフニューラルネットワーク(GNN)フレームワークにおけるCTR予測モデルの構築が報告されている。 しかし、ほとんどのGNNベースのモデルは、機能間の因果関係を無視しながら、完全なグラフにおける機能相互作用を処理するため、アウト・オブ・ディストリビューションデータの性能は大幅に低下する。 本稿では,オンライン広告の文脈における特徴グラフ,ユーザグラフ,広告グラフの表現を統合するGNNフレームワーク(Causal-GNN)における因果性に基づくCTR予測モデルの開発に着目する。 本モデルでは,ゲートグラフニューラルネットワーク(GGNN)におけるフィールド特徴間の因果発見に基づいて,特徴グラフ上の高次表現を抽出する構造表現学習法(GraphFwFM)を設計し,ユーザと広告のグラフ表現を得るためにGraphSAGEを用いる。 3つの公開データセットで実施された実験は、AUCとLoglossにおけるCausal-GNNの優位性と、因果特徴グラフ上の高次表現のキャプチャにおけるGraphFwFMの有効性を示す。

As a prevalent problem in online advertising, CTR prediction has attracted plentiful attention from both academia and industry. Recent studies have been reported to establish CTR prediction models in the graph neural networks (GNNs) framework. However, most of GNNs-based models handle feature interactions in a complete graph, while ignoring causal relationships among features, which results in a huge drop in the performance on out-of-distribution data. This paper is dedicated to developing a causality-based CTR prediction model in the GNNs framework (Causal-GNN) integrating representations of feature graph, user graph and ad graph in the context of online advertising. In our model, a structured representation learning method (GraphFwFM) is designed to capture high-order representations on feature graph based on causal discovery among field features in gated graph neural networks (GGNNs), and GraphSAGE is employed to obtain graph representations of users and ads. Experiments conducted on three public datasets demonstrate the superiority of Causal-GNN in AUC and Logloss and the effectiveness of GraphFwFM in capturing high-order representations on causal feature graph.
翻訳日:2023-01-31 15:18:43 公開日:2023-01-30
# 偏光励起による磁気感度増強とNV中心のアンサンブルの検出

Magnetic sensitivity enhancement via polarimetric excitation and detection of an ensemble of NV centers ( http://arxiv.org/abs/2301.12758v1 )

ライセンス: Link先を確認
Simone Magaletti, Ludovic Mayer, Xuan Phuc Le, and Thierry Debuisschert(参考訳) 負電荷の窒素空孔中心(NV)は、スピン依存的な光学特性を示し、磁場センシングの興味深いツールとなる。 本稿では,NV中心吸収・放出過程の偏極特性を利用して,NV中心のアンサンブルの磁気感度を向上させる。 励起路におけるハーフウェーブプレートと検出路における偏光子の実験的な設定を単純に装備することにより、nv中心磁気感度の2倍以上の改善を示す。

The negatively charged nitrogen-vacancy center (NV) presents remarkable spin-dependent optical properties that make it an interesting tool for magnetic field sensing. In this paper we exploit the polarization properties of the NV center absorption and emission processes to improve the magnetic sensitivity of an ensemble of NV centers. By simply equipping the experimental set-up of a half-wave plate in the excitation path and a polarizer in the detection path we demonstrate an improvement larger than a factor of two on the NV center magnetic sensitivity.
翻訳日:2023-01-31 15:18:21 公開日:2023-01-30
# 個人化分散学習における個人ノード選択

Private Node Selection in Personalized Decentralized Learning ( http://arxiv.org/abs/2301.12755v1 )

ライセンス: Link先を確認
Edvin Listo Zec, Johan \"Ostman, Olof Mogren, Daniel Gillblad(参考訳) 本稿では,パーソナライズされた分散学習におけるプライバシ保護ノード選択のための新しいアプローチを提案し,これをプライベートパーソナライズされた分散学習(PPDL)と呼ぶ。 本手法は,安全なアグリゲーションを用いた推論攻撃のリスクを軽減すると同時に,協調作業者の効率的な識別を可能にする。 これは、異なるアーム間の依存関係を利用する対向的マルチアームバンディット最適化を活用することで達成される。 ラベルと共変量シフトの下での様々なベンチマークに関する包括的な実験を通じて、我々のプライバシー保護アプローチが、モデル性能の点で従来の非プライベートメソッドよりも優れていることを示す。

In this paper, we propose a novel approach for privacy-preserving node selection in personalized decentralized learning, which we refer to as Private Personalized Decentralized Learning (PPDL). Our method mitigates the risk of inference attacks through the use of secure aggregation while simultaneously enabling efficient identification of collaborators. This is achieved by leveraging adversarial multi-armed bandit optimization that exploits dependencies between the different arms. Through comprehensive experimentation on various benchmarks under label and covariate shift, we demonstrate that our privacy-preserving approach outperforms previous non-private methods in terms of model performance.
翻訳日:2023-01-31 15:18:11 公開日:2023-01-30
# PointSmile: カリキュラム相互情報によるポイント自己教師型学習

PointSmile: Point Self-supervised Learning via Curriculum Mutual Information ( http://arxiv.org/abs/2301.12744v1 )

ライセンス: Link先を確認
Xin Li, Mingqiang Wei, Songcan Chen(参考訳) 自己教師付き学習は、ポイントクラウド処理において広く注目を集めている。 しかしながら、下流タスクの効率的なトレーニングのためにポイントクラウドの識別的かつ転送可能な特徴を得るには、その自然なスパース性と不規則性のため、まだ十分解決されていない。 我々は,ポイントクラウドオブジェクトのレプリカ間でカリキュラム相互情報(cmi)を最大化することにより,自己教師なし学習パラダイムであるpointsmileを提案する。 学習の仕方の観点からは、PointSmileは人間のカリキュラム学習、すなわち簡単なカリキュラムから始まり、そのカリキュラムの難しさを徐々に増すように設計されている。 学習の仕方」を解決するために,ポイントクラウドのカリキュラムデータ拡張(CDA)を導入する。 CDAはPointSmileに、簡単なサンプルからハードなものへの学習を奨励している。 本稿では,特徴量とクラス量の両方を最大化して,点雲の識別的特徴を抽出する手法を提案する。 既存のほとんどのメソッドとは異なり、PointSmileはプリテキストタスクを必要とせず、リッチな潜在表現を生成するためにクロスモーダルデータも必要としない。 我々は,オブジェクト分類やセグメンテーションを含む下流タスクにおけるpointmileの有効性とロバスト性を示す。 広範な結果から,pointsmileは既存の自己教師あり手法よりも優れており,各種標準アーキテクチャにおける一般的な完全教師ありメソッドと比較できることがわかった。

Self-supervised learning is attracting wide attention in point cloud processing. However, it is still not well-solved to gain discriminative and transferable features of point clouds for efficient training on downstream tasks, due to their natural sparsity and irregularity. We propose PointSmile, a reconstruction-free self-supervised learning paradigm by maximizing curriculum mutual information (CMI) across the replicas of point cloud objects. From the perspective of how-and-what-to-learn, PointSmile is designed to imitate human curriculum learning, i.e., starting with an easy curriculum and gradually increasing the difficulty of that curriculum. To solve "how-to-learn", we introduce curriculum data augmentation (CDA) of point clouds. CDA encourages PointSmile to learn from easy samples to hard ones, such that the latent space can be dynamically affected to create better embeddings. To solve "what-to-learn", we propose to maximize both feature- and class-wise CMI, for better extracting discriminative features of point clouds. Unlike most of existing methods, PointSmile does not require a pretext task, nor does it require cross-modal data to yield rich latent representations. We demonstrate the effectiveness and robustness of PointSmile in downstream tasks including object classification and segmentation. Extensive results show that our PointSmile outperforms existing self-supervised methods, and compares favorably with popular fully-supervised methods on various standard architectures.
翻訳日:2023-01-31 15:18:00 公開日:2023-01-30
# FractalAD: フラクタル異常発生とバックボーン知識蒸留を用いた単純な工業的異常分割法

FractalAD: A simple industrial anomaly segmentation method using fractal anomaly generation and backbone knowledge distillation ( http://arxiv.org/abs/2301.12739v1 )

ライセンス: Link先を確認
Xuan Xia, Weijie Lv, Xing He, Chuanqi Liu, Ning Ding(参考訳) 近年、産業異常検出(AD)技術は大きな進歩を遂げているが、現実的な異常や学習前の知識は依然として困難な課題である。 本研究では,FractalADと呼ばれる産業用終端異常分割手法を提案する。 通常の試料からフラクタル画像とパッチを合成してトレーニングサンプルを得る。 このフラクタル異常生成法は、異常の完全な形態をサンプリングするために設計された。 さらに, 標準試料に含まれる事前知識を抽出するために, バックボーン知識蒸留構造も設計した。 教師と生徒モデルの違いは、コサイン類似性注意モジュールを用いて異常注意に変換される。 提案手法では,学習可能なパラメータをバックボーンやセグメンテーションヘッドに追加することなく,エンドツーエンドのセマンティクスセグメンテーションネットワークを異常検出に使用できる。 アブレーション研究の結果,フラクタル異常発生とバックボーン知識蒸留の有効性が確認された。 評価実験の結果、FractalADはMVTec ADデータセット上で、他の最先端の異常検出方法と比較して、競合する結果を得た。

Although industrial anomaly detection (AD) technology has made significant progress in recent years, generating realistic anomalies and learning priors knowledge of normal remain challenging tasks. In this study, we propose an end-to-end industrial anomaly segmentation method called FractalAD. Training samples are obtained by synthesizing fractal images and patches from normal samples. This fractal anomaly generation method is designed to sample the full morphology of anomalies. Moreover, we designed a backbone knowledge distillation structure to extract prior knowledge contained in normal samples. The differences between a teacher and a student model are converted into anomaly attention using a cosine similarity attention module. The proposed method enables an end-to-end semantic segmentation network to be used for anomaly detection without adding any trainable parameters to the backbone and segmentation head. The results of ablation studies confirmed the effectiveness of fractal anomaly generation and backbone knowledge distillation. The results of performance experiments showed that FractalAD achieved competitive results on the MVTec AD dataset compared with other state-of-the-art anomaly detection methods.
翻訳日:2023-01-31 15:17:37 公開日:2023-01-30
# 認識的不確実性定量化のための2次スコアリング規則について

On Second-Order Scoring Rules for Epistemic Uncertainty Quantification ( http://arxiv.org/abs/2301.12736v1 )

ライセンス: Link先を確認
Viktor Bengs and Eyke H\"ullermeier and Willem Waegeman(参考訳) 正確な確率的予測器は、適切なスコアリングルールを損失関数として経験的リスク最小化を通じて訓練できることはよく知られている。 このような学習者は、予測の不確実性(aleatoric uncertainty of predictions)を捉えるが、近年、学習者がその認識の不確実性、すなわち知識やデータの欠如によって引き起こされる不確実性を表現することを目的として、様々な機械学習手法が開発されている。 文献の新たな分野として,確率分布の分布を予測する二階学習者が提案されている。 しかし、最近の研究は損失最小化に基づく2次予測器の重大な理論的欠点を明らかにしている。 本稿では,これらの知見を一般化し,より基本的な結果を示す。二階学習者に対して,標準(一階学習者)に対する適切なスコアリングルールと同様に,認識的不確実性を忠実に表現するインセンティブを与える損失関数は存在しないように思われる。 この結果を証明するための主要な数学的ツールとして,二階得点規則の一般化概念を紹介する。

It is well known that accurate probabilistic predictors can be trained through empirical risk minimisation with proper scoring rules as loss functions. While such learners capture so-called aleatoric uncertainty of predictions, various machine learning methods have recently been developed with the goal to let the learner also represent its epistemic uncertainty, i.e., the uncertainty caused by a lack of knowledge and data. An emerging branch of the literature proposes the use of a second-order learner that provides predictions in terms of distributions on probability distributions. However, recent work has revealed serious theoretical shortcomings for second-order predictors based on loss minimisation. In this paper, we generalise these findings and prove a more fundamental result: There seems to be no loss function that provides an incentive for a second-order learner to faithfully represent its epistemic uncertainty in the same manner as proper scoring rules do for standard (first-order) learners. As a main mathematical tool to prove this result, we introduce the generalised notion of second-order scoring rules.
翻訳日:2023-01-31 15:17:21 公開日:2023-01-30
# メンタルヘルスカウンセリングのためのレスポンシブアクトガイド強化対話生成

Response-act Guided Reinforced Dialogue Generation for Mental Health Counseling ( http://arxiv.org/abs/2301.12729v1 )

ライセンス: Link先を確認
Aseem Srivastava, Ishan Pandey, Md. Shad Akhtar, Tanmoy Chakraborty(参考訳) 仮想メンタルヘルスアシスタント(VMHA)は、デジタルヘルスケア分野でメンタルヘルスカウンセリングを受けるための一般的な方法となっている。 支援的なカウンセリングの会話は、クライアントを環境に親しみやすくするために自然なオープンなトピックから始まり、後によりきめ細かいドメイン固有のトピックに収束する。 オープンドメインまたはタスク指向システムに分類される他の会話システムとは異なり、VMHAはハイブリッドな会話フローを持っている。 これらのカウンセリングボットは、対話行為や意図など、会話のさまざまな側面を理解して、クライアントを効果的な会話に巻き込む必要がある。 デジタルヘルス研究の急増は、多くの汎用応答生成システムの応用を浮き彫りにしているが、それらは精神保健分野ではほとんど適していない。 さらに、ダイアログアクトによる応答生成はテンプレートベースのパラダイムに限定されるか、あるいは適切な意味論が欠如している。 そこで本研究では,メンタルヘルスカウンセリングのための応答行動支援対話生成モデルであるreaderを提案する。 READERは変換器上に構築され、次の発話に対する潜在的な対話行為d(t+1)を共同で予測し、適切な応答u(t+1)を生成する。 PPO(Proximal Policy Optimization)を用いたTRL(Transformer-Reinforcement-learning)を通じて,応答生成元をd(t+1)でアドバイドし,BERTScoreによる応答のセマンティックリッチ性を確保する。 我々は、会話データセットのベンチマークであるHOPE上でREADERを評価し、METEOR、ROUGE、BERTScoreなど、いくつかの評価指標において、いくつかのベースラインを上回ります。 また, 誤り解析や人的評価など, 結果の質的, 定量的な分析も行った。

Virtual Mental Health Assistants (VMHAs) have become a prevalent method for receiving mental health counseling in the digital healthcare space. An assistive counseling conversation commences with natural open-ended topics to familiarize the client with the environment and later converges into more fine-grained domain-specific topics. Unlike other conversational systems, which are categorized as open-domain or task-oriented systems, VMHAs possess a hybrid conversational flow. These counseling bots need to comprehend various aspects of the conversation, such as dialogue-acts, intents, etc., to engage the client in an effective conversation. Although the surge in digital health research highlights applications of many general-purpose response generation systems, they are barely suitable in the mental health domain -- the prime reason is the lack of understanding in mental health counseling. Moreover, in general, dialogue-act guided response generators are either limited to a template-based paradigm or lack appropriate semantics. To this end, we propose READER -- a REsponse-Act guided reinforced Dialogue genERation model for the mental health counseling conversations. READER is built on transformer to jointly predict a potential dialogue-act d(t+1) for the next utterance (aka response-act) and to generate an appropriate response u(t+1). Through the transformer-reinforcement-learning (TRL) with Proximal Policy Optimization (PPO), we guide the response generator to abide by d(t+1) and ensure the semantic richness of the responses via BERTScore in our reward computation. We evaluate READER on HOPE, a benchmark counseling conversation dataset and observe that it outperforms several baselines across several evaluation metrics -- METEOR, ROUGE, and BERTScore. We also furnish extensive qualitative and quantitative analyses on results, including error analysis, human evaluation, etc.
翻訳日:2023-01-31 15:17:01 公開日:2023-01-30
# マルチステップ推論へ向けた小型言語モデルの特化

Specializing Smaller Language Models towards Multi-Step Reasoning ( http://arxiv.org/abs/2301.12726v1 )

ライセンス: Link先を確認
Yao Fu, Hao Peng, Litu Ou, Ashish Sabharwal and Tushar Khot(参考訳) 大規模言語モデル(LLM)の驚くべき能力は、非常に大規模なモデル(100億以上のパラメータ)にのみ現れると考えられている。 実際、そのような能力は、GPT-3.5(\ge$ 175B)からT5(\le$ 11B)まで蒸留可能である。 対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。 この仮説は、大きなモデル(一般に100B以上と見なされる)は強力なモデリング能力を持つが、多くのタスクに分散しているというものである。 小型モデル(一般的に10B未満と見なされる)はモデル能力に制限があるが、特定の目標タスクに集中すれば、モデルの性能は十分に向上する。 非常に典型的な創発的能力であるため、テストベッドとしてマルチステップの数学的推論を使用します。 モデル能力の2つの重要な側面を示す。 言語モデルの多次元能力の間には非常に複雑なバランス/トレードオフが存在する。 汎用能力の低下に費用を払えば、10b未満のモデルのスケーリング曲線を、特別な多段階数学推論能力へと明確に引き上げることができる。 さらに、チューニングデータフォーマット、開始モデルチェックポイント、新しいモデル選択方法など、より優れた一般化のための重要な設計選択に関する包括的な議論を行う。 LLMが設定した新しい研究パラダイムにおいて、我々の実践と発見が、より小さなモデルを専門化するための重要な試みとなることを願っている。

The surprising ability of Large Language Models (LLMs) to perform well on complex reasoning with only few-shot chain-of-thought prompts is believed to emerge only in very large-scale models (100+ billion parameters). We show that such abilities can, in fact, be distilled down from GPT-3.5 ($\ge$ 175B) to T5 variants ($\le$ 11B). We propose model specialization, to specialize the model's ability towards a target task. The hypothesis is that large models (commonly viewed as larger than 100B) have strong modeling power, but are spread on a large spectrum of tasks. Small models (commonly viewed as smaller than 10B) have limited model capacity, but if we concentrate their capacity on a specific target task, the model can achieve a decent improved performance. We use multi-step math reasoning as our testbed because it is a very typical emergent ability. We show two important aspects of model abilities: (1). there exists a very complex balance/ tradeoff between language models' multi-dimensional abilities; (2). by paying the price of decreased generic ability, we can clearly lift up the scaling curve of models smaller than 10B towards a specialized multi-step math reasoning ability. We further give comprehensive discussions about important design choices for better generalization, including the tuning data format, the start model checkpoint, and a new model selection method. We hope our practice and discoveries can serve as an important attempt towards specialized smaller models in the new research paradigm set by LLMs.
翻訳日:2023-01-31 15:16:27 公開日:2023-01-30
# 電子相関の測定。 対称性と軌道変換の影響

Measuring Electron Correlation. The Impact of Symmetry and Orbital Transformations ( http://arxiv.org/abs/2301.12807v1 )

ライセンス: Link先を確認
R\'obert Izs\'ak, Aleksei V Ivanov, Nick S. Blunt, Nicole Holzmann, Frank Neese(参考訳) この観点から、波動関数理論、密度汎関数理論、量子情報理論で用いられる強い相関の様々な尺度を概観する。 次に、完全な構成ソリューションにおける支配的な重みに基づくより伝統的なメトリックに注目し、n$-electronと1電子基底の選択に関してその振る舞いについて論じる。 対称性の影響を議論し, 基準関数としての行列式, 構成状態関数, 構成の区別が有用であることを強調し, 後者は基準関数にスピンカップリングを組み込むため, 波動関数展開の複雑さを低減する必要がある。 単一決定因子, 単一スピンカップリング, 単一構成波動関数の対応する概念を考察し, 簡単なモデルシステムを用いて, 多参照文字に対する軌道回転の影響を考察した。 分子系では、相関効果の程度は有限の系の大きさで制限され、多くの場合、1電子と$N$電子の適切な選択はこれらを低複素度参照関数(通常は単一の構成関数)に組み込むことができる。

In this perspective, the various measures of strong correlation used in wavefunction theory, density functional theory and quantum information theory are briefly reviewed. We then focus on a more traditional metric based on dominant weights in the full configuration solution and discuss its behaviour with respect to the choice of the $N$-electron and the one-electron basis. The impact of symmetry is discussed and we emphasize that the distinction between determinants, configuration state functions and configurations as reference functions is useful because the latter incorporate spin-coupling into the reference and should thus reduce the complexity of the wavefunction expansion. The corresponding notions of single determinant, single spin-coupling and single configuration wavefunctions are discussed and the effect of orbital rotations on the multireference character is reviewed by analysing a simple model system. In molecular systems, the extent of correlation effects should be limited by finite system size and in most cases the appropriate choices of one-electron and $N$-electron bases should be able to incorporate these into a low-complexity reference function, often a single configurational one.
翻訳日:2023-01-31 15:10:01 公開日:2023-01-30
# EDSA-Ensemble:イベント検出センシティメント分析アンサンブルアーキテクチャ

EDSA-Ensemble: an Event Detection Sentiment Analysis Ensemble Architecture ( http://arxiv.org/abs/2301.12805v1 )

ライセンス: Link先を確認
Alexandru Petrescu and Ciprian-Octavian Truic\u{a} and Elena-Simona Apostol and Adrian Paschke(参考訳) グローバルなデジタル化が進むにつれ、テクノロジーはより安価で使いやすくなり、ソーシャルメディアプラットフォームは成長し、情報やニュースを広める新しい手段となった。 コミュニティは現在のイベントの共有と議論を中心に構築されている。 これらのコミュニティ内では、各イベントに関する意見を共有できる。 Sentiment Analysisを使って、イベントに属する各メッセージの極性やイベント全体を理解することで、オンラインソーシャルネットワークにおける重要なトレンドやダイナミクスに関する一般的な感情や個人の感情をよりよく理解することができます。 そこで本稿では,イベント検出と検出分析を用いて,ソーシャルメディアから現在起きているイベントの極性の検出を改善する,新たなアンサンブルアーキテクチャであるEDSA-Ensembleを提案する。 イベント検出には,時間スパンとトピックの両方を考慮した情報拡散に基づく手法を用いる。 各イベントの極性を検出するために、テキストを前処理し、複数の機械学習モデルとディープラーニングモデルを用いてアンサンブルモデルを作成する。 前処理ステップは、いくつかのワード表現モデル、すなわち、raw周波数、tfidf、word2vec、transformerを含む。 提案したEDSA-Ensembleアーキテクチャは、個々の機械学習モデルとディープラーニングモデルに対するイベント感情分類を改善する。

As global digitization continues to grow, technology becomes more affordable and easier to use, and social media platforms thrive, becoming the new means of spreading information and news. Communities are built around sharing and discussing current events. Within these communities, users are enabled to share their opinions about each event. Using Sentiment Analysis to understand the polarity of each message belonging to an event, as well as the entire event, can help to better understand the general and individual feelings of significant trends and the dynamics on online social networks. In this context, we propose a new ensemble architecture, EDSA-Ensemble (Event Detection Sentiment Analysis Ensemble), that uses Event Detection and Sentiment Analysis to improve the detection of the polarity for current events from Social Media. For Event Detection, we use techniques based on Information Diffusion taking into account both the time span and the topics. To detect the polarity of each event, we preprocess the text and employ several Machine and Deep Learning models to create an ensemble model. The preprocessing step includes several word representation models, i.e., raw frequency, TFIDF, Word2Vec, and Transformers. The proposed EDSA-Ensemble architecture improves the event sentiment classification over the individual Machine and Deep Learning models.
翻訳日:2023-01-31 15:09:43 公開日:2023-01-30
# 強化学習による多重流行介入の計画

Planning Multiple Epidemic Interventions with Reinforcement Learning ( http://arxiv.org/abs/2301.12802v1 )

ライセンス: Link先を確認
Anh Mai and Nikunj Gupta and Azza Abouzied and Dennis Shasha(参考訳) 流行と戦うには、マスク着用義務、ワクチン接種、学校または職場の閉鎖など、さまざまな介入をいつどのように適用するかを記述する計画を見つけることが必要となる。 最善の計画では、命の喪失、病気の負担、経済的コストを最小限に抑えることができる。 最適な計画を見つけることは現実的な設定における難解な計算問題である。 しかし、政策立案者は、特に連続的かつ等しく複雑な状態空間が与えられた連続的かつ複雑な行動空間に対する複数の介入を考える場合、病気や経済的コストを最小限に抑える計画を効率的に探すことができるツールの恩恵を大いに受けるだろう。 この問題をマルコフ決定過程として定式化する。 我々の定式化は、通常の微分方程式によって定義されるあらゆる疾患モデルに対する複数の連続的な介入を表現する能力においてユニークなものである。 本稿では,PPO と SAC を有効に適用して,全体的なコストを最小化する計画の探索を行う方法について述べる。 我々は,これらのアルゴリズムの学習性能を実証的に評価し,その性能を政策立案者による計画の模倣した手作りベースラインと比較する。 私たちの手法はベースラインを上回ります。 我々の研究は,政策立案者支援のための計算手法の有効性を確認した

Combating an epidemic entails finding a plan that describes when and how to apply different interventions, such as mask-wearing mandates, vaccinations, school or workplace closures. An optimal plan will curb an epidemic with minimal loss of life, disease burden, and economic cost. Finding an optimal plan is an intractable computational problem in realistic settings. Policy-makers, however, would greatly benefit from tools that can efficiently search for plans that minimize disease and economic costs especially when considering multiple possible interventions over a continuous and complex action space given a continuous and equally complex state space. We formulate this problem as a Markov decision process. Our formulation is unique in its ability to represent multiple continuous interventions over any disease model defined by ordinary differential equations. We illustrate how to effectively apply state-of-the-art actor-critic reinforcement learning algorithms (PPO and SAC) to search for plans that minimize overall costs. We empirically evaluate the learning performance of these algorithms and compare their performance to hand-crafted baselines that mimic plans constructed by policy-makers. Our method outperforms baselines. Our work confirms the viability of a computational approach to support policy-makers
翻訳日:2023-01-31 15:09:23 公開日:2023-01-30
# 多段階マルウェアの行動報告

Behavioural Reports of Multi-Stage Malware ( http://arxiv.org/abs/2301.12800v1 )

ライセンス: Link先を確認
Marcus Carpenter, Chunbo Luo(参考訳) マルウェアによる大規模な被害は、新たな脅威を防ぐために、マルウェア対策システムを継続的に改善する必要がある。 マルウェア検出の現在のトレンドは、分類プロセスを支援するために機械学習モデルを採用することだ。 本稿では,現在のアンチマルウェアシステムの改善を目的とした新しいデータセットを提案する。 このデータセットの焦点は、Windows 10仮想マシンで実行される数千のマルウェアサンプルに対してAPIコールシーケンスを提供することで、ホストベースの侵入検知システムを改善することである。 このデータセットの作成と拡張のチュートリアルと、このデータセットを使用してマルウェアを分類する方法を示すベンチマークが提供されている。 データには各サンプルに対するapi呼び出しの長いシーケンスが含まれており、リソース制約のあるデバイスにデプロイ可能なモデルを作成するために、3つの機能選択方法がテストされた。 しかし、主な革新は、その悪意のある振る舞いを記述する複数のラベルで1つのAPIシーケンスをタグ付けできるマルチラベル分類システムにある。

The extensive damage caused by malware requires anti-malware systems to be constantly improved to prevent new threats. The current trend in malware detection is to employ machine learning models to aid in the classification process. We propose a new dataset with the objective of improving current anti-malware systems. The focus of this dataset is to improve host based intrusion detection systems by providing API call sequences for thousands of malware samples executed in Windows 10 virtual machines. A tutorial on how to create and expand this dataset is provided along with a benchmark demonstrating how to use this dataset to classify malware. The data contains long sequences of API calls for each sample, and in order to create models that can be deployed in resource constrained devices, three feature selection methods were tested. The principal innovation, however, lies in the multi-label classification system in which one sequence of APIs can be tagged with multiple labels describing its malicious behaviours.
翻訳日:2023-01-31 15:09:03 公開日:2023-01-30
# 注意度検出のための眼球閉鎖率推定のための眼球画像に基づくアルゴリズム

Eye Image-based Algorithms to Estimate Percentage Closure of Eye and Saccadic Ratio for Alertness Detection ( http://arxiv.org/abs/2301.12799v1 )

ライセンス: Link先を確認
Supratim Gupta(参考訳) 現在の研究は2つの新しいアルゴリズムを開発しており、画像に基づく眼球運動のパーセンテージ・クロージャー測定とサッカディック・ラティオ・SRである。 PERCLOSは相関フィルタに基づく手法により推定される。 グレースケールと近赤外線感度カメラと受動NIRイルミネーターの革新的な組み合わせは、既存の技術よりも高い精度を実現するのに役立つ。 虹彩中心と眼角の検出のための2つの新しい技術が開発されている。 本稿では,虹彩位置を求めるためのフォームファクターという指標を提案する。 拡張カルマンフィルタなどの標準追跡アルゴリズムを用いて,虹彩位置の時間的情報からサッカック速度プロファイルを推定できる。 実験結果から,SRとPERCLOSの双方を推定することにより,操作者の警戒度低下から疲労までの警戒度を予測できることがわかった。

The current research work has developed two novel algorithms for image-based measurement of Percentage Closure of Eyes-PERCLOS and Saccadic Ratio-SR. The PERCLOS is estimated by correlation filter-based technique. An innovative combination of gray scale and Near Infrared sensitive camera with passive NIR illuminator helps to achieve higher accuracy than the existing art. Two novel techniques have been developed for the detection of iris centre and eye corners. We propose an index called Form Factor to find the iris position. The saccadic velocity profile can be estimated from the temporal information of the iris positions using standard tracking algorithm such as Extended Kalman filter. Experimental results indicate that the estimation of both SR and PERCLOS can predict the level of alertness of an operator from onset of diminished alertness to fatigue.
翻訳日:2023-01-31 15:08:50 公開日:2023-01-30
# trfeddis:非iidドメイン機能のための信頼連合分散ネットワーク

TrFedDis: Trusted Federated Disentangling Network for Non-IID Domain Feature ( http://arxiv.org/abs/2301.12798v1 )

ライセンス: Link先を確認
Meng Wang, Kai Yu, Chun-Mei Feng, Yiming Qian, Ke Zou, Lianyu Wang, Rick Siow Mong Goh, Xinxing Xu, Yong Liu, Huazhu Fu(参考訳) 効果的な分散学習アプローチとしてのフェデレートラーニング(FL)は、複数の機関がローカルデータを共有せずにモデルを共同で訓練することを可能にする。 しかし、異なる取得装置/クライアントによるドメインの特徴シフトはFLモデルの性能を著しく低下させる。 さらに、既存のflアプローチの多くは、信頼性(信頼性や不確実性など)を考慮せずに精度を向上させることを目的としている。 したがって、安全クリティカルなアプリケーションにデプロイすると、予測は信頼できない。 したがって、モデルをより信頼性の高いものにしながら、非ドメイン機能問題におけるflの性能向上を目指す。 本稿では,trfeddisと呼ばれる,グローバルドメイン不変のクロスクライアント表現をキャプチャし,局所的なクライアント特化特徴学習を保持可能な,信頼結合型分散ネットワークを提案する。 また,分離された特徴を効果的に統合するために,不確実性を考慮した決定融合を導入することで,不確実性を推定した信頼性の高い予測を行うとともに,分離された特徴をエビデンスレベルで動的に統合する手法を提案する。 我々の知る限り、提案するTrFedDisは、明らかに不確実性に基づくFLアプローチを開発するための最初の試みであり、非IID領域の特徴におけるFLの性能と信頼性を高める。 提案するTrFedDisは,他の最先端FL手法と比較して,信頼性の高い優れた性能を実現している。

Federated learning (FL), as an effective decentralized distributed learning approach, enables multiple institutions to jointly train a model without sharing their local data. However, the domain feature shift caused by different acquisition devices/clients substantially degrades the performance of the FL model. Furthermore, most existing FL approaches aim to improve accuracy without considering reliability (e.g., confidence or uncertainty). The predictions are thus unreliable when deployed in safety-critical applications. Therefore, aiming at improving the performance of FL in non-Domain feature issues while enabling the model more reliable. In this paper, we propose a novel trusted federated disentangling network, termed TrFedDis, which utilizes feature disentangling to enable the ability to capture the global domain-invariant cross-client representation and preserve local client-specific feature learning. Meanwhile, to effectively integrate the decoupled features, an uncertainty-aware decision fusion is also introduced to guide the network for dynamically integrating the decoupled features at the evidence level, while producing a reliable prediction with an estimated uncertainty. To the best of our knowledge, our proposed TrFedDis is the first work to develop an FL approach based on evidential uncertainty combined with feature disentangling, which enhances the performance and reliability of FL in non-IID domain features. Extensive experimental results show that our proposed TrFedDis provides outstanding performance with a high degree of reliability as compared to other state-of-the-art FL approaches.
翻訳日:2023-01-31 15:08:37 公開日:2023-01-30
# Point-to-Plane Scale ICPによるトラッキングとマルチセンサ登録のための指向性TSDFのレンダリング

Rendering the Directional TSDF for Tracking and Multi-Sensor Registration with Point-To-Plane Scale ICP ( http://arxiv.org/abs/2301.12796v1 )

ライセンス: Link先を確認
Malte Splietker and Sven Behnke(参考訳) RGB-D画像からの高密度リアルタイムトラッキングとマッピングは、ナビゲーションや操作など、多くのロボットアプリケーションにとって重要なツールである。 最近発表された Directional Truncated Signed Distance Function (DTSDF) は、通常のTSDFの拡張であり、よりコヒーレントなマップの可能性と追跡性能の向上を示している。 本研究では,DTSDFから深度や色を描画する手法を提案する。 本手法は,確立されたデータセット上でのアルゴリズムの評価を行い,追跡性能の向上とマップされたシーンの再使用性の向上を検証した。 さらに,隣り合う面の色補正性が向上する色統合も追加する。 提案手法は, フレーム対キーフレームの光量誤差を最小化し, 追尾精度をさらに向上させる。 最後に、異なるスケール因子を持つマルチセンサーシナリオにおいて、ポーズ前処理のためのSim3ポイントツープレーンICPを紹介する。

Dense real-time tracking and mapping from RGB-D images is an important tool for many robotic applications, such as navigation and manipulation. The recently presented Directional Truncated Signed Distance Function (DTSDF) is an augmentation of the regular TSDF that shows potential for more coherent maps and improved tracking performance. In this work, we present methods for rendering depth- and color images from the DTSDF, making it a true drop-in replacement for the regular TSDF in established trackers. We evaluate the algorithm on well-established datasets and observe that our method improves tracking performance and increases re-usability of mapped scenes. Furthermore, we add color integration which notably improves color-correctness at adjacent surfaces. Our novel formulation of combined ICP with frame-to-keyframe photometric error minimization further improves tracking results. Lastly, we introduce Sim3 point-to-plane ICP for refining pose priors in a multi-sensor scenario with different scale factors.
翻訳日:2023-01-31 15:08:14 公開日:2023-01-30
# 重み空間における学習のための等価なアーキテクチャ

Equivariant Architectures for Learning in Deep Weight Spaces ( http://arxiv.org/abs/2301.12780v1 )

ライセンス: Link先を確認
Aviv Navon, Aviv Shamsian, Idan Achituve, Ethan Fetaya, Gal Chechik, Haggai Maron(参考訳) ニューラルネットワークを生重量行列形式で処理するための機械学習アーキテクチャの設計は、新しく導入された研究方向である。 残念ながら、深い重み空間のユニークな対称性構造は、この設計を非常に困難にしている。 このようなアーキテクチャが成功すれば、トレーニング済みのネットワークを新しいドメインに適応させることから、関数として表現されるオブジェクト(INRやNeRF)の編集まで、幅広い興味深いタスクを実行できるようになるだろう。 この目標に向けての第一歩として、深層空間で学習するための新しいネットワークアーキテクチャを提案する。 これは、事前訓練されたMLPの重みとバイアスの結合を入力として取り、MLPの重みの自然な置換対称性に同値なレイヤーの合成を用いて処理する: MLPの中間層におけるニューロンの順序を変えることは、その表現する機能に影響を与えない。 これらの対称性に対する全てのアフィン同変層と不変層をフルに評価し、これらの層を3つの基本的な操作(プーリング、ブロードキャスト、完全に接続された層)を用いて適切に実装する方法を示す。 我々は,様々な学習タスクにおいて,自然ベースラインに対するアーキテクチャの有効性とそのアドバンテージを実証する。

Designing machine learning architectures for processing neural networks in their raw weight matrix form is a newly introduced research direction. Unfortunately, the unique symmetry structure of deep weight spaces makes this design very challenging. If successful, such architectures would be capable of performing a wide range of intriguing tasks, from adapting a pre-trained network to a new domain to editing objects represented as functions (INRs or NeRFs). As a first step towards this goal, we present here a novel network architecture for learning in deep weight spaces. It takes as input a concatenation of weights and biases of a pre-trained MLP and processes it using a composition of layers that are equivariant to the natural permutation symmetry of the MLP's weights: Changing the order of neurons in intermediate layers of the MLP does not affect the function it represents. We provide a full characterization of all affine equivariant and invariant layers for these symmetries and show how these layers can be implemented using three basic operations: pooling, broadcasting, and fully connected layers applied to the input in an appropriate manner. We demonstrate the effectiveness of our architecture and its advantages over natural baselines in a variety of learning tasks.
翻訳日:2023-01-31 15:07:58 公開日:2023-01-30
# Android マルウェア検出における特徴とモデルの重要性に関する総合的研究

A Comprehensive Investigation of Feature and Model Importance in Android Malware Detection ( http://arxiv.org/abs/2301.12778v1 )

ライセンス: Link先を確認
Ali Muzaffar, Hani Ragab Hassen, Hind Zantout, Michael A Lones(参考訳) androidの人気と比較的オープン性は、マルウェアのターゲットとして人気が高いことを意味する。 長年にわたり、機械学習モデルがマルウェアと良性アプリケーションを効果的に区別できることが、さまざまな研究で示されている。 しかし、オペレーティングシステムが進化するにつれて、マルウェアも同様になり、これらの研究の結果に疑問が持たれ、その多くは小さく、時代遅れで、しばしば不均衡なデータセットを使用していた。 本稿では,16の代表的な過去の作業を再実装し,124,000のandroidアプリケーションからなる,バランスの取れた,関連性の高い,最新のデータセット上で評価する。 また,既存の知識の穴を埋めるための新たな実験を行い,現在の環境におけるandroidマルウェア検出に最も有効な機能やモデルを特定する。 その結果、静的機能だけで最大96.8%の精度を達成することができ、さらに1%はより高価な動的解析手法で達成できることが示唆された。 apiコールとtcpネットワークトラフィック機能から構築した、ランダムフォレストとして最高のモデルを見出す。

The popularity and relative openness of Android means it is a popular target for malware. Over the years, various studies have found that machine learning models can effectively discriminate malware from benign applications. However, as the operating system evolves, so does malware, bringing into question the findings of these previous studies, many of which used small, outdated, and often imbalanced datasets. In this paper, we reimplement 16 representative past works and evaluate them on a balanced, relevant and up-to-date dataset comprising 124,000 Android applications. We also carry out new experiments designed to fill holes in existing knowledge, and use our findings to identify the most effective features and models to use for Android malware detection within a contemporary environment. Our results suggest that accuracies of up to 96.8% can be achieved using static features alone, with a further 1% achievable using more expensive dynamic analysis approaches. We find the best models to be random forests built from API call usage and TCP network traffic features.
翻訳日:2023-01-31 15:07:38 公開日:2023-01-30
# PAC-Bayesian Soft Actor-Critic Learning

PAC-Bayesian Soft Actor-Critic Learning ( http://arxiv.org/abs/2301.12776v1 )

ライセンス: Link先を確認
Bahareh Tasdighi, Abdullah Akg\"ul, Kenny Kazimirzak Brink, Melih Kandemir(参考訳) アクター批判アルゴリズムは2つの関数近似器を通して強化学習、政策評価、改善という2つの目標に対処する。 このアプローチの実用性は、主に俳優に対する批評家の近似誤差の破壊的影響によって引き起こされるトレーニング不安定さを犠牲にしている。 我々は,このボトルネックに,Soft Actor-Critic (SAC) アルゴリズムの批判的トレーニング目標として,既存の確率的近似(PAC)ベイズ境界を用いる。 さらに,確率的俳優が批判的指示によるランダム検索によって複数の未来を探索すると,オンライン学習性能が著しく向上することを示す。 その結果得られたアルゴリズムを,サンプル効率と漸近的性能の両方において,複数の古典的制御とロコモーションタスクの技術と好適に比較した。

Actor-critic algorithms address the dual goals of reinforcement learning, policy evaluation and improvement, via two separate function approximators. The practicality of this approach comes at the expense of training instability, caused mainly by the destructive effect of the approximation errors of the critic on the actor. We tackle this bottleneck by employing an existing Probably Approximately Correct (PAC) Bayesian bound for the first time as the critic training objective of the Soft Actor-Critic (SAC) algorithm. We further demonstrate that the online learning performance improves significantly when a stochastic actor explores multiple futures by critic-guided random search. We observe our resulting algorithm to compare favorably to the state of the art on multiple classical control and locomotion tasks in both sample efficiency and asymptotic performance.
翻訳日:2023-01-31 15:07:21 公開日:2023-01-30
# システム同定のための深層ネットワーク:調査

Deep networks for system identification: a Survey ( http://arxiv.org/abs/2301.12832v1 )

ライセンス: Link先を確認
Gianluigi Pillonetto, Aleksandr Aravkin, Daniel Gedon, Lennart Ljung, Ant\^onio H. Ribeiro, Thomas B. Sch\"on(参考訳) ディープラーニングは、現在かなりの関心を集めているトピックです。 大量のデータ収集と強力なソフトウェアリソースが利用可能になったことで、多くのアプリケーション領域において、観測の本質的だが隠された性質が明らかになった。 システム識別は入力出力データから動的システムの数学的記述を学習し、そこから選択できるモデルの範囲を拡大するディープニューラルネットワークの進歩の恩恵を受けることができる。 そこで,本研究では,システム同定の観点からの深層学習に関する調査を行う。 我々は、研究者が方法を理解するための幅広いトピックをカバーし、それらを使用するメリットと課題に対する厳密な実践的かつ理論的洞察を提供する。 同定されたモデルの主な目的は、以前の観測から新しいデータを予測することである。 これは、異なるディープラーニングベースのモデリング技術で実現可能であり、フィードフォワード、畳み込み、再帰的ネットワークといった文献で広く採用されているアーキテクチャについて議論する。 予測性能を最適化しようとする過去のデータからパラメータを推定する必要がある。 そこで本研究では,効率的な一階最適化ツールのセットについて論じる。 調査はその後、カーネルベースメソッドのよく研究された領域への接続を引き出す。 それらは、事前の仮定と一致しないモデルをペナライズする正規化項によって適合するデータを制御する。 より深いカーネルベースの手法を得るために、それらをディープアーキテクチャにキャストする方法を説明する。 深層学習の成功はまた、多くのパラメータを持つモデルの反直観的行動のような驚くべき経験的観察をもたらした。 我々は、カーネルへの接続を含む過パラメータ化モデルの役割と、一般化に影響を及ぼす暗黙の正則化機構、特に良性過剰適合の興味深い現象について論じる。

Deep learning is a topic of considerable current interest. The availability of massive data collections and powerful software resources has led to an impressive amount of results in many application areas that reveal essential but hidden properties of the observations. System identification learns mathematical descriptions of dynamic systems from input-output data and can thus benefit from the advances of deep neural networks to enrich the possible range of models to choose from. For this reason, we provide a survey of deep learning from a system identification perspective. We cover a wide spectrum of topics to enable researchers to understand the methods, providing rigorous practical and theoretical insights into the benefits and challenges of using them. The main aim of the identified model is to predict new data from previous observations. This can be achieved with different deep learning based modelling techniques and we discuss architectures commonly adopted in the literature, like feedforward, convolutional, and recurrent networks. Their parameters have to be estimated from past data trying to optimize the prediction performance. For this purpose, we discuss a specific set of first-order optimization tools that is emerged as efficient. The survey then draws connections to the well-studied area of kernel-based methods. They control the data fit by regularization terms that penalize models not in line with prior assumptions. We illustrate how to cast them in deep architectures to obtain deep kernel-based methods. The success of deep learning also resulted in surprising empirical observations, like the counter-intuitive behaviour of models with many parameters. We discuss the role of overparameterized models, including their connection to kernels, as well as implicit regularization mechanisms which affect generalization, specifically the interesting phenomena of benign overfitting ...
翻訳日:2023-01-31 15:01:31 公開日:2023-01-30
# M3FAS:正確でロバストなマルチモーダル・モバイル・フェイス・アンチ・スプーフィングシステム

M3FAS: An Accurate and Robust MultiModal Mobile Face Anti-Spoofing System ( http://arxiv.org/abs/2301.12831v1 )

ライセンス: Link先を確認
Chenqi Kong, Kexin Zheng, Yibing Liu, Shiqi Wang, Anderson Rocha, Haoliang Li(参考訳) フェース・スプーフィング(face spoofing)としても知られるフェイス・プレゼンテーション・アタック(FPA)は、金融詐欺やプライバシー侵害など様々な悪意あるアプリケーションを通じて、公衆の懸念を高めている。 したがって、FPAに対する顔認識システムの保護が最も重要である。 既存の学習ベースフェース・スプーフィング(FAS)モデルは優れた検出性能を達成できるが、一般化能力が欠如し、予期せぬ環境下での大幅な性能低下を被る。 多くの方法論は、この制限に対処するために、プレゼンテーションアタック検出(PAD)において補助モダリティデータ(例えば、深さと赤外線マップ)を使用する。 しかし,これらの手法は,(1)コモディティなモバイルデバイスではめったに利用できない深度カメラや赤外線カメラなどの特定のセンサーを必要とすること,(2)モダリティの欠如や品質の低下など,現実的なシナリオでは適切に動作できないこと,などによって制限される。 本稿では,M3FASというマルチモーダル・モバイル・フェイス・アンチ・スポーフィング・システムを開発した。 本研究の革新は, 強靭なPADを実現するために, カメラ, スピーカ, マイクの3つの広範に利用可能なセンサを用いて, 視覚と聴覚のモダリティを組み合わせること, 2) 3つの階層的特徴集約モジュールを備えた新しい2分岐ニューラルネットワークを設計し, クロスモーダルな特徴融合を実現すること, (3) マルチヘッドトレーニング戦略を提案する。 このモデルは視覚、音響、融合ヘッドから3つの予測を出力し、より柔軟なPADを可能にする。 様々な挑戦的な実験環境下で、M3FASの精度、堅牢性、柔軟性を実証した。

Face presentation attacks (FPA), also known as face spoofing, have brought increasing concerns to the public through various malicious applications, such as financial fraud and privacy leakage. Therefore, safeguarding face recognition systems against FPA is of utmost importance. Although existing learning-based face anti-spoofing (FAS) models can achieve outstanding detection performance, they lack generalization capability and suffer significant performance drops in unforeseen environments. Many methodologies seek to use auxiliary modality data (e.g., depth and infrared maps) during the presentation attack detection (PAD) to address this limitation. However, these methods can be limited since (1) they require specific sensors such as depth and infrared cameras for data capture, which are rarely available on commodity mobile devices, and (2) they cannot work properly in practical scenarios when either modality is missing or of poor quality. In this paper, we devise an accurate and robust MultiModal Mobile Face Anti-Spoofing system named M3FAS to overcome the issues above. The innovation of this work mainly lies in the following aspects: (1) To achieve robust PAD, our system combines visual and auditory modalities using three pervasively available sensors: camera, speaker, and microphone; (2) We design a novel two-branch neural network with three hierarchical feature aggregation modules to perform cross-modal feature fusion; (3). We propose a multi-head training strategy. The model outputs three predictions from the vision, acoustic, and fusion heads, enabling a more flexible PAD. Extensive experiments have demonstrated the accuracy, robustness, and flexibility of M3FAS under various challenging experimental settings.
翻訳日:2023-01-31 15:01:08 公開日:2023-01-30
# 工業4.0 フィッシャーテクニクモデル環境におけるYOLOに基づく物体検出

YOLO-based Object Detection in Industry 4.0 Fischertechnik Model Environment ( http://arxiv.org/abs/2301.12827v1 )

ライセンス: Link先を確認
Slavomira Schneidereit, Ashkan Mansouri Yarahmadi, Toni Schneidereit, Michael Breu{\ss}, Marc Gebauer(参考訳) 本稿では,Fischertechnik 業界 4.0 アプリケーション間のプロセスフローを監視する YOLO アーキテクチャの適合性について概説する。 具体的には、サイズと複雑性設計の点で異なるYOLOアーキテクチャと、異なる事前割り当て戦略を採用する。 実世界の工場環境をシミュレートするため、さまざまな歪みを付加したリッチデータセットを作成し、画像品質を高度に向上し、場合によっては劣化させる。 劣化は環境の変化を考慮し、データセットの準備中に直面する色相関を補うために行われる。 実験結果から,提案手法の有効性と,課題が自然に受け継がれている不可避な色彩相関に対処するために調整した訓練・検証戦略が示唆された。

In this paper we extensively explore the suitability of YOLO architectures to monitor the process flow across a Fischertechnik industry 4.0 application. Specifically, different YOLO architectures in terms of size and complexity design along with different prior-shapes assignment strategies are adopted. To simulate the real world factory environment, we prepared a rich dataset augmented with different distortions that highly enhance and in some cases degrade our image qualities. The degradation is performed to account for environmental variations and enhancements opt to compensate the color correlations that we face while preparing our dataset. The analysis of our conducted experiments shows the effectiveness of the presented approach evaluated using different measures along with the training and validation strategies that we tailored to tackle the unavoidable color correlations that the problem at hand inherits by nature.
翻訳日:2023-01-31 15:00:13 公開日:2023-01-30
# Bayesian $m$-top Exploring を用いた COVID-19 ワクチン割当政策の評価

Evaluating COVID-19 vaccine allocation policies using Bayesian $m$-top exploration ( http://arxiv.org/abs/2301.12822v1 )

ライセンス: Link先を確認
Alexandra Cimpean, Timothy Verstraeten, Lander Willem, Niel Hens, Ann Now\'e, Pieter Libin(参考訳) 個人ベースの疫学モデルは、シリコにおけるワクチン割り当てポリシーの調整など、きめ細かい予防策の研究を支援する。 個人ベースのモデルは計算量が多いため、合理的な計算予算内で最適な戦略を特定することが重要である。 また、予防戦略の実施に伴う社会的影響が大きいため、決定に関する不確実性は、自然にベイズ的アプローチに組み込まれている政策立案者に伝えられるべきである。 本稿では,ベイジアン・オン・トップ探索アルゴリズムと組み合わせたマルチアーム・バンディット・フレームワークを用いたワクチン配置戦略の評価手法を提案する。 m$-top explorationは、アルゴリズムが最高のユーティリティを期待する$m$ポリシーを学習することができ、専門家は、定量化された不確実性とともに、この小さな代替戦略を検査することができる。 任意のコンポーネントは、計算時間と望ましい信頼性に関する柔軟性を備えたポリシーアドバイザを提供します。 ベルギーのCOVID-19流行を個人モデルSTRIDEを用いて検討し,感染数や入院回数を最小限に抑える予防接種方針のセットを学習した。 実験により,本手法は,基礎的真理が利用できるシナリオで検証された$m$-topポリシーを効率的に識別できることを示す。 最後に, 異なる接触削減方式で予防接種政策を編成する方法について検討する。 これらの実験を通して, 最上位の政策は, 予防接種キャンペーンの先駆けとして, 優先年齢群と接種種型に関する明確な傾向を示す。

Individual-based epidemiological models support the study of fine-grained preventive measures, such as tailored vaccine allocation policies, in silico. As individual-based models are computationally intensive, it is pivotal to identify optimal strategies within a reasonable computational budget. Moreover, due to the high societal impact associated with the implementation of preventive strategies, uncertainty regarding decisions should be communicated to policy makers, which is naturally embedded in a Bayesian approach. We present a novel technique for evaluating vaccine allocation strategies using a multi-armed bandit framework in combination with a Bayesian anytime $m$-top exploration algorithm. $m$-top exploration allows the algorithm to learn $m$ policies for which it expects the highest utility, enabling experts to inspect this small set of alternative strategies, along with their quantified uncertainty. The anytime component provides policy advisors with flexibility regarding the computation time and the desired confidence, which is important as it is difficult to make this trade-off beforehand. We consider the Belgian COVID-19 epidemic using the individual-based model STRIDE, where we learn a set of vaccination policies that minimize the number of infections and hospitalisations. Through experiments we show that our method can efficiently identify the $m$-top policies, which is validated in a scenario where the ground truth is available. Finally, we explore how vaccination policies can best be organised under different contact reduction schemes. Through these experiments, we show that the top policies follow a clear trend regarding the prioritised age groups and assigned vaccine type, which provides insights for future vaccination campaigns.
翻訳日:2023-01-31 15:00:00 公開日:2023-01-30
# エアコンプレッサー管理問題におけるホットスタート強化学習への複数のポリシーの伝達

Transferring Multiple Policies to Hotstart Reinforcement Learning in an Air Compressor Management Problem ( http://arxiv.org/abs/2301.12820v1 )

ライセンス: Link先を確認
H\'el\`ene Plisnier, Denis Steckelmacher, Jeroen Willems, Bruno Depraetere, Ann Now\'e(参考訳) 同様の、あるいはほぼ同一の産業機械やツールの例の多くは、一度に、あるいは短時間にデプロイされることが多い。 例えば、特定の空気圧縮機を数百の顧客に設置することができる。 これらのツールは、異なるが非常によく似たタスクを実行するので、すでに1.99ドルで製造されているコントローラーを考えると、マシン用の高品質なコントローラを迅速に作成できることは興味深い。 N$。 トレーニングには時間やエネルギー、その他のリソースを要するため、強化学習を通じてコントローラが学習される場合、これはさらに重要です。 本稿では, 政策形成手法であるポリシ・インターセクションを適用し, 強化学習エージェントが, 以前に学習した複数のコントローラから知識を伝達することで, 圧縮機制御問題の新たな変種を迅速に解くのを支援する。 我々のアプローチは古いコントローラのロードよりも優れており、長期的にはパフォーマンスが大幅に向上している。

Many instances of similar or almost-identical industrial machines or tools are often deployed at once, or in quick succession. For instance, a particular model of air compressor may be installed at hundreds of customers. Because these tools perform distinct but highly similar tasks, it is interesting to be able to quickly produce a high-quality controller for machine $N+1$ given the controllers already produced for machines $1..N$. This is even more important when the controllers are learned through Reinforcement Learning, as training takes time, energy and other resources. In this paper, we apply Policy Intersection, a Policy Shaping method, to help a Reinforcement Learning agent learn to solve a new variant of a compressors control problem faster, by transferring knowledge from several previously learned controllers. We show that our approach outperforms loading an old controller, and significantly improves performance in the long run.
翻訳日:2023-01-31 14:59:33 公開日:2023-01-30
# テンソルネットワークを用いたガウスボソンサンプリングの複雑性

Complexity of Gaussian boson sampling with tensor networks ( http://arxiv.org/abs/2301.12814v1 )

ライセンス: Link先を確認
Minzhao Liu, Changhun Oh, Junyu Liu, Liang Jiang, Yuri Alexeev(参考訳) 量子超越性を認めると広く信じられている計算モデルであるガウス・ボソンサンプリングは、現在最も強力なスーパーコンピュータでさえも古典的シミュレーション能力を超えることが実験的に実証されている。 しかし、このような実験で光子損失とノイズに制限された現在のアプローチが量子優位へのスケーラブルな道筋を定めているかどうかは、未解決の問題である。 例えば、ゲート毎に一定のノイズを持つランダム回路サンプリングは、量子超越性を達成するためのスケーラブルなアプローチではないことが最近示されているが、中間スケールシステムのシミュレーションは依然として困難である。 ガウスボソンサンプリングのsciabilityに対する光子損失の影響を理解するために、シミュレーション複雑性に関連する漸近作用素の絡み合いエントロピースケーリングを調べるために、u(1)$対称性を持つテンソルネットワークアルゴリズムを用いる。 我々は,最先端ハードウェアアクセラレータによる計算時間を著しく短縮し,より大規模システムのシミュレーションを可能にするカスタム構築アルゴリズムを開発した。 この能力により、ガウスボソンサンプリングにおいて、効率と非効率の古典的シミュレーションの境界を示す入力光子の個数における生き残った光子の数のスケーリングが重要な$N_\text{out}\propto\sqrt{N}$である。 さらに理論上は、これは他の入力状態に対して一般化されるべきである。

Gaussian boson sampling, a computational model that is widely believed to admit quantum supremacy, has already been experimentally demonstrated to surpasses the classical simulation capabilities of even with the most powerful supercomputers today. However, whether the current approach limited by photon loss and noise in such experiments prescribes a scalable path to quantum advantage is an open question. For example, random circuit sampling with constant noise per gate was recently shown not to be a scalable approach to achieve quantum supremacy, although simulating intermediate scale systems is still difficult. To understand the effect of photon loss on the scability of Gaussian boson sampling, we use a tensor network algorithm with $U(1)$ symmetry to examine the asymptotic operator entanglement entropy scaling, which relates to the simulation complexity. We develop a custom-built algorithm that significantly reduces the computational time with state-of-the-art hardware accelerators, enabling simulations of much larger systems. With this capability, we observe, for Gaussian boson sampling, the crucial $N_\text{out}\propto\sqrt{N}$ scaling of the number of surviving photons in the number of input photons that marks the boundary between efficient and inefficient classical simulation. We further theoretically show that this should be general for other input states.
翻訳日:2023-01-31 14:59:19 公開日:2023-01-30
# 逆スライシング生成ネットワーク:1次元最適輸送のための識別器スライス

Adversarially Slicing Generative Networks: Discriminator Slices Feature for One-Dimensional Optimal Transport ( http://arxiv.org/abs/2301.12811v1 )

ライセンス: Link先を確認
Yuhta Takida, Masaaki Imaizumi, Chieh-Hsin Lai, Toshimitsu Uesaka, Naoki Murata, Yuki Mitsufuji(参考訳) generative adversarial networks(gans)は、ミニマックス目的のジェネレータと判別器を最適化することにより、ターゲット確率分布を学習する。 本稿では,そのような最適化が,その分布を目標分布に近づける勾配を生成器に実際に与えるかどうかという問題に対処する。 判別器がganの定式化とスライス最適輸送の概念を結びつけることで、分布間の距離として機能するのに十分な条件を導出する。 さらに,これらの理論結果を活用して,adversarially slicing generative network (asgn) と呼ばれる新しいgan学習手法を提案する。 単純な修正だけで、ASGNは既存のGANの幅広いクラスに適用できる。 合成および画像データセットの実験は、通常のGANと比較して、我々の理論結果とASGNの有効性を支持する。

Generative adversarial networks (GANs) learn a target probability distribution by optimizing a generator and a discriminator with minimax objectives. This paper addresses the question of whether such optimization actually provides the generator with gradients that make its distribution close to the target distribution. We derive sufficient conditions for the discriminator to serve as the distance between the distributions by connecting the GAN formulation with the concept of sliced optimal transport. Furthermore, by leveraging these theoretical results, we propose a novel GAN training scheme, called adversarially slicing generative network (ASGN). With only simple modifications, the ASGN is applicable to a broad class of existing GANs. Experiments on synthetic and image datasets support our theoretical results and the ASGN's effectiveness as compared to usual GANs.
翻訳日:2023-01-31 14:58:52 公開日:2023-01-30
# 言語モデルの内部知識ベースをクローリングする

Crawling the Internal Knowledge-Base of Language Models ( http://arxiv.org/abs/2301.12810v1 )

ライセンス: Link先を確認
Roi Cohen, Mor Geva, Jonathan Berant, Amir Globerson(参考訳) 言語モデルは大量のテキストに基づいて訓練され、その結果、それらのパラメータには重要な事実知識が含まれているかもしれない。 これらのモデルによって実行されるダウンストリームタスクは、これらの事実を暗黙的に構築するので、解釈可能な方法でこの知識の体系を表現する手段を持つことが非常に望ましい。 しかし、現在ではそのような表現のメカニズムは存在しない。 本稿では,与えられた言語モデルから事実の知識グラフを抽出することで,この目標を達成することを提案する。 我々は,言語モデルの内部知識ベースである`crawling'の手続きについて述べる。 具体的には、シードエンティティを前提として、知識グラフを拡張します。 クローリング手順は、精度(すなわち、誤った事実が生成されない)とリコール(すなわち、生成された事実の数)の両方を制御する特別に設計されたプロンプトによって実現されるサブタスクに分解される。 我々は、数十のシードエンティティからクロールしたグラフに対するアプローチを評価し、精度の高いグラフ(82-92%)を出力し、エンティティ毎に妥当な事実を出力することを示した。

Language models are trained on large volumes of text, and as a result their parameters might contain a significant body of factual knowledge. Any downstream task performed by these models implicitly builds on these facts, and thus it is highly desirable to have means for representing this body of knowledge in an interpretable way. However, there is currently no mechanism for such a representation. Here, we propose to address this goal by extracting a knowledge-graph of facts from a given language model. We describe a procedure for ``crawling'' the internal knowledge-base of a language model. Specifically, given a seed entity, we expand a knowledge-graph around it. The crawling procedure is decomposed into sub-tasks, realized through specially designed prompts that control for both precision (i.e., that no wrong facts are generated) and recall (i.e., the number of facts generated). We evaluate our approach on graphs crawled starting from dozens of seed entities, and show it yields high precision graphs (82-92%), while emitting a reasonable number of facts per entity.
翻訳日:2023-01-31 14:58:39 公開日:2023-01-30
# 純16ビット浮動小数点ニューラルネットワークの隠れ電力

The Hidden Power of Pure 16-bit Floating-Point Neural Networks ( http://arxiv.org/abs/2301.12809v1 )

ライセンス: Link先を確認
Juyoung Yun, Byungkon Kang, Zhoulai Fu(参考訳) ニューラルネットワークの精度を32ビットの精度から下げることは、空間と時間の増大にもかかわらず、長い間パフォーマンスに有害であると考えられてきた。 多くの研究が半精度ニューラルネットワークを実装するための様々な手法を提案しているが、純粋な16ビット設定を研究するものはない。 本稿では,32ビットネットワーク上での純粋16ビットニューラルネットワークの性能向上について検討する。 本稿では,様々な16ビットニューラルネットワークの性能と32ビットモデルの性能を比較した実験結果を示す。 さらに、16ビットモデルの効率に関する理論的分析も提供されており、それを裏付ける実証的な証拠と組み合わせることができる。 最後に,低精度トレーニングが本当に有害な状況について論じる。

Lowering the precision of neural networks from the prevalent 32-bit precision has long been considered harmful to performance, despite the gain in space and time. Many works propose various techniques to implement half-precision neural networks, but none study pure 16-bit settings. This paper investigates the unexpected performance gain of pure 16-bit neural networks over the 32-bit networks in classification tasks. We present extensive experimental results that favorably compare various 16-bit neural networks' performance to those of the 32-bit models. In addition, a theoretical analysis of the efficiency of 16-bit models is provided, which is coupled with empirical evidence to back it up. Finally, we discuss situations in which low-precision training is indeed detrimental.
翻訳日:2023-01-31 14:58:21 公開日:2023-01-30
# N-Gram 近傍機械翻訳

N-Gram Nearest Neighbor Machine Translation ( http://arxiv.org/abs/2301.12866v1 )

ライセンス: Link先を確認
Rui Lv, Junliang Guo, Rui Wang, Xu Tan, Qi Liu, Tao Qin(参考訳) 近隣の機械翻訳は、クエリ内のターゲットトークンのトークンレベルのコンテキスト表現とデータストアの類似性を比較することで、$k$-nearest-neighbor検索でAutoregressive Translation~(AT)を増強する。 しかし、トークンレベルの表現は曖昧な単語を翻訳する場合にノイズを発生させるか、モデルによって生成された表現が区別できない文脈情報を含む場合、例えば非自己回帰翻訳~(nat)モデルを含む場合、正確な検索結果を提供することができない。 本稿では,atモデルとnatモデルの両方に適用可能な,モデルに依存しない新しいn$-gram近傍探索法を提案する。 具体的には、隣接する$n$-gramの隠れ表現をキーとし、対応するターゲットトークンのタプルを値とします。 推論では,それぞれatモデルとnatモデルのための最適化復号アルゴリズムを提案する。 提案手法は,ATモデルおよびNATモデルおよびドメイン適応変換タスクにおいて,トークンレベル法よりも一貫して優れていることを示す。 ドメイン適応では、提案手法はatモデルとnatモデルの平均bleuスコアに関してそれぞれ1.03$と2.76$の改善をもたらす。

Nearest neighbor machine translation augments the Autoregressive Translation~(AT) with $k$-nearest-neighbor retrieval, by comparing the similarity between the token-level context representations of the target tokens in the query and the datastore. However, the token-level representation may introduce noise when translating ambiguous words, or fail to provide accurate retrieval results when the representation generated by the model contains indistinguishable context information, e.g., Non-Autoregressive Translation~(NAT) models. In this paper, we propose a novel $n$-gram nearest neighbor retrieval method that is model agnostic and applicable to both AT and NAT models. Specifically, we concatenate the adjacent $n$-gram hidden representations as the key, while the tuple of corresponding target tokens is the value. In inference, we propose tailored decoding algorithms for AT and NAT models respectively. We demonstrate that the proposed method consistently outperforms the token-level method on both AT and NAT models as well on general as on domain adaptation translation tasks. On domain adaptation, the proposed method brings $1.03$ and $2.76$ improvements regarding the average BLEU score on AT and NAT models respectively.
翻訳日:2023-01-31 14:52:38 公開日:2023-01-30
# GPUプラットフォーム上での効率的な推論のためのSMDPベースの動的バッチ

SMDP-Based Dynamic Batching for Efficient Inference on GPU-Based Platforms ( http://arxiv.org/abs/2301.12865v1 )

ライセンス: Link先を確認
Yaodan Xu, Jingzhou Sun, Sheng Zhou, Zhisheng Niu(参考訳) クラウドやエッジコンピューティングプラットフォーム上の最新の機械学習(ML)アプリケーションでは、バッチ処理は大規模に効率的かつ経済的サービスを提供する上で重要なテクニックである。 特に、gpu(graphics processing unit)のようなプラットフォーム上の並列コンピューティングリソースは、バッチサイズが大きいほど高い計算効率とエネルギー効率を持つ。 しかし、バッチサイズが大きくなると応答時間が長くなるため、適切な設計が必要となる。 本稿では,効率とレイテンシのバランスをとる動的バッチポリシを提供することを目的としている。 gpuベースの推論サービスは、バッチサイズの依存処理時間を持つバッチサービスキューとしてモデル化される。 次に、動的バッチの設計は連続時間平均コスト問題であり、平均応答時間と平均消費電力の重み付け和を最小化することを目的としてセミマルコフ決定プロセス(smdp)として定式化される。 最適ポリシーは、関連する離散時間マルコフ決定過程(MDP)問題を有限状態近似と「離散化」で解くことで得られる。 尾」状態の影響を反映する抽象的なコストを創造的に導入することで、手順の空間的複雑さと時間的複雑さをそれぞれ63.5%と98%減少させることができる。 その結果,最適政策は制御限界構造を持つ可能性が示唆された。 また,SMDPベースのバッチ処理ポリシは,異なるトラフィック強度に適応し,他のベンチマークポリシよりも優れていることを示す。 さらに,提案手法は,消費電力とレイテンシのバランスにおいて,柔軟性に優れる。

In up-to-date machine learning (ML) applications on cloud or edge computing platforms, batching is an important technique for providing efficient and economical services at scale. In particular, parallel computing resources on the platforms, such as graphics processing units (GPUs), have higher computational and energy efficiency with larger batch sizes. However, larger batch sizes may also result in longer response time, and thus it requires a judicious design. This paper aims to provide a dynamic batching policy that strikes a balance between efficiency and latency. The GPU-based inference service is modeled as a batch service queue with batch-size dependent processing time. Then, the design of dynamic batching is a continuous-time average-cost problem, and is formulated as a semi-Markov decision process (SMDP) with the objective of minimizing the weighted sum of average response time and average power consumption. The optimal policy is acquired by solving an associated discrete-time Markov decision process (MDP) problem with finite state approximation and "discretization". By creatively introducing an abstract cost to reflect the impact of "tail" states, the space complexity and the time complexity of the procedure can decrease by 63.5% and 98%, respectively. Our results show that the optimal policies potentially possess a control limit structure. Numerical results also show that SMDP-based batching policies can adapt to different traffic intensities and outperform other benchmark policies. Furthermore, the proposed solution has notable flexibility in balancing power consumption and latency.
翻訳日:2023-01-31 14:52:20 公開日:2023-01-30
# オンライン優先制約によるジョブスケジュールの最小化

Minimalistic Predictions to Schedule Jobs with Online Precedence Constraints ( http://arxiv.org/abs/2301.12863v1 )

ライセンス: Link先を確認
Alexandra Lassota, Alexander Lindermayr, Nicole Megow, Jens Schl\"oter(参考訳) 我々は、オンラインの優先順位制約付き非透視型スケジューリングを考える。アルゴリズムはいかなる仕事にも依存せず、前任者がすべて完了した場合にのみジョブについて学習する。 古典的競合分析における強い不合理性を考慮し,アルゴリズムが品質保証なしに予測にアクセスできる学習強化環境での問題点を考察する。 従来提案されてきた新しい問題固有モデルと一般モデルという,さまざまな予測モデルについて論じる。 我々は,先行トポロジーの下位境界とアルゴリズム上界を提示することにより,アルゴリズムの設計にどの情報を追加するか,どのように役立つか,構造的な概要を示す。 その過程で、既存のアルゴリズムの従来の競争比率の境界も改善します。

We consider non-clairvoyant scheduling with online precedence constraints, where an algorithm is oblivious to any job dependencies and learns about a job only if all of its predecessors have been completed. Given strong impossibility results in classical competitive analysis, we investigate the problem in a learning-augmented setting, where an algorithm has access to predictions without any quality guarantee. We discuss different prediction models: novel problem-specific models as well as general ones, which have been proposed in previous works. We present lower bounds and algorithmic upper bounds for different precedence topologies, and thereby give a structured overview on which and how additional (possibly erroneous) information helps for designing better algorithms. Along the way, we also improve bounds on traditional competitive ratios for existing algorithms.
翻訳日:2023-01-31 14:51:56 公開日:2023-01-30
# 大規模ヘテロセダス的分類器

Massively Scaling Heteroscedastic Classifiers ( http://arxiv.org/abs/2301.12860v1 )

ライセンス: Link先を確認
Mark Collier, Rodolphe Jenatton, Basil Mustafa, Neil Houlsby, Jesse Berent and Effrosyni Kokiopoulou(参考訳) 予測ロジット上で多変量ガウス分布を学習するヘテロシデスティック分類器は、数百から数千のクラスで画像分類問題においてうまく機能することが示されている。 しかし、標準的な分類器と比較して、クラス数と線形にスケールする余分なパラメータを導入する。 これにより、より大規模な問題に適用できない。 さらに、異方性分類器は、調整しなければならない臨界温度ハイパーパラメータを導入する。 標準分類器と比較した場合のパラメータ数がクラス数とは独立にスケールするヘテロシデスティック分類器het-xlを提案する。 大規模な設定では、トレーニングデータ上で直接学習することで、温度ハイパーパラメータをチューニングする必要がなくなります。 最大4bのイメージと30kのクラスを持つ大規模な画像分類データセットでは、この方法は追加パラメータを14倍少なくし、ホールドアウトセットの温度をチューニングする必要がなく、ベースラインのヘテロシドスティック分類器よりも一貫して優れた性能を発揮する。 HET-XLは、35億のクラス分類問題と見なせるマルチモーダルコントラスト学習設定において、ImageNet 0ショットの分類を改善している。

Heteroscedastic classifiers, which learn a multivariate Gaussian distribution over prediction logits, have been shown to perform well on image classification problems with hundreds to thousands of classes. However, compared to standard classifiers, they introduce extra parameters that scale linearly with the number of classes. This makes them infeasible to apply to larger-scale problems. In addition heteroscedastic classifiers introduce a critical temperature hyperparameter which must be tuned. We propose HET-XL, a heteroscedastic classifier whose parameter count when compared to a standard classifier scales independently of the number of classes. In our large-scale settings, we show that we can remove the need to tune the temperature hyperparameter, by directly learning it on the training data. On large image classification datasets with up to 4B images and 30k classes our method requires 14X fewer additional parameters, does not require tuning the temperature on a held-out set and performs consistently better than the baseline heteroscedastic classifier. HET-XL improves ImageNet 0-shot classification in a multimodal contrastive learning setup which can be viewed as a 3.5 billion class classification problem.
翻訳日:2023-01-31 14:51:44 公開日:2023-01-30
# 状態準備と誤差検出における量子偏差を用いた格子ゲージ理論と位相量子誤差補正

Lattice gauge theory and topological quantum error correction with quantum deviations in the state preparation and error detection ( http://arxiv.org/abs/2301.12859v1 )

ライセンス: Link先を確認
Yuanchen Zhao, Dong E. Liu(参考訳) 量子偏差やコヒーレントエラーは、量子コンピュータでゲート演算を実装する際に発生する典型的なノイズであり、量子誤差訂正符号の性能への影響は、解析的あるいは数値的ツールの欠如によって未だに謎のままである。 ここではトポロジカルサーフェスコードに着目し、初期状態準備とエラー検出の両方における安定化器測定において、コードがマルチビット絡み合うゲートの確率的ノイズとコヒーレントノイズの両方に苦しむ場合について検討する。 マルチラウンド誤り検出プロトコルをz_2ゲージ相互作用からなる3次元統計力学モデルにマッピングし,誤差閾値を位相遷移点に関連付ける。 具体的には、wilsonループオブザーバブルの解析により、異なるエラー補正性能を区別する2つのエラーしきい値が識別される。 有限誤差率しきい値を超えると、無限のシンドローム履歴をデコーダに供給しても論理誤差は避けられない。 このしきい値の下にはまだ不明な測定誤差があり、誤り訂正の失敗につながる可能性がある。 この問題は、完全な初期状態準備点にある別の相転移またはエラーしきい値によってのみ解決できる。 この種の避けられないコヒーレントエラーは、エラー訂正性能に致命的な影響を与える可能性があると結論づけた。

Quantum deviations or coherent errors are a typical type of noise encountered when implementing gate operations in quantum computers, and their impact on the performance of quantum error correction codes is still mysterious due to the lack of the analytical or numerical tools. Here we focus on the topological surface code, and study the case when the code suffers from both stochastic noise and coherent noise on the multi-qubit entanglement gates during stabilizer measurements in both initial state preparation and error detections. We map a multi-round error detection protocol to a three-dimensional statistical mechanical model consisting of Z_2 gauge interactions and related the error threshold to its phase transition point. Specifically, by analyzing the Wilson loop observables, two error thresholds are identified distinguishing different error correction performances. Above a finite error rate threshold, logical errors are unavoidable even when feeding an infinite amount of syndrome histories into the decoder. Below this threshold, there are still unidentifiable measurement errors which could also lead to the failure of error correction. This problem can only be fixed by another phase transition or error threshold residing at the perfect initial state preparation point. We conclude that this type of unavoidable coherent errors could have a fatal impact on the error correction performance.
翻訳日:2023-01-31 14:51:19 公開日:2023-01-30
# どこまで行ける? テキスト分類における内在性バイアス緩和について

How Far Can It Go?: On Intrinsic Gender Bias Mitigation for Text Classification ( http://arxiv.org/abs/2301.12855v1 )

ライセンス: Link先を確認
Ewoenam Tokpo, Pieter Delobelle, Bettina Berendt and Toon Calders(参考訳) 文脈化された言語モデルのジェンダーバイアスを軽減するために、多くのバイアスメトリクスとともに、さまざまな内在的緩和戦略が提案されている。 これらの言語モデルのエンドユースを、テキスト分類のような下流タスクに向けることを考えると、これらの固有のバイアス緩和戦略が、下流タスクの公平さとそれの程度にどのように変換されるかを理解することが重要である。 本研究では,本研究において,性バイアス軽減戦略が下流のテキスト分類課題に与えた影響を調べるためのプローブを考案する。 性別バイアスを解決する代わりに、本質的緩和技術とメトリクスは、埋め込みに重要な性別情報が保持されるようにそれを隠せることを発見した。 さらに,各緩和手法は本質的バイアス尺度からバイアスを隠蔽できるがすべてではないことを示し,本質的バイアス尺度はいくつかの緩和手法によって騙されるがすべてではないことを示す。 実験により,他の公平な介入を伴わない内在的緩和技術が外因性バイアスに一貫した影響を及ぼさないことを確認した。 本質的なバイアス緩和手法と下流タスクに対する他の公平な介入を組み合わせることを推奨する。

To mitigate gender bias in contextualized language models, different intrinsic mitigation strategies have been proposed, alongside many bias metrics. Considering that the end use of these language models is for downstream tasks like text classification, it is important to understand how these intrinsic bias mitigation strategies actually translate to fairness in downstream tasks and the extent of this. In this work, we design a probe to investigate the effects that some of the major intrinsic gender bias mitigation strategies have on downstream text classification tasks. We discover that instead of resolving gender bias, intrinsic mitigation techniques and metrics are able to hide it in such a way that significant gender information is retained in the embeddings. Furthermore, we show that each mitigation technique is able to hide the bias from some of the intrinsic bias measures but not all, and each intrinsic bias measure can be fooled by some mitigation techniques, but not all. We confirm experimentally, that none of the intrinsic mitigation techniques used without any other fairness intervention is able to consistently impact extrinsic bias. We recommend that intrinsic bias mitigation techniques should be combined with other fairness interventions for downstream tasks.
翻訳日:2023-01-31 14:50:58 公開日:2023-01-30
# GE-Blender: Blenderのグラフベースの知識強化

GE-Blender: Graph-Based Knowledge Enhancement for Blender ( http://arxiv.org/abs/2301.12850v1 )

ライセンス: Link先を確認
Xiaolei Lian and Xunzhu Tang and Yue Wang(参考訳) オープンドメインダイアログ生成の大きな成功にもかかわらず、見えないエンティティは対話生成タスクに大きな影響を与える可能性がある。 これはダイアログ生成におけるモデルのパフォーマンス低下につながります。 これまでの研究では、モデル表現を強化する補助データとして、見受けられた実体の知識を用いた。 それにもかかわらず、未発見の実体の論理的説明は、それらとその実体のカテゴリーの共起や意味的に類似した単語など、未解明のままである。 本稿では,上記の課題に対処するためのアプローチを提案する。 我々は、エンティティノードを抽出してグラフを構築し、エンティティの1-hop周辺のノードで、見えないエンティティのコンテキストの表現を強化する。 さらに,未知のエンティティがグラフに存在しないという問題を適用するために,名前付きエンティティタグ予測タスクを追加した。 我々はウィキペディアのウィザードのオープンデータセット上で実験を行い、その実験結果から、ウィキペディアのウィザードの最先端のアプローチよりも優れた結果が得られた。

Although the great success of open-domain dialogue generation, unseen entities can have a large impact on the dialogue generation task. It leads to performance degradation of the model in the dialog generation. Previous researches used retrieved knowledge of seen entities as the auxiliary data to enhance the representation of the model. Nevertheless, logical explanation of unseen entities remains unexplored, such as possible co-occurrence or semantically similar words of them and their entity category. In this work, we propose an approach to address the challenge above. We construct a graph by extracting entity nodes in them, enhancing the representation of the context of the unseen entity with the entity's 1-hop surrounding nodes. Furthermore, We added the named entity tag prediction task to apply the problem that the unseen entity does not exist in the graph. We conduct our experiments on an open dataset Wizard of Wikipedia and the empirical results indicate that our approach outperforms the state-of-the-art approaches on Wizard of Wikipedia.
翻訳日:2023-01-31 14:50:38 公開日:2023-01-30
# 法則の発見: グラフニューラルネットワークによる法定記事検索の強化

Finding the Law: Enhancing Statutory Article Retrieval via Graph Neural Networks ( http://arxiv.org/abs/2301.12847v1 )

ライセンス: Link先を確認
Antoine Louis, Gijs van Dijck, Gerasimos Spanakis(参考訳) 法定事項検索(SAR)は法律上の問題に関連する法律上の事項を検索するタスクであり、法定文書処理の有望な応用である。 特に、高品質なSARシステムは、法律専門家の作業効率を改善し、必要な市民に基本的な法的支援を無償で提供することができる。 従来のアドホックな情報検索とは違い、SARは法律のトポロジカルな組織からの補完的な情報に依存するテキストを扱う。 既存の研究はこれらのドメイン固有の依存関係を無視するが、グラフニューラルネットワークによる法制構造を組み込んだ新しいグラフ-augmented dense statute retriever(g-dsr)モデルを提案する。 実験の結果,本手法は実世界エキスパートによるsarデータセットにおいて,強い検索ベースラインを上回っていることがわかった。

Statutory article retrieval (SAR), the task of retrieving statute law articles relevant to a legal question, is a promising application of legal text processing. In particular, high-quality SAR systems can improve the work efficiency of legal professionals and provide basic legal assistance to citizens in need at no cost. Unlike traditional ad-hoc information retrieval, where each document is considered a complete source of information, SAR deals with texts whose full sense depends on complementary information from the topological organization of statute law. While existing works ignore these domain-specific dependencies, we propose a novel graph-augmented dense statute retriever (G-DSR) model that incorporates the structure of legislation via a graph neural network to improve dense retrieval performance. Experimental results show that our approach outperforms strong retrieval baselines on a real-world expert-annotated SAR dataset.
翻訳日:2023-01-31 14:50:21 公開日:2023-01-30
# ランダム分解は高次元ベイズ最適化に必要なすべてか?

Are Random Decompositions all we need in High Dimensional Bayesian Optimisation? ( http://arxiv.org/abs/2301.12844v1 )

ライセンス: Link先を確認
Juliusz Ziomek, Haitham Bou-Ammar(参考訳) 高価なブラックボックス関数の学習分解は、ベイズ最適化(BO)を高次元問題に拡張することを約束する。 しかし、これらの手法の成功はブラックボックスを正確に表現する適切な分解を見つけることに依存する。 先行研究はデータに基づいてこれらの分解を学習する一方で,本論文ではデータ非依存分解サンプリングルールについて検討する。 探索空間全体にわたって保持されない局所的な分解に対して,データ駆動型分解学習者が容易に誤解されることが判明した。 そして, 木をベースとした無作為な分解サンプリングは, 分解によって提供されるブラックボックスとサロゲート間の最大情報ゲインと機能的ミスマッチを効果的に除去する理論的保証を示す。 これらの結果は、(ほぼ)プラグ・アンド・プレイの実装が容易なランダム分解上信頼結合アルゴリズム(RDUCB)の開発を動機付け、驚くべきことに、包括的なベンチマークの以前の状態と比較して、大きな経験的利益をもたらす。 また,本手法をHEBOと統合することにより,モデルコンポーネントのプラグアンドプレイ性を確認し,ベイズマルクの高次元タスクにおける実用性の向上を示した。

Learning decompositions of expensive-to-evaluate black-box functions promises to scale Bayesian optimisation (BO) to high-dimensional problems. However, the success of these techniques depends on finding proper decompositions that accurately represent the black-box. While previous works learn those decompositions based on data, we investigate data-independent decomposition sampling rules in this paper. We find that data-driven learners of decompositions can be easily misled towards local decompositions that do not hold globally across the search space. Then, we formally show that a random tree-based decomposition sampler exhibits favourable theoretical guarantees that effectively trade off maximal information gain and functional mismatch between the actual black-box and its surrogate as provided by the decomposition. Those results motivate the development of the random decomposition upper-confidence bound algorithm (RDUCB) that is straightforward to implement - (almost) plug-and-play - and, surprisingly, yields significant empirical gains compared to the previous state-of-the-art on a comprehensive set of benchmarks. We also confirm the plug-and-play nature of our modelling component by integrating our method with HEBO, showing improved practical gains in the highest dimensional tasks from Bayesmark.
翻訳日:2023-01-31 14:50:03 公開日:2023-01-30
# オフライン強化学習目標をスクラッチから設計する

Designing an offline reinforcement learning objective from scratch ( http://arxiv.org/abs/2301.12842v1 )

ライセンス: Link先を確認
Gaon An, Junhyeok Lee, Xingdong Zuo, Norio Kosaka, Kyung-Min Kim, Hyun Oh Song(参考訳) オフライン強化学習は近年急速に発展しているが、オフラインポリシーの実際のパフォーマンスを推定することは依然として課題である。 本稿では,オフラインポリシのスコア基準を提案する。これは実際のポリシのパフォーマンスと高い相関性を持ち,管理された方法でオフラインポリシの最適化に直接使用できる。 これを実現するために,比較学習フレームワークを活用して,相対的に高いリターンをもたらすアクションを模倣し,相対的に低いリターンをもたらすアクションを回避したポリシーに高いスコアを与えるスコアメトリックを設計する。 私たちの実験は 1)我々の評価基準は、より正確にオフラインポリシーをランク付けできる。 2) 実測値を用いて最適化した政策は, 各種オフライン強化学習ベンチマークにおいて高い性能を示した。 特に,本アルゴリズムは,他の教師付き学習ベース手法に比べて,ポリシーネットワークのネットワーク容量要件がはるかに低く,qネットワークなどの追加ネットワークも必要としない。

Offline reinforcement learning has developed rapidly over the recent years, but estimating the actual performance of offline policies still remains a challenge. We propose a scoring metric for offline policies that highly correlates with actual policy performance and can be directly used for offline policy optimization in a supervised manner. To achieve this, we leverage the contrastive learning framework to design a scoring metric that gives high scores to policies that imitate the actions yielding relatively high returns while avoiding those yielding relatively low returns. Our experiments show that 1) our scoring metric is able to more accurately rank offline policies and 2) the policies optimized using our metric show high performance on various offline reinforcement learning benchmarks. Notably, our algorithm has a much lower network capacity requirement for the policy network compared to other supervised learning-based methods and also does not need any additional networks such as a Q-network.
翻訳日:2023-01-31 14:49:43 公開日:2023-01-30
# 都市マイクロリージョンにおける配送車両の性能モデル化と貨物・自転車のロジスティクスへの転換

Modelling the performance of delivery vehicles across urban micro-regions to accelerate the transition to cargo-bike logistics ( http://arxiv.org/abs/2301.12887v1 )

ライセンス: Link先を確認
Max Schrader, Navish Kumar, Nicolas Collignon, Esben S{\o}rig, Soonmyeong Yoon, Akash Srivastava, Kai Xu, Maria Astefanoaei(参考訳) 輸送の最終マイルで広く使用される軽貨物車(LGV)は、都市で主要な汚染物質の一つである。 カーゴバイクのロジスティクスはlgvの代替案として高く評価されており、速度の速さ、駐車時間の短縮、都市横断ルートの効率化などにより、都市のバン配達の半分以上がカーゴバイクに置き換えられると専門家は見積もっている。 都市部にまたがる様々な車両の相対的な配送性能をモデル化することで、機械学習は、オペレーターが貨物自転車を船体に加えることのビジネス的および環境的影響を評価するのに役立つ。 本稿では,2つのデータセットを導入し,都市部における配送サービス時間(例えば,駐車,降ろし,歩行のためのクルーズ)をモデル化する。 uberのh3インデックスを使って都市をヘキサゴナルセルに分割し、各セルにopenstreetmapタグを集約することで、都市コンテキストがデリバリパフォーマンスの重要な予測要因であることを示します。

Light goods vehicles (LGV) used extensively in the last mile of delivery are one of the leading polluters in cities. Cargo-bike logistics has been put forward as a high impact candidate for replacing LGVs, with experts estimating over half of urban van deliveries being replaceable by cargo bikes, due to their faster speeds, shorter parking times and more efficient routes across cities. By modelling the relative delivery performance of different vehicle types across urban micro-regions, machine learning can help operators evaluate the business and environmental impact of adding cargo-bikes to their fleets. In this paper, we introduce two datasets, and present initial progress in modelling urban delivery service time (e.g. cruising for parking, unloading, walking). Using Uber's H3 index to divide the cities into hexagonal cells, and aggregating OpenStreetMap tags for each cell, we show that urban context is a critical predictor of delivery performance.
翻訳日:2023-01-31 14:43:02 公開日:2023-01-30
# 近赤外量子通信のためのモジュール源

Modular source for near-infrared quantum communication ( http://arxiv.org/abs/2301.12882v1 )

ライセンス: Link先を確認
Federico Berra, Costantino Agnesi, Andrea Stanco, Marco Avesani, Sebastiano Cocchi, Paolo Villoresi, Giuseppe Vallone(参考訳) 量子鍵分布 (qkd) について, ipognac, 安定で低エラー, キャリブレーションフリーな分極変調方式を活用し, 強度と分極エンコーディングを両立させるモジュラー設計に基づく状態の供給源を提案する。 このソースは、サイドチャネルやいくつかの量子ハッキング攻撃など、他の州ソースのセキュリティ脆弱性に免疫がある。 さらに、この強度変調方式により、デコイと信号状態の強度比を完全に調整でき、パターン効果を緩和できる。 光源は800nm付近の近赤外光バンドで実装、試験され、特に衛星ベースのQKDに注目された。 興味深いことに、ソースのモジュラリティは、特に宇宙ミッションの開発、テスト、資格を単純化する。 これらの理由から、我々の研究は、より高いセキュリティレベルで優れた性能を保証できる第2世代のQKD衛星の開発の道を開く。

We present a source of states for Quantum Key Distribution (QKD) based on a modular design exploiting the iPOGNAC, a stable, low-error, and calibration-free polarization modulation scheme, for both intensity and polarization encoding. This source is immune to the security vulnerabilities of other state sources such as side channels and some quantum hacking attacks. Furthermore, our intensity modulation scheme allows full tunability of the intensity ratio between the decoy and signal states, and mitigates patterning effects. The source was implemented and tested at the near-infrared optical band around 800 nm, of particular interest for satellite-based QKD. Remarkably, the modularity of the source simplifies its development, testing, and qualification, especially for space missions. For these reasons, our work paves the way for the development of the second generation of QKD satellites that can guarantee excellent performances at higher security levels.
翻訳日:2023-01-31 14:42:08 公開日:2023-01-30
# アクションフリーオフライン事前トレーニングによるオンライン強化学習の指導

Guiding Online Reinforcement Learning with Action-Free Offline Pretraining ( http://arxiv.org/abs/2301.12876v1 )

ライセンス: Link先を確認
Deyao Zhu, Yuhui Wang, J\"urgen Schmidhuber, Mohamed Elhoseiny(参考訳) オフラインRL法は、オフライン収集エピソードを用いたトレーニングエージェントによる環境相互作用の必要性を低減することが示されている。 しかし、これらの手法は一般的に、データ収集中にログされるアクション情報を必要とする。 本稿では,アクションフリーオフラインプリトレーニング(afp-rl)を用いて,オンライン強化学習を改善するために,アクションフリーオフラインデータセットを使用する可能性について検討する。 我々は、アクションフリーオフラインデータセットから知識を抽出し、オンライントレーニングをガイドするAction-Free Guide(AF-Guide)を紹介する。 AF-Guide は Upside-Down Reinforcement Learning の変種を実装した Action-Free Decision Transformer (AFDT) で構成されている。 オフラインデータセットから次の状態を計画することや、afdtのガイダンスでオンライン学習を行う、soft actor-critic (guided sac)のガイドから学ぶ。 AF-Guideは、アクションフリーオフラインデータセットからの知識により、オンライントレーニングにおけるサンプル効率とパフォーマンスを向上させることができることを示す。

Offline RL methods have been shown to reduce the need for environment interaction by training agents using offline collected episodes. However, these methods typically require action information to be logged during data collection, which can be difficult or even impossible in some practical cases. In this paper, we investigate the potential of using action-free offline datasets to improve online reinforcement learning, name this problem Reinforcement Learning with Action-Free Offline Pretraining (AFP-RL). We introduce Action-Free Guide (AF-Guide), a method that guides online training by extracting knowledge from action-free offline datasets. AF-Guide consists of an Action-Free Decision Transformer (AFDT) implementing a variant of Upside-Down Reinforcement Learning. It learns to plan the next states from the offline dataset, and a Guided Soft Actor-Critic (Guided SAC) that learns online with guidance from AFDT. Experimental results show that AF-Guide can improve sample efficiency and performance in online training thanks to the knowledge from the action-free offline dataset.
翻訳日:2023-01-31 14:41:51 公開日:2023-01-30
# 神経最適輸送による極値領域翻訳

Extremal Domain Translation with Neural Optimal Transport ( http://arxiv.org/abs/2301.12874v1 )

ライセンス: Link先を確認
Milena Gazdieva, Alexander Korotin, Daniil Selikhanovych, Evgeny Burnaev(参考訳) 本稿では、与えられた類似性関数の対であるドメインw.r.t.の間の理論的に最良の未ペア翻訳の数学的形式化である極端輸送(ET)を提案する。 近年のニューラル・オプティカル・トランスポート(OT)の進歩に触発されて,部分的なOTマップの限界としてETマップを近似するスケーラブルなアルゴリズムを提案する。 おもちゃの例や画像から画像への変換タスクでアルゴリズムをテストする。

We propose the extremal transport (ET) which is a mathematical formalization of the theoretically best possible unpaired translation between a pair of domains w.r.t. the given similarity function. Inspired by the recent advances in neural optimal transport (OT), we propose a scalable algorithm to approximate ET maps as a limit of partial OT maps. We test our algorithm on toy examples and on the unpaired image-to-image translation task.
翻訳日:2023-01-31 14:41:34 公開日:2023-01-30
# 脳波データを用いた畳み込みニューラルネットワークによるDTWの近似

Approximating DTW with a convolutional neural network on EEG data ( http://arxiv.org/abs/2301.12873v1 )

ライセンス: Link先を確認
Hugo Lerogeron, Romain Picot-Clemente, Alain Rakotomamonjy, Laurent Heutte(参考訳) 動的時間ラッピング (DTW) は、2つの時系列間の類似性を測定するアルゴリズムである。 クラスタリング、異常検出、分類、ビデオセグメンテーションなど、時系列が異なる時間スケールを持つ、不規則にサンプリングされた、あるいはシフトされた、さまざまなアプリケーションで特に有用である。 しかし、その非微分可能性と二次的時間的複雑性から、エンドツーエンド学習フレームワークにおける損失関数とはみなされない。 DTWの異なるバリエーションはコミュニティによって導入されているが、それでもいくつかの欠点がある。 本稿では、ユークリッド距離がDTWを模倣する埋め込みを学習する第1のアーキテクチャと、回帰を用いてDTW出力を直接予測する第2のアーキテクチャを比較して、DTWの高速かつ微分可能な近似を提案する。 我々は,2つの時系列間のDTW値を回帰するために,サイムズニューラルネットワークを訓練して前者を構築する。 活性化関数の性質に応じて、この近似は自然に微分をサポートし、計算は効率的である。 我々は,EEGデータセットの時系列検索コンテキストにおいて,我々の手法が計算効率の高い他のDTW主近似と少なくとも同等の精度を達成することを示す。 また,脳波生成モデルを提案することで,時系列のエンドツーエンド設定で学習することができることを示す。

Dynamic Time Wrapping (DTW) is a widely used algorithm for measuring similarities between two time series. It is especially valuable in a wide variety of applications, such as clustering, anomaly detection, classification, or video segmentation, where the time-series have different timescales, are irregularly sampled, or are shifted. However, it is not prone to be considered as a loss function in an end-to-end learning framework because of its non-differentiability and its quadratic temporal complexity. While differentiable variants of DTW have been introduced by the community, they still present some drawbacks: computing the distance is still expensive and this similarity tends to blur some differences in the time-series. In this paper, we propose a fast and differentiable approximation of DTW by comparing two architectures: the first one for learning an embedding in which the Euclidean distance mimics the DTW, and the second one for directly predicting the DTW output using regression. We build the former by training a siamese neural network to regress the DTW value between two time-series. Depending on the nature of the activation function, this approximation naturally supports differentiation, and it is efficient to compute. We show, in a time-series retrieval context on EEG datasets, that our methods achieve at least the same level of accuracy as other DTW main approximations with higher computational efficiency. We also show that it can be used to learn in an end-to-end setting on long time series by proposing generative models of EEGs.
翻訳日:2023-01-31 14:41:27 公開日:2023-01-30
# 物理観測器を用いたラジアル速度補正のための機械学習手法

A Machine Learning approach for correcting radial velocities using physical observables ( http://arxiv.org/abs/2301.12872v1 )

ライセンス: Link先を確認
M. Perger, G. Anglada-Escud\'e, D. Baroch, M. Lafarga, I. Ribas, J. C. Morales, E. Herrero, P. J. Amado, J. R. Barnes, J. A. Caballero, S.V. Jeffers, A. Quirrenbach, and A. Reiners(参考訳) 精密放射速度(RV)の測定は、太陽系外惑星の検出と特徴付けの鍵となるツールであり続けている。 測定精度は向上を続けているが、恒星活動は1-2m/s未満の信頼性測定を得るための障壁である。 シミュレーションと実データを用いて、恒星の活動を自由なドップラーで測定するディープニューラルネットワーク手法の能力について検討する。 ケーススタディでは、2つの既知の恒星 (Eps Eridani と AUMicroscopii) の観測を行い、両者とも RV の変動を観測した。 恒星符号を用いた合成データは、観測対象(入力)と結果のRV信号(ラベル)に対して生成され、ディープニューラルネットワークアルゴリズムのトレーニングに使用される。 我々は,タスクに適した畳み込み層と完全連結層からなるアーキテクチャを同定する。 調査対象は,平均線量パラメータ(幅,バイセクター,コントラスト)とマルチバンド光度測定である。 rv非依存アプローチはスポット、回転、対流ブルーシフトなどの既知の物理的効果からスプリアスドップラー変動を劇的に低減できることを実証する。 活動指標と最も予測力の組合せを同定する。 実観測に応用した場合、観測された変動率と補正の整合性をよく観察するが、おそらくシミュレートされた物理学における詳細の欠如により、ノイズ低減はシミュレーションほど良くない。 モデル駆動の機械学習アプローチは、よく知られた物理的効果に対する行動誘発変動からドップラー信号をきれいにするのに十分であることを実証する。 他にも、追加の指標、より完全なモデル、そして最適化されたサンプリング戦略によるさらなる観察が、私たちの推定能力を大幅に改善する可能性があることを示す、多くの既知のアクティビティ関連観測器があります。

Precision radial velocity (RV) measurements continue to be a key tool to detect and characterise extrasolar planets. While instrumental precision keeps improving, stellar activity remains a barrier to obtain reliable measurements below 1-2 m/s accuracy. Using simulations and real data, we investigate the capabilities of a Deep Neural Network approach to produce activity free Doppler measurements of stars. As case studies we use observations of two known stars (Eps Eridani and AUMicroscopii), both with clear signals of activity induced RV variability. Synthetic data using the starsim code are generated for the observables (inputs) and the resulting RV signal (labels), and used to train a Deep Neural Network algorithm. We identify an architecture consisting of convolutional and fully connected layers that is adequate to the task. The indices investigated are mean line-profile parameters (width, bisector, contrast) and multi-band photometry. We demonstrate that the RV-independent approach can drastically reduce spurious Doppler variability from known physical effects such as spots, rotation and convective blueshift. We identify the combinations of activity indices with most predictive power. When applied to real observations, we observe a good match of the correction with the observed variability, but we also find that the noise reduction is not as good as in the simulations, probably due to the lack of detail in the simulated physics. We demonstrate that a model-driven machine learning approach is sufficient to clean Doppler signals from activity induced variability for well known physical effects. There are dozens of known activity related observables whose inversion power remains unexplored indicating that the use of additional indicators, more complete models, and more observations with optimised sampling strategies can lead to significant improvements in our detrending capabilities.
翻訳日:2023-01-31 14:41:03 公開日:2023-01-30
# 大規模事前学習型言語モデルを用いた Prompt-based Semantic Parsing のロバスト性について:コーデックスに関する実証的研究

On Robustness of Prompt-based Semantic Parsing with Large Pre-trained Language Model: An Empirical Study on Codex ( http://arxiv.org/abs/2301.12868v1 )

ライセンス: Link先を確認
Terry Yue Zhuo, Zhuang Li, Yujin Huang, Yuan-Fang Li, Weiqing Wang, Gholamreza Haffari and Fatemeh Shiri(参考訳) 意味論解析は、自然言語質問の意味の構造化表現を構築するための技法である。 コードで訓練された少数ショット言語モデルの最近の進歩は、下流のタスクで訓練された従来のユニモーダル言語モデルと比較して、これらの表現を生成する上で優れたパフォーマンスを示している。 これらの進歩にもかかわらず、既存の微調整されたニューラル・セマンティクス・パーサーは、自然言語入力に対する敵意攻撃の影響を受けやすい。 より小さなセマンティックパーサのロバスト性は、敵対的な訓練によって向上することが確立されているが、この手法は、現実のシナリオにおける大規模言語モデルでは実現不可能であり、膨大な計算資源と、ドメイン内のセマンティックパーサデータに対する高価な人間のアノテーションの両方を必要とする。 本稿では,大規模プロンプトベースのコードモデルである \codex の逆ロバスト性に関する最初の実証研究を行う。 その結果,最先端(sota)コード言語モデルは,注意深い対向例に対して脆弱であることが判明した。 そこで本研究では,大量のラベル付きデータや計算資源を必要とせずにロバスト性を向上させる手法を提案する。

Semantic parsing is a technique aimed at constructing a structured representation of the meaning of a natural-language question. Recent advancements in few-shot language models trained on code have demonstrated superior performance in generating these representations compared to traditional unimodal language models, which are trained on downstream tasks. Despite these advancements, existing fine-tuned neural semantic parsers are susceptible to adversarial attacks on natural-language inputs. While it has been established that the robustness of smaller semantic parsers can be enhanced through adversarial training, this approach is not feasible for large language models in real-world scenarios, as it requires both substantial computational resources and expensive human annotation on in-domain semantic parsing data. This paper presents the first empirical study on the adversarial robustness of a large prompt-based language model of code, \codex. Our results demonstrate that the state-of-the-art (SOTA) code-language models are vulnerable to carefully crafted adversarial examples. To address this challenge, we propose methods for improving robustness without the need for significant amounts of labeled data or heavy computational resources.
翻訳日:2023-01-31 14:40:33 公開日:2023-01-30
# ChatGPTのAI倫理を探る:診断分析

Exploring AI Ethics of ChatGPT: A Diagnostic Analysis ( http://arxiv.org/abs/2301.12867v1 )

ライセンス: Link先を確認
Terry Yue Zhuo, Yujin Huang, Chunyang Chen and Zhenchang Xing(参考訳) 自然言語処理(nlp)における近年のブレークスルーは、コヒーレントテキストの合成と理解を開放的な方法で可能にし、理論アルゴリズムを実用的な用途に翻訳した。 大きな言語モデル(LLM)は要約ソフトウェアやコピーライターなどのビジネスに大きな影響を与えている。 しかしながら、LCMは社会的偏見と毒性を示し、無責任な結果の倫理的・社会的危険を生じさせる可能性がある。 したがって、説明責任 LLM の大規模ベンチマークを開発する必要がある。 先進的llmにおける倫理的困難の存在は、いくつかの実証研究によって明らかにされているが、現在のllm使用の倫理に関する体系的な検討やユーザー調査は行われていない。 近年のLLMにおける倫理的危険の実践的特徴をよりよく理解するために,オープンAIのChatGPTに関する質的研究手法を実践する。 ChatGPTを4つの観点から総合的に分析する。 1) \textit{Bias} 2) \textit{Reliability} 3) \textit{Robustness} 4) \textit{toxicity} である。 提案する視点に従って,複数のサンプルデータセット上でChatGPTを実証的にベンチマークする。 私たちは、多くの倫理的リスクは既存のベンチマークでは対処できないことを見出し、追加のケーススタディを通じてそれらを説明する。 さらに,チャットgptのai倫理に関する知見の意義と,llmの今後の課題と実践的設計上の考察について検討した。 LLMの応用において機械がもたらす倫理的危険を決定・緩和するための今後の取り組みに光を当てることができると考えている。

Recent breakthroughs in natural language processing (NLP) have permitted the synthesis and comprehension of coherent text in an open-ended way, therefore translating the theoretical algorithms into practical applications. The large language-model (LLM) has significantly impacted businesses such as report summarization softwares and copywriters. Observations indicate, however, that LLMs may exhibit social prejudice and toxicity, posing ethical and societal dangers of consequences resulting from irresponsibility. Large-scale benchmarks for accountable LLMs should consequently be developed. Although several empirical investigations reveal the existence of a few ethical difficulties in advanced LLMs, there is no systematic examination and user study of the ethics of current LLMs use. To further educate future efforts on constructing ethical LLMs responsibly, we perform a qualitative research method on OpenAI's ChatGPT to better understand the practical features of ethical dangers in recent LLMs. We analyze ChatGPT comprehensively from four perspectives: 1) \textit{Bias} 2) \textit{Reliability} 3) \textit{Robustness} 4) \textit{Toxicity}. In accordance with our stated viewpoints, we empirically benchmark ChatGPT on multiple sample datasets. We find that a significant number of ethical risks cannot be addressed by existing benchmarks, and hence illustrate them via additional case studies. In addition, we examine the implications of our findings on the AI ethics of ChatGPT, as well as future problems and practical design considerations for LLMs. We believe that our findings may give light on future efforts to determine and mitigate the ethical hazards posed by machines in LLM applications.
翻訳日:2023-01-31 14:40:13 公開日:2023-01-30
# PromptMix: テキスト・画像拡散モデルによる軽量ネットワークの性能向上

PromptMix: Text-to-image diffusion models enhance the performance of lightweight networks ( http://arxiv.org/abs/2301.12914v1 )

ライセンス: Link先を確認
Arian Bakhtiarnia, Qi Zhang, and Alexandros Iosifidis(参考訳) 多くのディープラーニングタスクは、人間の演算子に時間がかかりすぎるアノテーションを必要とし、結果としてデータセットのサイズが小さくなる。 これは特に、画像中のすべての人物の位置をアノテートする必要がある群衆カウントのような密度の低い回帰問題に当てはまる。 シミュレーションに基づくデータ拡張や合成データ生成といったテクニックは、そのような場合に役立つ。 本稿では,軽量ネットワークの性能向上に有効な,既存のデータセットのサイズを人工的に向上する手法であるPromptMixを紹介する。 まず、画像キャプション深層ネットワークを介して既存のデータセットからテキストプロンプトを抽出し、その後、テキスト間拡散モデルに導入するエンドツーエンドのデータ駆動方式で合成画像を生成する。 生成された画像は、1つ以上のハイパフォーマンスなディープネットワークを使用して注釈付けされ、軽量ネットワークをトレーニングするための実際のデータセットと混在する。 5つのデータセットと2つのタスクに関する広範な実験により、PromptMixは軽量ネットワークの性能を最大26%向上させることができることを示した。

Many deep learning tasks require annotations that are too time consuming for human operators, resulting in small dataset sizes. This is especially true for dense regression problems such as crowd counting which requires the location of every person in the image to be annotated. Techniques such as data augmentation and synthetic data generation based on simulations can help in such cases. In this paper, we introduce PromptMix, a method for artificially boosting the size of existing datasets, that can be used to improve the performance of lightweight networks. First, synthetic images are generated in an end-to-end data-driven manner, where text prompts are extracted from existing datasets via an image captioning deep network, and subsequently introduced to text-to-image diffusion models. The generated images are then annotated using one or more high-performing deep networks, and mixed with the real dataset for training the lightweight network. By extensive experiments on five datasets and two tasks, we show that PromptMix can significantly increase the performance of lightweight networks by up to 26%.
翻訳日:2023-01-31 14:33:37 公開日:2023-01-30
# グラフ生成モデル評価のための曲率濾過

Curvature Filtrations for Graph Generative Model Evaluation ( http://arxiv.org/abs/2301.12906v1 )

ライセンス: Link先を確認
Joshua Southern, Jeremy Wayland, Michael Bronstein, Bastian Rieck(参考訳) グラフ生成モデル評価は、分布レベルでのグラフ間の理解の違いを必要とする。 これにより、グラフのサルエント属性を効率的に活用できるようになる。 曲線はグラフのそのような性質の1つを構成しており、最近グラフの特徴付けに有用であることが証明され始めている。 しかし、モデル評価における表現的性質、安定性、実用性はほとんど未解明のままである。 グラフ生成モデルを評価するためのロバストで表現力に富む記述子を得るため,グラフ曲率記述子を位相データ解析から最先端法と組み合わせる。

Graph generative model evaluation necessitates understanding differences between graphs on the distributional level. This entails being able to harness salient attributes of graphs in an efficient manner. Curvature constitutes one such property of graphs, and has recently started to prove useful in characterising graphs. Its expressive properties, stability, and practical utility in model evaluation remain largely unexplored, however. We combine graph curvature descriptors with cutting-edge methods from topological data analysis to obtain robust, expressive descriptors for evaluating graph generative models.
翻訳日:2023-01-31 14:33:19 公開日:2023-01-30
# レーザー粉体添加物製造における長期記憶ニューラルネットワークによる温度予測

Long Short-Term Memory Neural Network for Temperature Prediction in Laser Powder Bed Additive Manufacturing ( http://arxiv.org/abs/2301.12904v1 )

ライセンス: Link先を確認
Ashkan Mansouri Yarahmadi, Michael Breu{\ss}, Carsten Hartmann(参考訳) レーザー粉末層融合 (l-pbf) の文脈において, 最終製造品の特性は製造板上の温度分布と勾配に大きく依存していることが知られている。 本稿では,ニューラルネットワークを用いて,印刷工程中の温度勾配分布を予測する新しい手法を提案する。 これは、最適化された印刷プロトコルシミュレーションによって生成された熱マップを用いて実現され、長期記憶アーキテクチャの観点から特定の調整されたリカレントニューラルネットワークのトレーニングに使用される。 この目的は、印刷工程中にプレート全体に生じる極端で不均一な温度分布を避けることである。 ニューラルネットワークのトレーニングには、十分に設計されたシミュレーションと教師なし学習フレームワークを採用する。 プレート全体の平均熱勾配を最小に抑えるため、コスト関数をコア基準として導入し、よく知られた旅行セールスマン問題(TSP)を考慮し、インスピレーションと最適化を行う。 時間が進化するにつれて、TSPが管理する教師なし印刷プロセスは、平均的な熱勾配を最小限に抑える温度熱マップの履歴を生成する。 そこで本研究では,L-PBFの印刷プロセスコンポーネント,すなわち最適ノズル軌道配置の制御,および印刷品質の制御のためのオンライン温度予測を行うインテリジェント印刷ツールを提案する。

In context of laser powder bed fusion (L-PBF), it is known that the properties of the final fabricated product highly depend on the temperature distribution and its gradient over the manufacturing plate. In this paper, we propose a novel means to predict the temperature gradient distributions during the printing process by making use of neural networks. This is realized by employing heat maps produced by an optimized printing protocol simulation and used for training a specifically tailored recurrent neural network in terms of a long short-term memory architecture. The aim of this is to avoid extreme and inhomogeneous temperature distribution that may occur across the plate in the course of the printing process. In order to train the neural network, we adopt a well-engineered simulation and unsupervised learning framework. To maintain a minimized average thermal gradient across the plate, a cost function is introduced as the core criteria, which is inspired and optimized by considering the well-known traveling salesman problem (TSP). As time evolves the unsupervised printing process governed by TSP produces a history of temperature heat maps that maintain minimized average thermal gradient. All in one, we propose an intelligent printing tool that provides control over the substantial printing process components for L-PBF, i.e.\ optimal nozzle trajectory deployment as well as online temperature prediction for controlling printing quality.
翻訳日:2023-01-31 14:33:12 公開日:2023-01-30
# DepGraph: 構造的なプルングを目指す

DepGraph: Towards Any Structural Pruning ( http://arxiv.org/abs/2301.12900v1 )

ライセンス: Link先を確認
Gongfan Fang, Xinyin Ma, Mingli Song, Michael Bi Mi, Xinchao Wang(参考訳) 構造的プルーニングは、ニューラルネットワークから構造的にグループ化されたパラメータを取り除くことで、モデル加速を可能にする。 しかし、パラメータグループ化パターンは様々なモデルで大きく異なり、新しいアーキテクチャでは一般化できない手動設計のグルーピングスキームに依存するアーキテクチャ固有のプルーナーが作られる。 本研究では, CNN, RNN, GNN, Transformers などの任意のアーキテクチャの一般的な構造解析に対処するため, 構造解析を行おうとする。 この野心的な目標への最も顕著な障害は構造的結合であり、異なる層を同時に刈り取ることを強いられるだけでなく、除去されたグループのすべてのパラメータが一貫して重要でないと期待する。 この問題に対処するために,レイヤ間の相互依存を明示的にモデル化し,包括的に結合パラメータをグループ化する汎用的かつ完全自動化された依存性グラフ(depgraph)を提案する。 本研究では,画像用ResNe(X)t,DenseNet,MobileNet,Vision Transformer,グラフ用GAT,3Dポイントクラウド用DGCNN,言語用LSTMなど,さまざまなアーキテクチャやタスク上での手法を広く評価し,単純なL1ノルム基準を用いても,提案手法が常に満足度の高い性能が得られることを示す。

Structural pruning enables model acceleration by removing structurally-grouped parameters from neural networks. However, the parameter-grouping patterns vary widely across different models, making architecture-specific pruners, which rely on manually-designed grouping schemes, non-generalizable to new architectures. In this work, we study a highly-challenging yet barely-explored task, any structural pruning, to tackle general structural pruning of arbitrary architecture like CNNs, RNNs, GNNs and Transformers. The most prominent obstacle towards this ambitious goal lies in the structural coupling, which not only forces different layers to be pruned simultaneously, but also expects all parameters in a removed group to be consistently unimportant, thereby avoiding significant performance degradation after pruning. To address this problem, we propose a general and fully automatic method, Dependency Graph (DepGraph), to explicitly model the inter-dependency between layers and comprehensively group coupled parameters. In this work, we extensively evaluate our method on several architectures and tasks, including ResNe(X)t, DenseNet, MobileNet and Vision transformer for images, GAT for graph, DGCNN for 3D point cloud, alongside LSTM for language, and demonstrate that, even with a simple L1 norm criterion, the proposed method consistently yields gratifying performances.
翻訳日:2023-01-31 14:32:51 公開日:2023-01-30
# 逆攻撃性とロバストサンプルの同定

Identifying Adversarially Attackable and Robust Samples ( http://arxiv.org/abs/2301.12896v1 )

ライセンス: Link先を確認
Vyas Raina and Mark Gales(参考訳) 本研究は,サンプル攻撃性とロバスト性の概念を導入することで,敵対的攻撃に対する新たな視点を提案する。 敵の攻撃は、深層学習モデルの出力に大きく、望ましくない変化を引き起こす入力に小さな、知覚できない摂動を挿入する。 敵意攻撃の生成や防衛システム構築に関する広範な研究にもかかわらず、入力データの観点からの敵意攻撃の理解に関する研究は限られている。 本研究では,未確認対象モデルを対象としたデータセットにおいて,最も攻撃的かつ堅牢なサンプルを検出するディープラーニングに基づく手法を提案する。 提案手法は,サンプルを入力としたニューラルネットワークアーキテクチャに基づいて,攻撃可能性や堅牢性の尺度を出力する。 提案手法は,様々なモデルと異なる攻撃手法を用いて評価し,その効果を敵攻撃の影響を受けやすい試料の検出に有効であることを示す。 サンプル攻撃可能性を理解することは、サンプル選択タスクにおける将来の作業に重要な意味を持つ。 例えば、アクティブラーニングでは、取得関数は最も攻撃可能なサンプルを選択するように設計したり、敵のトレーニングでは、強化のために最も攻撃可能なサンプルのみを選択することができる。

This work proposes a novel perspective on adversarial attacks by introducing the concept of sample attackability and robustness. Adversarial attacks insert small, imperceptible perturbations to the input that cause large, undesired changes to the output of deep learning models. Despite extensive research on generating adversarial attacks and building defense systems, there has been limited research on understanding adversarial attacks from an input-data perspective. We propose a deep-learning-based method for detecting the most attackable and robust samples in an unseen dataset for an unseen target model. The proposed method is based on a neural network architecture that takes as input a sample and outputs a measure of attackability or robustness. The proposed method is evaluated using a range of different models and different attack methods, and the results demonstrate its effectiveness in detecting the samples that are most likely to be affected by adversarial attacks. Understanding sample attackability can have important implications for future work in sample-selection tasks. For example in active learning, the acquisition function can be designed to select the most attackable samples, or in adversarial training, only the most attackable samples are selected for augmentation.
翻訳日:2023-01-31 14:32:20 公開日:2023-01-30
# 高次元完全非線形PIDEとジャンプを伴うFBSDEの深層学習数値計算法

Deep learning numerical methods for high-dimensional fully nonlinear PIDEs and coupled FBSDEs with jumps ( http://arxiv.org/abs/2301.12895v1 )

ライセンス: Link先を確認
Wansheng Wang, Jie Wang, Jinping Li, Feifei Gao, Yi Fu(参考訳) 本研究では,ジャンプ拡散過程をブラウン運動と独立補償ポアソン確率測度によって導出する高次元放物型積分微分方程式(pide)と高次元前方後方確率微分方程式(fbsdejs)を解くための深層学習アルゴリズムを提案する。 このアルゴリズムでは、勾配と積分核の近似のための1対のディープニューラルネットワークを、ディープFBSDE法に基づく決定的な方法で導入する。 この深層学習アルゴリズムの誤差推定を導出するために,マルコフ反復の収束,オイラー時間離散化の誤差境界,深層学習アルゴリズムのシミュレーション誤差について検討した。 提案アルゴリズムの効率性を示すために,2つの数値例を示す。

We propose a deep learning algorithm for solving high-dimensional parabolic integro-differential equations (PIDEs) and high-dimensional forward-backward stochastic differential equations with jumps (FBSDEJs), where the jump-diffusion process are derived by a Brownian motion and an independent compensated Poisson random measure. In this novel algorithm, a pair of deep neural networks for the approximations of the gradient and the integral kernel is introduced in a crucial way based on deep FBSDE method. To derive the error estimates for this deep learning algorithm, the convergence of Markovian iteration, the error bound of Euler time discretization, and the simulation error of deep learning algorithm are investigated. Two numerical examples are provided to show the efficiency of this proposed algorithm.
翻訳日:2023-01-31 14:32:02 公開日:2023-01-30
# CoqにおけるニューラルネットワークのPiecewise Affine活性化関数の形式化

Formalizing Piecewise Affine Activation Functions of Neural Networks in Coq ( http://arxiv.org/abs/2301.12893v1 )

ライセンス: Link先を確認
Andrei Aleksandrov and Kim V\"ollinger(参考訳) ニューラルネットワークの検証は、部分的アフィン(pwa)である活性化関数に依存している。 本稿では,実解析のためのライブラリCoquelicotを用いて,Coq内のニューラルネットワークを検証するための対話型定理証明器として,pwaアクティベーション関数の最初の形式化を提案する。 概念実証として、一般的なpwaアクティベーション関数ReLUを構築する。 我々は、ニューラルネットワークのCoqモデルにフォーマル化を統合し、ニューラルネットワーク N から N を表す pwa 関数への検証済み変換を、各層で構築する pwa 関数を構成することによって考案する。 この表現は、例えば coq の戦術 lra - a decision procedure for linear real arithmetic など、証明自動化のためのエンコーディングを可能にする。 さらに,当社の形式化は,自動証明が失敗した場合のフォールバック証明として,ニューラルネットワーク検証のフレームワークにcoqを統合する方法を提供します。

Verification of neural networks relies on activation functions being piecewise affine (pwa) -- enabling an encoding of the verification problem for theorem provers. In this paper, we present the first formalization of pwa activation functions for an interactive theorem prover tailored to verifying neural networks within Coq using the library Coquelicot for real analysis. As a proof-of-concept, we construct the popular pwa activation function ReLU. We integrate our formalization into a Coq model of neural networks, and devise a verified transformation from a neural network N to a pwa function representing N by composing pwa functions that we construct for each layer. This representation enables encodings for proof automation, e.g. Coq's tactic lra -- a decision procedure for linear real arithmetic. Further, our formalization paves the way for integrating Coq in frameworks of neural network verification as a fallback prover when automated proving fails.
翻訳日:2023-01-31 14:31:49 公開日:2023-01-30
# リカレントニューラルネットワークにおける情報フラックスの定量化と最大化

Quantifying and maximizing the information flux in recurrent neural networks ( http://arxiv.org/abs/2301.12892v1 )

ライセンス: Link先を確認
Claus Metzner, Marius E. Yamakou, Dennis Voelkl, Achim Schilling and Patrick Krauss(参考訳) 自由実行型リカレントニューラルネットワーク(rnn)、特に確率モデルでは、相互情報$i\left[\vec{x}(t),\vec{x}(t\! +\! 1)\right]$ 次のシステム状態間で、$\vec{x}$。 以前の研究では、$i$はネットワークの接続重みの統計に依存することが示されているが、(1)体系的に$i$を最大化する方法と、(2)相互情報を計算できない大規模システムにおけるフラックスの定量化方法が不明である。 本稿ではボルツマンマシンをモデルシステムとして用いる。 強い接続を持つネットワークでは、相互情報$I$は、大系においても効率的に計算できる量であるニューロンペア間のルート平均2乗平均ピアソン相関の単調変換であることがわかった。 さらに、$I\left[\vec{x}(t),\vec{x}(t\! +\! 1)\right]$は、高自発的情報流束を持つシステムの体系的構築を可能にする重み行列の一般的な設計原理を明らかにする。 最後に,これらの動的ネットワークの状態空間における情報フラックスとサイクリックアトラクタの平均周期長を同時に最大化する。 この結果は,短期記憶やパターン生成装置として機能するRNNの構築に有用である可能性がある。

Free-running Recurrent Neural Networks (RNNs), especially probabilistic models, generate an ongoing information flux that can be quantified with the mutual information $I\left[\vec{x}(t),\vec{x}(t\!+\!1)\right]$ between subsequent system states $\vec{x}$. Although, former studies have shown that $I$ depends on the statistics of the network's connection weights, it is unclear (1) how to maximize $I$ systematically and (2) how to quantify the flux in large systems where computing the mutual information becomes intractable. Here, we address these questions using Boltzmann machines as model systems. We find that in networks with moderately strong connections, the mutual information $I$ is approximately a monotonic transformation of the root-mean-square averaged Pearson correlations between neuron-pairs, a quantity that can be efficiently computed even in large systems. Furthermore, evolutionary maximization of $I\left[\vec{x}(t),\vec{x}(t\!+\!1)\right]$ reveals a general design principle for the weight matrices enabling the systematic construction of systems with a high spontaneous information flux. Finally, we simultaneously maximize information flux and the mean period length of cyclic attractors in the state space of these dynamical networks. Our results are potentially useful for the construction of RNNs that serve as short-time memories or pattern generators.
翻訳日:2023-01-31 14:31:34 公開日:2023-01-30
# 画像の半分は品質評価に十分です

Half of an image is enough for quality assessment ( http://arxiv.org/abs/2301.12891v1 )

ライセンス: Link先を確認
Junyong You, Yuan Lin, Jari Korhonen(参考訳) ディープネットワークは画像品質評価(IQA)において有望な性能を示す一方、ディープモデルがどのように機能するかの研究は少ない。 本研究では,画像の半数が画像品質に自明に寄与する可能性があるのに対して,残りの半分は重要であり,iqa用位置マスクトランスフォーマを開発した。 このような観察は、CNNベースのIQAモデルにおいて、画像領域の半分が画像品質を支配し得るように一般化されている。 この観察により、IQAにおける画像領域の重要性度に応じて、三つの意味尺度(相性、周波数、対象性)が導出される。

Deep networks show promising performance in image quality assessment (IQA), whereas few studies have investigated how a deep model works. In this work, a positional masked transformer for IQA is first developed, based on which we observe that half of an image might contribute trivially to image quality, whereas the other half is crucial. Such observation is generalized to that half of the image regions can dominate image quality in several CNN-based IQA models. Motivated by this observation, three semantic measures (saliency, frequency, objectness) are then derived, showing high accordance with importance degree of image regions in IQA.
翻訳日:2023-01-31 14:31:12 公開日:2023-01-30
# 物質相における地盤・熱状態の効率的な学習

Efficient learning of ground & thermal states within phases of matter ( http://arxiv.org/abs/2301.12946v1 )

ライセンス: Link先を確認
Emilio Onorati, Cambyse Rouz\'e, Daniel Stilck Fran\c{c}a, James D. Watson(参考訳) 関連する2つのタスクについて検討します (a)この状態におけるギブス状態のパラメータ化とリプシッツ観測量の期待値の推定 (b)物質の熱的または量子的位相における局所観測物の期待値を学ぶこと。 どちらの場合も、これらの特性を与えられた精度で学習するために使用するサンプルの数を最小化したい。 まず、相関の指数的減衰と近似マルコフ特性を持つ非可換ハミルトニアンの量子ギブス状態を含む、システムのクラスのパラメータ化を学ぶ新しい手法を開発した。 システムサイズに多元的にスケールするだけでなく、可観測性の局所性に多項式的にスケールする多数のコピーから、状態の広範囲な特性の期待値を推測できることを指数関数的な改善として示す。 この性質の集合は準局所観測可能とエントロピーの期待値を含む。 第2の課題として,量子システムにおける可観測性学習のための効率的なアルゴリズムを開発した。 ハミルトニアンの局所性を利用すると、$M$局所観測可能量は確率$1-\delta$ to precision$\epsilon$で学習でき、$N=O\big(\log\big(\frac{M}{\delta}\big)e^{polylog(\epsilon^{-1})}\big)$ sample -- 前の境界の精度を指数関数的に改善する。 本研究は,局所トポロジカル量子次数を示すハミルトンの基底状態の族と,指数関数的相関減衰を持つ物質の熱相の両方に適用できる。 加えて、サンプルの複雑さはより悪いケース設定に当てはまるが、以前の結果は平均にしか当てはまらない。 さらに,ロバストなシャドウトモグラフィアルゴリズム,基底状態へのギブス近似,ギブス状態の輸送コスト不等式一般化など,独立した関心を持つツールを開発した。

We consider two related tasks: (a) estimating a parameterisation of a given Gibbs state and expectation values of Lipschitz observables on this state; and (b) learning the expectation values of local observables within a thermal or quantum phase of matter. In both cases, we wish to minimise the number of samples we use to learn these properties to a given precision. For the first task, we develop new techniques to learn parameterisations of classes of systems, including quantum Gibbs states of non-commuting Hamiltonians with exponential decay of correlations and the approximate Markov property. We show it is possible to infer the expectation values of all extensive properties of the state from a number of copies that not only scales polylogarithmically with the system size, but polynomially in the observable's locality -- an exponential improvement. This set of properties includes expected values of quasi-local observables and entropies. For the second task, we develop efficient algorithms for learning observables in a phase of matter of a quantum system. By exploiting the locality of the Hamiltonian, we show that $M$ local observables can be learned with probability $1-\delta$ to precision $\epsilon$ with using only $N=O\big(\log\big(\frac{M}{\delta}\big)e^{polylog(\epsilon^{-1})}\big)$ samples -- an exponential improvement on the precision over previous bounds. Our results apply to both families of ground states of Hamiltonians displaying local topological quantum order, and thermal phases of matter with exponential decay of correlations. In addition, our sample complexity applies to the worse case setting whereas previous results only applied on average. Furthermore, we develop tools of independent interest, such as robust shadow tomography algorithms, Gibbs approximations to ground states, and generalisations of transportation cost inequalities for Gibbs states.
翻訳日:2023-01-31 14:25:52 公開日:2023-01-30
# 野生生物のカメラによる自己監視に影響を及ぼす要因

Factors that affect Camera based Self-Monitoring of Vitals in the Wild ( http://arxiv.org/abs/2301.12943v1 )

ライセンス: Link先を確認
Nikhil S. Narayan, Shashanka B. R., Rohit Damodaran, Dr. Chandrashekhar Jayaram, Dr. M. A. Kareem, Dr. Mamta P., Dr. Saravanan K. R., Dr. Monu Krishnan, Dr. Raja Indana(参考訳) 医療機器やウェアラブル、カメラベースのスマートフォンソリューションを用いた野生生物の自己監視結果の信頼性は、配置位置、装置のハードウェア、環境要因など様々な要因に左右される。 本研究は, 血圧(BP), 酸素飽和度(SpO2), 心拍数(HR)の自己モニタリングにおけるこの変動が, 203名の健常者に対して統計的に有意(p<0.05)であることを示した。 また、スマートフォンにおけるバイタルの自己監視のためのカメラベースのソリューションにおけるこの多様性の存在を確立し、カメラベースのスマートフォンソリューションの使用は、医療機器やウェアラブルを野生のセルフモニタリングに使用するのと似ていることを証明した。

The reliability of the results of self monitoring of the vitals in the wild using medical devices or wearables or camera based smart phone solutions is subject to variabilities such as position of placement, hardware of the device and environmental factors. In this first of its kind study, we demonstrate that this variability in self monitoring of Blood Pressure (BP), Blood oxygen saturation level (SpO2) and Heart rate (HR) is statistically significant (p<0.05) on 203 healthy subjects by quantifying positional and hardware variability. We also establish the existence of this variability in camera based solutions for self-monitoring of vitals in smart phones and thus prove that the use of camera based smart phone solutions is similar to the use of medical devices or wearables for self-monitoring in the wild.
翻訳日:2023-01-31 14:25:16 公開日:2023-01-30
# 線形関数近似を用いた逆MDPの精製レグレット

Refined Regret for Adversarial MDPs with Linear Function Approximation ( http://arxiv.org/abs/2301.12942v1 )

ライセンス: Link先を確認
Yan Dai, Haipeng Luo, Chen-Yu Wei, Julian Zimmert(参考訳) 我々は,mdp(adversarial markov decision process)において,損失関数がk$エピソード以上で任意に変化し,状態空間が任意に大きくなるような学習を考える。 任意の方針の q-函数は、ある既知の特徴、すなわち線型関数近似において線型であると仮定する。 この設定に対する最大の後悔の上界(Luo et al., 2021)は、シミュレータへのアクセスを条件に、$\tilde{\mathcal O}(K^{2/3})$(他のすべての依存関係を省略)である。 本稿では,同じ設定で$\tilde{\mathcal O}(\sqrt K)$に対する後悔を改善する2つのアルゴリズムを提案する。 我々の最初のアルゴリズムは、FTRLアルゴリズムをログバリア正規化器を用いて精巧に解析する。 この分析により、損失推定者は任意に負であり、独立した関心を持つことができる。 第2のアルゴリズムは、マグニチュード低減損失推定器を開発し、第1のアルゴリズムのアクション数に対する多項式依存性をさらに取り除き、(対数項と水平線への依存性まで)最適な後悔境界へと導く。 さらに、最初のアルゴリズムをシミュレータフリーな線形MDPに拡張し、$\tilde{\mathcal O}(K^{8/9})を後悔し、$\tilde{\mathcal O}(K^{14/15})$に対して大幅に改善する。 このアルゴリズムは、neu & olkhovskaya (2020) による行列幾何学的再サンプリング手順のより良い代替法に依存している。

We consider learning in an adversarial Markov Decision Process (MDP) where the loss functions can change arbitrarily over $K$ episodes and the state space can be arbitrarily large. We assume that the Q-function of any policy is linear in some known features, that is, a linear function approximation exists. The best existing regret upper bound for this setting (Luo et al., 2021) is of order $\tilde{\mathcal O}(K^{2/3})$ (omitting all other dependencies), given access to a simulator. This paper provides two algorithms that improve the regret to $\tilde{\mathcal O}(\sqrt K)$ in the same setting. Our first algorithm makes use of a refined analysis of the Follow-the-Regularized-Leader (FTRL) algorithm with the log-barrier regularizer. This analysis allows the loss estimators to be arbitrarily negative and might be of independent interest. Our second algorithm develops a magnitude-reduced loss estimator, further removing the polynomial dependency on the number of actions in the first algorithm and leading to the optimal regret bound (up to logarithmic terms and dependency on the horizon). Moreover, we also extend the first algorithm to simulator-free linear MDPs, which achieves $\tilde{\mathcal O}(K^{8/9})$ regret and greatly improves over the best existing bound $\tilde{\mathcal O}(K^{14/15})$. This algorithm relies on a better alternative to the Matrix Geometric Resampling procedure by Neu & Olkhovskaya (2020), which could again be of independent interest.
翻訳日:2023-01-31 14:25:00 公開日:2023-01-30
# PVモジュールにおけるデータ駆動型土壌検出

Data-driven soiling detection in PV modules ( http://arxiv.org/abs/2301.12939v1 )

ライセンス: Link先を確認
Alexandros Kalimeris, Ioannis Psarros, Giorgos Giannopoulos, Manolis Terrovitis, George Papastefanatos, Gregory Kotsis(参考訳) 汚れはソーラーパネル内の汚れの蓄積であり、太陽エネルギーの収量の減少につながり、莫大な収益損失の原因となる可能性がある。 パネルを洗うことで土壌処理の効果を低減できるが、これは不可避なコストの手順である。 さらに、土壌モニタリングシステムはしばしば信頼できないか、非常にコストがかかる。 本研究では,太陽電池パネルをクリーンにした場合に発生する電力出力に対する実際の電力出力の比率を,太陽光発電モジュールの土壌比として推定する問題について検討した。 私たちのアルゴリズムの重要な利点は、ラベル付きデータ、すなわち各公園の土壌を明示的に監視する期間を必要とせず、各インストールの特異性を考慮しない一般的な分析式に頼ることなく、土壌を推定することです。 我々は,ほとんどのPV公園運営者が利用できる最小限の測定値からなる時系列を入力として考える。 実験により, 土質比を推定するための最先端手法を著しく上回っていることが明らかとなった。

Soiling is the accumulation of dirt in solar panels which leads to a decreasing trend in solar energy yield and may be the cause of vast revenue losses. The effect of soiling can be reduced by washing the panels, which is, however, a procedure of non-negligible cost. Moreover, soiling monitoring systems are often unreliable or very costly. We study the problem of estimating the soiling ratio in photo-voltaic (PV) modules, i.e., the ratio of the real power output to the power output that would be produced if solar panels were clean. A key advantage of our algorithms is that they estimate soiling, without needing to train on labelled data, i.e., periods of explicitly monitoring the soiling in each park, and without relying on generic analytical formulas which do not take into account the peculiarities of each installation. We consider as input a time series comprising a minimum set of measurements, that are available to most PV park operators. Our experimental evaluation shows that we significantly outperform current state-of-the-art methods for estimating soiling ratio.
翻訳日:2023-01-31 14:24:26 公開日:2023-01-30
# era-solver:拡散確率モデルの高速サンプリングのためのエラーロバストアダムス解法

ERA-Solver: Error-Robust Adams Solver for Fast Sampling of Diffusion Probabilistic Models ( http://arxiv.org/abs/2301.12935v1 )

ライセンス: Link先を確認
Shengmeng Li, Luping Liu, Zenghao Chai, Runnan Li, Xu Tan(参考訳) DDPM(denoising diffusion probabilistic model)は優れた生成結果を得たが、DDPMのサンプリング効率の低さは依然としてさらなる応用を制限している。 DDPMは拡散常微分方程式(ODE)として定式化できるため、様々な高速サンプリング法は拡散方程式の解法から導出される。 しかし, 事前学習した拡散モデルから推定した雑音の誤差に対して, 固定解析形式による従来のサンプリング手法は頑健ではないことがわかった。 本研究では,予測器と補正器からなる暗黙のアダムス数値解法を用いて,エラーロバスト・アダムス解法(era-solver)を構築した。 明示的なアダムス法に基づく従来の予測器とは異なり、予測器としてラグランジュ補間関数を活用し、推定ノイズの誤差が低いラグランジュ基底を適応的に選択するエラーロバスト戦略をさらに強化する。 Cifar10, LSUN-Church, LSUN-Bedroomのデータセットを用いた実験により, 提案したERA-Solverは画像生成のための5.14, 9.42, 9.69 Fenchel Inception Distance(FID)を達成でき, ネットワーク評価は10に過ぎなかった。

Though denoising diffusion probabilistic models (DDPMs) have achieved remarkable generation results, the low sampling efficiency of DDPMs still limits further applications. Since DDPMs can be formulated as diffusion ordinary differential equations (ODEs), various fast sampling methods can be derived from solving diffusion ODEs. However, we notice that previous sampling methods with fixed analytical form are not robust with the error in the noise estimated from pretrained diffusion models. In this work, we construct an error-robust Adams solver (ERA-Solver), which utilizes the implicit Adams numerical method that consists of a predictor and a corrector. Different from the traditional predictor based on explicit Adams methods, we leverage a Lagrange interpolation function as the predictor, which is further enhanced with an error-robust strategy to adaptively select the Lagrange bases with lower error in the estimated noise. Experiments on Cifar10, LSUN-Church, and LSUN-Bedroom datasets demonstrate that our proposed ERA-Solver achieves 5.14, 9.42, and 9.69 Fenchel Inception Distance (FID) for image generation, with only 10 network evaluations.
翻訳日:2023-01-31 14:24:08 公開日:2023-01-30
# 永続ホモロジーは知識グラフ補完手法の評価に有効な代替手段となるか?

Can Persistent Homology provide an efficient alternative for Evaluation of Knowledge Graph Completion Methods? ( http://arxiv.org/abs/2301.12929v1 )

ライセンス: Link先を確認
Anson Bastos, Kuldeep Singh, Abhishek Nadgeri, Johannes Hoffart, Toyotaro Suzumura, Manish Singh(参考訳) 本稿では,知識グラフ(kg)補完手法の高速評価のために,新しい手法である$\textit{knowledge persistence}$ (\mathcal{kp}$)を提案する。 現在のランキングに基づく評価はkgの大きさで2倍であり、長い評価時間と高い炭素フットプリントをもたらす。 $\mathcal{KP}$は、KG完備化法の位相をトポロジデータ解析のレンズで表現し、具体的には永続ホモロジーを用いてこの問題に対処する。 永続ホモロジーの特徴により、$\mathcal{kp}$ はデータのほんの一部だけを見て kg 完成の品質を評価することができる。 標準データセットを用いた実験結果から,提案指標はランキング指標(Hits@N, MR, MRR)と高い相関性を示した。 性能評価は、$\mathcal{KP}$が計算的に効率的であることを示している: 場合によっては、KG完了法の評価時間(validation+test)が18時間( Hits@10)から27秒($\mathcal{KP}$)に短縮され、平均(across method & data)では、評価時間(validation+test)が$\approx$$\textbf{99.96}\%$に削減された。

In this paper we present a novel method, $\textit{Knowledge Persistence}$ ($\mathcal{KP}$), for faster evaluation of Knowledge Graph (KG) completion approaches. Current ranking-based evaluation is quadratic in the size of the KG, leading to long evaluation times and consequently a high carbon footprint. $\mathcal{KP}$ addresses this by representing the topology of the KG completion methods through the lens of topological data analysis, concretely using persistent homology. The characteristics of persistent homology allow $\mathcal{KP}$ to evaluate the quality of the KG completion looking only at a fraction of the data. Experimental results on standard datasets show that the proposed metric is highly correlated with ranking metrics (Hits@N, MR, MRR). Performance evaluation shows that $\mathcal{KP}$ is computationally efficient: In some cases, the evaluation time (validation+test) of a KG completion method has been reduced from 18 hours (using Hits@10) to 27 seconds (using $\mathcal{KP}$), and on average (across methods & data) reduces the evaluation time (validation+test) by $\approx$ $\textbf{99.96}\%$.
翻訳日:2023-01-31 14:23:06 公開日:2023-01-30
# 非適応的インコヒーレント測定を用いたサンプル最適量子プロセストモグラフィ

Sample-Optimal Quantum Process Tomography with Non-Adaptive Incoherent Measurements ( http://arxiv.org/abs/2301.12925v1 )

ライセンス: Link先を確認
Aadil Oufkir(参考訳) 量子過程のコピーはいくつ必要で、その近似古典的な記述を構築するのに十分か? 我々は、Surawy-Stepney, Kahn, Kueng, Guta (2022) の結果を拡張して、$\tilde{\mathcal{O}}(d_{\text{in}}^3d_{\text{out}}^3/\varepsilon^2)$コピーが任意の量子チャネル $C^{d_{\text{in}}\times d_{\text{in}}} \rightarrow C^{d_{\text{out}}\times d_{\text{out}}}$をダイヤモンドノルムの$\varepsilon$内で学習するのに十分であることを示す。 さらに,不整合な非適応測定を用いた戦略では,$\Omega(d_{\text{in}}^3 d_{\text{out}}^3/\varepsilon^2)$コピーが必要であることを示す。 この下限は ancilla-assisted strategy にも適用される。

How many copies of a quantum process are necessary and sufficient to construct an approximate classical description of it? We extend the result of Surawy-Stepney, Kahn, Kueng, and Guta (2022) to show that $\tilde{\mathcal{O}}(d_{\text{in}}^3d_{\text{out}}^3/\varepsilon^2)$ copies are sufficient to learn any quantum channel $C^{d_{\text{in}}\times d_{\text{in}}} \rightarrow C^{d_{\text{out}}\times d_{\text{out}}}$ to within $\varepsilon$ in diamond norm. Moreover, we show that $\Omega(d_{\text{in}}^3 d_{\text{out}}^3/\varepsilon^2)$ copies are necessary for any strategy using incoherent non-adaptive measurements. This lower bound applies even for ancilla-assisted strategies.
翻訳日:2023-01-31 14:22:31 公開日:2023-01-30
# 蒸留における教師の逸脱について--不服従にかかわるのか?

On student-teacher deviations in distillation: does it pay to disobey? ( http://arxiv.org/abs/2301.12923v1 )

ライセンス: Link先を確認
Vaishnavh Nagarajan, Aditya Krishna Menon, Srinadh Bhojanapalli, Hossein Mobahi, Sanjiv Kumar(参考訳) 知識蒸留は「教師」ネットワークのソフトな確率を模倣して「学生」ネットワークの性能を向上させるために広く用いられている。 しかし、自給自足のためには、学生は何らかの理由で教師から逸脱しなければならない(Stanton et al., 2021)。 しかし、これらの偏差の性質はどのようなもので、一般化における利益とはどのように関係しているのか? 画像および言語分類データセットを横断する一連の実験を通じて,これらの質問を調査した。 まず, 教師の信頼度が低い点において, 生徒は教師よりも信頼度が低い点において, 蒸留が一定にずれていることを観察する。 第2に、トレーニングの初期のダイナミクスの偏りは重要ではなく、単にトレーニングの途中で蒸留損失に切り替えれば、その利益の大部分を回復できるということです。 次に, 実験における学生-教師の偏差の役割を理解するために, 2つの並列理論的な視点を提案し, 1つは固有空間における正則化剤として, もう1つは勾配デノイザーとして, 1つは勾配デノイザーとして, 実験は2つある。 我々の分析は既存の理論と実践のギャップを橋渡しする (a)勾配降下訓練に焦点をあてる (b)ラベルノイズの仮定を回避し、 (c) 不連続な経験的・理論的発見を統一すること。

Knowledge distillation has been widely-used to improve the performance of a "student" network by hoping to mimic soft probabilities of a "teacher" network. Yet, for self-distillation to work, the student must somehow deviate from the teacher (Stanton et al., 2021). But what is the nature of these deviations, and how do they relate to gains in generalization? We investigate these questions through a series of experiments across image and language classification datasets. First, we observe that distillation consistently deviates in a characteristic way: on points where the teacher has low confidence, the student achieves even lower confidence than the teacher. Secondly, we find that deviations in the initial dynamics of training are not crucial -- simply switching to distillation loss in the middle of training can recover much of its gains. We then provide two parallel theoretical perspectives to understand the role of student-teacher deviations in our experiments, one casting distillation as a regularizer in eigenspace, and another as a gradient denoiser. Our analysis bridges several gaps between existing theory and practice by (a) focusing on gradient-descent training, (b) by avoiding label noise assumptions, and (c) by unifying several disjoint empirical and theoretical findings.
翻訳日:2023-01-31 14:22:10 公開日:2023-01-30
# 多言語意味パーサのためのアクティブラーニング

Active Learning for Multilingual Semantic Parser ( http://arxiv.org/abs/2301.12920v1 )

ライセンス: Link先を確認
Zhuang Li, Gholamreza Haffari(参考訳) 現在のマルチ言語セマンティックパーシング(MSP)データセットは、既存のデータセットの発話をリソース豊富な言語からターゲット言語に翻訳することで、ほぼすべて収集される。 しかし、手作業による翻訳はコストがかかる。 そこで本研究では,MSP (AL-MSP) のための最初の能動的学習手法を提案する。 AL-MSPは翻訳対象の既存のデータセットからサブセットのみを選択する。 また,より語彙的な選択によって論理形式構造を多様化する例を優先する新しい選択法と,追加のアノテーションコストを必要としない新しいハイパーパラメータチューニング法を提案する。 実験の結果,AL-MSPは理想的な選択法で翻訳コストを大幅に削減できることがわかった。 提案手法は,2つの多言語データセットの他のベースラインよりも解析性能がよい。

Current multilingual semantic parsing (MSP) datasets are almost all collected by translating the utterances in the existing datasets from the resource-rich language to the target language. However, manual translation is costly. To reduce the translation effort, this paper proposes the first active learning procedure for MSP (AL-MSP). AL-MSP selects only a subset from the existing datasets to be translated. We also propose a novel selection method that prioritizes the examples diversifying the logical form structures with more lexical choices, and a novel hyperparameter tuning method that needs no extra annotation cost. Our experiments show that AL-MSP significantly reduces translation costs with ideal selection methods. Our selection method with proper hyperparameters yields better parsing performance than the other baselines on two multilingual datasets.
翻訳日:2023-01-31 14:21:50 公開日:2023-01-30
# mrnet:大規模ポイントクラウドセグメンテーションのためのマルチ入力レセプティブフィールドネットワーク

MRNet: Multiple-Input Receptive Field Network for Large-Scale Point Cloud Segmentation ( http://arxiv.org/abs/2301.12972v1 )

ライセンス: Link先を確認
Sunghwan Yoo, Yeongjeong Jeong, Maryam Jameela, Gunho Sohn(参考訳) 入力受容フィールドのサイズは、ポイントクラウドの意味セグメンテーションにおいて最も重要な側面の1つであるが、最も見過ごされているパラメータの1つである。 本稿では,多入力のフィールド処理セマンティックセグメンテーションネットワークMRNetを提案する。 我々の設計の基本的な哲学は、入力受容場ジレンマのサイズを克服することである。 特に、入力受容場のサイズは、異なる大きさのオブジェクトの性能に大きな影響を及ぼす。 そこで本研究では,並列ストリーム間の接続モジュールを持つ並列処理ネットワークを提案する。 本研究は,実装モジュールの有効性を示す。 また,大規模クラウドデータセットSensatUrbanに,最先端のパフォーマンスを新たに設定した。

The size of the input receptive field is one of the most critical aspects in the semantic segmentation of the point cloud, yet it is one of the most overlooked parameters. This paper presents the multiple-input receptive field processing semantic segmentation network MRNet. The fundamental philosophy of our design is to overcome the size of the input receptive field dilemma. In particular, the input receptive field's size significantly impacts the performance of different sizes of objects. To overcome this, we introduce a parallel processing network with connection modules between the parallel streams. Our ablation studies show the effectiveness of implemented modules. Also, we set the new state-of-art performance on the large-scale point cloud dataset SensatUrban.
翻訳日:2023-01-31 14:15:53 公開日:2023-01-30
# 変圧器におけるコンテキスト混合の定量化

Quantifying Context Mixing in Transformers ( http://arxiv.org/abs/2301.12971v1 )

ライセンス: Link先を確認
Hosein Mohebbi, Willem Zuidema, Grzegorz Chrupa{\l}a, Afra Alishahi(参考訳) 自己付着重みとその変形型は、トランスフォーマーモデルにおけるトークンとトケンの相互作用を分析するための主要な情報源となっている。 しかし、解釈の容易さにもかかわらず、これらの重みはエンコーダの一部に過ぎないため、モデルの決定に忠実ではなく、エンコーダ層の他のコンポーネントは出力表現における情報混合に大きな影響を与える可能性がある。 本稿では,解析範囲をエンコーダブロック全体に拡大することにより,トランスフォーマ用にカスタマイズされた新たなコンテキスト混合スコアであるvalue zeroingを提案する。 本稿では,言語学的に有意な合理性,探索性,忠実性分析に基づいて,異なる視点の補完的評価を行い,他の分析手法よりも文脈混合スコアの優位を示す。

Self-attention weights and their transformed variants have been the main source of information for analyzing token-to-token interactions in Transformer-based models. But despite their ease of interpretation, these weights are not faithful to the models' decisions as they are only one part of an encoder, and other components in the encoder layer can have considerable impact on information mixing in the output representations. In this work, by expanding the scope of analysis to the whole encoder block, we propose Value Zeroing, a novel context mixing score customized for Transformers that provides us with a deeper understanding of how information is mixed at each encoder layer. We demonstrate the superiority of our context mixing score over other analysis methods through a series of complementary evaluations with different viewpoints based on linguistically informed rationales, probing, and faithfulness analysis.
翻訳日:2023-01-31 14:15:43 公開日:2023-01-30
# n-aksarasを使ってsanskritとsanskrit-adjacentテキストをモデル化する

Using n-aksaras to model Sanskrit and Sanskrit-adjacent texts ( http://arxiv.org/abs/2301.12969v1 )

ライセンス: Link先を確認
Charles Li (CNRS, CEIAS)(参考訳) その単純さ、n-gram、または連続したトークン列にもかかわらず、20世紀後半に導入されて以来、計算言語学において大きな成功を収めてきた。 モノマーの連続配列であるk-merとして再キャストされ、計算生物学にも応用されている。 テキストの分析に適用する場合、n-gramは通常、単語のシーケンスの形式を取る。 しかし、サンスクリットのテキストの分析にこのモデルを適用しようとすると、まずサンディー語を単語に分解し、次に長い化合物をその構成要素に分解するという厳しい課題に直面することになる。 本稿では,n-aksaras あるいは aksaras の連続配列を用いて,n-gram のサンスクリットテキストのトークン化方法を提案する。 このモデルは、sandhi解決の必要性を減らし、生のテキストでの使用をずっと簡単にする。 このモデルはサンスクリットに隣接したテキスト(例えば、サンスクリットのテキストに関するタミル語注釈など)でも使用できる。 テストケースとして、Amarakosa 1.0.1の注釈書はn-aksarasとしてモデル化され、10世紀と9言語にわたるテキスト再利用のパターンを示している。 仏教の解説の実践について、初期の観察がなされている。

Despite -- or perhaps because of -- their simplicity, n-grams, or contiguous sequences of tokens, have been used with great success in computational linguistics since their introduction in the late 20th century. Recast as k-mers, or contiguous sequences of monomers, they have also found applications in computational biology. When applied to the analysis of texts, n-grams usually take the form of sequences of words. But if we try to apply this model to the analysis of Sanskrit texts, we are faced with the arduous task of, firstly, resolving sandhi to split a phrase into words, and, secondly, splitting long compounds into their components. This paper presents a simpler method of tokenizing a Sanskrit text for n-grams, by using n-aksaras, or contiguous sequences of aksaras. This model reduces the need for sandhi resolution, making it much easier to use on raw text. It is also possible to use this model on Sanskrit-adjacent texts, e.g., a Tamil commentary on a Sanskrit text. As a test case, the commentaries on Amarakosa 1.0.1 have been modelled as n-aksaras, showing patterns of text reuse across ten centuries and nine languages. Some initial observations are made concerning Buddhist commentarial practices.
翻訳日:2023-01-31 14:15:30 公開日:2023-01-30
# スケジューリングステップサイズと二重例による逆転送性の向上

Improving Adversarial Transferability with Scheduled Step Size and Dual Example ( http://arxiv.org/abs/2301.12968v1 )

ライセンス: Link先を確認
Zeliang Zhang, Peihan Liu, Xiaosen Wang and Chenliang Xu(参考訳) ディープニューラルネットワークは、特にホワイトボックス設定下で生成された敵の例で、かなり低いパフォーマンスを示す、敵の例に弱いことが広く知られている。 しかし、ほとんどのホワイトボックス攻撃法はターゲットモデルに大きく依存しており、すぐに局所最適状態に陥り、敵の移動性が低下する。 運動量に基づく手法とその変種は、より優れた伝達性のために局所最適化から逃れるために提案されている。 本研究では,反復型高速勾配符号法 (I-FGSM) によって生じる逆例の転送性は,反復数の増加に伴って低下傾向を示す。 この発見に触発されて、良性試料の近傍の対向摂動に関する情報、特に方向は、伝達可能性により多くの恩恵をもたらすと論じる。 そこで本研究では,スケジュールされたステップサイズとデュアルサンプル(sd)を用いて,良性標本近傍の敵情報を完全に活用する新しい戦略を提案する。 提案手法は,既存の対向攻撃手法と容易に統合でき,対向移動性が向上する。 標準のimagenetデータセットにおける経験的評価は、提案手法が既存の敵攻撃の転送性を大幅に向上できることを示しています。

Deep neural networks are widely known to be vulnerable to adversarial examples, especially showing significantly poor performance on adversarial examples generated under the white-box setting. However, most white-box attack methods rely heavily on the target model and quickly get stuck in local optima, resulting in poor adversarial transferability. The momentum-based methods and their variants are proposed to escape the local optima for better transferability. In this work, we notice that the transferability of adversarial examples generated by the iterative fast gradient sign method (I-FGSM) exhibits a decreasing trend when increasing the number of iterations. Motivated by this finding, we argue that the information of adversarial perturbations near the benign sample, especially the direction, benefits more on the transferability. Thus, we propose a novel strategy, which uses the Scheduled step size and the Dual example (SD), to fully utilize the adversarial information near the benign sample. Our proposed strategy can be easily integrated with existing adversarial attack methods for better adversarial transferability. Empirical evaluations on the standard ImageNet dataset demonstrate that our proposed method can significantly enhance the transferability of existing adversarial attacks.
翻訳日:2023-01-31 14:15:04 公開日:2023-01-30
# 階層的学習, 時空間的個人と集合的建築負荷の予測

Hierarchical learning, forecasting coherent spatio-temporal individual and aggregated building loads ( http://arxiv.org/abs/2301.12967v1 )

ライセンス: Link先を確認
Julien Leprince, Henrik Madsen, Jan Kloppenborg M{\o}ller, Wim Zeiler(参考訳) 最適な意思決定は、異なる地平線で未来を予測せざるを得ない。 しかし、多くのドメインにおいて、複数の時間的地平線からの予測と組織全体の抽象化レベルを結びつけることが、より重要になる。 これはスマートグリッド操作に特に当てはまる。 このようなシステムのエネルギーフローを最適に管理するには、様々な凝集レベルと地平線で正確で一貫性のある予測を行う必要がある。 本研究では,構造的インフォームド機械学習回帰器上に構築された多次元階層的予測手法を提案する。 多次元階層の一般的な定式化、空間的階層と時間的階層を共通フレームで整合化すること。 次に、最適和解法を利用したカスタム損失関数に基づくコヒーレンシインフォーム型階層学習器を開発した。 生成した階層的予測の一貫性は、同様の和解技術を用いて確保される。 結果は全次元にわたって統一的で一貫性のある予測である。 本手法は,空間的,時空間的,時空間的階層にまたがる電気的負荷を予測するための2つの異なるケーススタディに基づいて評価される。 回帰器は計算効率のよい学習から自然に利益を得るが、結果は異なる性能を示し、階層的コヒーレント学習の価値を1つの設定で示した。 しかし、総合的な結果分析によって、既存の障害は明らかに一線を画しており、将来の作業のための明確な経路を示している。 全体として, 従来の階層的予測手法は, 新たな世代予測レグレッサへの道筋を画策し, 統合する。

Optimal decision-making compels us to anticipate the future at different horizons. However, in many domains connecting together predictions from multiple time horizons and abstractions levels across their organization becomes all the more important, else decision-makers would be planning using separate and possibly conflicting views of the future. This notably applies to smart grid operation. To optimally manage energy flows in such systems, accurate and coherent predictions must be made across varying aggregation levels and horizons. With this work, we propose a novel multi-dimensional hierarchical forecasting method built upon structurally-informed machine-learning regressors and established hierarchical reconciliation taxonomy. A generic formulation of multi-dimensional hierarchies, reconciling spatial and temporal hierarchies under a common frame is initially defined. Next, a coherency-informed hierarchical learner is developed built upon a custom loss function leveraging optimal reconciliation methods. Coherency of the produced hierarchical forecasts is then secured using similar reconciliation technics. The outcome is a unified and coherent forecast across all examined dimensions. The method is evaluated on two different case studies to predict building electrical loads across spatial, temporal, and spatio-temporal hierarchies. Although the regressor natively profits from computationally efficient learning, results displayed disparate performances, demonstrating the value of hierarchical-coherent learning in only one setting. Yet, supported by a comprehensive result analysis, existing obstacles were clearly delineated, presenting distinct pathways for future work. Overall, the paper expands and unites traditionally disjointed hierarchical forecasting methods providing a fertile route toward a novel generation of forecasting regressors.
翻訳日:2023-01-31 14:14:46 公開日:2023-01-30
# 二次行列分解とマニフォールド学習への応用

Quadratic Matrix Factorization with Applications to Manifold Learning ( http://arxiv.org/abs/2301.12965v1 )

ライセンス: Link先を確認
Zheng Zhai, Hengchao Chen, and Qiang Sun(参考訳) 行列分解は低ランクデータ行列をモデル化するための一般的なフレームワークである。 本稿では,多様体学習問題に動機づけられた二次行列分解(qmf)フレームワークを提案する。 局所主成分解析のような局所線型手法とは異なり、QMFは基礎多様体の曲線構造をよりうまく活用することができる。 アルゴリズムでは,QMFを最適化し,その理論的収束特性を確立するための交代最小化アルゴリズムを提案する。 さらに,過剰適合を避けるため,正規化QMFアルゴリズムを提案し,正規化パラメータの調整方法について検討する。 最後に、正規化QMFを多様体学習問題に適用する方法を詳述する。 合成多様体学習データセットとMNIST手書きデータセットと低温電子顕微鏡データセットを含む2つの実データセットの実験は、提案手法が競合相手よりも優れていることを示す。

Matrix factorization is a popular framework for modeling low-rank data matrices. Motivated by manifold learning problems, this paper proposes a quadratic matrix factorization (QMF) framework to learn the curved manifold on which the dataset lies. Unlike local linear methods such as the local principal component analysis, QMF can better exploit the curved structure of the underlying manifold. Algorithmically, we propose an alternating minimization algorithm to optimize QMF and establish its theoretical convergence properties. Moreover, to avoid possible over-fitting, we then propose a regularized QMF algorithm and discuss how to tune its regularization parameter. Finally, we elaborate how to apply the regularized QMF to manifold learning problems. Experiments on a synthetic manifold learning dataset and two real datasets, including the MNIST handwritten dataset and a cryogenic electron microscopy dataset, demonstrate the superiority of the proposed method over its competitors.
翻訳日:2023-01-31 14:14:19 公開日:2023-01-30
# ベクトル量子化モデルを用いた階層的模倣学習

Hierarchical Imitation Learning with Vector Quantized Models ( http://arxiv.org/abs/2301.12962v1 )

ライセンス: Link先を確認
Kalle Kujanp\"a\"a, Joni Pajarinen, Alexander Ilin(参考訳) 複数の抽象レベルでアクションを計画できるため、インテリジェントエージェントは複雑なタスクを効果的に解決できる。 しかし、デモから低レベルの計画モデルと高レベルの計画モデルを学ぶことは、特に高次元入力では困難であることが証明されている。 この問題に対処するため,本稿では,国家と選択されたサブゴールが与える低レベル行動の予測可能性と,報酬の規模を関連付けることにより,専門家軌道におけるサブゴールの同定に強化学習を用いることを提案する。 同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。 実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。 計画する能力のため、我々のアルゴリズムはトレーニングセットのそれよりも良い軌道を見つけることができる。

The ability to plan actions on multiple levels of abstraction enables intelligent agents to solve complex tasks effectively. However, learning the models for both low and high-level planning from demonstrations has proven challenging, especially with higher-dimensional inputs. To address this issue, we propose to use reinforcement learning to identify subgoals in expert trajectories by associating the magnitude of the rewards with the predictability of low-level actions given the state and the chosen subgoal. We build a vector-quantized generative model for the identified subgoals to perform subgoal-level planning. In experiments, the algorithm excels at solving complex, long-horizon decision-making problems outperforming state-of-the-art. Because of its ability to plan, our algorithm can find better trajectories than the ones in the training set
翻訳日:2023-01-31 14:14:04 公開日:2023-01-30
# GALIP:テキスト対画像合成のための生成的逆CLIP

GALIP: Generative Adversarial CLIPs for Text-to-Image Synthesis ( http://arxiv.org/abs/2301.12959v1 )

ライセンス: Link先を確認
Ming Tao, Bing-Kun Bao, Hao Tang, Changsheng Xu(参考訳) テキストから高精細な複雑な画像を合成するのは難しい。 大規模な事前トレーニングに基づいて、自己回帰モデルと拡散モデルはフォトリアリスティック画像を合成することができる。 これらの大型モデルは顕著な進歩を見せているが、3つの欠点が残っている。 1)これらのモデルは、優れたパフォーマンスを達成するために、膨大なトレーニングデータとパラメータが必要です。 2) マルチステップ生成設計は画像合成過程を著しく遅くする。 3) 合成視覚特徴は制御が困難であり, 微妙なプロンプトが要求される。 高品質,効率的,高速,かつ制御可能なテキスト・ツー・イメージ合成を実現するため,GALIP(Generative Adversarial CLIPs)を提案する。 GALIPは、識別器とジェネレータの両方で、強力な事前訓練されたCLIPモデルを活用する。 具体的には,CLIPに基づく判別器を提案する。 CLIPの複雑なシーン理解能力により、判別器は画像の品質を正確に評価できる。 さらに,橋梁の特徴とプロンプトを通してCLIPから視覚概念を誘導するCLIPを利用したジェネレータを提案する。 このCLIP統合ジェネレータと識別器はトレーニング効率を向上し,本モデルではトレーニングデータ約3%と学習可能なパラメータ6%しか必要とせず,事前学習した大規模な自己回帰モデルと拡散モデルに匹敵する結果が得られる。 さらに,本モデルは合成速度を120倍に向上し,GANからスムーズな潜在空間を継承する。 広範な実験結果から,galipの優れた性能が得られた。 コードはhttps://github.com/tobran/GALIPで入手できる。

Synthesizing high-fidelity complex images from text is challenging. Based on large pretraining, the autoregressive and diffusion models can synthesize photo-realistic images. Although these large models have shown notable progress, there remain three flaws. 1) These models require tremendous training data and parameters to achieve good performance. 2) The multi-step generation design slows the image synthesis process heavily. 3) The synthesized visual features are difficult to control and require delicately designed prompts. To enable high-quality, efficient, fast, and controllable text-to-image synthesis, we propose Generative Adversarial CLIPs, namely GALIP. GALIP leverages the powerful pretrained CLIP model both in the discriminator and generator. Specifically, we propose a CLIP-based discriminator. The complex scene understanding ability of CLIP enables the discriminator to accurately assess the image quality. Furthermore, we propose a CLIP-empowered generator that induces the visual concepts from CLIP through bridge features and prompts. The CLIP-integrated generator and discriminator boost training efficiency, and as a result, our model only requires about 3% training data and 6% learnable parameters, achieving comparable results to large pretrained autoregressive and diffusion models. Moreover, our model achieves 120 times faster synthesis speed and inherits the smooth latent space from GAN. The extensive experimental results demonstrate the excellent performance of our GALIP. Code is available at https://github.com/tobran/GALIP.
翻訳日:2023-01-31 14:13:52 公開日:2023-01-30
# グラフニューラルネットワークにおけるノードフェアネスとエッジプライバシの相互作用について

On the Interaction between Node Fairness and Edge Privacy in Graph Neural Networks ( http://arxiv.org/abs/2301.12951v1 )

ライセンス: Link先を確認
He Zhang, Xingliang Yuan, Quoc Viet Hung Nguyen and Shirui Pan(参考訳) グラフニューラルネットワーク(GNN)の出現と、現実のシナリオにおける広範な実装により、GNNの公正性とプライバシは、信頼できるGNNの構築において2つの重要な社会的関心事であるため、かなりの関心を集めている。 既存の研究では、GNNの公平性とプライバシをそれぞれ調査し、公正性とプライバシの両方がGNNのパフォーマンスの犠牲であることを示した。 しかし、それらの相互作用はまだ解明されていない。 本稿では,GNNの公平性とプライバシとの相互作用を初めて考察する。 ノードの個別の公平性が向上すると、エッジプライバシのリスクが増加することを実証的に確認する。 次に,このようなトレードオフの背後にある直観を提示し,影響関数とピアソン相関を用いて理論的に測定する。 本稿では,GNNの性能,公平性,プライバシを同時に考慮し,公正性を考慮した再重み付けとプライバシを考慮したグラフ構造摂動モジュールをリトレーニング機構に実装することを提案する。 実験により,本手法は性能コストの制限とプライバシーリスクの制限によるGNNフェアネスの実現に有効であることが示された。

Due to the emergence of graph neural networks (GNNs) and their widespread implementation in real-world scenarios, the fairness and privacy of GNNs have attracted considerable interest since they are two essential social concerns in the era of building trustworthy GNNs. Existing studies have respectively explored the fairness and privacy of GNNs and exhibited that both fairness and privacy are at the cost of GNN performance. However, the interaction between them is yet to be explored and understood. In this paper, we investigate the interaction between the fairness of a GNN and its privacy for the first time. We empirically identify that edge privacy risks increase when the individual fairness of nodes is improved. Next, we present the intuition behind such a trade-off and employ the influence function and Pearson correlation to measure it theoretically. To take the performance, fairness, and privacy of GNNs into account simultaneously, we propose implementing fairness-aware reweighting and privacy-aware graph structure perturbation modules in a retraining mechanism. Experimental results demonstrate that our method is effective in implementing GNN fairness with limited performance cost and restricted privacy risks.
翻訳日:2023-01-31 14:13:31 公開日:2023-01-30
# 学習によるプログラム構成による階層型プログラム強化学習

Hierarchical Programmatic Reinforcement Learning via Learning to Compose Programs ( http://arxiv.org/abs/2301.12950v1 )

ライセンス: Link先を確認
Guan-Ting Liu, En-Pei Hu, Pu-Jen Cheng, Hung-Yi Lee, Shao-Hua Sun(参考訳) Trivedi et al. (2021)は、人間に解釈可能な強化学習(RL)ポリシーを作成することを目的として、まずプログラム埋め込み空間を学習し、事前に生成されたプログラムデータセットから多様なプログラムを継続的にパラメータ化し、タスクが与えられた時に学習プログラム埋め込み空間内のタスク解決プログラムを探索する手法(LEAPS)を提案する。 励ましの結果にもかかわらず、LEAPSが生成できるプログラムポリシーはプログラムデータセットの分布によって制限される。 さらに、探索中、LEAPSは各候補プログラムのリターンのみに基づいて評価し、プログラムの正しい部分を正確に報酬し、不正部分を罰することができない。 これらの問題に対処するために,学習プログラム埋め込み空間からサンプル化された一連のプログラムを構成するメタ政治の学習を提案する。 提案手法は,プログラムを構成することで,分布外の複雑な振る舞いを記述したプログラムポリシーを作成し,所望の振る舞いを誘導するプログラムに直接クレジットを割り当てる。 我々はkarelドメインで広範な実験を設計、実施する。 実験の結果,提案フレームワークがベースラインを上回ることがわかった。 アブレーション研究はLEAPSの限界を確認し、我々の設計選択を正当化する。

Aiming to produce reinforcement learning (RL) policies that are human-interpretable and can generalize better to novel scenarios, Trivedi et al. (2021) present a method (LEAPS) that first learns a program embedding space to continuously parameterize diverse programs from a pre-generated program dataset, and then searches for a task-solving program in the learned program embedding space when given a task. Despite encouraging results, the program policies that LEAPS can produce are limited by the distribution of the program dataset. Furthermore, during searching, LEAPS evaluates each candidate program solely based on its return, failing to precisely reward correct parts of programs and penalize incorrect parts. To address these issues, we propose to learn a meta-policy that composes a series of programs sampled from the learned program embedding space. By composing programs, our proposed method can produce program policies that describe out-of-distributionally complex behaviors and directly assign credits to programs that induce desired behaviors. We design and conduct extensive experiments in the Karel domain. The experimental results show that our proposed framework outperforms baselines. The ablation studies confirm the limitations of LEAPS and justify our design choices.
翻訳日:2023-01-31 14:13:10 公開日:2023-01-30
# リアルロボットチャレンジの勝利解III

Winning Solution of Real Robot Challenge III ( http://arxiv.org/abs/2301.13019v1 )

ライセンス: Link先を確認
Qiang Wang, Robert McCarthy, David Cordova Bulens, and Stephen J. Redmond(参考訳) 本稿では,実ロボットチャレンジ(RRC)2022における実ロボットフェーズの勝利解を紹介する。 今年の課題は、オフライン強化学習(RL)や模倣学習を用いて、巧妙な操作タスクを解決することである。 この目的のために参加者は、数十時間分のロボットデータを含むデータセットを提供する。 各タスクに対して、専門家と混合データセットが提供される。 我々の実験では、専門家データセットから学習すると、標準的な行動クローン(BC)が最先端のオフラインRLアルゴリズムより優れています。 混合データセットから学ぶ場合、BCは予想通りパフォーマンスが悪く、驚くほどオフラインのRLは、データセットの収集に使用されるベースラインモデルの平均的なパフォーマンスと一致しない。 これを改善するため、専門家データセット上でのBCの強いパフォーマンスに動機づけられた私たちは、半教師付き分類技術を使用して、混合データセットから専門家データのサブセットをフィルタリングし、この抽出されたデータサブセット上でBCCを実行する。 結果を改善するため,RRC物理ロボット環境の幾何対称性を利用する単純なデータ拡張手法を全設定で使用した。 提案するbcポリシは,それぞれの生データセットの平均リターンを上回り,フィルタされた混合データセットでトレーニングされたポリシは,専門家データセットでトレーニングされたもののパフォーマンスにほぼ一致します。

This report introduces our winning solution of the real-robot phase of the Real Robot Challenge (RRC) 2022. The goal of this year's challenge is to solve dexterous manipulation tasks with offline reinforcement learning (RL) or imitation learning. To this end, participants are provided with datasets containing dozens of hours of robotic data. For each task an expert and a mixed dataset are provided. In our experiments, when learning from the expert datasets, we find standard Behavioral Cloning (BC) outperforms state-of-the-art offline RL algorithms. When learning from the mixed datasets, BC performs poorly, as expected, while surprisingly offline RL performs suboptimally, failing to match the average performance of the baseline model used for collecting the datasets. To remedy this, motivated by the strong performance of BC on the expert datasets we elect to use a semi-supervised classification technique to filter the subset of expert data out from the mixed datasets, and subsequently perform BC on this extracted subset of data. To further improve results, in all settings we use a simple data augmentation method that exploits the geometric symmetry of the RRC physical robotic environment. Our submitted BC policies each surpass the mean return of their respective raw datasets, and the policies trained on the filtered mixed datasets come close to matching the performances of those trained on the expert datasets.
翻訳日:2023-01-31 14:06:54 公開日:2023-01-30
# DELTA: 劣化のない完全テスト時間適応

DELTA: degradation-free fully test-time adaptation ( http://arxiv.org/abs/2301.13018v1 )

ライセンス: Link先を確認
Bowen Zhao, Chen Chen, Shu-Tao Xia(参考訳) 完全テストタイム適応は、テスト分布とトレーニング分布が異なる場合に緊急に要求されるリアルタイム推論中に、事前トレーニングされたモデルをテストストリームに適応することを目的としている。 適応性能の改善にいくつかの努力が注がれている。 しかし,テスト時バッチ正規化(bn)や自己学習といった一般的な適応手法では,2つの不利な欠陥が隠されていることがわかった。 まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られた。 第2に,テスト時適応では,パラメータ更新が支配クラスに対して偏っていることを示す。 独立およびクラス均衡のサンプルを持つ広範囲に研究されたテストストリームに加えて、(時間)依存データやクラス不均衡データなど、より複雑なテスト環境では欠陥が悪化する可能性があることをさらに観察する。 以前のアプローチは特定のシナリオでうまく動作し、他のシナリオでは障害によるパフォーマンス低下が見られた。 本稿では,2つのコンポーネントから構成されるDELTA for Degradation-freE fuLly Test-time Adaptationを提案する。 (i) 推定正規化統計を改善するために導入されたテストタイムバッチ再正規化(TBR)。 (ii) Dynamic Online re-weighTing (DOT) 最適化のクラスバイアスに対処するために設計された。 本研究では,4つのシナリオを持つ3つの一般的なデータセットと,新たに導入された実世界のデータセットに対する様々なテスト時適応手法について検討する。 DELTAは、すべてのシナリオを同時に扱うのに役立ち、SOTAのパフォーマンスにつながる。

Fully test-time adaptation aims at adapting a pre-trained model to the test stream during real-time inference, which is urgently required when the test distribution differs from the training distribution. Several efforts have been devoted to improving adaptation performance. However, we find that two unfavorable defects are concealed in the prevalent adaptation methodologies like test-time batch normalization (BN) and self-learning. First, we reveal that the normalization statistics in test-time BN are completely affected by the currently received test samples, resulting in inaccurate estimates. Second, we show that during test-time adaptation, the parameter update is biased towards some dominant classes. In addition to the extensively studied test stream with independent and class-balanced samples, we further observe that the defects can be exacerbated in more complicated test environments, such as (time) dependent or class-imbalanced data. We observe that previous approaches work well in certain scenarios while show performance degradation in others due to their faults. In this paper, we provide a plug-in solution called DELTA for Degradation-freE fuLly Test-time Adaptation, which consists of two components: (i) Test-time Batch Renormalization (TBR), introduced to improve the estimated normalization statistics. (ii) Dynamic Online re-weighTing (DOT), designed to address the class bias within optimization. We investigate various test-time adaptation methods on three commonly used datasets with four scenarios, and a newly introduced real-world dataset. DELTA can help them deal with all scenarios simultaneously, leading to SOTA performance.
翻訳日:2023-01-31 14:06:32 公開日:2023-01-30
# エントロピー規則化外勾配法による最適輸送の高速計算

Fast Computation of Optimal Transport via Entropy-Regularized Extragradient Methods ( http://arxiv.org/abs/2301.13006v1 )

ライセンス: Link先を確認
Gen Li and Yanxi Chen and Yuejie Chi and H. Vincent Poor and Yuxin Chen(参考訳) 2つの分布間の最適な輸送距離の効率的な計算は、様々な応用を促進するアルゴリズムサブルーチンとして機能する。 本稿では,n$が関心の確率分布の次元を表す場合,$\widetilde{O}(n^2/\varepsilon)$を用いて,最適輸送を$\varepsilon$加法精度で演算するスケーラブルな一階最適化法を開発する。 本アルゴリズムは,Sinkhorn や Greenkhorn などの古典的アルゴリズムと比較して,数値性能が良好でありながら,すべての一階法における最先端の計算保証を実現する。 アルゴリズム設計の根底には2つの重要な要素がある。 (a)元の問題を確率分布上の双線型ミニマックス問題に変換する。 (b) エントロピー正規化と適応学習率と合わせて、段階的なアイデアを活用して収束を加速する。

Efficient computation of the optimal transport distance between two distributions serves as an algorithm subroutine that empowers various applications. This paper develops a scalable first-order optimization-based method that computes optimal transport to within $\varepsilon$ additive accuracy with runtime $\widetilde{O}( n^2/\varepsilon)$, where $n$ denotes the dimension of the probability distributions of interest. Our algorithm achieves the state-of-the-art computational guarantees among all first-order methods, while exhibiting favorable numerical performance compared to classical algorithms like Sinkhorn and Greenkhorn. Underlying our algorithm designs are two key elements: (a) converting the original problem into a bilinear minimax problem over probability distributions; (b) exploiting the extragradient idea -- in conjunction with entropy regularization and adaptive learning rates -- to accelerate convergence.
翻訳日:2023-01-31 14:06:10 公開日:2023-01-30
# 階層的蒸留による事前学習言語モデルからCifに基づく音声認識への知識伝達

Knowledge Transfer from Pre-trained Language Models to Cif-based Speech Recognizers via Hierarchical Distillation ( http://arxiv.org/abs/2301.13003v1 )

ライセンス: Link先を確認
Minglun Han, Feilong Chen, Jing Shi, Shuang Xu, Bo Xu(参考訳) 強力な言語モデリング機能を持つ大規模事前学習言語モデル(PLM)は、自然言語処理に広く利用されている。 自動音声認識 (ASR) では, PLM を利用した性能向上が有望な研究トレンドとなっている。 しかしながら、これまでのほとんどの研究は PLM の柔軟性のない大きさと構造に悩まされ、PLM の知識の不十分な利用に悩まされている。 これらの問題を緩和するために,連続統合火災モデル(CIF)に基づく階層的知識蒸留法を提案する。 具体的には,音響レベルでの対比損失を伴うクロスモーダル蒸留と,言語レベルでの回帰損失を伴う蒸留を用いて,plmからasrモデルへの知識を蒸留する。 AISHELL-1データセットでは、元のCIFモデルよりも15%の誤差率削減を実現し、最先端モデルと同等の性能(開発/テストでは3.8%/4.1%)を達成する。

Large-scale pre-trained language models (PLMs) with powerful language modeling capabilities have been widely used in natural language processing. For automatic speech recognition (ASR), leveraging PLMs to improve performance has also become a promising research trend. However, most previous works may suffer from the inflexible sizes and structures of PLMs, along with the insufficient utilization of the knowledge in PLMs. To alleviate these problems, we propose the hierarchical knowledge distillation on the continuous integrate-and-fire (CIF) based ASR models. Specifically, we distill the knowledge from PLMs to the ASR model by applying cross-modal distillation with contrastive loss at the acoustic level and applying distillation with regression loss at the linguistic level. On the AISHELL-1 dataset, our method achieves 15% relative error rate reduction over the original CIF-based model and achieves comparable performance (3.8%/4.1% on dev/test) to the state-of-the-art model.
翻訳日:2023-01-31 14:05:55 公開日:2023-01-30
# FedFA:Federated Feature Augmentation

FedFA: Federated Feature Augmentation ( http://arxiv.org/abs/2301.12995v1 )

ライセンス: Link先を確認
Tianfei Zhou, Ender Konukoglu(参考訳) フェデレーション学習(federated learning)は、複数のパーティが生データを交換することなく、深層モデルを協調的にトレーニングできる分散パラダイムである。 しかし、クライアント間のデータ分散は自然に非i.d.であり、学習モデルの大幅な劣化を引き起こす。 本研究の主な目的は、クライアントのサンプルの特徴変化に対処する堅牢なフェデレーション学習アルゴリズムを開発することであり、これは医療画像の取得の違いなど、様々な要因によって引き起こされる可能性がある。 この目標を達成するために,federated feature augmentationの観点からfederated learningに取り組むfederated learningを提案する。 FedFAは、各クライアントのデータ配信が潜在特徴の統計(平均偏差と標準偏差)によって特徴づけられるという大きな洞察に基づいており、これらのローカル統計を全世界で操作し、すなわち連合全体の情報に基づいて、クライアントが基礎となる分布をよりよく理解し、従ってローカルデータバイアスを緩和する可能性がある。 この知見に基づいて,各局所特徴量統計量は正規分布に基づいて確率的に増加し,その平均値が本来の統計量であり,分散が拡張範囲を定量化する。 このアプローチの鍵となるのは、個々のクライアントのバイアスデータだけでなく、すべてのクライアントが特徴とする特徴統計を考慮し、意味のあるガウス的分散を決定することである。 我々は,FedFAの有効性を検証するための理論的および実証的な正当性を提供する。 私たちのコードはhttps://github.com/tfzhou/fedfaで利用可能です。

Federated learning is a distributed paradigm that allows multiple parties to collaboratively train deep models without exchanging the raw data. However, the data distribution among clients is naturally non-i.i.d., which leads to severe degradation of the learnt model. The primary goal of this paper is to develop a robust federated learning algorithm to address feature shift in clients' samples, which can be caused by various factors, e.g., acquisition differences in medical imaging. To reach this goal, we propose FedFA to tackle federated learning from a distinct perspective of federated feature augmentation. FedFA is based on a major insight that each client's data distribution can be characterized by statistics (i.e., mean and standard deviation) of latent features; and it is likely to manipulate these local statistics globally, i.e., based on information in the entire federation, to let clients have a better sense of the underlying distribution and therefore alleviate local data bias. Based on this insight, we propose to augment each local feature statistic probabilistically based on a normal distribution, whose mean is the original statistic and variance quantifies the augmentation scope. Key to our approach is the determination of a meaningful Gaussian variance, which is accomplished by taking into account not only biased data of each individual client, but also underlying feature statistics characterized by all participating clients. We offer both theoretical and empirical justifications to verify the effectiveness of FedFA. Our code is available at https://github.com/tfzhou/FedFA.
翻訳日:2023-01-31 14:05:37 公開日:2023-01-30
# 逆画像難読化に対するロバストネスのベンチマーク

Benchmarking Robustness to Adversarial Image Obfuscations ( http://arxiv.org/abs/2301.12993v1 )

ライセンス: Link先を確認
Florian Stimberg, Ayan Chakrabarti, Chun-Ta Lu, Hussein Hazimeh, Otilia Stretcu, Wei Qiao, Yintao Liu, Merve Kaya, Cyrus Rashtchian, Ariel Fuxman, Mehmet Tek, Sven Gowal(参考訳) コンテンツの自動フィルタリングとモデレーションは、オンラインプラットフォームが協力し、乱用を防ぐユーザーコミュニティを構築するための重要なツールである。 残念ながら、リソース豊富なアクターは、プラットフォームポリシーや行動規範に違反したコンテンツを投稿するために、自動フィルタをバイパスしようとする。 この目標を達成するために、これらの悪意あるアクターは、画像(例えば、慎重に選択された良性画像や視覚パターンによって有害な画像をオーバーレイする)に違反するポリシーを難読化して、機械学習モデルが正しい決定に達するのを防ぐことができる。 本稿では,この問題に研究者を招き,新たな画像ベンチマークを提案する。 ImageNetに基づくこのベンチマークは、悪意のあるアクターによって生成される難読化のタイプをシミュレートする。 ImageNet-$\textrm{C}$ と ImageNet-$\bar{\textrm{C}}$ を超えて、オリジナルコンテンツインテントを保存する汎用的で劇的な逆修正を提案する。 これは$\ell_p$-normの有界敵よりも一般的な敵の脅威に取り組むことを目的としている。 ベンチマークおよびトレーニングモデルにおける33の事前学習モデルの評価を行い,拡張度,アーキテクチャ,訓練方法によって一般化を計測した。 このベンチマークは、研究者が自身のモデルとメソッドをテストし、これらの難解性に対してより堅牢な新しいアプローチを見つけようとすることを願っている。

Automated content filtering and moderation is an important tool that allows online platforms to build striving user communities that facilitate cooperation and prevent abuse. Unfortunately, resourceful actors try to bypass automated filters in a bid to post content that violate platform policies and codes of conduct. To reach this goal, these malicious actors may obfuscate policy violating images (e.g. overlay harmful images by carefully selected benign images or visual patterns) to prevent machine learning models from reaching the correct decision. In this paper, we invite researchers to tackle this specific issue and present a new image benchmark. This benchmark, based on ImageNet, simulates the type of obfuscations created by malicious actors. It goes beyond ImageNet-$\textrm{C}$ and ImageNet-$\bar{\textrm{C}}$ by proposing general, drastic, adversarial modifications that preserve the original content intent. It aims to tackle a more common adversarial threat than the one considered by $\ell_p$-norm bounded adversaries. We evaluate 33 pretrained models on the benchmark and train models with different augmentations, architectures and training methods on subsets of the obfuscations to measure generalization. We hope this benchmark will encourage researchers to test their models and methods and try to find new approaches that are more robust to these obfuscations.
翻訳日:2023-01-31 14:05:11 公開日:2023-01-30
# 仮説の最適選択は最も弱く、最短ではない

The Optimal Choice of Hypothesis Is the Weakest, Not the Shortest ( http://arxiv.org/abs/2301.12987v1 )

ライセンス: Link先を確認
Michael Timothy Bennett(参考訳) もし$A$と$B$が$A \subset B$であるような集合であれば、一般化は$B$を構成するのに十分な仮説の$A$からの推論として理解することができる。 A$から任意の数の仮説を推測できるが、それらのいくつかだけが$B$に一般化できる。 どちらが一般化しそうなのか、どうしてわかるのか? 一つの戦略は最も短いものを選び、情報を圧縮する能力と一般化する能力(知能の代理人)を同等にすることである。 我々は、エンアクティブ認知の数学的形式論の文脈でこれを調べる。 圧縮は性能を最大化するのに必要でも十分でもないことを示す(仮説の一般化の確率の観点から測る)。 弱点と呼ばれる長さや単純さに関係のないプロキシを定式化する。 タスクが一様に分散している場合、少なくともすべてのタスクにおいて弱点を最大化しながら、少なくとも1つで厳密に実行するプロキシの選択肢がないことを示す。 言い換えれば、弱点はプロキシのパレート最適選択である。 2進算術の文脈における最大弱さと最小記述長を比較する実験では、前者は後者の1.1ドルから5ドルの間で一般化した。 これは弱点がはるかに優れたプロキシであることを示し、DeepmindのApperception Engineが効果的に一般化できる理由を説明する。

If $A$ and $B$ are sets such that $A \subset B$, generalisation may be understood as the inference from $A$ of a hypothesis sufficient to construct $B$. One might infer any number of hypotheses from $A$, yet only some of those may generalise to $B$. How can one know which are likely to generalise? One strategy is to choose the shortest, equating the ability to compress information with the ability to generalise (a proxy for intelligence). We examine this in the context of a mathematical formalism of enactive cognition. We show that compression is neither necessary nor sufficient to maximise performance (measured in terms of the probability of a hypothesis generalising). We formulate a proxy unrelated to length or simplicity, called weakness. We show that if tasks are uniformly distributed, then there is no choice of proxy that performs at least as well as weakness maximisation in all tasks while performing strictly better in at least one. In other words, weakness is the pareto optimal choice of proxy. In experiments comparing maximum weakness and minimum description length in the context of binary arithmetic, the former generalised at between $1.1$ and $5$ times the rate of the latter. We argue this demonstrates that weakness is a far better proxy, and explains why Deepmind's Apperception Engine is able to generalise effectively.
翻訳日:2023-01-31 14:04:47 公開日:2023-01-30
# 機械学習モデルのためのacomparisonフレームワークmosaic

MOSAIC, acomparison framework for machine learning models ( http://arxiv.org/abs/2301.12986v1 )

ライセンス: Link先を確認
Matt\'eo Papin and Yann Beaujeault-Taudi\`ere and Fr\'ed\'eric Magniette(参考訳) 機械学習モデルのためのPythonプログラムMOSAICを紹介する。 我々のフレームワークは、任意のネットワークアーキテクチャとデータセットの実装とテストによって機械学習の研究を加速させることを念頭に開発されている。 MOSAICは、単純な設定ファイル内でモデル、データ、関連するハイパーパラメータを宣言することから、解釈可能な数値とパフォーマンスメトリクスの生成まで、完全な実行パイプラインを備えている。 また、高度な実行管理が含まれ、結果をデータベースに格納し、いくつかの実行監視オプションが組み込まれている。 これらすべての機能を通じて、このフレームワークは、研究者、エンジニア、そして機械学習の一般実践者に有用なツールを提供する必要がある。

We introduce MOSAIC, a Python program for machine learning models. Our framework is developed with in mind accelerating machine learning studies through making implementing and testing arbitrary network architectures and data sets simpler, faster and less error-prone. MOSAIC features a full execution pipeline, from declaring the models, data and related hyperparameters within a simple configuration file, to the generation of ready-to-interpret figures and performance metrics. It also includes an advanced run management, stores the results within a database, and incorporates several run monitoring options. Through all these functionalities, the framework should provide a useful tool for researchers, engineers, and general practitioners of machine learning.
翻訳日:2023-01-31 14:04:23 公開日:2023-01-30
# 地球観測データを因果推論に統合する:挑戦と機会

Integrating Earth Observation Data into Causal Inference: Challenges and Opportunities ( http://arxiv.org/abs/2301.12985v1 )

ライセンス: Link先を確認
Connor T. Jerzak, Fredrik Johansson, Adel Daoud(参考訳) 観察的研究は、治療と結果の両方に相関する要因の調整を必要とする。 観測された変数が近隣の平均収入などの表的な量であるような環境では、そのような組み合わせに対処するためのツールが開発されている。 しかし、発展途上国の多くの地域では、地域社会の特徴が乏しい。 この文脈では、衛星画像は重要な役割を担い、そうでなければ観測されていない変数のプロキシとして機能する。 本稿では,衛星画像に現れるパターンや物体が共起バイアスに寄与する非タブラー環境における共同設立者の調整について検討する。 本稿では,アフリカにおける反ポバティ支援プログラムの評価を実例として,このような非構造化データを用いた因果的調整の課題を定式化し,因果的影響を特定するのに十分な条件,推定方法,非構造化画像オブジェクトの特定の側面が治療決定の最も予測可能な方法の定量化方法について述べる。 シミュレーションを通じて,画像解像度に対する衛星画像に基づく観測的推論の感度や,画像関連の共同設立者の誤特定についても検討する。 最後に,これらのツールを用いて,アフリカ人コミュニティにおける貧困対策の効果を衛星画像から推定する。

Observational studies require adjustment for confounding factors that are correlated with both the treatment and outcome. In the setting where the observed variables are tabular quantities such as average income in a neighborhood, tools have been developed for addressing such confounding. However, in many parts of the developing world, features about local communities may be scarce. In this context, satellite imagery can play an important role, serving as a proxy for the confounding variables otherwise unobserved. In this paper, we study confounder adjustment in this non-tabular setting, where patterns or objects found in satellite images contribute to the confounder bias. Using the evaluation of anti-poverty aid programs in Africa as our running example, we formalize the challenge of performing causal adjustment with such unstructured data -- what conditions are sufficient to identify causal effects, how to perform estimation, and how to quantify the ways in which certain aspects of the unstructured image object are most predictive of the treatment decision. Via simulation, we also explore the sensitivity of satellite image-based observational inference to image resolution and to misspecification of the image-associated confounder. Finally, we apply these tools in estimating the effect of anti-poverty interventions in African communities from satellite imagery.
翻訳日:2023-01-31 14:04:11 公開日:2023-01-30
# ContCommRTD:リアルタイム災害報告のための分散コンテンツに基づく誤情報認識コミュニティ検出システム

ContCommRTD: A Distributed Content-based Misinformation-aware Community Detection System for Real-Time Disaster Reporting ( http://arxiv.org/abs/2301.12984v1 )

ライセンス: Link先を確認
Elena-Simona Apostol and Ciprian-Octavian Truic\u{a} and Adrian Paschke(参考訳) リアルタイムのソーシャルメディアデータは、進化するハザードに関する有用な情報を提供することができる。 災害検出の従来の方法に加えて、ソーシャルメディアデータの統合は災害管理を大幅に強化する。 本稿では,twitter上で位置対応型コミュニティを検知する問題を調査し,ハザード関連イベントとその進化に関する情報をほぼリアルタイムで提供する新しい分散システムを提案する。 我々は,コンテンツに基づくコミュニティ分析が,ハザードに関する報告をより高速に伝達することを示す。 分散災害報告システムは, 地域別ツイート間の社会的関係を分析し, トピック・モデリングをトピック別グループ・ツイートに適用する。 ユーザ,タイムスタンプ,ジオロケーション,リツイート,リプライの各つぶやきを考慮し,トピックのパブリッシャ-サブスクライブ配信モデルを作成する。 私たちは、コンテンツの類似性とノードの近接を利用して、位置情報ベースのコミュニティの新しいモデルを作成します。 ユーザーは特定の地域や世界中の異なるトピックを購読し、これらのトピックに関するリアルタイムレポートを受け取ることができる。 有害なツイートを広めると、誤った情報がダメージを増加させる可能性があるため、フェイクニュースを検出するための新しいディープラーニングモデルを提案する。 誤報されたツイートは表示から削除される。 また,提案システムのスケーラビリティを実証的に示す。

Real-time social media data can provide useful information on evolving hazards. Alongside traditional methods of disaster detection, the integration of social media data can considerably enhance disaster management. In this paper, we investigate the problem of detecting geolocation-content communities on Twitter and propose a novel distributed system that provides in near real-time information on hazard-related events and their evolution. We show that content-based community analysis leads to better and faster dissemination of reports on hazards. Our distributed disaster reporting system analyzes the social relationship among worldwide geolocated tweets, and applies topic modeling to group tweets by topics. Considering for each tweet the following information: user, timestamp, geolocation, retweets, and replies, we create a publisher-subscriber distribution model for topics. We use content similarity and the proximity of nodes to create a new model for geolocation-content based communities. Users can subscribe to different topics in specific geographical areas or worldwide and receive real-time reports regarding these topics. As misinformation can lead to increase damage if propagated in hazards related tweets, we propose a new deep learning model to detect fake news. The misinformed tweets are then removed from display. We also show empirically the scalability capabilities of the proposed system.
翻訳日:2023-01-31 14:03:49 公開日:2023-01-30
# XLAにおける演算子融合 : 解析と評価

Operator Fusion in XLA: Analysis and Evaluation ( http://arxiv.org/abs/2301.13062v1 )

ライセンス: Link先を確認
Daniel Snider, Ruofan Liang(参考訳) 機械学習(ml)コンパイラは、テンソルプログラムを自動的にスピードアップする能力を提供するため、活発な研究領域である。 カーネル融合はMLコンパイラが行う重要な最適化としてしばしば言及される。 しかしながら、最も一般的なMLコンパイラであるXLAが、この微妙な最適化をどのように適用するか、どのようなスピードアップにできるのか、ハードウェアにどのような低レベルの影響があるのか、といった知識ギャップがある。 本稿では,XLAのソースコードのキーコンパイラパスを研究することで,この知識ギャップを埋めることを目的とする。 強化学習環境におけるCartpoleの評価は,XLAにおける融合決定の実際的な違いを示している。 さらに,ベースライン実装と比較して最大10.56倍の高速化が可能なXLAカーネル融合戦略を実装した。

Machine learning (ML) compilers are an active area of research because they offer the potential to automatically speedup tensor programs. Kernel fusion is often cited as an important optimization performed by ML compilers. However, there exists a knowledge gap about how XLA, the most common ML compiler, applies this nuanced optimization, what kind of speedup it can afford, and what low-level effects it has on hardware. Our paper aims to bridge this knowledge gap by studying key compiler passes of XLA's source code. Our evaluation on a reinforcement learning environment Cartpole shows how different fusion decisions in XLA are made in practice. Furthermore, we implement several XLA kernel fusion strategies that can achieve up to 10.56x speedup compared to our baseline implementation.
翻訳日:2023-01-31 13:57:14 公開日:2023-01-30
# エントロピー生産における情報理論的貢献のアンサンブル依存性

Ensemble dependence of information-theoretic contributions to the entropy production ( http://arxiv.org/abs/2301.13061v1 )

ライセンス: Link先を確認
Krzysztof Ptaszynski, Massimiliano Esposito(参考訳) 正準状態に初期化された貯水池に結合された開放系のエントロピー生産は、システムバス相互情報と平衡から環境の変位を測定する相対エントロピーの2つの微視的情報理論的寄与の和として表現できる。 この結果は, 貯留層がマイクロカノニカルに初期化されるか, あるいは特定の純状態(例えば, 非可積分系の固有状態)に一般化されるか, システムの還元力学と熱力学が熱浴と同じであるかどうかを考察する。 このような場合、エントロピー生成は、システムと浴槽の間の相互情報と、適切に再定義された変位項の合計として表現できるが、それらの寄与の相対的な重みは貯水池の初期状態に依存する。 言い換えると、システムの同じ減少ダイナミクスを予測する環境に対する異なる統計的アンサンブルは、同じ総エントロピー生成をもたらすが、エントロピー生成に対する情報理論的な貢献は異なる。

The entropy production of an open system coupled to a reservoir initialized in a canonical state can be expressed as a sum of two microscopic information-theoretic contributions: the system-bath mutual information and the relative entropy measuring the displacement of the environment from equilibrium. We investigate whether this result can be generalized to situations where the reservoir is initialized in a microcanonical or in a certain pure state (e.g., an eigenstate of a nonintegrable system), such that the reduced dynamics and thermodynamics of the system are the same as for the thermal bath. We show that while in such a case the entropy production can still be expressed as a sum of the mutual information between the system and the bath and a properly redefined displacement term, the relative weight of those contributions depends on the initial state of the reservoir. In other words, different statistical ensembles for the environment predicting the same reduced dynamics for the system give rise to the same total entropy production but to different information-theoretic contributions to the entropy production.
翻訳日:2023-01-31 13:57:02 公開日:2023-01-30
# グラフニューラルネットワークのゼロワン法則

Zero-One Laws of Graph Neural Networks ( http://arxiv.org/abs/2301.13060v1 )

ライセンス: Link先を確認
Sam Adam-Day, Theodor Mihai Iliant, \.Ismail \.Ilkan Ceylan(参考訳) グラフニューラルネットワーク(GNN)は、グラフ上の機械学習のためのデファクト標準ディープラーニングアーキテクチャである。 これにより、これらのモデルの能力と限界、特にそれらの表現と外挿能力に関する多くの作業が分析された。 グラフノードの数が非常に大きくなるにつれて、GNNはどのように振る舞うのか? 穏やかな仮定の下では、Erd\H{o}s-R\'enyi モデルから増大するグラフを描くと、そのようなグラフがGNN分類器のクラスによって特定の出力にマップされる確率は 0 または 1 の傾向を示す。 このクラスは一般的なグラフ畳み込みネットワークアーキテクチャを含んでいる。 その結果、これらのGNNに対して「ゼロワン法則」を確立し、他の収束法則と類似して、その能力に関する理論的制限を課す。 理論的な漸近限界は、比較的小さなグラフ上で既に明らかなものであることを観察し、実験的に検証した。

Graph neural networks (GNNs) are de facto standard deep learning architectures for machine learning on graphs. This has led to a large body of work analyzing the capabilities and limitations of these models, particularly pertaining to their representation and extrapolation capacity. We offer a novel theoretical perspective on the representation and extrapolation capacity of GNNs, by answering the question: how do GNNs behave as the number of graph nodes become very large? Under mild assumptions, we show that when we draw graphs of increasing size from the Erd\H{o}s-R\'enyi model, the probability that such graphs are mapped to a particular output by a class of GNN classifiers tends to either zero or to one. This class includes the popular graph convolutional network architecture. The result establishes 'zero-one laws' for these GNNs, and analogously to other convergence laws, entails theoretical limitations on their capacity. We empirically verify our results, observing that the theoretical asymptotic limits are evident already on relatively small graphs.
翻訳日:2023-01-31 13:56:42 公開日:2023-01-30
# 空間二光子状態の振幅と位相の干渉画像化

Interferometric imaging of amplitude and phase of spatial biphoton states ( http://arxiv.org/abs/2301.13046v1 )

ライセンス: Link先を確認
Danilo Zia, Nazanin Dehghan, Alessio D'Errico, Fabio Sciarrino, Ebrahim Karimi(参考訳) 高次元双光子状態は、高次元量子通信から量子イメージングまで、量子応用に有望な資源である。 重要なタスクは、これらの状態を完全に特徴づけることであり、一般的には時間がかかり、射影測定アプローチを採用するとスケーラビリティがない。 しかし、同時撮像技術の新たな進歩により、複数の測定を並列化することでこれらの制限を克服することができる。 本稿では,2光子デジタルホログラフィをオフ軸デジタルホログラフィと類似して紹介する。そこでは,未知状態の重畳と参照状態の重畳を同時撮像して量子状態トモグラフィーを行う。 ポンプ光子が様々な量子状態を持つ場合, 非線形結晶中で自然パラメトリックダウンコンバージョンにより放出される単一光子に対してこのアプローチを適用する。 提案手法により, 任意の空間モードベースにおける状態のより効率的(3次)で信頼性の高い(平均忠実度87%)キャラクタリゼーションを実現する。 多光子デジタルホログラフィーは、効率的で正確なゴーストイメージングと高次元量子情報処理への道を開くことができる。

High-dimensional biphoton states are promising resources for quantum applications, ranging from high-dimensional quantum communications to quantum imaging. A pivotal task is fully characterising these states, which is generally time-consuming and not scalable when projective measurement approaches are adopted. However, new advances in coincidence imaging technologies allow for overcoming these limitations by parallelising multiple measurements. Here, we introduce biphoton digital holography, in analogy to off-axis digital holography, where coincidence imaging of the superposition of an unknown state with a reference one is used to perform quantum state tomography. We apply this approach to single photons emitted by spontaneous parametric down-conversion in a nonlinear crystal when the pump photons possess various quantum states. The proposed reconstruction technique allows for a more efficient (3 order-of-magnitude faster) and reliable (an average fidelity of 87%) characterisation of states in arbitrary spatial modes bases, compared with previously performed experiments. Multi-photon digital holography may pave the route toward efficient and accurate computational ghost imaging and high-dimensional quantum information processing.
翻訳日:2023-01-31 13:56:12 公開日:2023-01-30
# より強い感情を表現するメタファーの秘密

The Secret of Metaphor on Expressing Stronger Emotion ( http://arxiv.org/abs/2301.13042v1 )

ライセンス: Link先を確認
Yucheng Li, Frank Guerin, Chenghua Lin(参考訳) メタファーはリテラル表現よりも感情的な影響が強いことが証明されている。 この結論は様々なNLP応用に有効であることが示されているが、この現象の原因はよく研究されていない。 本研究は,メタファーが感情をより強く伝える方法を検討する最初の研究である。 メタファーは一般的にリテラル表現よりも特異である。 メタファーのより具体的な特性は、感情表現においてメタファーが優れている理由の1つである。 メタファとリテラル表現を同一の特異性レベルと比較すると,両者の感情表現能力の差は著しく減少する。 さらに、リテラル言語はより具体的にすることでより強い感情を表現できるため、リテラル言語においても特異性が重要であることも観察する。

Metaphors are proven to have stronger emotional impact than literal expressions. Although this conclusion is shown to be promising in benefiting various NLP applications, the reasons behind this phenomenon are not well studied. This paper conducts the first study in exploring how metaphors convey stronger emotion than their literal counterparts. We find that metaphors are generally more specific than literal expressions. The more specific property of metaphor can be one of the reasons for metaphors' superiority in emotion expression. When we compare metaphors with literal expressions with the same specificity level, the gap of emotion expressing ability between both reduces significantly. In addition, we observe specificity is crucial in literal language as well, as literal language can express stronger emotion by making it more specific.
翻訳日:2023-01-31 13:55:54 公開日:2023-01-30
# 文変換における表現バイアス

Representation biases in sentence transformers ( http://arxiv.org/abs/2301.13039v1 )

ライセンス: Link先を確認
Dmitry Nikolaev and Sebastian Pad\'o(参考訳) フル文表現に特化しているBERTアーキテクチャの変数は、バニラBERTから抽出した文の埋め込みよりも、ダウンストリームタスクのパフォーマンスが向上する。 しかし、入力のどの性質がそのような表現の性質を決定するかはまだ分かっていない。 本研究では,先行した語彙構造と構文構造を持つ文の集合を構築し,SOTA文トランスフォーマーが強い名声-参加者セットバイアスを有することを示す。 同時に、参加者の正確な統語論的機能はほとんど無関係である。

Variants of the BERT architecture specialised for producing full-sentence representations often achieve better performance on downstream tasks than sentence embeddings extracted from vanilla BERT. However, there is still little understanding of what properties of inputs determine the properties of such representations. In this study, we construct several sets of sentences with pre-defined lexical and syntactic structures and show that SOTA sentence transformers have a strong nominal-participant-set bias: cosine similarities between pairs of sentences are more strongly determined by the overlap in the set of their noun participants than by having the same predicates, lengthy nominal modifiers, or adjuncts. At the same time, the precise syntactic-thematic functions of the participants are largely irrelevant.
翻訳日:2023-01-31 13:55:42 公開日:2023-01-30
# スマートシティにおける水消費予測のためのフェデレートラーニング

Federated Learning for Water Consumption Forecasting in Smart Cities ( http://arxiv.org/abs/2301.13036v1 )

ライセンス: Link先を確認
Mohammed El Hanjri, Hibatallah Kabbaj, Abdellatif Kobbane, Amine Abouaomar(参考訳) 水の消費は世界の今後の課題の中で大きな関心事である。 負荷監視や需要応答といったアプリケーションでは、ディープラーニングモデルはスマートシティで大量の消費データを使用してトレーニングされる。 一方、使用する情報はプライベートである。 例えば、スマートメーターによって収集された正確な情報は、コンシューマの自宅にあるシステムのIoTアーキテクチャの一部であり、アプライアンスの詳細を与え、その結果、自宅での消費者の行動を示すことができる。 一方で、ディープラーニングモデルが適切にトレーニングされるためには、十分なばらつきを持つ膨大なデータボリュームが必要である。 本稿では,スマートシティにおける水消費予測の新しいモデルを提案する。 提案手法では,ユーザデータを中央トレーニング施設と共有することを避けながら,機械学習モデルを分散的にトレーニングするための機械学習パラダイムとして,フェデレートラーニング(FL)を利用する。 さらに、このアプローチは、ユーザと中央エンティティ間のデータ転送の頻度を減らし、オーバヘッド利用を減らすことを約束している。 大規模シミュレーションにより, 提案手法は, 世帯ごとの水消費予測の強化を示す。

Water consumption remains a major concern among the world's future challenges. For applications like load monitoring and demand response, deep learning models are trained using enormous volumes of consumption data in smart cities. On the one hand, the information used is private. For instance, the precise information gathered by a smart meter that is a part of the system's IoT architecture at a consumer's residence may give details about the appliances and, consequently, the consumer's behavior at home. On the other hand, enormous data volumes with sufficient variation are needed for the deep learning models to be trained properly. This paper introduces a novel model for water consumption prediction in smart cities while preserving privacy regarding monthly consumption. The proposed approach leverages federated learning (FL) as a machine learning paradigm designed to train a machine learning model in a distributed manner while avoiding sharing the users data with a central training facility. In addition, this approach is promising to reduce the overhead utilization through decreasing the frequency of data transmission between the users and the central entity. Extensive simulation illustrate that the proposed approach shows an enhancement in predicting water consumption for different households.
翻訳日:2023-01-31 13:55:33 公開日:2023-01-30
# BSSAD:多変量時系列における異常検出のための新しいベイズ状態空間アプローチ

BSSAD: Towards A Novel Bayesian State-Space Approach for Anomaly Detection in Multivariate Time Series ( http://arxiv.org/abs/2301.13031v1 )

ライセンス: Link先を確認
Usman Anjum (1), Samuel Lin (2), Justin Zhan (1) ((1) University of Cincinnati, (2) University of Arkansas, Fayetteville)(参考訳) 多変量時系列(MTS)データの異常を検出することは、多くの領域において重要な役割を果たす。 異常な値には、事象、医療の異常、サイバー攻撃、または異常な装置が示され、もし検出されていない場合、資源、資本、または人間の命が著しく失われる可能性がある。 本稿では,ベイズ状態空間異常検出(BSSAD)と呼ばれる,新しい異常検出手法を提案する。 BSSADはニューラルネットワークモジュールとベイズ状態空間モジュールの2つのモジュールで構成される。 提案手法の設計は,次の状態を予測するベイズ状態空間アルゴリズムの強みと,データ間の関係を理解して異常を検出するための再帰的ニューラルネットワークとオートエンコーダの有効性を組み合わせる。 このアプローチのモジュラー設計は、ベイズ状態空間モデルのパラメータを変更するか、異なるレベルのパフォーマンスを達成するためにスワップピングニューラルネットワークアルゴリズムをオプションとして実装の柔軟性を可能にする。 特に,粒子フィルタとアンサンブルカルマンフィルタのベイズ状態空間モデルの利用に着目する。 5つの異なるデータセットについて広範な実験を行った。 実験の結果,F1スコアが0.95以上のベースラインよりも優れた性能を示した。 また,異常検出の精度に関するより包括的な情報を得るために,MatthewCorrelation Coefficient (MCC) と呼ばれる指標も提案する。

Detecting anomalies in multivariate time series(MTS) data plays an important role in many domains. The abnormal values could indicate events, medical abnormalities,cyber-attacks, or faulty devices which if left undetected could lead to significant loss of resources, capital, or human lives. In this paper, we propose a novel and innovative approach to anomaly detection called Bayesian State-Space Anomaly Detection(BSSAD). The BSSAD consists of two modules: the neural network module and the Bayesian state-space module. The design of our approach combines the strength of Bayesian state-space algorithms in predicting the next state and the effectiveness of recurrent neural networks and autoencoders in understanding the relationship between the data to achieve high accuracy in detecting anomalies. The modular design of our approach allows flexibility in implementation with the option of changing the parameters of the Bayesian state-space models or swap-ping neural network algorithms to achieve different levels of performance. In particular, we focus on using Bayesian state-space models of particle filters and ensemble Kalman filters. We conducted extensive experiments on five different datasets. The experimental results show the superior performance of our model over baselines, achieving an F1-score greater than 0.95. In addition, we also propose using a metric called MatthewCorrelation Coefficient (MCC) to obtain more comprehensive information about the accuracy of anomaly detection.
翻訳日:2023-01-31 13:55:15 公開日:2023-01-30
# 敵攻撃を記述するためのメトリクスの有効性について

On the Efficacy of Metrics to Describe Adversarial Attacks ( http://arxiv.org/abs/2301.13028v1 )

ライセンス: Link先を確認
Tommaso Puccetti, Tommaso Zoppi, Andrea Ceccarelli(参考訳) 敵の防御は、敵の攻撃を許容する能力によって自然に評価される。 防御をテストするために、様々な敵攻撃が作成され、通常は回避能力とL0、L1、L2、Linfノルムの観点から記述される。 防犯能力とLノルムが、代表的攻撃セットに対して防御がテストされたと主張する上で、最も効果的な情報であるかどうかを問う。 そこで我々は,画像の摂動と検出可能性の相関関係から,画像品質の指標を選択する。 L-ノルムのみの計算が好ましい解となることは滅多にない。 対向画像上で計算された同定された指標とそのような画像上での検出器の出力との間には強い相関関係が見られ、約0.94精度で検出器の応答を予測することができる。 さらに,類似した摂動と類似した検出可能性に基づいて,メトリクスが攻撃を分類できることを観察した。 これは検知器を評価するアプローチの見直しの可能性を示しており、代表的な攻撃データセットが選択されていることを保証するために追加のメトリクスが含まれている。

Adversarial defenses are naturally evaluated on their ability to tolerate adversarial attacks. To test defenses, diverse adversarial attacks are crafted, that are usually described in terms of their evading capability and the L0, L1, L2, and Linf norms. We question if the evading capability and L-norms are the most effective information to claim that defenses have been tested against a representative attack set. To this extent, we select image quality metrics from the state of the art and search correlations between image perturbation and detectability. We observe that computing L-norms alone is rarely the preferable solution. We observe a strong correlation between the identified metrics computed on an adversarial image and the output of a detector on such an image, to the extent that they can predict the response of a detector with approximately 0.94 accuracy. Further, we observe that metrics can classify attacks based on similar perturbations and similar detectability. This suggests a possible review of the approach to evaluate detectors, where additional metrics are included to assure that a representative attack dataset is selected.
翻訳日:2023-01-31 13:54:50 公開日:2023-01-30
# アクションカプセル:人間の骨格アクション認識

Action Capsules: Human Skeleton Action Recognition ( http://arxiv.org/abs/2301.13090v1 )

ライセンス: Link先を確認
Ali Farajzadeh Bavil, Hamed Damirchi, Hamid D. Taghirad(参考訳) コンパクトでリッチなハイレベルな表現のため、骨格に基づく人間の行動認識は近年、非常に活発な研究トピックとなっている。 従来の研究では、空間的および時間的次元における関節関係の調査が、行動認識に不可欠な効果的な情報をもたらすことが示されている。 しかし,時空間的特徴抽出におけるジョイントのグローバル依存を効果的にエンコードすることは依然として困難である。 本稿では,骨格配列における関節の潜在相関を考慮したアクション関連キージョイントを同定するアクションカプセルを提案する。 提案手法では,各動作に特有な関節の組に着目し,各動作の認識に時空間的特徴が集約されていることを示す。 さらに、複数段のアクションカプセルを使用することで、ネットワークが同様のアクションを分類する能力を高める。 その結果,ネットワークはN-UCLAデータセットにおける最先端のアプローチよりも優れ,NTURGBDデータセット上での競合結果を得ることができた。 提案手法は, GFLOPs測定に基づく計算要求を著しく低減する。

Due to the compact and rich high-level representations offered, skeleton-based human action recognition has recently become a highly active research topic. Previous studies have demonstrated that investigating joint relationships in spatial and temporal dimensions provides effective information critical to action recognition. However, effectively encoding global dependencies of joints during spatio-temporal feature extraction is still challenging. In this paper, we introduce Action Capsule which identifies action-related key joints by considering the latent correlation of joints in a skeleton sequence. We show that, during inference, our end-to-end network pays attention to a set of joints specific to each action, whose encoded spatio-temporal features are aggregated to recognize the action. Additionally, the use of multiple stages of action capsules enhances the ability of the network to classify similar actions. Consequently, our network outperforms the state-of-the-art approaches on the N-UCLA dataset and obtains competitive results on the NTURGBD dataset. This is while our approach has significantly lower computational requirements based on GFLOPs measurements.
翻訳日:2023-01-31 13:48:42 公開日:2023-01-30
# AIはガーナの国家科学と数学のクイズに勝てるか? AIによる教育のグランドチャレンジ

Can an AI Win Ghana's National Science and Maths Quiz? An AI Grand Challenge for Education ( http://arxiv.org/abs/2301.13089v1 )

ライセンス: Link先を確認
George Boateng, Victor Kumbol, Elsie Effah Kaufmann(参考訳) アフリカ全土に十分な資格を持つ教師が不足しており、教育質問応答(EQA)のような適切な学習支援を学生に提供しようとしている。 生徒がテキストや音声で質問をしたり、即答を得たりできるaiシステムは、高品質な教育を受けられる。 AI分野の進歩にもかかわらず、アフリカのコンテキスト内でそのような(EQA)AIを構築するための堅牢なベンチマークや課題は存在しない。 ghana's national science and maths quiz competition (nsmq)は、科学分野、様々な質問タイプ、高い競争性、実世界のフォーマットなど幅広い分野をカバーするため、そのようなaiの可能性を評価するための完璧な競争である。 NSMQは、Jeopardyスタイルの年次ライブクイズ競技で、2人の学生からなる3チームが、生物学、化学、物理学、数学の5段階にわたる質問に答えて、優勝チームが優勝するまでの5段階で競う。 本稿では,ガーナの国立科学・数学クイズコンペティション(NSMQ)を用いたAIグランドチャレンジであるNSMQ AI Grand Challengeを提案する。 提案した大きな課題は、"AIを構築してガーナのNational Science and Maths Quiz (NSMQ)コンペに出場し、優勝すること"である。 我々は、この課題を解決するために活用できる機械学習の最近の進歩のアイデアと合わせて、競争と対処すべき重要な技術的課題について説明する。 このポジション論文は、このような課題を克服するための第一歩であり、アフリカにおける教育のためのaiの進歩をアフリカ全体での高品質教育の民主化に向けるものである。

There is a lack of enough qualified teachers across Africa which hampers efforts to provide adequate learning support such as educational question answering (EQA) to students. An AI system that can enable students to ask questions via text or voice and get instant answers will make high-quality education accessible. Despite advances in the field of AI, there exists no robust benchmark or challenge to enable building such an (EQA) AI within the African context. Ghana's National Science and Maths Quiz competition (NSMQ) is the perfect competition to evaluate the potential of such an AI due to its wide coverage of scientific fields, variety of question types, highly competitive nature, and live, real-world format. The NSMQ is a Jeopardy-style annual live quiz competition in which 3 teams of 2 students compete by answering questions across biology, chemistry, physics, and math in 5 rounds over 5 progressive stages until a winning team is crowned for that year. In this position paper, we propose the NSMQ AI Grand Challenge, an AI Grand Challenge for Education using Ghana's National Science and Maths Quiz competition (NSMQ) as a case study. Our proposed grand challenge is to "Build an AI to compete live in Ghana's National Science and Maths Quiz (NSMQ) competition and win - performing better than the best contestants in all rounds and stages of the competition." We describe the competition, and key technical challenges to address along with ideas from recent advances in machine learning that could be leveraged to solve this challenge. This position paper is a first step towards conquering such a challenge and importantly, making advances in AI for education in the African context towards democratizing high-quality education across Africa.
翻訳日:2023-01-31 13:48:25 公開日:2023-01-30
# リー群とその同次空間上の定常核とガウス過程 II:非コンパクト対称空間

Stationary Kernels and Gaussian Processes on Lie Groups and their Homogeneous Spaces II: non-compact symmetric spaces ( http://arxiv.org/abs/2301.13088v1 )

ライセンス: Link先を確認
Iskander Azangulov, Andrei Smolensky, Alexander Terenin, Viacheslav Borovitskiy(参考訳) ガウス過程は、機械学習における時空間モデルの最も重要なクラスであることは間違いない。 彼らはモデル化された関数に関する事前情報を符号化し、ベイズ学習の正確または近似に使用できる。 多くの応用、特に物理科学や工学において、地球統計学や神経科学などの分野において、対称性への不変性は考慮できる最も基本的な情報形式の一つである。 そのような対称性に対するガウス過程の共分散の不変性は、そのような空間に対する定常性の概念の最も自然な一般化をもたらす。 本研究では,対称性の文脈で生じる非ユークリッド空間の非常に大きなクラス上に,定常ガウス過程を構築するための構築的および実践的手法を開発する。 私たちの技術はそれを可能にします i)共分散カーネルを計算し、 (ii)そのような空間上で定義される前ガウス過程及び後ガウス過程からのサンプルは、実際的に両方ある。 この研究は、それぞれ異なる技術的な考察を含む2つの部分に分けられる: 第一部はコンパクト空間、第二部は特定の構造を持つ非コンパクト空間を研究する。 我々のコントリビューションは、標準ガウスプロセスソフトウェアパッケージで利用可能なよく理解された計算技術と互換性のある非ユークリッドガウスプロセスモデルを作成し、実践者が利用できるようにします。

Gaussian processes are arguably the most important class of spatiotemporal models within machine learning. They encode prior information about the modeled function and can be used for exact or approximate Bayesian learning. In many applications, particularly in physical sciences and engineering, but also in areas such as geostatistics and neuroscience, invariance to symmetries is one of the most fundamental forms of prior information one can consider. The invariance of a Gaussian process' covariance to such symmetries gives rise to the most natural generalization of the concept of stationarity to such spaces. In this work, we develop constructive and practical techniques for building stationary Gaussian processes on a very large class of non-Euclidean spaces arising in the context of symmetries. Our techniques make it possible to (i) calculate covariance kernels and (ii) sample from prior and posterior Gaussian processes defined on such spaces, both in a practical manner. This work is split into two parts, each involving different technical considerations: part I studies compact spaces, while part II studies non-compact spaces possessing certain structure. Our contributions make the non-Euclidean Gaussian process models we study compatible with well-understood computational techniques available in standard Gaussian process software packages, thereby making them accessible to practitioners.
翻訳日:2023-01-31 13:47:55 公開日:2023-01-30
# 線形関数近似を用いたオンライン強化学習の効率化

Improved Regret for Efficient Online Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2301.13087v1 )

ライセンス: Link先を確認
Uri Sherman, Tomer Koren, Yishay Mansour(参考訳) We study reinforcement learning with linear function approximation and adversarially changing cost functions, a setup that has mostly been considered under simplifying assumptions such as full information feedback or exploratory conditions.We present a computationally efficient policy optimization algorithm for the challenging general setting of unknown dynamics and bandit feedback, featuring a combination of mirror-descent and least squares policy evaluation in an auxiliary MDP used to compute exploration bonuses.Our algorithm obtains an $\widetilde O(K^{6/7})$ regret bound, improving significantly over previous state-of-the-art of $\widetilde O (K^{14/15})$ in this setting. さらに,環境シミュレータが学習者に利用可能である(ただし,探索的な仮定は行われない)という仮定の下で,同じアルゴリズムのバージョンを提示し,それが$\widetilde o (k^{2/3})$の最先端の後悔を得ることを証明する。

We study reinforcement learning with linear function approximation and adversarially changing cost functions, a setup that has mostly been considered under simplifying assumptions such as full information feedback or exploratory conditions.We present a computationally efficient policy optimization algorithm for the challenging general setting of unknown dynamics and bandit feedback, featuring a combination of mirror-descent and least squares policy evaluation in an auxiliary MDP used to compute exploration bonuses.Our algorithm obtains an $\widetilde O(K^{6/7})$ regret bound, improving significantly over previous state-of-the-art of $\widetilde O (K^{14/15})$ in this setting. In addition, we present a version of the same algorithm under the assumption a simulator of the environment is available to the learner (but otherwise no exploratory assumptions are made), and prove it obtains state-of-the-art regret of $\widetilde O (K^{2/3})$.
翻訳日:2023-01-31 13:47:35 公開日:2023-01-30
# nv中心における散逸誘起エンタングルメントの動的核分極

Dynamical nuclear polarization for dissipation-induced entanglement in NV centers ( http://arxiv.org/abs/2301.13085v1 )

ライセンス: Link先を確認
Shishir Khandelwal, Shashwat Kumar, Nicolas Palazzo, G\'eraldine Haack, Mayeul Chipaux(参考訳) 本研究では,Nitrogen-Vacancy (NV) 中心プラットフォーム上での2ビットエンタングルメントエンジンの実装を提案する。 この散逸誘起絡み合い発生エンジンは、2つの相互作用する人工原子に依存し、2つの熱バイアス環境と独立に結合する。 このスキームでは、量子ビットの役割は2つのNV中心の電子スピン遷移によって担われ、双極子-双極子相互作用によって結合される。 音速温度とは独立に、周囲の炭素13核スピンは熱環境の役割を担う。 重要なことは、散逸過程がデコヒーレンスよりもクビットバス力学を支配できることである。 近年の動的核分極の進展と顕微鏡による超解像法は, それぞれのNV中心量子ビットと独立に結合した2つのスピン浴間での長時間の平衡分極状態を初期化する。 過渡状態と定常状態のダイナミクスは、マスター方程式の枠組みで研究される。 2つのNV中心の電子スピン間の絡み合いは、現実的な実験条件下で予測される。

In this work, we propose a practical implementation of a two-qubit entanglement engine on a Nitrogen-Vacancy (NV) center platform. This engine for dissipation-induced entanglement generation relies on two interacting artificial atoms, coupled independently to two thermally biased environments. In our scheme, the role of the qubits is played by the electron spin transitions of two NV centers, coupled through a dipole-dipole interaction. Independently from the phononic temperature, the surrounding Carbon 13 nuclear spins play the role of thermal environments. Importantly, we show that a dissipative process can dominate the qubit-bath dynamics over decoherence. We highlight that recent progresses in Dynamical Nuclear Polarization combined with microscopy superresolution methods allow us to initialize a long lasting out-of-equilibrium polarization situation between two spin baths, independently coupled to each NV-center qubit. The transient and steady-state dynamics is investigated within a master equation framework. Entanglement is predicted between the electron spins of two nearby NV centers under realistic experimental conditions.
翻訳日:2023-01-31 13:47:21 公開日:2023-01-30
# ニューラルエージェントにおける言語普遍性の創発を駆動するコミュニケーション:単語順/ケースマーキングトレードオフからの証拠

Communication Drives the Emergence of Language Universals in Neural Agents: Evidence from the Word-order/Case-marking Trade-off ( http://arxiv.org/abs/2301.13083v1 )

ライセンス: Link先を確認
Yuchen Lian, Arianna Bisazza, Tessa Verhoef(参考訳) 人工学習者は、神経エージェントに基づく言語の発生と変化のシミュレーションの文脈で、人間の学習者と異なる振る舞いをすることが多い。 これらの学習者における適切な認知バイアスの欠如は、一般的な説明の1つである。 しかし、言語学習と使用のより自然主義的な設定が、より人間的な結果をもたらすことも提案されている。 本稿では,特にシミュレートが困難であることが証明された,単語順序/ケースマークのトレードオフに着目した後者の説明について検討する。 ニューラルエージェント言語学習・コミュニケーションフレームワーク(NeLLCom)を提案する。このフレームワークは,まず,教師付き学習を通じて与えられたミニチュア言語を学習し,さらに強化学習によるコミュニケーションのために最適化する。 初期の人間実験のセットアップに追随して、エージェントの学習バイアスをハードコーディングすることなく、新しいフレームワークとのトレードオフを複製することに成功した。 これは、ニューラル学習者による言語普遍性の調査に不可欠なステップだと考えています。

Artificial learners often behave differently from human learners in the context of neural agent-based simulations of language emergence and change. The lack of appropriate cognitive biases in these learners is one of the prevailing explanations. However, it has also been proposed that more naturalistic settings of language learning and use could lead to more human-like results. In this work, we investigate the latter account focusing on the word-order/case-marking trade-off, a widely attested language universal which has proven particularly difficult to simulate. We propose a new Neural-agent Language Learning and Communication framework (NeLLCom) where pairs of speaking and listening agents first learn a given miniature language through supervised learning, and then optimize it for communication via reinforcement learning. Following closely the setup of earlier human experiments, we succeed in replicating the trade-off with the new framework without hard-coding any learning bias in the agents. We see this as an essential step towards the investigation of language universals with neural learners.
翻訳日:2023-01-31 13:47:04 公開日:2023-01-30
# PaCaNet:中国絵画・書画の多様化のための移行学習によるCycleGANの研究

PaCaNet: A Study on CycleGAN with Transfer Learning for Diversifying Fused Chinese Painting and Calligraphy ( http://arxiv.org/abs/2301.13082v1 )

ライセンス: Link先を確認
Zuhao Yang, Huajun Bai, Zhang Luo, Yang Xu, Wei Pang, Yue Wang, Yisheng Yuan, Yingfang Yuan(参考訳) AI-Generated Content(AIGC)は、その高効率性と本番環境での一貫性、カスタマイズと多様化の能力によって、最近人気が高まっている。 ほとんどのAIGC技術における表現学習メカニズムのクロスモダリティの性質は、過去には不可能だった新しいタイプのアートを探索する際の、より自由で柔軟性をもたらす。 漢字のヒエログリフサブセットに触発された我々は、伝統的な中国語の「emph{painting}」と「emph{calligraphy}」の2つの異なる種類のアートを融合させる、CycleGANベースのパイプラインであるPaCaNetを提案した。 安定的で多様化したアウトプットを生み出すために、私たちは3つの主要な技術革新を採用しました。 1 ワンショット学習を用いて、事前学習したモデルの創造性を高め、融合画像の内容の多様化を図る。 2. 事前学習モデルにおけるランダムサンプリングパラメータの凍結による中国語書道に対する嗜好の制御 3.中国絵画に類似した画像の制作を奨励するために正規化法を用いる。 さらに,中国絵画と書道の多様化にともなうPaCaNetの性能について,系統的研究を行い,満足な結果を得た。 結論として,絵画の視覚情報と漢文の言語的特徴を融合させることにより,クロスモーダルアートを創出する新たな方向性を提供する。 われわれのアプローチは、中国語のヒエログリフ文字の起源に根ざした独特の美的体験を生み出す。 また、伝統的な美術品を深く掘り下げて、伝統的遺産の保存と再生に有意義な影響を及ぼす特別な機会でもある。

AI-Generated Content (AIGC) has recently gained a surge in popularity, powered by its high efficiency and consistency in production, and its capability of being customized and diversified. The cross-modality nature of the representation learning mechanism in most AIGC technology allows for more freedom and flexibility in exploring new types of art that would be impossible in the past. Inspired by the hieroglyph subset of Chinese characters, we proposed PaCaNet, a CycleGAN-based pipeline for producing novel artworks that fuse two different art types, traditional Chinese \emph{painting} and \emph{calligraphy}. In an effort to produce stable and diversified output, we adopted three main technical innovations: 1. Using one-shot learning to increase the creativity of pre-trained models and diversify the content of the fused images. 2. Controlling the preference over generated Chinese calligraphy by freezing randomly sampled parameters in pre-trained models. 3. Using a regularization method to encourage the models to produce images similar to Chinese paintings. Furthermore, we conducted a systematic study to explore the performance of PaCaNet in diversifying fused Chinese painting and calligraphy, which showed satisfying results. In conclusion, we provide a new direction of creating cross-modal art by fusing the visual information in paintings and the linguistic features in Chinese calligraphy. Our approach creates a unique aesthetic experience rooted in the origination of Chinese hieroglyph characters. It is also a unique opportunity to delve deeper into traditional artwork and, in doing so, to create a meaningful impact on preserving and revitalizing traditional heritage.
翻訳日:2023-01-31 13:46:46 公開日:2023-01-30
# STAIR: 接地トークンにおけるスパーステキストと画像表現の学習

STAIR: Learning Sparse Text and Image Representation in Grounded Tokens ( http://arxiv.org/abs/2301.13081v1 )

ライセンス: Link先を確認
Chen Chen, Bowen Zhang, Liangliang Cao, Jiguang Shen, Tom Gunter, Albin Madappally Jose, Alexander Toshev, Jonathon Shlens, Ruoming Pang, Yinfei Yang(参考訳) 画像とテキストの検索は、複数の現実世界のアプリケーションを持つビジョンと言語ドメインにおける基本的なタスクの1つです。 最先端のアプローチ、例えばクリップ、アライメント、画像やテキストを密埋め込みとして表現し、密埋め込み空間の類似度をマッチングスコアとして計算する。 一方、バガオブワードモデルのようなばらばらな意味的特徴はより解釈可能であるが、密接な表現よりも精度が劣ると考えられている。 本研究では,密集したプレゼンテーションと同等,あるいはそれ以上に強力な,スパースな意味表現を構築することが可能であることを示す。 CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。 空間内の各トークンは語彙内の(サブ)ワードであり、解釈可能であるだけでなく、既存の情報検索システムとの統合も容易である。 STAIRモデルは、COCO-5kテキスト$\rightarrow$imageと image$\rightarrow$text検索において、+4.9\%$と+4.3\%$絶対リコール@1の改善でCLIPモデルを大幅に上回る。 また、CLIPと比較して、ImageNetゼロショットとリニアプローブの両方のパフォーマンスも向上した。

Image and text retrieval is one of the foundational tasks in the vision and language domain with multiple real-world applications. State-of-the-art approaches, e.g. CLIP, ALIGN, represent images and texts as dense embeddings and calculate the similarity in the dense embedding space as the matching score. On the other hand, sparse semantic features like bag-of-words models are more interpretable, but believed to suffer from inferior accuracy than dense representations. In this work, we show that it is possible to build a sparse semantic representation that is as powerful as, or even better than, dense presentations. We extend the CLIP model and build a sparse text and image representation (STAIR), where the image and text are mapped to a sparse token space. Each token in the space is a (sub-)word in the vocabulary, which is not only interpretable but also easy to integrate with existing information retrieval systems. STAIR model significantly outperforms a CLIP model with +$4.9\%$ and +$4.3\%$ absolute Recall@1 improvement on COCO-5k text$\rightarrow$image and image$\rightarrow$text retrieval respectively. It also achieved better performance on both of ImageNet zero-shot and linear probing compared to CLIP.
翻訳日:2023-01-31 13:46:16 公開日:2023-01-30
# 決定論的アナログ制御誤差を伴う量子アニールにおける閾値定理

Threshold theorem in quantum annealing with deterministic analog control errors ( http://arxiv.org/abs/2301.13075v1 )

ライセンス: Link先を確認
Manaka Okuyama, Masayuki Ohzeki(参考訳) 時間依存ハミルトニアンにおける決定論的アナログ制御誤差が孤立量子力学に及ぼす影響について検討する。 決定論的アナログ制御誤差はシュロディンガー方程式の時間依存作用素として定式化される。 決定論的アナログ制御誤差を伴わない時間発展における2つの状態間の距離の上界を与える。 その結果, 決定論的アナログ制御誤差の強度が計算時間の逆数よりも小さい場合, 決定論的アナログ制御誤差のない量子力学の最終状態は決定論的アナログ制御誤差を伴う量子力学における定数数によって得られることがわかった。

We investigate the effect of deterministic analog control errors in the time-dependent Hamiltonian on isolated quantum dynamics. Deterministic analog control errors are formulated as time-dependent operators in the Schrodinger equation. We give an upper bound on the distance between two states in time evolution with and without deterministic analog control errors. As a result, we prove that, if the strength of deterministic analog control errors is less than the inverse of computational time, the final state in quantum dynamics without deterministic analog control errors can be obtained through a constant-order number of measurements in quantum dynamics with deterministic analog control errors.
翻訳日:2023-01-31 13:45:53 公開日:2023-01-30
# ソーシャルネットワークにおける話題検出のためのヒューマンワードアソシエーションに基づくモデル

A Human Word Association based model for topic detection in social networks ( http://arxiv.org/abs/2301.13066v1 )

ライセンス: Link先を確認
Mehrdad Ranjbar Khadivi, Shahin Akbarpour, Mohammad-Reza Feizi-Derakhshi, Babak Anari(参考訳) ソーシャルネットワークの普及に伴い、これらのネットワークで議論されている話題の検出が大きな課題となっている。 現在の研究は主に頻繁なパターンマイニングや意味的関係に基づいており、言語構造は考慮されていない。 言語構造的手法の意味は、単語と人間の理解方法の関係を発見することである。 そこで,本稿では,「心的能力の模倣」の概念を用いて,ソーシャルネットワークにおける話題検出フレームワークを提案する。 この枠組みはHuman Word Association法に基づいている。 FA-CUPデータセットを用いて,本手法の性能評価を行った。 これはトピック検出の分野におけるベンチマークデータセットである。 提案手法は,Topic-recallとキーワードF1測度に基づいて,他の手法と比較して改善されている。 また、トピック検出の分野における以前の研究のほとんどは英語に限られており、ペルシア語、特にこの言語で書かれたマイクロブログは低リソース言語と考えられている。 そのため、farsi言語におけるテレグラム投稿のデータセットが収集されている。 このデータセットに提案手法を適用することで,本手法は他のトピック検出手法よりも有効であることを示す。

With the widespread use of social networks, detecting the topics discussed in these networks has become a significant challenge. The current works are mainly based on frequent pattern mining or semantic relations, and the language structure is not considered. The meaning of language structural methods is to discover the relationship between words and how humans understand them. Therefore, this paper uses the Concept of the Imitation of the Mental Ability of Word Association to propose a topic detection framework in social networks. This framework is based on the Human Word Association method. The performance of this method is evaluated on the FA-CUP dataset. It is a benchmark dataset in the field of topic detection. The results show that the proposed method is a good improvement compared to other methods, based on the Topic-recall and the keyword F1 measure. Also, most of the previous works in the field of topic detection are limited to the English language, and the Persian language, especially microblogs written in this language, is considered a low-resource language. Therefore, a data set of Telegram posts in the Farsi language has been collected. Applying the proposed method to this dataset also shows that this method works better than other topic detection methods.
翻訳日:2023-01-31 13:45:43 公開日:2023-01-30
# 単調ゲームにおける2重最適no-regret学習

Doubly Optimal No-Regret Learning in Monotone Games ( http://arxiv.org/abs/2301.13120v1 )

ライセンス: Link先を確認
Yang Cai, Weiqiang Zheng(参考訳) マルチプレイヤースムーズなモノトーンゲームにおけるオンライン学習について考察する。 既存のアルゴリズムでは(1)強単調ゲームにのみ適用できる、(2)非相対保証がない、(3)漸近的あるいは遅い$\mathcal{O}(\frac{1}{\sqrt{T}})$最後の点収束速度をナッシュ平衡に持つ、といった制限がある。 この$\mathcal{o}(\frac{1}{\sqrt{t}})$レートは、よく研究された超勾配アルゴリズムや楽観的勾配アルゴリズムを含む多くのアルゴリズムには厳しいが、すべての勾配に基づくアルゴリズムには最適ではない。 本研究では,スムーズなモノトーンゲームのための2倍最適非線形学習アルゴリズムであるAOGアルゴリズムを提案する。 すなわち、我々のアルゴリズムは両方を達成する。 (i)滑らかかつ凸損失関数の下での敵対的設定における最適な$\mathcal{o}(\sqrt{t})$ regret (ii) 最適$\mathcal{O}(\frac{1}{T})$ 最後の点収束速度は、マルチプレイヤーの滑らかな単調ゲームにおいてナッシュ平衡となる。 高速化されたラストイテレート収束率の副産物として、各プレイヤーは、前回の$\mathcal{o}(\sqrt{t})$バウンドよりも指数関数的に改善し、それぞれが$\mathcal{o}(\log t)$の最悪ケースの動的後悔しか持たないことを示した。

We consider online learning in multi-player smooth monotone games. Existing algorithms have limitations such as (1) being only applicable to strongly monotone games; (2) lacking the no-regret guarantee; (3) having only asymptotic or slow $\mathcal{O}(\frac{1}{\sqrt{T}})$ last-iterate convergence rate to a Nash equilibrium. While the $\mathcal{O}(\frac{1}{\sqrt{T}})$ rate is tight for a large class of algorithms including the well-studied extragradient algorithm and optimistic gradient algorithm, it is not optimal for all gradient-based algorithms. We propose the accelerated optimistic gradient (AOG) algorithm, the first doubly optimal no-regret learning algorithm for smooth monotone games. Namely, our algorithm achieves both (i) the optimal $\mathcal{O}(\sqrt{T})$ regret in the adversarial setting under smooth and convex loss functions and (ii) the optimal $\mathcal{O}(\frac{1}{T})$ last-iterate convergence rate to a Nash equilibrium in multi-player smooth monotone games. As a byproduct of the accelerated last-iterate convergence rate, we further show that each player suffers only an $\mathcal{O}(\log T)$ individual worst-case dynamic regret, providing an exponential improvement over the previous state-of-the-art $\mathcal{O}(\sqrt{T})$ bound.
翻訳日:2023-01-31 13:39:43 公開日:2023-01-30
# Floquet Exceptional Topological Insulator

Floquet Exceptional Topological Insulator ( http://arxiv.org/abs/2301.13119v1 )

ライセンス: Link先を確認
Gaurab Kumar Dash, Subhajyoti Bid, Manisha Thakurathi(参考訳) 非エルミタン(NH)システムにフロケット工学を実装することで、例外位相を変調する新しい手法を提案する。 従来の3次元nh位相絶縁体上に光を照射したフロッケ例外位相絶縁体を紹介する。 光物質相互作用は物質の量子相を促進させ、バルクホスト表面状態の点ギャップを示す新しい現象を示す。 これらの異なる表面状態は、複素固有スペクトルの点ギャップを埋めるか、磁場の存在下で例外的な点を示す。 また,光誘起変調によって生じる量子異常の存在も強調する。 フロッケの生rthogonal chern数とスペクトル巻数の存在は、系全体がそうではないにもかかわらず、運動量スライスがnh皮膚効果を示すことを示している。 また, nh表面の皮膚効果を説明するために, 波動力学進化を用いる。

We propose a novel way of modulating exceptional topology by implementing Floquet engineering in non-hermitian (NH) systems. We introduce Floquet exceptional topological insulator which results from shining light on a conventional three-dimensional NH topological insulator. Lightmatter interaction facilitates the quantum phases of matter to exhibit a novel phenomenon, where, the point gaps in the bulk host surface states. These distinct surface states either fill the point gap in the complex eigenspectrum or exhibit exceptional points in the presence of a magnetic field. We also highlight the existence of a quantum anomaly generated by photo-induced modulation. The existence of the Floquet biorthogonal Chern number and spectral winding number show that the momentum slices exhibit NH skin effect, even though the system as a whole does not. We also employ wave-dynamics evolution to illustrate the NH surface skin effect.
翻訳日:2023-01-31 13:39:14 公開日:2023-01-30
# ピンフィン設計のためのガウス過程回帰とベイズ最適化を統合する完全自動化フレームワーク

A Fully-Automated Framework Integrating Gaussian Process Regression and Bayesian Optimization to Design Pin-Fins ( http://arxiv.org/abs/2301.13118v1 )

ライセンス: Link先を確認
Susheel Dharmadhikari, Reid A. Berdanier, Karen A. Thole, Amrita Basak(参考訳) ピンフィンはタービンブレードの冷却に必須である。 そのため、ピンフィンの設計は過去にも大きな研究がなされてきた。 金属添加物製造の発展に伴い、複雑なジオメトリへの新しい設計アプローチが実現可能になった。 そこで本稿では,低圧力損失を実現するインラインピン設計のためのベイズ最適化手法を提案する。 ピンフィン形状は、2次元の有限(パラメトリズド)断面立方体スプラインを用いて定義される。 形状の複雑さは解析に使用されるスプラインの数に依存する。 方法開発の観点から、3つのスプラインを用いて研究を行う。 この部分モデリングにより、5つの特徴を用いてユニークなピンフィン設計が定義される。 設計の特定後,流れ中の圧力降下を計算する計算流体力学に基づくモデルを開発した。 ガウス過程に基づくサロゲート上でベイズ最適化を行い、圧力降下を最小限に抑えるピンフィン特徴の最適組合せを得る。 その結果, 従来の知識と相関する低圧力降下につながる空力設計にアプローチする傾向が示唆された。 さらに、様々な入力データを用いて最適化の繰り返しを行う。 その結果、同様の最適設計への収束は、サーロゲートの初期設計データポイントを最低25個で達成できることが判明した。 感度分析により、ピンフィンの列間の距離が圧力低下に最も影響する特徴であることが示されている。 まとめると、新しく開発された自動化フレームワークは、優れたパフォーマンス特性を持つピンフィンの設計において顕著な能力を示している。

Pin fins are imperative in the cooling of turbine blades. The designs of pin fins, therefore, have seen significant research in the past. With the developments in metal additive manufacturing, novel design approaches toward complex geometries are now feasible. To that end, this article presents a Bayesian optimization approach for designing inline pins that can achieve low pressure loss. The pin-fin shape is defined using featurized (parametrized) piecewise cubic splines in 2D. The complexity of the shape is dependent on the number of splines used for the analysis. From a method development perspective, the study is performed using three splines. Owing to this piece-wise modeling, a unique pin fin design is defined using five features. After specifying the design, a computational fluid dynamics-based model is developed that computes the pressure drop during the flow. Bayesian optimization is carried out on a Gaussian processes-based surrogate to obtain an optimal combination of pin-fin features to minimize the pressure drop. The results show that the optimization tends to approach an aerodynamic design leading to low pressure drop corroborating with the existing knowledge. Furthermore, multiple iterations of optimizations are conducted with varying degree of input data. The results reveal that a convergence to similar optimal design is achieved with a minimum of just twenty five initial design-of-experiments data points for the surrogate. Sensitivity analysis shows that the distance between the rows of the pin fins is the most dominant feature influencing the pressure drop. In summary, the newly developed automated framework demonstrates remarkable capabilities in designing pin fins with superior performance characteristics.
翻訳日:2023-01-31 13:38:59 公開日:2023-01-30
# 拡散の識別における時系列分類法のベンチマーク最適性

Benchmarking optimality of time series classification methods in distinguishing diffusions ( http://arxiv.org/abs/2301.13112v1 )

ライセンス: Link先を確認
Zehong Zhang, Fei Lu, Esther Xu Fei, Terry Lyons, Yannis Kevrekidis, and Tom Woolf(参考訳) パフォーマンスベンチマークは時系列分類(TSC)アルゴリズム設計の重要なコンポーネントであり、経験的ベンチマークのために急速に成長するデータセットが確立されている。 しかし、経験的ベンチマークは費用がかかり、統計的最適性が保証されない。 本研究では, 拡散過程を高次比検定(LRT)により識別するTSCアルゴリズムの最適性を評価することを提案する。 LRTはナイマン・ピアソン補題の意味で最適であり、偽陰率の制御レベルを持つ分類器の中で最小の偽陽性率を持つ。 LRTは、計算可能な時系列の確率比を必要とする。 確率微分方程式からの拡散過程はそのような時系列を提供し、線形あるいは非線形の時系列を生成する設計において柔軟である。 我々は、ランダムフォレスト、resnet、rocketの3つのスケーラブルな最先端tscアルゴリズムでベンチマークを行う。 実験の結果,不定値時系列および多変量ガウス過程のlrt最適性が得られた。 しかし、これらのモデルに依存しないアルゴリズムは、高次元確率相互作用粒子系から非線形多変量時系列を分類するのに最適である。 さらに、LRTベンチマークは、時間長、寸法、時間サンプリング周波数、時系列のランダム性に対する分類精度の依存性を分析するツールを提供する。 したがって、拡散過程を持つLRTは、TSCアルゴリズムの最適性を体系的かつ効率的にベンチマークすることができ、将来の改善を導くことができる。

Performance benchmarking is a crucial component of time series classification (TSC) algorithm design, and a fast-growing number of datasets have been established for empirical benchmarking. However, the empirical benchmarks are costly and do not guarantee statistical optimality. This study proposes to benchmark the optimality of TSC algorithms in distinguishing diffusion processes by the likelihood ratio test (LRT). The LRT is optimal in the sense of the Neyman-Pearson lemma: it has the smallest false positive rate among classifiers with a controlled level of false negative rate. The LRT requires the likelihood ratio of the time series to be computable. The diffusion processes from stochastic differential equations provide such time series and are flexible in design for generating linear or nonlinear time series. We demonstrate the benchmarking with three scalable state-of-the-art TSC algorithms: random forest, ResNet, and ROCKET. Test results show that they can achieve LRT optimality for univariate time series and multivariate Gaussian processes. However, these model-agnostic algorithms are suboptimal in classifying nonlinear multivariate time series from high-dimensional stochastic interacting particle systems. Additionally, the LRT benchmark provides tools to analyze the dependence of classification accuracy on the time length, dimension, temporal sampling frequency, and randomness of the time series. Thus, the LRT with diffusion processes can systematically and efficiently benchmark the optimality of TSC algorithms and may guide their future improvements.
翻訳日:2023-01-31 13:38:40 公開日:2023-01-30
# 未発見の論理推論と学位カリキュラムの一般化

Generalization on the Unseen, Logic Reasoning and Degree Curriculum ( http://arxiv.org/abs/2301.13105v1 )

ライセンス: Link先を確認
Emmanuel Abbe, Samy Bengio, Aryo Lotfi, Kevin Rizk(参考訳) 本稿では,論理関数の学習を,分散一般化の強い場合である未完(gotu)設定の一般化に焦点をあてて検討する。 これは、ある推論タスク(例えば算術/論理学)におけるデータのリッチな組合せの性質が、代表的データのサンプリングを困難にし、GOTUの下での学習が成功すると、'extrapolating'あるいは'reasoning'学習者の最初のビゲットを与えるという事実が動機である。 次に、(S)GDでトレーニングされた異なるネットワークアーキテクチャがGOTUの下でどのように機能するかを研究し、トランスフォーマーのインスタンス、ランダム特徴モデル、対角線ネットワークを含むネットワークモデルのクラスにおいて、MDI(min-degree-interpolator)が未確認で学習されるという理論的および実験的証拠を提供する。 また,学習率や平均フィールドネットワークが漏洩したMDIに到達した事例も提示する。 これらの知見は,(1)長さ一般化問題(例: Anil et al. 2022)を説明すること,(2)単項をより効率的に学習するDegree-Curriculumというカリキュラム学習アルゴリズムを導入すること,の2つに繋がる。

This paper considers the learning of logical (Boolean) functions with focus on the generalization on the unseen (GOTU) setting, a strong case of out-of-distribution generalization. This is motivated by the fact that the rich combinatorial nature of data in certain reasoning tasks (e.g., arithmetic/logic) makes representative data sampling challenging, and learning successfully under GOTU gives a first vignette of an 'extrapolating' or 'reasoning' learner. We then study how different network architectures trained by (S)GD perform under GOTU and provide both theoretical and experimental evidence that for a class of network models including instances of Transformers, random features models, and diagonal linear networks, a min-degree-interpolator (MDI) is learned on the unseen. We also provide evidence that other instances with larger learning rates or mean-field networks reach leaky MDIs. These findings lead to two implications: (1) we provide an explanation to the length generalization problem (e.g., Anil et al. 2022); (2) we introduce a curriculum learning algorithm called Degree-Curriculum that learns monomials more efficiently by incrementing supports.
翻訳日:2023-01-31 13:38:19 公開日:2023-01-30
# 等変微分プライベート深層学習

Equivariant Differentially Private Deep Learning ( http://arxiv.org/abs/2301.13104v1 )

ライセンス: Link先を確認
Florian A. H\"olzl, Daniel Rueckert, Georgios Kaissis(参考訳) differential privacy(dp)が提供する公式なプライバシー保証は、ディープラーニングモデルからの機密情報の漏洩を制限する。 しかし実際には、これは厳しい計算と正確さのコストが伴う。 最近確立された技術(SOTA)の結果、DPの下での画像分類は、重いデータ拡張と大きなバッチサイズを使用することによって、計算オーバーヘッドが劇的に増加するためである。 そこで本研究では,dpトレーニングにステアブル同変畳み込みネットワークを導入することで,機能品質が向上したより効率的なモデルの利用を提案する。 私たちのモデルは、異なる$\varepsilon$-valuesに対して、cifar-10の現在のsomaパフォーマンスを最大9〜$$で上回り、モデルパラメータの数を35ドルに減らし、計算時間を90ドル以上削減できることを実証します。 我々の結果は、パラメータを最適に活用し、コンピュータビジョンのためのプライベートと非プライベートのディープラーニングの間のプライバシーとユーティリティのギャップを埋める効率的なモデルアーキテクチャへの大きな一歩です。

The formal privacy guarantee provided by Differential Privacy (DP) bounds the leakage of sensitive information from deep learning models. In practice, however, this comes at a severe computation and accuracy cost. The recently established state of the art (SOTA) results in image classification under DP are due to the use of heavy data augmentation and large batch sizes, leading to a drastically increased computation overhead. In this work, we propose to use more efficient models with improved feature quality by introducing steerable equivariant convolutional networks for DP training. We demonstrate that our models are able to outperform the current SOTA performance on CIFAR-10 by up to $9\%$ across different $\varepsilon$-values while reducing the number of model parameters by a factor of $35$ and decreasing the computation time by more than $90 \%$. Our results are a large step towards efficient model architectures that make optimal use of their parameters and bridge the privacy-utility gap between private and non-private deep learning for computer vision.
翻訳日:2023-01-31 13:37:54 公開日:2023-01-30
# 銀行業における顧客チャーン予測

Prediction of Customer Churn in Banking Industry ( http://arxiv.org/abs/2301.13099v1 )

ライセンス: Link先を確認
Sina Esmaeilpour Charandabi(参考訳) 銀行業界の競争が激化する中、銀行は新しい顧客を獲得して市場シェアを伸ばそうとする一方で、顧客の保持戦略に従う必要がある。 本研究は、6つの教師付き分類手法のパフォーマンスを比較し、欧州の銀行の10000の顧客から10の人口統計と個人的属性を考慮に入れて、銀行業界における顧客混乱を予測する効率的なモデルを提案する。 2つの競合モデルとして、ANNとランダムフォレストについて、特徴選択、クラス不均衡、および外れ値の影響について論じる。 示すように、ランダムな森林とは異なり、ANNは過度な適合に関する深刻な懸念を明らかにしておらず、騒音にも強い。 したがって、単一の隠蔽層に5つのノードを持つANN構造が最高の性能の分類器として認識される。

With the growing competition in banking industry, banks are required to follow customer retention strategies while they are trying to increase their market share by acquiring new customers. This study compares the performance of six supervised classification techniques to suggest an efficient model to predict customer churn in banking industry, given 10 demographic and personal attributes from 10000 customers of European banks. The effect of feature selection, class imbalance, and outliers will be discussed for ANN and random forest as the two competing models. As shown, unlike random forest, ANN does not reveal any serious concern regarding overfitting and is also robust to noise. Therefore, ANN structure with five nodes in a single hidden layer is recognized as the best performing classifier.
翻訳日:2023-01-31 13:37:36 公開日:2023-01-30
# CHeart : 心臓解剖における条件時空間生成モデル

CHeart: A Conditional Spatio-Temporal Generative Model for Cardiac Anatomy ( http://arxiv.org/abs/2301.13098v1 )

ライセンス: Link先を確認
Mengyun Qiao, Shuo Wang, Huaqi Qiu, Antonio de Marvao, Declan P. O'Regan, Daniel Rueckert, Wenjia Bai(参考訳) 心画像解析における2つの重要な疑問は、画像から心臓の解剖と運動を評価することと、それが性別、年齢、疾患などの非画像的臨床因子とどのように関連しているかを理解することである。 第1の質問はしばしば画像分割とモーショントラッキングアルゴリズムによって解決されるが、第2の質問をモデル化して答える能力はまだ限られている。 本研究では,心臓の4次元時空間解剖とその非画像的臨床因子との相互作用を記述するための条件生成モデルを提案する。 臨床因子は生成モデリングの条件として統合され, これらの因子が心臓解剖にどのように影響するかを調べることができる。 主に解剖学的シーケンス完了とシーケンス生成の2つのタスクでモデル性能を評価する。 このモデルは解剖学的シーケンスの完成度において、他の最先端生成モデルに匹敵する高い性能を達成している。 臨床条件が与えられた場合、このモデルは、類似した分布を実際のデータと共有するリアルな4Dシーケンシャル解剖を生成できる。

Two key questions in cardiac image analysis are to assess the anatomy and motion of the heart from images; and to understand how they are associated with non-imaging clinical factors such as gender, age and diseases. While the first question can often be addressed by image segmentation and motion tracking algorithms, our capability to model and to answer the second question is still limited. In this work, we propose a novel conditional generative model to describe the 4D spatio-temporal anatomy of the heart and its interaction with non-imaging clinical factors. The clinical factors are integrated as the conditions of the generative modelling, which allows us to investigate how these factors influence the cardiac anatomy. We evaluate the model performance in mainly two tasks, anatomical sequence completion and sequence generation. The model achieves a high performance in anatomical sequence completion, comparable to or outperforming other state-of-the-art generative models. In terms of sequence generation, given clinical conditions, the model can generate realistic synthetic 4D sequential anatomies that share similar distributions with the real data.
翻訳日:2023-01-31 13:37:24 公開日:2023-01-30
# 言語駆動型アンカーベース逆ロバストゼロショット学習

Anchor-Based Adversarially Robust Zero-Shot Learning Driven by Language ( http://arxiv.org/abs/2301.13096v1 )

ライセンス: Link先を確認
Xiao Li and Wei Zhang and Yining Liu and Zhanhao Hu and Bo Zhang and Xiaolin Hu(参考訳) ディープニューラルネットワークは敵の攻撃に弱い。 我々は,ゼロショット画像分類設定では,逆防御とゼロショット学習の両方が困難であるため,ほとんど検討されていない逆防御について考察する。 我々は,ゼロショット環境での対向ロバスト性を改善するために,新たな言語駆動型アンカーベースの対向訓練戦略であるlaatを提案する。 LAATはテキストエンコーダを使用して各カテゴリの固定アンカー(正規化された特徴埋め込み)を取得し、これらのアンカーを使用して敵の訓練を行う。 テキストエンコーダは、意味的に類似したカテゴリを特徴空間内の隣り合うアンカーにマッピングできる特性を持っている。 この特性を活用することで、LAATは新たなカテゴリに対して、余分な例を伴わずに、画像モデルを逆向きに堅牢にすることができる。 実験結果から,攻撃条件のほとんどにおいて,従来の対角的かつ堅牢な単発方式を超越した,ゼロショット対向性能が得られた。 ImageNet-1Kのような大規模なデータセットでLAATでモデルがトレーニングされた場合、複数の下流データセットにまたがるかなりのゼロショットの対角性を持つことができる。

Deep neural networks are vulnerable to adversarial attacks. We consider adversarial defense in the case of zero-shot image classification setting, which has rarely been explored because both adversarial defense and zero-shot learning are challenging. We propose LAAT, a novel Language-driven, Anchor-based Adversarial Training strategy, to improve the adversarial robustness in a zero-shot setting. LAAT uses a text encoder to obtain fixed anchors (normalized feature embeddings) of each category, then uses these anchors to perform adversarial training. The text encoder has the property that semantically similar categories can be mapped to neighboring anchors in the feature space. By leveraging this property, LAAT can make the image model adversarially robust on novel categories without any extra examples. Experimental results show that our method achieves impressive zero-shot adversarial performance, even surpassing the previous state-of-the-art adversarially robust one-shot methods in most attacking settings. When models are trained with LAAT on large datasets like ImageNet-1K, they can have substantial zero-shot adversarial robustness across several downstream datasets.
翻訳日:2023-01-31 13:37:06 公開日:2023-01-30
# ニューラルネットワークを用いた高次元関数の最適近似複雑性

Optimal Approximation Complexity of High-Dimensional Functions with Neural Networks ( http://arxiv.org/abs/2301.13091v1 )

ライセンス: Link先を確認
Vincent P.H. Goverse, Jad Hamdan, Jared Tanner(参考訳) reluと$x^2$の両方をアクティベーション関数として使用するニューラルネットワークの特性を調査し、ソボレフ空間における解析関数と関数の両方を任意の精度で一定の深さのネットワークで近似できることを示し、標準reluネットワークを含むすべての非線形近似器で最適な次数近似率を示す。 次に、ある文脈における局所次元の低さを利用して次元の呪いを克服し、未知の低次元部分空間に最適な近似率を得る方法を示す。

We investigate properties of neural networks that use both ReLU and $x^2$ as activation functions and build upon previous results to show that both analytic functions and functions in Sobolev spaces can be approximated by such networks of constant depth to arbitrary accuracy, demonstrating optimal order approximation rates across all nonlinear approximators, including standard ReLU networks. We then show how to leverage low local dimensionality in some contexts to overcome the curse of dimensionality, obtaining approximation rates that are optimal for unknown lower-dimensional subspaces.
翻訳日:2023-01-31 13:36:44 公開日:2023-01-30
# 自己圧縮ニューラルネットワーク

Self-Compressing Neural Networks ( http://arxiv.org/abs/2301.13142v1 )

ライセンス: Link先を確認
Szabolcs Cs\'efalvay, James Imber(参考訳) この研究は、ニューラルネットワークの実行時間、消費電力、帯域幅、メモリフットプリントの主要な要因である、ニューラルネットワークのサイズ削減に焦点を当てている。 重要な課題は、特別なハードウェアを必要とせずに、効率的なトレーニングと推論のために容易に活用できる方法でサイズを縮小することである。 本稿では,(1)余剰重みの除去,(2)余剰重みの表現に必要なビット数の削減という2つの目標を同時に達成する,単純で汎用的な方法を提案する。 これはネットワークサイズを最小化するために一般化された損失関数を用いて達成される。 我々の経験では、浮動小数点の精度は、ネットワークに残るビットの3%と重量の18%に満たない。

This work focuses on reducing neural network size, which is a major driver of neural network execution time, power consumption, bandwidth, and memory footprint. A key challenge is to reduce size in a manner that can be exploit-ed readily for efficient training and inference without the need for specialized hardware. We propose Self-Compression: a simple, general method that simultaneously achieves two goals: (1) removing redundant weights, and (2) reducing the number of bits required to represent the remaining weights. This is achieved using a generalized loss function to minimize overall network size. In our ex-periments we demonstrate floating point accuracy with as few as 3% of the bits and 18% of the weights remaining in the network.
翻訳日:2023-01-31 13:30:44 公開日:2023-01-30
# 画像の半教師付きセマンティックセマンティックセグメンテーションにおける変動文脈と特徴摂動の一貫性規則化

Consistency Regularisation in Varying Contexts and Feature Perturbations for Semi-Supervised Semantic Segmentation of Histology Images ( http://arxiv.org/abs/2301.13141v1 )

ライセンス: Link先を確認
Raja Muhammad Saad Bashir, Talha Qaiser, Shan E Ahmed Raza, Nasir M. Rajpoot(参考訳) 組織像における組織および核種のセマンティックセグメンテーションは、計算病理学(CPath)領域における多くの下流課題に基本的である。 近年,Deep Learning (DL) 法はセグメンテーションタスクでよく機能することが示されているが,DL法は一般的に大量のピクセル単位のアノテートデータを必要とする。 ピクセル単位でのアノテーションは、専門家の知識と時間を必要とすることがある。 本稿では,モデルトレーニングのために大量のラベルなしデータを活用し,大規模な注釈付きデータセットの必要性を緩和することにより,この課題を軽減するための一貫性に基づく半教師付き学習(ssl)手法を提案する。 しかし、sslモデルは文脈変化の影響を受けやすい可能性があり、トレーニングデータに制限があるため一般化が不十分な特徴がある。 本稿では,ラベル付き画像と非ラベル付き画像の両方から堅牢な特徴を学習するSSL手法を提案する。 提案手法では,重なり合う画像の対を画素的に対比することで,コンテキスト認識一貫性を取り入れ,ロバストかつコンテキスト不変な特徴を生み出す。 クロスコンシスタンストレーニングにより,エンコーダの特徴が異なる摂動に不変となり,予測信頼性が向上することを示す。 最後に、エントロピー最小化を用いて、未ラベルデータから最終的な予測マップの信頼性をさらに高める。 公開可能な2つの大規模データセット(BCSSとMoNuSeg)に対して広範な実験を行い、最先端の手法と比較して優れた性能を示す。

Semantic segmentation of various tissue and nuclei types in histology images is fundamental to many downstream tasks in the area of computational pathology (CPath). In recent years, Deep Learning (DL) methods have been shown to perform well on segmentation tasks but DL methods generally require a large amount of pixel-wise annotated data. Pixel-wise annotation sometimes requires expert's knowledge and time which is laborious and costly to obtain. In this paper, we present a consistency based semi-supervised learning (SSL) approach that can help mitigate this challenge by exploiting a large amount of unlabelled data for model training thus alleviating the need for a large annotated dataset. However, SSL models might also be susceptible to changing context and features perturbations exhibiting poor generalisation due to the limited training data. We propose an SSL method that learns robust features from both labelled and unlabelled images by enforcing consistency against varying contexts and feature perturbations. The proposed method incorporates context-aware consistency by contrasting pairs of overlapping images in a pixel-wise manner from changing contexts resulting in robust and context invariant features. We show that cross-consistency training makes the encoder features invariant to different perturbations and improves the prediction confidence. Finally, entropy minimisation is employed to further boost the confidence of the final prediction maps from unlabelled data. We conduct an extensive set of experiments on two publicly available large datasets (BCSS and MoNuSeg) and show superior performance compared to the state-of-the-art methods.
翻訳日:2023-01-31 13:30:31 公開日:2023-01-30
# 一般パラメトリゼーションと線形収束を考慮した政策ミラーの新たな枠組み

A Novel Framework for Policy Mirror Descent with General Parametrization and Linear Convergence ( http://arxiv.org/abs/2301.13139v1 )

ライセンス: Link先を確認
Carlo Alfano, Rui Yuan, Patrick Rebeschini(参考訳) 適用強化学習における最近のポリシー最適化手法は、しばしば信頼領域ポリシー最適化アルゴリズムに触発され、これはポリシーミラー降下の特定の例として解釈できる。 この枠組み、特に表の設定において理論的な保証が確立されているが、一般的なパラメトリゼーションスキームの使用はほとんど不当である。 本稿では,一般パラメトリゼーションを自然に適応するミラー降下に基づくポリシー最適化のための新しい枠組みを提案する。 本手法によって引き起こされるポリシークラスは、表型ソフトマックス、ログ線形、ニューラルポリシーなどの既知のクラスを回復する。 また、ミラーマップの選択に応じて新しいものを生成する。 一般ミラー写像とパラメトリゼーション関数に対して,値関数の更新と大域的線形収束率の準単調性を確立し,その経路に沿ってアルゴリズム全体の変動を限定した。 一般のパラメトリゼーションスキームに対応するためのフレームワークの能力を示すために,浅層ニューラルネットワークを用いたケーススタディを提案する。

Modern policy optimization methods in applied reinforcement learning are often inspired by the trust region policy optimization algorithm, which can be interpreted as a particular instance of policy mirror descent. While theoretical guarantees have been established for this framework, particularly in the tabular setting, the use of a general parametrization scheme remains mostly unjustified. In this work, we introduce a novel framework for policy optimization based on mirror descent that naturally accommodates general parametrizations. The policy class induced by our scheme recovers known classes, e.g. tabular softmax, log-linear, and neural policies. It also generates new ones, depending on the choice of the mirror map. For a general mirror map and parametrization function, we establish the quasi-monotonicity of the updates in value function, global linear convergence rates, and we bound the total variation of the algorithm along its path. To showcase the ability of our framework to accommodate general parametrization schemes, we present a case study involving shallow neural networks.
翻訳日:2023-01-31 13:30:05 公開日:2023-01-30
# 線形代数に基づくXAI解説の分類学に向けて

Towards the Linear Algebra Based Taxonomy of XAI Explanations ( http://arxiv.org/abs/2301.13138v1 )

ライセンス: Link先を確認
Sven Nomm(参考訳) 本稿では,説明可能な人工知能技術による説明の基本的な分類への代替手法を提案する。 説明可能な人工知能(xai, descriptionable artificial intelligence, xai)は、特定の予測や推定が行われた理由を、好ましくは人間のエージェントが理解しやすい言葉で答えるために開発された。 文献で提案されたXAI分類学は、主に人間エージェントの関与に関する説明を区別することに集中しており、異なる説明を識別・比較するための数学的アプローチを複雑にしている。 本稿では、興味のあるデータセットが$\mathbb{R} ^n$に属する場合に注意を絞り、局所的な説明のために単純線型代数に基づく分類法を提案する。

This paper proposes an alternative approach to the basic taxonomy of explanations produced by explainable artificial intelligence techniques. Methods of Explainable Artificial Intelligence (XAI) were developed to answer the question why a certain prediction or estimation was made, preferably in terms easy to understand by the human agent. XAI taxonomies proposed in the literature mainly concentrate their attention on distinguishing explanations with respect to involving the human agent, which makes it complicated to provide a more mathematical approach to distinguish and compare different explanations. This paper narrows its attention to the cases where the data set of interest belongs to $\mathbb{R} ^n$ and proposes a simple linear algebra-based taxonomy for local explanations.
翻訳日:2023-01-31 13:29:48 公開日:2023-01-30
# 部分観測可能なFew-Shot学習のためのコントラストメタラーニング

Contrastive Meta-Learning for Partially Observable Few-Shot Learning ( http://arxiv.org/abs/2301.13136v1 )

ライセンス: Link先を確認
Adam Jelley, Amos Storkey, Antreas Antoniou, Sam Devlin(参考訳) 多くの対比的およびメタラーニングアプローチは、複数のビューで共通の特徴を識別することで表現を学習する。 しかしながら、これらのアプローチの形式主義は概して、ビュー間で共有される特徴を一貫性を持って捉えることを前提としている。 本稿では,部分的な観察から統一表現を学習することの問題点について考察する。 我々はこれを確率論的形式主義(probabilistic formalism)を通じてアプローチし、異なるコンポーネントにおける異なるレベルの不確実性を持つ表現にビューをマッピングできるようにする。 我々のアプローチである部分観察エキスパートモデリング(POEM)は、部分観察からメタ学習した一貫した表現を可能にする。 提案手法は,総合的な数ショット学習ベンチマークMeta-Datasetの適応性について評価し,部分的な観察から表現学習を行う場合の他のメタ学習方法に対するPOEMの利点を実証する。 さらに,環境を探索するエージェントが観察する部分的な視点から環境を表現するメタラーニングによるPOEMの有用性を示す。

Many contrastive and meta-learning approaches learn representations by identifying common features in multiple views. However, the formalism for these approaches generally assumes features to be shared across views to be captured coherently. We consider the problem of learning a unified representation from partial observations, where useful features may be present in only some of the views. We approach this through a probabilistic formalism enabling views to map to representations with different levels of uncertainty in different components; these views can then be integrated with one another through marginalisation over that uncertainty. Our approach, Partial Observation Experts Modelling (POEM), then enables us to meta-learn consistent representations from partial observations. We evaluate our approach on an adaptation of a comprehensive few-shot learning benchmark, Meta-Dataset, and demonstrate the benefits of POEM over other meta-learning methods at representation learning from partial observations. We further demonstrate the utility of POEM by meta-learning to represent an environment from partial views observed by an agent exploring the environment.
翻訳日:2023-01-31 13:29:35 公開日:2023-01-30
# 条件モーメント制約による観測研究における内部的・外部的妥当性の改ざん

Falsification of Internal and External Validity in Observational Studies via Conditional Moment Restrictions ( http://arxiv.org/abs/2301.13133v1 )

ライセンス: Link先を確認
Zeshan Hussain, Ming-Chieh Shih, Michael Oberst, Ilker Demirel, David Sontag(参考訳) ランダム化対照治験(rct)は、新しい治療の評価に依拠しているが、パーソナライズされた治療決定を導くための限られた力に苦しむ。 一方、観察的(非実験的)な研究は多様で多様な集団を持つが、様々なバイアス(例えば、残留的な反響)が生じる。 観察研究の強みを安全に活用するために,rctが観測データから得られた因果効果推定を検証するために使用される偽造問題に焦点をあてる。 特に、RCTと観察研究の両方から得られたデータから、内部および外部の妥当性に関する仮定は、条件運動制限(CMR)の集合の形で観測可能で検証可能な意味を持つことを示した。 さらに,これらのcmrを因果効果,すなわち「因果コントラスト」に対して表現することで,より信頼性の高い偽造検査が得られることを示す。 実験の漸近特性の保証に加えて、半合成および実世界のデータセットに対するアプローチの優れたパワーとタイプiエラーを実証する。 我々のアプローチは解釈可能であり、実践者は、どのサブグループが観察研究のファルシフィケーションにつながるかを可視化することができる。

Randomized Controlled Trials (RCT)s are relied upon to assess new treatments, but suffer from limited power to guide personalized treatment decisions. On the other hand, observational (i.e., non-experimental) studies have large and diverse populations, but are prone to various biases (e.g. residual confounding). To safely leverage the strengths of observational studies, we focus on the problem of falsification, whereby RCTs are used to validate causal effect estimates learned from observational data. In particular, we show that, given data from both an RCT and an observational study, assumptions on internal and external validity have an observable, testable implication in the form of a set of Conditional Moment Restrictions (CMRs). Further, we show that expressing these CMRs with respect to the causal effect, or "causal contrast", as opposed to individual counterfactual means, provides a more reliable falsification test. In addition to giving guarantees on the asymptotic properties of our test, we demonstrate superior power and type I error of our approach on semi-synthetic and real world datasets. Our approach is interpretable, allowing a practitioner to visualize which subgroups in the population lead to falsification of an observational study.
翻訳日:2023-01-31 13:29:18 公開日:2023-01-30
# 蒸発ブラックホールの非熱放射

Nonthermal radiation of evaporating black holes ( http://arxiv.org/abs/2301.13131v1 )

ライセンス: Link先を確認
Anatoly A. Svidzinsky(参考訳) ブラックホール(BH)の蒸発は、事象の地平線付近で絡み合った粒子と反粒子の対が生成され、一方が無限大に正のエネルギーを、もう一方が負のエネルギーをBHに運ぶことによって引き起こされる。 事象の地平線の下では、粒子は常にBH中心に向かって動くため、吸収されるだけでなく、中心では放出されない。 これは吸収放出対称性を破り、その結果、BH中心における粒子の消滅は非エルミートハミルトニアンによって記述される。 事象地平線内外を移動している光子間の絡み合いにより、BH中心付近で負のエネルギー光子の非一意吸収により放射が変化することを示す。 その結果、蒸発するBHの放射は熱ではなく、BHの内部に関する情報を持ち、蒸発中にエントロピーが保存される。

Black hole (BH) evaporation is caused by creation of entangled particle-antiparticle pairs near the event horizon, with one carrying positive energy to infinity and the other carrying negative energy into the BH. Since under the event horizon, particles always move toward the BH center, they can only be absorbed but not emitted at the center. This breaks absorption-emission symmetry and, as a result, annihilation of the particle at the BH center is described by a non-Hermitian Hamiltonian. We show that due to entanglement between photons moving inside and outside the event horizon, nonunitary absorption of the negative energy photons near the BH center, alters the outgoing radiation. As a result, radiation of the evaporating BH is not thermal; it carries information about BH interior, and entropy is preserved during evaporation.
翻訳日:2023-01-31 13:28:55 公開日:2023-01-30
# 乳腺病理組織学における浸潤性癌分類における非教師なし染色適応の標準化サイクガン訓練

Standardized CycleGAN training for unsupervised stain adaptation in invasive carcinoma classification for breast histopathology ( http://arxiv.org/abs/2301.13128v1 )

ライセンス: Link先を確認
Nicolas Nerrienet and R\'emy Peyret and Marie Sockeel and St\'ephane Sockeel(参考訳) 一般化は、計算病理学の主要な課題の1つである。 スライド準備の不均一性とスキャナの多様性は、トレーニング中に見えない医療センターのデータで使用する場合のモデル性能の低下につながる。 乳腺浸潤癌パッチ分類における染色不均一性を実現するために,CycleGANsを用いた非教師なし画像・画像翻訳のための染色翻訳戦略を実装した。 本研究では,3つのサイクルGANをベースライン分類モデルと比較する。 提案手法の2つは, 投機や訓練においてサイクガンの翻訳を用い, 染色特異的分類モデルを構築した。 最後の方法は、トレーニング中にそれらをステンドデータ拡張に使用する。 これは分類モデルにステンド不変な特徴を学ぶように制約する。 ベースラインメトリクスは、ベースライン分類モデルのトレーニングとテストによって、参照ステイン上で設定される。 H&EとH&E&S染色を併用した3つの医療センターによる評価を行った。 この研究でテストされたすべてのアプローチは、ターゲットステインのラベルを必要とせずに、ベースラインメトリクスを改善します。 染色増量に基づくアプローチは,すべての染色に対して最良の結果をもたらした。 それぞれの方法の長所と短所について検討し,本論文で論じる。 しかし、ハイパフォーマンスなCycleGANsモデルのトレーニング自体が課題である。 本研究では,新しい停止基準を設定し,サイクルGANトレーニングを最適化するための体系的手法を提案する。 本手法は,サイクルGANの結果を視覚的に検査する必要がなく,事前定義されたトレーニングエポック数を用いた手法よりも優れていることを示す。 また,サイクルGANトレーニングに必要なデータ量についても検討した。

Generalization is one of the main challenges of computational pathology. Slide preparation heterogeneity and the diversity of scanners lead to poor model performance when used on data from medical centers not seen during training. In order to achieve stain invariance in breast invasive carcinoma patch classification, we implement a stain translation strategy using cycleGANs for unsupervised image-to-image translation. We compare three cycleGAN-based approaches to a baseline classification model obtained without any stain invariance strategy. Two of the proposed approaches use cycleGAN's translations at inference or training in order to build stain-specific classification models. The last method uses them for stain data augmentation during training. This constrains the classification model to learn stain-invariant features. Baseline metrics are set by training and testing the baseline classification model on a reference stain. We assessed performances using three medical centers with H&E and H&E&S staining. Every approach tested in this study improves baseline metrics without needing labels on target stains. The stain augmentation-based approach produced the best results on every stain. Each method's pros and cons are studied and discussed in this paper. However, training highly performing cycleGANs models in itself represents a challenge. In this work, we introduce a systematical method for optimizing cycleGAN training by setting a novel stopping criterion. This method has the benefit of not requiring any visual inspection of cycleGAN results and proves superiority to methods using a predefined number of training epochs. In addition, we also study the minimal amount of data required for cycleGAN training.
翻訳日:2023-01-31 13:28:37 公開日:2023-01-30
# lextreme: 法的ドメインのためのマルチランゲージおよびマルチタスクベンチマーク

LEXTREME: A Multi-Lingual and Multi-Task Benchmark for the Legal Domain ( http://arxiv.org/abs/2301.13126v1 )

ライセンス: Link先を確認
Joel Niklaus, Veton Matoshi, Pooja Rani, Andrea Galassi, Matthias St\"urmer, Ilias Chalkidis(参考訳) 近年, トランスアーキテクチャの周辺における驚くべき進歩により, NLP分野は飛躍的な成長を遂げている。 進捗を測定するには、十分にキュレーションされ、挑戦的なベンチマークが不可欠である。 しかし、ほとんどのベンチマークは英語のみであり、法律上のNLPでは、特にマルチリンガルベンチマークはまだ利用できない。 さらに、多くのベンチマークは飽和しており、最高のモデルは最高の人間よりも明らかに優れており、ほぼ完璧なスコアに達している。 法的なNLP文献を調査し、LEXTREMEを作成する24言語を含む11のデータセットを選択した。 公平な比較のために,データセットに基づくスコアと言語に基づくスコアの2つを提案する。 ベストベースライン(XLM-R大)は、両方のデータセットアグリゲーションが言語アグリゲーションスコア61.3を達成する。 これは、LEXTREMEが依然として非常に困難であり、改善の余地が十分にあることを示している。 研究者や実践者が簡単に使えるように、モデルを評価するのに必要なすべてのコードと、すべての実行で公開のWeights and Biasesプロジェクトとともに、ハグフェイスでLEXTREMEをリリースします。

Lately, propelled by the phenomenal advances around the transformer architecture, the legal NLP field has enjoyed spectacular growth. To measure progress, well curated and challenging benchmarks are crucial. However, most benchmarks are English only and in legal NLP specifically there is no multilingual benchmark available yet. Additionally, many benchmarks are saturated, with the best models clearly outperforming the best humans and achieving near perfect scores. We survey the legal NLP literature and select 11 datasets covering 24 languages, creating LEXTREME. To provide a fair comparison, we propose two aggregate scores, one based on the datasets and one on the languages. The best baseline (XLM-R large) achieves both a dataset aggregate score a language aggregate score of 61.3. This indicates that LEXTREME is still very challenging and leaves ample room for improvement. To make it easy for researchers and practitioners to use, we release LEXTREME on huggingface together with all the code required to evaluate models and a public Weights and Biases project with all the runs.
翻訳日:2023-01-31 13:28:17 公開日:2023-01-30
# IoT侵入検知と分類のための逆現実主義とロバスト学習に向けて

Towards Adversarial Realism and Robust Learning for IoT Intrusion Detection and Classification ( http://arxiv.org/abs/2301.13122v1 )

ライセンス: Link先を確認
Jo\~ao Vitorino, Isabel Pra\c{c}a, Eva Maia(参考訳) IoT(Internet of Things)は重大なセキュリティ上の課題に直面している。 マシンラーニングモデルは、IoTシステムを対象としたサイバー攻撃の増加に対処するために使用できるが、敵攻撃による脅威の増加は、信頼できる防衛戦略の必要性を回復させる。 本研究は,敵のサイバー攻撃例が現実的であるために必要な制約の種類を記述し,現実的敵の回避攻撃ベクトルを用いた信頼に値する敵のロバストネス分析手法を提案する。 提案手法は,ランダムフォレスト (rf), 極値勾配ブースティング (xgb), および光勾配ブースティングマシン (lgbm), および非教師なしアルゴリズムであるアイソレーションフォレスト (ifor) の3つの教師ありアルゴリズムを評価した。 適応摂動パターン法 (Adaptative Perturbation Pattern Method, A2PM) を用いて制約付き対向例を生成し, 正規および対向訓練で作成したモデルに対して回避攻撃を行った。 RFは二分分類において最も影響を受けなかったが、XGBは多クラス分類において常に高い精度を達成した。 その結果,木に基づくアルゴリズムやアンサンブルの逆回避攻撃に対する感受性を実証し,より堅牢なIoTネットワーク侵入検出のための設計アプローチによる敵のトレーニングとセキュリティのメリットを実証した。

The Internet of Things (IoT) faces tremendous security challenges. Machine learning models can be used to tackle the growing number of cyber-attack variations targeting IoT systems, but the increasing threat posed by adversarial attacks restates the need for reliable defense strategies. This work describes the types of constraints required for an adversarial cyber-attack example to be realistic and proposes a methodology for a trustworthy adversarial robustness analysis with a realistic adversarial evasion attack vector. The proposed methodology was used to evaluate three supervised algorithms, Random Forest (RF), Extreme Gradient Boosting (XGB), and Light Gradient Boosting Machine (LGBM), and one unsupervised algorithm, Isolation Forest (IFOR). Constrained adversarial examples were generated with the Adaptative Perturbation Pattern Method (A2PM), and evasion attacks were performed against models created with regular and adversarial training. Even though RF was the least affected in binary classification, XGB consistently achieved the highest accuracy in multi-class classification. The obtained results evidence the inherent susceptibility of tree-based algorithms and ensembles to adversarial evasion attacks and demonstrates the benefits of adversarial training and a security by design approach for a more robust IoT network intrusion detection.
翻訳日:2023-01-31 13:27:59 公開日:2023-01-30
# 原位置測定による学習制御

Learning Control from Raw Position Measurements ( http://arxiv.org/abs/2301.13183v1 )

ライセンス: Link先を確認
Fabio Amadio, Alberto Dalla Libera, Daniel Nikovski, Ruggero Carli, Diego Romeres(参考訳) 本稿では,VF-MC-PILCOというモデルベース強化学習(MBRL)アルゴリズムを提案する。 この状況は、適切に考慮されていないとしても、MBRLアプローチの成功を損なう可能性がある。 この問題に対処するために,過去の位置と入力の集合からなる速度自由状態定式化を定義する。 次に、VF-MC-PILCOはガウス過程回帰を用いて速度自由状態のダイナミクスをモデル化し、粒子ベースのポリシー勾配アプローチにより制御ポリシーを最適化する。 我々は,VF-MC-PILCOと従来のMBRLアルゴリズムであるMC-PILCO4PMSを比較する。 シミュレーション(カートポールロボットとUR5ロボット)と実機械システム(フルータ振り子とボール&プレートリグ)の両方の結果から,この2つのアルゴリズムが同様の結果が得られることが示された。 同様に、VF-MC-PILCOは状態推定器の設計と実装を必要としない。

We propose a Model-Based Reinforcement Learning (MBRL) algorithm named VF-MC-PILCO, specifically designed for application to mechanical systems where velocities cannot be directly measured. This circumstance, if not adequately considered, can compromise the success of MBRL approaches. To cope with this problem, we define a velocity-free state formulation which consists of the collection of past positions and inputs. Then, VF-MC-PILCO uses Gaussian Process Regression to model the dynamics of the velocity-free state and optimizes the control policy through a particle-based policy gradient approach. We compare VF-MC-PILCO with our previous MBRL algorithm, MC-PILCO4PMS, which handles the lack of direct velocity measurements by modeling the presence of velocity estimators. Results on both simulated (cart-pole and UR5 robot) and real mechanical systems (Furuta pendulum and a ball-and-plate rig) show that the two algorithms achieve similar results. Conveniently, VF-MC-PILCO does not require the design and implementation of state estimators, which can be a challenging and time-consuming activity to be performed by an expert user.
翻訳日:2023-01-31 13:22:09 公開日:2023-01-30
# シェープアウェアテキスト駆動階層ビデオ編集

Shape-aware Text-driven Layered Video Editing ( http://arxiv.org/abs/2301.13173v1 )

ライセンス: Link先を確認
Yao-Chih Lee, Ji-Ze Genevieve Jang, Yi-Ting Chen, Elizabeth Qiu, Jia-Bin Huang(参考訳) ビデオ編集アプリケーションには時間的一貫性が不可欠である。 ビデオのレイヤー表現に関する既存の作業は、各フレームに一貫した編集の伝達を可能にする。 しかし, これらの手法は, テクスチャアトラスに固定された紫外線マッピング場を使用することの制限により, 物体形状の変化よりも物体の外観を編集することしかできない。 この課題に対処するために,形状認識型テキスト駆動ビデオ編集手法を提案する。 映像編集における形状変化に対処するため,まず入力キーフレームと編集キーフレーム間の変形場を全フレームに伝播する。 次に,事前学習したテキスト条件拡散モデルを用いて形状歪みを補正し,未確認領域を完成させる。 実験結果から,本手法は形状認識型一貫した映像編集を実現し,最先端技術と比較できることがわかった。

Temporal consistency is essential for video editing applications. Existing work on layered representation of videos allows propagating edits consistently to each frame. These methods, however, can only edit object appearance rather than object shape changes due to the limitation of using a fixed UV mapping field for texture atlas. We present a shape-aware, text-driven video editing method to tackle this challenge. To handle shape changes in video editing, we first propagate the deformation field between the input and edited keyframe to all frames. We then leverage a pre-trained text-conditioned diffusion model as guidance for refining shape distortion and completing unseen regions. The experimental results demonstrate that our method can achieve shape-aware consistent video editing and compare favorably with the state-of-the-art.
翻訳日:2023-01-31 13:21:50 公開日:2023-01-30
# Hamiltonian-Oriented Homotopy QAOA

Hamiltonian-Oriented Homotopy QAOA ( http://arxiv.org/abs/2301.13170v1 )

ライセンス: Link先を確認
Akash Kundu, Ludmila Botelho, Adam Glos(参考訳) 古典的ホモトピー最適化アプローチは、QAOA問題のエネルギーランドスケープのような非常に非線形なランドスケープを扱う可能性がある。 このモチベーションに続いて、古典的ホモトピー最適化に基づくQAOAを用いた組合せ最適化のヒューリスティックな方法であるHamidian-Oriented Homotopy QAOA(Hoho-QAOA)を紹介する。 この方法は、補間パラメータの各値に対する最適化問題を生成するホモトピーマップからなる。 したがって、HOHO-QAOAはQAOAの最適化を複数のループに分解し、それぞれがミキサーと目的ハミルトニアンを混合してコスト関数の評価を行う。 さらに、HOHO-QAOAは非線形エネルギーランドスケープにおける低エネルギー状態の探索を改善し、他のQAOAの変種よりも優れていると結論付けている。

The classical homotopy optimization approach has the potential to deal with highly nonlinear landscape, such as the energy landscape of QAOA problems. Following this motivation, we introduce Hamiltonian-Oriented Homotopy QAOA (HOHo-QAOA), that is a heuristic method for combinatorial optimization using QAOA, based on classical homotopy optimization. The method consists of a homotopy map that produces an optimization problem for each value of interpolating parameter. Therefore, HOHo-QAOA decomposes the optimization of QAOA into several loops, each using a mixture of the mixer and the objective Hamiltonian for cost function evaluation. Furthermore, we conclude that the HOHo-QAOA improves the search for low energy states in the nonlinear energy landscape and outperforms other variants of QAOA.
翻訳日:2023-01-31 13:21:37 公開日:2023-01-30
# 地盤特性予測のための改良機械学習アルゴリズム

Improved machine learning algorithm for predicting ground state properties ( http://arxiv.org/abs/2301.13169v1 )

ライセンス: Link先を確認
Laura Lewis, Hsin-Yuan Huang, Viet T. Tran, Sebastian Lehner, Richard Kueng, John Preskill(参考訳) 量子多体系の基底状態を見つけることは、量子物理学の基本的な問題である。 本研究では,幾何学的局所性を符号化した帰納バイアスで基底状態特性を予測するための古典的機械学習(ML)アルゴリズムを提案する。 提案されたmlモデルは、同じ量子相の物質の他のハミルトニアンについての$\mathcal{o}(\log(n))$データから学習した後、n$-qubitのガッピング局所ハミルトニアンの基底状態特性を効率的に予測することができる。 これは、大きな定数$c$に対して$\mathcal{O}(n^c)$データを必要とする以前の結果よりも大幅に改善される。 さらに、提案されたMLモデルスケールのトレーニング時間と予測時間は、qubits$n$の数値で$\mathcal{O}(n \log n)$である。 最大45量子ビットの物理系に関する数値実験により、小さなトレーニングデータセットを用いて基底状態特性の予測に好適なスケーリングが確認できる。

Finding the ground state of a quantum many-body system is a fundamental problem in quantum physics. In this work, we give a classical machine learning (ML) algorithm for predicting ground state properties with an inductive bias encoding geometric locality. The proposed ML model can efficiently predict ground state properties of an $n$-qubit gapped local Hamiltonian after learning from only $\mathcal{O}(\log(n))$ data about other Hamiltonians in the same quantum phase of matter. This improves substantially upon previous results that require $\mathcal{O}(n^c)$ data for a large constant $c$. Furthermore, the training and prediction time of the proposed ML model scale as $\mathcal{O}(n \log n)$ in the number of qubits $n$. Numerical experiments on physical systems with up to 45 qubits confirm the favorable scaling in predicting ground state properties using a small training dataset.
翻訳日:2023-01-31 13:21:19 公開日:2023-01-30
# ESC:ゼロショットオブジェクトナビゲーションのためのソフトコモンセンス制約による探索

ESC: Exploration with Soft Commonsense Constraints for Zero-shot Object Navigation ( http://arxiv.org/abs/2301.13166v1 )

ライセンス: Link先を確認
Kaiwen Zhou, Kaizhi Zheng, Connor Pryor, Yilin Shen, Hongxia Jin, Lise Getoor, Xin Eric Wang(参考訳) 特定のオブジェクトを正確に見つけてナビゲートする能力は、現実世界で動作し、タスクを完了させるためにオブジェクトと対話するエージェントにとって重要な能力である。 このようなオブジェクトナビゲーションタスクは、通常、ラベル付きオブジェクトを持つ視覚環境において大規模なトレーニングを必要とする。 本研究では,事前学習モデルにおける常識知識を,ナビゲーション経験や視覚環境でのトレーニングなしにオープンワールドオブジェクトナビゲーションに伝達する,ソフト・コモンセンス制約(esc)を用いた新たなゼロショットオブジェクトナビゲーション手法を提案する。 第一に、ESCは、オープンワールドのプロンプトベースのグラウンドリングのための事前学習されたビジョンと言語モデルと、ルームおよびオブジェクト推論のための事前学習されたコモンセンス言語モデルを利用する。 そして、ESCはコモンセンス知識を、効率的な探索のためのソフトロジック述語としてモデル化することで、ナビゲーション行動に変換する。 MP3D, HM3D, および RoboTHOR ベンチマークの大規模な実験により、我々のESC法はベースラインよりも大幅に改善され、ゼロショットオブジェクトナビゲーションのための新しい最先端結果(例えば、MP3D の CoW よりも 225 % の相対的継承率改善)が得られることが示された。

The ability to accurately locate and navigate to a specific object is a crucial capability for embodied agents that operate in the real world and interact with objects to complete tasks. Such object navigation tasks usually require large-scale training in visual environments with labeled objects, which generalizes poorly to novel objects in unknown environments. In this work, we present a novel zero-shot object navigation method, Exploration with Soft Commonsense constraints (ESC), that transfers commonsense knowledge in pre-trained models to open-world object navigation without any navigation experience nor any other training on the visual environments. First, ESC leverages a pre-trained vision and language model for open-world prompt-based grounding and a pre-trained commonsense language model for room and object reasoning. Then ESC converts commonsense knowledge into navigation actions by modeling it as soft logic predicates for efficient exploration. Extensive experiments on MP3D, HM3D, and RoboTHOR benchmarks show that our ESC method improves significantly over baselines, and achieves new state-of-the-art results for zero-shot object navigation (e.g., 225\% relative Success Rate improvement than CoW on MP3D).
翻訳日:2023-01-31 13:21:04 公開日:2023-01-30
# seaformer:モバイルセマンティクスセグメンテーションのためのスクイーズエンハンスエンハンスド軸トランス

SeaFormer: Squeeze-enhanced Axial Transformer for Mobile Semantic Segmentation ( http://arxiv.org/abs/2301.13156v1 )

ライセンス: Link先を確認
Qiang Wan, Zilong Huang, Jiachen Lu, Gang Yu, Li Zhang(参考訳) 視覚トランスフォーマーの導入以来、cnnに圧倒的に支配されている多くのコンピュータビジョンタスク(意味セグメンテーションなど)の展望は、近年大きく革命している。 しかし、計算コストとメモリ要件により、これらの手法はモバイルデバイス、特にピクセル毎のセマンティクスセグメンテーションタスクの高解像度化には適さない。 本稿では,モバイルセマンティックセグメンテーションのための圧縮強化型Axial TransFormer(SeaFormer)を提案する。 具体的には、圧縮軸の定式化と詳細強化を特徴とする一般的な注意ブロックを設計する。 さらにコスト効率のよいバックボーンアーキテクチャのファミリを作成するためにも使用できる。 光セグメンテーションヘッドと組み合わせることで、ade20kとcityscapesデータセット上のarmベースのモバイルデバイスのセグメンテーション精度とレイテンシのトレードオフを最大化します。 重要なのは、私たちはモバイルフレンドリーなライバルとトランスフォーマーベースのライバルを、ベルやホイッスルなしでパフォーマンスと低レイテンシで破ったことです。 セマンティックセグメンテーション以外にも,提案するSeaFormerアーキテクチャを画像分類問題に適用し,モバイルフレンドリーなバックボーンとして機能する可能性を示す。

Since the introduction of Vision Transformers, the landscape of many computer vision tasks (e.g., semantic segmentation), which has been overwhelmingly dominated by CNNs, recently has significantly revolutionized. However, the computational cost and memory requirement render these methods unsuitable on the mobile device, especially for the high-resolution per-pixel semantic segmentation task. In this paper, we introduce a new method squeeze-enhanced Axial TransFormer (SeaFormer) for mobile semantic segmentation. Specifically, we design a generic attention block characterized by the formulation of squeeze Axial and detail enhancement. It can be further used to create a family of backbone architectures with superior cost-effectiveness. Coupled with a light segmentation head, we achieve the best trade-off between segmentation accuracy and latency on the ARM-based mobile devices on the ADE20K and Cityscapes datasets. Critically, we beat both the mobile-friendly rivals and Transformer-based counterparts with better performance and lower latency without bells and whistles. Beyond semantic segmentation, we further apply the proposed SeaFormer architecture to image classification problem, demonstrating the potentials of serving as a versatile mobile-friendly backbone.
翻訳日:2023-01-31 13:20:38 公開日:2023-01-30
# マスキング記録モデルによるラジオグラフ表現学習の高度化

Advancing Radiograph Representation Learning with Masked Record Modeling ( http://arxiv.org/abs/2301.13155v1 )

ライセンス: Link先を確認
Hong-Yu Zhou, Chenyu Lian, Liansheng Wang, Yizhou Yu(参考訳) ラジオグラフ表現学習における現代の研究は、不変セマンティクスをエンコードする自己スーパービジョンや、医学的な専門知識を組み込むための関連する放射線学レポートに依存している。 そこで本研究では,自己および報告補完を2つの補完的目的として定式化し,マスクド・レコード・モデリング(mrm)に基づく統一フレームワークを提案する。 実際には、MRMは、知識強化されたセマンティック表現を学ぶためのマルチタスクスキームに従って、マスクされた画像パッチとマスクされたレポートトークンを再構築する。 MRM事前訓練により,様々な放射線撮影タスクに十分に移行可能な事前訓練モデルが得られる。 具体的には、MRMはラベル効率の良い微調整において優れた性能を提供する。 例えば、MRMはCheXpertで平均88.5%のAUCを1%ラベル付きデータで達成し、従来のR$^2$L法よりも100%ラベルで優れている。 NIH ChestX-ray では、MRM は小さなラベリング比で 3% 程度の性能で最高の性能を発揮する。 また,mrmは肺炎タイプと気胸領域の同定において,自己管理および報告前訓練を上回っている。

Modern studies in radiograph representation learning rely on either self-supervision to encode invariant semantics or associated radiology reports to incorporate medical expertise, while the complementarity between them is barely noticed. To explore this, we formulate the self- and report-completion as two complementary objectives and present a unified framework based on masked record modeling (MRM). In practice, MRM reconstructs masked image patches and masked report tokens following a multi-task scheme to learn knowledge-enhanced semantic representations. With MRM pre-training, we obtain pre-trained models that can be well transferred to various radiography tasks. Specifically, we find that MRM offers superior performance in label-efficient fine-tuning. For instance, MRM achieves 88.5% mean AUC on CheXpert using 1% labeled data, outperforming previous R$^2$L methods with 100% labels. On NIH ChestX-ray, MRM outperforms the best performing counterpart by about 3% under small labeling ratios. Besides, MRM surpasses self- and report-supervised pre-training in identifying the pneumonia type and the pneumothorax area, sometimes by large margins.
翻訳日:2023-01-31 13:20:18 公開日:2023-01-30
# 知識強化一次構造モデリングによるタンパク質表現学習

Protein Representation Learning via Knowledge Enhanced Primary Structure Modeling ( http://arxiv.org/abs/2301.13154v1 )

ライセンス: Link先を確認
Hong-Yu Zhou, Yunxiang Fu, Zhicheng Zhang, Cheng Bian, Yizhou Yu(参考訳) タンパク質表現学習は主に言語モデル(LM)の顕著な発展の恩恵を受けている。 それゆえ、事前訓練されたタンパク質モデルは、事実の知識の欠如というlsmの問題も抱えている。 最近のソリューションは、タンパク質と関連する知識用語の関係を知識エンコーディングの目的としてモデル化している。 しかし、より細かいレベルでの関係、すなわちトークンレベルでの探索には失敗している。 そこで本研究では,タンパク質表現学習のためのトークンレベルの知識グラフ探索を行うタンパク質自動エンコーダ(keap)を提案する。 実際には、非マスクアミノ酸は関連する知識トークンを反復的にクエリして抽出し、注意を通してマスクされたアミノ酸を復元するための有用な情報を統合する。 我々は,keapが従来の9種類のダウンストリームアプリケーションよりも一貫して優れており,時には大きなマージンでそれを上回ることができることを示した。 これらの結果は、keapが知識強化タンパク質表現学習を行うための代替的かつ効果的な方法を提供することを示唆している。

Protein representation learning has primarily benefited from the remarkable development of language models (LMs). Accordingly, pre-trained protein models also suffer from a problem in LMs: a lack of factual knowledge. The recent solution models the relationships between protein and associated knowledge terms as the knowledge encoding objective. However, it fails to explore the relationships at a more granular level, i.e., the token level. To mitigate this, we propose Knowledge-exploited Auto-encoder for Protein (KeAP), which performs token-level knowledge graph exploration for protein representation learning. In practice, non-masked amino acids iteratively query the associated knowledge tokens to extract and integrate helpful information for restoring masked amino acids via attention. We show that KeAP can consistently outperform the previous counterpart on 9 representative downstream applications, sometimes surpassing it by large margins. These results suggest that KeAP provides an alternative yet effective way to perform knowledge enhanced protein representation learning.
翻訳日:2023-01-31 13:19:56 公開日:2023-01-30
# 特異性を考慮した強化学習

Singularity-aware Reinforcement Learning ( http://arxiv.org/abs/2301.13152v1 )

ライセンス: Link先を確認
Xiaohong Chen, Zhengling Qi, Runzhe Wan(参考訳) バッチ強化学習 (RL) は, 予測総報酬を最大化するために, 事前収集データを活用することにより, 動的環境における最適政策の探索を目的とする。 このタスクの根本的な課題は、バッチデータ生成プロセスとターゲットポリシーによって誘導される分散との間の分散ミスマッチである。 既存のアルゴリズムのほとんどすべてが、データ分散に関してターゲットポリシーによって引き起こされる分布の絶対的な連続的な仮定に依存しているため、バッチデータは測定値の変更を通じてターゲットポリシーの校正に使用できる。 しかし、絶対連続性仮定は、特に状態-作用空間が大きければ、実際に違反する可能性がある。 本稿では,連続状態と動作を伴う無限水平マルコフ決定過程の設定において絶対連続性を必要としない新しいバッチRLアルゴリズムを提案する。 我々はアルゴリズムをSTEEL: SingulariTy-awarE rEinforcement Learningと呼んでいる。 このアルゴリズムは,最大平均不一致と分布的ロバストな最適化を併用し,特異性に起因するオフポリス評価の誤りを特徴付け,モデルの補間を可能にするオフポリス評価の新しい誤り解析によって動機づけられている。 悲観主義の考え方を利用して、いくつかの穏やかな条件下では、絶対連続性を課さずに提案したアルゴリズムに対する有限サンプル後悔保証を導出する。 既存のアルゴリズムと比較して、STEELは最小限のデータカバレッジ仮定しか必要とせず、バッチRLの適用性と堅牢性を大幅に向上させる。 シミュレーション実験とパーソナライズ価格の実際の実験により,バッチrlにおける特異性に直面する場合,提案手法の優れた性能を示す。

Batch reinforcement learning (RL) aims at finding an optimal policy in a dynamic environment in order to maximize the expected total rewards by leveraging pre-collected data. A fundamental challenge behind this task is the distributional mismatch between the batch data generating process and the distribution induced by target policies. Nearly all existing algorithms rely on the absolutely continuous assumption on the distribution induced by target policies with respect to the data distribution so that the batch data can be used to calibrate target policies via the change of measure. However, the absolute continuity assumption could be violated in practice, especially when the state-action space is large or continuous. In this paper, we propose a new batch RL algorithm without requiring absolute continuity in the setting of an infinite-horizon Markov decision process with continuous states and actions. We call our algorithm STEEL: SingulariTy-awarE rEinforcement Learning. Our algorithm is motivated by a new error analysis on off-policy evaluation, where we use maximum mean discrepancy, together with distributionally robust optimization, to characterize the error of off-policy evaluation caused by the possible singularity and to enable the power of model extrapolation. By leveraging the idea of pessimism and under some mild conditions, we derive a finite-sample regret guarantee for our proposed algorithm without imposing absolute continuity. Compared with existing algorithms, STEEL only requires some minimal data-coverage assumption and thus greatly enhances the applicability and robustness of batch RL. Extensive simulation studies and one real experiment on personalized pricing demonstrate the superior performance of our method when facing possible singularity in batch RL.
翻訳日:2023-01-31 13:19:43 公開日:2023-01-30
# 畳み込みニューラルネットワークを用いたマルチスペクトル画像を用いた大腸癌および前立腺腫瘍生検の自動分類:システム開発研究

Convolutional Neural Network-Based Automatic Classification of Colorectal and Prostate Tumor Biopsies Using Multispectral Imagery: System Development Study ( http://arxiv.org/abs/2301.13151v1 )

ライセンス: Link先を確認
Remy Peyret and Duaa alSaeed and Fouad Khelifi and Nadia Al-Ghreimil and Heyam Al-Baity and Ahmed Bouridane(参考訳) 大腸癌と前立腺癌は世界中で男性に最も多い種類のがんである。 大腸癌および前立腺がんを診断するために、病理医は針生検サンプルの組織学的分析を行う。 この手動プロセスは、時間がかかり、エラーが発生しやすいため、診断の信頼性に影響を及ぼす、インターイントラとインターオブザーバのバラエティが高い。 本研究の目的は,生検サンプルの画像を用いて大腸癌と前立腺腫瘍を診断する自動計算機システムの開発である。 生検試料のマルチスペクトル画像から大腸癌と前立腺腫瘍を分類するためのcnnモデルを提案する。 重要なアイデアは、畳み込み層の最後のブロックを取り除き、層ごとのフィルタ数を半減させることだった。 その結果,前立腺および大腸のデータセットの平均検査精度は99.8%と99.5%と優れた成績を示した。 このシステムは,1つのCNNモデルを用いて事前処理を回避し,事前学習したCNNや他の分類手法と比較して優れた性能を示した。 総じて,提案するcnnアーキテクチャは大腸および前立腺腫瘍画像の分類に最も適したシステムであった。 提案するcnnの詳細と特徴抽出器として使用されていたネットワークモデルとの比較を行った。 これらのCNNは、他の分類手法と比較された。 事前訓練されたCNNや他の分類手法とは異なり、提案したCNNは優れた結果を得た。 CNNの計算複雑性についても検討し,前処理を必要としないため,提案したCNNは事前学習ネットワークよりも画像の分類が優れていることを示した。 以上より,提案するcnnアーキテクチャは大腸および前立腺腫瘍画像の分類に最も適したシステムであることが示唆された。

Colorectal and prostate cancers are the most common types of cancer in men worldwide. To diagnose colorectal and prostate cancer, a pathologist performs a histological analysis on needle biopsy samples. This manual process is time-consuming and error-prone, resulting in high intra and interobserver variability, which affects diagnosis reliability. This study aims to develop an automatic computerized system for diagnosing colorectal and prostate tumors by using images of biopsy samples to reduce time and diagnosis error rates associated with human analysis. We propose a CNN model for classifying colorectal and prostate tumors from multispectral images of biopsy samples. The key idea was to remove the last block of the convolutional layers and halve the number of filters per layer. Our results showed excellent performance, with an average test accuracy of 99.8% and 99.5% for the prostate and colorectal data sets, respectively. The system showed excellent performance when compared with pretrained CNNs and other classification methods, as it avoids the preprocessing phase while using a single CNN model for classification. Overall, the proposed CNN architecture was globally the best-performing system for classifying colorectal and prostate tumor images. The proposed CNN was detailed and compared with previously trained network models used as feature extractors. These CNNs were also compared with other classification techniques. As opposed to pretrained CNNs and other classification approaches, the proposed CNN yielded excellent results. The computational complexity of the CNNs was also investigated, it was shown that the proposed CNN is better at classifying images than pretrained networks because it does not require preprocessing. Thus, the overall analysis was that the proposed CNN architecture was globally the best-performing system for classifying colorectal and prostate tumor images.
翻訳日:2023-01-31 13:19:14 公開日:2023-01-30
# ストリーミング異常検出

Streaming Anomaly Detection ( http://arxiv.org/abs/2301.13199v1 )

ライセンス: Link先を確認
Siddharth Bhatia(参考訳) 異常検出は、無数のシステムで不審な振る舞いを見つけるために重要である。 私たちは、悪意のある活動の影響を最小限に抑え、できるだけ早く回復を開始するために、受信したエンティティが異常であるかどうかをリアルタイムで判断する必要があります。 したがって、ストリーミング方式で異常を検出できるオンラインアルゴリズムは不可欠である。 まず,時間とメモリを用いて動的グラフの異常なエッジを検出するために,カウントミンスケッチを用いたMIDASを提案する。 次に、時間的・空間的関係を組み込んだMIDAS-Rと、異常なエッジをフィルタリングして内部データ構造に悪影響を及ぼさないMIDAS-Fを提案する。 次に、グラフデータにおける複雑な関係をキャプチャするために、カウントミンスケッチを高階スケッチに拡張し、疑わしい部分グラフ問題の検出を一定時間内に高密度部分行列を見つけるまで低減する。 このスケッチを用いて,エッジおよびサブグラフ異常を検出する4つのストリーミング手法を提案する。 次に、グラフ設定をマルチアスペクトデータに拡張する。 マルチアスペクトデータストリームにおける説明可能な異常を検出するMStreamを提案する。 さらに,特徴間の相関を組み込むため,MStream-PCA,MStream-IB,MStream-AEを提案する。 最後に,概念ドリフトを用いた多次元データストリームを考察し,memstreamを提案する。 memstreamは自動エンコーダのパワーを利用して表現を学習し、メモリモジュールを使ってラベルなしで動的に変化するデータトレンドを学習する。 ドリフト処理を効果的に行うため,メモリサイズに理論的拘束力を示す。 また、到着ストリームがトレーニングデータと十分に異なる場合の迅速な再訓練を可能にする。 さらにMemStreamは、メモリ中毒に対して堅牢な2つのアーキテクチャ設計を選択している。

Anomaly detection is critical for finding suspicious behavior in innumerable systems. We need to detect anomalies in real-time, i.e. determine if an incoming entity is anomalous or not, as soon as we receive it, to minimize the effects of malicious activities and start recovery as soon as possible. Therefore, online algorithms that can detect anomalies in a streaming manner are essential. We first propose MIDAS which uses a count-min sketch to detect anomalous edges in dynamic graphs in an online manner, using constant time and memory. We then propose two variants, MIDAS-R which incorporates temporal and spatial relations, and MIDAS-F which aims to filter away anomalous edges to prevent them from negatively affecting the internal data structures. We then extend the count-min sketch to a Higher-Order sketch to capture complex relations in graph data, and to reduce detecting suspicious dense subgraph problem to finding a dense submatrix in constant time. Using this sketch, we propose four streaming methods to detect edge and subgraph anomalies. Next, we broaden the graph setting to multi-aspect data. We propose MStream which detects explainable anomalies in multi-aspect data streams. We further propose MStream-PCA, MStream-IB, and MStream-AE to incorporate correlation between features. Finally, we consider multi-dimensional data streams with concept drift and propose MemStream. MemStream leverages the power of a denoising autoencoder to learn representations and a memory module to learn the dynamically changing trend in data without the need for labels. We prove a theoretical bound on the size of memory for effective drift handling. In addition, we allow quick retraining when the arriving stream becomes sufficiently different from the training data. Furthermore, MemStream makes use of two architecture design choices to be robust to memory poisoning.
翻訳日:2023-01-31 13:12:21 公開日:2023-01-30
# 最適輸送コスト変更による開錠スロットの注意

Unlocking Slot Attention by Changing Optimal Transport Costs ( http://arxiv.org/abs/2301.13197v1 )

ライセンス: Link先を確認
Yan Zhang, David W. Zhang, Simon Lacoste-Julien, Gertjan J. Burghouts, Cees G. M. Snoek(参考訳) スロットアテンションは、画像やビデオにおけるオブジェクト中心モデリングの強力な方法である。 しかし、そのセット等価性は、結合を壊すことができないため、動的数のオブジェクトを持つビデオを扱う能力を制限する。 この制限を克服するために,まずスロットアテンションと最適トランスポートの接続を確立する。 この新たな視点に基づいて,非正規化された最適輸送と正則化された最適輸送の速度を結合するクロスアテンションモジュール MESH (Minimize Entropy of Sinkhorn) を提案する。 複数のオブジェクト中心学習ベンチマークでMESHを用いてスロットアテンションを評価し,各設定においてスロットアテンションよりも顕著な改善が得られた。

Slot attention is a powerful method for object-centric modeling in images and videos. However, its set-equivariance limits its ability to handle videos with a dynamic number of objects because it cannot break ties. To overcome this limitation, we first establish a connection between slot attention and optimal transport. Based on this new perspective we propose MESH (Minimize Entropy of Sinkhorn): a cross-attention module that combines the tiebreaking properties of unregularized optimal transport with the speed of regularized optimal transport. We evaluate slot attention using MESH on multiple object-centric learning benchmarks and find significant improvements over slot attention in every setting.
翻訳日:2023-01-31 13:11:57 公開日:2023-01-30
# プログラマブルコンピュータとしてのループトランスフォーマー

Looped Transformers as Programmable Computers ( http://arxiv.org/abs/2301.13196v1 )

ライセンス: Link先を確認
Angeliki Giannou, Shashank Rajput, Jy-yong Sohn, Kangwook Lee, Jason D. Lee, Dimitris Papailiopoulos(参考訳) 本稿では,トランスフォーマーネットワークを,特定の重みでプログラミングし,ループに配置することで,ユニバーサルコンピュータとして利用するフレームワークを提案する。 我々の入力シーケンスは、データ読み書きのための命令とメモリからなるパンチカードとして機能する。 一定の数のエンコーダ層が、編集操作、非線形関数、関数呼び出し、プログラムカウンタ、条件分岐などの基本的な計算ブロックをエミュレートできることを実証する。 これらのビルディングブロックを用いて、小さな命令セットコンピュータをエミュレートする。 これにより、ループ化された13層トランスで実行できるプログラムに反復アルゴリズムをマッピングできる。 この変換器は、入力によって指示され、基本計算器、基本線形代数ライブラリ、およびバックプロパゲーションを用いたコンテキスト内学習アルゴリズムをエミュレートできることを示す。 本研究はアテンション機構の汎用性を強調し,浅いトランスフォーマーでも汎用的なプログラムを実行できることを示す。

We present a framework for using transformer networks as universal computers by programming them with specific weights and placing them in a loop. Our input sequence acts as a punchcard, consisting of instructions and memory for data read/writes. We demonstrate that a constant number of encoder layers can emulate basic computing blocks, including embedding edit operations, non-linear functions, function calls, program counters, and conditional branches. Using these building blocks, we emulate a small instruction-set computer. This allows us to map iterative algorithms to programs that can be executed by a looped, 13-layer transformer. We show how this transformer, instructed by its input, can emulate a basic calculator, a basic linear algebra library, and in-context learning algorithms that employ backpropagation. Our work highlights the versatility of the attention mechanism, and demonstrates that even shallow transformers can execute full-fledged, general-purpose programs.
翻訳日:2023-01-31 13:11:46 公開日:2023-01-30
# 弾性入力列を用いた適応計算

Adaptive Computation with Elastic Input Sequence ( http://arxiv.org/abs/2301.13195v1 )

ライセンス: Link先を確認
Fuzhao Xue, Valerii Likhosherstov, Anurag Arnab, Neil Houlsby, Mostafa Dehghani, Yang You(参考訳) 問題を解決する際には、人間が使用する情報の種類、必要な手順、アプローチと解決に費やす時間といった面で適応的な能力を持つ。 しかし、ほとんどの標準ニューラルネットワークは、その性質や難易度に関わらず、異なるサンプルに対して同じ関数型と固定された計算予算を持つ。 適応性は、これらのモデルの下流の使用に関する柔軟性を実践者に与えるだけでなく、ある種の困難な問題を解決するための強力な帰納的バイアスとしても役立つため、強力なパラダイムである。 本研究では,適応テープトークンを用いたニューラルネットワークの動的計算を可能にする新しい戦略であるAdaTapeを提案する。 adatapeは、動的な読み書きテープを既存のアーキテクチャに装備することで、弾力的な入力シーケンスを採用している。 具体的には,入力データから学習可能あるいは生成可能なテープバンクから取得したテープトークンを用いて,入力シーケンスを適応的に生成する。 動的シーケンスの内容と長さを得るための課題と要件を分析し、両方の目的を達成するための適応型テープリーダー(ATR)アルゴリズムを提案する。 画像認識タスクに関する広範な実験を通じて,adatapeは計算コストを維持しつつ,よりよい性能を実現することができることを示した。

When solving a problem, human beings have the adaptive ability in terms of the type of information they use, the procedure they take, and the amount of time they spend approaching and solving the problem. However, most standard neural networks have the same function type and fixed computation budget on different samples regardless of their nature and difficulty. Adaptivity is a powerful paradigm as it not only imbues practitioners with flexibility pertaining to the downstream usage of these models but can also serve as a powerful inductive bias for solving certain challenging classes of problems. In this work, we propose a new strategy, AdaTape, that enables dynamic computation in neural networks via adaptive tape tokens. AdaTape employs an elastic input sequence by equipping an existing architecture with a dynamic read-and-write tape. Specifically, we adaptively generate input sequences using tape tokens obtained from a tape bank that can either be trainable or generated from input data. We analyze the challenges and requirements to obtain dynamic sequence content and length, and propose the Adaptive Tape Reader (ATR) algorithm to achieve both objectives. Via extensive experiments on image recognition tasks, we show that AdaTape can achieve better performance while maintaining the computational cost.
翻訳日:2023-01-31 13:11:27 公開日:2023-01-30
# 勾配法における多項式プレコンディショニング

Polynomial Preconditioning for Gradient Methods ( http://arxiv.org/abs/2301.13194v1 )

ライセンス: Link先を確認
Nikita Doikov, Anton Rodomanov(参考訳) 構造付き非線形凸最適化問題に対する事前条件付き一階法について検討する。 対称多項式によって生成される新しいプレコンディショナー群を提案する。 彼らは条件番号の証明可能な改善を施した一階最適化手法を提供し、実際のスペクトルを明示的に知ることなく、最高固有値間のギャップを減らした。 この事前条件を座標体積サンプリングの観点から確率論的に解釈し、チェビシェフ多項式を含む他の古典的アプローチと比較する。 グラディエントおよびファストグラディエントメソッドに多項式プレコンディショニングを組み込む方法を示し、対応する大域的複雑性境界を確立する。 最後に,低次元クリロフ部分空間に沿って目的を最小化し,最適多項式プレコンディショニングを自動的に選択する簡単な適応探索手法を提案する。 数値実験により,機械学習問題に対するプレコンディショニング手法の有効性が検証された。

We study first-order methods with preconditioning for solving structured nonlinear convex optimization problems. We propose a new family of preconditioners generated by symmetric polynomials. They provide first-order optimization methods with a provable improvement of the condition number, cutting the gaps between highest eigenvalues, without explicit knowledge of the actual spectrum. We give a stochastic interpretation of this preconditioning in terms of coordinate volume sampling and compare it with other classical approaches, including the Chebyshev polynomials. We show how to incorporate a polynomial preconditioning into the Gradient and Fast Gradient Methods and establish the corresponding global complexity bounds. Finally, we propose a simple adaptive search procedure that automatically chooses the best possible polynomial preconditioning for the Gradient Method, minimizing the objective along a low-dimensional Krylov subspace. Numerical experiments confirm the efficiency of our preconditioning strategies for solving various machine learning problems.
翻訳日:2023-01-31 13:11:02 公開日:2023-01-30
# ニュートン法によるロバストな経験的リスク最小化

Robust empirical risk minimization via Newton's method ( http://arxiv.org/abs/2301.13192v1 )

ライセンス: Link先を確認
Eirini Ioannou, Muni Sreenivas Pydi, Po-Ling Loh(参考訳) 実験的リスク最小化のためのNewtonの手法の変種について検討し、最適化アルゴリズムの各イテレーションにおいて、多変量データのロバスト平均推定に関する既存の文献から得られたロバストな推定器により、目的関数の勾配とヘシアンを置き換える。 群レベル最小化器のまわりの小さな球への逐次反復の収束に関する一般的な定理を証明した後、ハマーのエプシロン汚染モデルや重み付き分布からデータを生成するとき、一般化線形モデルにおける我々の理論の結果を研究する。 また,高次元設定に適した共役勾配法に基づいてニュートン方向の堅牢性を求めるアルゴリズムを提案し,提案アルゴリズムの収束性について推測する。 Prasad et al. (2020) によって提案された頑健な勾配勾配勾配アルゴリズムと比較して、我々のアルゴリズムは、凸問題に対する2次アルゴリズム、すなわち最適近傍における二次収束によってしばしば達成される連続反復の収束速度を、バックトラックラインサーチによって適応的に選択できるステップサイズで楽しむ。

We study a variant of Newton's method for empirical risk minimization, where at each iteration of the optimization algorithm, we replace the gradient and Hessian of the objective function by robust estimators taken from existing literature on robust mean estimation for multivariate data. After proving a general theorem about the convergence of successive iterates to a small ball around the population-level minimizer, we study consequences of our theory in generalized linear models, when data are generated from Huber's epsilon-contamination model and/or heavy-tailed distributions. We also propose an algorithm for obtaining robust Newton directions based on the conjugate gradient method, which may be more appropriate for high-dimensional settings, and provide conjectures about the convergence of the resulting algorithm. Compared to the robust gradient descent algorithm proposed by Prasad et al. (2020), our algorithm enjoys the faster rates of convergence for successive iterates often achieved by second-order algorithms for convex problems, i.e., quadratic convergence in a neighborhood of the optimum, with a stepsize that may be chosen adaptively via backtracking linesearch.
翻訳日:2023-01-31 13:10:48 公開日:2023-01-30
# セマンティクスを用いた視聴覚セグメンテーション

Audio-Visual Segmentation with Semantics ( http://arxiv.org/abs/2301.13190v1 )

ライセンス: Link先を確認
Jinxing Zhou, Xuyang Shen, Jianyuan Wang, Jiayi Zhang, Weixuan Sun, Jing Zhang, Stan Birchfield, Dan Guo, Lingpeng Kong, Meng Wang, Yiran Zhong(参考訳) 本稿では,画像フレームの時に音声を生成するオブジェクトのピクセルレベルマップを出力することを目的として,AVS(Audio-visual segmentation)と呼ばれる新しい問題を提案する。 そこで,本研究では,AVSBenchという音声・視覚のセグメンテーション・ベンチマークを初めて構築し,可聴ビデオ中のオブジェクトの発音にピクセル単位のアノテーションを提供する。 AVSBench-object (Single-source subset, Multi-sources subset) と AVSBench-semantic (Semantic-labels subset) の3つのサブセットを含んでいる。 そのため、3つの設定が研究される。 1) 単一音源による半教師付き音声視覚分割 2)複数音源による完全教師付き音声視覚分割 3)完全教師付き視聴覚セマンティクスセグメンテーション。 最初の2つの設定は、オーディオに対応するピクセルを示す音声オブジェクトのバイナリマスクを生成する必要があり、3番目の設定は、さらにオブジェクトカテゴリを示すセマンティックマップを生成する必要がある。 これらの問題に対処するために,音声セマンティクスを視覚セマンティクス処理のガイダンスとして導入するために,時間的画素単位の音声-視覚インタラクションモジュールを用いた新しいベースライン手法を提案する。 また、トレーニング中の音声視覚マッピングを促進するために正規化損失を設計する。 avsbenchにおける定量的・定性的実験は,提案手法が音声と画素方向の視覚意味論の橋渡しに有益であることを実証し,既存のタスクの手法と比較した。 コードはhttps://github.com/OpenNLPLab/AVSBenchで入手できる。 オンラインベンチマークはhttp://www.avlbench.opennlplab.cnで利用可能である。

We propose a new problem called audio-visual segmentation (AVS), in which the goal is to output a pixel-level map of the object(s) that produce sound at the time of the image frame. To facilitate this research, we construct the first audio-visual segmentation benchmark, i.e., AVSBench, providing pixel-wise annotations for sounding objects in audible videos. It contains three subsets: AVSBench-object (Single-source subset, Multi-sources subset) and AVSBench-semantic (Semantic-labels subset). Accordingly, three settings are studied: 1) semi-supervised audio-visual segmentation with a single sound source; 2) fully-supervised audio-visual segmentation with multiple sound sources, and 3) fully-supervised audio-visual semantic segmentation. The first two settings need to generate binary masks of sounding objects indicating pixels corresponding to the audio, while the third setting further requires generating semantic maps indicating the object category. To deal with these problems, we propose a new baseline method that uses a temporal pixel-wise audio-visual interaction module to inject audio semantics as guidance for the visual segmentation process. We also design a regularization loss to encourage audio-visual mapping during training. Quantitative and qualitative experiments on AVSBench compare our approach to several existing methods for related tasks, demonstrating that the proposed method is promising for building a bridge between the audio and pixel-wise visual semantics. Code is available at https://github.com/OpenNLPLab/AVSBench. Online benchmark is available at http://www.avlbench.opennlplab.cn.
翻訳日:2023-01-31 13:10:22 公開日:2023-01-30
# 拡散モデルからトレーニングデータを抽出する

Extracting Training Data from Diffusion Models ( http://arxiv.org/abs/2301.13188v1 )

ライセンス: Link先を確認
Nicholas Carlini, Jamie Hayes, Milad Nasr, Matthew Jagielski, Vikash Sehwag, Florian Tram\`er, Borja Balle, Daphne Ippolito, Eric Wallace(参考訳) DALL-E 2、Imagen、Stable Diffusionなどの画像拡散モデルは、高品質な合成画像を生成する能力から注目されている。 本研究では,拡散モデルがトレーニングデータから個々の画像を記憶し,生成時に生成することを示す。 生成とフィルタのパイプラインで、個人の写真から商標付き企業のロゴまで、最先端のモデルから1000以上のトレーニング例を抽出します。 また、さまざまな設定で数百の拡散モデルをトレーニングして、さまざまなモデリングとデータ決定がプライバシに与える影響を分析します。 全体として、拡散モデルは、GANのような以前の生成モデルよりもはるかにプライベートであり、これらの脆弱性を緩和するには、プライバシー保護トレーニングの新たな進歩が必要になる可能性がある。

Image diffusion models such as DALL-E 2, Imagen, and Stable Diffusion have attracted significant attention due to their ability to generate high-quality synthetic images. In this work, we show that diffusion models memorize individual images from their training data and emit them at generation time. With a generate-and-filter pipeline, we extract over a thousand training examples from state-of-the-art models, ranging from photographs of individual people to trademarked company logos. We also train hundreds of diffusion models in various settings to analyze how different modeling and data decisions affect privacy. Overall, our results show that diffusion models are much less private than prior generative models such as GANs, and that mitigating these vulnerabilities may require new advances in privacy-preserving training.
翻訳日:2023-01-31 13:09:58 公開日:2023-01-30
# active-gaze morphable modelを用いた正確な視線推定

Accurate Gaze Estimation using an Active-gaze Morphable Model ( http://arxiv.org/abs/2301.13186v1 )

ライセンス: Link先を確認
Hao Sun and Nick Pears(参考訳) 画像から直接視線方向を後退させるのではなく、3次元形状モデルを加えると次のようになる。 一 視線推定精度を向上させること。 二 低い解像度の入力でよく行うこと 三 眼領域とその構成的視線システムに関するより豊かな理解を提供すること。 具体的には、眼と鼻の3次元形態モデル(3DMM)を用いて、眼領域の3次元顔形状と外観を捉えるとともに、眼の幾何学的頂点モデルを用いて「アクティブ・ゲイズ3DMM」を与える。 本手法はアイダイアップデータセットにおいて最先端の結果が得られることを示し,アブレーション研究を行う。 本手法は,接地真理視線目標点とカメラパラメータのみを用いて学習でき,接地真理視線原点にアクセスできず,他の手法と比較してアプローチの適用範囲を広げることができる。

Rather than regressing gaze direction directly from images, we show that adding a 3D shape model can: i) improve gaze estimation accuracy, ii) perform well with lower resolution inputs and iii) provide a richer understanding of the eye-region and its constituent gaze system. Specifically, we use an `eyes and nose' 3D morphable model (3DMM) to capture the eye-region 3D facial geometry and appearance and we equip this with a geometric vergence model of gaze to give an `active-gaze 3DMM'. We show that our approach achieves state-of-the-art results on the Eyediap dataset and we present an ablation study. Our method can learn with only the ground truth gaze target point and the camera parameters, without access to the ground truth gaze origin points, thus widening the applicability of our approach compared to other methods.
翻訳日:2023-01-31 13:09:44 公開日:2023-01-30
# マルコフ決定過程のための最適決定木政策

Optimal Decision Tree Policies for Markov Decision Processes ( http://arxiv.org/abs/2301.13185v1 )

ライセンス: Link先を確認
Dani\"el Vos and Sicco Verwer(参考訳) 強化学習政策の解釈可能性は多くの実世界の課題に不可欠であるが、そのような解釈可能な政策の学習は難しい問題である。 特に、決定木やルールリストのようなルールベースのポリシーは、その非微分性のために最適化が難しい。 既存の手法では検証可能な決定木ポリシーを学習できるが、学習者が最適な決定木を生成する保証はない。 本研究では,マルコフ決定過程(MPD)のサイズ制限決定木の最適化について検討し,最適MDP決定木を提案する。 ユーザ定義サイズ制限とMDP定式化 OMDT が与えられた場合、Mixed-Integer Linear Programming を用いて、決定木に対する期待値の値引きを直接最大化する。 異なるMDPに対する最適決定木ポリシーを訓練することにより、既存の模倣学習手法の最適性ギャップを経験的に研究し、それらが準最適に実行されることを確認する。 これは模倣学習が本質的に欠如していること、すなわち、複雑なポリシーはサイズ制限木を使って表現できないことによるものである。 そのような場合、期待した戻りのためにツリーを直接最適化する方がよい。 一般的に、機械学習モデルの性能と解釈可能性の間にはトレードオフがあるが、3の深さに制限されたOMDTは、しばしば最適限に近い性能を示す。

Interpretability of reinforcement learning policies is essential for many real-world tasks but learning such interpretable policies is a hard problem. Particularly rule-based policies such as decision trees and rules lists are difficult to optimize due to their non-differentiability. While existing techniques can learn verifiable decision tree policies there is no guarantee that the learners generate a decision that performs optimally. In this work, we study the optimization of size-limited decision trees for Markov Decision Processes (MPDs) and propose OMDTs: Optimal MDP Decision Trees. Given a user-defined size limit and MDP formulation OMDT directly maximizes the expected discounted return for the decision tree using Mixed-Integer Linear Programming. By training optimal decision tree policies for different MDPs we empirically study the optimality gap for existing imitation learning techniques and find that they perform sub-optimally. We show that this is due to an inherent shortcoming of imitation learning, namely that complex policies cannot be represented using size-limited trees. In such cases, it is better to directly optimize the tree for expected return. While there is generally a trade-off between the performance and interpretability of machine learning models, we find that OMDTs limited to a depth of 3 often perform close to the optimal limit.
翻訳日:2023-01-31 13:09:29 公開日:2023-01-30