# 半古典的極限としての軌道閉包における最小長

Minimal length in an orbit closure as a semiclassical limit ( http://arxiv.org/abs/2004.14872v2 )

Cole Franks and Michael Walter(参考訳) 有限次元ベクトル空間上の連結複素簡約群の作用を考える。 不変理論の基本的な結果は、ベクトル v の軌道閉包が原点から分離していることと、ある斉次不変多項式が v 上の非零であること、すなわち v が零円錐にないことが同値である。 したがって、軌道閉包と原点の間の最小距離を効率的に見つけることは、非可換エドモンズ問題を含む重要な多項式同一性テスト問題であるヌルコーンメンバーシップの決定論的アルゴリズムにつながる。 この最適化への接続は、最近不変理論における多くの問題に対する効率的なアルゴリズムにつながった。 ここでは、軌道閉包と不変多項式の間の有名な双対性の洗練を考察し、(1) 軌道閉包と原点の間のユークリッド距離の対数と(2) k が無限大となるような半古典的極限において $v^{\otimes k}$ の「不変部分」の指数的成長の速度とが一致するとする。 この結果は、算術幾何学の洗練されたツールを使用するS. Zhang(1994年、アルキメデスの場所での幾何学的還元)の研究から導出することができる。 局所中心極限定理のフーリエ解析的証明から着想を得た、新しく独立した初等証明を提供する。 結果は、最高重みベクトルおよび同型成分への射影に一般化し、そのような半古典的極限と表現論における多重性の漸近的振舞い、古典的および量子統計学における大きな偏差理論、マチューによって修正されたヤコビアン予想を探索する。 我々の公式は、多くの場合、任意の精度で効率的に計算できることを示唆している。

Consider the action of a connected complex reductive group on a finite-dimensional vector space. A fundamental result in invariant theory states that the orbit closure of a vector v is separated from the origin if and only if some homogeneous invariant polynomial is nonzero on v, i.e. v is not in the null cone. Thus, efficiently finding the minimum distance between the orbit closure and the origin can lead to deterministic algorithms for null cone membership, an important polynomial identity testing problem including the non-commutative Edmonds problem. This connection to optimization has recently led to efficient algorithms for many problems in invariant theory. Here we explore a refinement of the famous duality between orbit closures and invariant polynomials, which holds that the following two quantities coincide: (1) the logarithm of the Euclidean distance between the orbit closure and the origin and (2) the rate of exponential growth of the 'invariant part' of $v^{\otimes k}$ in the semiclassical limit as k tends to infinity. This result can be deduced from work of S. Zhang (Geometric reductivity at Archimedean places, 1994), which uses sophisticated tools in arithmetic geometry. We provide a new and independent elementary proof inspired by the Fourier-analytic proof of the local central limit theorem. We generalize the result to projections onto highest weight vectors and isotypical components, and explore connections between such semiclassical limits and the asymptotic behavior of multiplicities in representation theory, large deviations theory in classical and quantum statistics, and the Jacobian conjecture as reformulated by Mathieu. Our formulas imply that they can be computed, in many cases efficiently, to arbitrary precision.
# 時間の離散性をテストする実験

An experiment to test the discreteness of time ( http://arxiv.org/abs/2007.08431v7 )

Marios Christodoulou, Andrea Di Biagio, Pierre Martin-Dussaud(参考訳) Time at the Planck scale (\sim 10^{-44}\,\mathrm{s}$) は未発見の物理状態である。 プランクタイムの探査は、長い間不可能だった課題であり続けると広く信じられている。 しかし,我々はプランクスケールで時間離散性をテストし,現在の技術能力からそれほど離れていないと推定する実験を提案する。

Time at the Planck scale ($\sim 10^{-44}\,\mathrm{s}$) is an unexplored physical regime. It is widely believed that probing Planck time will remain for long an impossible task. Yet, we propose an experiment to test the discreteness of time at the Planck scale and estimate that it is not far removed from current technological capabilities.
# 一般化不確かさ関係の新しいアプローチ

A New Approach to Generalised Uncertainty Relations ( http://arxiv.org/abs/2008.13183v4 )

Matthew J. Lake(参考訳) 本稿では,一般化された不確実性関係が,可換関係を変更せずに得られる新しいモデルについて概説する。 既存のモデルでは正準自由度に対して修正された位相空間体積を導入するが、背景幾何学には新たな自由度を導入する。 したがって位相空間は拡大されるが、ユークリッド空間は残る。 空間背景は、関連する状態ベクトルを持つ真の量子オブジェクトとして扱われ、モデルが自然に拡張一般化不確実性原理(EGUP)を生じさせる。 重要なことに、このアプローチは、同値原理の違反、多粒子状態の「スローボール」問題、最小長の速度依存性など、修正された通勤者に関連するよく知られた問題を解く(あるいは回避する)。 しかし、2つの急進的な結論がある。 第一に、空間は異なるスケールで物質に量子化されなければならないし、第二に、幾何学の基本量子はフェルミオンである。 このモデルの文脈では、物質粒子の種に対して依然として保持される複数の量子化定数に対するnogoの定理や重力トンのスピン=$2$の性質など、これらが確立された結果とどのように矛盾するかを説明する。

We outline a new model in which generalised uncertainty relations are obtained without modified commutation relations. While existing models introduce modified phase space volumes for the canonical degrees of freedom, we introduce new degrees of freedom for the background geometry. The phase space is therefore enlarged but remains Euclidean. The spatial background is treated as a genuinely quantum object, with an associated state vector, and the model naturally gives rise to the extended generalised uncertainty principle (EGUP). Importantly, this approach solves (or rather, evades) well known problems associated with modified commutators, including violation of the equivalence principle, the `soccer ball' problem for multiparticle states, and the velocity dependence of the minimum length. However, it implies two radical conclusions. The first is that space must be quantised on a different scale to matter and the second is that the fundamental quanta of geometry are fermions. We explain how, in the context of the model, these do not contradict established results including the no go theorems for multiple quantisation constants, which still hold for species of material particles, and the spin-$2$ nature of gravitons.
# 政府アルゴリズムの人的監視を必要とする政策の欠陥

The Flaws of Policies Requiring Human Oversight of Government Algorithms ( http://arxiv.org/abs/2109.05067v4 )

Ben Green(参考訳) アルゴリズムが世界中の政府の意思決定に影響力を持つようになるにつれて、政策立案者は、アルゴリズムの害を防ぎながら、いかに政府がアルゴリズムの利点を享受できるかを議論してきた。 政府のアルゴリズムを規制するグローバルな取り組みの中心となったメカニズムの1つは、アルゴリズムの決定を人間に監督することである。 人類の監視への広範な転換にもかかわらず、これらの政策は、人々がアルゴリズムによる意思決定を効果的に監督できるという、非干渉的な仮定に基づいている。 本稿では、政府アルゴリズムの人間の監視を規定する41のポリシーを調査し、それらが2つの重大な欠陥に苦しむことを見出します。 第一に、人々が望ましい監視機能を実行できないという証拠がある。 第二に、最初の欠陥の結果として、人間の監視ポリシーは、これらのツールの根本的な問題に対処することなく、政府による欠陥と議論を呼ぶアルゴリズムの使用を合法化します。 したがって、政府におけるアルゴリズム決定の潜在的な害から保護するのではなく、人間の監視ポリシーは、アルゴリズムを採用する際のセキュリティの誤った感覚を与え、ベンダーや機関がアルゴリズムの害に対して責任を負うことを可能にする。 これらの欠陥を踏まえて、政府のアルゴリズムを規制する中心的なメカニズムとして、人的監督から制度的監督への転換を提案する。 この制度的なアプローチは2段階で動作する。 第一に、機関はアルゴリズムを意思決定に組み込むことが適切であり、提案された人間の監視形態が実証的な証拠によって支持されることを正当化しなければならない。 第二に、これらの正当化は、政府がアルゴリズムを採用する前に、民主的な公開レビューと承認を受けなければならない。

As algorithms become an influential component of government decision-making around the world, policymakers have debated how governments can attain the benefits of algorithms while preventing the harms of algorithms. One mechanism that has become a centerpiece of global efforts to regulate government algorithms is to require human oversight of algorithmic decisions. Despite the widespread turn to human oversight, these policies rest on an uninterrogated assumption: that people are able to effectively oversee algorithmic decision-making. In this article, I survey 41 policies that prescribe human oversight of government algorithms and find that they suffer from two significant flaws. First, evidence suggests that people are unable to perform the desired oversight functions. Second, as a result of the first flaw, human oversight policies legitimize government uses of faulty and controversial algorithms without addressing the fundamental issues with these tools. Thus, rather than protect against the potential harms of algorithmic decision-making in government, human oversight policies provide a false sense of security in adopting algorithms and enable vendors and agencies to shirk accountability for algorithmic harms. In light of these flaws, I propose a shift from human oversight to institutional oversight as the central mechanism for regulating government algorithms. This institutional approach operates in two stages. First, agencies must justify that it is appropriate to incorporate an algorithm into decision-making and that any proposed forms of human oversight are supported by empirical evidence. Second, these justifications must receive democratic public review and approval before the agency can adopt the algorithm.
# 地平線を横切る小さな興奮

A Little Excitement Across the Horizon ( http://arxiv.org/abs/2109.13260v4 )

Keith K. Ng, Chen Zhang, Jorma Louko, Robert B. Mann(参考訳) 我々は3+1次元シュワルツシルト時空における半径降下において、無質量スカラー場に線形に結合したウンルー・デウィット検出器の遷移を数値解析する。 ハートル・ホーキング状態とウンルー状態では、遷移確率は地平線交差付近で小さな局所極限に達し、特異点に近づくと適度に増強される。 ブールウェア状態では、遷移確率は地平線に近づくと低下する。 予期せぬhorizon extremumは角運動量重ね合わせから数値的に発生し、より深い物理的説明が見出される。

We analyse numerically the transitions in an Unruh-DeWitt detector, coupled linearly to a massless scalar field, in radial infall in (3+1)-dimensional Schwarzschild spacetime. In the Hartle-Hawking and Unruh states, the transition probability attains a small local extremum near the horizon-crossing and is then moderately enhanced on approaching the singularity. In the Boulware state, the transition probability drops on approaching the horizon. The unexpected near-horizon extremum arises numerically from angular momentum superpositions, with a deeper physical explanation to be found.
# デジタル量子コンピュータ上での文字列ネット状態とアノンのシミュレーション法

Methods for simulating string-net states and anyons on a digital quantum computer ( http://arxiv.org/abs/2110.02020v4 )

Yu-Jie Liu, Kirill Shtengel, Adam Smith and Frank Pollmann(参考訳) 凝縮物質から人工量子システムへの実験環境でのトポロジカル秩序状態の物理的実現は、それらの非伝統的な性質を利用するための主要な課題である。 本研究では,位相秩序状態の大規模クラスを実現する方法を示し,その準粒子励起をディジタル量子コンピュータ上でシミュレートする。 これを実現するために、一般弦ネットモデルの基底状態を生成する一連の線形深さ量子回路をユニタリ開弦作用素と共に設計し、アーベルおよび非アーベルエノンの生成とブレイディングをシミュレートする。 アーベル(非アーベル)ユニタリ弦作用素は、定数(線形)深さ量子回路で実装できることを示す。 提案手法では, トポロジ的絡み合いエントロピー, ブレイディング統計, 融合チャネルなど, 特性的トポロジ的特性を直接探究することができる。 さらに、この効率的に生成された位相秩序状態は、フォールトトレラント量子コンピュータの開発に潜在的に応用できる。

Finding physical realizations of topologically ordered states in experimental settings, from condensed matter to artificial quantum systems, has been the main challenge en route to utilizing their unconventional properties. We show how to realize a large class of topologically ordered states and simulate their quasiparticle excitations on a digital quantum computer. To achieve this we design a set of linear-depth quantum circuits to generate ground states of general string-net models together with unitary open string operators to simulate the creation and braiding of abelian and non-abelian anyons. We show that the abelian (non-abelian) unitary string operators can be implemented with a constant (linear) depth quantum circuit. Our scheme allows us to directly probe characteristic topological properties, including topological entanglement entropy, braiding statistics, and fusion channels of anyons. Moreover, this set of efficiently prepared topologically ordered states has potential applications in the development of fault-tolerant quantum computers.
# 量子トモグラフィーは量子力学を説明する

Quantum tomography explains quantum mechanics ( http://arxiv.org/abs/2110.05294v4 )

Arnold Neumaier(参考訳) ボーンの法則よりむしろ量子トモグラフィにインスパイアされた新しい原理から始まり、量子力学と量子測定に対する自己完結型導出的アプローチを提供する。 量子検出器を構成するものとその反応の振る舞いに対する示唆的な概念は、論理的に不可能な測定の定義につながる。 光状態、位置測定、粒子軌道の測定スキームへの応用は、理想化なしに複雑な現実的な実験に適用可能であることを示す。 量子状態、量子検出器、量子プロセス、量子機器のための様々な形態の量子トモグラフィについて論じる。 量子力学の伝統的な力学的およびスペクトル的性質は、量子過程の連続体極限から導出され、混合量子系の密度作用素に対するリンドブラッド方程式と、純粋な非混合量子系の状態ベクトルに対するシュル=オディンガー方程式を与える。 正規化密度作用素は古典位相空間変数の位置と運動量と完全に類似した量子位相空間変数の役割を果たす。 測定過程のわずかな理想化は、量子場の概念に結びつき、量子期待は測定可能な空間領域の再現可能な性質として現れる。 新しいアプローチは、従来の基礎よりも実践に近いものです。 より一般的であり、従ってより強力である。 従来の手法よりも単純で技術的ではないため、量子力学の標準的な道具を導出することは難しくない。 これにより、新しいアプローチは量子力学の入門コースに適合する。 文学からの様々な引用は、歴史的・哲学的な側面で形式的な展示を照らしている。

Starting from a new principle inspired by quantum tomography rather than from Born's rule, this paper gives a self-contained deductive approach to quantum mechanics and quantum measurement. A suggestive notion for what constitutes a quantum detector and for the behavior of its responses leads to a logically impeccable definition of measurement. Applications to measurement schemes for optical states, position measurements and particle tracks demonstrate the applicability to complex realistic experiments without any idealization. The various forms of quantum tomography for quantum states, quantum detectors, quantum processes, and quantum instruments are discussed. The traditional dynamical and spectral properties of quantum mechanics are derived from a continuum limit of quantum processes, giving the Lindblad equation for the density operator of a mixing quantum system and the Schr\"odinger equation for the state vector of a pure, nonmixing quantum system. Normalized density operators are shown to play the role of quantum phase space variables, in complete analogy to the classical phase space variables position and momentum. A slight idealization of the measurement process leads to the notion of quantum fields, whose smeared quantum expectations emerge as reproducible properties of regions of space accessible to measurements. The new approach is closer to actual practice than the traditional foundations. It is more general, and therefore more powerful. It is simpler and less technical than the traditional approach, and the standard tools of quantum mechanics are not difficult to derive. This makes the new approach suitable for introductory courses on quantum mechanics. A variety of quotes from the literature illuminate the formal exposition with historical and philosophical aspects.
# マルチキュービットシステムにおけるタイターモノガミー関係

Tighter Monogamy Relations in Multi-Qubit Systems ( http://arxiv.org/abs/2110.06589v2 )

Yudie Gu, Yanmin Yang, Jialing Zhang, Wei Chen(参考訳) 本稿では,多量子量子エンタングルメントにおける一夫一夫一夫一婦関係について,共起の半ベータ次数,生成のエンタングルメント,凸ルーフ拡大ネガティビティの観点から述べる。 これらの一夫一婦制の関係は、既存のものよりも厳密であることが証明され、その厳しさを示す詳細な例と共に示される。

In this paper, we present some monogamy relations of multiqubit quantum entanglement in terms of the \beta th power of concurrence, entanglement of formation and convex-roof extended negativity. These monogamy relations are proved to be tighter than the existing ones, together with detailed examples showing the tightness.
# 還元密度行列の経路積分に対するワームホール効果:エネルギースペクトルと絡み合いスペクトルの謎を解き明かす

The wormhole effect on the path integral of reduced density matrix:Unlock the mystery of energy spectrum and entanglement spectrum ( http://arxiv.org/abs/2112.05886v5 )

Zheng Yan and Zi Yang Meng(参考訳) 還元密度行列の経路積分定式化に基づいて,量子モンテカルロシミュレーションから低次エンタングルメントスペクトルを確実に抽出し,計算複雑性の指数関数的成長を克服する新しいアルゴリズムを開発した。 2つの鎖間の長い絡み合った境界を持つハイゼンベルクスピンラダーの手法をテストし, 位相相の絡み合いスペクトルに対するliとハルダンの予想を支持した。 次に、経路積分におけるワームホール効果による予想を説明し、ギャップ位相を超える系に対してさらに一般化可能であることを示す。 さらに, (2+1)d O(3) 量子相転移における2次元交絡境界を持つ反強磁性ハイゼンベルク模型のシミュレーション結果から, ワームホール像の正しさが明らかとなった。 最後に、ワームホール効果はバルクエネルギーギャップを$\beta$の係数で増幅するので、エッジエネルギーギャップに対するその相対的な強度は系の低層エンタングルメントスペクトルの挙動を決定する。

Based on the path integral formulation of the reduced density matrix, we develop a new algorithm to overcome the exponential growth of computational complexity in reliably extracting low-lying entanglement spectrum from quantum Monte Carlo simulations. We test the method on Heisenberg spin ladder with long entangled boundary between two chains and the results support the Li and Haldane's conjecture on entanglement spectrum of topological phase. We then explain the conjecture via the wormhole effect in the path integral and show that it can be further generalized for systems beyond gapped topological phases. Our further simulation results on the bilayer antiferromagnetic Heisenberg model with 2d entangled boundary across the (2+1)d O(3) quantum phase transition clearly demonstrate the correctness of the wormhole picture. Finally, we state that since the wormhole effect amplifies the bulk energy gap by a factor of $\beta$, the relative strength of that with respect to the edge energy gap will determine the behavior of low-lying entanglement spectrum of the system.
# 対訳 局所運転最適化

Counterdiabatic Optimised Local Driving ( http://arxiv.org/abs/2203.01948v2 )

Ieva \v{C}epait\.e, Anatoli Polkovnikov, Andrew J. Daley, Callum W. Duncan(参考訳) 断熱プロトコルは、より大きなデバイスのブロックを構築する状態準備や個別操作の実装から、量子アニーリングや断熱量子計算における高レベルプロトコルまで、様々な量子技術で採用されている。 これらの過程をスピードアップする問題は、多くの関心を集め、特に量子的最適制御と断定のショートカットといった多くのアプローチが実現した。 この2つのアプローチは相補的である: 最適制御は制御フィールドを操作し、最小許容時間のダイナミクスを制御し、一方、断熱への近道は、スピードアップ時に断熱状態を維持することを目的としている。 これら2つの方法論を組み合わせて,それぞれの長所を生かした新しい手法を概説する。 この技術は,時間依存制御フィールドの追加により,近似的な局所的反断熱駆動を改善する。 本稿では,本手法をCOLD(反断熱最適化局所運転)と呼び,アニーリングプロトコル,状態準備スキーム,絡み合い発生,格子上の人口移動に適用した場合,大幅な改善が期待できることを示す。 また,波動関数やシステムダイナミクスの計算を必要とせず,制御場の最適化に新たなアプローチを提案する。 従来の最適制御手法によりCOLDを改良し,これをランダム化基底法と勾配上昇パルス工学を用いて検討する。

Adiabatic protocols are employed across a variety of quantum technologies, from implementing state preparation and individual operations that are building blocks of larger devices, to higher-level protocols in quantum annealing and adiabatic quantum computation. The problem of speeding up these processes has garnered a large amount of interest, resulting in a menagerie of approaches, most notably quantum optimal control and shortcuts to adiabaticity. The two approaches are complementary: optimal control manipulates control fields to steer the dynamics in the minimum allowed time while shortcuts to adiabaticity aim to retain the adiabatic condition upon speed-up. We outline a new method which combines the two methodologies and takes advantage of the strengths of each. The new technique improves upon approximate local counterdiabatic driving with the addition of time-dependent control fields. We refer to this new method as counterdiabatic optimised local driving (COLD) and we show that it can result in a substantial improvement when applied to annealing protocols, state preparation schemes, entanglement generation and population transfer on a lattice. We also demonstrate a new approach to the optimisation of control fields which does not require access to the wavefunction or the computation of system dynamics. COLD can be enhanced with existing advanced optimal control methods and we explore this using the chopped randomised basis method and gradient ascent pulse engineering.
# ダイヤモンドNVアンサンブルを用いた定常マイクロ波モード冷却

Steady-state microwave mode cooling with a diamond NV ensemble ( http://arxiv.org/abs/2203.03462v2 )

Donald P. Fahey and Kurt Jacobs and Matthew J Turner and Hyeongrak Choi and Jonathan E. Hoffman and Dirk Englund and Matthew E. Trusheim(参考訳) 量子力学の基本的な結果は、ボソニック場のゆらぎが温度$t$によって与えられることである。 マイクロ波帯域に周波数$\omega$の電磁モードは、ボース=アインシュタイン分布$\bar{n} = k_bt / \hbar\omega$ に従って室温で大きな熱光子占有を持つ。 例えば、3GHzモードの室温熱状態は、平均光子数$\bar{n} \sim 2000$と分散$\Delta n^2 \approx \bar{n}^2$によって特徴づけられる。 この熱分散は、無線通信から位置決め、ナビゲーション、タイミング、磁気共鳴イメージングまで幅広い応用において測定ノイズの床を設定する。 室温ダイヤモンド中の光スピン偏光窒素空孔(NV)中心のアンサンブルに結合することで、${\sim} 3$ GHz空洞モードを連続的に冷却することで、この障壁を克服する。 NVスピンはグリーンレーザーを介して低エントロピー状態に励起され、マイクロ波光子との相互作用を通じてマイクロ波モードへのヒートシンクとして機能する。 単純な検出回路を用いてピークノイズ低減率を2.3 \pm 0.1 \, \textrm{db}$,最小キャビティモード温度を150 \pm 5 \textrm{k}$とする。 また, 冷却の重要な特徴を同定する線形化モデルを提案し, 磁気調整, スペクトル分解測定による妥当性を示す。 環境温度での効率的なモード冷却の実現は、精密測定と通信における応用への扉を開き、基本的な量子限界にスケールする可能性を開く。

A fundamental result of quantum mechanics is that the fluctuations of a bosonic field are given by its temperature $T$. An electromagnetic mode with frequency $\omega$ in the microwave band has a significant thermal photon occupation at room temperature according to the Bose-Einstein distribution $\bar{n} = k_BT / \hbar\omega$. The room temperature thermal state of a 3 GHz mode, for example, is characterized by a mean photon number $\bar{n} \sim 2000$ and variance $\Delta n^2 \approx \bar{n}^2$. This thermal variance sets the measurement noise floor in applications ranging from wireless communications to positioning, navigation, and timing to magnetic resonance imaging. We overcome this barrier in continuously cooling a ${\sim} 3$ GHz cavity mode by coupling it to an ensemble of optically spin-polarized nitrogen-vacancy (NV) centers in a room-temperature diamond. The NV spins are pumped into a low entropy state via a green laser and act as a heat sink to the microwave mode through their collective interaction with microwave photons. Using a simple detection circuit we report a peak noise reduction of $-2.3 \pm 0.1 \, \textrm{dB}$ and minimum cavity mode temperature of $150 \pm 5 \textrm{K}$. We present also a linearized model to identify the important features of the cooling, and demonstrate its validity through magnetically tuned, spectrally resolved measurements. The realization of efficient mode cooling at ambient temperature opens the door to applications in precision measurement and communication, with the potential to scale towards fundamental quantum limits.
# 円上の不確かさ関係と最小波束

Uncertainty Relation and Minimum Wave Packet on Circle ( http://arxiv.org/abs/2203.06826v2 )

Naohisa Ogawa, Shuichi Nagasawa(参考訳) 閉一次元系(円)に対する不確実性関係(UR)について論じる。 このようなシステムでは、円に沿った長さパラメータを位置変数として使うことはできない。 そうでなければ、平均位置の確定性と標準偏差(SD)に関する困難に直面する。 この理由から、我々の円が埋め込まれた外部ユークリッド空間における位置変数を定義する。 同様に、位置変数を用いてSDを定義する。 そして、通常の UR と類似した UR を得る。 また、円上の最小波パケット(MWP)についても論じる。 MWPはフォン・ミーゼス分布関数によってそのパラメータの極限で表される。

We discuss on the uncertainty relation (UR) for a closed one dimensional system (circle). In such a system, we cannot use the length parameter along the circle as a position variable. Otherwise we meet a difficulty about the definiteness of the average position and the standard deviation (SD). From this reason, we define the position variable in an external Euclidean space in which our circle is embedded. In the same way we define a SD by using that position variable. Then we obtain the UR which is similar to the usual one. We also discuss the minimum wave packet (MWP) on the circle. MWP is expressed by von Mises distribution function with a limit of its parameter.
# 緊急避難所アクセスパターンの簡易理解法

A Simpler Method for Understanding Emergency Shelter Access Patterns ( http://arxiv.org/abs/2210.13619v1 )

Geoffrey G. Messier(参考訳) Simplified Access Metric (SAM)は、シェルタークライアント脆弱性の尺度として、緊急シェルターアクセスパターンを特徴付ける新しいアプローチである。 SAMの目標は、スプレッドシート操作を使用して非技術スタッフが実装可能なアクセスパターンを直感的に理解するためのシェルターオペレータを提供することである。 北米の大きなシェルターからのクライアントデータは、samが従来のトランジショナル、エピソディック、慢性的なクライアントクラスタ分析と同じような結果を生成することを示すために使用される。 SAMはクラスタ分析よりも少ないデータを必要とするため、外部要因によるシェルターアクセスパターンの影響のリアルタイムな画像を生成することもできる。 samを使った9年間のシェルタークライアントデータから生成されたタイムラインは、ハウジングファーストプログラミングとcovid-19ロックダウンがシェルターへのアクセス方法に与える影響を示しています。 最後にSAMは、シェルタースタッフが移行、エピソード、慢性的なラベルを割り当てるだけでなく、SAMの"ソフト"出力を直接脆弱性の尺度として使うことができる。

The Simplified Access Metric (SAM) is a new approach for characterizing emergency shelter access patterns as a measure of shelter client vulnerability. The goal of SAM is to provide shelter operators with an intuitive way to understand access patterns that can be implemented by non-technical staff using spreadsheet operations. Client data from a large North American shelter will be used to demonstrate that SAM produces similar results to traditional transitional, episodic and chronic client cluster analysis. Since SAM requires less data than cluster analysis, it is also able to generate a real time picture of how shelter access patterns are affected by external factors. Timelines generated from nine years of shelter client data using SAM demonstrate the impact of Housing First programming and the COVID-19 lockdown on how people access shelter. Finally, SAM allows shelter staff to move beyond assigning transitional, episodic and chronic labels and instead use the "soft" output of SAM directly as a measure of vulnerability.
# トックス反応に対するTwitterユーザーの行動反応

Twitter Users' Behavioral Response to Toxic Replies ( http://arxiv.org/abs/2210.13420v1 )

Ana Aleksandric, Sayak Saha Roy, Shirin Nilizadeh(参考訳) ハラスメント、トロール、ヘイトスピーチなどのオンラインの有害な攻撃は、オフライン暴力の増加と被害者に対するネガティブな心理的影響と関連付けられている。 本稿では,毒性がユーザのオンライン行動に与える影響について検討した。 79.8kのTwitter会話のサンプルを集めました。 そして,9週間にわたる縦断的研究を通じて,毒性の犠牲者である著者の行動反応と,そうでない著者の行動反応を追跡・比較した。 毒性の犠牲者は, 回避, 復讐, 対策, 交渉といった行動反応の組合せがみられた。 我々は,会話の構造やユーザアカウントの可視性,識別性,活動レベルなど,不明瞭な要因を考慮しつつ,ユーザ行動に対する有害な応答の寄与の意義を統計的に検証した。 興味深いことに、他のランダムな著者と比べて、被害者は会話に関わり、有害な方法で返信し、有害な扇動者を追いかける傾向が強いことがわかりました。 たとえ毒性が他の参加者に向けられたとしても、根本著者は会話に関わり、有害な反応をする可能性が高い。 しかし、アカウントを確認した被害者は、悪質なコメントを投稿することで会話や対応に参加する可能性が低い。 さらに、他のユーザに向けられた有毒なネストされたリプライや有毒なリプライの比率が大きい会話では、リプライが削除される可能性が高くなる。 本研究は,ソーシャルメディアにおける毒性の悪影響を減らすための,より効果的な検出および介入手法の開発において,さらなる研究を支援することができる。

Online toxic attacks, such as harassment, trolling, and hate speech have been linked to an increase in offline violence and negative psychological effects on victims. In this paper, we studied the impact of toxicity on users' online behavior. We collected a sample of 79.8k Twitter conversations. Then, through a longitudinal study, for nine weeks, we tracked and compared the behavioral reactions of authors, who were toxicity victims, with those who were not. We found that toxicity victims show a combination of the following behavioral reactions: avoidance, revenge, countermeasures, and negotiation. We performed statistical tests to understand the significance of the contribution of toxic replies toward user behaviors while considering confounding factors, such as the structure of conversations and the user accounts' visibility, identifiability, and activity level. Interestingly, we found that compared to other random authors, victims are more likely to engage in conversations, reply in a toxic way, and unfollow toxicity instigators. Even if the toxicity is directed at other participants, the root authors are more likely to engage in the conversations and reply in a toxic way. However, victims who have verified accounts are less likely to participate in conversations or respond by posting toxic comments. In addition, replies are more likely to be removed in conversations with a larger percentage of toxic nested replies and toxic replies directed at other users. Our results can assist further studies in developing more effective detection and intervention methods for reducing the negative consequences of toxicity on social media.
# スマートグリッドにおけるサイバーセキュリティ:実践者の視点

Cybersecurity in the Smart Grid: Practitioners' Perspective ( http://arxiv.org/abs/2210.13119v1 )

Jacqueline Meyer, Giovanni Apruzzese(参考訳) スマートグリッド(SG)は現代社会の基盤であり、何十億もの生命と何千もの産業を維持するために必要なエネルギーを提供する。 残念ながら、我々の世界で最も重要なインフラの1つとして、SGは攻撃者にとって魅力的なターゲットだ。 この問題はデジタル化の採用の増加によって増大し、SGがサイバー脅威にさらされることがさらに増加する。 このような暴露が成功すれば、すべての国が麻痺し、それは受け入れがたい(しかし最終的には不可能)リスクに繋がる。 本稿では,SGのサイバーセキュリティに対する現実の実践者の視点を解明することにより,このリスクを軽減することを目的とする。 我々は18の機関をインタビューし、欧州の多様な国で活動し、SGのすべての領域をエネルギー発生から提供までカバーした。 私たちの分析は (a)研究と実践に加えて、その間にも b) 公共及び民間団体 例えば、いくつかの脅威は、関連する論文で主張されているものよりもはるかに危険ではないように見える。いくつかの技術的パラダイムは、実践者にとって疑わしいユーティリティを持っているが、文学によって積極的に推進されている。 我々は、将来の努力によってSGの全体的なサイバーセキュリティを改善することができる4つのテイクアウトを導出する。 問題の大部分は、共通の目標を共有しながらも、他の「圏」の視点を無視する傾向がある、研究者、実践者、規制機関間の不適切なコミュニケーションによるものだと推測する。

The Smart Grid (SG) is a cornerstone of modern society, providing the energy required to sustain billions of lives and thousands of industries. Unfortunately, as one of the most critical infrastructures of our World, the SG is an attractive target for attackers. The problem is aggravated by the increasing adoption of digitalisation, which further increases the SG's exposure to cyberthreats. Successful exploitation of such exposure leads to entire countries being paralysed, which is an unacceptable -- but ultimately inescapable -- risk. This paper aims to mitigate this risk by elucidating the perspective of real practitioners on the cybersecurity of the SG. We interviewed 18 entities, operating in diverse countries in Europe and covering all domains of the SG -- from energy generation, to its delivery. Our analysis highlights a stark contrast between (a)research and practice, but also between (b) public and private entities. For instance: some threats appear to be much less dangerous than what is claimed in related papers; some technological paradigms have dubious utility for practitioners, but are actively promoted by literature; finally, practitioners may either under- or over-estimate their own cybersecurity capabilities. We derive four takeaways that enable future endeavours to improve the overall cybersecurity in the SG. We conjecture that most of the problems are due to an improper communication between researchers, practitioners and regulatory bodies -- which, despite sharing a common goal, tend to neglect the viewpoint of the other `spheres'.
# スクリーニングと予防接種優先戦略の比較と説明のためのエージェントベース流行シミュレーション

An agent-based epidemics simulation to compare and explain screening and vaccination prioritisation strategies ( http://arxiv.org/abs/2210.13089v1 )

Carole Adam and Helene Arduin(参考訳) 本稿では,病原体動態のエージェントモデルについて述べる。 このモデルは、流行の進化を予測するのではなく、その基盤となるメカニズムを対話的に説明することを目的としているため、積極的に単純化されている。 このモデルでは、仮想人口におけるスクリーニング優先戦略と予防接種優先戦略を比較することができる。 モデルは異なるシミュレーターでNetlogoで実装され、人々が実験できるようにオンラインで公開されている。 本稿では,モデル設計,実装,実験について報告する。 特に,感染率の高い高齢者に対して,感染率の高い高齢者のワクチン接種と,社会的接触度が高い若年者と比較した。

This paper describes an agent-based model of epidemics dynamics. This model is willingly simplified, as its goal is not to predict the evolution of the epidemics, but to explain the underlying mechanisms in an interactive way. This model allows to compare screening prioritisation strategies, as well as vaccination priority strategies, on a virtual population. The model is implemented in Netlogo in different simulators, published online to let people experiment with them. This paper reports on the model design, implementation, and experimentations. In particular we have compared screening strategies to evaluate the epidemics vs control it by quarantining infectious people; and we have compared vaccinating older people with more risk factors, vs younger people with more social contacts.
# ブロックチェーンゲームにおけるプレイヤー行動の理解に向けて:Aavegotchiを事例として

Towards Understanding Player Behavior in Blockchain Games: A Case Study of Aavegotchi ( http://arxiv.org/abs/2210.13013v1 )

Yu Jiang, Tian Min, Sizheng Fan, Rongqi Tao, Wei Cai(参考訳) ブロックチェーンゲームは、金融活動を通じてプレイヤーにゲーム内資産やトークンを付与することで、ユニークなゲームプレイとインセンティブメカニズムを導入している。 しかし、ほとんどのブロックチェーンゲームは、ライフスパンやプレイヤーエンゲージメントの点で従来のゲームに匹敵するものではない。 本稿では,ブロックチェーンゲームにおけるゲームプレイと金融要因がプレイヤー行動に与える影響を探索し,決定するために,その全体像を小さな方法で見ることを試みる。 aavegotchiを例にとると、プレイヤープロファイルを構築するために1年間のオペレーションデータを収集する。 マクロデータからプレイヤーの挙動を詳細に分析し,無教師クラスタリング法を適用し,ゲームプレイの魅力とインセンティブを識別する。 この結果から,ゲーム全体は,頻繁なインタラクションや巨額の資金を投資する少数のプレイヤーによって支えられていることが明らかとなった。 ブロックチェーンゲームには金銭的なインセンティブが不可欠であり、プレイヤーがゲームに参加するためのアトラクションとオプションの手段を提供する。 しかし、金融サービスは自由市場と密接に結びついている。 市場が落ち込むと、ゲームはプレイヤーの不可逆的な損失に直面します。 ブロックチェーンゲームでは、よく設計されたゲームプレイが、長く続くプレイヤーの保持の基礎となるはずだ。

Blockchain games introduce unique gameplay and incentive mechanisms by allowing players to be rewarded with in-game assets or tokens through financial activities. However, most blockchain games are not comparable to traditional games in terms of lifespan and player engagement. In this paper, we try to see the big picture in a small way to explore and determine the impact of gameplay and financial factors on player behavior in blockchain games. Taking Aavegotchi as an example, we collect one year of operation data to build player profiles. We perform an in-depth analysis of player behavior from the macroscopic data and apply an unsupervised clustering method to distinguish the attraction of the gameplay and incentives. Our results reveal that the whole game is held up by a small number of players with high-frequent interaction or vast amounts of funds invested. Financial incentives are indispensable for blockchain games for they provide attraction and optional ways for players to engage with the game. However, financial services are tightly linked to the free market. The game will face an irreversible loss of players when the market experiences depression. For blockchain games, well-designed gameplay should be the fundamental basis for the long-lasting retention of players.
# MASS:マルチ属性選択抑制

MaSS: Multi-attribute Selective Suppression ( http://arxiv.org/abs/2210.09904v2 )

Chun-Fu Chen, Shaohan Hu, Zhonghao Shi, Prateek Gulati, Bill Moriarty, Marco Pistoia, Vincenzo Piuri, Pierangela Samarati(参考訳) 最近の機械学習技術の急速な進歩は、格納されている量とリッチコンテンツの両方の観点から、今日の利用可能なデータの膨大な豊かさに大きく依存している。 例えば、画像や音声などの生体データは、年齢、性別、感情、起源といった人々の属性を明らかにするのに対して、位置/動きデータは、人々の活動レベル、移動モード、生活習慣を推測するために用いられる。 このような技術的進歩によって実現される新しいサービスやアプリケーションとともに、これらのデータの使用を規制し、人々のプライバシーと権利を保護する様々な政府政策が設けられている。 その結果、データ所有者は、単純なデータ難読化(画像中の人の顔をぼかすなど)やデータを完全に保持することを選択し、データ品質の悪化を招き、データの潜在的な有用性を著しく制限する。 データの有用性を最大限に保ちながら、データ所有者にきめ細かな制御を与える高度なメカニズムを目指して、下流機械学習タスクを保存しつつ、選択された属性セットを同時に抑制する、正確に標的としたデータ手術を行う一般的なフレームワークであるマルチ属性選択抑圧(MASS)を提案する。 MASSは2組のネットワーク間の対戦ゲームを通じてデータ修飾器を学習し、一方は選択属性を抑えることを目的としており、他方は一般的なコントラスト損失と明示的な分類指標によって残りの属性の保持を保証する。 提案手法は,顔画像,音声音声,ビデオクリップなどの異なる領域の複数のデータセットを用いて広範に評価し,他のダウンストリームMLタスクにおけるデータのユーザビリティに悪影響を及ぼすことなく,MASSの一般化性とターゲット属性の抑制能力の有望な結果を得た。

The recent rapid advances in machine learning technologies largely depend on the vast richness of data available today, in terms of both the quantity and the rich content contained within. For example, biometric data such as images and voices could reveal people's attributes like age, gender, sentiment, and origin, whereas location/motion data could be used to infer people's activity levels, transportation modes, and life habits. Along with the new services and applications enabled by such technological advances, various governmental policies are put in place to regulate such data usage and protect people's privacy and rights. As a result, data owners often opt for simple data obfuscation (e.g., blur people's faces in images) or withholding data altogether, which leads to severe data quality degradation and greatly limits the data's potential utility. Aiming for a sophisticated mechanism which gives data owners fine-grained control while retaining the maximal degree of data utility, we propose Multi-attribute Selective Suppression, or MaSS, a general framework for performing precisely targeted data surgery to simultaneously suppress any selected set of attributes while preserving the rest for downstream machine learning tasks. MaSS learns a data modifier through adversarial games between two sets of networks, where one is aimed at suppressing selected attributes, and the other ensures the retention of the rest of the attributes via general contrastive loss as well as explicit classification metrics. We carried out an extensive evaluation of our proposed method using multiple datasets from different domains including facial images, voice audio, and video clips, and obtained promising results in MaSS' generalizability and capability of suppressing targeted attributes without negatively affecting the data's usability in other downstream ML tasks.
# 空間信頼の自律性レベル

Space Trusted Autonomy Readiness Levels ( http://arxiv.org/abs/2210.09059v2 )

Kerianne L. Hobbs, Joseph B. Lyons, Martin S. Feather, Benjamen P Bycroft, Sean Phillips, Michelle Simon, Mark Harter, Kenneth Costello, Yuri Gawdiak, Stephen Paine(参考訳) テクノロジの準備レベルは、テクノロジを資金提供、開発、テスト、取得、あるいは使用する組織にとって、最も重要なレベルです。 技術準備レベルは、技術の成熟度を標準化し、技術間の一貫した比較を可能にする。 それらは、概念から開発まで、使用まで、技術開発ライフサイクル全体の意思決定を知らせる。 アルゴリズム即応レベル、製造即応レベル、人間即応レベル、商用化即応レベル、機械学習即応レベル、技術コミットメントレベルなど、様々な代替即応レベルが開発されている。 しかしながら、技術即応レベルが新興分野にますます適用されている一方で、急速に発展する自律性の能力を評価する上では、独特の課題がある。 本稿では,空間信頼型自律能力レベル(Space Trusted Autonomy Readiness Levels)のモニカーを用いて,空間利用を求める自律技術を評価するための特別な課題に適合する2次元の準備性と信頼の尺度を同定する。 他の準備段階の定義や、信頼と信頼性の豊かな分野から着想を得ている。 space trusted autonomous readyiness levelは、アメリカ空軍、アメリカ航空宇宙局、アメリカ国家偵察局の宇宙科学技術パートナーシップフォーラム(space science and technology partnership forum)から創設されたspace trusted autonomous subgroupによって開発された。

Technology Readiness Levels are a mainstay for organizations that fund, develop, test, acquire, or use technologies. Technology Readiness Levels provide a standardized assessment of a technology's maturity and enable consistent comparison among technologies. They inform decisions throughout a technology's development life cycle, from concept, through development, to use. A variety of alternative Readiness Levels have been developed, including Algorithm Readiness Levels, Manufacturing Readiness Levels, Human Readiness Levels, Commercialization Readiness Levels, Machine Learning Readiness Levels, and Technology Commitment Levels. However, while Technology Readiness Levels have been increasingly applied to emerging disciplines, there are unique challenges to assessing the rapidly developing capabilities of autonomy. This paper adopts the moniker of Space Trusted Autonomy Readiness Levels to identify a two-dimensional scale of readiness and trust appropriate for the special challenges of assessing autonomy technologies that seek space use. It draws inspiration from other readiness levels' definitions, and from the rich field of trust and trustworthiness. The Space Trusted Autonomy Readiness Levels were developed by a collaborative Space Trusted Autonomy subgroup, which was created from The Space Science and Technology Partnership Forum between the United States Space Force, the National Aeronautics and Space Administration, and the National Reconnaissance Office.
# 2成分Bose-Josephson接合におけるエルゴディニティとスカーリング現象への古典的経路

Classical route to ergodicity and scarring phenomena in a two-component Bose-Josephson junction ( http://arxiv.org/abs/2204.12422v2 )

Debabrata Mondal, Sudip Sinha, Sayak Ray, Johann Kroha, and Subhasis Sinha(参考訳) 超低温原子の2元混合により形成されたボース・ジョゼフソン接合(bjj)を、エルゴディシティと量子スカーのコヒーレントな集団ダイナミクスの出現を解明し、それらの関係を展開する。 種間および種内相互作用をチューニングすることにより、ヨセフソン力学の多様性とそれらの間の遷移が示され、全体的なエルゴード行動を制御する上で重要な役割を担っている。 基礎となる古典性の符号は絡み合いスペクトルから明らかであり、不安定な定常状態と周期軌道の量子傷の形成を解明し、熱的挙動をもたらす。 エネルギーバンドとスカーリング現象のエルゴディディティの度合いは、冷却原子実験で関係する凝縮体の相ゆらぎから、自己相関関数から探ることができる。

We consider a Bose-Josephson junction (BJJ) formed by a binary mixture of ultracold atoms to investigate the manifestation of coherent collective dynamics on ergodicity and quantum scars, unfolding the connection between them. By tuning the inter- and intra-species interaction, we demonstrate a rich variety of Josephson dynamics and transitions between them, which plays a crucial role in controlling the overall ergodic behavior. The signature of underlying classicality is revealed from the entanglement spectrum, which also elucidates the formation of quantum scars of unstable steady states and of periodic orbits leading to athermal behavior. The degree of ergodicity across the energy band and scarring phenomena can be probed from the auto-correlation function as well from the phase fluctuation of the condensates, which has relevance in cold atom experiments.
# 強い減衰雑音の存在下での量子光通信

Quantum Optical Communication in the presence of strong attenuation noise ( http://arxiv.org/abs/2204.13129v3 )

Francesco Anna Mele, Ludovico Lami, Vittorio Giovannetti(参考訳) 透過率 $\lambda\leq 1/2$ の光ファイバー上で量子通信が可能か? 応答が負であることは、受信信号が相互作用する環境が熱状態で初期化されることでよく知られている。 しかし、[PRL 125:110504, 2020]では、初期環境状態が適切に選択可能であることを条件として、すべての$\lambda>0$に対して量子容量が常にゼロから切り離されていることが判明した($\lambda$に依存する)。 エンタングルメントの補助と環境の制御は、たとえ$\lambda>0$が任意に小さいとしても、騒音の欠如という理想的な場合と少なくとも同等の性能を持つ通信を可能にする。 これらのD-HQCOMの2つの現象は、環境を制御できる技術の可能性を持っている。 どうやって達成できるのか? 第2の成果はこの質問に答える。 ここでは、環境状態に直接アクセスすることなく、D-HQCOMの現象を活性化するための完全に一貫したプロトコルを提供する。 これは、実際の通信の前に情報をエンコードしない信号である「トリガー信号」を、有利な方法で環境を変更することを目的として送信することで行われる。 これは、送信者が十分な短い時間間隔で分離した信号を送信したときに生じるメモリ効果により可能となる。 量子リピータを使わずに任意の長さの光ファイバー間を通信するための具体的スキームを提供する。 解析の副産物として、関連するlindbladマスター方程式を利用した熱減衰器の単純なクラウス表現を導出する。

Is quantum communication possible over an optical fibre with transmissivity $\lambda\leq 1/2$ ? The answer is well known to be negative if the environment with which the incoming signal interacts is initialised in a thermal state. However, in [PRL 125:110504, 2020] the quantum capacity was found to be always bounded away from zero for all $\lambda>0$, a phenomenon dubbed "die-hard quantum communication" (D-HQCOM), provided that the initial environment state can be chosen appropriately (depending on $\lambda$). Here we show an even stronger version of D-HQCOM in the context of entanglement-assisted classical communication: entanglement assistance and control of the environment enable communication with performance at least equal to that of the ideal case of absence of noise, even if $\lambda>0$ is arbitrarily small. These two phenomena of D-HQCOM have technological potential provided that we are able to control the environment. How can we achieve this? Our second main result answers this question. Here we provide a fully consistent protocol to activate the phenomena of D-HQCOM without directly accessing the environment state. This is done by sending over the channel "trigger signals", i.e. signals which do not encode information, prior to the actual communication, with the goal of modifying the environment in an advantageous way. This is possible thanks to the memory effects which arise when the sender feeds signals separated by a sufficiently short temporal interval. Our results may offer a concrete scheme to communicate across arbitrarily long optical fibres, without using quantum repeaters. As a by-product of our analysis, we derive a simple Kraus representation of the thermal attenuator exploiting the associated Lindblad master equation.
# 高損失光ファイバーによる量子通信効率の回復

Restoring quantum communication efficiency over high loss optical fibres ( http://arxiv.org/abs/2204.13128v3 )

Francesco Anna Mele, Ludovico Lami, Vittorio Giovannetti(参考訳) 量子リピータがない場合、量子通信は1/2ドルの臨界閾値以下での透過率の低下により、$\gtrsim 20\text{ km}$よりも長い光ファイバーでほぼ不可能であることが判明した。 しかし、繊維に供給される信号が十分に短い時間間隔で分離されている場合は、メモリ効果を考慮する必要がある。 本稿では,これらの効果を適切に計算することにより,任意の長さの光ファイバー間を固定正の量子ビット伝送速度で無支援の量子通信を可能にするスキームを考案できることを示す。 また、雑音のない場合の最大到達回数と同程度の長距離での絡み合い支援通信を実現する方法を示した。

In the absence of quantum repeaters, quantum communication proved to be nearly impossible across optical fibres longer than $\gtrsim 20\text{ km}$ due to the drop of transmissivity below the critical threshold of $1/2$. However, if the signals fed into the fibre are separated by a sufficiently short time interval, memory effects must be taken into account. In this paper we show that by properly accounting for these effects it is possible to devise schemes that enable unassisted quantum communication across arbitrarily long optical fibres at a fixed positive qubit transmission rate. We also demonstrate how to achieve entanglement-assisted communication over arbitrarily long distances at a rate of the same order of the maximum achievable in the unassisted noiseless case.
# 高次トロッタ分解による量子コンピューティングの改善

Improved Quantum Computing with the Higher-order Trotter Decomposition ( http://arxiv.org/abs/2205.02520v2 )

Xiaodong Yang, Xinfang Nie, Yunlan Ji, Tao Xin, Dawei Lu, and Jun Li(参考訳) 量子制御を設計する際には、制御系の進化を古典的なコンピュータでシミュレートする必要がある。 しかし、ハミルトニアン全体の対角化が難しいため、時間発展作用素の計算にはかなりのリソースがかかる。 本稿では,時間発展セグメントをトロッター分解で置換することにより,プロパゲータを単一量子ビット演算と固定時間系進化の組み合わせに還元することで,この問題を軽減する。 結果として、プロパゲータエラーの許容コストでかなりのスピードゲインが得られる。 実験として,最適制御場探索のための勾配上昇パルス工学アルゴリズムの効率向上のために提案手法を適用した。 さらに,高次トロッター分解により,変分量子アルゴリズムにおけるAns\atzeの効率が向上し,基底状態問題の解法性能が向上することを示した。 ここで示した戦略は、他の多くの量子最適化やシミュレーションタスクにも適用できる。

In designing quantum control, it is generally required to simulate the controlled system evolution with a classical computer. However, computing the time evolution operator can be quite resource-consuming since the total Hamiltonian is often hard to diagonalize. In this paper, we mitigate this issue by substituting the time evolution segments with their Trotter decompositions, which reduces the propagator into a combination of single-qubit operations and fixed-time system evolutions. The resulting procedure can provide substantial speed gain with acceptable costs in the propagator error. As a demonstration, we apply the proposed strategy to improve the efficiency of the gradient ascent pulse engineering algorithm for searching optimal control fields. Furthermore, we show that the higher-order Trotter decompositions can provide efficient Ans\"atze for the variational quantum algorithm, leading to improved performance in solving the ground-state problem. The strategy presented here is also applicable for many other quantum optimization and simulation tasks.
# 作用素値シャッテン空間と量子エントロピー

Operator-valued Schatten spaces and quantum entropies ( http://arxiv.org/abs/2207.06693v2 )

Salman Beigi, Milad M. Goodarzi(参考訳) 作用素値のシャッテン空間は g. pisier によってベクトル値 $\ell_p$-spaces の非可換対応として導入された。 この作用素空間の族は補間スケールを形成し、様々なアプリケーションにおいて強力で便利なツールとなる。 特に、この族から来るノルムは自然に量子情報理論(QIT)におけるあるエントロピー量の定義に現れるので、ピシエの理論を用いてそれらの量のいくつかの特徴を確立することができる。 それにもかかわらず、既存の文献からこの理論の主結果の証明に従うことは極めて困難である。 本稿では,特にQITコミュニティ全体において,Pisierの理論の基礎となる概念と概念を,ほぼ自己完結した形で提示することによって,このギャップを埋めようとしている。 さらに、この理論のいくつかの応用をQITで述べる。 特に、量子条件 R'enyi エントロピーに束縛された新しい一様連続性を証明する。

Operator-valued Schatten spaces were introduced by G. Pisier as a noncommutative counterpart of vector-valued $\ell_p$-spaces. This family of operator spaces forms an interpolation scale which makes it a powerful and convenient tool in a variety of applications. In particular, as the norms coming from this family naturally appear in the definition of certain entropic quantities in Quantum Information Theory (QIT), one may apply Pisier's theory to establish some features of those quantities. Nevertheless, it could be quite challenging to follow the proofs of the main results of this theory from the existing literature. In this article, we attempt to fill this gap by presenting the underlying concepts and ideas of Pisier's theory in an almost self-contained way which we hope to be more accessible, especially for the QIT community at large. Furthermore, we describe some applications of this theory in QIT. In particular, we prove a new uniform continuity bound for the quantum conditional R\'enyi entropy.
# 耐故障性向上のための量子論理演算のベンチマーク

Benchmarking quantum logic operations for achieving fault tolerance ( http://arxiv.org/abs/2207.08786v3 )

Akel Hashim, Stefan Seritan, Timothy Proctor, Kenneth Rudinger, Noah Goss, Ravi K. Naik, John Mark Kreikebaum, David I. Santiago, Irfan Siddiqi(参考訳) ノイズ量子プロセッサをベンチマークする現代の方法は、平均誤差率やプロセス不適合度を測定するのが一般的である。 しかし、フォールトトレラントな量子エラー補正のしきい値は、ダイヤモンド標準によって定義された最悪のケースエラー率という観点で与えられる。 この矛盾を解決する一つの方法は、ランダム化コンパイル(RC)のような手法を用いて量子ゲートの物理実装をランダム化することである。 本研究では、ゲートセットトモグラフィーを用いて、2ビット論理ゲートのセットの精度評価を行い、超伝導量子プロセッサ上でRCを研究する。 RC下では、ゲート誤差はコヒーレント誤差のない確率的パウリ雑音モデルによって正確に記述され、空間的に相関するコヒーレント誤差と非マルコフ誤差は強く抑制される。 さらに, ランダムにコンパイルされたゲートに対して, 平均および最悪のエラーレートが等しく, 最大最悪ケース誤差が0.0197(3)であることを示す。 その結果、ランダム化ベンチマークは、量子プロセッサのエラーレートがフォールトトレランス閾値以下であることを検証し、ノイズを調整できるランダム化手法によってゲートが実装されている場合に限り、短期的アルゴリズムの故障率を制限するための有効な方法であることが示されている。

Contemporary methods for benchmarking noisy quantum processors typically measure average error rates or process infidelities. However, thresholds for fault-tolerant quantum error correction are given in terms of worst-case error rates -- defined via the diamond norm -- which can differ from average error rates by orders of magnitude. One method for resolving this discrepancy is to randomize the physical implementation of quantum gates, using techniques like randomized compiling (RC). In this work, we use gate set tomography to perform precision characterization of a set of two-qubit logic gates to study RC on a superconducting quantum processor. We find that, under RC, gate errors are accurately described by a stochastic Pauli noise model without coherent errors, and that spatially-correlated coherent errors and non-Markovian errors are strongly suppressed. We further show that the average and worst-case error rates are equal for randomly compiled gates, and measure a maximum worst-case error of 0.0197(3) for our gate set. Our results show that randomized benchmarks are a viable route to both verifying that a quantum processor's error rates are below a fault-tolerance threshold, and to bounding the failure rates of near-term algorithms, if -- and only if -- gates are implemented via randomization methods which tailor noise.
# Rydberg-Atomおよび電子マイクロ波受信機の雑音温度の比較

Comparison of Noise Temperature of Rydberg-Atom and Electronic Microwave Receivers ( http://arxiv.org/abs/2209.00908v2 )

Gabriel Santamaria-Botello, Shane Verploegh, Eric Bottomley, Zoya Popovic(参考訳) リードバーグ原子における電磁誘導透過(eit)を用いたマイクロ波受信機は、最近感度の向上を実証している。 最先端の電界感度が低ノイズ増幅器(lna)とミキサーからなる標準の電子受信器でどのように達成されたかは明らかではない。 本稿では,従来の室温電子受信機が標準自由空間結合構成における室温Rydberg電気計の感度を最大に上回ることを示す。 しかし、Rydberg-atom受信機は、共鳴や閉じ込めマイクロ波構造が原子によって感知される電場を高めるように設計されている場合、従来の受信機の感度を超えることができる。 マイクロ波共振器の場合、外部(結合)品質係数は熱および量子ノイズの寄与を最小限に抑えるために慎重に選択する必要がある。 これらの最適設計点に対するクローズドフォーム表現は,600MHzから330GHzまでの文献で報告されている従来のLNAと比較した。

Microwave receivers using electromagnetically-induced transparency (EIT) in Rydberg atoms have recently demonstrated improved sensitivities. It is not evident how their state-of-the-art electric field sensitivities compare to those achieved using standard electronic receivers consisting of low-noise amplifiers (LNAs) and mixers. In this paper, we show that conventional room-temperature electronic receivers greatly outperform the best demonstrated sensitivities of room-temperature Rydberg electrometers in standard free-space coupled configurations. However, Rydberg-atom receivers can surpass the sensitivity of conventional receivers if resonant or confining microwave structures are designed to enhance the electric fields sensed by the atoms. For a given microwave resonator, the external (coupling) quality factor must be carefully chosen to minimize their thermal and quantum noise contributions. Closed-form expressions for these optimal design points are found, and compared in terms of noise temperature with conventional LNAs reported in the literature from 600 MHz to 330 GHz.
# 作業の準確率の最も一般的なクラスは何か?

What is the most general class of quasiprobabilities of work? ( http://arxiv.org/abs/2209.02527v4 )

Gianluca Francica(参考訳) 量子系における熱力学の統計的な記述の仕方は、公然の根本的な問題である。 研究に関して、エネルギー基底における初期量子コヒーレンスの存在は、仕事の準確率を生じさせ、負の値を取ることができる。 我々の目標は、いくつかの基本的な条件を満たす仕事の最も一般的な準確率を特定することである。 そうすることで、グリアソンの定理に類似した準確率の一般概念を導入する。 そして、これらの準確率を用いて作業の準確率を定義し、最後にプロトコルの文脈性について議論する。

How to give a statistical description of thermodynamics in quantum systems is an open fundamental question. Concerning the work, the presence of initial quantum coherence in the energy basis can give rise to a quasiprobability of work, which can take negative values. Our aim is to identify the most general quasiprobability of work satisfying some fundamental conditions. By doing so, we introduce a general notion of quasiprobability in analogy to the Gleason's theorem. Then, we use these quasiprobabilities to define the quasiprobability of work, and finally we discuss the contextuality of the protocol.
# Sachdev-Ye-Kitaevモデルにおけるケルディシュワームホールと異常緩和

Keldysh Wormholes and Anomalous Relaxation in the Dissipative Sachdev-Ye-Kitaev Model ( http://arxiv.org/abs/2210.01695v2 )

Antonio M. Garc\'ia-Garc\'ia, Lucas S\'a, Jacobus J. M. Verbaarschot, and Jie Ping Zheng(参考訳) 我々は,Sachdev-Ye-Kitaev(SYK)モデル,$N$フェルミオン,および無限範囲の$q$ボディ相互作用の平衡外ダイナミクスをマルコフ環境に結合して検討した。 定常状態に近いところでは、この系の無限温度における実時間リンドブラッド力学は、重力双対がワームホール配置と近縁である2点非エルミートsykのユークリッド時間におけるほぼゼロ温度ダイナミクスと同一である。 実時間定式化における鞍点方程式はユークリッド時間における方程式と同一であることを示す。 実際、低温でのグリーン関数の明示的な計算は、$q = 4$ で数値化され、$q = 2$ で解析すると、この同値を示す。 非常に強いカップリングのためにのみ、崩壊速度は定常状態への散逸駆動アプローチのカップリング特性への線形依存にアプローチする。 q > 2$ の場合、実時間散逸SYKモデルの潜在的な重力双対を同定する。 この構成はケルディッシュワームホール(keldysh wormhole)と呼ばれ、環境とのカップリングがなくても有限減衰率の原因となる。

We study the out-of-equilibrium dynamics of a Sachdev-Ye-Kitaev (SYK) model, $N$ fermions with a $q$-body interaction of infinite range, coupled to a Markovian environment. Close to the steady state, the real-time Lindbladian dynamics of this system at infinite temperature is identical to the near-zero-temperature dynamics in Euclidean time of a two-site non-Hermitian SYK with inter-site coupling whose gravity dual has been recently related to wormhole configurations. We show that the saddle-point equations in the real-time formulation are identical to those in Euclidean time. Indeed, an explicit calculation of Green's functions at low temperature, numerical for $q = 4$ and analytical for $q = 2$ and large $q$, illustrates this equivalence. Only for very strong coupling does the decay rate approach the linear dependence on the coupling characteristic of a dissipation-driven approach to the steady state. For $q > 2$, we identify a potential gravity dual of the real-time dissipative SYK model: a double-trumpet configuration in a near-de Sitter space in two dimensions with matter. This configuration, which we term a Keldysh wormhole, is responsible for a finite decay rate even in the absence of coupling to the environment.
# トーリック符号の量子回路とXキューブフラクトンモデル

Quantum circuits for toric code and X-cube fracton model ( http://arxiv.org/abs/2210.01682v2 )

Penghua Chen, Bowen Yan, and Shawn X. Cui(参考訳) 我々は,表面符号モデルの基底状態のシミュレーションを行うために,クリフォードゲートのみからなる系統的かつ効率的な量子回路を導入する。 この方法は2L+log(L)+2時間ステップでトーリック符号の基底状態を達成する。 提案アルゴリズムは, この問題を純粋に幾何学的に変換し, 3次元トリック符号モデルとX-キューブフラクトンモデルという, 幾何位相の基底状態に容易に拡張することができる。 また,任意の平面格子上の2次元トーリック符号の基底状態を実現し,より複雑な3次元位相相への道を開くための測定値付きグルーイング法を提案する。

We introduce a systematic and efficient quantum circuit only composed of Clifford gates to simulate the ground state of surface code model. This method achieves the ground state of toric code in 2L+log(L)+2 time steps. Our algorithm transforms the question into a purely geometric one, which can be easily extended to achieve the ground state of some 3D topological phases i.e. 3D toric code model and X-cube fracton model. We also introduce the gluing method with measurements to enable our method to achieve the ground state of 2D toric code on an arbitrary planar lattice and pave the way to more complicated 3D topological phases.
# 基底状態生成のための反復量子アルゴリズムの改良

Improved iterative quantum algorithm for ground-state preparation ( http://arxiv.org/abs/2210.08454v2 )

Jin-Min Liang, Qiao-Qiao Lv, Shu-Qian Shen, Ming Li, Zhi-Xi Wang, and Shao-Ming Fei(参考訳) ハミルトン系の基底状態を見つけることは、多体量子物理学と量子化学において非常に重要である。 ハミルトンの基底状態を作成するために,改良された反復量子アルゴリズムを提案する。 重要な点は、量子デバイス上に実装された量子勾配降下(qgd)を通じて状態空間上のコスト関数を最適化することである。 本論文は,qgdにおける学習率選択の指針として,基本上界を求め,本アルゴリズムと虚時進化の1次近似との関係性を確立することを提案する。 さらに,多対数量子資源のみを利用して変分量子状態生成法をサブルーチンとして適用し,漸近状態を生成する。 本アルゴリズムの性能は,ノイズのない重陽子分子とハイゼンベルク模型の数値計算によって実証された。 既存のアルゴリズムと比較すると,各イテレーションにおける成功確率の向上,測定精度に依存しないサンプリングの複雑さ,ゲートの複雑さの低減,アシラリー状態が十分に準備されている場合の量子資源の確保といった利点がある。

Finding the ground state of a Hamiltonian system is of great significance in many-body quantum physics and quantum chemistry. We propose an improved iterative quantum algorithm to prepare the ground state of a Hamiltonian. The crucial point is to optimize a cost function on the state space via the quantum gradient descent (QGD) implemented on quantum devices. We provide practical guideline on the selection of the learning rate in QGD by finding a fundamental upper bound and establishing a relationship between our algorithm and the first-order approximation of the imaginary time evolution. Furthermore, we adapt a variational quantum state preparation method as a subroutine to generate an ancillary state by utilizing only polylogarithmic quantum resources. The performance of our algorithm is demonstrated by numerical calculations of the deuteron molecule and Heisenberg model without and with noises. Compared with the existing algorithms, our approach has advantages including the higher success probability at each iteration, the measurement precision-independent sampling complexity, the lower gate complexity, and only quantum resources are required when the ancillary state is well prepared.
# 合成場による熱放射の詳細なバランスの破壊

Breakdown of detailed balance for thermal radiation by synthetic fields ( http://arxiv.org/abs/2210.13049v1 )

S.-A. Biehs and G. S. Agarwal(参考訳) 近年, 2体間の熱伝達における非相反性が広く研究されている。 特に強磁場の役割が研究されている。 かなりの柔軟性を持つより単純なアプローチは、簡単に適用できる合成電場と磁場における熱伝達を考えることである。 本稿では, 熱伝達関数 $\mathcal{T} ({\omega})$, すなわち, 合成電場と磁場の存在による2つの物体間の熱伝達のスペクトルについて, 詳細なバランスの崩壊を実証する。 スペクトル測定は、多くの物理情報を持ち、放射の量子論の理由となった。 2つのグラフェンフレーク間の熱伝達関数と2つの物体間のカシミールカップリングにおける合成場誘起非相反性を明らかに示す。 他の多くの熱伝達の場合とは異なり、後者のケースは強い結合の興味深い特徴を持っている。 さらに, 合成場の存在が2つの膜の平均占有数に影響を及ぼし, 詳細バランスの崩壊を実験的に検証するシステムを提案する。

In recent times the possibility of non-reciprocity in heat transfer between two bodies has been extensively studied. In particular the role of strong magnetic fields has been investigated. A much simpler approach with considerable flexibility would be to consider heat transfer in synthetic electric and magnetic fields which are easily applied. We demonstrate the breakdown of detailed balance for the heat transfer function $\mathcal{T} ({\omega})$, i.e. the spectrum of heat transfer between two objects due to the presence of synthetic electric and magnetic fields. The spectral measurements carry lot more physical information and were the reason for the quantum theory of radiation. We demonstrate explicitly the synthetic field induced non-reciprocity in the heat transfer transmission function between two graphene flakes and for the Casimir coupling between two objects. Unlike many other cases of heat transfer, the latter case has interesting features of the strong coupling. Further the presence of synthetic fields affects the mean occupation numbers of two membranes and propose this system for the experimental verification of the breakdown of detailed balance.
# 量子アルゴリズムを用いたLUXE実験におけるトラック再構成

Track reconstruction at the LUXE experiment using quantum algorithms ( http://arxiv.org/abs/2210.13021v1 )

Arianna Crippa, Lena Funcke, Tobias Hartung, Beate Heinemann, Karl Jansen, Annabel Kropf, Stefan K\"uhn, Federico Meloni, David Spataro, Cenk T\"uys\"uz, Yee Chinn Yap(参考訳) LUXE(Laser Und XFEL Experiment)は、QEDが非摂動的となる強磁場状態における量子電磁力学(QED)を研究するDESYで提案された実験である。 シリコンピクセル追跡検出器を用いた生成電子-ポジトロン対の速度測定は、このレジームの研究に必須の要素である。 追跡検出器の4層を横断する陽電子の精密追跡は、高速なレーザー強度で非常に困難になる。 本研究では,ポジトロン軌道の再構成に量子コンピューティングを利用する可能性に関するこれまでの研究を更新する。 リコンストラクションタスクは二次的非拘束二元最適化として定式化され、シミュレーション量子コンピュータとハイブリッド量子古典アルゴリズム、すなわち変分量子固有解法を用いて解く。 異なるアンサッツ回路とオプティミザが研究されている。 その結果,グラフニューラルネットワークと組合せカルマンフィルタを用いて,従来のトラック再構成アルゴリズムと比較した。

LUXE (Laser Und XFEL Experiment) is a proposed experiment at DESY which will study Quantum Electrodynamics (QED) in the strong-field regime, where QED becomes non-perturbative. Measuring the rate of created electron-positron pairs using a silicon pixel tracking detector is an essential ingredient to study this regime. Precision tracking of positrons traversing the four layers of the tracking detector becomes very challenging at high laser intensities due to the high rates, which can be computationally expensive for classical computers. In this work, we update our previous study of the potential of using quantum computing to reconstruct positron tracks. The reconstruction task is formulated as a quadratic unconstrained binary optimisation and is solved using simulated quantum computers and a hybrid quantum-classical algorithm, namely the variational quantum eigensolver. Different ansatz circuits and optimisers are studied. The results are discussed and compared with classical track reconstruction algorithms using a graph neural network and a combinatorial Kalman filter.
# 量子力学的散乱における角度時間遅延

Angular time delay in quantum mechanical scattering ( http://arxiv.org/abs/2210.13018v1 )

Jochen Zahn(参考訳) ブリュネッティとフレデンハーゲンの[phys. rev. a 66 (2002) 044101] 量子力学における事象発生時刻の概念を球面ポテンシャルの散乱の例に適用する。 そこで我々は, 角度時間遅延に対するフロワサート, ゴールドベルガー, ワトソン [Phys. Rev. 131 (1963) 2820] の表現を再導出し, その導出に関する概念的問題を明らかにした。 また、同じ著者が量子力学的文脈で定義した「空間シフト」(基本的には衝撃パラメータ)の基本的な再導出についても述べる。 wkb近似の文脈において,両者の量と古典的量との関係を明らかにする。 一例として、ハード球面における散乱の概念を適用する。 短波長散乱のための前方回折領域の強度の最小値における時間遅延と空間シフトの双方で明瞭なピークを見いだし、これらが原則的に観測可能であるかどうかを議論した。

We apply Brunetti and Fredenhagen's [Phys. Rev. A 66 (2002) 044101] concept of the time of occurrence of an event in quantum mechanics to the example of scattering off a spherical potential. Thereby, we re-derive the expression of Froissart, Goldberger, and Watson [Phys. Rev. 131 (1963) 2820] for the angular time delay, clarifying some conceptual issues with their derivation. We also present an elementary re-derivation of the "space shift" (essentially the impact parameter) defined in the quantum mechanical context by the same authors. We clarify the relation of both quantities to their classical counterparts in the context of the WKB approximation. As an example, we apply the concepts to scattering at a hard sphere. We find pronounced peaks in the both the time delay and the space shift at the minima of intensity in the forward diffraction region for short wavelength scattering and discuss whether these could in principle be observable.
# 空間対称量子状態における多方向ユニタリティと最大絡み合い

Multi-directional unitarity and maximal entanglement in spatially symmetric quantum states ( http://arxiv.org/abs/2210.13017v1 )

M\'arton Mesty\'an, Bal\'azs Pozsgay and Ian M. Wanless(参考訳) 両ユニタリ作用素とその多脚一般化は、文献の様々な場所に現れると考える。 これらの対象は、特別な絡み合いパターンを持つ多次元量子状態と関連しうる:部位は空間対称なパターンで配置され、状態は与えられた幾何学の反射対称性から従う全ての二分法に対して最大絡み合いを持つ。 状態自体が幾何学的対称性群に対して不変である場合を考える。 最も単純な例は、自己双対かつ反射不変である双対ユニタリ作用素であるが、六角形、立方体、八面体幾何学の一般化も考慮する。 様々な局所次元に対して、これらの対象に対する多くの構成と具体例を提供する。 これらの例はすべて、1+1次元または2+1次元の量子セルオートマトンを構築するのに使用することができ、 '`時間方向' には複数の等価な選択がある。

We consider dual unitary operators and their multi-leg generalizations that have appeared at various places in the literature. These objects can be related to multi-party quantum states with special entanglement patterns: the sites are arranged in a spatially symmetric pattern and the states have maximal entanglement for all bipartitions that follow from the reflection symmetries of the given geometry. We consider those cases where the state itself is invariant with respect to the geometrical symmetry group. The simplest examples are those dual unitary operators which are also self dual and reflection invariant, but we also consider the generalizations in the hexagonal, cubic, and octahedral geometries. We provide a number of constructions and concrete examples for these objects for various local dimensions. All of our examples can be used to build quantum cellular automata in 1+1 or 2+1 dimensions, with multiple equivalent choices for the ``direction of time''.
# 例外点を用いた量子熱機関の動的制御

Dynamical Control of Quantum Heat Engines Using Exceptional Points ( http://arxiv.org/abs/2210.12975v1 )

J.-W. Zhang, J.-Q. Zhang, G.-Y. Ding, J.-C. Li, J.-T. Bu, B. Wang, L.-L. Yan, S.-L. Su, L. Chen, F. Nori, \c{S}. K. \"Ozdemir, F. Zhou, H. Jing, M. Feng(参考訳) 量子熱機械(quantum thermo machine)は、熱湯と冷湯を結合したオープン量子システムである。 したがって、その力学は非エルミート量子系の概念とツールを用いてよく理解することができる。 非ハーミティ性(英: non-Hermiticity)は、非エルミティアン・ハミルトニアンあるいはリウヴィリア超作用素の固有値とその関連する固有ベクトルが合体する例外的な点の存在である。 本稿では,単イオン熱エンジンを実験的に実現し,リウビリアン例外点が量子熱エンジンの動力学および性能に及ぼす影響を実証する。 実験の結果,オットーサイクルの等温加熱と冷却のストロークの間,リウヴィリアの例外点で分離された正確な位相と破損した位相でエンジンを動作させることで,オットーサイクルが振動力学と高コヒーレンスを有する正確な位相で完全にオットーサイクルを実行するよりも,作業と出力の効率が向上することがわかった。 この結果は量子熱エンジンの制御に興味深い可能性を開き、量子プロセスにおけるコヒーレンスと例外的な点の役割や熱機械による作業抽出に関心を持つ他の研究分野にも興味を持つだろう。

A quantum thermal machine is an open quantum system coupled to hot and cold thermal baths. Thus, its dynamics can be well understood using the concepts and tools from non-Hermitian quantum systems. A hallmark of non-Hermiticity is the existence of exceptional points where the eigenvalues of a non-Hermitian Hamiltonian or an Liouvillian superoperator and their associated eigenvectors coalesce. Here, we report the experimental realisation of a single-ion heat engine and demonstrate the effect of the Liouvillian exceptional points on the dynamics and the performance of a quantum heat engine. Our experiments have revealed that operating the engine in the exact- and broken-phases, separated by a Liouvillian exceptional point, respectively during the isochoric heating and cooling strokes of an Otto cycle produces more work and output power and achieves higher efficiency than executing the Otto cycle completely in the exact phase where the system has an oscillatory dynamics and higher coherence. This result opens interesting possibilities for the control of quantum heat engines and will be of interest to other research areas that are concerned with the role of coherence and exceptional points in quantum processes and in work extraction by thermal machines.
# 充電量子電池の環境依存性エントロピー不確実性

Environment-mediated entropic uncertainty in charging quantum batteries ( http://arxiv.org/abs/2210.12909v1 )

Meng-Long Song, Li-Juan Li, Xue-Ke Song, Liu Ye, and Dong Wang(参考訳) オープン量子電池(QB)の帯電時のマルコフ系および非マルコフ系におけるエントロピー不確実性のダイナミクスを,共通散逸環境により検討した。 非マルコフ系では、電池はほぼ完全に充電され、強い非マルコフ系特性は充電力を改善するのに有用である。 また, エネルギー貯蔵は, 蓄電池と蓄電池のカップリングと密接に関連していること, すなわち, 蓄電池の強結合が省エネルギー性を向上させることを示した。 特に、エンタングルメントは最も保存されたエネルギーを得るために必要であり、最小のエントロピー境界を伴う。 興味深いことに、エントロピー境界の密接性は、異なる電荷過程におけるエネルギー移動のよい指標とみなすことができ、完全なエネルギー移動は常に最も密接なエントロピー境界に対応する。 本研究は,QBの実用充電における最適充電効率について考察した。

We studied the dynamics of entropic uncertainty in Markovian and non-Markovian systems during the charging of open quantum batteries (QBs) mediated by a common dissipation environment. In the non-Markovian regime, the battery is almost fully charged efficiently, and the strong non-Markovian property is beneficial for improving the charging power. In addition, the results show that the energy storage is closely related to the couplings of the charger-reservoir and battery-reservoir; that is, the stronger coupling of a charger-reservoir improves energy storage. In particular, entanglement is required to obtain the most stored energy and is accompanied by the least tight entropic bound. Interestingly, it was found that the tightness of the entropic bound can be considered a good indicator of the energy transfer in different charging processes, and the complete energy transfer always corresponds to the tightest entropic bound. Our results provide insight into the optimal charging efficiency of QBs during practical charging.
# 相対論的量子波動関数に対する転送演算子アプローチ

A Transfer Operator Approach to Relativistic Quantum Wavefunction ( http://arxiv.org/abs/2210.12891v1 )

Igor Mezic(参考訳) クープマン=フォン・ノイマン形式主義の元々の意図は、古典力学と量子力学を、古典力学に演算子形式を導入して同じ足場に置くことである。 ここでは、その逆の経路を追求し、量子力学的進化について転移作用素が何を言おうかを検討する。 この目的のために、4次元擬リーマン多様体上の速度場に対する物理的に動機付けられたスカラー波動関数形式を導入し、関連する波動関数(関連する重み付き伝達作用素の生成子)の進化方程式を得る。 スカラー進化の生成元は、空間と時間において一階である。 形式主義の確率解釈は、非相対論的極限におけるシュロディンガー方程式の回復につながる。 特殊相対性限界において、ディラックスピノルのスカラー波動関数が新しい方程式を満たすことを示す。 質量に対する弦理論的考察との接続を提供する。

The original intent of the Koopman-von Neumann formalism was to put classical and quantum mechanics on the same footing by introducing an operator formalism into classical mechanics. Here we pursue their path the opposite way and examine what transfer operators can say about quantum mechanical evolution. To that end, we introduce a physically motivated scalar wavefunction formalism for a velocity field on a 4-dimensional pseudo-Riemannian manifold, and obtain an evolution equation for the associated wavefunction, a generator for an associated weighted transfer operator. The generator of the scalar evolution is of first order in space and time. The probability interpretation of the formalism leads to recovery of the Schrodinger equation in the non-relativistic limit. In the special relativity limit, we show that the scalar wavefunction of Dirac spinors satisfies the new equation. A connection with string theoretic considerations for mass is provided.
# 無条件証明-熱力学暗号の諸可能性

Unconditional Proofs-of-Work and Other Possibilities of Thermodynamic Cryptography ( http://arxiv.org/abs/2210.13278v1 )

Xavier Coiteux-Roy, Stefan Wolf(参考訳) 物理現象や法則から情報理論上安全な方法で暗号機能を実現するという近年の進歩と相まって,自由エネルギーの限定的な仮定から有用なタスクを得ることを提案する。 具体的には、maurerのbounded-storageモデルと緩やかに関連づけられた設定における仮定に基づいて、熱力学的作業の無条件証明、自由エネルギーの秘密共有、忘れられない金銭、そして位置証明のためのプロトコルを導出します。 我々のスキームは古典的であり、量子的ではないと見なすことができるが、どちらの敵のクラスにも耐性がある。

In line with advances in recent years about realizing cryptographic functionalities in an information-theoretically secure way from physical phenomena and laws, we propose here to obtain useful tasks from the sole assumption of limited free energy. Specifically, based on that assumption -- resulting in a setting loosely related to Maurer's bounded-storage model -- we derive protocols for unconditional proofs-of-thermodynamical-work, secret sharing of free energy, unforgeable money, and proofs-of-position. While our schemes can be considered classical and not quantum per se, they are resistant against both classes of adversaries.
# 開量子系の初期相関:線形動的写像とマスター方程式の構成

Initial Correlations in Open Quantum Systems: Constructing Linear Dynamical Maps and Master Equations ( http://arxiv.org/abs/2210.13241v1 )

Alessandra Colla, Niklas Neubrand and Heinz-Peter Breuer(参考訳) 本研究では,その環境と初期相関関係にある開量子系のダイナミクスについて検討する。 提案手法は, 固定された初期相関が, 対応する非相関な動的挙動に対して, 対応する非相関な初期環境状態に対して, オープンシステムの進化をどのように変化させるかを分析することを目的としている。 任意の所定の初期相関関係に対して、開システムの作用素の空間に線型力学写像を導入することができ、それは物理状態の集合上の固有力学写像のように作用し、その一意的な線型拡大を表す。 さらに,この構成により,時間依存かつ負の遷移率を含む一般化リンドブラッド構造を持つ線形時間局所量子マスター方程式が導かれることを実証する。 したがって、開量子系の一般の非マルコフ力学は、任意で固定された初期系-環境相関の場合でも時間-局所マスター方程式を用いて記述することができる。 そこで本論文では,本手法と文献に提案されている他のアプローチとの関係について解説する。

We investigate the dynamics of open quantum systems which are initially correlated with their environment. The strategy of our approach is to analyze how given, fixed initial correlations modify the evolution of the open system with respect to the corresponding uncorrelated dynamical behavior with the same fixed initial environmental state, described by a completely positive dynamical map. We show that, for any predetermined initial correlations, one can introduce a linear dynamical map on the space of operators of the open system which acts like the proper dynamical map on the set of physical states and represents its unique linear extension. Furthermore, we demonstrate that this construction leads to a linear, time-local quantum master equation with generalized Lindblad structure involving time-dependent, possibly negative transition rates. Thus, the general non-Markovian dynamics of an open quantum system can be described by means of a time-local master equation even in the case of arbitrary, fixed initial system-environment correlations. We present some illustrative examples and explain the relation of our approach to several other approaches proposed in the literature.
# 因果ループファインマン図および非巡回有向グラフに対する変分量子固有解法

Variational quantum eigensolver for causal loop Feynman diagrams and acyclic directed graphs ( http://arxiv.org/abs/2210.13240v1 )

Giuseppe Clemente, Arianna Crippa, Karl Jansen, Selomit Ram\'irez-Uribe, Andr\'es E. Renter\'ia-Olivo, Germ\'an Rodrigo, German F. R. Sborlini, Luiz Vale Silva(参考訳) 本稿では,ループツリー双対性 (ltd) におけるマルチループファインマン図形の因果表現の効率的なブートストラップを行うための変分量子固有ソルバ (vqe) アルゴリズムを提案する。 多重ループ位相を記述する隣接行列に基づくループハミルトニアンは、異なるエネルギー準位がサイクル数に対応するが、vqeによって因果または非巡回配置を特定するために最小化される。 このアルゴリズムは複数のデジェクトミニマを選択するように適応しており、より高い検出率が得られる。 本稿では,Groverのアルゴリズムによる性能比較について述べる。 VQEのアプローチは一般に、より少ない成功率にもかかわらず、実装にはより少ないキュービットと短い回路を必要とする。

We present a variational quantum eigensolver (VQE) algorithm for the efficient bootstrapping of the causal representation of multiloop Feynman diagrams in the Loop-Tree Duality (LTD) or, equivalently, the selection of acyclic configurations in directed graphs. A loop Hamiltonian based on the adjacency matrix describing a multiloop topology, and whose different energy levels correspond to the number of cycles, is minimized by VQE to identify the causal or acyclic configurations. The algorithm has been adapted to select multiple degenerated minima and thus achieves higher detection rates. A performance comparison with a Grover's based algorithm is discussed in detail. The VQE approach requires, in general, fewer qubits and shorter circuits for its implementation, albeit with lesser success rates.
# ランダムフーリエ特徴を持つ変分量子機械学習の古典近似

Classically Approximating Variational Quantum Machine Learning with Random Fourier Features ( http://arxiv.org/abs/2210.13200v1 )

Jonas Landman, Slimane Thabet, Constantin Dalyac, Hela Mhiri, Elham Kashefi(参考訳) 近い将来の量子コンピューティングの多くの応用は変分量子回路(VQC)に依存している。 それらは、現在のノイズの多い中間スケール量子コンピュータ(nisq)による機械学習の量子アドバンテージに到達するための有望なモデルとして紹介されている。 VQCのパワーは指数関数的に大きな特徴空間に依存していると考えられており、その点でのVQCの表現性と訓練性について広範な研究が進められている。 本研究で提案する古典的サンプリング手法は,そのアーキテクチャの記述のみを考慮し,ハミルトン符号化を用いたVQCを近似するものである。 これはRandom Fourier Features (RFF) のセミナルな提案と、VQCが大きなフーリエ級数と見なせるという事実を使っている。 我々は、数個の周波数をサンプリングして等価な低次元カーネルを構築することで、指数関数的に大きな量子特徴空間から構築された古典的近似モデルに対して、一般的な理論的境界を与える。 正確には、必要なサンプルの数は、量子スペクトルのサイズに応じて増大することを示す。 したがって、このツールは多くの場合、vqcsから量子優位への希望を疑うが、逆にその成功の可能性の条件を狭めるのに役立つ。 我々は、様々な複雑なエンコーディングハミルトニアンを持つvqcs、あるいは大きな入力次元を持つvqcsが、古典近似よりも強固になることを期待する。

Many applications of quantum computing in the near term rely on variational quantum circuits (VQCs). They have been showcased as a promising model for reaching a quantum advantage in machine learning with current noisy intermediate scale quantum computers (NISQ). It is often believed that the power of VQCs relies on their exponentially large feature space, and extensive works have explored the expressiveness and trainability of VQCs in that regard. In our work, we propose a classical sampling method that may closely approximate a VQC with Hamiltonian encoding, given only the description of its architecture. It uses the seminal proposal of Random Fourier Features (RFF) and the fact that VQCs can be seen as large Fourier series. We provide general theoretical bounds for classically approximating models built from exponentially large quantum feature space by sampling a few frequencies to build an equivalent low dimensional kernel, and we show experimentally that this approximation is efficient for several encoding strategies. Precisely, we show that the number of required samples grows favorably with the size of the quantum spectrum. This tool therefore questions the hope for quantum advantage from VQCs in many cases, but conversely helps to narrow the conditions for their potential success. We expect VQCs with various and complex encoding Hamiltonians, or with large input dimension, to become more robust to classical approximations.
# ボームによる暗黒ソリトン生成過程のモニタリング

Bohmian monitoring of dark soliton formation processes ( http://arxiv.org/abs/2210.13175v1 )

J. Tounli, A. S. Sanz(参考訳) 過去数十年間、ボース=アインシュタイン干渉法の実験的な研究は、有望な技術的意味から多くの注目を集めてきた。 これにより、時間依存のグロス・ピタエフスキー方程式とその縮小された1次元バージョンを解こうとする数値シミュレーションが発展し、干渉型特徴の発展とそれに続くソリトン力学をよりよく理解した。 この研究において、ボヘミア力学は、2つの凝縮体の融合に続くソリトンアレイの生成と進化をリアルタイムに探索し解析するための追加のツールと考えられている。 したがって、その進化に沿った凝縮によって生じる局所的な位相変化に直接リンクする、基礎となる力学速度場の観点から別の説明が提供される。 ここでは縮小した一次元モデルを考えるが、それでも現象の本質を捉え、記述の一般性を損なうことなく完全な進化の絵を描く。 自由と境界のダイナミクスの微妙な点をよく理解するために、2つのケースが議論されている。 まず, 2つの自由解放凝縮体のコヒーレント重ね合わせにより表されるソリトンダイナミクスについて検討し, その基礎となる速度場と対応するフラックス軌道の特異性について, 2つの初期雲間のピーク-ピーク距離とそれらの位相差の付加について考察した。 後者の場合、よく知られたアハラノフ-ボーム効果と興味深い対応が見られる。 そして、高調波トラップの2つの反対旋回点から放出される2つの凝縮体のより一般的な場合によって示される再発ダイナミクスを、そのような旋回点間の距離の観点から考慮する。 いずれの場合も、最初の重ね合わせ状態は1つの凝縮物[...]を断裂することによって生じると推定される。

In the last decades, the experimental research on Bose-Einstein interferometry has received much attention due to promising technological implications. This has thus motivated the development of numerical simulations aimed at solving the time-dependent Gross-Pitaevskii equation and its reduced one-dimensional version to better understand the development of interference-type features and the subsequent soliton dynamics. In this work, Bohmian mechanics is considered as an additional tool to further explore and analyze the formation and evolution in real time of the soliton arrays that follow the merging of two condensates. An alternative explanation is thus provided in terms of an underlying dynamical velocity field, directly linked to the local phase variations undergone by the condensate along its evolution. Although the reduced one-dimensional model is considered here, it still captures the essence of the phenomenon, rendering a neat picture of the full evolution without diminishing the generality of the description. To better appreciate the subtleties of free versus bound dynamics, two cases are discussed. First, the soliton dynamics exhibited by a coherent superposition of two freely released condensates is studied, discussing the peculiarities of the underlying velocity field and the corresponding flux trajectories in terms of both the peak-to-peak distance between the two initial clouds and the addition of a phase difference between them. In the latter case, an interesting correspondence with the well-known Aharonov-Bohm effect is found. Then, the recurrence dynamics displayed by the more general case of two condensates released from the two opposite turning points of a harmonic trap is considered in terms of the distance between such turning points. In both cases, it is presumed that the initial superposition state is generated by splitting adiabatically a single condensate [...].
# 連続測定とフィードバック制御によるマクロ物体間の量子絡み合いの生成

Generating quantum entanglement between macroscopic objects with continuous measurement and feedback control ( http://arxiv.org/abs/2210.13169v1 )

Daisuke Miki, Nobuyuki Matsumoto, Akira Matsumura, Tomoya Shichijo, Yuuki Sugiyama, Kazuhiro Yamamoto, Naoki Yamamoto(参考訳) 本研究の目的は, 連続測定とフィードバック制御の下で, 光学系におけるマクロメカニカルミラー間の量子絡み合いの発生の可能性を検討することである。 我々は, 光学鏡の共分散行列を定常的に導出し, カルマンフィルタ問題と推定される優占共振器光子散逸問題を用いて, 光学鏡の共通モードと微分モードを, 出力光線を測定する動作により圧縮するようにした。 共用モードと微分モードの状態が非対称な方法で高い純度で圧縮されると、メカニカルミラー間の絡み合いが生じることを実証する。 また, 短期的には, 7$ mgのミラー間の量子絡み合いが達成可能であることを示した。

This study is aimed at investigating the feasibility of generating quantum entanglement between macroscopic mechanical mirrors in optomechanical systems while under continuous measurement and feedback control. We carefully derive a covariance matrix for mechanical mirrors in a steady state, employing the Kalman filtering problem with an assumed dominant cavity photon dissipation, such that the common and differential modes of the mirrors are squeezed by the action of measuring the output light beams. We demonstrate that entanglement between the mechanical mirrors is generated when the states of the common and differential modes are squeezed with high purity in an asymmetric manner. Our results also show that quantum entanglement between $7$ mg mirrors is achievable in the short term.
# フロッケ符号プラケット安定化器の測定

Measurements of Floquet code plaquette stabilizers ( http://arxiv.org/abs/2210.13154v1 )

James R. Wootton(参考訳) 最近導入されたFloquetコードはすでに、理論とシミュレーションの点から、いくつかのフォローアップ作業にインスピレーションを与えている。 本稿では,ibm量子ハードウェアを用いた実験実装の最初の予備結果について報告する。 具体的には、ハニカム格子モデルに基づく元のFloquet符号の安定化器測定と、最近導入されたFloquet Color符号を実装した。 これらの安定化器は様々なシステムで測定され、デバイスのノイズのプロキシとして使用されるシンドロームの変化の割合が変化する。

The recently introduced Floquet codes have already inspired several follow up works in terms of theory and simulation. Here we report the first preliminary results on their experimental implementation, using IBM Quantum hardware. Specifically, we implement the stabilizer measurements of the original Floquet code based on the honeycomb lattice model, as well as the more recently introduced Floquet Color code. The stabilizers of these are measured on a variety of systems, with the rate of syndrome changes used as a proxy for the noise of the device.
# 関連スキームの拡張に関する量子ウォーク

Quantum walk on extension of association schemes ( http://arxiv.org/abs/2210.13106v1 )

Hiroshi Miki, Satoshi Tsujimoto, Da Zhao(参考訳) 本稿では,関連スキームの拡張に関する量子ウォークについて検討する。 これらのグラフ上では、単純で分数的なリバイバルの極端点間の多重状態転送など、様々な状態転送が達成できる。 また,完全状態伝達と最大絡み合いの発生との関係についても検討した。 ゼロ転送の特性も与えられており、量子ウォークの分野では十分に研究されていない。

In this paper, we study quantum walks on the extension of association schemes. Various state transfers can be achieved on these graphs, such as multiple state transfer among extreme points of a simplex, fractional revival on subsimplexes. We also investigate the relation between perfect state transfer and the generation of maximal entanglement. Characterization of zero transfer is given as well, which has not been well-studied in the area of quantum walks.
# Floquetランダム回路を保存した$U(1)$のスロー熱化とサブ拡散

Slow thermalization and subdiffusion in $U(1)$ conserving Floquet random circuits ( http://arxiv.org/abs/2210.13429v1 )

Cheryne Jonay, Joaquin F. Rodriguez-Nieva, and Vedika Khemani(参考訳) ランダム量子回路は、最小構造で解析的に抽出可能なカオス力学のパラダイムモデルである。 我々は、Haar random $U(1)$ charge conserving dynamicsを持つFloquetユニタリ回路の族について研究し、最小限のそのようなモデルは、スピン1/2量子ビットに作用する最寄りのゲートと、偶数ゲートの単一層を周期的に繰り返し持つ。 この極小モデルは、数値的にアクセス可能なシステムサイズではロバストに熱するものではなく、長時間の拡散の遅いダイナミクスを示す。 電荷保存回路の広いパラメータ空間における熱化ダイナミクスをマッピングし、パラメータ空間における近距離局所化および可積分レジームの観点からスローダイナミクスの起源を理解する。 対照的に、最小限のモデルへの小さな拡張は堅牢な熱化を達成するのに十分である。 (i)3箇所ゲートへの相互作用範囲の拡大 (二)各地における保存電荷に追加の制約のない量子ビットを付加することにより局所ヒルベルト空間次元を増大させる、又は (iii)2つの独立した門からなる大きなフロッケ期間を用いる。 本研究は, 幅広い話題的理論問題に関連する電荷保存回路について, 今後の数値的研究について述べる。

Random quantum circuits are paradigmatic models of minimally structured and analytically tractable chaotic dynamics. We study a family of Floquet unitary circuits with Haar random $U(1)$ charge conserving dynamics; the minimal such model has nearest-neighbor gates acting on spin 1/2 qubits, and a single layer of even/odd gates repeated periodically in time. We find that this minimal model is not robustly thermalizing at numerically accessible system sizes, and displays slow subdiffusive dynamics for long times. We map out the thermalization dynamics in a broader parameter space of charge conserving circuits, and understand the origin of the slow dynamics in terms of proximate localized and integrable regimes in parameter space. In contrast, we find that small extensions to the minimal model are sufficient to achieve robust thermalization; these include (i) increasing the interaction range to three-site gates (ii) increasing the local Hilbert space dimension by appending an additional unconstrained qubit to the conserved charge on each site, or (iii) using a larger Floquet period comprised of two independent layers of gates. Our results should inform future numerical studies of charge conserving circuits which are relevant for a wide range of topical theoretical questions.
# キャット量子ビットによる自律量子誤り訂正とフォールトトレラント量子計算

Autonomous quantum error correction and fault-tolerant quantum computation with squeezed cat qubits ( http://arxiv.org/abs/2210.13406v1 )

Qian Xu, Guo Zheng, Yu-Xin Wang, Peter Zoller, Aashish A. Clerk, Liang Jiang(参考訳) 本研究では,連続変数系における支配的誤り源である励起損失に対して,SC符号を用いた自己量子誤り訂正手法を提案する。 貯水池工学により,2成分SCを自律的に補正しながら,構造的な散逸が安定化可能であることを示す。 このような散逸は、3つのボソニックモード、またはボソニックモードとクォートリットの間の低次非線形結合を必要とする。 提案手法はデバイスに依存しないが,超伝導回路やトラップイオンシステムなど,現在の実験プラットフォームで容易に実装可能である。 安定猫と比較して、安定化SCはより低い支配的誤差率を有し、ノイズバイアスが著しく増大した。 さらに、SCのバイアス保存操作はエラー率をはるかに低くする。 安定化されたSCは、外部の離散変数コードと結合する際の論理性能を大幅に向上させる。 surface-sc方式は、損失率$\kappa_1$と工学的散逸率$\kappa_2$との閾値比を1桁以上増加させる。 実用的な雑音比$\kappa_1/\kappa_2 = 10^{-3}$の下では、繰り返しSCスキームは、実用的に有用な量子アルゴリズムのために既に十分である4の平均励起数であっても10^{-15}$論理誤差率に達することができる。

We propose an autonomous quantum error correction scheme using squeezed cat (SC) code against the dominant error source, excitation loss, in continuous-variable systems. Through reservoir engineering, we show that a structured dissipation can stabilize a two-component SC while autonomously correcting the errors. The implementation of such dissipation only requires low-order nonlinear couplings among three bosonic modes or between a bosonic mode and a qutrit. While our proposed scheme is device independent, it is readily implementable with current experimental platforms such as superconducting circuits and trapped-ion systems. Compared to the stabilized cat, the stabilized SC has a much lower dominant error rate and a significantly enhanced noise bias. Furthermore, the bias-preserving operations for the SC have much lower error rates. In combination, the stabilized SC leads to substantially better logical performance when concatenating with an outer discrete-variable code. The surface-SC scheme achieves more than one order of magnitude increase in the threshold ratio between the loss rate $\kappa_1$ and the engineered dissipation rate $\kappa_2$. Under a practical noise ratio $\kappa_1/\kappa_2 = 10^{-3}$, the repetition-SC scheme can reach a $10^{-15}$ logical error rate even with a small mean excitation number of 4, which already suffices for practically useful quantum algorithms.
# 連続時間量子ウォークによる有向ネットワークのランキングノード

Ranking nodes in directed networks via continuous-time quantum walks ( http://arxiv.org/abs/2210.13379v1 )

Paola Boito and Roberto Grena(参考訳) ノード数である$n$次元のユニタリ連続時間量子ウォーク(CTQW)に基づく有向ネットワークに対する4つの新たな集中度尺度が提示され、テストされ、議論される。 これらの手法の背景にある主な考え方は、古典的HITSアルゴリズムとPageRankアルゴリズムを対称行列の固有ベクトル問題として再キャストすることと、これらの対称行列をCTQWのハミルトニアンとして使用することにより、ユニタリ進化作用素を得ることである。 初期状態の選択も重要である。 2つの選択肢がテストされた: 均一な職業を持つベクトルと、(それぞれ権威とハブ中心性のために)w.r.t.~または外度で重み付けされたベクトルである。 2つの方法はHITS由来のハミルトニアンに基づいており、2つはPageRank由来のハミルトニアンを用いる。 ノードの中央値は平均占有値として定義される。 全ての手法は、明らかな欠点を見つけるために、小さな単純なグラフの集合上でテストされ、そして、古典的なHITSやPageRankと比較するために、より多くの人工的に生成された大きなグラフ上でテストされた。 数値的な結果から,小グラフ解析における3つの手法の病因に拘わらず,全ての手法が大きなグラフの先頭ノードと上位10ノードを見つけるのに有効であることが示唆された。 結果についてコメントし、古典的アプローチと量子的アプローチの整合性について考察する。

Four new centrality measures for directed networks based on unitary, continuous-time quantum walks (CTQW) in $n$ dimensions -- where $n$ is the number of nodes -- are presented, tested and discussed. The main idea behind these methods consists in re-casting the classical HITS and PageRank algorithms as eigenvector problems for symmetric matrices, and using these symmetric matrices as Hamiltonians for CTQWs, in order to obtain a unitary evolution operator. The choice of the initial state is also crucial. Two options were tested: a vector with uniform occupation and a vector weighted w.r.t.~in- or out-degrees (for authority and hub centrality, respectively). Two methods are based on a HITS-derived Hamiltonian, and two use a PageRank-derived Hamiltonian. Centrality scores for the nodes are defined as the average occupation values. All the methods have been tested on a set of small, simple graphs in order to spot possible evident drawbacks, and then on a larger number of artificially generated larger-sized graphs, in order to draw a comparison with classical HITS and PageRank. Numerical results show that, despite some pathologies found in three of the methods when analyzing small graphs, all the methods are effective in finding the first and top ten nodes in larger graphs. We comment on the results and offer some insight into the good accordance between classical and quantum approaches.
# 分子偏光子の多次元コヒーレント分光:ランゲヴィンアプローチ

Multidimensional Coherent Spectroscopy of Molecular Polaritons: Langevin Approach ( http://arxiv.org/abs/2210.13366v1 )

Zhedong Zhang, Xiaoyu Nie, Dangyuan Lei and Shaul Mukame(参考訳) 光学キャビティにおけるN分子の非線形光学分光に関する顕微鏡理論を提案する。 任意の振動励起数を考慮した時間および周波数分解信号に対して量子ランゲヴィン解析式が導出される。 信号の多次元射影、例えば経路や時間スケールからポーラリトン-ポーラロン相互作用の明確なシグネチャを同定する。 分子内振動に対する空洞偏光子の協調力学と、局在効果をもたらす可能性のある長距離コヒーレンスと振動結合のクロストークを明らかにする。 この結果は, 極性コヒーレンスと人口移動が遅いことをさらに特徴付ける。

We present a microscopic theory for nonlinear optical spectroscopy of N molecules in an optical cavity. A quantum Langevin analytical expression is derived for the time- and frequency-resolved signals accounting for arbitrary numbers of vibrational excitations. We identify clear signatures of the polariton-polaron interaction from multidimensional projections of the signal, e.g., pathways and timescales. Cooperative dynamics of cavity polaritons against intramolecular vibrations is revealed, along with a cross talk between long-range coherence and vibronic coupling that may lead to localization effects. Our results further characterize the polaritonic coherence and the population transfer that is slower.
# 散逸安定化したスクイーズドキャット量子ビットによる量子誤差補正

Quantum error correction with dissipatively stabilized squeezed cat qubits ( http://arxiv.org/abs/2210.13359v1 )

Timo Hillmann, Fernando Quijandr\'ia(参考訳) ノイズバイアス量子ビットは、量子誤り訂正に伴うハードウェアオーバーヘッドを著しく削減するための有望な経路である。 スクイーズドキャット符号は、圧縮コヒーレント状態に基づく位相空間における非局所符号化であり、指数的誤差バイアスを持つノイズバイアス(ボソニック)量子ビットの例である。 本稿では,分散安定化したスクイーズドキャットキュービットの誤差補正性能を提案・解析する。 その結果, ビットフリップ誤り率の適度なスキューズでは, 位相フリップ率を一定に保ちながら, 通常の猫キュービットに比べて有意に低下することがわかった。 さらに、スクイージングはより高速で高忠実なゲートを可能にする。

Noise-biased qubits are a promising route toward significantly reducing the hardware overhead associated with quantum error correction. The squeezed cat code, a non-local encoding in phase space based on squeezed coherent states, is an example of a noise-biased (bosonic) qubit with exponential error bias. Here we propose and analyze the error correction performance of a dissipatively stabilized squeezed cat qubit. We find that for moderate squeezing the bit-flip error rate gets significantly reduced in comparison with the ordinary cat qubit while leaving the phase flip rate unchanged. Additionally, we find that the squeezing enables faster and higher-fidelity gates.
# 非複製系に対するボルンルール拡張とUnruh-DeWitt検出器への応用

Born rule extension for non-replicable systems and its consequences for Unruh-DeWitt detectors ( http://arxiv.org/abs/2210.13347v1 )

Nicola Pranzini, Guillermo Garc\'ia-P\'erez, Esko Keski-Vakkuri, Sabrina Maniscalco(参考訳) ボルン規則は、量子系の観測可能量を測定する際に結果を得る確率を記述する。 検討中のシステムの多くのコピーを測定することでのみテストできるため、非複製システムに対して厳密に保持することはできない。 これらのシステムに対して, 繰り返し測定(rm)により測定結果の将来の統計を予測する手法を提案する。 RMを用いて得られた結果の統計値がボルン則と十分に類似している場合、後者を効果的に利用できることを示す。 本研究では,RM が必要とされる制御不能な環境(フィールド)と相互作用するシステム(検出器)の例として,無質量スカラー量子場と相互作用するUnruh-DeWitt 検出器に適用する。 観察者がRMの結果から何を学ぶかを分析すると、歴史に依存したRM確率がボルンの確率に近い状態が見つかる。 したがって、後者はすべての実用目的に使用できる。 最後に,Unruh効果をRMで観測できることを示す数値慣性・加速検出器について検討した。

The Born rule describes the probability of obtaining an outcome when measuring an observable of a quantum system. As it can only be tested by measuring many copies of the system under consideration, it cannot hold strictly for non-replicable systems. For these systems, we give a procedure to predict the future statistics of measurement outcomes through Repeated Measurements (RM). We prove that if the statistics of the results acquired via RM is sufficiently similar to that obtained by the Born rule, the latter can be used effectively. We apply our framework to a repeatedly measured Unruh-DeWitt detector interacting with a massless scalar quantum field, which is an example of a system (detector) interacting with an uncontrollable environment (field) for which using RM is necessary. Analysing what an observer learns from the RM outcomes, we find a regime where history-dependent RM probabilities are close to the Born ones. Consequently, the latter can be used for all practical purposes. Finally, we study numerically inertial and accelerated detectors showing that an observer can see the Unruh effect via RM.
# 極性分子の場結合共鳴

Field-linked resonances of polar molecules ( http://arxiv.org/abs/2210.13324v1 )

Xing-Yan Chen, Andreas Schindewolf, Sebastian Eppelt, Roman Bause, Marcel Duda, Shrestha Biswas, Tijs Karman, Timon Hilker, Immanuel Bloch, Xin-Yu Luo(参考訳) 散乱共鳴は超低温原子と分子の相互作用を制御するのに必須のツールである。 しかし、様々なプラットフォームで広く研究されている従来のフェシュバッハ散乱共鳴は、2つの分子が近距離に接近する際に生じる高速な損失のため、ほとんどの極性分子に存在しない。 ここでは、幅広い極性分子に対して普遍的な新しい種類の散乱共鳴を実証する。 いわゆる電界結合共鳴は、分子間ポテンシャルの安定な巨視的四量体状態に起因するマイクロ波装填分子の散乱で起こる。 超低温のナトリウム-ポタシウム分子間の2つの共鳴を同定し、マイクロ波周波数と偏光を使って非弾性衝突速度をユニタリ限界から普遍レジームのかなり下まで3等級に調整する。 場結合共鳴は、弾性接触相互作用と双極子-双極子相互作用を独立に制御するチューニングノブを提供する。 この結果から, 極性分子間の共鳴散乱の一般戦略が得られ, 双極性超流動と分子超固体を実現する方法と, 超低温多原子分子を組み立てる方法が示された。

Scattering resonances are an essential tool for controlling interactions of ultracold atoms and molecules. However, conventional Feshbach scattering resonances, which have been extensively studied in various platforms, are not expected to exist in most ultracold polar molecules due to the fast loss that occurs when two molecules approach at a close distance. Here, we demonstrate a new type of scattering resonances that is universal for a wide range of polar molecules. The so-called field-linked resonances occur in the scattering of microwave-dressed molecules due to stable macroscopic tetramer states in the intermolecular potential. We identify two resonances between ultracold ground-state sodium-potassium molecules and use the microwave frequencies and polarizations to tune the inelastic collision rate by three orders of magnitude, from the unitary limit to well below the universal regime. The field-linked resonance provides a tuning knob to independently control the elastic contact interaction and the dipole-dipole interaction, which we observe as a modification in the thermalization rate. Our result provides a general strategy for resonant scattering between ultracold polar molecules, which paves the way for realizing dipolar superfluids and molecular supersolids as well as assembling ultracold polyatomic molecules.
# 局所積ゲートの距離最大値としての双対ユニタリ

Dual unitaries as maximizers of the distance to local product gates ( http://arxiv.org/abs/2210.13307v1 )

Shrigyan Brahmachari, Rohan Narayan Rajmohan, Suhail Ahmad Rather, Arul Lakshminarayan(参考訳) リソースフリーで、任意の二部ユニタリゲートに最も近いローカルユニタリを見つける問題は解決される。 以前は非局所性の尺度として議論され、$K_D(U)$と表され、回路複雑性と関連する量に意味がある。 双対ユニタリは現在、複雑な量子多体系のモデルに非常に興味を持ち、局所ユニタリの集合から最大かつ等しく離れているため、望ましい役割を持っていることが示されている。 これは qubit の場合で証明され、一般にそれが真であることを示す強い数値的および解析的な証拠を示す。 一般的な2ビットゲートに対して、K_D(U)$の解析的評価を示す。 任意の局所次元に対して、$k_d(u)$ は双対ユニタリに対して最大であり、双対ユニタリおよびある非双対ゲートの重要な族に対する解析的評価によって証明される。 密接な提携の結果、任意の二元系ユニタリに対して、それが接続する最大に絡み合った状態の対の存在が懸念される。 このような状態を見つけ、一般に$k_d(u)$を見つけるための効率的な数値アルゴリズムを与える。

The problem of finding the resource free, closest local unitary, to any bipartite unitary gate is addressed. Previously discussed as a measure of nonlocality, and denoted $K_D(U)$ , it has implications for circuit complexity and related quantities. Dual unitaries, currently of great interest in models of complex quantum many-body systems, are shown to have a preferred role as these are maximally and equally away from the set of local unitaries. This is proved here for the case of qubits and we present strong numerical and analytical evidence that it is true in general. An analytical evaluation of $K_D(U)$ is presented for general two-qubit gates. For arbitrary local dimensions, that $K_D(U)$ is largest for dual unitaries, is substantiated by its analytical evaluations for an important family of dual-unitary and for certain non-dual gates. A closely allied result concerns, for any bipartite unitary, the existence of a pair of maximally entangled states that it connects. We give efficient numerical algorithms to find such states and to find $K_D(U)$ in general.
# GHz周波数ナノメカニクスによるシリコンの電気光学変換

Electro-optic transduction in silicon via GHz-frequency nanomechanics ( http://arxiv.org/abs/2210.13549v1 )

Han Zhao, Alkim Bozkurt, and Mohammad Mirhosseini(参考訳) 光ファイバーネットワークを用いたインターフェースエレクトロニクスは、古典的および量子的情報の長距離転送の鍵となる。 ピエゾ-オプトメカニカルトランスデューサは、マイクロ波光子を光機械的相互作用と圧電相互作用の組み合わせで光子に変換する媒介器としてghz周波数の音響振動を使用することで、そのようなインターフェースを可能にしている。 しかし、実証が成功したにもかかわらず、ハイブリッド材料の統合と量子状態における圧電材料損失の増加に伴う課題により、効率的な圧電-オプトメカニカルトランスダクションは到達できない。 本稿では,従来のシリコンオン絶縁体プラットフォームで5GHzフォノンを動作させる方法を示す。 実験では、マイクロ波光子が荷電バイアス狭ギャップキャパシタで実現される静電力を介してフォノニック水晶発振器を共振駆動する。 その後、機械的振動はフォノン導波路を介して光機械的キャビティに伝達され、ポンプレーザーのサイドバンドで光子に変換される。 室温および大気圧で動作する場合,3.3MHz帯で1.8〜10^{-7}$のマイクロ波-光子変換効率を測定し,半波長電圧のV_\pi =750$mVで効率的な位相変調を示す。 この結果は,高帯域幅の効率的な動作と超伝導量子ビットの統合を約束する結晶シリコンを用いた集積デバイスによる量子トランスダクションに向けたステップストーンとなる。 さらに、圧電性や他の固有の非線形性の必要性の欠如により、我々のアプローチは量子技術以外の潜在的な応用のために幅広い材料に適応できる。

Interfacing electronics with optical fiber networks is key to the long-distance transfer of classical and quantum information. Piezo-optomechanical transducers enable such interfaces by using GHz-frequency acoustic vibrations as mediators for converting microwave photons to optical photons via the combination of optomechanical and piezoelectric interactions. However, despite successful demonstrations, efficient piezo-optomechanical transduction remains out of reach due to the challenges associated with hybrid material integration and increased loss from piezoelectric materials when operating in the quantum regime. Here, we demonstrate an alternative approach in which we actuate 5-GHz phonons in a conventional silicon-on-insulator platform. In our experiment, microwave photons resonantly drive a phononic crystal oscillator via the electrostatic force realized in a charge-biased narrow-gap capacitor. The mechanical vibrations are subsequently transferred via a phonon waveguide to an optomechanical cavity, where they transform into optical photons in the sideband of a pump laser field. Operating at room temperature and atmospheric pressure, we measure a microwave-to-optical photon conversion efficiency of $1.8 \times 10^{-7}$ in a 3.3 MHz bandwidth, and demonstrate efficient phase modulation with a half-wave voltage of $V_\pi = 750 $ mV. Our results mark a stepping stone towards quantum transduction with integrated devices made from crystalline silicon, which promise efficient high-bandwidth operation, and integration with superconducting qubits. Additionally, the lack of need for piezoelectricity or other intrinsic nonlinearities makes our approach adaptable to a wide range of materials for potential applications beyond quantum technologies.
# 逆行の公理:事前の時間反転対称性の実現

Axioms for retrodiction: achieving time-reversal symmetry with a prior ( http://arxiv.org/abs/2210.13531v1 )

Arthur J. Parzygnat and Francesco Buscemi(参考訳) 回帰の圏論的定義を提案し,すべての量子チャネルに対して時間反転対称性を示す。 これは、レトロディクションが満足すべき多くの直観的性質を捉え、古典理論と量子理論の両方を包含するのに十分な一般性を持つ。 古典的なベイズ反転と、全ての回転および平均化されたpetzリカバリマップは、我々の意味でのレトロディクションファミリーを定義する。 しかし、ジュンゲ-サッター-レナー-ワイルデ-ウィンターの普遍回復写像を含む平均回転petz回復写像は、いくつかの組成性特性を満たさないため、再帰関手を定義しない。 レトロディクションファミリーのすべての例の中で、元のpetzリカバリマップは、レトロディクション関手を定義する唯一のものである。 さらに、回帰関手は、量子理論の標準定式化と一致する推論時間-逆対称性を示す。 このような回帰関手の存在は、量子チャネルの時間反転対称性に関する多くのノーゴー結果とは対照的である。 主な理由の1つは、そのような研究が量子チャネルの圏のみで時間反転対称性を定義するのに対して、量子状態 \textit{and} 量子チャネルの圏で定義するからである。 この事実はさらに、時間反転対称性における事前の重要性を示している。

We propose a category-theoretic definition of retrodiction and use it to exhibit a time-reversal symmetry for all quantum channels. We do this by introducing retrodiction families and functors, which capture many intuitive properties that retrodiction should satisfy and are general enough to encompass both classical and quantum theories alike. Classical Bayesian inversion and all rotated and averaged Petz recovery maps define retrodiction families in our sense. However, averaged rotated Petz recovery maps, including the universal recovery map of Junge--Sutter--Renner--Wilde--Winter, do not define retrodiction functors, since they fail to satisfy some compositionality properties. Among all the examples we found of retrodiction families, the original Petz recovery map is the only one that defines a retrodiction functor. In addition, retrodiction functors exhibit an inferential time-reversal symmetry consistent with the standard formulation of quantum theory. The existence of such a retrodiction functor seems to be in stark contrast to the many no-go results on time-reversal symmetry for quantum channels. One of the main reasons is because such works defined time-reversal symmetry on the category of quantum channels alone, whereas we define it on the category of quantum states \textit{and} quantum channels. This fact further illustrates the importance of a prior in time-reversal symmetry.
# 量子幾何学からの領域則絡み合い

Area-law entanglement from quantum geometry ( http://arxiv.org/abs/2210.13502v1 )

Nisarga Paul(参考訳) ベリー曲率と量子計量の両方を包含する量子幾何学は、マルチバンド相互作用電子系において重要な役割を果たす。 我々は、非自明な量子幾何学を持つフェルミオン系、すなわち、ブロッホ状態が非自明な$k$依存性を持つフェルミオン系において、線形サイズの領域の絡み合いエントロピーを研究する。 エントロピーのエントロピーは$S = \alpha \ell^{d-1} \ln\ell + \beta \ell^{d-1} + \cdots$ であり、最初の項はフェルミオンの有名な領域法違反項であり、$\beta$ は量子幾何学からの主要な寄与を含んでいる。 これを一様量子幾何学と立方体領域の場合には計算し、su-シュリフェファー-ヘーガー模型、2次元大ディラック錐、2次元チャーンバンドの数値計算結果を与える。 量子幾何学的絡み合いエントロピーの実験的プローブを粒子数ゆらぎを用いて提案する。 最大局所化ワニエ関数の拡散に関連する領域法的絡み合いの直感的な説明を提供する。

Quantum geometry, which encompasses both Berry curvature and the quantum metric, plays a key role in multi-band interacting electron systems. We study the entanglement entropy of a region of linear size $\ell$ in fermion systems with nontrivial quantum geometry, i.e. whose Bloch states have nontrivial $k$ dependence. We show that the entanglement entropy scales as $S = \alpha \ell^{d-1} \ln\ell + \beta \ell^{d-1} + \cdots$ where the first term is the well-known area-law violating term for fermions and $\beta$ contains the leading contribution from quantum geometry. We compute this for the case of uniform quantum geometry and cubic domains and provide numerical results for the Su-Schrieffer-Heeger model, 2D massive Dirac cone, and 2D Chern bands. An experimental probe of the quantum geometric entanglement entropy is proposed using particle number fluctuations. We offer an intuitive account of the area-law entanglement related to the spread of maximally localized Wannier functions.
# 非局所量子計算の資源としてのホログラフィー

Holography as a resource for non-local quantum computation ( http://arxiv.org/abs/2210.13500v1 )

Kfir Dolev and Sam Cree(参考訳) 2つのパーティが十分な絡み合いを共有している場合、ローカルな演算と1つの同時量子通信からなるプロトコルである非ローカルな量子計算を通じて、共有の2部状態の任意のチャネルを実装することができる。 このようなプロトコルはads/cft対応で起こり、cftの領域で表される2つのパーティと、必要な絡み合いを提供するリソースとして機能するホログラフィック状態とがある。 この境界非局所計算はバルクads理論におけるチャネルの局所的実装と双対である。 この現象の先行研究は、隣接するCFT領域間の分岐絡みによって妨げられ、ある領域が無関係であると仮定して、この問題を回避しようとした。 しかし、これらの領域がないことは、cftがプロトコルを実装するのを妨げる暴力的な現象をもたらす。 代わりに、CFTの有限メモリ量子シミュレーションを用いて、分岐絡みの問題を解決する。 円格子上の任意の有限メモリ量子系は、非局所量子計算のためのプロトコルを与える。 ホログラフィックCFTの量子シミュレーションの場合、このプロトコルは局所バルク力学によって実行されるチャネルを実装していることを慎重に示す。 この結果から,非局所量子計算は多項式の絡み合い量を持つ任意の多項式複素ユニタリに対して実行可能であることが示唆された。 最後に、バルクダイナミクスがクリフォードゲートに対応しているホログラフィックコードの具体例を示し、この結果を用いて、このゲートに対する非局所量子計算プロトコルに対応することを示す。

If two parties share sufficient entanglement, they are able to implement any channel on a shared bipartite state via non-local quantum computation -- a protocol consisting of local operations and a single simultaneous round of quantum communication. Such a protocol can occur in the AdS/CFT correspondence, with the two parties represented by regions of the CFT, and the holographic state serving as a resource to provide the necessary entanglement. This boundary non-local computation is dual to the local implementation of a channel in the bulk AdS theory. Previous work on this phenomenon was obstructed by the divergent entanglement between adjacent CFT regions, and tried to circumvent this issue by assuming that certain regions are irrelevant. However, the absence of these regions introduces violent phenomena that prevent the CFT from implementing the protocol. Instead, we resolve the issue of divergent entanglement by using a finite-memory quantum simulation of the CFT. We show that any finite-memory quantum system on a circular lattice yields a protocol for non-local quantum computation. In the case of a quantum simulation of a holographic CFT, we carefully show that this protocol implements the channel performed by the local bulk dynamics. Under plausible physical assumptions about quantum computation in the bulk, our results imply that non-local quantum computation can be performed for any polynomially complex unitary with a polynomial amount of entanglement. Finally, we provide a concrete example of a holographic code whose bulk dynamics correspond to a Clifford gate, and use our results to show that this corresponds to a non-local quantum computation protocol for this gate.
# ランダムユニタリ、ロバスト性、および絡み合いの複雑さ

Random unitaries, Robustness, and Complexity of Entanglement ( http://arxiv.org/abs/2210.13495v1 )

J. Odavi\'c, G. Torre, N. Miji\'c, D. Davidovi\'c, F. Franchini, S. M. Giampaolo(参考訳) 一般回路の存在下での絡み合いのダイナミクスは、絡み合いスペクトルの統計的性質の知識によって予測できることが広く受け入れられている。 我々は、同じ統計値を共有する状態に対して、異なる局所ゲートセットによって生成されるメトロポリスのような絡み合い冷却アルゴリズムを適用して、この仮定を検証した。 我々は、一意的なモデル、すなわち横磁場を持つ一次元イジングチェーンの基底状態を用いるが、パラ磁性、磁気秩序、位相的フラストレーションのような異なる巨視的位相に属する。 極めて驚くべきことに、エンタングルメントダイナミクスは異なるゲートの集合だけでなく位相にも強く依存しており、異なる位相は冷却プロセスに対して異なる反発性を持つ異なる種類のエンタングルメント(純粋に局所的、ghz的、w状態的)を持つことができることを示している。 我々の研究は、絡み合いスペクトルの知識だけではその力学を決定できないという事実を強調し、その不完全性を評価ツールとして示す。 さらに、局所性と非局所的制約との間の微妙な相互作用を示す。

It is widely accepted that the dynamic of entanglement in presence of a generic circuit can be predicted by the knowledge of the statistical properties of the entanglement spectrum. We tested this assumption by applying a Metropolis-like entanglement cooling algorithm generated by different sets of local gates, on states sharing the same statistic. We employ the ground states of a unique model, namely the one-dimensional Ising chain with a transverse field, but belonging to different macroscopic phases such as the paramagnetic, the magnetically ordered, and the topological frustrated ones. Quite surprisingly, we observe that the entanglement dynamics are strongly dependent not just on the different sets of gates but also on the phase, indicating that different phases can possess different types of entanglement (which we characterize as purely local, GHZ-like, and W-state-like) with different degree of resilience against the cooling process. Our work highlights the fact that the knowledge of the entanglement spectrum alone is not sufficient to determine its dynamics, thereby demonstrating its incompleteness as a characterization tool. Moreover, it shows a subtle interplay between locality and non-local constraints.
# 雑音量子回路の資源効率シミュレーションとネットワーク対応QRAM最適化への応用

Resource-efficient simulation of noisy quantum circuits and application to network-enabled QRAM optimization ( http://arxiv.org/abs/2210.13494v1 )

Lu\'is Bugalho, Emmanuel Zambrini Cruzeiro, Kevin C. Chen, Wenhan Dai, Dirk Englund and Yasser Omar(参考訳) Giovannetti, Lloyd, and Maccone [Phys. Rev. 100, 160501] は$O(\log(N))$量子スイッチと$O(\log(N))$アドレス量子ビットを介して$N$(量子)メモリセルの任意の重ね合わせを取得する量子ランダムアクセスメモリ (QRAM) アーキテクチャを提案した。 物理的なQRAM実装に向けて、Chenら。 [prx quantum 2, 030319] 最近、qramはo(\log(n))$のオーバーヘッドと組み込みのエラー検出を備えた光接続量子ネットワークにネイティブにマップすることを示した。 しかし、大規模ネットワーク上でのQRAMのモデリングは、古典的な計算要求が指数関数的に高まることによって妨げられている。 ここではこのボトルネックに対処する。 (i)大規模なノイズの絡み合いをシミュレートする資源効率の高い手法を導入することで、様々なノイズチャネルにおいて数百から数千キュービットの評価が可能となる。 (ii)chen等のネットワークベースのqramを、量子データセンター規模や短期量子インターネット規模での応用として分析すること。 3) 量子忠実度とアクセス率を改善するため,ネットワークベースのQRAMアーキテクチャを改良した。 ネットワークベースのQRAMは、フォトニック集積回路と原子または原子に似た量子メモリを活用する既存のまたは短期技術で構築できると結論付けている。

Giovannetti, Lloyd, and Maccone [Phys. Rev. Lett. 100, 160501] proposed a quantum random access memory (QRAM) architecture to retrieve arbitrary superpositions of $N$ (quantum) memory cells via $O(\log(N))$ quantum switches and $O(\log(N))$ address qubits. Towards physical QRAM implementations, Chen et al. [PRX Quantum 2, 030319] recently showed that QRAM maps natively onto optically connected quantum networks with $O(\log(N))$ overhead and built-in error detection. However, modeling QRAM on large networks has been stymied by exponentially rising classical compute requirements. Here, we address this bottleneck by: (i) introducing a resource-efficient method for simulating large-scale noisy entanglement, allowing us to evaluate hundreds and even thousands of qubits under various noise channels; and (ii) analyzing Chen et al.'s network-based QRAM as an application at the scale of quantum data centers or near-term quantum internet; and (iii) introducing a modified network-based QRAM architecture to improve quantum fidelity and access rate. We conclude that network-based QRAM could be built with existing or near-term technologies leveraging photonic integrated circuits and atomic or atom-like quantum memories.
# 非ブロックPT対称性切断の幾何学的起源

Geometric Origin of Non-Bloch PT Symmetry Breaking ( http://arxiv.org/abs/2210.13491v1 )

Yu-Min Hu, Hong-Yi Wang, Zhong Wang, Fei Song(参考訳) 非エルミートハミルトニアンのパリティ時(PT)対称性は、非ハーモニティがしきい値以下であるときに実(複素)エネルギースペクトルをもたらす。 近年、非エルミート皮膚効果が非ブローチpt対称性と呼ばれる新しいタイプのpt対称性を生み出し、境界条件に対する高感度などの特異な性質を特徴付けることが示されている。 広い範囲の非エルミート格子系と関係があるにもかかわらず、一般理論は1つの空間次元においてもこのジェネリックな現象を欠いている。 ここでは、非Bloch PT対称性の幾何学的メカニズムとその破壊を明らかにする。 一般化ブリルアンゾーン (GBZ) におけるカスプの形成により, 非ブロッホ PT 対称性の破れが生じることがわかった。 この幾何学的理解に基づいて, 破断閾値を効率的に決定する公式を提案する。 最後に、非ブロッホ・ファン・ホーヴ特異点と呼ばれる対称性の破れに関連する新しいタイプのスペクトル特異点を予測し、その物理機構はエルミート的特異点と根本的に異なる。

The parity-time (PT) symmetry of a non-Hermitian Hamiltonian leads to real (complex) energy spectrum when the non-Hermiticity is below (above) a threshold. Recently, it has been demonstrated that the non-Hermitian skin effect generates a new type of PT symmetry, dubbed the non-Bloch PT symmetry, featuring unique properties such as high sensitivity to the boundary condition. Despite its relevance to a wide range of non-Hermitian lattice systems, a general theory is still lacking for this generic phenomenon even in one spatial dimension. Here, we uncover the geometric mechanism of non-Bloch PT symmetry and its breaking. We find that non-Bloch PT symmetry breaking occurs by the formation of cusps in the generalized Brillouin zone (GBZ). Based on this geometric understanding, we propose an exact formula that efficiently determines the breaking threshold. Finally, we predict a new type of spectral singularities associated with the symmetry breaking, dubbed non-Bloch van Hove singularities, whose physical mechanism fundamentally differs from their Hermitian counterparts.
# 双対ユニタリティから一般量子作用素の拡散へ

From Dual Unitarity to Generic Quantum Operator Spreading ( http://arxiv.org/abs/2210.13490v1 )

Michael A. Rampp, Roderich Moessner, and Pieter W. Claeys(参考訳) デュアルユニタリ回路は、正確に解けるがカオス的な量子多体系のパラダイム的な例であるが、可解性は自然に非ジェネリックな振る舞いの程度に沿っている。 弱破壊双対性が局所作用素の拡散に及ぼす影響を調べることにより、双対性からの小さな偏差が完全総称多体力学を回復するかどうか、どのようにして研究する。 本稿では, 時間外相関器の離散経路積分式を提案し, 光円錐速度より小さいバタフライ速度を回復するために, $v_B < v_{LC}$ と, 2単位回路力学に欠落するエルゴード量子スピン鎖の2つの一般的な特徴である拡散的に拡大する演算子フロントについて述べる。 蝶の速度と拡散定数は微小な量の小さな集合によって決定され、ゲートのオペレータの絡み合いが重要な役割を担っていることが判明した。

Dual-unitary circuits are paradigmatic examples of exactly solvable yet chaotic quantum many-body systems, but solvability naturally goes along with a degree of non-generic behaviour. By investigating the effect of weakly broken dual-unitarity on the spreading of local operators we study whether, and how, small deviations from dual-unitarity recover fully generic many-body dynamics. We present a discrete path-integral formula for the out-of-time-order correlator and use it to recover a butterfly velocity smaller than the light-cone velocity, $v_B < v_{LC}$ , and a diffusively broadening operator front, two generic features of ergodic quantum spin chains absent in dual-unitary circuit dynamics. We find that the butterfly velocity and diffusion constant are determined by a small set of microscopic quantities and that the operator entanglement of the gates plays a crucial role.
# 重力における非等尺量子誤差補正

Non-Isometric Quantum Error Correction in Gravity ( http://arxiv.org/abs/2210.13476v1 )

Arjun Kar(参考訳) 2次元ディラトン重力における蒸発ブラックホールのトイモデルにおいて,非等尺誤差補正符号のアンサンブルを構築し,検討した。 境界におけるバルクおよびハミルトン固有状態におけるユークリッド経路積分状態の好ましい基底において、符号化写像はゼロ平均と単位分散の独立した複素ガウスランダム成分を持つ線型変換に比例する。 測度濃度を用いて、そのような典型的コードはブラックホールのマイクロカノニカルヒルベルト空間次元において半指数的に大きい状態のセット$S$でペアの内積を保存する可能性が非常に高いことを示す。 この集合のサイズは、ヒルベルト空間次元のバルク有効場理論の上限としても機能する。 同様の手法は、$s$保存符号空間ユニタリ演算子の状態固有の再構成の存在を示すために用いられる。 状態特異的な部分空間の再構成は、絡み合うくさび復元によって期待されるときに存在する。 複雑性理論とバルク有効場理論の分解との関係についてコメントする。

We construct and study an ensemble of non-isometric error correcting codes in a toy model of an evaporating black hole in two-dimensional dilaton gravity. In the preferred bases of Euclidean path integral states in the bulk and Hamiltonian eigenstates in the boundary, the encoding map is proportional to a linear transformation with independent complex Gaussian random entries of zero mean and unit variance. Using measure concentration, we show that the typical such code is very likely to preserve pairwise inner products in a set $S$ of states that can be subexponentially large in the microcanonical Hilbert space dimension of the black hole. The size of this set also serves as an upper limit on the bulk effective field theory Hilbert space dimension. Similar techniques are used to demonstrate the existence of state-specific reconstructions of $S$-preserving code space unitary operators. State-specific reconstructions on subspaces exist when they are expected to by entanglement wedge reconstruction. We comment on relations to complexity theory and the breakdown of bulk effective field theory.
# 絡み合いの幾何測度を最大化する

Maximizing the geometric measure of entanglement ( http://arxiv.org/abs/2210.13475v1 )

Jonathan Steinberg, Otfried G\"uhne(参考訳) 与えられた物理系における最大到達可能な絡み合いの特徴づけは、絡み合いが様々な量子情報タスクの資源であることが知られているため、重要である。 これは特に純粋多粒子量子状態において、最大エンタングルメントの問題は物理的関心だけでなく、多線型代数やテンソル解析における基礎数学的問題とも密接に関連している。 本研究では,幾何的絡み合い測度を用いて複数の粒子の最大絡み合い状態を求めるアルゴリズムを提案する。 物理的に興味深い状態を特定することに加えて、我々の結果は、絶対的に極大に絡み合った状態の問題に対する洞察を与える。

The characterization of the maximally achievable entanglement in a given physical system is relevant, as entanglement is known to be a resource for various quantum information tasks. This holds especially for pure multiparticle quantum states, where the problem of maximal entanglement is not only of physical interest, but also closely related to fundamental mathematical problems in multilinear algebra and tensor analysis. We propose an algorithmic method to find maximally entangled states of several particles in terms of the geometric measure of entanglement. Besides identifying physically interesting states our results deliver insights to the problem of absolutely maximally entangled states; moreover, our methods can be generalized to identify maximally entangled subspaces.
# 破壊的忘れを克服する近代的手法によるニューラルネットワーク重み計算の重要性の相関

Correlation of the importances of neural network weights calculated by modern methods of overcoming catastrophic forgetting ( http://arxiv.org/abs/2211.17012v1 )

Alexey Kutalev(参考訳) 2017年にewc法が発明されると、ewc法で使用するニューラルネットワークの重み付けの重要性を計算するいくつかの方法が提案されている。 重量の計算において大きな違いはあったが、いずれも有効であることが判明した。 したがって、異なる方法によって計算される重みの重要性がどの程度類似しているかという合理的な疑問が生じる。 そこで本研究では,これらすべての手法で計算した重みの重みの層間相関を計算した。 その結果,いくつかの手法の重要性が互いに強く相関していることが判明し,そのような相関関係を説明することができた。 同時に、他の手法では、相関はネットワークのいくつかの層で強いものから他の層で負のものまで様々である。 これは合理的な疑問を提起する: 計算方法がまったく異なるにもかかわらず、なぜewc法がニューラルネットワークの壊滅的な忘れを完璧に克服できるのか?

Following the invention in 2017 of the EWC method, several methods have been proposed to calculate the importance of neural network weights for use in the EWC method. Despite the significant difference in calculating the importance of weights, they all proved to be effective. Accordingly, a reasonable question arises as to how similar the importances of the weights calculated by different methods. To answer this question, we calculated layer-by-layer correlations of the importance of weights calculated by all those methods. As a result, it turned out that the importances of several of the methods correlated with each other quite strongly and we were able to present an explanation for such a correlation. At the same time, for other methods, the correlation can vary from strong on some layers of the network to negative on other layers. Which raises a reasonable question: why, despite the very different calculation methods, all those importances allow EWC method to overcome the catastrophic forgetting of neural networks perfectly?
# それをスキップするより形作る: 量子コンピューティングの領域とその変換可能性のマッピング

Shape it Better than Skip it: Mapping the Territory of Quantum Computing and its Transformative Potential ( http://arxiv.org/abs/2211.16205v1 )

Imed Boughzala (LITEM, TIM), Nesrine Ben Yahia (University of Manouba, Tunisia), Narj\`es Bellamine Ben Saoud, Wissem Eljaoued(参考訳) 量子コンピューティング(Quantum Computing, QC)は、コンピュータ科学と量子重ね合わせや量子絡み合いなどの量子力学を組み合わせた、急速に成長する研究分野である。 この分野の解明に寄与するために,本論文の目的は2つある。 第一に、最も関連するqc研究、科学コミュニティおよび関連するドメインが記載された領域とその古典コンピューティングとの関係を地図化することを目的としている。 第2に,様々な視点で今後の研究課題を検討することを目的とする。 我々は,2010年から2022年までの最も重要なデータベースに基づいて,体系的文献レビュー(SLR)を実施して実施する。 以上の結果から,QCの理解とビジネス,社会,学習の変容にはまだまだの余地があることが示唆された。

Quantum Computing (QC) is an emerging and fast-growing research field that combines computer science with quantum mechanics such as quantum superposition and quantum entanglement. In order to contribute to a clarification of this field, the objective of this paper is twofold. Firstly, it aims to map the territory in which most relevant QC researches, scientific communities and related domains are stated and its relationship with classical computing. Secondly, it aims to examine the future research agenda according to different perspectives. We will do so by conducting a systematic literature review (SLR) based on the most important databases from 2010 to 2022. Our findings demonstrate that there is still room for understanding QC and how it transforms business, society and learning.
# 超幾何方程式による完全可解ポテンシャルの新しいクラス

A new class of exactly-solvable potentials by means of the hypergeometric equation ( http://arxiv.org/abs/2210.13991v1 )

Wei Yang(参考訳) シュロディンガー方程式の超幾何方程式を用いて,bose と natanzon によって導入された完全可解ポテンシャルと異なる,新たな解ポテンシャルのクラスを得た。 新しい可解ポテンシャルのクラスを用いて、対応する複素PT不変ポテンシャルを得ることができる。 この方法は他のファックス方程式にも適用できる。

We obtained a new class of exactly-solvable potentials by means of the hypergeometric equation for Schrodinger equation, which different from the exactly-solvable potentials introduced by Bose and Natanzon. Using the new class of solvable potentials, we can obtain the corresponding complex PT-invariant potentials. This method can also apply to the other Fuchs equations.
# 超高速3原子スリングショットにおけるイオン化促進膜

Filming Enhanced Ionization in an Ultrafast Triatomic Slingshot ( http://arxiv.org/abs/2210.13645v1 )

A. J. Howard, M. Britton, Z. L. Streeter, C. Cheng, R. Forbes, J. L. Reynolds, F. Allum, G. A. McCracken, I. Gabalski, R. R. Lucchese, C. W. McCurdy, T. Weinacht, and P. H. Bucksbaum(参考訳) 分子内の原子運動を撮影することは分子物理学と量子化学の活発な追求である。 有望な方法はレーザー誘起クーロン爆発イメージング(CEI)であり、レーザーパルスは分子から多くの電子を素早くイオン化し、残りのイオンはクーロンの反発を受ける。 イオンモーメントは、原子間運動の開始に関して調整可能な遅延でイオン化することにより、時間とともに追跡される分子幾何を再構築するために用いられる。 しかし、結果はイオン化パルス中の超高速運動によって歪められる。 この効果を水中で研究し, イオン化を促進させceiを歪ませる急速"スリングショット"運動を撮影した。 我々の研究は、他の多くの多原子分子でCEI実験を知らせるエンハンスメントの幾何学と機構の両方を明らかにした。

Filming atomic motion within molecules is an active pursuit of molecular physics and quantum chemistry. A promising method is laser-induced Coulomb Explosion Imaging (CEI) where a laser pulse rapidly ionizes many electrons from a molecule, causing the remaining ions to undergo Coulomb repulsion. The ion momenta are used to reconstruct the molecular geometry which is tracked over time (i.e. filmed) by ionizing at an adjustable delay with respect to the start of interatomic motion. Results are distorted, however, by ultrafast motion during the ionizing pulse. We studied this effect in water and filmed the rapid "slingshot" motion that enhances ionization and distorts CEI results. Our investigation uncovered both the geometry and mechanism of the enhancement which may inform CEI experiments in many other polyatomic molecules.
# 固体量子エミッタの大規模光学特性評価

Large-scale optical characterization of solid-state quantum emitters ( http://arxiv.org/abs/2210.13643v1 )

Madison Sutula, Ian Christen, Eric Bersin, Michael P. Walsh, Kevin C. Chen, Justin Mallek, Alexander Melville, Michael Titze, Edward S. Bielejec, Scott Hamilton, Danielle Braje, P. Benjamin Dixon, Dirk R. Englund(参考訳) 固体量子エミッタは量子ネットワークアプリケーションのための主要な量子メモリとして登場した。 しかし、標準的な光学的キャラクタリゼーション技術は効率的でも大規模でも再現できない。 本研究では,カラーセンターの大規模かつ自動評価を可能にする分光技術を紹介し,実証する。 まず,製造機械可読のグローバル座標系に登録することで,色中心の追跡能力を実証し,多くの実験において同じ色中心部位の系統的比較を可能にする。 次に、広視野低温顕微鏡で共鳴発光励起を実装し、共焦点顕微鏡上で2桁の速度アップを達成する。 最後に,部屋温度におけるカラーセンタとデバイスのチップスケールの自動キャラクタリゼーションを行い,数千の顕微鏡視野を可視化する。 これらのツールは、チップスケールでの有用な量子エミッタの迅速な識別を可能にし、量子情報アプリケーション、材料科学、デバイス設計とキャラクタリゼーションのためのカラーセンタープラットフォームの拡張を可能にする。

Solid-state quantum emitters have emerged as a leading quantum memory for quantum networking applications. However, standard optical characterization techniques are neither efficient nor repeatable at scale. In this work, we introduce and demonstrate spectroscopic techniques that enable large-scale, automated characterization of color centers. We first demonstrate the ability to track color centers by registering them to a fabricated machine-readable global coordinate system, enabling systematic comparison of the same color center sites over many experiments. We then implement resonant photoluminescence excitation in a widefield cryogenic microscope to parallelize resonant spectroscopy, achieving two orders of magnitude speed-up over confocal microscopy. Finally, we demonstrate automated chip-scale characterization of color centers and devices at room temperature, imaging thousands of microscope fields of view. These tools will enable accelerated identification of useful quantum emitters at chip-scale, enabling advances in scaling up color center platforms for quantum information applications, materials science, and device design and characterization.
# 疫学・プラグマティストによる量子力学の解釈 : 比較評価

Epistemic-Pragmatist Interpretations of Quantum Mechanics: A Comparative Assessment ( http://arxiv.org/abs/2210.13620v1 )

Ali Barzegar and Daniele Oriti(参考訳) 本稿では,量子力学の主要なネオコペンハーゲン解釈の類似点と相違点について検討し,量子状態の存在論的性質の拒絶と隠蔽変数の同時回避によって定義されるものと同定した。 これらすべての解釈がコミットされる共通のコアを持つ単一の一般的な解釈フレームワークが存在し、それらが異なる例と見なせるようにし、その違いのいくつかは、主に強調と程度の問題である、と我々は論じている。 しかしながら、より実質的な性質の差が残っていることも確認し、その最初の分析を提供する。 また、これらの残りの相違は量子力学の形式論の中では解決できず、この解釈を破るために用いられるより一般的な哲学的考察を特定できないと論じる。

In this paper, we investigate similarities and differences between the main neo-Copenhagen (or "epistemic-pragmatist") interpretations of quantum mechanics, here identified as those defined by the rejection of an ontological nature of the quantum states and the simultaneous avoidance of hidden variables, while maintaining the quantum formalism unchanged. We argue that there is a single general interpretive framework with a common core to which all these interpretations are committed, so that they can be regarded as different instances of it, with some of their differences being mostly a matter of emphasis and degree. We also identify, however, remaining differences of a more substantial nature, and we offer a first analysis of them. We also argue that these remaining differences cannot be resolved within the formalism of quantum mechanics itself and identify the more general philosophical considerations that can be used in order to break this interpretation underdetermination.
# 信頼できない測定値とプローブ状態の少ない量子ランダム性証明

Quantum randomness certification with untrusted measurements and few probe states ( http://arxiv.org/abs/2210.13608v1 )

Kieran Neil Wilkinson, Casper Ahl Breum, Tobias Gehring, Jonatan Bohr Brask(参考訳) 信頼できない測定装置と信頼された情報源からの量子乱数生成のスキームを実験的に示す。 計測におけるノイズや不完全性に関する仮定は不要であり、既存の技術で実装するのは簡単である。 測定装置は、いくつかの信頼状態でプローブされ、観測結果分布に基づいて出力エントロピーを低い境界条件にすることができる。 特に、コヒーレント状態によって検出された検出器を用いて真空のホモダイン測定を行い、テレコム波長レーザーの強度変調とアナログ-デジタル変換によるホモダイン検出と離散化を実験的に実証した。 ランダム性はガウスの付加雑音と非ガウス的不完全性の両方の存在下で証明できることを示す。

We present a scheme for quantum random-number generation from an untrusted measurement device and a trusted source and demonstrate it experimentally. No assumptions about noise or imperfections in the measurement are required, and the scheme is simple to implement with existing technology. The measurement device is probed with a few trusted states and the output entropy can be lower bounded conditioned on the observed outcome distribution. The protocol can be applied to measurements with any finite number of outcomes and in particular can be realised by homodyne measurements of the vacuum using a detector probed by coherent states, as we experimentally demonstrate by intensity modulation of a telecom-wavelength pilot laser followed by homodyne detection and discretisation by analog-to-digital conversion. We show that randomness can be certified in the presence of both Gaussian additive noise and non-Gaussian imperfections.
# ボソニック系の効率的計測法

Efficient measurement schemes for bosonic systems ( http://arxiv.org/abs/2210.13585v1 )

Tianren Gu, Xiao Yuan, Bujiao Wu(参考訳) ボソンは最も基本的な粒子の1つであり、交換関係を保存する。 ボゾン系を測定する効率的な方法は、量子ビットベースの量子コンピュータ上でボーソン(核など)の複雑な物理現象をシミュレートするだけでなく、ボーソン(例えば連続変数量子コンピュータ)で構築された量子シミュレーター/コンピュータから古典情報を抽出するのにも重要である。 本稿では,最近提案されたシャドウトモグラフィなどの局所的な計測手法を拡張し,ボソニックシステムの効率的な測定手法について検討する。 離散量子コンピュータ上でのシミュレーションボソンと固有ボソン系に対応する非定常qudit系と連続変数系をそれぞれ考慮し,これら2つの場合の分散を理論的に解析した異なる測定スキームを提案する。 本研究では,離散量子コンピュータと連続可変ガウス状態を用いてシミュレーションした核振動の測定手法を数値的に検証し,提案手法の性能を従来のものと比べた。

Boson is one of the most basic types of particles and preserves the commutation relation. An efficient way to measure a bosonic system is important not only for simulating complex physics phenomena of bosons (such as nuclei) on a qubit based quantum computer, but for extracting classical information from a quantum simulator/computer that itself is built with bosons (such as a continuous variable quantum computer). Extending the recently proposed measurement schemes for qubits, such as shadow tomography and other local measurement schemes, here we study efficient measurement approaches for bosonic systems. We consider truncated qudit and continuous variable systems, corresponding to simulated bosons on a discrete quantum computer and an inherent boson system, respectively, and propose different measurement schemes with theoretical analyses of the variances for these two cases. We numerically test the schemes for measuring nuclei vibrations simulated using a discrete quantum computer and a continuous variable Gaussian state, and the simulation results show great improvement of the performance of the proposed method compared to conventional ones.
# 2次元ドープ三角格子フェルミ・ハバード模型におけるキラル超伝導

Chiral superconductivity in the doped triangular-lattice Fermi-Hubbard model in two dimensions ( http://arxiv.org/abs/2210.13551v1 )

Vinicius Zampronio and Tommaso Macr\`i(参考訳) 三角格子フェルミ-ハッバード模型は、キラルスピン状態と非古典的超伝導の関係から、文献で広く研究されている。 ドープ系の基底状態の以前のシミュレーションは、真の長距離秩序が禁止される準一次元格子に依存する。 ここでは、最先端の Auxiliary-Field Quantum Monte Carlo を用いて、12x12三角格子をシミュレートする。 非磁性キラルスピン状態をドーピングすると、n=5/6を満たすキラル超伝導の証拠をクーパー-ペア相関とキラル次数パラメータの有限値で観測する。 この目的のために、まず金属から非磁性絶縁相への遷移を見つけ、そこでキラルと磁気秩序の競合が起こる。 この結果は,強相関格子系と磁気フラストレーションのより深い理解への道を開いた。

The triangular-lattice Fermi-Hubbard model has been extensively investigated in the literature due to its connection to chiral spin states and unconventional superconductivity. Previous simulations of the ground state of the doped system rely on quasi-one-dimensional lattices where true long-range order is forbidden. Here we simulate a 12x12 triangular lattice using state-of-the-art Auxiliary-Field Quantum Monte Carlo. Upon doping a non-magnetic chiral spin state, we observe evidence of chiral superconductivity at filling n=5/6 supported by long-range order in Cooper-pair correlation and a finite value of the chiral order parameter. With this aim, we first locate the transition from the metallic to the non-magnetic insulating phase where we see competition between chiral and magnetic orders. Our results pave the way towards a better understanding of strongly correlated lattice systems with magnetic frustration.
# レーザー位相と強度雑音に対する量子ゲート忠実性の感度

Sensitivity of quantum gate fidelity to laser phase and intensity noise ( http://arxiv.org/abs/2210.11007v2 )

X. Jiang, J. Scott, Mark Friesen, and M. Saffman(参考訳) 中性原子量子ビットにおけるゲート操作の忠実性は、しばしばレーザー駆動のゆらぎによって制限される。 ここでは,レーザー位相と強度雑音に対する量子ゲートの感度を定量化する。 まず, 白色雑音とサーボバンプの影響に着目し, レーザー自己ヘテロダインノイズスペクトルの特徴を同定するモデルを開発した。 十分に安定化されたレーザーの特性である弱雑音状態において、マスター方程式の摂動解に基づく解析理論は位相雑音を含む数値シミュレーションと非常によく一致することを示す。 1光および2光のラビ振動に対する量子ゲート密度を計算し、スペクトル雑音ピークに対するRabi周波数の適切な選択により拡張可能であることを示す。 また,Rabi周波数よりもスペクトル支援が小さい強度雑音の影響を解析した。 以上の結果から,所望のゲートファイパティを達成するために必要なレーザノイズレベルを定式化する。

The fidelity of gate operations on neutral atom qubits is often limited by fluctuations of the laser drive. Here, we quantify the sensitivity of quantum gate fidelities to laser phase and intensity noise. We first develop models to identify features observed in laser self-heterodyne noise spectra, focusing on the effects of white noise and servo bumps. In the weak-noise regime, characteristic of well-stabilized lasers, we show that an analytical theory based on a perturbative solution of a master equation agrees very well with numerical simulations that incorporate phase noise. We compute quantum gate fidelities for one- and two-photon Rabi oscillations and show that they can be enhanced by an appropriate choice of Rabi frequency relative to spectral noise peaks. We also analyze the influence of intensity noise with spectral support smaller than the Rabi frequency. Our results establish requirements on laser noise levels needed to achieve desired gate fidelities.
# 建設コスト文書を国際建設評価基準に分類する機械学習手法

A Machine Learning Approach to Classifying Construction Cost Documents into the International Construction Measurement Standard ( http://arxiv.org/abs/2211.07705v1 )

J. Ignacio Deza, Hisham Ihshaish and Lamine Mahdjoubi(参考訳) 本稿では,インフラ建設業界で普及している"Bills of Quantities"(BoQ)と呼ばれるコスト資料で提供される自然言語記述を国際構築計測基準(ICMS)に分類する最初の自動モデルを紹介する。 マルチクラスのテキスト分類のためにデプロイし、体系的に評価したモデルは、イギリスの24の大規模インフラ建設プロジェクトから取得した50万件以上の項目のデータセットから学習される。 本稿では,建設プロジェクト資料における文脈意味論の強みと時間依存性を考察するため,言語表現とその後のモデリングに対する我々のアプローチについて述べる。 そこで本研究では,2つの異なる言語表現モデルと,再帰的および畳み込み型ニューラルネットワークアーキテクチャを含む最先端のシーケンスベース分類手法に基づいて,テキストからicmsコードを推定する2つの実験パイプラインを評価する。 その結果, ICMS の自動化モデルは, 平均 F1 スコア以上の精度で, 32 のICMS カテゴリにおいて, 極めて効果的で正確なモデルであることが示唆された。 さらに,BoQsテキストの言語使用の特徴から,より単純なモデルの方が精度の高い結果に好適に比較できることが判明した。 解析の結果,より単純な汎用的時間畳み込みネットワーク(TCN)が同じ能力を持つ再帰的アーキテクチャに匹敵するメモリを表現し,その結果,その性能を向上させる可能性が示唆された。

We introduce the first automated models for classifying natural language descriptions provided in cost documents called "Bills of Quantities" (BoQs) popular in the infrastructure construction industry, into the International Construction Measurement Standard (ICMS). The models we deployed and systematically evaluated for multi-class text classification are learnt from a dataset of more than 50 thousand descriptions of items retrieved from 24 large infrastructure construction projects across the United Kingdom. We describe our approach to language representation and subsequent modelling to examine the strength of contextual semantics and temporal dependency of language used in construction project documentation. To do that we evaluate two experimental pipelines to inferring ICMS codes from text, on the basis of two different language representation models and a range of state-of-the-art sequence-based classification methods, including recurrent and convolutional neural network architectures. The findings indicate a highly effective and accurate ICMS automation model is within reach, with reported accuracy results above 90% F1 score on average, on 32 ICMS categories. Furthermore, due to the specific nature of language use in the BoQs text; short, largely descriptive and technical, we find that simpler models compare favourably to achieving higher accuracy results. Our analysis suggest that information is more likely embedded in local key features in the descriptive text, which explains why a simpler generic temporal convolutional network (TCN) exhibits comparable memory to recurrent architectures with the same capacity, and subsequently outperforms these at this task.
# フェアミュージックレコメンデーションのためのアイテムベース変分自動エンコーダ

Item-based Variational Auto-encoder for Fair Music Recommendation ( http://arxiv.org/abs/2211.01333v1 )

Jinhyeok Park, Dain Kim, Dongwoo Kim(参考訳) EvalRS DataChallengeのソリューションを紹介します。 EvalRS DataChallengeは、精度、公平性、多様性を考慮したより現実的なレコメンデーションシステムの構築を目指している。 提案システムは,アイテムベース変分自動エンコーダ(VAE)とベイズパーソナライズされたランキング行列分解(BPRMF)のアンサンブルに基づく。 人気度のバイアスを軽減するため、各人気グループに対してアイテムベースのVAEを付加フェアネス正則化で使用する。 予測が不正確であっても合理的な推薦を行うため,BPRMFの推奨リストとアイテムベースVAEの推奨リストを組み合わせる。 実験により, 商品ベースVAEは, ユーザベースVAEに比べて, 人気バイアスを著しく低減することを示した。 アイテムベースのVAEとBPRMFのアンサンブルは、予測が不正確であっても、トップ1アイテムを地上の真実に類似させる。 最後に, 広範実験からの反射に基づく新しい評価指標として, 「係数分散に基づく公正性」を提案する。

We present our solution for the EvalRS DataChallenge. The EvalRS DataChallenge aims to build a more realistic recommender system considering accuracy, fairness, and diversity in evaluation. Our proposed system is based on an ensemble between an item-based variational auto-encoder (VAE) and a Bayesian personalized ranking matrix factorization (BPRMF). To mitigate the bias in popularity, we use an item-based VAE for each popularity group with an additional fairness regularization. To make a reasonable recommendation even the predictions are inaccurate, we combine the recommended list of BPRMF and that of item-based VAE. Through the experiments, we demonstrate that the item-based VAE with fairness regularization significantly reduces popularity bias compared to the user-based VAE. The ensemble between the item-based VAE and BPRMF makes the top-1 item similar to the ground truth even the predictions are inaccurate. Finally, we propose a `Coefficient Variance based Fairness' as a novel evaluation metric based on our reflections from the extensive experiments.
# 機械学習における論理に基づく説明可能性

Logic-Based Explainability in Machine Learning ( http://arxiv.org/abs/2211.00541v1 )

Joao Marques-Silva(参考訳) この10年で、機械学習(ML)の成功はますます増え続けている。 これらの成功は、MLが人間に直接影響する多くのものを含め、広範囲の実用的な用途で普及しつつあるという明確な証拠を提供する。 残念ながら、最も成功したMLモデルの運用は、人間の意思決定者にとって理解できない。 結果として、特にリスクの高い安全クリティカルな設定では、MLモデルの使用に懸念はない。 近年,MLモデルを説明するためのアプローチの開発が試みられている。 これらの取り組みの多くは、いわゆるモデルに依存しないアプローチに焦点を当てている。 しかしながら、モデルに依存しないアプローチと関連するアプローチはすべて厳密さを保証せず、非形式的とみなされる。 例えば、そのような非形式的な説明は異なる予測と一致し、実際には役に立たない。 本稿では,MLモデルの厳密なモデルに基づく説明を計算するための研究成果について概説する。 これらの取り組みには、説明の実際の定義、計算説明の複雑さのキャラクタリゼーション、さまざまなMLモデルについての推論に最適な論理的エンコーディング、そして人間の意思決定者に対して説明を解釈する方法など、さまざまなトピックが含まれている。

The last decade witnessed an ever-increasing stream of successes in Machine Learning (ML). These successes offer clear evidence that ML is bound to become pervasive in a wide range of practical uses, including many that directly affect humans. Unfortunately, the operation of the most successful ML models is incomprehensible for human decision makers. As a result, the use of ML models, especially in high-risk and safety-critical settings is not without concern. In recent years, there have been efforts on devising approaches for explaining ML models. Most of these efforts have focused on so-called model-agnostic approaches. However, all model-agnostic and related approaches offer no guarantees of rigor, hence being referred to as non-formal. For example, such non-formal explanations can be consistent with different predictions, which renders them useless in practice. This paper overviews the ongoing research efforts on computing rigorous model-based explanations of ML models; these being referred to as formal explanations. These efforts encompass a variety of topics, that include the actual definitions of explanations, the characterization of the complexity of computing explanations, the currently best logical encodings for reasoning about different ML models, and also how to make explanations interpretable for human decision makers, among others.
# スマートエネルギーシステムにおけるAI説明可能性とガバナンス

AI Explainability and Governance in Smart Energy Systems: A Review ( http://arxiv.org/abs/2211.00069v1 )

Roba Alsaigh, Rashid Mehmood, Iyad Katib(参考訳) 従来の電力網は長年、運用上の信頼性、不安定性、柔軟性、非効率性に悩まされてきた。 スマートグリッド(またはスマートエネルギーシステム)は、新興技術、再生可能エネルギー源、その他のトレンドでエネルギーセクターを変革し続けている。 人工知能(ai)は、スマートエネルギーシステムに適用され、このセクターで大規模で複雑なデータを処理し、スマートでタイムリーな意思決定を行う。 しかし、AIの説明可能性や統治性がないことは、エネルギーセクターにおけるAIの急速な取り込みを妨げる利害関係者にとって大きな関心事である。 本稿では,スマートエネルギーシステムにおけるAI説明可能性とガバナンスについて概説する。 我々は、Scopusデータベースから3,568件の関連論文を収集し、エネルギーにおけるAIガバナンスの15のパラメータやテーマを自動的に発見し、100以上の論文をレビューし、研究の時間的進歩を提供することで、研究の展望を精査する。 パラメータやテーマを発見するための方法論は、データ駆動型ディープラーニングベースのビッグデータ分析アプローチである“ディープジャーナリズム(deep journalism)”に基づいています。 その結果、エネルギーシステムにおけるai説明可能性の研究は分断され、いくつかのai特性とエネルギーシステムの問題に焦点を当てていることがわかった。 本稿では、エネルギー分野におけるAIガバナンスの知識を深め、エネルギー分野におけるAIの展望を理解し、エネルギーシステムのより良い設計、運用、活用、リスク管理を実現するために、政府、産業、学術、エネルギー調達者、その他の利害関係者を支援することが期待されている。

Traditional electrical power grids have long suffered from operational unreliability, instability, inflexibility, and inefficiency. Smart grids (or smart energy systems) continue to transform the energy sector with emerging technologies, renewable energy sources, and other trends. Artificial intelligence (AI) is being applied to smart energy systems to process massive and complex data in this sector and make smart and timely decisions. However, the lack of explainability and governability of AI is a major concern for stakeholders hindering a fast uptake of AI in the energy sector. This paper provides a review of AI explainability and governance in smart energy systems. We collect 3,568 relevant papers from the Scopus database, automatically discover 15 parameters or themes for AI governance in energy and elaborate the research landscape by reviewing over 100 papers and providing temporal progressions of the research. The methodology for discovering parameters or themes is based on "deep journalism", our data-driven deep learning-based big data analytics approach to automatically discover and analyse cross-sectional multi-perspective information to enable better decision-making and develop better instruments for governance. The findings show that research on AI explainability in energy systems is segmented and narrowly focussed on a few AI traits and energy system problems. This paper deepens our knowledge of AI governance in energy and is expected to help governments, industry, academics, energy prosumers, and other stakeholders to understand the landscape of AI in the energy sector, leading to better design, operations, utilisation, and risk management of energy systems.
# 深層網のエネルギー効率トレーニングのための2点セルのポテンシャルの解錠

Unlocking the potential of two-point cells for energy-efficient training of deep nets ( http://arxiv.org/abs/2211.01950v1 )

Ahsan Adeel, Adewale Adetomi, Khubaib Ahmed, Amir Hussain, Tughrul Arslan, W.A. Phillips(参考訳) 文脈感受性2点層5錐体細胞(L5PC)は1999年に発見された。 しかし、この発見が有用な神経計算を提供する可能性はまだ実証されていない。 本稿では,多センサ協調コンピューティング(mcc)アーキテクチャと呼ばれる変換型l5pc駆動深層ニューラルネットワーク(dnn)が,利用可能な最善の'点'ニューロン駆動dnnに比べてはるかに少ないエネルギーで,大量の異種実世界オーディオビジュアル(av)データを効果的に処理できることを初めて示す。 xilinx ultrascale+ mpsoc デバイス上の新しい高分散並列実装は、単一のシナプスが 8e^{-5}\mu$j を消費する2,45759 \times 50000$$$\mu$j (すなわち、半教師付き学習セットアップにおけるベースラインモデルよりも6,2$%少ない) の省エネルギーを推定する。 教師あり学習のセットアップでは、省エネはベースラインモデルよりも最大1250倍(フィードフォワードトランスミッションあたり)に到達できる可能性がある。 実験実験におけるこの顕著な性能は、我々が提案したL5PCベースのMCCアーキテクチャの具体的ニューロモルフィックインテリジェンスを実証し、オンチップトレーニングの初期段階で利用された圧倒的に大きなマルチモーダル情報から、上向き送信において最も健全で関連性の高い情報を選択する。 提案手法は,将来のDNNトレーニング実装のための学際的な新たな道を開き,現在のニューロモルフィックコンピューティングパラダイムの急激な変化を示唆する。

Context-sensitive two-point layer 5 pyramidal cells (L5PC) were discovered as long ago as 1999. However, the potential of this discovery to provide useful neural computation has yet to be demonstrated. Here we show for the first time how a transformative L5PC-driven deep neural network (DNN), termed the multisensory cooperative computing (MCC) architecture, can effectively process large amounts of heterogeneous real-world audio-visual (AV) data, using far less energy compared to best available `point' neuron-driven DNNs. A novel highly-distributed parallel implementation on a Xilinx UltraScale+ MPSoC device estimates energy savings up to $245759 \times 50000$ $\mu$J (i.e., $62\%$ less than the baseline model in a semi-supervised learning setup) where a single synapse consumes $8e^{-5}\mu$J. In a supervised learning setup, the energy-saving can potentially reach up to 1250x less (per feedforward transmission) than the baseline model. This remarkable performance in pilot experiments demonstrates the embodied neuromorphic intelligence of our proposed L5PC based MCC architecture that contextually selects the most salient and relevant information for onward transmission, from overwhelmingly large multimodal information utilised at the early stages of on-chip training. Our proposed approach opens new cross-disciplinary avenues for future on-chip DNN training implementations and posits a radical shift in current neuromorphic computing paradigms.
# 効率的なグラフ表現学習のためのスパイキング変分グラフ自動エンコーダ

Spiking Variational Graph Auto-Encoders for Efficient Graph Representation Learning ( http://arxiv.org/abs/2211.01952v1 )

Hanxuan Yang, Ruike Zhang, Qingchao Kong, Wenji Mao(参考訳) グラフ表現学習は基本的な研究課題であり、グラフ構造化データに対する幅広い応用に恩恵をもたらす。 グラフニューラルネットワーク(gnns)や変分グラフオートエンコーダ(vgaes)といった従来の人工ニューラルネットワークベースの手法は、グラフ上で学習することで有望な結果を得たが、トレーニングや推論の段階では非常に高いエネルギー消費に苦しめられている。 スパイキングニューラルネットワーク(SNN)の生体忠実性とエネルギー効率に触発された近年の手法は、スパイキングニューロンを活性化機能に置換することにより、GNNをSNNフレームワークに適応させようと試みている。 しかし、既存のSNNベースのGNN法は、リンク予測によって表現されるより一般的なマルチノード表現学習問題には適用できない。 さらに、これらの手法は、エネルギー効率を著しく損なうコストのかかる乗算(MAC)操作を必要とするため、SNNの生物忠実性を十分に活用しなかった。 上記の問題に対処し、エネルギー効率を向上させるために、SNNに基づく深層生成手法、すなわち、効率的なグラフ表現学習のためのスパイキング変分グラフオートエンコーダ(S-VGAE)を提案する。 マルチノード問題に対処するため、重み付き内積を経由したグラフのスパイクノード表現としてバイナリ潜在変数を生成する確率デコーダを提案する。 エネルギー効率のMAC操作を回避するため、従来のGNNアグリゲータの伝搬層と変換層をさらに分離する。 我々は,複数のベンチマークグラフデータセット上でリンク予測実験を行い,この結果から,グラフ表現学習における他のANNやSNNに匹敵する性能で,より少ないエネルギーを消費することを示した。

Graph representation learning is a fundamental research issue and benefits a wide range of applications on graph-structured data. Conventional artificial neural network-based methods such as graph neural networks (GNNs) and variational graph auto-encoders (VGAEs) have achieved promising results in learning on graphs, but they suffer from extremely high energy consumption during training and inference stages. Inspired by the bio-fidelity and energy-efficiency of spiking neural networks (SNNs), recent methods attempt to adapt GNNs to the SNN framework by substituting spiking neurons for the activation functions. However, existing SNN-based GNN methods cannot be applied to the more general multi-node representation learning problem represented by link prediction. Moreover, these methods did not fully exploit the bio-fidelity of SNNs, as they still require costly multiply-accumulate (MAC) operations, which severely harm the energy efficiency. To address the above issues and improve energy efficiency, in this paper, we propose an SNN-based deep generative method, namely the Spiking Variational Graph Auto-Encoders (S-VGAE) for efficient graph representation learning. To deal with the multi-node problem, we propose a probabilistic decoder that generates binary latent variables as spiking node representations and reconstructs graphs via the weighted inner product. To avoid the MAC operations for energy efficiency, we further decouple the propagation and transformation layers of conventional GNN aggregators. We conduct link prediction experiments on multiple benchmark graph datasets, and the results demonstrate that our model consumes significantly lower energy with the performances superior or comparable to other ANN- and SNN-based methods for graph representation learning.
# FullConvに基づく効率的なモンゴル語テキスト音声合成システム

Efficiently Trained Mongolian Text-to-Speech System Based On FullConv ( http://arxiv.org/abs/2211.01948v1 )

ZiQi Liang(参考訳) リカレントニューラルネットワーク(RNN)はシーケンスデータの標準的なモデリング技術となり、多くの新しい音声合成モデルで使われている。 しかし、RNNコンポーネントを含むTSモデルのトレーニングには、GPUのパフォーマンスに一定の要件があり、長い時間がかかる。 対照的に、CNNに基づくシーケンス合成技術は、高い並列性により一定の性能を確保しつつ、テキスト音声モデルのトレーニング時間を大幅に短縮することを示した。 本稿では,rnnコンポーネント(リカレントユニット)を一切使用しない深層畳み込みニューラルネットワークに基づく新しい音声合成システムを提案する。 同時に, 時間ゆがみ, 周波数マスク, タイムマスクなどのデータ拡張手法により, モデルの汎用性とロバスト性を向上させる。 最後に,CNN成分のみを用いたTSモデルは,合成音声の品質を確保しつつ,タコトロンのような古典的TSモデルと比較してトレーニング時間を短縮できることを示した。

Recurrent Neural Networks (RNNs) have become the standard modeling technique for sequence data, and are used in a number of novel text-to-speech models. However, training a TTS model including RNN components has certain requirements for GPU performance and takes a long time. In contrast, studies have shown that CNN-based sequence synthesis technology can greatly reduce training time in text-to-speech models while ensuring a certain performance due to its high parallelism. We propose a new text-to-speech system based on deep convolutional neural networks that does not employ any RNN components (recurrent units). At the same time, we improve the generality and robustness of our model through a series of data augmentation methods such as Time Warping, Frequency Mask, and Time Mask. The final experimental results show that the TTS model using only the CNN component can reduce the training time compared to the classic TTS models such as Tacotron while ensuring the quality of the synthesized speech.
# 学習tcp混雑制御のためのシンボリック蒸留

Symbolic Distillation for Learned TCP Congestion Control ( http://arxiv.org/abs/2210.16987v1 )

S P Sharan, Wenqing Zheng, Kuo-Feng Hsu, Jiarong Xing, Ang Chen, Zhangyang Wang(参考訳) 近年のTCP渋滞制御(CC)の進歩は、フィードフォワードニューラルネットワーク(NN)を用いて複雑な環境条件を学習し、より良い意思決定を行うディープ強化学習(RL)アプローチで大きな成功を収めている。 しかしながら、このような「ブラックボックス」ポリシーは解釈可能性と信頼性に欠けており、しばしば複雑なNNを使用するため、従来のTCPデータパスの外で運用する必要がある。 本稿では、まず、深層RLエージェントを訓練し、次に(過度に)パラメータ化されたNNポリシーをホワイトボックスの軽量なルールに、より理解しやすく、制約された環境で実装する、新しい2段階のソリューションを提案する。 提案手法のコアとなるのは,様々なネットワーク条件の観点からルールがコンテキストを認識し,最終的にNNポリシーをシンボリックツリーに変換する,新しいシンボリック分岐アルゴリズムである。 蒸留されたシンボル規則は、標準的なニューラルネットワークよりも高速でシンプルでありながら、最先端のNNポリシーよりも性能を保ち、しばしば改善する。 シミュレーション環境とエミュレーション環境の両方において,蒸留したシンボリックルールの性能を検証する。 私たちのコードはhttps://github.com/VITA-Group/SymbolicPCCで利用可能です。

Recent advances in TCP congestion control (CC) have achieved tremendous success with deep reinforcement learning (RL) approaches, which use feedforward neural networks (NN) to learn complex environment conditions and make better decisions. However, such "black-box" policies lack interpretability and reliability, and often, they need to operate outside the traditional TCP datapath due to the use of complex NNs. This paper proposes a novel two-stage solution to achieve the best of both worlds: first to train a deep RL agent, then distill its (over-)parameterized NN policy into white-box, light-weight rules in the form of symbolic expressions that are much easier to understand and to implement in constrained environments. At the core of our proposal is a novel symbolic branching algorithm that enables the rule to be aware of the context in terms of various network conditions, eventually converting the NN policy into a symbolic tree. The distilled symbolic rules preserve and often improve performance over state-of-the-art NN policies while being faster and simpler than a standard neural network. We validate the performance of our distilled symbolic rules on both simulation and emulation environments. Our code is available at https://github.com/VITA-Group/SymbolicPCC.
# 線虫Caenorhabditis elegansのためのニューラルネットワークを用いたIFT-20感覚ニューロン分類器

A Neural Network Based Automated IFT-20 Sensory Neuron Classifier for Caenorhabditis elegans ( http://arxiv.org/abs/2210.14961v1 )

Arvind Seshan(参考訳) 画像データにおける神経の同一性を決定することは神経科学において重要な課題であり、生物間での神経活動の比較を促進する。 有機体間の比較によって、機能的ネットワークの全脳分析や特定のニューロンの活動と行動や環境刺激を結びつけるなど、幅広い研究が可能になる。 線虫 Caenorhabditis elegans における1細胞分解能を持つ3次元の汎ニューロンイメージングの最近の進歩は、あらゆる範囲でニューロンの識別、追跡、活動監視をもたらした。 線虫C. elegansは、その透明性やよく理解された神経系などの要因により、神経活動を研究するモデル生物としてしばしば用いられる。 高い精度で神経細胞を同定する主な障壁は、成人のC. elegansでは神経細胞の体の位置がステレオタイプ化されていないことである。 この問題に対処する既存のアプローチでは、遺伝子コード化されたマーカーを追加の識別機能として使用しています。 例えば、NeuroPAL株は多色の蛍光レポーターを使用する。 しかし、このアプローチは過剰な遺伝子改変による悪影響のため、使用が限られている。 本研究では,単色蛍光画像のみを用いた別の神経識別手法を提案する。 私は新しいニューラルネットワークベースの分類器をデザインしました。これは、人間が使う手動アノテーションの手順に触発された反復的なランドマークベースのニューロン識別プロセスを使って、感覚ニューロンを自動的にラベル付けします。 これは91.61%の精度でc. elegansの知覚ニューロンを標識する。

Determining neuronal identity in imaging data is an essential task in neuroscience, facilitating the comparison of neural activity across organisms. Cross-organism comparison, in turn, enables a wide variety of research including whole-brain analysis of functional networks and linking the activity of specific neurons to behavior or environmental stimuli. The recent development of three-dimensional, pan-neuronal imaging with single-cell resolution within Caenorhabditis elegans has brought neuron identification, tracking, and activity monitoring all within reach. The nematode C. elegans is often used as a model organism to study neuronal activity due to factors such as its transparency and well-understood nervous system. The principal barrier to high-accuracy neuron identification is that in adult C. elegans, the position of neuronal cell bodies is not stereotyped. Existing approaches to address this issue use genetically encoded markers as an additional identifying feature. For example, the NeuroPAL strain uses multicolored fluorescent reporters. However, this approach has limited use due to the negative effects of excessive genetic modification. In this study, I propose an alternative neuronal identification technique using only single-color fluorescent images. I designed a novel neural network based classifier that automatically labels sensory neurons using an iterative, landmark-based neuron identification process inspired by the manual annotation procedures that humans employ. This design labels sensory neurons in C. elegans with 91.61% accuracy.
# フェデレーション学習における毒殺攻撃の検出と防止

Detection and Prevention Against Poisoning Attacks in Federated Learning ( http://arxiv.org/abs/2210.14944v1 )

Viktor Valadi, Madeleine Englund, Mark Spanier, Austin O'brien(参考訳) 本稿では,複数の種類の毒素攻撃が,平均精度偏差検出(AADD)を通じて集中的なフェデレート学習モデルに影響を与えることを検出・防止するための新しいアプローチを提案する。 各クライアントの精度をすべてのクライアントの平均精度と比較することにより、AADDはクライアントを精度差で検出する。 この実装は、毒殺と考えられるクライアントをブラックリスト化することができ、毒殺ノードの影響を受けないようにグローバルモデルを保証する。 提案手法では,汚染されたクライアントの検出と,グローバルモデルの精度低下を防止できる有望な結果を示す。

This paper proposes and investigates a new approach for detecting and preventing several different types of poisoning attacks from affecting a centralized Federated Learning model via average accuracy deviation detection (AADD). By comparing each client's accuracy to all clients' average accuracy, AADD detect clients with an accuracy deviation. The implementation is further able to blacklist clients that are considered poisoned, securing the global model from being affected by the poisoned nodes. The proposed implementation shows promising results in detecting poisoned clients and preventing the global model's accuracy from deteriorating.
# ルール:ルール埋め込みによるニューラルシンボリック知識グラフ推論

RulE: Neural-Symbolic Knowledge Graph Reasoning with Rule Embedding ( http://arxiv.org/abs/2210.14905v1 )

Xiaojuan Tang, Song-Chun Zhu, Yitao Liang, Muhan Zhang(参考訳) 知識グラフ推論(KG)は知識グラフにとって重要な問題である。 既存の事実に基づいてリンク不足を予測する。 知識グラフ埋め込み(KGE)は、この問題に対処する最も一般的な手法の1つである。 低次元ベクトルにエンティティと関係を埋め込み、学習されたエンティティ/リレーションの埋め込みを使用して、行方不明な事実を予測する。 しかしながら、KGE は、既存の三重項(例えば ``Alice is Bob's wife" など)をエンコードするために、ゼロ階論理(命題論理)しか使用せず、一階論理(述語論理)を利用して一般に適用可能な論理的 \textbf{rules} (例えば ``$\forall x,y \colon x ~\text{is}~ y\text{'s wife} \rightarrow y ~\text{is}~x\text{'s husband}$' )を表現できない。 一方、従来のルールベースのKG推論手法は、通常はハード論理的なルール推論に依存しており、不安定であり、KGEとほとんど競合しない。 本稿では,論理規則と三重項を表現・モデル化する新奇で原則化されたフレームワークRulEを提案する。 RulEは統合埋め込み空間における実体、関係、論理規則を共同で表現する。 各論理規則の埋め込みを学習することにより、RulEは論理規則推論をソフトな方法で実行し、KGEが各三重項に信頼スコアを与えるのと同じように、各基底規則に信頼スコアを与えることができる。 KGE 単独と比較して、RulE は埋め込み空間に事前論理ルール情報を注入することができ、知識グラフの埋め込みの一般化を改善する。 さらに、学習されたルールの信頼度スコアは、各ルールの貢献をソフトに制御することで論理規則推論プロセスを改善し、論理の脆さを軽減する。 提案手法をリンク予測タスクで評価する。 複数のベンチマークKGの実験結果からRulEの有効性が示された。

Knowledge graph (KG) reasoning is an important problem for knowledge graphs. It predicts missing links by reasoning on existing facts. Knowledge graph embedding (KGE) is one of the most popular methods to address this problem. It embeds entities and relations into low-dimensional vectors and uses the learned entity/relation embeddings to predict missing facts. However, KGE only uses zeroth-order (propositional) logic to encode existing triplets (e.g., ``Alice is Bob's wife."); it is unable to leverage first-order (predicate) logic to represent generally applicable logical \textbf{rules} (e.g., ``$\forall x,y \colon x ~\text{is}~ y\text{'s wife} \rightarrow y ~\text{is}~ x\text{'s husband}$''). On the other hand, traditional rule-based KG reasoning methods usually rely on hard logical rule inference, making it brittle and hardly competitive with KGE. In this paper, we propose RulE, a novel and principled framework to represent and model logical rules and triplets. RulE jointly represents entities, relations and logical rules in a unified embedding space. By learning an embedding for each logical rule, RulE can perform logical rule inference in a soft way and give a confidence score to each grounded rule, similar to how KGE gives each triplet a confidence score. Compared to KGE alone, RulE allows injecting prior logical rule information into the embedding space, which improves the generalization of knowledge graph embedding. Besides, the learned confidence scores of rules improve the logical rule inference process by softly controlling the contribution of each rule, which alleviates the brittleness of logic. We evaluate our method with link prediction tasks. Experimental results on multiple benchmark KGs demonstrate the effectiveness of RulE.
# 最小エントロピー結合を用いた完全安全ステガノグラフィ

Perfectly Secure Steganography Using Minimum Entropy Coupling ( http://arxiv.org/abs/2210.14889v1 )

Christian Schroeder de Witt, Samuel Sokota, J. Zico Kolter, Jakob Foerster, Martin Strohmeier(参考訳) ステガノグラフィ(Steganography)とは、敵の第三者が隠された意味があることに気づかないような、秘密情報を無害な内容に符号化する実践である。 この問題は古典的にセキュリティ文献で研究されてきたが、生成モデルの最近の進歩は、スケーラブルなステガノグラフィ技術を開発するセキュリティ研究者と機械学習研究者の間で共通の関心を呼んでいる。 本研究は, ステガノグラフィーが結合によって誘導される場合に限り, ステガノグラフィーの情報理論モデルの下で完全に安全であることを示す。 さらに,完全安全な手順の中で,最小エントロピーカップリングによって引き起こされる場合に限り,手続きが最大効率であることが示される。 これらの洞察は、私たちの知る限りでは、非自明な効率で完全なセキュリティ保証を達成するための最初のステガノグラフィーアルゴリズムを生み出します。 本稿では,GPT-2とWaveRNNを通信チャネルとして用いた算術符号化,Meteor,適応動的グループ化の3つの現代ベースラインに対して,最小エントロピー結合に基づくアプローチを比較検討する。 最小エントロピー結合に基づくアプローチは、より強いセキュリティ制約にもかかわらず、より優れたエンコーディング効率をもたらす。 これらの結果から, 最小エントロピー結合レンズを通して情報理論ステガノグラフィを見ることは自然である可能性が示唆された。

Steganography is the practice of encoding secret information into innocuous content in such a manner that an adversarial third party would not realize that there is hidden meaning. While this problem has classically been studied in security literature, recent advances in generative models have led to a shared interest among security and machine learning researchers in developing scalable steganography techniques. In this work, we show that a steganography procedure is perfectly secure under \citet{cachin_perfect}'s information theoretic-model of steganography if and only if it is induced by a coupling. Furthermore, we show that, among perfectly secure procedures, a procedure is maximally efficient if and only if it is induced by a minimum entropy coupling. These insights yield what are, to the best of our knowledge, the first steganography algorithms to achieve perfect security guarantees with non-trivial efficiency; additionally, these algorithms are highly scalable. To provide empirical validation, we compare a minimum entropy coupling-based approach to three modern baselines -- arithmetic coding, Meteor, and adaptive dynamic grouping -- using GPT-2 and WaveRNN as communication channels. We find that the minimum entropy coupling-based approach yields superior encoding efficiency, despite its stronger security constraints. In aggregate, these results suggest that it may be natural to view information-theoretic steganography through the lens of minimum entropy coupling.
# マージツリーから銀河の性質を学ぶ$\texttt{mangrove}$

$\texttt{Mangrove}$: Learning Galaxy Properties from Merger Trees ( http://arxiv.org/abs/2210.13473v1 )

Christian Kragh Jespersen, Miles Cranmer, Peter Melchior, Shirley Ho, Rachel S. Somerville, Austen Gabrielpillai(参考訳) ダークマターへのバリオン特性の効率的なマッピングは天体物理学の大きな課題である。 半解析モデル(sams)と流体力学シミュレーションは、宇宙学的に重要な体積にわたって銀河観測可能な銀河を再現する素晴らしい進歩を遂げてきたが、これらの方法には依然としてかなりの計算時間が必要であり、多くの応用への障壁となっている。 グラフニューラルネットワーク(GNN)は、最近、物理関係を学ぶための自然な選択であることが証明されている。 天体物理学で見られるグラフのような構造は、暗黒物質ハロの進化をコードする暗黒物質融合木である。 本稿では、新しいグラフベースのエミュレータフレームワークである$\texttt{mangrove}$を導入し、samが予測したように、銀河の恒星質量、冷気質量、金属性、瞬間的および時間平均的な星形成速度、ブラックホール質量をエミュレートし、$(75 mpc/h)^3$シミュレーションボックスで、$(75 mpc/h)^3$シミュレーションボックス上の他の方法よりも2倍低い根平均二乗誤差を、40秒で、4桁の速さで示す。 我々は$\texttt{Mangrove}$が銀河の性質の合併履歴への依存の定量化を可能にすることを示した。 その結果を現在の分野の美術品と比較し,すべての対象物に対して有意な改善が見られた。 $\texttt{Mangrove}$が公開されている。

Efficiently mapping baryonic properties onto dark matter is a major challenge in astrophysics. Although semi-analytic models (SAMs) and hydrodynamical simulations have made impressive advances in reproducing galaxy observables across cosmologically significant volumes, these methods still require significant computation times, representing a barrier to many applications. Graph Neural Networks (GNNs) have recently proven to be the natural choice for learning physical relations. Among the most inherently graph-like structures found in astrophysics are the dark matter merger trees that encode the evolution of dark matter halos. In this paper we introduce a new, graph-based emulator framework, $\texttt{Mangrove}$, and show that it emulates the galactic stellar mass, cold gas mass and metallicity, instantaneous and time-averaged star formation rate, and black hole mass -- as predicted by a SAM -- with root mean squared error up to two times lower than other methods across a $(75 Mpc/h)^3$ simulation box in 40 seconds, 4 orders of magnitude faster than the SAM. We show that $\texttt{Mangrove}$ allows for quantification of the dependence of galaxy properties on merger history. We compare our results to the current state of the art in the field and show significant improvements for all target properties. $\texttt{Mangrove}$ is publicly available.
# コミュニケーション効率の良い分散学習のためのSGDの適応的トップK

Adaptive Top-K in SGD for Communication-Efficient Distributed Learning ( http://arxiv.org/abs/2210.13532v1 )

Mengzhe Ruan, Guangfeng Yan, Yuanzhang Xiao, Linqi Song, Weitao Xu(参考訳) 勾配圧縮を伴う分散確率勾配降下(SGD)は,分散学習を加速する通信効率のよい解である。 top-kスパーシフィケーション(top-k sparsification)は、モデルトレーニング中に一定の程度で勾配をスパーシライズする最も一般的な勾配圧縮方法の1つである。 しかし、モデル性能やトレーニング速度の可能性を最大化するために、スペーシフィケーションの程度を適応的に調整するアプローチがない。 本稿では,新しい適応型top-k sgdフレームワークを提案し,各勾配降下ステップに対して適応的なスパーシフィケーションを可能とし,通信コストと収束誤差のトレードオフを検討することにより収束性能を最大化する。 まず、適応スカラー化スキームと損失関数に対する収束誤差の上限を導出する。 次に,通信コスト制約下での収束誤差を最小化してアルゴリズムを設計する。 最後に,SGD における適応型 Top-K は,最先端手法と比較して,はるかに優れた収束率が得られることを示す。

Distributed stochastic gradient descent (SGD) with gradient compression has emerged as a communication-efficient solution to accelerate distributed learning. Top-K sparsification is one of the most popular gradient compression methods that sparsifies the gradient in a fixed degree during model training. However, there lacks an approach to adaptively adjust the degree of sparsification to maximize the potential of model performance or training speed. This paper addresses this issue by proposing a novel adaptive Top-K SGD framework, enabling adaptive degree of sparsification for each gradient descent step to maximize the convergence performance by exploring the trade-off between communication cost and convergence error. Firstly, we derive an upper bound of the convergence error for the adaptive sparsification scheme and the loss function. Secondly, we design the algorithm by minimizing the convergence error under the communication cost constraints. Finally, numerical results show that the proposed adaptive Top-K in SGD achieves a significantly better convergence rate compared with the state-of-the-art methods.
# IoTセキュリティとプライバシのためのマシンラーニングとディープラーニング - アプリケーション,課題,今後の方向性

Machine and Deep Learning for IoT Security and Privacy: Applications, Challenges, and Future Directions ( http://arxiv.org/abs/2210.13547v1 )

ライセンス: Link先を確認
The integration of the Internet of Things (IoT) connects a number of intelligent devices with a minimum of human interference that can interact with one another. IoT is rapidly emerging in the areas of computer science. However, new security problems were posed by the cross-cutting design of the multidisciplinary elements and IoT systems involved in deploying such schemes. Ineffective is the implementation of security protocols, i.e., authentication, encryption, application security, and access network for IoT systems and their essential weaknesses in security. Current security approaches can also be improved to protect the IoT environment effectively. In recent years, deep learning (DL)/ machine learning (ML) has progressed significantly in various critical implementations. Therefore, DL/ML methods are essential to turn IoT systems protection from simply enabling safe contact between IoT systems to intelligence systems in security. This review aims to include an extensive analysis of ML systems and state-of-the-art developments in DL methods to improve enhanced IoT device protection methods. On the other hand, various new insights in machine and deep learning for IoT Securities illustrate how it could help future research. IoT protection risks relating to emerging or essential threats are identified, as well as future IoT device attacks and possible threats associated with each surface. We then carefully analyze DL and ML IoT protection approaches and present each approach's benefits, possibilities, and weaknesses. This review discusses a number of potential challenges and limitations. The future works, recommendations, and suggestions of DL/ML in IoT security are also included.
# クープマン直接符号化による不安定な動的システムへの適用

ライセンス: Link先を確認
This paper presents a Koopman lifting linearization method that is applicable to nonlinear dynamical systems having both stable and unstable regions. It is known that DMD and other standard data-driven methods face a fundamental difficulty in constructing a Koopman model when applied to unstable systems. Here we solve the problem by incorporating knowledge about a nonlinear state equation with a learning method for finding an effective set of observables. In a lifted space, stable and unstable regions are separated into independent subspaces. Based on this property, we propose to find effective observables through neural net training where training data are separated into stable and unstable trajectories. The resultant learned observables are used for constructing a linear state transition matrix using method known as Direct Encoding, which transforms the nonlinear state equation to a state transition matrix through inner product computations with the observables. The proposed method shows a dramatic improvement over existing DMD and data-driven methods.
翻訳日:2022-10-26 16:09:17 公開日:2022-10-24
# 最適輸送のミニバッチ推定のための予算制約境界

Budget-Constrained Bounds for Mini-Batch Estimation of Optimal Transport ( http://arxiv.org/abs/2210.13630v1 )

ライセンス: Link先を確認
Optimal Transport (OT) is a fundamental tool for comparing probability distributions, but its exact computation remains prohibitive for large datasets. In this work, we introduce novel families of upper and lower bounds for the OT problem constructed by aggregating solutions of mini-batch OT problems. The upper bound family contains traditional mini-batch averaging at one extreme and a tight bound found by optimal coupling of mini-batches at the other. In between these extremes, we propose various methods to construct bounds based on a fixed computational budget. Through various experiments, we explore the trade-off between computational budget and bound tightness and show the usefulness of these bounds in computer vision applications.
# SpacePhish: 機械学習を用いたフィッシングサイト検出器に対する敵攻撃空間

ライセンス: Link先を確認
Existing literature on adversarial Machine Learning (ML) focuses either on showing attacks that break every ML model, or defenses that withstand most attacks. Unfortunately, little consideration is given to the actual \textit{cost} of the attack or the defense. Moreover, adversarial samples are often crafted in the "feature-space", making the corresponding evaluations of questionable value. Simply put, the current situation does not allow to estimate the actual threat posed by adversarial attacks, leading to a lack of secure ML systems. We aim to clarify such confusion in this paper. By considering the application of ML for Phishing Website Detection (PWD), we formalize the "evasion-space" in which an adversarial perturbation can be introduced to fool a ML-PWD -- demonstrating that even perturbations in the "feature-space" are useful. Then, we propose a realistic threat model describing evasion attacks against ML-PWD that are cheap to stage, and hence intrinsically more attractive for real phishers. Finally, we perform the first statistically validated assessment of state-of-the-art ML-PWD against 12 evasion attacks. Our evaluation shows (i) the true efficacy of evasion attempts that are more likely to occur; and (ii) the impact of perturbations crafted in different evasion-spaces. Our realistic evasion attempts induce a statistically significant degradation (3-10% at $p\!<$0.05), and their cheap cost makes them a subtle threat. Notably, however, some ML-PWD are immune to our most realistic attacks ($p$=0.22). Our contribution paves the way for a much needed re-assessment of adversarial attacks against ML systems for cybersecurity.
翻訳日:2022-10-26 16:08:51 公開日:2022-10-24
# 複数の仮説テストによる機械学習におけるプライバシー漏洩の分析: fanoからの教訓

Analyzing Privacy Leakage in Machine Learning via Multiple Hypothesis Testing: A Lesson From Fano ( http://arxiv.org/abs/2210.13662v1 )

ライセンス: Link先を確認
Differential privacy (DP) is by far the most widely accepted framework for mitigating privacy risks in machine learning. However, exactly how small the privacy parameter $\epsilon$ needs to be to protect against certain privacy risks in practice is still not well-understood. In this work, we study data reconstruction attacks for discrete data and analyze it under the framework of multiple hypothesis testing. We utilize different variants of the celebrated Fano's inequality to derive upper bounds on the inferential power of a data reconstruction adversary when the model is trained differentially privately. Importantly, we show that if the underlying private data takes values from a set of size $M$, then the target privacy parameter $\epsilon$ can be $O(\log M)$ before the adversary gains significant inferential power. Our analysis offers theoretical evidence for the empirical effectiveness of DP against data reconstruction attacks even at relatively large values of $\epsilon$.
# 機械学習を用いたメトロ需要予測における気象の影響の探索

Exploring the impact of weather on Metro demand forecasting using machine learning method ( http://arxiv.org/abs/2210.13965v1 )

ライセンス: Link先を確認
Yiming Hu, Yangchuan Huang, Shuyin Liu, Yuanyang Qi, and Danhui Bai(参考訳) 都市鉄道は大規模な交通量や高速化などの包括的利益をもたらし、都市交通建設管理と渋滞対策の最も重要な要素の1つとなっている。 本研究は、2018年4月から6月にかけてのアジア地下鉄の実際の乗客フローデータを用いて、短時間の交通流予測を用いて、乗客フローの時空間分布を解析する。 駅は旅客流量予測のために4つのタイプに分けられ、気象記録は同じ期間に収集される。 そして、異なる入力を持つ機械学習手法を適用し、各気象要素の改善効果を時間順に評価する多変量回帰を行う。 その結果、天気変数を入力すると、週末の予測精度が向上し、平日のパフォーマンスはわずかに向上したが、天候要素の違いによる寄与は異なることがわかった。 また、異なるカテゴリーの駅は天候によって異なる。 本研究は、他の予測モデルをさらに改善する方法を提供し、トランジット管理における短期スケジューリングの最適化のためのデータ駆動分析の可能性を実証する。

Urban rail transit provides significant comprehensive benefits such as large traffic volume and high speed, serving as one of the most important components of urban traffic construction management and congestion solution. Using real passenger flow data of an Asian subway system from April to June of 2018, this work analyzes the space-time distribution of the passenger flow using short-term traffic flow prediction. Stations are divided into four types for passenger flow forecasting, and meteorological records are collected for the same period. Then, machine learning methods with different inputs are applied and multivariate regression is performed to evaluate the improvement effect of each weather element on passenger flow forecasting of representative metro stations on hourly basis. Our results show that by inputting weather variables the precision of prediction on weekends enhanced while the performance on weekdays only improved marginally, while the contribution of different elements of weather differ. Also, different categories of stations are affected differently by weather. This study provides a possible method to further improve other prediction models, and attests to the promise of data-driven analytics for optimization of short-term scheduling in transit management.
# SleepMore:マルチデバイスWiFiセンシングによる大規模睡眠予測

ライセンス: Link先を確認
The availability of commercial wearable trackers equipped with features to monitor sleep duration and quality has enabled more useful sleep health monitoring applications and analyses. However, much research has reported the challenge of long-term user retention in sleep monitoring through these modalities. Since modern Internet users own multiple mobile devices, our work explores the possibility of employing ubiquitous mobile devices and passive WiFi sensing techniques to predict sleep duration as the fundamental measure for complementing long-term sleep monitoring initiatives. In this paper, we propose SleepMore, an accurate and easy-to-deploy sleep-tracking approach based on machine learning over the user's WiFi network activity. It first employs a semi-personalized random forest model with an infinitesimal jackknife variance estimation method to classify a user's network activity behavior into sleep and awake states per minute granularity. Through a moving average technique, the system uses these state sequences to estimate the user's nocturnal sleep period and its uncertainty rate. Uncertainty quantification enables SleepMore to overcome the impact of noisy WiFi data that can yield large prediction errors. We validate SleepMore using data from a month-long user study involving 46 college students and draw comparisons with the Oura Ring wearable. Beyond the college campus, we evaluate SleepMore on non-student users of different housing profiles. Our results demonstrate that SleepMore produces statistically indistinguishable sleep statistics from the Oura ring baseline for predictions made within a 5% uncertainty rate. These errors range between 15-28 minutes for determining sleep time and 7-29 minutes for determining wake time, proving statistically significant improvements over prior work. Our in-depth analysis explains the sources of errors.
翻訳日:2022-10-26 15:59:41 公開日:2022-10-24
# 二元行列分解を用いた高速・低メモリディープニューラルネットワーク

Fast and Low-Memory Deep Neural Networks Using Binary Matrix Factorization ( http://arxiv.org/abs/2210.13468v1 )

ライセンス: Link先を確認
Despite the outstanding performance of deep neural networks in different applications, they are still computationally extensive and require a great number of memories. This motivates more research on reducing the resources required for implementing such networks. An efficient approach addressed for this purpose is matrix factorization, which has been shown to be effective on different networks. In this paper, we utilize binary matrix factorization and show its great efficiency in reducing the required number of resources in deep neural networks. In effect, this technique can lead to the practical implementation of such networks.
# Microsoftにおけるステアリングクエリ最適化ツールの運用

Deploying a Steered Query Optimizer in Production at Microsoft ( http://arxiv.org/abs/2210.13625v1 )

ライセンス: Link先を確認
Modern analytical workloads are highly heterogeneous and massively complex, making generic query optimizers untenable for many customers and scenarios. As a result, it is important to specialize these optimizers to instances of the workloads. In this paper, we continue a recent line of work in steering a query optimizer towards better plans for a given workload, and make major strides in pushing previous research ideas to production deployment. Along the way we solve several operational challenges including, making steering actions more manageable, keeping the costs of steering within budget, and avoiding unexpected performance regressions in production. Our resulting system, QQ-advisor, essentially externalizes the query planner to a massive offline pipeline for better exploration and specialization. We discuss various aspects of our design and show detailed results over production SCOPE workloads at Microsoft, where the system is currently enabled by default.
# データセット推論のロバスト性について

On the Robustness of Dataset Inference ( http://arxiv.org/abs/2210.13631v1 )

ライセンス: Link先を確認
Machine learning (ML) models are costly to train as they can require a significant amount of data, computational resources and technical expertise. Thus, they constitute valuable intellectual property that needs protection from adversaries wanting to steal them. Ownership verification techniques allow the victims of model stealing attacks to demonstrate that a suspect model was in fact stolen from theirs. Although a number of ownership verification techniques based on watermarking or fingerprinting have been proposed, most of them fall short either in terms of security guarantees (well-equipped adversaries can evade verification) or computational cost. A fingerprinting technique introduced at ICLR '21, Dataset Inference (DI), has been shown to offer better robustness and efficiency than prior methods. The authors of DI provided a correctness proof for linear (suspect) models. However, in the same setting, we prove that DI suffers from high false positives (FPs) -- it can incorrectly identify an independent model trained with non-overlapping data from the same distribution as stolen. We further prove that DI also triggers FPs in realistic, non-linear suspect models. We then confirm empirically that DI leads to FPs, with high confidence. Second, we show that DI also suffers from false negatives (FNs) -- an adversary can fool DI by regularising a stolen model's decision boundaries using adversarial training, thereby leading to an FN. To this end, we demonstrate that DI fails to identify a model adversarially trained from a stolen dataset -- the setting where DI is the hardest to evade. Finally, we discuss the implications of our findings, the viability of fingerprinting-based ownership verification in general, and suggest directions for future work.
# 等価拡散モデルを用いた構造に基づく薬物設計

Structure-based Drug Design with Equivariant Diffusion Models ( http://arxiv.org/abs/2210.13695v1 )

ライセンス: Link先を確認
Structure-based drug design (SBDD) aims to design small-molecule ligands that bind with high affinity and specificity to pre-determined protein targets. Traditional SBDD pipelines start with large-scale docking of compound libraries from public databases, thus limiting the exploration of chemical space to existent previously studied regions. Recent machine learning methods approached this problem using an atom-by-atom generation approach, which is computationally expensive. In this paper, we formulate SBDD as a 3D-conditional generation problem and present DiffSBDD, an E(3)-equivariant 3D-conditional diffusion model that generates novel ligands conditioned on protein pockets. Furthermore, we curate a new dataset of experimentally determined binding complex data from Binding MOAD to provide a realistic binding scenario that complements the synthetic CrossDocked dataset. Comprehensive in silico experiments demonstrate the efficiency of DiffSBDD in generating novel and diverse drug-like ligands that engage protein pockets with high binding energies as predicted by in silico docking.
# スマートフォンリアルタイムアプリケーションのための知覚画像強調

Perceptual Image Enhancement for Smartphone Real-Time Applications ( http://arxiv.org/abs/2210.13552v1 )

ライセンス: Link先を確認
Recent advances in camera designs and imaging pipelines allow us to capture high-quality images using smartphones. However, due to the small size and lens limitations of the smartphone cameras, we commonly find artifacts or degradation in the processed images. The most common unpleasant effects are noise artifacts, diffraction artifacts, blur, and HDR overexposure. Deep learning methods for image restoration can successfully remove these artifacts. However, most approaches are not suitable for real-time applications on mobile devices due to their heavy computation and memory requirements. In this paper, we propose LPIENet, a lightweight network for perceptual image enhancement, with the focus on deploying it on smartphones. Our experiments show that, with much fewer parameters and operations, our model can deal with the mentioned artifacts and achieve competitive performance compared with state-of-the-art methods on standard benchmarks. Moreover, to prove the efficiency and reliability of our approach, we deployed the model directly on commercial smartphones and evaluated its performance. Our model can process 2K resolution images under 1 second in mid-level commercial smartphones.
# dilatedsegnet:ポリプセグメンテーションのための深層拡張セグメンテーションネットワーク

DilatedSegNet: A Deep Dilated Segmentation Network for Polyp Segmentation ( http://arxiv.org/abs/2210.13595v1 )

ライセンス: Link先を確認
Colorectal cancer (CRC) is the second leading cause of cancer-related death worldwide. Excision of polyps during colonoscopy helps reduce mortality and morbidity for CRC. Powered by deep learning, computer-aided diagnosis (CAD) systems can detect regions in the colon overlooked by physicians during colonoscopy. Lacking high accuracy and real-time speed are the essential obstacles to be overcome for successful clinical integration of such systems. While literature is focused on improving accuracy, the speed parameter is often ignored. Toward this critical need, we intend to develop a novel real-time deep learning-based architecture, DilatedSegNet, to perform polyp segmentation on the fly. DilatedSegNet is an encoder-decoder network that uses pre-trained ResNet50 as the encoder from which we extract four levels of feature maps. Each of these feature maps is passed through a dilated convolution pooling (DCP) block. The outputs from the DCP blocks are concatenated and passed through a series of four decoder blocks that predicts the segmentation mask. The proposed method achieves a real-time operation speed of 33.68 frames per second with an average dice coefficient of 0.90 and mIoU of 0.83. Additionally, we also provide heatmap along with the qualitative results that shows the explanation for the polyp location, which increases the trustworthiness of the method. The results on the publicly available Kvasir-SEG and BKAI-IGH datasets suggest that DilatedSegNet can give real-time feedback while retaining a high \ac{DSC}, indicating high potential for using such models in real clinical settings in the near future. The GitHub link of the source code can be found here: \url{https://github.com/nikhilroxtomar/DilatedSegNet}.
# glassesgan: 合成外観発見とターゲット部分空間モデリングを用いた眼鏡のパーソナライズ

GlassesGAN: Eyewear Personalization using Synthetic Appearance Discovery and Targeted Subspace Modeling ( http://arxiv.org/abs/2210.14145v1 )

ライセンス: Link先を確認
We present GlassesGAN, a novel image editing framework for custom design of glasses, that sets a new standard in terms of image quality, edit realism, and continuous multi-style edit capability. To facilitate the editing process with GlassesGAN, we propose a Targeted Subspace Modelling (TSM) procedure that, based on a novel mechanism for (synthetic) appearance discovery in the latent space of a pre-trained GAN generator, constructs an eyeglasses-specific (latent) subspace that the editing framework can utilize. To improve the reliability of our learned edits, we also introduce an appearance-constrained subspace initialization (SI) technique able to center the latent representation of a given input image in the well-defined part of the constructed subspace. We test GlassesGAN on three diverse datasets (CelebA-HQ, SiblingsDB-HQf, and MetFaces) and compare it against three state-of-the-art competitors, i.e., InterfaceGAN, GANSpace, and MaskGAN. Our experimental results show that GlassesGAN achieves photo-realistic, multi-style edits to eyeglasses while comparing favorably to its competitors. The source code is made freely available.
# Datavoidant: ソーシャルメディア上の政治データボイドに対処するAIシステム

Datavoidant: An AI System for Addressing Political Data Voids on Social Media ( http://arxiv.org/abs/2210.13594v1 )

ライセンス: Link先を確認
The limited information (data voids) on political topics relevant to underrepresented communities has facilitated the spread of disinformation. Independent journalists who combat disinformation in underrepresented communities have reported feeling overwhelmed because they lack the tools necessary to make sense of the information they monitor and address the data voids. In this paper, we present a system to identify and address political data voids within underrepresented communities. Armed with an interview study, indicating that the independent news media has the potential to address them, we designed an intelligent collaborative system, called Datavoidant. Datavoidant uses state-of-the-art machine learning models and introduces a novel design space to provide independent journalists with a collective understanding of data voids to facilitate generating content to cover the voids. We performed a user interface evaluation with independent news media journalists (N=22). These journalists reported that Datavoidant's features allowed them to more rapidly while easily having a sense of what was taking place in the information ecosystem to address the data voids. They also reported feeling more confident about the content they created and the unique perspectives they had proposed to cover the voids. We conclude by discussing how Datavoidant enables a new design space wherein individuals can collaborate to make sense of their information ecosystem and actively devise strategies to prevent disinformation.
# OSS Mentor - ディープ強化学習による開発者のコントリビューション向上のためのフレームワーク

OSS Mentor A framework for improving developers contributions via deep reinforcement learning ( http://arxiv.org/abs/2210.13990v1 )

ライセンス: Link先を確認
In open source project governance, there has been a lot of concern about how to measure developers' contributions. However, extremely sparse work has focused on enabling developers to improve their contributions, while it is significant and valuable. In this paper, we introduce a deep reinforcement learning framework named Open Source Software(OSS) Mentor, which can be trained from empirical knowledge and then adaptively help developers improve their contributions. Extensive experiments demonstrate that OSS Mentor significantly outperforms excellent experimental results. Moreover, it is the first time that the presented framework explores deep reinforcement learning techniques to manage open source software, which enables us to design a more robust framework to improve developers' contributions.
# 短期言語的影響による長期引用の予測

Predicting Long-Term Citations from Short-Term Linguistic Influence ( http://arxiv.org/abs/2210.13628v1 )

ライセンス: Link先を確認
A standard measure of the influence of a research paper is the number of times it is cited. However, papers may be cited for many reasons, and citation count offers limited information about the extent to which a paper affected the content of subsequent publications. We therefore propose a novel method to quantify linguistic influence in timestamped document collections. There are two main steps: first, identify lexical and semantic changes using contextual embeddings and word frequencies; second, aggregate information about these changes into per-document influence scores by estimating a high-dimensional Hawkes process with a low-rank parameter matrix. We show that this measure of linguistic influence is predictive of $\textit{future}$ citations: the estimate of linguistic influence from the two years after a paper's publication is correlated with and predictive of its citation count in the following three years. This is demonstrated using an online evaluation with incremental temporal training/test splits, in comparison with a strong baseline that includes predictors for initial citation counts, topics, and lexical features.
# 帰納的行動推論

Abductive Action Inference ( http://arxiv.org/abs/2210.13984v1 )

ライセンス: Link先を確認
Abductive reasoning aims to make the most likely inference for a given set of incomplete observations. In this work, given a situation or a scenario, we aim to answer the question 'what is the set of actions that were executed by the human in order to come to this current state?', which we coin as abductive action inference. We provide a solution based on the human-object relations and their states in the given scene. Specifically, we first detect objects and humans in the scene, and then generate representations for each human-centric relation. Using these human-centric relations, we derive the most likely set of actions the human may have executed to arrive in this state. To generate human-centric relational representations, we investigate several models such as Transformers, a novel graph neural network-based encoder-decoder, and a new relational bilinear pooling method. We obtain promising results using these new models on this challenging task on the Action Genome dataset.
# リプシッツ非線形単一ニューロンモデルの能動的学習

Active Learning for Single Neuron Models with Lipschitz Non-Linearities ( http://arxiv.org/abs/2210.13601v1 )

ライセンス: Link先を確認
We consider the problem of active learning for single neuron models, also sometimes called ``ridge functions'', in the agnostic setting (under adversarial label noise). Such models have been shown to be broadly effective in modeling physical phenomena, and for constructing surrogate data-driven models for partial differential equations. Surprisingly, we show that for a single neuron model with any Lipschitz non-linearity (such as the ReLU, sigmoid, absolute value, low-degree polynomial, among others), strong provable approximation guarantees can be obtained using a well-known active learning strategy for fitting \emph{linear functions} in the agnostic setting. % -- i.e. for the case when there is no non-linearity. Namely, we can collect samples via statistical \emph{leverage score sampling}, which has been shown to be near-optimal in other active learning scenarios. We support our theoretical results with empirical simulations showing that our proposed active learning strategy based on leverage score sampling outperforms (ordinary) uniform sampling when fitting single neuron models.
# GliTr:オンライン行動予測のための時空間整合性を有する傾斜変圧器

GliTr: Glimpse Transformers with Spatiotemporal Consistency for Online Action Prediction ( http://arxiv.org/abs/2210.13605v1 )

ライセンス: Link先を確認
Many online action prediction models observe complete frames to locate and attend to informative subregions in the frames called glimpses and recognize an ongoing action based on global and local information. However, in applications with constrained resources, an agent may not be able to observe the complete frame, yet must still locate useful glimpses to predict an incomplete action based on local information only. In this paper, we develop Glimpse Transformers (GliTr), which observe only narrow glimpses at all times, thus predicting an ongoing action and the following most informative glimpse location based on the partial spatiotemporal information collected so far. In the absence of a ground truth for the optimal glimpse locations for action recognition, we train GliTr using a novel spatiotemporal consistency objective: We require GliTr to attend to the glimpses with features similar to the corresponding complete frames (i.e. spatial consistency) and the resultant class logits at time t equivalent to the ones predicted using whole frames up to t (i.e. temporal consistency). Inclusion of our proposed consistency objective yields ~10% higher accuracy on the Something-Something-v2 (SSv2) dataset than the baseline cross-entropy objective. Overall, despite observing only ~33% of the total area per frame, GliTr achieves 53.02%and 93.91% accuracy on the SSv2 and Jester datasets, respectively.
# NeRF-SLAM:ニューラルネットワークを用いたリアルタイム高密度単分子SLAM

NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields ( http://arxiv.org/abs/2210.13641v1 )

ライセンス: Link先を確認
We propose a novel geometric and photometric 3D mapping pipeline for accurate and real-time scene reconstruction from monocular images. To achieve this, we leverage recent advances in dense monocular SLAM and real-time hierarchical volumetric neural radiance fields. Our insight is that dense monocular SLAM provides the right information to fit a neural radiance field of the scene in real-time, by providing accurate pose estimates and depth-maps with associated uncertainty. With our proposed uncertainty-based depth loss, we achieve not only good photometric accuracy, but also great geometric accuracy. In fact, our proposed pipeline achieves better geometric and photometric accuracy than competing approaches (up to 179% better PSNR and 86% better L1 depth), while working in real-time and using only monocular images.
# MISm:弱いラベル付きデータの評価のための医用画像分割基準

MISm: A Medical Image Segmentation Metric for Evaluation of weak labeled Data ( http://arxiv.org/abs/2210.13642v1 )

ライセンス: Link先を確認
Performance measures are an important tool for assessing and comparing different medical image segmentation algorithms. Unfortunately, the current measures have their weaknesses when it comes to assessing certain edge cases. These limitations arouse when images with a very small region of interest or without a region of interest at all are assessed. As a solution for these limitations, we propose a new medical image segmentation metric: MISm. To evaluate MISm, the popular metrics in the medical image segmentation and MISm were compared using images of magnet resonance tomography from several scenarios. In order to allow application in the community and reproducibility of experimental results, we included MISm in the publicly available evaluation framework MISeval: https://github.com/frankkramer-lab/miseval/tree/master/miseval
# 単一画像からの注意型エンコーダデコーダネットワークによる奥行き単眼推定

Depth Monocular Estimation with Attention-based Encoder-Decoder Network from Single Image ( http://arxiv.org/abs/2210.13646v1 )

ライセンス: Link先を確認
Depth information is the foundation of perception, essential for autonomous driving, robotics, and other source-constrained applications. Promptly obtaining accurate and efficient depth information allows for a rapid response in dynamic environments. Sensor-based methods using LIDAR and RADAR obtain high precision at the cost of high power consumption, price, and volume. While due to advances in deep learning, vision-based approaches have recently received much attention and can overcome these drawbacks. In this work, we explore an extreme scenario in vision-based settings: estimate a depth map from one monocular image severely plagued by grid artifacts and blurry edges. To address this scenario, We first design a convolutional attention mechanism block (CAMB) which consists of channel attention and spatial attention sequentially and insert these CAMBs into skip connections. As a result, our novel approach can find the focus of current image with minimal overhead and avoid losses of depth features. Next, by combining the depth value, the gradients of X axis, Y axis and diagonal directions, and the structural similarity index measure (SSIM), we propose our novel loss function. Moreover, we utilize pixel blocks to accelerate the computation of the loss function. Finally, we show, through comprehensive experiments on two large-scale image datasets, i.e. KITTI and NYU-V2, that our method outperforms several representative baselines.
# ラベル欠落によるマルチラベル分類の効果的なアプローチ

An Effective Approach for Multi-label Classification with Missing Labels ( http://arxiv.org/abs/2210.13651v1 )

ライセンス: Link先を確認
Compared with multi-class classification, multi-label classification that contains more than one class is more suitable in real life scenarios. Obtaining fully labeled high-quality datasets for multi-label classification problems, however, is extremely expensive, and sometimes even infeasible, with respect to annotation efforts, especially when the label spaces are too large. This motivates the research on partial-label classification, where only a limited number of labels are annotated and the others are missing. To address this problem, we first propose a pseudo-label based approach to reduce the cost of annotation without bringing additional complexity to the existing classification networks. Then we quantitatively study the impact of missing labels on the performance of classifier. Furthermore, by designing a novel loss function, we are able to relax the requirement that each instance must contain at least one positive label, which is commonly used in most existing approaches. Through comprehensive experiments on three large-scale multi-label image datasets, i.e. MS-COCO, NUS-WIDE, and Pascal VOC12, we show that our method can handle the imbalance between positive labels and negative labels, while still outperforming existing missing-label learning approaches in most cases, and in some cases even approaches with fully labeled datasets.
# 衛星画像中の雲を検出する自己構成型nnU-Net

Self-Configuring nnU-Nets Detect Clouds in Satellite Images ( http://arxiv.org/abs/2210.13659v1 )

ライセンス: Link先を確認
Cloud detection is a pivotal satellite image pre-processing step that can be performed both on the ground and on board a satellite to tag useful images. In the latter case, it can help to reduce the amount of data to downlink by pruning the cloudy areas, or to make a satellite more autonomous through data-driven acquisition re-scheduling of the cloudy areas. We approach this important task with nnU-Nets, a self-reconfigurable framework able to perform meta-learning of a segmentation network over various datasets. Our experiments, performed over Sentinel-2 and Landsat-8 multispectral images revealed that nnU-Nets deliver state-of-the-art cloud segmentation performance without any manual design. Our approach was ranked within the top 7% best solutions (across 847 participating teams) in the On Cloud N: Cloud Cover Detection Challenge, where we reached the Jaccard index of 0.882 over more than 10k unseen Sentinel-2 image patches (the winners obtained 0.897, whereas the baseline U-Net with the ResNet-34 backbone used as an encoder: 0.817, and the classic Sentinel-2 image thresholding: 0.652).
# LidarAugment: スケーラブルな3D LiDARデータ拡張の検索

LidarAugment: Searching for Scalable 3D LiDAR Data Augmentations ( http://arxiv.org/abs/2210.13488v1 )

ライセンス: Link先を確認
Data augmentations are important in training high-performance 3D object detectors for point clouds. Despite recent efforts on designing new data augmentations, perhaps surprisingly, most state-of-the-art 3D detectors only use a few simple data augmentations. In particular, different from 2D image data augmentations, 3D data augmentations need to account for different representations of input data and require being customized for different models, which introduces significant overhead. In this paper, we resort to a search-based approach, and propose LidarAugment, a practical and effective data augmentation strategy for 3D object detection. Unlike previous approaches where all augmentation policies are tuned in an exponentially large search space, we propose to factorize and align the search space of each data augmentation, which cuts down the 20+ hyperparameters to 2, and significantly reduces the search complexity. We show LidarAugment can be customized for different model architectures with different input representations by a simple 2D grid search, and consistently improve both convolution-based UPillars/StarNet/RSN and transformer-based SWFormer. Furthermore, LidarAugment mitigates overfitting and allows us to scale up 3D detectors to much larger capacity. In particular, by combining with latest 3D detectors, our LidarAugment achieves a new state-of-the-art 74.8 mAPH L2 on Waymo Open Dataset.
# 逆運動学と精密化による多人数3次元ポーズと形状推定

Multi-Person 3D Pose and Shape Estimation via Inverse Kinematics and Refinement ( http://arxiv.org/abs/2210.13529v1 )

ライセンス: Link先を確認
Estimating 3D poses and shapes in the form of meshes from monocular RGB images is challenging. Obviously, it is more difficult than estimating 3D poses only in the form of skeletons or heatmaps. When interacting persons are involved, the 3D mesh reconstruction becomes more challenging due to the ambiguity introduced by person-to-person occlusions. To tackle the challenges, we propose a coarse-to-fine pipeline that benefits from 1) inverse kinematics from the occlusion-robust 3D skeleton estimation and 2) Transformer-based relation-aware refinement techniques. In our pipeline, we first obtain occlusion-robust 3D skeletons for multiple persons from an RGB image. Then, we apply inverse kinematics to convert the estimated skeletons to deformable 3D mesh parameters. Finally, we apply the Transformer-based mesh refinement that refines the obtained mesh parameters considering intra- and inter-person relations of 3D meshes. Via extensive experiments, we demonstrate the effectiveness of our method, outperforming state-of-the-arts on 3DPW, MuPoTS and AGORA datasets.
# Strong-TransCenter:Dense Representations を用いたマルチオブジェクト追跡の改善

Strong-TransCenter: Improved Multi-Object Tracking based on Transformers with Dense Representations ( http://arxiv.org/abs/2210.13570v1 )

ライセンス: Link先を確認
Transformer networks have been a focus of research in many fields in recent years, being able to surpass the state-of-the-art performance in different computer vision tasks. A few attempts have been made to apply this method to the task of Multiple Object Tracking (MOT), among those the state-of-the-art was TransCenter, a transformer-based MOT architecture with dense object queries for accurately tracking all the objects while keeping reasonable runtime. TransCenter is the first center-based transformer framework for MOT, and is also among the first to show the benefits of using transformer-based architectures for MOT. In this paper we show an improvement to this tracker using post processing mechanism based in the Track-by-Detection paradigm: motion model estimation using Kalman filter and target Re-identification using an embedding network. Our new tracker shows significant improvements in the IDF1 and HOTA metrics and comparable results on the MOTA metric (70.9%, 59.8% and 75.8% respectively) on the MOTChallenge MOT17 test dataset and improvement on all 3 metrics (67.5%, 56.3% and 73.0%) on the MOT20 test dataset. Our tracker is currently ranked first among transformer-based trackers in these datasets. The code is publicly available at: https://github.com/amitgalor18/STC_Tracker
# 幻覚による学習--弱い監督を伴う視覚言語事前学習

Learning by Hallucinating: Vision-Language Pre-training with Weak Supervision ( http://arxiv.org/abs/2210.13591v1 )

ライセンス: Link先を確認
Weakly-supervised vision-language (V-L) pre-training (W-VLP) aims at learning cross-modal alignment with little or no paired data, such as aligned images and captions. Recent W-VLP methods, which pair visual features with object tags, help achieve performances comparable with some VLP models trained with aligned pairs in various V-L downstream tasks. This, however, is not the case in cross-modal retrieval (XMR). We argue that the learning of such a W-VLP model is curbed and biased by the object tags of limited semantics. We address the lack of paired V-L data for model supervision with a novel Visual Vocabulary based Feature Hallucinator (WFH), which is trained via weak supervision as a W-VLP model, not requiring images paired with captions. WFH generates visual hallucinations from texts, which are then paired with the originally unpaired texts, allowing more diverse interactions across modalities. Empirically, WFH consistently boosts the prior W-VLP works, e.g. U-VisualBERT (U-VB), over a variety of V-L tasks, i.e. XMR, Visual Question Answering, etc. Notably, benchmarked with recall@{1,5,10}, it consistently improves U-VB on image-to-text and text-to-image retrieval on two popular datasets Flickr30K and MSCOCO. Meanwhile, it gains by at least 14.5% in cross-dataset generalization tests on these XMR tasks. Moreover, in other V-L downstream tasks considered, our WFH models are on par with models trained with paired V-L data, revealing the utility of unpaired data. These results demonstrate greater generalization of the proposed W-VLP model with WFH.
# expunations: punsをキーワードと説明で強化する

ExPUNations: Augmenting Puns with Keywords and Explanations ( http://arxiv.org/abs/2210.13513v1 )

ライセンス: Link先を確認
The tasks of humor understanding and generation are challenging and subjective even for humans, requiring commonsense and real-world knowledge to master. Puns, in particular, add the challenge of fusing that knowledge with the ability to interpret lexical-semantic ambiguity. In this paper, we present the ExPUNations (ExPUN) dataset, in which we augment an existing dataset of puns with detailed crowdsourced annotations of keywords denoting the most distinctive words that make the text funny, pun explanations describing why the text is funny, and fine-grained funniness ratings. This is the first humor dataset with such extensive and fine-grained annotations specifically for puns. Based on these annotations, we propose two tasks: explanation generation to aid with pun classification and keyword-conditioned pun generation, to challenge the current state-of-the-art natural language understanding and generation models' ability to understand and generate humor. We showcase that the annotated keywords we collect are helpful for generating better novel humorous texts in human evaluation, and that our natural language explanations can be leveraged to improve both the accuracy and robustness of humor classifiers.
# 文脈定位パン生成

Context-Situated Pun Generation ( http://arxiv.org/abs/2210.13522v1 )

ライセンス: Link先を確認
Previous work on pun generation commonly begins with a given pun word (a pair of homophones for heterographic pun generation and a polyseme for homographic pun generation) and seeks to generate an appropriate pun. While this may enable efficient pun generation, we believe that a pun is most entertaining if it fits appropriately within a given context, e.g., a given situation or dialogue. In this work, we propose a new task, context-situated pun generation, where a specific context represented by a set of keywords is provided, and the task is to first identify suitable pun words that are appropriate for the context, then generate puns based on the context keywords and the identified pun words. We collect CUP (Context-sitUated Pun), containing 4.5k tuples of context words and pun pairs. Based on the new data and setup, we propose a pipeline system for context-situated pun generation, including a pun word retrieval module that identifies suitable pun words for a given context, and a generation module that generates puns from context keywords and pun words. Human evaluation shows that 69% of our top retrieved pun words can be used to generate context-situated puns, and our generation module yields successful puns 31% of the time given a plausible tuple of context words and pun pair, almost tripling the yield of a state-of-the-art pun generation model. With an end-to-end evaluation, our pipeline system with the top-1 retrieved pun pair for a given context can generate successful puns 40% of the time, better than all other modeling variations but 32% lower than the human success rate. This highlights the difficulty of the task, and encourages more research in this direction.
# 変圧器を用いたオートエンコーダの効果的な事前学習目標

Effective Pre-Training Objectives for Transformer-based Autoencoders ( http://arxiv.org/abs/2210.13536v1 )

ライセンス: Link先を確認
In this paper, we study trade-offs between efficiency, cost and accuracy when pre-training Transformer encoders with different pre-training objectives. For this purpose, we analyze features of common objectives and combine them to create new effective pre-training approaches. Specifically, we designed light token generators based on a straightforward statistical approach, which can replace ELECTRA computationally heavy generators, thus highly reducing cost. Our experiments also show that (i) there are more efficient alternatives to BERT's MLM, and (ii) it is possible to efficiently pre-train Transformer-based models using lighter generators without a significant drop in performance.
# ニューラルネットワークモデルにおける動詞の短期記憶特性

Characterizing Verbatim Short-Term Memory in Neural Language Models ( http://arxiv.org/abs/2210.13569v1 )

ライセンス: Link先を確認
When a language model is trained to predict natural language sequences, its prediction at each moment depends on a representation of prior context. What kind of information about the prior context can language models retrieve? We tested whether language models could retrieve the exact words that occurred previously in a text. In our paradigm, language models (transformers and an LSTM) processed English text in which a list of nouns occurred twice. We operationalized retrieval as the reduction in surprisal from the first to the second list. We found that the transformers retrieved both the identity and ordering of nouns from the first list. Further, the transformers' retrieval was markedly enhanced when they were trained on a larger corpus and with greater model depth. Lastly, their ability to index prior tokens was dependent on learned attention patterns. In contrast, the LSTM exhibited less precise retrieval, which was limited to list-initial tokens and to short intervening texts. The LSTM's retrieval was not sensitive to the order of nouns and it improved when the list was semantically coherent. We conclude that transformers implemented something akin to a working memory system that could flexibly retrieve individual token representations across arbitrary delays; conversely, the LSTM maintained a coarser and more rapidly-decaying semantic gist of prior tokens, weighted toward the earliest items.
# ReaRev: 知識グラフに対する質問応答のための適応型推論

ReaRev: Adaptive Reasoning for Question Answering over Knowledge Graphs ( http://arxiv.org/abs/2210.13650v1 )

ライセンス: Link先を確認
Knowledge Graph Question Answering (KGQA) involves retrieving entities as answers from a Knowledge Graph (KG) using natural language queries. The challenge is to learn to reason over question-relevant KG facts that traverse KG entities and lead to the question answers. To facilitate reasoning, the question is decoded into instructions, which are dense question representations used to guide the KG traversals. However, if the derived instructions do not exactly match the underlying KG information, they may lead to reasoning under irrelevant context. Our method, termed ReaRev, introduces a new way to KGQA reasoning with respect to both instruction decoding and execution. To improve instruction decoding, we perform reasoning in an adaptive manner, where KG-aware information is used to iteratively update the initial instructions. To improve instruction execution, we emulate breadth-first search (BFS) with graph neural networks (GNNs). The BFS strategy treats the instructions as a set and allows our method to decide on their execution order on the fly. Experimental results on three KGQA benchmarks demonstrate the ReaRev's effectiveness compared with previous state-of-the-art, especially when the KG is incomplete or when we tackle complex questions. Our code is publicly available at https://github.com/cmavro/ReaRev_KGQA.
# 単語をローカライズする視覚にインスパイアされた手法

I see what you hear: a vision-inspired method to localize words ( http://arxiv.org/abs/2210.13567v1 )

ライセンス: Link先を確認
This paper explores the possibility of using visual object detection techniques for word localization in speech data. Object detection has been thoroughly studied in the contemporary literature for visual data. Noting that an audio can be interpreted as a 1-dimensional image, object localization techniques can be fundamentally useful for word localization. Building upon this idea, we propose a lightweight solution for word detection and localization. We use bounding box regression for word localization, which enables our model to detect the occurrence, offset, and duration of keywords in a given audio stream. We experiment with LibriSpeech and train a model to localize 1000 words. Compared to existing work, our method reduces model size by 94%, and improves the F1 score by 6.5\%.
# 2段階移動学習を用いた内視鏡画像におけるキドニー石の同定

Boosting Kidney Stone Identification in Endoscopic Images Using Two-Step Transfer Learning ( http://arxiv.org/abs/2210.13654v1 )

ライセンス: Link先を確認
Knowing the cause of kidney stone formation is crucial to establish treatments that prevent recurrence. There are currently different approaches for determining the kidney stone type. However, the reference ex-vivo identification procedure can take up to several weeks, while an in-vivo visual recognition requires highly trained specialists. Machine learning models have been developed to provide urologists with an automated classification of kidney stones during an ureteroscopy; however, there is a general lack in terms of quality of the training data and methods. In this work, a two-step transfer learning approach is used to train the kidney stone classifier. The proposed approach transfers knowledge learned on a set of images of kidney stones acquired with a CCD camera (ex-vivo dataset) to a final model that classifies images from endoscopic images (ex-vivo dataset). The results show that learning features from different domains with similar information helps to improve the performance of a model that performs classification in real conditions (for instance, uncontrolled lighting conditions and blur). Finally, in comparison to models that are trained from scratch or by initializing ImageNet weights, the obtained results suggest that the two-step approach extracts features improving the identification of kidney stones in endoscopic images.
# 非等方性雑音を伴う異種データからの部分空間の復元

Subspace Recovery from Heterogeneous Data with Non-isotropic Noise ( http://arxiv.org/abs/2210.13497v1 )

ライセンス: Link先を確認
Recovering linear subspaces from data is a fundamental and important task in statistics and machine learning. Motivated by heterogeneity in Federated Learning settings, we study a basic formulation of this problem: the principal component analysis (PCA), with a focus on dealing with irregular noise. Our data come from $n$ users with user $i$ contributing data samples from a $d$-dimensional distribution with mean $\mu_i$. Our goal is to recover the linear subspace shared by $\mu_1,\ldots,\mu_n$ using the data points from all users, where every data point from user $i$ is formed by adding an independent mean-zero noise vector to $\mu_i$. If we only have one data point from every user, subspace recovery is information-theoretically impossible when the covariance matrices of the noise vectors can be non-spherical, necessitating additional restrictive assumptions in previous work. We avoid these assumptions by leveraging at least two data points from each user, which allows us to design an efficiently-computable estimator under non-spherical and user-dependent noise. We prove an upper bound for the estimation error of our estimator in general scenarios where the number of data points and amount of noise can vary across users, and prove an information-theoretic error lower bound that not only matches the upper bound up to a constant factor, but also holds even for spherical Gaussian noise. This implies that our estimator does not introduce additional estimation error (up to a constant factor) due to irregularity in the noise. We show additional results for a linear regression problem in a similar setup.
# 専門家によるプライベートオンライン予測:分離と高速化

Private Online Prediction from Experts: Separations and Faster Rates ( http://arxiv.org/abs/2210.13537v1 )

ライセンス: Link先を確認
Online prediction from experts is a fundamental problem in machine learning and several works have studied this problem under privacy constraints. We propose and analyze new algorithms for this problem that improve over the regret bounds of the best existing algorithms for non-adaptive adversaries. For approximate differential privacy, our algorithms achieve regret bounds of $\tilde{O}(\sqrt{T \log d} + \log d/\varepsilon)$ for the stochastic setting and $\tilde O(\sqrt{T \log d} + T^{1/3} \log d/\varepsilon)$ for oblivious adversaries (where $d$ is the number of experts). For pure DP, our algorithms are the first to obtain sub-linear regret for oblivious adversaries in the high-dimensional regime $d \ge T$. Moreover, we prove new lower bounds for adaptive adversaries. Our results imply that unlike the non-private setting, there is a strong separation between the optimal regret for adaptive and non-adaptive adversaries for this problem. Our lower bounds also show a separation between pure and approximate differential privacy for adaptive adversaries where the latter is necessary to achieve the non-private $O(\sqrt{T})$ regret.
# 時間的アンタングル表現学習

Temporally Disentangled Representation Learning ( http://arxiv.org/abs/2210.13647v1 )

ライセンス: Link先を確認
Recently in the field of unsupervised representation learning, strong identifiability results for disentanglement of causally-related latent variables have been established by exploiting certain side information, such as class labels, in addition to independence. However, most existing work is constrained by functional form assumptions such as independent sources or further with linear transitions, and distribution assumptions such as stationary, exponential family distribution. It is unknown whether the underlying latent variables and their causal relations are identifiable if they have arbitrary, nonparametric causal influences in between. In this work, we establish the identifiability theories of nonparametric latent causal processes from their nonlinear mixtures under fixed temporal causal influences and analyze how distribution changes can further benefit the disentanglement. We propose \textbf{\texttt{TDRL}}, a principled framework to recover time-delayed latent causal variables and identify their relations from measured sequential data under stationary environments and under different distribution shifts. Specifically, the framework can factorize unknown distribution shifts into transition distribution changes under fixed and time-varying latent causal relations, and under observation changes in observation. Through experiments, we show that time-delayed latent causal influences are reliably identified and that our approach considerably outperforms existing baselines that do not correctly exploit this modular representation of changes. Our code is available at: \url{https://github.com/weirayao/tdrl}.
# 変圧器を用いた映像ベース物体6次元ポーズ推定

Video based Object 6D Pose Estimation using Transformers ( http://arxiv.org/abs/2210.13540v1 )

ライセンス: Link先を確認
We introduce a Transformer based 6D Object Pose Estimation framework VideoPose, comprising an end-to-end attention based modelling architecture, that attends to previous frames in order to estimate accurate 6D Object Poses in videos. Our approach leverages the temporal information from a video sequence for pose refinement, along with being computationally efficient and robust. Compared to existing methods, our architecture is able to capture and reason from long-range dependencies efficiently, thus iteratively refining over video sequences. Experimental evaluation on the YCB-Video dataset shows that our approach is on par with the state-of-the-art Transformer methods, and performs significantly better relative to CNN based approaches. Further, with a speed of 33 fps, it is also more efficient and therefore applicable to a variety of applications that require real-time object pose estimation. Training code and pretrained models are available at https://github.com/ApoorvaBeedu/VideoPose
# 共同学習は本当に音声翻訳に役立つのか?

Does Joint Training Really Help Cascaded Speech Translation? ( http://arxiv.org/abs/2210.13700v1 )

ライセンス: Link先を確認
Currently, in speech translation, the straightforward approach - cascading a recognition system with a translation system - delivers state-of-the-art results. However, fundamental challenges such as error propagation from the automatic speech recognition system still remain. To mitigate these problems, recently, people turn their attention to direct data and propose various joint training methods. In this work, we seek to answer the question of whether joint training really helps cascaded speech translation. We review recent papers on the topic and also investigate a joint training criterion by marginalizing the transcription posterior probabilities. Our findings show that a strong cascaded baseline can diminish any improvements obtained using joint training, and we suggest alternatives to joint training. We hope this work can serve as a refresher of the current speech translation landscape, and motivate research in finding more efficient and creative ways to utilize the direct data for speech translation.
# 動的エッジコンピューティングにおけるグラフ強化学習に基づくcnn推論オフロード

Graph Reinforcement Learning-based CNN Inference Offloading in Dynamic Edge Computing ( http://arxiv.org/abs/2210.13464v1 )

ライセンス: Link先を確認
This paper studies the computational offloading of CNN inference in dynamic multi-access edge computing (MEC) networks. To address the uncertainties in communication time and Edge servers' available capacity, we use early-exit mechanism to terminate the computation earlier to meet the deadline of inference tasks. We design a reward function to trade off the communication, computation and inference accuracy, and formulate the offloading problem of CNN inference as a maximization problem with the goal of maximizing the average inference accuracy and throughput in long term. To solve the maximization problem, we propose a graph reinforcement learning-based early-exit mechanism (GRLE), which outperforms the state-of-the-art work, deep reinforcement learning-based online offloading (DROO) and its enhanced method, DROO with early-exit mechanism (DROOE), under different dynamic scenarios. The experimental results show that GRLE achieves the average accuracy up to 3.41x over graph reinforcement learning (GRL) and 1.45x over DROOE, which shows the advantages of GRLE for offloading decision-making in dynamic MEC.
# 急激な差別化を伴う微分計画のスケールアップと安定化

Scaling up and Stabilizing Differentiable Planning with Implicit Differentiation ( http://arxiv.org/abs/2210.13542v1 )

ライセンス: Link先を確認
Differentiable planning promises end-to-end differentiability and adaptivity. However, an issue prevents it from scaling up to larger-scale problems: they need to differentiate through forward iteration layers to compute gradients, which couples forward computation and backpropagation, and needs to balance forward planner performance and computational cost of the backward pass. To alleviate this issue, we propose to differentiate through the Bellman fixed-point equation to decouple forward and backward passes for Value Iteration Network and its variants, which enables constant backward cost (in planning horizon) and flexible forward budget and helps scale up to large tasks. We study the convergence stability, scalability, and efficiency of the proposed implicit version of VIN and its variants and demonstrate their superiorities on a range of planning tasks: 2D navigation, visual navigation, and 2-DOF manipulation in configuration space and workspace.
# 強化学習を用いたP2Pエネルギーシステムのエネルギー価格設定

Energy Pricing in P2P Energy Systems Using Reinforcement Learning ( http://arxiv.org/abs/2210.13555v1 )

ライセンス: Link先を確認
The increase in renewable energy on the consumer side gives place to new dynamics in the energy grids. Participants in a microgrid can produce energy and trade it with their peers (peer-to-peer) with the permission of the energy provider. In such a scenario, the stochastic nature of distributed renewable energy generators and energy consumption increases the complexity of defining fair prices for buying and selling energy. In this study, we introduce a reinforcement learning framework to help solve this issue by training an agent to set the prices that maximize the profit of all components in the microgrid, aiming to facilitate the implementation of P2P grids in real-life scenarios. The microgrid considers consumers, prosumers, the service provider, and a community battery. Experimental results on the \textit{Pymgrid} dataset show a successful approach to price optimization for all components in the microgrid. The proposed framework ensures flexibility to account for the interest of these components, as well as the ratio of consumers and prosumers in the microgrid. The results also examine the effect of changing the capacity of the community battery on the profit of the system. The implementation code is available \href{https://github.com/Artifitialleap-MBZUAI/rl-p2p-price-prediction}{here}.
# マルチリレーショナルトランスフォーマによる補助項目関係の逐次推薦

Sequential Recommendation with Auxiliary Item Relationships via Multi-Relational Transformer ( http://arxiv.org/abs/2210.13572v1 )

ライセンス: Link先を確認
Sequential Recommendation (SR) models user dynamics and predicts the next preferred items based on the user history. Existing SR methods model the 'was interacted before' item-item transitions observed in sequences, which can be viewed as an item relationship. However, there are multiple auxiliary item relationships, e.g., items from similar brands and with similar contents in real-world scenarios. Auxiliary item relationships describe item-item affinities in multiple different semantics and alleviate the long-lasting cold start problem in the recommendation. However, it remains a significant challenge to model auxiliary item relationships in SR. To simultaneously model high-order item-item transitions in sequences and auxiliary item relationships, we propose a Multi-relational Transformer capable of modeling auxiliary item relationships for SR (MT4SR). Specifically, we propose a novel self-attention module, which incorporates arbitrary item relationships and weights item relationships accordingly. Second, we regularize intra-sequence item relationships with a novel regularization module to supervise attentions computations. Third, for inter-sequence item relationship pairs, we introduce a novel inter-sequence related items modeling module. Finally, we conduct experiments on four benchmark datasets and demonstrate the effectiveness of MT4SR over state-of-the-art methods and the improvements on the cold start problem. The code is available at https://github.com/zfan20/MT4SR.
# 潜在構造因果モデルを学ぶ

Learning Latent Structural Causal Models ( http://arxiv.org/abs/2210.13583v1 )

ライセンス: Link先を確認
Causal learning has long concerned itself with the accurate recovery of underlying causal mechanisms. Such causal modelling enables better explanations of out-of-distribution data. Prior works on causal learning assume that the high-level causal variables are given. However, in machine learning tasks, one often operates on low-level data like image pixels or high-dimensional vectors. In such settings, the entire Structural Causal Model (SCM) -- structure, parameters, \textit{and} high-level causal variables -- is unobserved and needs to be learnt from low-level data. We treat this problem as Bayesian inference of the latent SCM, given low-level data. For linear Gaussian additive noise SCMs, we present a tractable approximate inference method which performs joint inference over the causal variables, structure and parameters of the latent SCM from random, known interventions. Experiments are performed on synthetic datasets and a causally generated image dataset to demonstrate the efficacy of our approach. We also perform image generation from unseen interventions, thereby verifying out of distribution generalization for the proposed causal model.
# Embodied, Situated, and Grounded Intelligence: AIの意味

Embodied, Situated, and Grounded Intelligence: Implications for AI ( http://arxiv.org/abs/2210.13589v1 )

ライセンス: Link先を確認
In April of 2022, the Santa Fe Institute hosted a workshop on embodied, situated, and grounded intelligence as part of the Institute's Foundations of Intelligence project. The workshop brought together computer scientists, psychologists, philosophers, social scientists, and others to discuss the science of embodiment and related issues in human intelligence, and its implications for building robust, human-level AI. In this report, we summarize each of the talks and the subsequent discussions. We also draw out a number of key themes and identify important frontiers for future research.
# SoTAビジョンモデルの自然変動に対するロバスト性限界

The Robustness Limits of SoTA Vision Models to Natural Variation ( http://arxiv.org/abs/2210.13604v1 )

ライセンス: Link先を確認
Recent state-of-the-art vision models introduced new architectures, learning paradigms, and larger pretraining data, leading to impressive performance on tasks such as classification. While previous generations of vision models were shown to lack robustness to factors such as pose, it's unclear the extent to which this next generation of models are more robust. To study this question, we develop a dataset of more than 7 million images with controlled changes in pose, position, background, lighting, and size. We study not only how robust recent state-of-the-art models are, but also the extent to which models can generalize variation in factors when they're present during training. We consider a catalog of recent vision models, including vision transformers (ViT), self-supervised models such as masked autoencoders (MAE), and models trained on larger datasets such as CLIP. We find out-of-the-box, even today's best models are not robust to common changes in pose, size, and background. When some samples varied during training, we found models required a significant portion of diversity to generalize -- though eventually robustness did improve. When diversity is only seen for some classes however, we found models did not generalize to other classes, unless the classes were very similar to those seen varying during training. We hope our work will shed further light on the blind spots of SoTA models and spur the development of more robust vision models.
# ConvLSTMによるアフリカにおける植生緑度予測の学習

Learning to forecast vegetation greenness at fine resolution over Africa with ConvLSTMs ( http://arxiv.org/abs/2210.13648v1 )

ライセンス: Link先を確認
Forecasting the state of vegetation in response to climate and weather events is a major challenge. Its implementation will prove crucial in predicting crop yield, forest damage, or more generally the impact on ecosystems services relevant for socio-economic functioning, which if absent can lead to humanitarian disasters. Vegetation status depends on weather and environmental conditions that modulate complex ecological processes taking place at several timescales. Interactions between vegetation and different environmental drivers express responses at instantaneous but also time-lagged effects, often showing an emerging spatial context at landscape and regional scales. We formulate the land surface forecasting task as a strongly guided video prediction task where the objective is to forecast the vegetation developing at very fine resolution using topography and weather variables to guide the prediction. We use a Convolutional LSTM (ConvLSTM) architecture to address this task and predict changes in the vegetation state in Africa using Sentinel-2 satellite NDVI, having ERA5 weather reanalysis, SMAP satellite measurements, and topography (DEM of SRTMv4.1) as variables to guide the prediction. Ours results highlight how ConvLSTM models can not only forecast the seasonal evolution of NDVI at high resolution, but also the differential impacts of weather anomalies over the baselines. The model is able to predict different vegetation types, even those with very high NDVI variability during target length, which is promising to support anticipatory actions in the context of drought-related disasters.
# アトラス流 : 多様体上の互換局所構造

Atlas flow : compatible local structures on the manifold ( http://arxiv.org/abs/2210.14149v1 )

ライセンス: Link先を確認
In this paper, we focus on the intersections of a manifold's local structures to analyze the global structure of a manifold. We obtain local regions on data manifolds such as the latent space of StyleGAN2, using Mapper, a tool from topological data analysis. We impose gluing compatibility conditions on overlapping local regions, which guarantee that the local structures can be glued together to the global structure of a manifold. We propose a novel generative flow model called Atlas flow that uses compatibility to reattach the local regions. Our model shows that the generating processes perform well on synthetic dataset samples of well-known manifolds with noise. Furthermore, we investigate the style vector manifold of StyleGAN2 using our model.
# Vitruvio:Single Perspective Sketchesによる3Dビルディングメッシュ

Vitruvio: 3D Building Meshes via Single Perspective Sketches ( http://arxiv.org/abs/2210.13634v1 )

ライセンス: Link先を確認
Today's architectural engineering and construction (AEC) software require a learning curve to generate a three-dimension building representation. This limits the ability to quickly validate the volumetric implications of an initial design idea communicated via a single sketch. Allowing designers to translate a single sketch to a 3D building will enable owners to instantly visualize 3D project information without the cognitive load required. If previous state-of-the-art (SOTA) data-driven methods for single view reconstruction (SVR) showed outstanding results in the reconstruction process from a single image or sketch, they lacked specific applications, analysis, and experiments in the AEC. Therefore, this research addresses this gap, introducing a deep learning method: Vitruvio. Vitruvio adapts Occupancy Network for SVR tasks on a specific building dataset (Manhattan 1K). This adaptation brings two main improvements. First, it accelerates the inference process by more than 26\% (from 0.5s to 0.37s). Second, it increases the reconstruction accuracy (measured by the Chamfer Distance) by 18\%. During this adaptation in the AEC domain, we evaluate the effect of the building orientation in the learning procedure since it constitutes an important design factor. While aligning all the buildings to a canonical pose improved the overall quantitative metrics, it did not capture fine-grain details in more complex building shapes (as shown in our qualitative analysis). Finally, Vitruvio outputs a 3D-printable building mesh with arbitrary topology and genus from a single perspective sketch, providing a step forward to allow owners and designers to communicate 3D information via a 2D, effective, intuitive, and universal communication medium: the sketch.
# 逆インデックスによる言語モデルの質問応答タスクの高速化

Speeding Up Question Answering Task of Language Models via Inverted Index ( http://arxiv.org/abs/2210.13578v1 )

ライセンス: Link先を確認
Natural language processing applications, such as conversational agents and their question-answering capabilities, are widely used in the real world. Despite the wide popularity of large language models (LLMs), few real-world conversational agents take advantage of LLMs. Extensive resources consumed by LLMs disable developers from integrating them into end-user applications. In this study, we leverage an inverted indexing mechanism combined with LLMs to improve the efficiency of question-answering models for closed-domain questions. Our experiments show that using the index improves the average response time by 97.44%. In addition, due to the reduced search scope, the average BLEU score improved by 0.23 while using the inverted index.
# 条件付きリスク-逆コンテキスト帯域

Conditionally Risk-Averse Contextual Bandits ( http://arxiv.org/abs/2210.13573v1 )

ライセンス: Link先を確認
We desire to apply contextual bandits to scenarios where average-case statistical guarantees are inadequate. Happily, we discover the composition of reduction to online regression and expectile loss is analytically tractable, computationally convenient, and empirically effective. The result is the first risk-averse contextual bandit algorithm with an online regret guarantee. We state our precise regret guarantee and conduct experiments from diverse scenarios in dynamic pricing, inventory management, and self-tuning software; including results from a production exascale cloud data processing system.
# 離散イベントシステムのオンライン故障診断のための機械学習によるアプローチ

Machine learning-based approach for online fault Diagnosis of Discrete Event System ( http://arxiv.org/abs/2210.13466v1 )

ライセンス: Link先を確認
The problem considered in this paper is the online diagnosis of Automated Production Systems with sensors and actuators delivering discrete binary signals that can be modeled as Discrete Event Systems. Even though there are numerous diagnosis methods, none of them can meet all the criteria of implementing an efficient diagnosis system (such as an intelligent solution, an average effort, a reasonable cost, an online diagnosis, fewer false alarms, etc.). In addition, these techniques require either a correct, robust, and representative model of the system or relevant data or experts' knowledge that require continuous updates. In this paper, we propose a Machine Learning-based approach of a diagnostic system. It is considered as a multi-class classifier that predicts the plant state: normal or faulty and what fault that has arisen in the case of failing behavior.
# 階層的協調型多車追従のための情報エンハンス状態エンコーダを用いたグレードドドq強化学習

Graded-Q Reinforcement Learning with Information-Enhanced State Encoder for Hierarchical Collaborative Multi-Vehicle Pursuit ( http://arxiv.org/abs/2210.13470v1 )

ライセンス: Link先を確認
The multi-vehicle pursuit (MVP), as a problem abstracted from various real-world scenarios, is becoming a hot research topic in Intelligent Transportation System (ITS). The combination of Artificial Intelligence (AI) and connected vehicles has greatly promoted the research development of MVP. However, existing works on MVP pay little attention to the importance of information exchange and cooperation among pursuing vehicles under the complex urban traffic environment. This paper proposed a graded-Q reinforcement learning with information-enhanced state encoder (GQRL-IESE) framework to address this hierarchical collaborative multi-vehicle pursuit (HCMVP) problem. In the GQRL-IESE, a cooperative graded Q scheme is proposed to facilitate the decision-making of pursuing vehicles to improve pursuing efficiency. Each pursuing vehicle further uses a deep Q network (DQN) to make decisions based on its encoded state. A coordinated Q optimizing network adjusts the individual decisions based on the current environment traffic information to obtain the global optimal action set. In addition, an information-enhanced state encoder is designed to extract critical information from multiple perspectives and uses the attention mechanism to assist each pursuing vehicle in effectively determining the target. Extensive experimental results based on SUMO indicate that the total timestep of the proposed GQRL-IESE is less than other methods on average by 47.64%, which demonstrates the excellent pursuing efficiency of the GQRL-IESE. Codes are outsourced in https://github.com/ANT-ITS/GQRL-IESE.
# 機会論的エピソード強化学習

Opportunistic Episodic Reinforcement Learning ( http://arxiv.org/abs/2210.13504v1 )

ライセンス: Link先を確認
In this paper, we propose and study opportunistic reinforcement learning - a new variant of reinforcement learning problems where the regret of selecting a suboptimal action varies under an external environmental condition known as the variation factor. When the variation factor is low, so is the regret of selecting a suboptimal action and vice versa. Our intuition is to exploit more when the variation factor is high, and explore more when the variation factor is low. We demonstrate the benefit of this novel framework for finite-horizon episodic MDPs by designing and evaluating OppUCRL2 and OppPSRL algorithms. Our algorithms dynamically balance the exploration-exploitation trade-off for reinforcement learning by introducing variation factor-dependent optimism to guide exploration. We establish an $\tilde{O}(HS \sqrt{AT})$ regret bound for the OppUCRL2 algorithm and show through simulations that both OppUCRL2 and OppPSRL algorithm outperform their original corresponding algorithms.
# 強化学習のための因果説明:状態と時間的重要性の定量化

Causal Explanation for Reinforcement Learning: Quantifying State and Temporal Importance ( http://arxiv.org/abs/2210.13507v1 )

ライセンス: Link先を確認
Explainability plays an increasingly important role in machine learning. Because reinforcement learning (RL) involves interactions between states and actions over time, explaining an RL policy is more challenging than that of supervised learning. Furthermore, humans view the world from causal lens and thus prefer causal explanations over associational ones. Therefore, in this paper, we develop a causal explanation mechanism that quantifies the causal importance of states on actions and such importance over time. Moreover, via a series of simulation studies including crop irrigation, Blackjack, collision avoidance, and lunar lander, we demonstrate the advantages of our mechanism over state-of-the-art associational methods in terms of RL policy explanation.
# MEET: バッファサンプリングのためのモンテカルロ探査-エクスプロイテーショントレードオフ

MEET: A Monte Carlo Exploration-Exploitation Trade-off for Buffer Sampling ( http://arxiv.org/abs/2210.13545v1 )

ライセンス: Link先を確認
Data selection is essential for any data-based optimization technique, such as Reinforcement Learning. State-of-the-art sampling strategies for the experience replay buffer improve the performance of the Reinforcement Learning agent. However, they do not incorporate uncertainty in the Q-Value estimation. Consequently, they cannot adapt the sampling strategies, including exploration and exploitation of transitions, to the complexity of the task. To address this, this paper proposes a new sampling strategy that leverages the exploration-exploitation trade-off. This is enabled by the uncertainty estimation of the Q-Value function, which guides the sampling to explore more significant transitions and, thus, learn a more efficient policy. Experiments on classical control environments demonstrate stable results across various environments. They show that the proposed method outperforms state-of-the-art sampling strategies for dense rewards w.r.t. convergence and peak performance by 26% on average.
# 深層強化学習における線形領域の進化の理解

Understanding the Evolution of Linear Regions in Deep Reinforcement Learning ( http://arxiv.org/abs/2210.13611v1 )

ライセンス: Link先を確認
Policies produced by deep reinforcement learning are typically characterised by their learning curves, but they remain poorly understood in many other respects. ReLU-based policies result in a partitioning of the input space into piecewise linear regions. We seek to understand how observed region counts and their densities evolve during deep reinforcement learning using empirical results that span a range of continuous control tasks and policy network dimensions. Intuitively, we may expect that during training, the region density increases in the areas that are frequently visited by the policy, thereby affording fine-grained control. We use recent theoretical and empirical results for the linear regions induced by neural networks in supervised learning settings for grounding and comparison of our results. Empirically, we find that the region density increases only moderately throughout training, as measured along fixed trajectories coming from the final policy. However, the trajectories themselves also increase in length during training, and thus the region densities decrease as seen from the perspective of the current trajectory. Our findings suggest that the complexity of deep reinforcement learning policies does not principally emerge from a significant growth in the complexity of functions observed on-and-around trajectories of the policy.
# 自然言語処理とリカレントニューラルネットワークを用いた新論文における誤情報の分類

Classification of Misinformation in New Articles using Natural Language Processing and a Recurrent Neural Network ( http://arxiv.org/abs/2210.13534v1 )

ライセンス: Link先を確認
This paper seeks to address the classification of misinformation in news articles using a Long Short Term Memory Recurrent Neural Network. Articles were taken from 2018; a year that was filled with reporters writing about President Donald Trump, Special Counsel Robert Mueller, the Fifa World Cup, and Russia. The model presented successfully classifies these articles with an accuracy score of 0.779944. We consider this to be successful because the model was trained on articles that included languages other than English as well as incomplete, or fragmented, articles.
# LANS: 大規模アラビア語ニュース要約コーパス

LANS: Large-scale Arabic News Summarization Corpus ( http://arxiv.org/abs/2210.13600v1 )

ライセンス: Link先を確認
Text summarization has been intensively studied in many languages, and some languages have reached advanced stages. Yet, Arabic Text Summarization (ATS) is still in its developing stages. Existing ATS datasets are either small or lack diversity. We build, LANS, a large-scale and diverse dataset for Arabic Text Summarization task. LANS offers 8.4 million articles and their summaries extracted from newspapers websites metadata between 1999 and 2019. The high-quality and diverse summaries are written by journalists from 22 major Arab newspapers, and include an eclectic mix of at least more than 7 topics from each source. We conduct an intrinsic evaluation on LANS by both automatic and human evaluations. Human evaluation of 1000 random samples reports 95.4% accuracy for our collected summaries, and automatic evaluation quantifies the diversity and abstractness of the summaries. The dataset is publicly available upon request.
# VLC-BERT: 文脈的コモンセンス知識を用いた視覚的質問応答

VLC-BERT: Visual Question Answering with Contextualized Commonsense Knowledge ( http://arxiv.org/abs/2210.13626v1 )

ライセンス: Link先を確認
There has been a growing interest in solving Visual Question Answering (VQA) tasks that require the model to reason beyond the content present in the image. In this work, we focus on questions that require commonsense reasoning. In contrast to previous methods which inject knowledge from static knowledge bases, we investigate the incorporation of contextualized knowledge using Commonsense Transformer (COMET), an existing knowledge model trained on human-curated knowledge bases. We propose a method to generate, select, and encode external commonsense knowledge alongside visual and textual cues in a new pre-trained Vision-Language-Commonsense transformer model, VLC-BERT. Through our evaluation on the knowledge-intensive OK-VQA and A-OKVQA datasets, we show that VLC-BERT is capable of outperforming existing models that utilize static knowledge bases. Furthermore, through a detailed analysis, we explain which questions benefit, and which don't, from contextualized commonsense knowledge from COMET.
# 燃焼深度評価のための人中心XAI

Human-centered XAI for Burn Depth Characterization ( http://arxiv.org/abs/2210.13535v1 )

ライセンス: Link先を確認
Approximately 1.25 million people in the United States are treated each year for burn injuries. Precise burn injury classification is an important aspect of the medical AI field. In this work, we propose an explainable human-in-the-loop framework for improving burn ultrasound classification models. Our framework leverages an explanation system based on the LIME classification explainer to corroborate and integrate a burn expert's knowledge -- suggesting new features and ensuring the validity of the model. Using this framework, we discover that B-mode ultrasound classifiers can be enhanced by supplying textural features. More specifically, we confirm that texture features based on the Gray Level Co-occurance Matrix (GLCM) of ultrasound frames can increase the accuracy of transfer learned burn depth classifiers. We test our hypothesis on real data from porcine subjects. We show improvements in the accuracy of burn depth classification -- from ~88% to ~94% -- once modified according to our framework.
# von Mises-Fisher混合モデルを用いた顔認識における性バイアスの緩和

Mitigating Gender Bias in Face Recognition Using the von Mises-Fisher Mixture Model ( http://arxiv.org/abs/2210.13664v1 )

ライセンス: Link先を確認
In spite of the high performance and reliability of deep learning algorithms in a wide range of everyday applications, many investigations tend to show that a lot of models exhibit biases, discriminating against specific subgroups of the population (e.g. gender, ethnicity). This urges the practitioner to develop fair systems with a uniform/comparable performance across sensitive groups. In this work, we investigate the gender bias of deep Face Recognition networks. In order to measure this bias, we introduce two new metrics, $\mathrm{BFAR}$ and $\mathrm{BFRR}$, that better reflect the inherent deployment needs of Face Recognition systems. Motivated by geometric considerations, we mitigate gender bias through a new post-processing methodology which transforms the deep embeddings of a pre-trained model to give more representation power to discriminated subgroups. It consists in training a shallow neural network by minimizing a Fair von Mises-Fisher loss whose hyperparameters account for the intra-class variance of each gender. Interestingly, we empirically observe that these hyperparameters are correlated with our fairness metrics. In fact, extensive numerical experiments on a variety of datasets show that a careful selection significantly reduces gender bias.
# マルチラベル学習による食品成分認識

Food Ingredients Recognition through Multi-label Learning ( http://arxiv.org/abs/2210.14147v1 )

ライセンス: Link先を確認
The ability to recognize various food-items in a generic food plate is a key determinant for an automated diet assessment system. This study motivates the need for automated diet assessment and proposes a framework to achieve this. Within this framework, we focus on one of the core functionalities to visually recognize various ingredients. To this end, we employed a deep multi-label learning approach and evaluated several state-of-the-art neural networks for their ability to detect an arbitrary number of ingredients in a dish image. The models evaluated in this work follow a definite meta-structure, consisting of an encoder and a decoder component. Two distinct decoding schemes, one based on global average pooling and the other on attention mechanism, are evaluated and benchmarked. Whereas for encoding, several well-known architectures, including DenseNet, EfficientNet, MobileNet, Inception and Xception, were employed. We present promising preliminary results for deep learning-based ingredients detection, using a challenging dataset, Nutrition5K, and establish a strong baseline for future explorations.
# 認知科学における計算推論:操作,社会,倫理的考察

Computational Inference in Cognitive Science: Operational, Societal and Ethical Considerations ( http://arxiv.org/abs/2210.13526v1 )

ライセンス: Link先を確認
Emerging research frontiers and computational advances have gradually transformed cognitive science into a multidisciplinary and data-driven field. As a result, there is a proliferation of cognitive theories investigated and interpreted from different academic lens and in different levels of abstraction. We formulate this applied aspect of this challenge as the computational cognitive inference, and describe the major routes of computational approaches. To balance the potential optimism alongside the speed and scale of the data-driven era of cognitive science, we propose to inspect this trend in more empirical terms by identifying the operational challenges, societal impacts and ethical guidelines in conducting research and interpreting results from the computational inference in cognitive science.
# 自己帰属化は純粋相関にロバスト性を改善するか?

Does Self-Rationalization Improve Robustness to Spurious Correlations? ( http://arxiv.org/abs/2210.13575v1 )

ライセンス: Link先を確認
Rationalization is fundamental to human reasoning and learning. NLP models trained to produce rationales along with predictions, called self-rationalization models, have been investigated for their interpretability and utility to end-users. However, the extent to which training with human-written rationales facilitates learning remains an under-explored question. We ask whether training models to self-rationalize can aid in their learning to solve tasks for the right reasons. Specifically, we evaluate how training self-rationalization models with free-text rationales affects robustness to spurious correlations in fine-tuned encoder-decoder and decoder-only models of six different sizes. We evaluate robustness to spurious correlations by measuring performance on 1) manually annotated challenge datasets and 2) subsets of original test sets where reliance on spurious correlations would fail to produce correct answers. We find that while self-rationalization can improve robustness to spurious correlations in low-resource settings, it tends to hurt robustness in higher-resource settings. Furthermore, these effects depend on model family and size, as well as on rationale content. Together, our results suggest that explainability can come at the cost of robustness; thus, appropriate care should be taken when training self-rationalizing models with the goal of creating more trustworthy models.
# 多言語知識とテキストのモデリング強化のためのアダプタ

Adapters for Enhanced Modeling of Multilingual Knowledge and Text ( http://arxiv.org/abs/2210.13617v1 )

ライセンス: Link先を確認
Large language models appear to learn facts from the large text corpora they are trained on. Such facts are encoded implicitly within their many parameters, making it difficult to verify or manipulate what knowledge has been learned. Language models have recently been extended to multilingual language models (MLLMs), enabling knowledge to be learned across hundreds of languages. Meanwhile, knowledge graphs contain facts in an explicit triple format, which require careful and costly curation and are only available in a few high-resource languages, restricting their research and application. To address these issues, we propose to enhance MLLMs with knowledge from multilingual knowledge graphs (MLKGs) so as to tackle language and knowledge graph tasks across many languages, including low-resource ones. Specifically, we introduce a lightweight adapter set to enhance MLLMs with cross-lingual entity alignment and facts from MLKGs for many languages. Experiments on common benchmarks show that such enhancement benefits both MLLMs and MLKGs, achieving: (1) comparable or improved performance for knowledge graph completion and entity alignment relative to baselines, especially for low-resource languages (for which knowledge graphs are unavailable); and (2) improved MLLM performance on language understanding tasks that require multilingual factual knowledge; all while maintaining performance on other general language tasks.
# 最悪の場合最適化のためのシャープネス認識最小化

Sharpness-aware Minimization for Worst Case Optimization ( http://arxiv.org/abs/2210.13533v1 )

ライセンス: Link先を確認
Improvement of worst group performance and generalization performance are core problems of current machine learning. There are diverse efforts to increase performance, such as weight norm penalty and data augmentation, but the improvements are limited. Recently, there have been two promising approaches to increase the worst group performance and generalization performance, respectively. Distributionally robust optimization (DRO) focuses on the worst or hardest group to improve the worst-group performance. Besides, sharpness-aware minimization (SAM) finds the flat minima to increase the generalization ability on an unseen dataset. They show significant performance improvements on the worst-group dataset and unseen dataset, respectively. However, DRO does not guarantee flatness, and SAM does not guarantee the worst group performance improvement. In other words, DRO and SAM may fail to increase the worst group performance when the training and test dataset shift occurs. In this study, we propose a new approach, the sharpness-aware group distributionally robust optimization (SGDRO). SGDRO finds the flat-minima that generalizes well on the worst group dataset. Different from DRO and SAM, SGDRO contributes to improving the generalization ability even the distribution shift occurs. We validate that SGDRO shows the smaller maximum eigenvalue and improved performance in the worst group.
# 深層学習ダイナミクスのプローブとしてのノイズインジェクション

Noise Injection as a Probe of Deep Learning Dynamics ( http://arxiv.org/abs/2210.13599v1 )

ライセンス: Link先を確認
We propose a new method to probe the learning mechanism of Deep Neural Networks (DNN) by perturbing the system using Noise Injection Nodes (NINs). These nodes inject uncorrelated noise via additional optimizable weights to existing feed-forward network architectures, without changing the optimization algorithm. We find that the system displays distinct phases during training, dictated by the scale of injected noise. We first derive expressions for the dynamics of the network and utilize a simple linear model as a test case. We find that in some cases, the evolution of the noise nodes is similar to that of the unperturbed loss, thus indicating the possibility of using NINs to learn more about the full system in the future.
# 重み付けネットワーク

Weight Fixing Networks ( http://arxiv.org/abs/2210.13554v1 )

ライセンス: Link先を確認
Modern iterations of deep learning models contain millions (billions) of unique parameters, each represented by a b-bit number. Popular attempts at compressing neural networks (such as pruning and quantisation) have shown that many of the parameters are superfluous, which we can remove (pruning) or express with less than b-bits (quantisation) without hindering performance. Here we look to go much further in minimising the information content of networks. Rather than a channel or layer-wise encoding, we look to lossless whole-network quantisation to minimise the entropy and number of unique parameters in a network. We propose a new method, which we call Weight Fixing Networks (WFN) that we design to realise four model outcome objectives: i) very few unique weights, ii) low-entropy weight encodings, iii) unique weight values which are amenable to energy-saving versions of hardware multiplication, and iv) lossless task-performance. Some of these goals are conflicting. To best balance these conflicts, we combine a few novel (and some well-trodden) tricks; a novel regularisation term, (i, ii) a view of clustering cost as relative distance change (i, ii, iv), and a focus on whole-network re-use of weights (i, iii). Our Imagenet experiments demonstrate lossless compression using 56x fewer unique weights and a 1.9x lower weight-space entropy than SOTA quantisation approaches.
# midpoint mixupによるマルチビューデータの多様な特徴の学習

Provably Learning Diverse Features in Multi-View Data with Midpoint Mixup ( http://arxiv.org/abs/2210.13512v1 )

ライセンス: Link先を確認
Mixup is a data augmentation technique that relies on training using random convex combinations of data points and their labels. In recent years, Mixup has become a standard primitive used in the training of state-of-the-art image classification models due to its demonstrated benefits over empirical risk minimization with regards to generalization and robustness. In this work, we try to explain some of this success from a feature learning perspective. We focus our attention on classification problems in which each class may have multiple associated features (or views) that can be used to predict the class correctly. Our main theoretical results demonstrate that, for a non-trivial class of data distributions with two features per class, training a 2-layer convolutional network using empirical risk minimization can lead to learning only one feature for almost all classes while training with a specific instantiation of Mixup succeeds in learning both features for every class. We also show empirically that these theoretical insights extend to the practical settings of image benchmarks modified to have additional synthetic features.
# 音声・言語処理のための強化学習と帯域:チュートリアル, レビュー, 展望

Reinforcement Learning and Bandits for Speech and Language Processing: Tutorial, Review and Outlook ( http://arxiv.org/abs/2210.13623v1 )

ライセンス: Link先を確認
In recent years, reinforcement learning and bandits have transformed a wide range of real-world applications including healthcare, finance, recommendation systems, robotics, and last but not least, the speech and natural language processing. While most speech and language applications of reinforcement learning algorithms are centered around improving the training of deep neural networks with its flexible optimization properties, there are still many grounds to explore to utilize the benefits of reinforcement learning, such as its reward-driven adaptability, state representations, temporal structures and generalizability. In this survey, we present an overview of recent advancements of reinforcement learning and bandits, and discuss how they can be effectively employed to solve speech and natural language processing problems with models that are adaptive, interactive and scalable.
# 法的テキストにおける議論マイニングのための知的指導システムの提案

Toward an Intelligent Tutoring System for Argument Mining in Legal Texts ( http://arxiv.org/abs/2210.13635v1 )

ライセンス: Link先を確認
We propose an adaptive environment (CABINET) to support caselaw analysis (identifying key argument elements) based on a novel cognitive computing framework that carefully matches various machine learning (ML) capabilities to the proficiency of a user. CABINET supports law students in their learning as well as professionals in their work. The results of our experiments focused on the feasibility of the proposed framework are promising. We show that the system is capable of identifying a potential error in the analysis with very low false positives rate (2.0-3.5%), as well as of predicting the key argument element type (e.g., an issue or a holding) with a reasonably high F1-score (0.74).
# AfroLID: アフリカの言語のための言語識別ツール

AfroLID: A Neural Language Identification Tool for African Languages ( http://arxiv.org/abs/2210.11744v2 )

ライセンス: Link先を確認
Language identification (LID) is a crucial precursor for NLP, especially for mining web data. Problematically, most of the world's 7000+ languages today are not covered by LID technologies. We address this pressing issue for Africa by introducing AfroLID, a neural LID toolkit for $517$ African languages and varieties. AfroLID exploits a multi-domain web dataset manually curated from across 14 language families utilizing five orthographic systems. When evaluated on our blind Test set, AfroLID achieves 95.89 F_1-score. We also compare AfroLID to five existing LID tools that each cover a small number of African languages, finding it to outperform them on most languages. We further show the utility of AfroLID in the wild by testing it on the acutely under-served Twitter domain. Finally, we offer a number of controlled case studies and perform a linguistically-motivated error analysis that allow us to both showcase AfroLID's powerful capabilities and limitations.
# おそらく2倍に加速するフェデレーションラーニング: ローカルトレーニングと圧縮コミュニケーションを組み合わせた理論上最初の成功例

Provably Doubly Accelerated Federated Learning: The First Theoretically Successful Combination of Local Training and Compressed Communication ( http://arxiv.org/abs/2210.13277v1 )

ライセンス: Link先を確認
In the modern paradigm of federated learning, a large number of users are involved in a global learning task, in a collaborative way. They alternate local computations and two-way communication with a distant orchestrating server. Communication, which can be slow and costly, is the main bottleneck in this setting. To reduce the communication load and therefore accelerate distributed gradient descent, two strategies are popular: 1) communicate less frequently; that is, perform several iterations of local computations between the communication rounds; and 2) communicate compressed information instead of full-dimensional vectors. In this paper, we propose the first algorithm for distributed optimization and federated learning, which harnesses these two strategies jointly and converges linearly to an exact solution, with a doubly accelerated rate: our algorithm benefits from the two acceleration mechanisms provided by local training and compression, namely a better dependency on the condition number of the functions and on the dimension of the model, respectively.
# 普遍因果深層学習モデルの設計:確率解析による無限次元力学系の場合

Designing Universal Causal Deep Learning Models: The Case of Infinite-Dimensional Dynamical Systems from Stochastic Analysis ( http://arxiv.org/abs/2210.13300v1 )

ライセンス: Link先を確認
Deep learning (DL) is becoming indispensable to contemporary stochastic analysis and finance; nevertheless, it is still unclear how to design a principled DL framework for approximating infinite-dimensional causal operators. This paper proposes a "geometry-aware" solution to this open problem by introducing a DL model-design framework that takes a suitable infinite-dimensional linear metric spaces as inputs and returns a universal sequential DL models adapted to these linear geometries: we call these models Causal Neural Operators (CNO). Our main result states that the models produced by our framework can uniformly approximate on compact sets and across arbitrarily finite-time horizons H\"older or smooth trace class operators which causally map sequences between given linear metric spaces. Consequentially, we deduce that a single CNO can efficiently approximate the solution operator to a broad range of SDEs, thus allowing us to simultaneously approximate predictions from families of SDE models, which is vital to computational robust finance. We deduce that the CNO can approximate the solution operator to most stochastic filtering problems, implying that a single CNO can simultaneously filter a family of partially observed stochastic volatility models.
# 非有界サポートを持つ独立確率変数の学習と総和

Learning and Covering Sums of Independent Random Variables with Unbounded Support ( http://arxiv.org/abs/2210.13313v1 )

ライセンス: Link先を確認
We study the problem of covering and learning sums $X = X_1 + \cdots + X_n$ of independent integer-valued random variables $X_i$ (SIIRVs) with unbounded, or even infinite, support. De et al. at FOCS 2018, showed that the maximum value of the collective support of $X_i$'s necessarily appears in the sample complexity of learning $X$. In this work, we address two questions: (i) Are there general families of SIIRVs with unbounded support that can be learned with sample complexity independent of both $n$ and the maximal element of the support? (ii) Are there general families of SIIRVs with unbounded support that admit proper sparse covers in total variation distance? As for question (i), we provide a set of simple conditions that allow the unbounded SIIRV to be learned with complexity $\text{poly}(1/\epsilon)$ bypassing the aforementioned lower bound. We further address question (ii) in the general setting where each variable $X_i$ has unimodal probability mass function and is a different member of some, possibly multi-parameter, exponential family $\mathcal{E}$ that satisfies some structural properties. These properties allow $\mathcal{E}$ to contain heavy tailed and non log-concave distributions. Moreover, we show that for every $\epsilon > 0$, and every $k$-parameter family $\mathcal{E}$ that satisfies some structural assumptions, there exists an algorithm with $\tilde{O}(k) \cdot \text{poly}(1/\epsilon)$ samples that learns a sum of $n$ arbitrary members of $\mathcal{E}$ within $\epsilon$ in TV distance. The output of the learning algorithm is also a sum of random variables whose distribution lies in the family $\mathcal{E}$. En route, we prove that any discrete unimodal exponential family with bounded constant-degree central moments can be approximated by the family corresponding to a bounded subset of the initial (unbounded) parameter space.
# 未知数の異常値によるマップリカバリのマッチング

Matching Map Recovery with an Unknown Number of Outliers ( http://arxiv.org/abs/2210.13354v1 )

ライセンス: Link先を確認
We consider the problem of finding the matching map between two sets of $d$-dimensional noisy feature-vectors. The distinctive feature of our setting is that we do not assume that all the vectors of the first set have their corresponding vector in the second set. If $n$ and $m$ are the sizes of these two sets, we assume that the matching map that should be recovered is defined on a subset of unknown cardinality $k^*\le \min(n,m)$. We show that, in the high-dimensional setting, if the signal-to-noise ratio is larger than $5(d\log(4nm/\alpha))^{1/4}$, then the true matching map can be recovered with probability $1-\alpha$. Interestingly, this threshold does not depend on $k^*$ and is the same as the one obtained in prior work in the case of $k = \min(n,m)$. The procedure for which the aforementioned property is proved is obtained by a data-driven selection among candidate mappings $\{\hat\pi_k:k\in[\min(n,m)]\}$. Each $\hat\pi_k$ minimizes the sum of squares of distances between two sets of size $k$. The resulting optimization problem can be formulated as a minimum-cost flow problem, and thus solved efficiently. Finally, we report the results of numerical experiments on both synthetic and real-world data that illustrate our theoretical results and provide further insight into the properties of the algorithms studied in this work.
# オフライン混雑ゲーム:フィードバックタイプがデータカバレッジ要求に与える影響

Offline congestion games: How feedback type affects data coverage requirement ( http://arxiv.org/abs/2210.13396v1 )

ライセンス: Link先を確認
This paper investigates when one can efficiently recover an approximate Nash Equilibrium (NE) in offline congestion games.The existing dataset coverage assumption in offline general-sum games inevitably incurs a dependency on the number of actions, which can be exponentially large in congestion games. We consider three different types of feedback with decreasing revealed information. Starting from the facility-level (a.k.a., semi-bandit) feedback, we propose a novel one-unit deviation coverage condition and give a pessimism-type algorithm that can recover an approximate NE. For the agent-level (a.k.a., bandit) feedback setting, interestingly, we show the one-unit deviation coverage condition is not sufficient. On the other hand, we convert the game to multi-agent linear bandits and show that with a generalized data coverage assumption in offline linear bandits, we can efficiently recover the approximate NE. Lastly, we consider a novel type of feedback, the game-level feedback where only the total reward from all agents is revealed. Again, we show the coverage assumption for the agent-level feedback setting is insufficient in the game-level feedback setting, and with a stronger version of the data coverage assumption for linear bandits, we can recover an approximate NE. Together, our results constitute the first study of offline congestion games and imply formal separations between different types of feedback.
# 非構造化データ畳み込み用連続学習型フィルタ

A continuous trainable filter for convolution with unstructured data ( http://arxiv.org/abs/2210.13416v1 )

ライセンス: Link先を確認
Convolutional Neural Network (CNN) is one of the most important architectures in deep learning. The fundamental building block of a CNN is a trainable filter, represented as a discrete grid, used to perform convolution on discrete input data. In this work, we propose a continuous version of a trainable convolutional filter able to work also with unstructured data. This new framework allows exploring CNNs beyond discrete domains, enlarging the usage of this important learning technique for many more complex problems. Our experiments show that the continuous filter can achieve a level of accuracy comparable to the state-of-the-art discrete filter, and that it can be used in current deep learning architectures as a building block to solve problems with unstructured domains as well.
# 物理形ニューラルネットワークのための新しい適応因果サンプリング法

A Novel Adaptive Causal Sampling Method for Physics-Informed Neural Networks ( http://arxiv.org/abs/2210.12914v1 )

ライセンス: Link先を確認
Physics-Informed Neural Networks (PINNs) have become a kind of attractive machine learning method for obtaining solutions of partial differential equations (PDEs). Training PINNs can be seen as a semi-supervised learning task, in which only exact values of initial and boundary points can be obtained in solving forward problems, and in the whole spatio-temporal domain collocation points are sampled without exact labels, which brings training difficulties. Thus the selection of collocation points and sampling methods are quite crucial in training PINNs. Existing sampling methods include fixed and dynamic types, and in the more popular latter one, sampling is usually controlled by PDE residual loss. We point out that it is not sufficient to only consider the residual loss in adaptive sampling and sampling should obey temporal causality. We further introduce temporal causality into adaptive sampling and propose a novel adaptive causal sampling method to improve the performance and efficiency of PINNs. Numerical experiments of several PDEs with high-order derivatives and strong nonlinearity, including Cahn Hilliard and KdV equations, show that the proposed sampling method can improve the performance of PINNs with few collocation points. We demonstrate that by utilizing such a relatively simple sampling method, prediction performance can be improved up to two orders of magnitude compared with state-of-the-art results with almost no extra computation cost, especially when points are limited.
# 完全畳み込みネットワークを用いた単一チャネル表面EMGのECGアーチファクト除去

ECG Artifact Removal from Single-Channel Surface EMG Using Fully Convolutional Networks ( http://arxiv.org/abs/2210.13271v1 )

ライセンス: Link先を確認
Electrocardiogram (ECG) artifact contamination often occurs in surface electromyography (sEMG) applications when the measured muscles are in proximity to the heart. Previous studies have developed and proposed various methods, such as high-pass filtering, template subtraction and so forth. However, these methods remain limited by the requirement of reference signals and distortion of original sEMG. This study proposed a novel denoising method to eliminate ECG artifacts from the single-channel sEMG signals using fully convolutional networks (FCN). The proposed method adopts a denoise autoencoder structure and powerful nonlinear mapping capability of neural networks for sEMG denoising. We compared the proposed approach with conventional approaches, including high-pass filters and template subtraction, on open datasets called the Non-Invasive Adaptive Prosthetics database and MIT-BIH normal sinus rhythm database. The experimental results demonstrate that the FCN outperforms conventional methods in sEMG reconstruction quality under a wide range of signal-to-noise ratio inputs.
# NASA: ハードウェアにインスパイアされたハイブリッドネットワークのためのニューラルアーキテクチャ検索と高速化

NASA: Neural Architecture Search and Acceleration for Hardware Inspired Hybrid Networks ( http://arxiv.org/abs/2210.13361v1 )

ライセンス: Link先を確認
Multiplication is arguably the most cost-dominant operation in modern deep neural networks (DNNs), limiting their achievable efficiency and thus more extensive deployment in resource-constrained applications. To tackle this limitation, pioneering works have developed handcrafted multiplication-free DNNs, which require expert knowledge and time-consuming manual iteration, calling for fast development tools. To this end, we propose a Neural Architecture Search and Acceleration framework dubbed NASA, which enables automated multiplication-reduced DNN development and integrates a dedicated multiplication-reduced accelerator for boosting DNNs' achievable efficiency. Specifically, NASA adopts neural architecture search (NAS) spaces that augment the state-of-the-art one with hardware-inspired multiplication-free operators, such as shift and adder, armed with a novel progressive pretrain strategy (PGP) together with customized training recipes to automatically search for optimal multiplication-reduced DNNs; On top of that, NASA further develops a dedicated accelerator, which advocates a chunk-based template and auto-mapper dedicated for NASA-NAS resulting DNNs to better leverage their algorithmic properties for boosting hardware efficiency. Experimental results and ablation studies consistently validate the advantages of NASA's algorithm-hardware co-design framework in terms of achievable accuracy and efficiency tradeoffs. Codes are available at https://github.com/RICE-EIC/NASA.
# 精密機械学習

Precision Machine Learning ( http://arxiv.org/abs/2210.13447v1 )

ライセンス: Link先を確認
We explore unique considerations involved in fitting ML models to data with very high precision, as is often required for science applications. We empirically compare various function approximation methods and study how they scale with increasing parameters and data. We find that neural networks can often outperform classical approximation methods on high-dimensional examples, by auto-discovering and exploiting modular structures therein. However, neural networks trained with common optimizers are less powerful for low-dimensional cases, which motivates us to study the unique properties of neural network loss landscapes and the corresponding optimization challenges that arise in the high precision regime. To address the optimization issue in low dimensions, we develop training tricks which enable us to train neural networks to extremely low loss, close to the limits allowed by numerical precision.
# 局所的に異なる私的メカニズムの収縮

Contraction of Locally Differentially Private Mechanisms ( http://arxiv.org/abs/2210.13386v1 )

ライセンス: Link先を確認
We investigate the contraction properties of locally differentially private mechanisms. More specifically, we derive tight upper bounds on the divergence between $PK$ and $QK$ output distributions of an $\epsilon$-LDP mechanism $K$ in terms of a divergence between the corresponding input distributions $P$ and $Q$, respectively. Our first main technical result presents a sharp upper bound on the $\chi^2$-divergence $\chi^2(PK\|QK)$ in terms of $\chi^2(P\|Q)$ and $\epsilon$. We also show that the same result holds for a large family of divergences, including KL-divergence and squared Hellinger distance. The second main technical result gives an upper bound on $\chi^2(PK\|QK)$ in terms of total variation distance $TV(P, Q)$ and $\epsilon$. We then utilize these bounds to establish locally private versions of the Cram\'er-Rao bound, Le Cam's, Assouad's, and the mutual information methods, which are powerful tools for bounding minimax estimation risks. These results are shown to lead to better privacy analyses than the state-of-the-arts in several statistical problems such as entropy and discrete distribution estimation, non-parametric density estimation, and hypothesis testing.
# 変圧器を用いた物理系の高精度余剰予測

Accurate Extrinsic Prediction of Physical Systems Using Transformers ( http://arxiv.org/abs/2210.11269v2 )

ライセンス: Link先を確認
Accurate high-altitude wind forecasting is important for air traffic control. And the large volume of data available for this task makes deep neural network-based models a possibility. However, special methods are required because the data is measured only sparsely: along the main aircraft trajectories and arranged sparsely in space, namely along the main air corridors. Several deep learning approaches have been proposed, and in this work, we show that Transformers can fit this data efficiently and are able to extrapolate coherently from a context set. We show this by an extensive comparison of Transformers to numerous existing deep learning-based baselines in the literature. Besides high-altitude wind forecasting, we compare competing models on other dynamical physical systems, namely those modelled by partial differential equations, in particular the Poisson equation and Darcy Flow equation. For these experiments, in the case where the data is arranged non-regularly in space, Transformers outperform all the other evaluated methods. We also compared them in a more standard setup where the data is arranged on a grid and show that the Transformers are competitive with state-of-the-art methods, even though it does not require regular spacing. The code and datasets of the different experiments will be made publicly available at publication time.
# 学術誌のCitation CountとCiteScoreの1年間の予測

Predicting the Citation Count and CiteScore of Journals One Year in Advance ( http://arxiv.org/abs/2210.12908v1 )

ライセンス: Link先を確認
Prediction of the future performance of academic journals is a task that can benefit a variety of stakeholders including editorial staff, publishers, indexing services, researchers, university administrators and granting agencies. Using historical data on journal performance, this can be framed as a machine learning regression problem. In this work, we study two such regression tasks: 1) prediction of the number of citations a journal will receive during the next calendar year, and 2) prediction of the Elsevier CiteScore a journal will be assigned for the next calendar year. To address these tasks, we first create a dataset of historical bibliometric data for journals indexed in Scopus. We propose the use of neural network models trained on our dataset to predict the future performance of journals. To this end, we perform feature selection and model configuration for a Multi-Layer Perceptron and a Long Short-Term Memory. Through experimental comparisons to heuristic prediction baselines and classical machine learning models, we demonstrate superior performance in our proposed models for the prediction of future citation and CiteScore values.
# 積み重ねオートエンコーダを用いたオーロラキロメトリー放射の周波数干渉除去

Removing Radio Frequency Interference from Auroral Kilometric Radiation with Stacked Autoencoders ( http://arxiv.org/abs/2210.12931v1 )

Allen Chang, Mary Knapp, James LaBelle, John Swoboda, Ryan Volz, Philip J. Erickson(参考訳) 天文学における電波データにより、科学者は天体現象を解析できる。 しかし、これらのデータは、根底にある自然過程を観測する能力を制限する無線周波数干渉(RFI)源によって破壊される可能性がある。 本研究では,地球のオーロラ帯から放射されるコヒーレント放射であるオーロラ線放射(AKR)を含む時間周波数スペクトルからRFIを除去するための画像処理の最近の研究を拡張した。 南ポール駅で収集したAKRスペクトログラムを識別するために,合成スペクトログラムで訓練したオーロラ放射用デノナイジングオートエンコーダ(DAARE)を提案する。 DAAREは合成されたAKR観測で42.2のピーク信号-雑音比(PSNR)と0.981の構造的類似性(SSIM)を達成し、最先端のフィルタリングやデノイングネットワークと比較してPSNRを3.9倍、SSIMを0.064倍改善した。 質的な比較は、シミュレーションされたAKRのデータセットで完全にトレーニングされているにもかかわらず、DAAREが実際のAKR観測からRFIを効果的に除去する機能を示している。 AKRをシミュレートし、DAAREをトレーニングし、DAAREを使用するためのフレームワークはhttps://github.com/Cylumn/daare.comでアクセスできる。

翻訳日:2022-10-25 21:46:42 公開日:2022-10-24
# セッションベースレコメンダシステムのためのグラフ上の異種情報交差

Heterogeneous Information Crossing on Graphs for Session-based Recommender Systems ( http://arxiv.org/abs/2210.12940v1 )

Xiaolin Zheng, Rui Wu, Zhongxuan Han, Chaochao Chen, Linxun Chen, Bing Han(参考訳) リコメンダシステムは、ユーザの個性と潜在的なニーズを満たすコンテンツやアイテムを推薦する基本的な情報フィルタリング技術である。 ユーザ識別の難しさと履歴情報の有効性に対処する重要なソリューションとして,セッションベースの推薦システムは,現在のセッションにおけるユーザの行動のみに依存するレコメンデーションサービスを提供する。 しかし、既存の研究のほとんどは、異種ユーザの振る舞いをモデル化し、それらの関係を現実的なシナリオで捉えるために十分に設計されていない。 本稿では,このギャップを埋めるために,新しいグラフベースの手法,すなわちヘテロジニアス・インフォメーション・クロス・オン・グラフ(HICG)を提案する。 HICGはセッション内の複数の種類のユーザ行動を利用して不均一なグラフを構築し、不均一な情報を効果的に渡すことで、長期的嗜好によってユーザの現在の関心を捉える。 また,項目表現能力を高めるために,コントラスト学習(CL)技術を取り入れたHICG-CLという拡張版も提案する。 HICG-CLは,各セッション間の項目共起関係を利用して,HICGの推薦性能を向上させる。 3つの実世界のレコメンデーションデータセットについて広範な実験を行い,その検証を行った。 (i)HICGは異種グラフ上の複数種類の挙動を利用して最先端の性能を達成する。 (II)HICG-CLは、提案したコントラスト学習モジュールによるHICGの推奨性能をさらに向上させる。

翻訳日:2022-10-25 21:46:16 公開日:2022-10-24
# 量子アニールを用いた学習因子化機械推薦システムの開発

Implementation of Trained Factorization Machine Recommendation System on Quantum Annealer ( http://arxiv.org/abs/2210.12953v1 )

Chen-Yu Liu, Hsin-Yu Wang, Pei-Yen Liao, Ching-Jui Lai, Min-Hsiu Hsieh(参考訳) 因子化マシン(FM)は、サイド情報を組み込んで性能を向上させるため、推奨システムを構築するのに最もよく使われるモデルである。 しかし、訓練されたFMを持つユーザに対してアイテム提案を作成するのに時間を要する。 ランタイムは$O((N_m \log N_m)^2)$で、$N_m$はデータセットの項目数である。 この問題に対処するために、FMと組み合わせて量子アニーリング(QA)計算を適用する2次非制約バイナリ最適化(QUBO)方式を提案する。 従来の手法と比較して、このハイブリッドアルゴリズムは良いユーザ提案を見つけるのに2次的なスピードアップよりも高速である。 次に、D-Waveアニーラーの実例を実験することにより、現在のNISQハードウェア上での計算上の優位性を実証する。

翻訳日:2022-10-25 21:45:50 公開日:2022-10-24
# ベイズ深層学習の最適化と刈り取りについて

On the optimization and pruning for Bayesian deep learning ( http://arxiv.org/abs/2210.12957v1 )

Xiongwen Ke and Yanan Fan(参考訳) ベイズ深層学習の目的は、後方分布による不確実性定量化を提供することである。 しかし、ニューラルネットワークの超高次元のため、重み空間上の正確な推論は計算的に難解である。 変分推論(VI)は有望なアプローチであるが、重み空間への単純適用はうまくスケールせず、しばしば予測精度に劣る。 本稿では,予測精度の高い重み空間上でニューラルネットワークを学習するための適応型変分ベイズアルゴリズムを提案する。 予備条件行列を持つ確率勾配ハミルトンモンテカルロ(sghmc)の等価性を示すことによって、ニューラルネットワークのスパーシティを捉える前にスパイク・アンド・スラブを組み込んだemアルゴリズム内のmcmcを提案する。 EM-MCMCアルゴリズムにより,ワンショットで最適化とモデルプルーニングを行うことができる。 我々は、cifar-10、cifar-100、imagenetデータセットの手法を評価し、我々の密集したモデルが最先端の性能に到達できることを実証し、我々のスパースモデルは、以前提案していたプルーニング方式と比較して非常によく機能することを示した。

翻訳日:2022-10-25 21:45:37 公開日:2022-10-24
# 負荷・太陽光発電予測を用いた最適動作とバッテリースケジューリングアルゴリズム

Optimal activity and battery scheduling algorithm using load and solar generation forecasts ( http://arxiv.org/abs/2210.12990v1 )

Yogesh Pipada Sunil Kumar, Rui Yuan, Nam Trong Dinh and S. Ali Pourmousavi(参考訳) エネルギー利用の最適スケジューリングは、様々な手法が提案されている電力システムコミュニティにおいて大きな注目を集めている。 しかし、現実のアプリケーションでは、最適なスケジューリング問題は信頼できるエネルギー予測を必要とするため、スケジューリング問題のジョイントソリューションとしてはほとんど議論されていない。 5\textsuperscript{th} IEEEComputational Intelligence Society (IEEE-CIS)コンペティションは、太陽エネルギーの発生と建設消費の予測が不可欠である建築活動のスケジューリングによる電力料金の削減という実践的な問題を提起した。 そこで,本稿では,太陽光発電の予測手法と大学講義スケジューリングアルゴリズムを提案するため,太陽光発電と需要予測と最適スケジューリング問題に取り組むための技術シーケンスを提案する。

翻訳日:2022-10-25 21:45:16 公開日:2022-10-24
# アウト・オブ・ディストリビューション・シークエンシャル・イベント予測に向けて:因果的治療

Towards Out-of-Distribution Sequential Event Prediction: A Causal Treatment ( http://arxiv.org/abs/2210.13005v1 )

Chenxiao Yang, Qitian Wu, Qingsong Wen, Zhiqiang Zhou, Liang Sun, Junchi Yan(参考訳) 逐次イベント予測の目標は, 逐次的レコメンデーション, ユーザ行動分析, 臨床治療への応用を含む, 過去の事象の系列に基づいて次の事象を推定することである。 実際には、次のイベント予測モデルは、一度に収集されたシーケンシャルなデータでトレーニングされ、トレーニングからテストへの時間的分散シフトを処理するモデルを必要とする、リモートで新たに到着したシーケンスに一般化する必要がある。 本稿では,まずデータ生成の観点から,過去事象と次の事象の共通原因である潜在コンテクストの共同設立者による分散シフトにおいて,最大確率推定による既存アプローチが失敗するという負の結果を明らかにする。 そして,バックドア調整に基づく新しい学習目標を考案し,さらに変分推論を活用し,シーケンス学習問題に適用可能とした。 さらに,コンテキスト固有の表現を学習するための階層的分岐構造を持つフレームワークを提案する。 多様なタスク(例えばシーケンシャルレコメンデーション)に関する総合的な実験は、様々なオフザシェルフモデルをバックボーンとして、我々の手法の有効性、適用性、拡張性を実証する。

翻訳日:2022-10-25 21:45:00 公開日:2022-10-24
# occam学習

Occam learning ( http://arxiv.org/abs/2210.13179v1 )

Rongrong Xie and Matteo Marsili(参考訳) 隠れ層の分布が固定された教師なし学習のための確率論的ニューラルネットワークモデルについて議論する。 このアーキテクチャで学習する機械には,多くの望ましい特性がある,と我々は主張する。 例えば、モデルは単純で解釈可能なものとして選択することができ、過剰なパラメータを持つ必要はなく、熱力学的な意味での効率的なトレーニングが主張されている。 隠れ単位がバイナリ変数である場合、これらのモデルは特徴の観点から自然な解釈を持つ。 特徴のない状態は特徴に関する最大無知の状態に対応し、最初の特徴の学習はデータの非ガウス統計特性に依存することを示した。 隠れた変数の分布は、最大関連性の原理に従って選択すべきである。 我々は,この原則を満たし,特徴空間の事前構造を符号化するモデルの一例として,階層的特徴モデルを紹介する。 大規模数値実験を順に提示する。 一 学習機械の内部表現が、実際に訓練されたデータから独立して行うことができることをテストすること。 ii)データセットを記述するのに必要な機能は有限個しかないこと。

翻訳日:2022-10-25 21:44:26 公開日:2022-10-24
# データのバイアス同定によるMLモデルフェアネスと性能の同時向上

Simultaneous Improvement of ML Model Fairness and Performance by Identifying Bias in Data ( http://arxiv.org/abs/2210.13182v1 )

Bhushan Chaudhari, Akash Agarwal, Tanmoy Bhowmik(参考訳) さまざまな要因に起因する識別インスタンスを含むデータセット上に構築された機械学習モデルは、バイアスと不公平な結果をもたらす。 既存のバイアス軽減戦略が、公正性を確保するために正確さを犠牲にすることがよくあります。 しかし、aiエンジンの予測が、信用リスクモデリングのような収益や運用効率を反映した意思決定に使用される場合、正確性が合理的に保たれるならば、ビジネスにとって望ましいでしょう。 このAIの正確性と公正性を維持するという矛盾する要件は、我々の研究を動機付けている。 本稿では,現実パラダイムにおけるMLモデルの公平性と精度を同時に向上するための新しいアプローチを提案する。 私たちの研究の本質は、トレーニング前にデータセットから削除すべき特定の種類のバイアスを記述したインスタンスを検出できるデータ前処理技術です。 特に,類似した機能を持つインスタンスが存在するが,保護属性の変動に起因するラベルが異なる問題では,データセットに固有のバイアスが引き起こされ,新たなスキームを通じて識別・緩和できると主張している。 2つのオープンソースデータセットに対する実験的な評価は、提案手法が精度を劣化させるよりもバイアスを緩和し、エンドユーザーに一定の制御を提供することを実証している。

翻訳日:2022-10-25 21:44:10 公開日:2022-10-24
# AACHER:Hindsight Experience Replayによるアクター批判的深層強化学習

AACHER: Assorted Actor-Critic Deep Reinforcement Learning with Hindsight Experience Replay ( http://arxiv.org/abs/2210.12892v1 )

Adarsh Sehgal, Muskan Sehgal and Hung Manh La(参考訳) アクター学習と批判学習は、卓越した、主に使われているDeep Deterministic Policy Gradient(DDPG)強化学習法の2つの構成要素である。 アクターと批評家の学習はロボット全体の学習において重要な役割を果たすため、DDPGアプローチのパフォーマンスは比較的敏感で不安定である。 本稿では,DDPGの性能と安定性をさらに向上させるために,信頼性の高いアクター・クリティック学習のためのマルチアクタ・クリティックDDPGを提案する。 このマルチアクター批判型DDPGは、Hindsight Experience Replay(HER)と統合され、AACHERと呼ばれる新しいディープラーニングフレームワークを形成します。 AACHERは、複数の俳優や批評家の平均値を用いて、DDPGの1人の俳優や批評家に代えて、1人の俳優や批評家が不運な場合の抵抗を高める。 多くの独立系俳優や批評家は、環境からより広く知識を得ることができる。 提案したAACHERを,AuboReach,FetchReach-v1,FetchPush-v1,FetchSlide-v1,FetchPickAndPlace-v1という目標ベースの環境に実装した。 実験では,a10c10とa20c20が最適な組み合わせであるアクタ/クリティックの組み合わせを多用した。 その結果、AACHERは従来のアルゴリズム(DDPG+HER)よりも、評価に用いられるアクター/批評家の数字の組み合わせに優れていた。 FetchPickAndPlace-v1で使用する場合、A20C20のパフォーマンス向上率はDDPG+HERの約3.8倍である。

翻訳日:2022-10-25 21:35:05 公開日:2022-10-24
# ディファレンシャル・プライバシ・レンズを用いた一般確率比テスト

Generalised Likelihood Ratio Testing Adversaries through the Differential Privacy Lens ( http://arxiv.org/abs/2210.13028v1 )

Georgios Kaissis, Alexander Ziller, Stefan Kolek Martinez de Azagra, Daniel Rueckert(参考訳) 差別化プライバシ(DP)は最適な敵の能力に厳格な上限を与えるが、そのような敵が実際に遭遇することは稀である。 DPの仮説テスト/メンバーシップ推論の解釈では、ガウスのメカニズムを検証し、一般的なNPO(Neyman-Pearson-Optimal)とGLRT(Generalized Likelihood Test)の対立の仮定を緩和する。 この緩やかな緩和によりプライバシー保証が改善され、ガウシアンDPと$(\varepsilon, \delta)$-DPの精神を表現し、合成結果とサブサンプリング結果を含む。 実験結果を数値的に評価し,理論上界に合致する結果を得た。

翻訳日:2022-10-25 21:19:30 公開日:2022-10-24
# 自動運転はどれくらい悪いのか? 都市走行ゲームにおける平衡の非効率性

How Bad is Selfish Driving? Bounding the Inefficiency of Equilibria in Urban Driving Games ( http://arxiv.org/abs/2210.13064v1 )

Alessandro Zanardi, Pier Giuseppe Sessa, Nando K\"aslin, Saverio Bolognani, Andrea Censi, Emilio Frazzoli(参考訳) 我々は,運転作業に携わるエージェント間のインタラクションを検討し,それを汎用ゲームとしてモデル化する。 このクラスのゲームは、平衡選択の問題を示す複数の異なる平衡を示す。 最も効率的な均衡(社会的コストの観点で)を選択することは、しばしば計算の観点からは非現実的であるが、この研究では、任意の均衡選手の効率性について研究する。 より具体的には、時空間資源上の特定の種類の混雑ゲームとして駆動ゲームをモデル化することで平衡非効率性に縛り付ける。 問題依存型ゲームパラメータの関数として,Price of Anarchy (PoA) の既存の境界を洗練できることを保証する。 例えば、近接コストと快適さや進歩といった個人的な目的との相対的なトレードオフ。 その結果, エージェントが分散型マルチエージェント強化学習を用いて訓練された閉ループポリシーを採用する場合においても, 効率の良い平衡性が得られることがわかった。

翻訳日:2022-10-25 21:19:10 公開日:2022-10-24
# SLSアルゴリズムの長期実行の理解に向けて

Towards an Understanding of Long-Tailed Runtimes of SLS Algorithms ( http://arxiv.org/abs/2210.13159v1 )

Jan-Hendrik Lorenz and Florian W\"orz(参考訳) 満足度問題はコンピュータ科学における最も有名な問題の1つである。 そのNP完全性は、SATは難解であると主張するのに使われている。 しかし、SATソルバが数百万の変数でインスタンスを解くことができるような大きな進歩があった。 特に成功したパラダイムは確率的局所探索である。 ほとんどの場合、基礎となる問題を定式化する方法は様々である。 これはソルバのランタイムに影響を与えることが知られているが、有用な定式化を見つけることは概して簡単ではない。 最近導入されたGapSATソルバ [Lorenz and W\"orz 2020] は、元の問題から論理的に関連する追加情報を学習することで、SLSソルバの性能を平均的に向上する方法を実証した。 しかし、パフォーマンスがわずかに悪化するケースもあった。 これは、論理的含意の学習がSLSのランタイムに与える影響について、詳細な調査を正当化する。 本稿では,論理的に等価な問題定式化を生成する手法を提案し,GapSATの考え方を一般化する。 これにより、slsソルバのランタイムに与える影響の厳密な数学的研究が可能になる。 修正過程がランダムに扱われる場合、ジョンソンsb分布は硬さの完全な特徴付けを提供する。 観測されたJohnson SB分布は対数正規分布に近づいたため、我々の分析は硬度が長いことも示唆している。 第2の貢献として、再起動が長期分布に有用であることを理論的に証明する。 このことは、追加の再起動が上記の修正技法を用いた全てのアルゴリズムをさらに洗練することを意味する。 実験的な研究は、ランタイム分布がJohnson SB分布に従うことを強く示唆するので、理論的にこの性質を調査する。 我々はSch\"oningのランダムウォークアルゴリズムのランタイムがおよそJohnson SBであることを証明することに成功している。

翻訳日:2022-10-25 21:18:53 公開日:2022-10-24
# メタバースのための安全で信頼できる人工知能拡張現実感(AI-XR)

Secure and Trustworthy Artificial Intelligence-Extended Reality (AI-XR) for Metaverses ( http://arxiv.org/abs/2210.13289v1 )

ライセンス: Link先を確認
Metaverse is expected to emerge as a new paradigm for the next-generation Internet, providing fully immersive and personalised experiences to socialize, work, and play in self-sustaining and hyper-spatio-temporal virtual world(s). The advancements in different technologies like augmented reality, virtual reality, extended reality (XR), artificial intelligence (AI), and 5G/6G communication will be the key enablers behind the realization of AI-XR metaverse applications. While AI itself has many potential applications in the aforementioned technologies (e.g., avatar generation, network optimization, etc.), ensuring the security of AI in critical applications like AI-XR metaverse applications is profoundly crucial to avoid undesirable actions that could undermine users' privacy and safety, consequently putting their lives in danger. To this end, we attempt to analyze the security, privacy, and trustworthiness aspects associated with the use of various AI techniques in AI-XR metaverse applications. Specifically, we discuss numerous such challenges and present a taxonomy of potential solutions that could be leveraged to develop secure, private, robust, and trustworthy AI-XR applications. To highlight the real implications of AI-associated adversarial threats, we designed a metaverse-specific case study and analyzed it through the adversarial lens. Finally, we elaborate upon various open issues that require further research interest from the community.
# 対話的推論:協調行動のマルチエージェントモデル

Interactive inference: a multi-agent model of cooperative joint actions ( http://arxiv.org/abs/2210.13113v1 )

ライセンス: Link先を確認
We advance a novel computational model of multi-agent, cooperative joint actions that is grounded in the cognitive framework of active inference. The model assumes that to solve a joint task, such as pressing together a red or blue button, two (or more) agents engage in a process of interactive inference. Each agent maintains probabilistic beliefs about the goal of the joint task (e.g., should we press the red or blue button?) and updates them by observing the other agent's movements, while in turn selecting movements that make his own intentions legible and easy to infer by the other agent (i.e., sensorimotor communication). Over time, the interactive inference aligns both the beliefs and the behavioral strategies of the agents, hence ensuring the success of the joint action. We exemplify the functioning of the model in two simulations. The first simulation illustrates a ''leaderless'' joint action. It shows that when two agents lack a strong preference about their joint task goal, they jointly infer it by observing each other's movements. In turn, this helps the interactive alignment of their beliefs and behavioral strategies. The second simulation illustrates a "leader-follower" joint action. It shows that when one agent ("leader") knows the true joint goal, it uses sensorimotor communication to help the other agent ("follower") infer it, even if doing this requires selecting a more costly individual plan. These simulations illustrate that interactive inference supports successful multi-agent joint actions and reproduces key cognitive and behavioral dynamics of "leaderless" and "leader-follower" joint actions observed in human-human experiments. In sum, interactive inference provides a cognitively inspired, formal framework to realize cooperative joint actions and consensus in multi-agent systems.
# 不均衡画像データセットにおける核分割と分類のためのGradMix

GradMix for nuclei segmentation and classification in imbalanced pathology image datasets ( http://arxiv.org/abs/2210.12938v1 )

ライセンス: Link先を確認
An automated segmentation and classification of nuclei is an essential task in digital pathology. The current deep learning-based approaches require a vast amount of annotated datasets by pathologists. However, the existing datasets are imbalanced among different types of nuclei in general, leading to a substantial performance degradation. In this paper, we propose a simple but effective data augmentation technique, termed GradMix, that is specifically designed for nuclei segmentation and classification. GradMix takes a pair of a major-class nucleus and a rare-class nucleus, creates a customized mixing mask, and combines them using the mask to generate a new rare-class nucleus. As it combines two nuclei, GradMix considers both nuclei and the neighboring environment by using the customized mixing mask. This allows us to generate realistic rare-class nuclei with varying environments. We employed two datasets to evaluate the effectiveness of GradMix. The experimental results suggest that GradMix is able to improve the performance of nuclei segmentation and classification in imbalanced pathology image datasets.
# CMU-Net: 医用超音波画像分割ネットワーク

CMU-Net: A Strong ConvMixer-based Medical Ultrasound Image Segmentation Network ( http://arxiv.org/abs/2210.13012v1 )

ライセンス: Link先を確認
U-Net and its extended segmentation model have achieved great success in medical image segmentation tasks. However, due to the inherent local characteristics of ordinary convolution operations, the encoder cannot effectively extract the global context information. In addition, simple skip connection cannot capture salient features. In this work, we propose a full convolutional segmentation network (CMU-Net) which incorporate hybrid convolution and multi-scale attention gate. The ConvMixer module is to mix distant spatial locations for extracting the global context information. Moreover, the multi-scale attention gate can help to emphasize valuable features and achieve efficient skip connections. Evaluations on open-source breast ultrasound images and private thyroid ultrasound image datasets show that CMU-Net achieves an average IOU of 73.27% and 84.75%, F1-value is 84.16% and 91.71%. The code is available at https://github.com/FengheTan9/CMU-Net.
# 境界線:局所的近傍統計による3次元点雲のニューラル境界とエッジ検出

BoundED: Neural Boundary and Edge Detection in 3D Point Clouds via Local Neighborhood Statistics ( http://arxiv.org/abs/2210.13305v1 )

ライセンス: Link先を確認
Extracting high-level structural information from 3D point clouds is challenging but essential for tasks like urban planning or autonomous driving requiring an advanced understanding of the scene at hand. Existing approaches are still not able to produce high-quality results consistently while being fast enough to be deployed in scenarios requiring interactivity. We propose to utilize a novel set of features describing the local neighborhood on a per-point basis via first and second order statistics as input for a simple and compact classification network to distinguish between non-edge, sharp-edge, and boundary points in the given data. Leveraging this feature embedding enables our algorithm to outperform the state-of-the-art techniques in terms of quality and processing time.
# 共同学習型ビジョンランゲージモデルを用いた指示追従エージェント

Instruction-Following Agents with Jointly Pre-Trained Vision-Language Models ( http://arxiv.org/abs/2210.13431v1 )

ライセンス: Link先を確認
Humans are excellent at understanding language and vision to accomplish a wide range of tasks. In contrast, creating general instruction-following embodied agents remains a difficult challenge. Prior work that uses pure language-only models lack visual grounding, making it difficult to connect language instructions with visual observations. On the other hand, methods that use pre-trained vision-language models typically come with divided language and visual representations, requiring designing specialized network architecture to fuse them together. We propose a simple yet effective model for robots to solve instruction-following tasks in vision-based environments. Our \ours method consists of a multimodal transformer that encodes visual observations and language instructions, and a policy transformer that predicts actions based on encoded representations. The multimodal transformer is pre-trained on millions of image-text pairs and natural language text, thereby producing generic cross-modal representations of observations and instructions. The policy transformer keeps track of the full history of observations and actions, and predicts actions autoregressively. We show that this unified transformer model outperforms all state-of-the-art pre-trained or trained-from-scratch methods in both single-task and multi-task settings. Our model also shows better model scalability and generalization ability than prior work.
# 赤外・可視画像融合のための注意誘導・ウェーブレット拘束型生成対向ネットワーク

An Attention-Guided and Wavelet-Constrained Generative Adversarial Network for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2210.11018v2 )

ライセンス: Link先を確認
The GAN-based infrared and visible image fusion methods have gained ever-increasing attention due to its effectiveness and superiority. However, the existing methods adopt the global pixel distribution of source images as the basis for discrimination, which fails to focus on the key modality information. Moreover, the dual-discriminator based methods suffer from the confrontation between the discriminators. To this end, we propose an attention-guided and wavelet-constrained GAN for infrared and visible image fusion (AWFGAN). In this method, two unique discrimination strategies are designed to improve the fusion performance. Specifically, we introduce the spatial attention modules (SAM) into the generator to obtain the spatial attention maps, and then the attention maps are utilized to force the discrimination of infrared images to focus on the target regions. In addition, we extend the discrimination range of visible information to the wavelet subspace, which can force the generator to restore the high-frequency details of visible images. Ablation experiments demonstrate the effectiveness of our method in eliminating the confrontation between discriminators. And the comparison experiments on public datasets demonstrate the effectiveness and superiority of the proposed method.
# ドメイン選択が自動音声認識性能に及ぼす影響の検討:バングラデシュ・バングラデシュを事例として

Investigating the effect of domain selection on automatic speech recognition performance: a case study on Bangladeshi Bangla ( http://arxiv.org/abs/2210.12921v1 )

ライセンス: Link先を確認
The performance of data-driven natural language processing systems is contingent upon the quality of corpora. However, principal corpus design criteria are often not identified and examined adequately, particularly in the speech processing discipline. Speech corpora development requires additional attention with regard to clean/noisy, read/spontaneous, multi-talker speech, accents/dialects, etc. Domain selection is also a crucial decision point in speech corpus development. In this study, we demonstrate the significance of domain selection by assessing a state-of-the-art Bangla automatic speech recognition (ASR) model on a novel multi-domain Bangladeshi Bangla ASR evaluation benchmark - BanSpeech, which contains 7.2 hours of speech and 9802 utterances from 19 distinct domains. The ASR model has been trained with deep convolutional neural network (CNN), layer normalization technique, and Connectionist Temporal Classification (CTC) loss criterion on SUBAK.KO, a mostly read speech corpus for the low-resource and morphologically rich language Bangla. Experimental evaluation reveals the ASR model on SUBAK.KO faces difficulty recognizing speech from domains with mostly spontaneous speech and has a high number of out-of-vocabulary (OOV) words. The same ASR model, on the other hand, performs better in read speech domains and contains fewer OOV words. In addition, we report the outcomes of our experiments with layer normalization, input feature extraction, number of convolutional layers, etc., and set a baseline on SUBAK.KO. The BanSpeech will be publicly available to meet the need for a challenging evaluation benchmark for Bangla ASR.
# 事前学習した音声エンコーダの自己教師ありリワイリング : 音声処理におけるラベルの少ない高速微調整に向けて

Self-supervised Rewiring of Pre-trained Speech Encoders: Towards Faster Fine-tuning with Less Labels in Speech Processing ( http://arxiv.org/abs/2210.13030v1 )

ライセンス: Link先を確認
Pre-trained speech Transformers have facilitated great success across various speech processing tasks. However, fine-tuning these encoders for downstream tasks require sufficiently large training data to converge or to achieve state-of-the-art. In text domain this has been partly attributed to sub-optimality of the representation space in pre-trained Transformers. In this work, we take a sober look into pre-trained speech encoders and rewire their representation space without requiring any task-specific labels. Our method utilises neutrally synthesised version of audio inputs along with frame masking to construct positive pairs for contrastive self-supervised learning. When used for augmenting the wav2vec 2 encoder, we observe consistent improvement of isotropy in the representation space. Our experiments on 6 speech processing tasks, exhibit a significant convergence speedup during task fine-tuning as well as consistent task improvement, specially in low-resource settings.
# メッセージパッシングモデルの非逐次階層

A non-sequential hierarchy of message-passing models ( http://arxiv.org/abs/2210.13062v1 )

ライセンス: Link先を確認
There is a wide variety of message-passing communication models, ranging from synchronous ''rendez-vous'' communications to fully asynchronous/out-of-order communications. For large-scale distributed systems, the communication model is determined by the transport layer of the network, and a few classes of orders of message delivery (FIFO, causally ordered) have been identified in the early days of distributed computing. For local-scale message-passing applications, e.g., running on a single machine, the communication model may be determined by the actual implementation of message buffers and by how FIFO queues are used. While large-scale communication models, such as causal ordering, are defined by logical axioms, local-scale models are often defined by an operational semantics. In this work, we connect these two approaches, and we present a unified hierarchy of communication models encompassing both large-scale and local-scale models, based on their non-sequential behaviors. We also show that all the communication models we consider can be axiomatised in the monadic second order logic, and may therefore benefit from several bounded verification techniques based on bounded special treewidth. CCS Concepts: $\bullet$ Theory of computation $\rightarrow$ Verification by model checking; Modal and temporal logics; Distributed computing models.
# wav2vec 2.0を用いたl2話者英語の習熟度評価

Proficiency assessment of L2 spoken English using wav2vec 2.0 ( http://arxiv.org/abs/2210.13168v1 )

ライセンス: Link先を確認
The increasing demand for learning English as a second language has led to a growing interest in methods for automatically assessing spoken language proficiency. Most approaches use hand-crafted features, but their efficacy relies on their particular underlying assumptions and they risk discarding potentially salient information about proficiency. Other approaches rely on transcriptions produced by ASR systems which may not provide a faithful rendition of a learner's utterance in specific scenarios (e.g., non-native children's spontaneous speech). Furthermore, transcriptions do not yield any information about relevant aspects such as intonation, rhythm or prosody. In this paper, we investigate the use of wav2vec 2.0 for assessing overall and individual aspects of proficiency on two small datasets, one of which is publicly available. We find that this approach significantly outperforms the BERT-based baseline system trained on ASR and manual transcriptions used for comparison.
# ESB:マルチドメインエンドツーエンド音声認識のためのベンチマーク

ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition ( http://arxiv.org/abs/2210.13352v1 )

ライセンス: Link先を確認
Speech recognition applications cover a range of different audio and text distributions, with different speaking styles, background noise, transcription punctuation and character casing. However, many speech recognition systems require dataset-specific tuning (audio filtering, punctuation removal and normalisation of casing), therefore assuming a-priori knowledge of both the audio and text distributions. This tuning requirement can lead to systems failing to generalise to other datasets and domains. To promote the development of multi-domain speech systems, we introduce the End-to-end Speech Benchmark (ESB) for evaluating the performance of a single automatic speech recognition (ASR) system across a broad set of speech datasets. Benchmarked systems must use the same data pre- and post-processing algorithm across datasets - assuming the audio and text data distributions are a-priori unknown. We compare a series of state-of-the-art (SoTA) end-to-end (E2E) systems on this benchmark, demonstrating how a single speech system can be applied and evaluated on a wide range of data distributions. We find E2E systems to be effective across datasets: in a fair comparison, E2E systems achieve within 2.6% of SoTA systems tuned to a specific dataset. Our analysis reveals that transcription artefacts, such as punctuation and casing, pose difficulties for ASR systems and should be included in evaluation. We believe E2E benchmarking over a range of datasets promotes the research of multi-domain speech recognition systems. ESB is available at https://huggingface.co/esb.
# 低資源医療領域会話型電話音声のためのハイブリッドasrシステムの開発

Development of Hybrid ASR Systems for Low Resource Medical Domain Conversational Telephone Speech ( http://arxiv.org/abs/2210.13397v1 )

ライセンス: Link先を確認
In recent years, ASR systems have reached remarkable performance on specific tasks for which sufficient amounts of training data are available, like e.g. LibriSpeech. However, varying acoustic and recording conditions and speaking styles and a lack of sufficient in-domain training data still pose challenges to the development of accurate models. In this work, we present our efforts for the development of ASR systems for a conversational telephone speech translation task in the medical domain for three languages (Arabic, German, Vietnamese) to support emergency room interaction between physician and patient across language barriers. We study different training schedules and data combination approaches in order to improve the system's performance, as well as analyze where limited available data is used most efficiently.
# 制御の二分法:コントロールできないものからコントロールできるものを切り離す

Dichotomy of Control: Separating What You Can Control from What You Cannot ( http://arxiv.org/abs/2210.13435v1 )

ライセンス: Link先を確認
Future- or return-conditioned supervised learning is an emerging paradigm for offline reinforcement learning (RL), where the future outcome (i.e., return) associated with an observed action sequence is used as input to a policy trained to imitate those same actions. While return-conditioning is at the heart of popular algorithms such as decision transformer (DT), these methods tend to perform poorly in highly stochastic environments, where an occasional high return can arise from randomness in the environment rather than the actions themselves. Such situations can lead to a learned policy that is inconsistent with its conditioning inputs; i.e., using the policy to act in the environment, when conditioning on a specific desired return, leads to a distribution of real returns that is wildly different than desired. In this work, we propose the dichotomy of control (DoC), a future-conditioned supervised learning framework that separates mechanisms within a policy's control (actions) from those beyond a policy's control (environment stochasticity). We achieve this separation by conditioning the policy on a latent variable representation of the future, and designing a mutual information constraint that removes any information from the latent variable associated with randomness in the environment. Theoretically, we show that DoC yields policies that are consistent with their conditioning inputs, ensuring that conditioning a learned policy on a desired high-return future outcome will correctly induce high-return behavior. Empirically, we show that DoC is able to achieve significantly better performance than DT on environments that have highly stochastic rewards and transition
# deep edge intelligence: アーキテクチャ、キー機能、テクノロジと課題の実現

Deep Edge Intelligence: Architecture, Key Features, Enabling Technologies and Challenges ( http://arxiv.org/abs/2210.12944v1 )

ライセンス: Link先を確認
With the breakthroughs in Deep Learning, recent years have witnessed a massive surge in Artificial Intelligence applications and services. Meanwhile, the rapid advances in Mobile Computing and Internet of Things has also given rise to billions of mobile and smart sensing devices connected to the Internet, generating zettabytes of data at the network edge. The opportunity to combine these two domains of technologies to power interconnected devices with intelligence is likely to pave the way for a new wave of technology revolutions. Embracing this technology revolution, in this article, we present a novel computing vision named Deep Edge Intelligence (DEI). DEI employs Deep Learning, Artificial Intelligence, Cloud and Edge Computing, 5G/6G networks, Internet of Things, Microservices, etc. aiming to provision reliable and secure intelligence services to every person and organisation at any place with better user experience. The vision, system architecture, key layers and features of DEI are also detailed. Finally, we reveal the key enabling technologies and research challenges associated with it.
# ガイドドッグロボットのシステム構成とナビゲーション:動物ガイドドッグレベル誘導作業に向けて

System Configuration and Navigation of a Guide Dog Robot: Toward Animal Guide Dog-Level Guiding Work ( http://arxiv.org/abs/2210.13368v1 )

ライセンス: Link先を確認
A robot guide dog has compelling advantages over animal guide dogs for its cost-effectiveness, potential for mass production, and low maintenance burden. However, despite the long history of guide dog robot research, previous studies were conducted with little or no consideration of how the guide dog handler and the guide dog work as a team for navigation. To develop a robotic guiding system that is genuinely beneficial to blind or visually impaired individuals, we performed qualitative research, including interviews with guide dog handlers and trainers and first-hand blindfold walking experiences with various guide dogs. Grounded on the facts learned from vivid experience and interviews, we build a collaborative indoor navigation scheme for a guide dog robot that includes preferred features such as speed and directional control. For collaborative navigation, we propose a semantic-aware local path planner that enables safe and efficient guiding work by utilizing semantic information about the environment and considering the handler's position and directional cues to determine the collision-free path. We evaluate our integrated robotic system by testing guide blindfold walking in indoor settings and demonstrate guide dog-like navigation behavior by avoiding obstacles at typical gait speed ($0.7 \mathrm{m/s}$).
# 機械学習の薬理ゲノミクスへの応用:血漿濃度-時間曲線のクラスタリング

Applications of Machine Learning in Pharmacogenomics: Clustering Plasma Concentration-Time Curves ( http://arxiv.org/abs/2210.13310v1 )

ライセンス: Link先を確認
Pharmaceutical researchers are continually searching for techniques to improve both drug development processes and patient outcomes. An area of recent interest is the potential for machine learning applications within pharmacology. One such application not yet given close study is the unsupervised clustering of plasma concentration-time curves, hereafter, pharmacokinetic (PK) curves. This can be done by treating a PK curve as a time series object and subsequently utilizing the extensive body of research related to the clustering of time series data objects. In this paper, we introduce hierarchical clustering within the context of clustering PK curves and find it to be effective at identifying similar-shaped PK curves and informative for understanding patterns of PK curves via its dendrogram data visualization. We also examine many dissimilarity measures between time series objects to identify Euclidean distance as generally most appropriate for clustering PK curves. We further show that dynamic time warping, Fr\'echet, and structure-based measures of dissimilarity like correlation may produce unexpected results. Finally, we apply these methods to a dataset of 250 PK curves as an illustrative case study to demonstrate how the clustering of PK curves can be used as a descriptive tool for summarizing and visualizing complex PK data, which may enhance the study of pharmacogenomics in the context of precision medicine.
# 確率分布に関する量子生成モデルの古典的学習のためのプロトコル

Protocols for classically training quantum generative models on probability distributions ( http://arxiv.org/abs/2210.13442v1 )

ライセンス: Link先を確認
Quantum Generative Modelling (QGM) relies on preparing quantum states and generating samples from these states as hidden - or known - probability distributions. As distributions from some classes of quantum states (circuits) are inherently hard to sample classically, QGM represents an excellent testbed for quantum supremacy experiments. Furthermore, generative tasks are increasingly relevant for industrial machine learning applications, and thus QGM is a strong candidate for demonstrating a practical quantum advantage. However, this requires that quantum circuits are trained to represent industrially relevant distributions, and the corresponding training stage has an extensive training cost for current quantum hardware in practice. In this work, we propose protocols for classical training of QGMs based on circuits of the specific type that admit an efficient gradient computation, while remaining hard to sample. In particular, we consider Instantaneous Quantum Polynomial (IQP) circuits and their extensions. Showing their classical simulability in terms of the time complexity, sparsity and anti-concentration properties, we develop a classically tractable way of simulating their output probability distributions, allowing classical training to a target probability distribution. The corresponding quantum sampling from IQPs can be performed efficiently, unlike when using classical sampling. We numerically demonstrate the end-to-end training of IQP circuits using probability distributions for up to 30 qubits on a regular desktop computer. When applied to industrially relevant distributions this combination of classical training with quantum sampling represents an avenue for reaching advantage in the NISQ era.
# All-Action Policy Gradientsについて

On All-Action Policy Gradients ( http://arxiv.org/abs/2210.13011v1 )

ライセンス: Link先を確認
In this paper, we analyze the variance of stochastic policy gradient with many action samples per state (all-action SPG). We decompose the variance of SPG and derive an optimality condition for all-action SPG. The optimality condition shows when all-action SPG should be preferred over single-action counterpart and allows to determine a variance-minimizing sampling scheme in SPG estimation. Furthermore, we propose dynamics-all-action (DAA) module, an augmentation that allows for all-action sampling without manipulation of the environment. DAA addresses the problems associated with using a Q-network for all-action sampling and can be readily applied to any on-policy SPG algorithm. We find that using DAA with a canonical on-policy algorithm (PPO) yields better sample efficiency and higher policy returns on a variety of challenging continuous action environments.
# 幾何学的知識蒸留:グラフニューラルネットワークのトポロジー圧縮

Geometric Knowledge Distillation: Topology Compression for Graph Neural Networks ( http://arxiv.org/abs/2210.13014v1 )

ライセンス: Link先を確認
We study a new paradigm of knowledge transfer that aims at encoding graph topological information into graph neural networks (GNNs) by distilling knowledge from a teacher GNN model trained on a complete graph to a student GNN model operating on a smaller or sparser graph. To this end, we revisit the connection between thermodynamics and the behavior of GNN, based on which we propose Neural Heat Kernel (NHK) to encapsulate the geometric property of the underlying manifold concerning the architecture of GNNs. A fundamental and principled solution is derived by aligning NHKs on teacher and student models, dubbed as Geometric Knowledge Distillation. We develop non- and parametric instantiations and demonstrate their efficacy in various experimental settings for knowledge distillation regarding different types of privileged topological information and teacher-student schemes.
# マルコフ決定過程における硬さ:理論と実践

Hardness in Markov Decision Processes: Theory and Practice ( http://arxiv.org/abs/2210.13075v1 )

ライセンス: Link先を確認
Meticulously analysing the empirical strengths and weaknesses of reinforcement learning methods in hard (challenging) environments is essential to inspire innovations and assess progress in the field. In tabular reinforcement learning, there is no well-established standard selection of environments to conduct such analysis, which is partially due to the lack of a widespread understanding of the rich theory of hardness of environments. The goal of this paper is to unlock the practical usefulness of this theory through four main contributions. First, we present a systematic survey of the theory of hardness, which also identifies promising research directions. Second, we introduce Colosseum, a pioneering package that enables empirical hardness analysis and implements a principled benchmark composed of environments that are diverse with respect to different measures of hardness. Third, we present an empirical analysis that provides new insights into computable measures. Finally, we benchmark five tabular agents in our newly proposed benchmark. While advancing the theoretical understanding of hardness in non-tabular reinforcement learning remains essential, our contributions in the tabular setting are intended as solid steps towards a principled non-tabular benchmark. Accordingly, we benchmark four agents in non-tabular versions of Colosseum environments, obtaining results that demonstrate the generality of tabular hardness measures.
# ディープシーケンス分類器は非Trivial Generalizationに優れているか?

Are Deep Sequence Classifiers Good at Non-Trivial Generalization? ( http://arxiv.org/abs/2210.13082v1 )

ライセンス: Link先を確認
Recent advances in deep learning models for sequence classification have greatly improved their classification accuracy, specially when large training sets are available. However, several works have suggested that under some settings the predictions made by these models are poorly calibrated. In this work we study binary sequence classification problems and we look at model calibration from a different perspective by asking the question: Are deep learning models capable of learning the underlying target class distribution? We focus on sparse sequence classification, that is problems in which the target class is rare and compare three deep learning sequence classification models. We develop an evaluation that measures how well a classifier is learning the target class distribution. In addition, our evaluation disentangles good performance achieved by mere compression of the training sequences versus performance achieved by proper model generalization. Our results suggest that in this binary setting the deep-learning models are indeed able to learn the underlying class distribution in a non-trivial manner, i.e. by proper generalization beyond data compression.
# 一定規則保証付き線形コンテキスト帯域におけるスケーラブル表現学習

Scalable Representation Learning in Linear Contextual Bandits with Constant Regret Guarantees ( http://arxiv.org/abs/2210.13083v1 )

ライセンス: Link先を確認
We study the problem of representation learning in stochastic contextual linear bandits. While the primary concern in this domain is usually to find realizable representations (i.e., those that allow predicting the reward function at any context-action pair exactly), it has been recently shown that representations with certain spectral properties (called HLS) may be more effective for the exploration-exploitation task, enabling LinUCB to achieve constant (i.e., horizon-independent) regret. In this paper, we propose BanditSRL, a representation learning algorithm that combines a novel constrained optimization problem to learn a realizable representation with good spectral properties with a generalized likelihood ratio test to exploit the recovered representation and avoid excessive exploration. We prove that BanditSRL can be paired with any no-regret algorithm and achieve constant regret whenever an HLS representation is available. Furthermore, BanditSRL can be easily combined with deep neural networks and we show how regularizing towards HLS representations is beneficial in standard benchmarks.
# 容量探索を伴うバイナリグラフ畳み込みネットワーク

Binary Graph Convolutional Network with Capacity Exploration ( http://arxiv.org/abs/2210.13149v1 )

ライセンス: Link先を確認
The current success of Graph Neural Networks (GNNs) usually relies on loading the entire attributed graph for processing, which may not be satisfied with limited memory resources, especially when the attributed graph is large. This paper pioneers to propose a Binary Graph Convolutional Network (Bi-GCN), which binarizes both the network parameters and input node attributes and exploits binary operations instead of floating-point matrix multiplications for network compression and acceleration. Meanwhile, we also propose a new gradient approximation based back-propagation method to properly train our Bi-GCN. According to the theoretical analysis, our Bi-GCN can reduce the memory consumption by an average of ~31x for both the network parameters and input data, and accelerate the inference speed by an average of ~51x, on three citation networks, i.e., Cora, PubMed, and CiteSeer. Besides, we introduce a general approach to generalize our binarization method to other variants of GNNs, and achieve similar efficiencies. Although the proposed Bi-GCN and Bi-GNNs are simple yet efficient, these compressed networks may also possess a potential capacity problem, i.e., they may not have enough storage capacity to learn adequate representations for specific tasks. To tackle this capacity problem, an Entropy Cover Hypothesis is proposed to predict the lower bound of the width of Bi-GNN hidden layers. Extensive experiments have demonstrated that our Bi-GCN and Bi-GNNs can give comparable performances to the corresponding full-precision baselines on seven node classification datasets and verified the effectiveness of our Entropy Cover Hypothesis for solving the capacity problem.
# (LA)yer-neigh(BOR)サンプリング:GNNにおける近隣爆発の回避

(LA)yer-neigh(BOR) Sampling: Defusing Neighborhood Explosion in GNNs ( http://arxiv.org/abs/2210.13339v1 )

ライセンス: Link先を確認
Graph Neural Networks have recently received a significant attention, however, training them at a large scale still remains a challenge. Minibatch training coupled with sampling is used to alleviate this challenge. Even so existing approaches either suffer from the neighborhood explosion phenomenon or do not have good performance. To deal with these issues, we propose a new sampling algorithm called LAyer-neighBOR sampling (LABOR). It is designed to be a direct replacement for Neighborhood Sampling with the same fanout hyperparameter while sampling much fewer vertices, without sacrificing quality. By design, the variance of the estimator of each vertex matches Neighbor Sampling from the point of view of a single vertex. In our experiments, we demonstrate the superiority of our approach when it comes to model convergence behaviour against Neighbor Sampling and also the other Layer Sampling approaches under the same limited vertex sampling budget constraints.
# 連続行動を伴う文脈帯域におけるオフポリティ評価のための局所的メトリクス学習

Local Metric Learning for Off-Policy Evaluation in Contextual Bandits with Continuous Actions ( http://arxiv.org/abs/2210.13373v1 )

ライセンス: Link先を確認
We consider local kernel metric learning for off-policy evaluation (OPE) of deterministic policies in contextual bandits with continuous action spaces. Our work is motivated by practical scenarios where the target policy needs to be deterministic due to domain requirements, such as prescription of treatment dosage and duration in medicine. Although importance sampling (IS) provides a basic principle for OPE, it is ill-posed for the deterministic target policy with continuous actions. Our main idea is to relax the target policy and pose the problem as kernel-based estimation, where we learn the kernel metric in order to minimize the overall mean squared error (MSE). We present an analytic solution for the optimal metric, based on the analysis of bias and variance. Whereas prior work has been limited to scalar action spaces or kernel bandwidth selection, our work takes a step further being capable of vector action spaces and metric optimization. We show that our estimator is consistent, and significantly reduces the MSE compared to baseline OPE methods through experiments on various domains.
# OLLA:アレーの寿命と位置を最適化することでニューラルネットワークのメモリ使用量を減らす

OLLA: Decreasing the Memory Usage of Neural Networks by Optimizing the Lifetime and Location of Arrays ( http://arxiv.org/abs/2210.12924v1 )

ライセンス: Link先を確認
The size of deep neural networks has grown exponentially in recent years. Unfortunately, hardware devices have not kept pace with the rapidly increasing memory requirements. To cope with this, researchers have turned to techniques such as spilling and recomputation, which increase training time, or reduced precision and model pruning, which can affect model accuracy. We present OLLA, an algorithm that optimizes the lifetime and memory location of the tensors used to train neural networks. Our method reduces the memory usage of existing neural networks, without needing any modification to the models or their training procedures. We formulate the problem as a joint integer linear program (ILP). We present several techniques to simplify the encoding of the problem, and enable our approach to scale to the size of state-of-the-art neural networks using an off-the-shelf ILP solver. We experimentally demonstrate that OLLA only takes minutes if not seconds to allow the training of neural networks using one-third less memory on average.
# ディープニューラルネットワークのための学習率ポリシの選択と構成

Selecting and Composing Learning Rate Policies for Deep Neural Networks ( http://arxiv.org/abs/2210.12936v1 )

ライセンス: Link先を確認
The choice of learning rate (LR) functions and policies has evolved from a simple fixed LR to the decaying LR and the cyclic LR, aiming to improve the accuracy and reduce the training time of Deep Neural Networks (DNNs). This paper presents a systematic approach to selecting and composing an LR policy for effective DNN training to meet desired target accuracy and reduce training time within the pre-defined training iterations. It makes three original contributions. First, we develop an LR tuning mechanism for auto-verification of a given LR policy with respect to the desired accuracy goal under the pre-defined training time constraint. Second, we develop an LR policy recommendation system (LRBench) to select and compose good LR policies from the same and/or different LR functions through dynamic tuning, and avoid bad choices, for a given learning task, DNN model and dataset. Third, we extend LRBench by supporting different DNN optimizers and show the significant mutual impact of different LR policies and different optimizers. Evaluated using popular benchmark datasets and different DNN models (LeNet, CNN3, ResNet), we show that our approach can effectively deliver high DNN test accuracy, outperform the existing recommended default LR policies, and reduce the DNN training time by 1.6$\sim$6.7$\times$ to meet a targeted model accuracy.
# 教師なしグラフ異常検出において、私たちは本当に大きな進歩を遂げていますか? 新しい洞察と優れた手法で問題を再考する

Are we really making much progress in unsupervised graph outlier detection? Revisiting the problem with new insight and superior method ( http://arxiv.org/abs/2210.12941v1 )

ライセンス: Link先を確認
A large number of studies on Graph Outlier Detection (GOD) have emerged in recent years due to its wide applications, in which Unsupervised Node Outlier Detection (UNOD) on attributed networks is an important area. UNOD focuses on detecting two kinds of typical outliers in graphs: the structural outlier and the contextual outlier. Most existing works conduct the experiments based on the datasets with injected outliers. However, we find that the most widely-used outlier injection approach has a serious data leakage issue. By only utilizing such data leakage, a simple approach can achieve the state-of-the-art performance in detecting outliers. In addition, we observe that most existing algorithms have performance drops with varied injection settings. The other major issue is on balanced detection performance between the two types of outliers, which has not been considered by existing studies. In this paper, we analyze the cause of the data leakage issue in depth since the injection approach is a building block to advance UNOD. Moreover, we devise a novel variance-based model to detect structural outliers, which is more robust to different injection settings. On top of this, we propose a new framework, Variance-based Graph Outlier Detection (VGOD), which combines our variance-based model and attribute reconstruction model to detect outliers in a balanced way. Finally, we conduct extensive experiments to demonstrate the effectiveness and the efficiency of VGOD. The results on 5 real-world datasets validate that VGOD achieves not only the best performance in detecting outliers but also a balanced detection performance between structural and contextual outliers.
# 不確実性学習による人物画像検索の信頼性・認識予測

Reliability-Aware Prediction via Uncertainty Learning for Person Image Retrieval ( http://arxiv.org/abs/2210.13440v1 )

ライセンス: Link先を確認
Current person image retrieval methods have achieved great improvements in accuracy metrics. However, they rarely describe the reliability of the prediction. In this paper, we propose an Uncertainty-Aware Learning (UAL) method to remedy this issue. UAL aims at providing reliability-aware predictions by considering data uncertainty and model uncertainty simultaneously. Data uncertainty captures the ``noise" inherent in the sample, while model uncertainty depicts the model's confidence in the sample's prediction. Specifically, in UAL, (1) we propose a sampling-free data uncertainty learning method to adaptively assign weights to different samples during training, down-weighting the low-quality ambiguous samples. (2) we leverage the Bayesian framework to model the model uncertainty by assuming the parameters of the network follow a Bernoulli distribution. (3) the data uncertainty and the model uncertainty are jointly learned in a unified network, and they serve as two fundamental criteria for the reliability assessment: if a probe is high-quality (low data uncertainty) and the model is confident in the prediction of the probe (low model uncertainty), the final ranking will be assessed as reliable. Experiments under the risk-controlled settings and the multi-query settings show the proposed reliability assessment is effective. Our method also shows superior performance on three challenging benchmarks under the vanilla single query settings.
# モノキュラーダイナミックビュー合成:現実チェック

Monocular Dynamic View Synthesis: A Reality Check ( http://arxiv.org/abs/2210.13445v1 )

ライセンス: Link先を確認
We study the recent progress on dynamic view synthesis (DVS) from monocular video. Though existing approaches have demonstrated impressive results, we show a discrepancy between the practical capture process and the existing experimental protocols, which effectively leaks in multi-view signals during training. We define effective multi-view factors (EMFs) to quantify the amount of multi-view signal present in the input capture sequence based on the relative camera-scene motion. We introduce two new metrics: co-visibility masked image metrics and correspondence accuracy, which overcome the issue in existing protocols. We also propose a new iPhone dataset that includes more diverse real-life deformation sequences. Using our proposed experimental protocol, we show that the state-of-the-art approaches observe a 1-2 dB drop in masked PSNR in the absence of multi-view cues and 4-5 dB drop when modeling complex motion. Code and data can be found at https://hangg7.com/dycheck.
# SimANS: テキスト検索のための単純な曖昧な否定

SimANS: Simple Ambiguous Negatives Sampling for Dense Text Retrieval ( http://arxiv.org/abs/2210.11773v2 )

ライセンス: Link先を確認
Sampling proper negatives from a large document pool is vital to effectively train a dense retrieval model. However, existing negative sampling strategies suffer from the uninformative or false negative problem. In this work, we empirically show that according to the measured relevance scores, the negatives ranked around the positives are generally more informative and less likely to be false negatives. Intuitively, these negatives are not too hard (\emph{may be false negatives}) or too easy (\emph{uninformative}). They are the ambiguous negatives and need more attention during training. Thus, we propose a simple ambiguous negatives sampling method, SimANS, which incorporates a new sampling probability distribution to sample more ambiguous negatives. Extensive experiments on four public and one industry datasets show the effectiveness of our approach. We made the code and models publicly available in \url{https://github.com/microsoft/SimXNS}.
# 科学文献における拷問語の検出に関する研究

Investigating the detection of Tortured Phrases in Scientific Literature ( http://arxiv.org/abs/2210.13024v1 )

ライセンス: Link先を確認
With the help of online tools, unscrupulous authors can today generate a pseudo-scientific article and attempt to publish it. Some of these tools work by replacing or paraphrasing existing texts to produce new content, but they have a tendency to generate nonsensical expressions. A recent study introduced the concept of 'tortured phrase', an unexpected odd phrase that appears instead of the fixed expression. E.g. counterfeit consciousness instead of artificial intelligence. The present study aims at investigating how tortured phrases, that are not yet listed, can be detected automatically. We conducted several experiments, including non-neural binary classification, neural binary classification and cosine similarity comparison of the phrase tokens, yielding noticeable results.
# 組込みデバイスを用いた効率的な虹彩認識システムの実現に向けて

Towards an efficient Iris Recognition System on Embedded Devices ( http://arxiv.org/abs/2210.13101v1 )

ライセンス: Link先を確認
Iris Recognition (IR) is one of the market's most reliable and accurate biometric systems. Today, it is challenging to build NIR-capturing devices under the premise of hardware price reduction. Commercial NIR sensors are protected from modification. The process of building a new device is not trivial because it is required to start from scratch with the process of capturing images with quality, calibrating operational distances, and building lightweight software such as eyes/iris detectors and segmentation sub-systems. In light of such challenges, this work aims to develop and implement iris recognition software in an embedding system and calibrate NIR in a contactless binocular setup. We evaluate and contrast speed versus performance obtained with two embedded computers and infrared cameras. Further, a lightweight segmenter sub-system called "Unet_xxs" is proposed, which can be used for iris semantic segmentation under restricted memory resources.
# スパース点アノテーションを用いた電子顕微鏡の領域適応セグメンテーション

Domain Adaptive Segmentation of Electron Microscopy with Sparse Point Annotations ( http://arxiv.org/abs/2210.13109v1 )

ライセンス: Link先を確認
Accurate segmentation of organelle instances, e.g., mitochondria, is essential for electron microscopy analysis. Despite the outstanding performance of fully supervised methods, they highly rely on sufficient per-pixel annotated data and are sensitive to domain shift. Aiming to develop a highly annotation-efficient approach with competitive performance, we focus on weakly-supervised domain adaptation (WDA) with a type of extremely sparse and weak annotation demanding minimal annotation efforts, i.e., sparse point annotations on only a small subset of object instances. To reduce performance degradation arising from domain shift, we explore multi-level transferable knowledge through conducting three complementary tasks, i.e., counting, detection, and segmentation, constituting a task pyramid with different levels of domain invariance. The intuition behind this is that after investigating a related source domain, it is much easier to spot similar objects in the target domain than to delineate their fine boundaries. Specifically, we enforce counting estimation as a global constraint to the detection with sparse supervision, which further guides the segmentation. A cross-position cut-and-paste augmentation is introduced to further compensate for the annotation sparsity. Extensive validations show that our model with only 15\% point annotations can achieve comparable performance as supervised models and shows robustness to annotation selection.
# CNNを用いた虹彩超解像 : 光リアリズムは虹彩認識に重要であるか?

Iris super-resolution using CNNs: is photo-realism important to iris recognition? ( http://arxiv.org/abs/2210.13125v1 )

ライセンス: Link先を確認
The use of low-resolution images adopting more relaxed acquisition conditions such as mobile phones and surveillance videos is becoming increasingly common in iris recognition nowadays. Concurrently, a great variety of single image super-resolution techniques are emerging, especially with the use of convolutional neural networks (CNNs). The main objective of these methods is to try to recover finer texture details generating more photo-realistic images based on the optimisation of an objective function depending basically on the CNN architecture and training approach. In this work, the authors explore single image super-resolution using CNNs for iris recognition. For this, they test different CNN architectures and use different training databases, validating their approach on a database of 1.872 near infrared iris images and on a mobile phone image database. They also use quality assessment, visual results and recognition experiments to verify if the photo-realism provided by the CNNs which have already proven to be effective for natural images can reflect in a better recognition rate for iris recognition. The results show that using deeper architectures trained with texture databases that provide a balance between edge preservation and the smoothness of the method can lead to good results in the iris recognition process.
# 野生における顔認識のための顔軟バイオメトリックス:最近の研究、注釈、COTS評価

Facial Soft Biometrics for Recognition in the Wild: Recent Works, Annotation, and COTS Evaluation ( http://arxiv.org/abs/2210.13129v1 )

ライセンス: Link先を確認
The role of soft biometrics to enhance person recognition systems in unconstrained scenarios has not been extensively studied. Here, we explore the utility of the following modalities: gender, ethnicity, age, glasses, beard, and moustache. We consider two assumptions: 1) manual estimation of soft biometrics and 2) automatic estimation from two commercial off-the-shelf systems (COTS). All experiments are reported using the labeled faces in the wild (LFW) database. First, we study the discrimination capabilities of soft biometrics standalone. Then, experiments are carried out fusing soft biometrics with two state-of-the-art face recognition systems based on deep learning. We observe that soft biometrics is a valuable complement to the face modality in unconstrained scenarios, with relative improvements up to 40%/15% in the verification performance when using manual/automatic soft biometrics estimation. Results are reproducible as we make public our manual annotations and COTS outputs of soft biometrics over LFW, as well as the face recognition scores.
# 作物種別説明可能性の自己意識の検討

Exploring Self-Attention for Crop-type Classification Explainability ( http://arxiv.org/abs/2210.13167v1 )

ライセンス: Link先を確認
Automated crop-type classification using Sentinel-2 satellite time series is essential to support agriculture monitoring. Recently, deep learning models based on transformer encoders became a promising approach for crop-type classification. Using explainable machine learning to reveal the inner workings of these models is an important step towards improving stakeholders' trust and efficient agriculture monitoring. In this paper, we introduce a novel explainability framework that aims to shed a light on the essential crop disambiguation patterns learned by a state-of-the-art transformer encoder model. More specifically, we process the attention weights of a trained transformer encoder to reveal the critical dates for crop disambiguation and use domain knowledge to uncover the phenological events that support the model performance. We also present a sensitivity analysis approach to understand better the attention capability for revealing crop-specific phenological events. We report compelling results showing that attention patterns strongly relate to key dates, and consequently, to the critical phenological events for crop-type classification. These findings might be relevant for improving stakeholder trust and optimizing agriculture monitoring processes. Additionally, our sensitivity analysis demonstrates the limitation of attention weights for identifying the important events in the crop phenology as we empirically show that the unveiled phenological events depend on the other crops in the data considered during training.
# 深層学習によるVine Leaf Phenotypingのための意味的画像分割

Semantic Image Segmentation with Deep Learning for Vine Leaf Phenotyping ( http://arxiv.org/abs/2210.13296v1 )

ライセンス: Link先を確認
Plant phenotyping refers to a quantitative description of the plants properties, however in image-based phenotyping analysis, our focus is primarily on the plants anatomical, ontogenetical and physiological properties.This technique reinforced by the success of Deep Learning in the field of image based analysis is applicable to a wide range of research areas making high-throughput screens of plants possible, reducing the time and effort needed for phenotypic characterization.In this study, we use Deep Learning methods (supervised and unsupervised learning based approaches) to semantically segment grapevine leaves images in order to develop an automated object detection (through segmentation) system for leaf phenotyping which will yield information regarding their structure and function.In these directions we studied several deep learning approaches with promising results as well as we reported some future challenging tasks in the area of precision agriculture.Our work contributes to plant lifecycle monitoring through which dynamic traits such as growth and development can be captured and quantified, targeted intervention and selective application of agrochemicals and grapevine variety identification which are key prerequisites in sustainable agriculture.
# デュアルピクセル雨滴除去

Dual-Pixel Raindrop Removal ( http://arxiv.org/abs/2210.13321v1 )

ライセンス: Link先を確認
Removing raindrops in images has been addressed as a significant task for various computer vision applications. In this paper, we propose the first method using a Dual-Pixel (DP) sensor to better address the raindrop removal. Our key observation is that raindrops attached to a glass window yield noticeable disparities in DP's left-half and right-half images, while almost no disparity exists for in-focus backgrounds. Therefore, DP disparities can be utilized for robust raindrop detection. The DP disparities also brings the advantage that the occluded background regions by raindrops are shifted between the left-half and the right-half images. Therefore, fusing the information from the left-half and the right-half images can lead to more accurate background texture recovery. Based on the above motivation, we propose a DP Raindrop Removal Network (DPRRN) consisting of DP raindrop detection and DP fused raindrop removal. To efficiently generate a large amount of training data, we also propose a novel pipeline to add synthetic raindrops to real-world background DP images. Experimental results on synthetic and real-world datasets demonstrate that our DPRRN outperforms existing state-of-the-art methods, especially showing better robustness to real-world situations. Our source code and datasets are available at http://www.ok.sc.e.titech.ac.jp/res/SIR/.
# 逆問題における後方サンプリングのための正規化条件付きGAN

A Regularized Conditional GAN for Posterior Sampling in Inverse Problems ( http://arxiv.org/abs/2210.13389v1 )

ライセンス: Link先を確認
In inverse problems, one seeks to reconstruct an image from incomplete and/or degraded measurements. Such problems arise in magnetic resonance imaging (MRI), computed tomography, deblurring, superresolution, inpainting, and other applications. It is often the case that many image hypotheses are consistent with both the measurements and prior information, and so the goal is not to recover a single ``best'' hypothesis but rather to explore the space of probable hypotheses, i.e., to sample from the posterior distribution. In this work, we propose a regularized conditional Wasserstein GAN that can generate dozens of high-quality posterior samples per second. Using quantitative evaluation metrics like conditional Fr\'{e}chet inception distance, we demonstrate that our method produces state-of-the-art posterior samples in both multicoil MRI and inpainting applications.
# PseudoAugment: ポイントクラウドのデータ拡張にラベルのないデータを使用する学習

PseudoAugment: Learning to Use Unlabeled Data for Data Augmentation in Point Clouds ( http://arxiv.org/abs/2210.13428v1 )

ライセンス: Link先を確認
Data augmentation is an important technique to improve data efficiency and save labeling cost for 3D detection in point clouds. Yet, existing augmentation policies have so far been designed to only utilize labeled data, which limits the data diversity. In this paper, we recognize that pseudo labeling and data augmentation are complementary, thus propose to leverage unlabeled data for data augmentation to enrich the training data. In particular, we design three novel pseudo-label based data augmentation policies (PseudoAugments) to fuse both labeled and pseudo-labeled scenes, including frames (PseudoFrame), objecta (PseudoBBox), and background (PseudoBackground). PseudoAugments outperforms pseudo labeling by mitigating pseudo labeling errors and generating diverse fused training scenes. We demonstrate PseudoAugments generalize across point-based and voxel-based architectures, different model capacity and both KITTI and Waymo Open Dataset. To alleviate the cost of hyperparameter tuning and iterative pseudo labeling, we develop a population-based data augmentation framework for 3D detection, named AutoPseudoAugment. Unlike previous works that perform pseudo-labeling offline, our framework performs PseudoAugments and hyperparameter tuning in one shot to reduce computational cost. Experimental results on the large-scale Waymo Open Dataset show our method outperforms state-of-the-art auto data augmentation method (PPBA) and self-training method (pseudo labeling). In particular, AutoPseudoAugment is about 3X and 2X data efficient on vehicle and pedestrian tasks compared to prior arts. Notably, AutoPseudoAugment nearly matches the full dataset training results, with just 10% of the labeled run segments on the vehicle detection task.
# 人物探索のためのギャラリーフィルタネットワーク

Gallery Filter Network for Person Search ( http://arxiv.org/abs/2210.12903v1 )

ライセンス: Link先を確認
In person search, we aim to localize a query person from one scene in other gallery scenes. The cost of this search operation is dependent on the number of gallery scenes, making it beneficial to reduce the pool of likely scenes. We describe and demonstrate the Gallery Filter Network (GFN), a novel module which can efficiently discard gallery scenes from the search process, and benefit scoring for persons detected in remaining scenes. We show that the GFN is robust under a range of different conditions by testing on different retrieval sets, including cross-camera, occluded, and low-resolution scenarios. In addition, we develop the base SeqNeXt person search model, which improves and simplifies the original SeqNet model. We show that the SeqNeXt+GFN combination yields significant performance gains over other state-of-the-art methods on the standard PRW and CUHK-SYSU person search datasets. To aid experimentation for this and other models, we provide standardized tooling for the data processing and evaluation pipeline typically used for person search research.
# 可変中心を持つ最大コレントロピー基準に基づくロバスト楕円フィッティング

Robust Ellipse Fitting Based on Maximum Correntropy Criterion With Variable Center ( http://arxiv.org/abs/2210.12915v1 )

ライセンス: Link先を確認
The presence of outliers can significantly degrade the performance of ellipse fitting methods. We develop an ellipse fitting method that is robust to outliers based on the maximum correntropy criterion with variable center (MCC-VC), where a Laplacian kernel is used. For single ellipse fitting, we formulate a non-convex optimization problem to estimate the kernel bandwidth and center and divide it into two subproblems, each estimating one parameter. We design sufficiently accurate convex approximation to each subproblem such that computationally efficient closed-form solutions are obtained. The two subproblems are solved in an alternate manner until convergence is reached. We also investigate coupled ellipses fitting. While there exist multiple ellipses fitting methods that can be used for coupled ellipses fitting, we develop a couple ellipses fitting method by exploiting the special structure. Having unknown association between data points and ellipses, we introduce an association vector for each data point and formulate a non-convex mixed-integer optimization problem to estimate the data associations, which is approximately solved by relaxing it into a second-order cone program. Using the estimated data associations, we extend the proposed method to achieve the final coupled ellipses fitting. The proposed method is shown to have significantly better performance over the existing methods in both simulated data and real images.
# 360-MLC: 自己学習とハイパーパラメータチューニングのためのマルチビューレイアウト一貫性

360-MLC: Multi-view Layout Consistency for Self-training and Hyper-parameter Tuning ( http://arxiv.org/abs/2210.12935v1 )

ライセンス: Link先を確認
We present 360-MLC, a self-training method based on multi-view layout consistency for finetuning monocular room-layout models using unlabeled 360-images only. This can be valuable in practical scenarios where a pre-trained model needs to be adapted to a new data domain without using any ground truth annotations. Our simple yet effective assumption is that multiple layout estimations in the same scene must define a consistent geometry regardless of their camera positions. Based on this idea, we leverage a pre-trained model to project estimated layout boundaries from several camera views into the 3D world coordinate. Then, we re-project them back to the spherical coordinate and build a probability function, from which we sample the pseudo-labels for self-training. To handle unconfident pseudo-labels, we evaluate the variance in the re-projected boundaries as an uncertainty value to weight each pseudo-label in our loss function during training. In addition, since ground truth annotations are not available during training nor in testing, we leverage the entropy information in multiple layout estimations as a quantitative metric to measure the geometry consistency of the scene, allowing us to evaluate any layout estimator for hyper-parameter tuning, including model selection without ground truth annotations. Experimental results show that our solution achieves favorable performance against state-of-the-art methods when self-training from three publicly available source datasets to a unique, newly labeled dataset consisting of multi-view of the same scenes.
# 視覚認識のためのスパース畳み込みモデルの再検討

Revisiting Sparse Convolutional Model for Visual Recognition ( http://arxiv.org/abs/2210.12945v1 )

ライセンス: Link先を確認
Despite strong empirical performance for image classification, deep neural networks are often regarded as ``black boxes'' and they are difficult to interpret. On the other hand, sparse convolutional models, which assume that a signal can be expressed by a linear combination of a few elements from a convolutional dictionary, are powerful tools for analyzing natural images with good theoretical interpretability and biological plausibility. However, such principled models have not demonstrated competitive performance when compared with empirically designed deep networks. This paper revisits the sparse convolutional modeling for image classification and bridges the gap between good empirical performance (of deep learning) and good interpretability (of sparse convolutional models). Our method uses differentiable optimization layers that are defined from convolutional sparse coding as drop-in replacements of standard convolutional layers in conventional deep neural networks. We show that such models have equally strong empirical performance on CIFAR-10, CIFAR-100, and ImageNet datasets when compared to conventional neural networks. By leveraging stable recovery property of sparse modeling, we further show that such models can be much more robust to input corruptions as well as adversarial perturbations in testing through a simple proper trade-off between sparse regularization and data reconstruction terms. Source code can be found at https://github.com/Delay-Xili/SDNet.
# 理論的に抽出されたワイヤーフレーム解析:教師付きから自己教師付き学習へ

Holistically-Attracted Wireframe Parsing: From Supervised to Self-Supervised Learning ( http://arxiv.org/abs/2210.12971v1 )

ライセンス: Link先を確認
This paper presents Holistically-Attracted Wireframe Parsing (HAWP) for 2D images using both fully supervised and self-supervised learning paradigms. At the core is a parsimonious representation that encodes a line segment using a closed-form 4D geometric vector, which enables lifting line segments in wireframe to an end-to-end trainable holistic attraction field that has built-in geometry-awareness, context-awareness and robustness. The proposed HAWP consists of three components: generating line segment and end-point proposal, binding line segment and end-point, and end-point-decoupled lines-of-interest verification. For self-supervised learning, a simulation-to-reality pipeline is exploited in which a HAWP is first trained using synthetic data and then used to ``annotate" wireframes in real images with Homographic Adaptation. With the self-supervised annotations, a HAWP model for real images is trained from scratch. In experiments, the proposed HAWP achieves state-of-the-art performance in both the Wireframe dataset and the YorkUrban dataset in fully-supervised learning. It also demonstrates a significantly better repeatability score than prior arts with much more efficient training in self-supervised learning. Furthermore, the self-supervised HAWP shows great potential for general wireframe parsing without onerous wireframe labels.
# ゼロショットビデオグラウンディングのための言語フリートレーニング

Language-free Training for Zero-shot Video Grounding ( http://arxiv.org/abs/2210.12977v1 )

ライセンス: Link先を確認
Given an untrimmed video and a language query depicting a specific temporal moment in the video, video grounding aims to localize the time interval by understanding the text and video simultaneously. One of the most challenging issues is an extremely time- and cost-consuming annotation collection, including video captions in a natural language form and their corresponding temporal regions. In this paper, we present a simple yet novel training framework for video grounding in the zero-shot setting, which learns a network with only video data without any annotation. Inspired by the recent language-free paradigm, i.e. training without language data, we train the network without compelling the generation of fake (pseudo) text queries into a natural language form. Specifically, we propose a method for learning a video grounding model by selecting a temporal interval as a hypothetical correct answer and considering the visual feature selected by our method in the interval as a language feature, with the help of the well-aligned visual-language space of CLIP. Extensive experiments demonstrate the prominence of our language-free training framework, outperforming the existing zero-shot video grounding method and even several weakly-supervised approaches with large margins on two standard datasets.
# 雑音・疎ジオアノテーションを用いたリモートセンシング画像におけるロバスト物体検出(フルバージョン)

Robust Object Detection in Remote Sensing Imagery with Noisy and Sparse Geo-Annotations (Full Version) ( http://arxiv.org/abs/2210.12989v1 )

ライセンス: Link先を確認
Recently, the availability of remote sensing imagery from aerial vehicles and satellites constantly improved. For an automated interpretation of such data, deep-learning-based object detectors achieve state-of-the-art performance. However, established object detectors require complete, precise, and correct bounding box annotations for training. In order to create the necessary training annotations for object detectors, imagery can be georeferenced and combined with data from other sources, such as points of interest localized by GPS sensors. Unfortunately, this combination often leads to poor object localization and missing annotations. Therefore, training object detectors with such data often results in insufficient detection performance. In this paper, we present a novel approach for training object detectors with extremely noisy and incomplete annotations. Our method is based on a teacher-student learning framework and a correction module accounting for imprecise and missing annotations. Thus, our method is easy to use and can be combined with arbitrary object detectors. We demonstrate that our approach improves standard detectors by 37.1\% $AP_{50}$ on a noisy real-world remote-sensing dataset. Furthermore, our method achieves great performance gains on two datasets with synthetic noise. Code is available at \url{https://github.com/mxbh/robust_object_detection}.
# マルチビュー幾何によるニューラルラジアンス場学習

Learning Neural Radiance Fields from Multi-View Geometry ( http://arxiv.org/abs/2210.13041v1 )

ライセンス: Link先を確認
We present a framework, called MVG-NeRF, that combines classical Multi-View Geometry algorithms and Neural Radiance Fields (NeRF) for image-based 3D reconstruction. NeRF has revolutionized the field of implicit 3D representations, mainly due to a differentiable volumetric rendering formulation that enables high-quality and geometry-aware novel view synthesis. However, the underlying geometry of the scene is not explicitly constrained during training, thus leading to noisy and incorrect results when extracting a mesh with marching cubes. To this end, we propose to leverage pixelwise depths and normals from a classical 3D reconstruction pipeline as geometric priors to guide NeRF optimization. Such priors are used as pseudo-ground truth during training in order to improve the quality of the estimated underlying surface. Moreover, each pixel is weighted by a confidence value based on the forward-backward reprojection error for additional robustness. Experimental results on real-world data demonstrate the effectiveness of this approach in obtaining clean 3D meshes from images, while maintaining competitive performances in novel view synthesis.
# 変圧器を用いた教師なし物体発見のための前景誘導と多層特徴融合

Foreground Guidance and Multi-Layer Feature Fusion for Unsupervised Object Discovery with Transformers ( http://arxiv.org/abs/2210.13053v1 )

ライセンス: Link先を確認
Unsupervised object discovery (UOD) has recently shown encouraging progress with the adoption of pre-trained Transformer features. However, current methods based on Transformers mainly focus on designing the localization head (e.g., seed selection-expansion and normalized cut) and overlook the importance of improving Transformer features. In this work, we handle UOD task from the perspective of feature enhancement and propose FOReground guidance and MUlti-LAyer feature fusion for unsupervised object discovery, dubbed FORMULA. Firstly, we present a foreground guidance strategy with an off-the-shelf UOD detector to highlight the foreground regions on the feature maps and then refine object locations in an iterative fashion. Moreover, to solve the scale variation issues in object detection, we design a multi-layer feature fusion module that aggregates features responding to objects at different scales. The experiments on VOC07, VOC12, and COCO 20k show that the proposed FORMULA achieves new state-of-the-art results on unsupervised object discovery. The code will be released at https://github.com/VDIGPKU/FORMULA.
# epipolarnvs: エピポーラ幾何を用いた単一画像の新規ビュー合成

EpipolarNVS: leveraging on Epipolar geometry for single-image Novel View Synthesis ( http://arxiv.org/abs/2210.13077v1 )

ライセンス: Link先を確認
Novel-view synthesis (NVS) can be tackled through different approaches, depending on the general setting: a single source image to a short video sequence, exact or noisy camera pose information, 3D-based information such as point clouds etc. The most challenging scenario, the one where we stand in this work, only considers a unique source image to generate a novel one from another viewpoint. However, in such a tricky situation, the latest learning-based solutions often struggle to integrate the camera viewpoint transformation. Indeed, the extrinsic information is often passed as-is, through a low-dimensional vector. It might even occur that such a camera pose, when parametrized as Euler angles, is quantized through a one-hot representation. This vanilla encoding choice prevents the learnt architecture from inferring novel views on a continuous basis (from a camera pose perspective). We claim it exists an elegant way to better encode relative camera pose, by leveraging 3D-related concepts such as the epipolar constraint. We, therefore, introduce an innovative method that encodes the viewpoint transformation as a 2D feature image. Such a camera encoding strategy gives meaningful insights to the network regarding how the camera has moved in space between the two views. By encoding the camera pose information as a finite number of coloured epipolar lines, we demonstrate through our experiments that our strategy outperforms vanilla encoding.
# IDRL:曖昧なアイデンティティを持つ多エージェント強化学習におけるアイデンティティの同定

IDRL: Identifying Identities in Multi-Agent Reinforcement Learning with Ambiguous Identities ( http://arxiv.org/abs/2210.12896v1 )

ライセンス: Link先を確認
Multi-agent reinforcement learning(MARL) is a prevalent learning paradigm for solving stochastic games. In previous studies, agents in a game are defined to be teammates or enemies beforehand, and the relation of the agents is fixed throughout the game. Those works can hardly work in the games where the competitive and collaborative relationships are not public and dynamically changing, which is decided by the \textit{identities} of the agents. How to learn a successful policy in such a situation where the identities of agents are ambiguous is still a problem. Focusing on this problem, in this work, we develop a novel MARL framework: IDRL, which identifies the identities of the agents dynamically and then chooses the corresponding policy to perform in the task. In the IDRL framework, a relation network is constructed to deduce the identities of the multi-agents through feeling the kindness and hostility unleashed by other agents; a dangerous network is built to estimate the risk of the identification. We also propose an intrinsic reward to help train the relation network and the dangerous network to get a trade-off between the need to maximize external reward and the accuracy of identification. After identifying the cooperation-competition pattern among the agents, the proposed method IDRL applies one of the off-the-shelf MARL methods to learn the policy. Taking the poker game \textit{red-10} as the experiment environment, experiments show that the IDRL can achieve superior performance compared to the other MARL methods. Significantly, the relation network has the par performance to identify the identities of agents with top human players; the dangerous network reasonably avoids the risk of imperfect identification.
# 翻訳を説明する: なぜ神経分類器は良くなり、何を学ぶのか?

Explaining Translationese: why are Neural Classifiers Better and what do they Learn? ( http://arxiv.org/abs/2210.13391v1 )

ライセンス: Link先を確認
Recent work has shown that neural feature- and representation-learning, e.g. BERT, achieves superior performance over traditional manual feature engineering based approaches, with e.g. SVMs, in translationese classification tasks. Previous research did not show $(i)$ whether the difference is because of the features, the classifiers or both, and $(ii)$ what the neural classifiers actually learn. To address $(i)$, we carefully design experiments that swap features between BERT- and SVM-based classifiers. We show that an SVM fed with BERT representations performs at the level of the best BERT classifiers, while BERT learning and using handcrafted features performs at the level of an SVM using handcrafted features. This shows that the performance differences are due to the features. To address $(ii)$ we use integrated gradients and find that $(a)$ there is indication that information captured by hand-crafted features is only a subset of what BERT learns, and $(b)$ part of BERT's top performance results are due to BERT learning topic differences and spurious correlations with translationese.
# コンタクトセンター電話会話におけるエンティティレベルの感情分析

Entity-level Sentiment Analysis in Contact Center Telephone Conversations ( http://arxiv.org/abs/2210.13401v1 )

ライセンス: Link先を確認
Entity-level sentiment analysis predicts the sentiment about entities mentioned in a given text. It is very useful in a business context to understand user emotions towards certain entities, such as products or companies. In this paper, we demonstrate how we developed an entity-level sentiment analysis system that analyzes English telephone conversation transcripts in contact centers to provide business insight. We present two approaches, one entirely based on the transformer-based DistilBERT model, and another that uses a convolutional neural network supplemented with some heuristic rules.
# FCM: 因果的マスキングがゼロショット学習者を改善する

FCM: Forgetful Causal Masking Makes Causal Language Models Better Zero-Shot Learners ( http://arxiv.org/abs/2210.13432v1 )

ライセンス: Link先を確認
Large language models (LLM) trained using the next-token-prediction objective, such as GPT3 and PaLM, have revolutionized natural language processing in recent years by showing impressive zero-shot and few-shot capabilities across a wide range of tasks. In this work, we propose a simple technique that significantly boosts the performance of LLMs without adding computational cost. Our key observation is that, by performing the next token prediction task with randomly selected past tokens masked out, we can improve the quality of the learned representations for downstream language understanding tasks. We hypothesize that randomly masking past tokens prevents over-attending to recent tokens and encourages attention to tokens in the distant past. By randomly masking input tokens in the PaLM model, we show that we can significantly improve 1B and 8B PaLM's zero-shot performance on the SuperGLUE benchmark from 55.7 to 59.2 and from 61.6 to 64.0, respectively. Our largest 8B model matches the score of PaLM with an average score of 64, despite the fact that PaLM is trained on a much larger dataset (780B tokens) of high-quality conversation and webpage data, while ours is trained on the smaller C4 dataset (180B tokens). Experimental results show that our method also improves PaLM's zero and few-shot performance on a diverse suite of tasks, including commonsense reasoning, natural language inference and cloze completion. Moreover, we show that our technique also helps representation learning, significantly improving PaLM's finetuning results.
# Cascading Biases: Heuristic Annotation Strategies がデータとモデルに与える影響を探る

Cascading Biases: Investigating the Effect of Heuristic Annotation Strategies on Data and Models ( http://arxiv.org/abs/2210.13439v1 )

ライセンス: Link先を確認
Cognitive psychologists have documented that humans use cognitive heuristics, or mental shortcuts, to make quick decisions while expending less effort. While performing annotation work on crowdsourcing platforms, we hypothesize that such heuristic use among annotators cascades on to data quality and model robustness. In this work, we study cognitive heuristic use in the context of annotating multiple-choice reading comprehension datasets. We propose tracking annotator heuristic traces, where we tangibly measure low-effort annotation strategies that could indicate usage of various cognitive heuristics. We find evidence that annotators might be using multiple such heuristics, based on correlations with a battery of psychological tests. Importantly, heuristic use among annotators determines data quality along several dimensions: (1) known biased models, such as partial input models, more easily solve examples authored by annotators that rate highly on heuristic use, (2) models trained on annotators scoring highly on heuristic use don't generalize as well, and (3) heuristic-seeking annotators tend to create qualitatively less challenging examples. Our findings suggest that tracking heuristic usage among annotators can potentially help with collecting challenging datasets and diagnosing model biases.
翻訳日:2022-10-25 17:03:16 公開日:2022-10-24
# EUR-Lex-Sum: 法域における長文要約のための多言語・多言語データセット

EUR-Lex-Sum: A Multi- and Cross-lingual Dataset for Long-form Summarization in the Legal Domain ( http://arxiv.org/abs/2210.13448v1 )

Dennis Aumiller and Ashish Chouhan and Michael Gertz(参考訳) 既存の要約データセットには、(1)ニュース記事やwikiのようなテキストのような過剰に露出したドメインにフォーカスする傾向があり、(2)主に単言語で、少数の多言語データセットがある。 本研究では,欧州連合法プラットフォーム(EUR-Lex)の法的行為に関する手作業による文書要約に基づいて,EUR-Lex-Sumと呼ばれる新しいデータセットを提案する。 文書とそれぞれの要約は、24のヨーロッパの公用語のうちのいくつかで、言語横断データとして存在している。 言語毎に最大1,500の文書/要約ペアを取得し、24言語すべてで利用可能なテキストを含む375の言語横断的な法的行為のサブセットを含む。 本研究では、データ取得プロセスの詳細と、既存の要約リソースとの比較を行う。 特に、ドメイン固有の言語横断的要約の方向への今後の研究の促進に役立つデータセットに関する、難解なサブプロブレムとオープン質問を例示する。 サンプルの極端な長さと言語多様性に制限され,今後の作業に適した抽出単言語および言語間ベースラインの実験を行う。 抽出のためのコードと、データやベースラインへのアクセスは、https://github.com/achouhan93/eur-lex-sum.com/で閲覧できます。

翻訳日:2022-10-25 17:02:46 公開日:2022-10-24
Controlled Text Reduction ( http://arxiv.org/abs/2210.13449v1 )

Aviv Slobodkin, Paul Roit, Eran Hirsch, Ori Ernst, Ido Dagan(参考訳) 汎用的あるいは集中的な要約のように、ソーステキストの縮小版を作成するには、本質的に2つの異なるサブタスクを含む: ターゲットコンテンツを決定することと、それを伝える一貫性のあるテキストを生成する。 いくつかの一般的なアプローチは、要約を単一のエンドツーエンドタスクとして扱う一方で、個々のサブタスクの分解モデリングをサポートする。 さらに、半自動テキストリダクションも非常に魅力的で、ユーザがターゲットコンテンツを特定し、モデルが対応するコヒーレント要約を生成する。 本稿では,事前選択されたコンテンツのコヒーレントテキストを生成する2番目のサブタスクに焦点を当てる。 具体的には,<textit{Controlled Text Reduction} を独立したタスクとして形式化し,その入力はターゲットコンテンツ(ハイライト)をマークしたソーステキストである。 モデルがすべてのターゲット情報を含む一貫性のあるテキストを生成する必要がある。 このようなモデルの可能性を,モジュール化された完全自動要約と,半自動型ループ型ユースケースの両方に提案する。 適切な調査を行うことで、タスクのための高品質な開発とテストデータセットをクラウドソースします。 さらに,事前学習されたサマリソースアライメントモデルを利用して,利用可能な要約ベンチマークから,より大きな"シルバー"トレーニングデータセットを自動的に生成する。 最後に、これらのデータセットを用いて教師付きベースラインモデルを示し、有望な結果と洞察に富んだ分析結果を示す。

翻訳日:2022-10-25 17:02:22 公開日:2022-10-24
A Unified Framework for Pun Generation with Humor Principles ( http://arxiv.org/abs/2210.13055v1 )

Yufei Tian, Divyanshu Sheth and Nanyun Peng(参考訳) 我々は,既存の作品の分割を解決するために,ホモフォニックとホモグラフィックの句を生成する統一的な枠組みを提案する。 具体的には,多義性,特徴性,驚きという3つの言語的特徴を言語モデルに取り入れた。 私たちの枠組みは3つの部分からなる。 1) 上記属性を促進させる文脈語/フレーズセレクタ 2) 文脈語/フレーズを生成出力に組み込むために、非句文で訓練された生成モデル 3) 推定時に生成モデルを操るために使用される句の構造を学習するラベル予測器。 両パンプ型の評価結果は, 強いベースライン上でのモデルの有効性を示した。

翻訳日:2022-10-25 16:54:09 公開日:2022-10-24
Full-Text Argumentation Mining on Scientific Publications ( http://arxiv.org/abs/2210.13084v1 )

Arne Binder, Bhuvanesh Verma, Leonhard Hennig(参考訳) Scholarly Argumentation Mining (SAM) は、学術文献の急激な発展に寄与する可能性から近年注目を集めている。 議論的談話単位認識(ADUR)と議論的関係抽出(ARE)の2つのサブタスクから構成されており、どちらもドメイン知識の統合、暗黙的な言明の検出、議論構造の不明瞭さなどを必要とするため困難である。 これまでの研究は、抽象的や結果などの特定の文書セクションのデータセット構築とベースライン手法に重点を置いていたが、フルテキストの学術的議論マイニングはほとんど進展しなかった。 本研究では,フルテキストSAMのためのADURとAREを組み合わせた逐次パイプラインモデルを導入し,両方のサブタスク上での事前学習言語モデル(PLM)の性能を初めて解析する。 我々は,sci-argコーパス上でのadurの新しいsotaを確立し,前回報告した最良結果を高いマージン (+7% f1) で上回った。 また、このベンチマークデータセット上で、ARE、すなわち完全なAMパイプラインに対する最初の結果も提示します。 我々の詳細なエラー分析では、非連続的なADUと談話コネクタの解釈が大きな課題となり、データアノテーションがより一貫性を持つ必要があることが明らかになった。

翻訳日:2022-10-25 16:54:00 公開日:2022-10-24
Legal-Tech Open Diaries: Lesson learned on how to develop and deploy light-weight models in the era of humongous Language Models ( http://arxiv.org/abs/2210.13086v1 )

Stelios Maroudas, Sotiris Legkas, Prodromos Malakasiotis, Ilias Chalkidis(参考訳) 十億のパラメータサイズの言語モデル(LM)の時代、スタートアップはトレンドに従い、それに応じて技術を適用する必要がある。 しかし、大規模モデルの開発と展開には高い計算資源が必要であり、経済的な結果をもたらすため、オープンな課題がある。 本研究では,最新の法律技術スタートアップであるr&dグループのステップに従い,モデルの開発と展開に関する重要な洞察を提示する。 xlm-rと比較して,契約文や規制文に適する複数のドメイン固有多言語lmsを事前学習することで,ゼロから始める。 5つのダウンストリームタスクからなる半公的な半私的法定ベンチマークにおいて,そのようなモデルのベンチマーク結果を示す。 最後に,モデル圧縮のためのフルスケールパイプラインの影響について検討する。 a)パラメータ・プルーニング b) 知識蒸留,及び c) 量子化: 結果のモデルは、大規模なパフォーマンスを犠牲にすることなく、はるかに効率的である。

翻訳日:2022-10-25 16:53:36 公開日:2022-10-24
Bilingual Synchronization: Restoring Translational Relationships with Editing Operations ( http://arxiv.org/abs/2210.13163v1 )

Jitao Xu, Josep Crego, Fran\c{c}ois Yvon(参考訳) 機械翻訳(MT)は通常、スクラッチからソーステキストに相当するターゲット言語を生成するワンショットプロセスと見なされる。 ここでは、初期ターゲットシーケンスを仮定するより一般的な設定を、ソースの有効な翻訳に変換し、ソースとターゲットの並列性を復元する必要があると考える。 このバイリンガル同期タスクでは、複数のアーキテクチャ(自己回帰型と非自己回帰型の両方)とトレーニングシステムを検討し、インタラクティブMTのシミュレーション、翻訳メモリ(TM)の翻訳、TMクリーニングなど、複数の実践的な設定を試す。 以上の結果から,1つのジェネリックエディットベースシステムは,一度微調整すれば,これらのタスク用に特別に訓練された専用システムと比較したり,性能を上回ったりできることが示唆された。

翻訳日:2022-10-25 16:53:21 公開日:2022-10-24
The Better Your Syntax, the Better Your Semantics? Probing Pretrained Language Models for the English Comparative Correlative ( http://arxiv.org/abs/2210.13181v1 )

Leonie Weissweiler, Valentin Hofmann, Abdullatif K\"oksal, Hinrich Sch\"utze(参考訳) Construction Grammar (CxG) は、文法と意味論の関連を強調する認知言語学のパラダイムである。 語彙的項目を扱う規則ではなく、構文と意味論を組み合わせた異なる粒度の言語単位という言語の中心的な構成要素として構成を仮定する。 言語モデル(PLM)が示す統語的・意味的知識とCxGの整合性を評価するための第一歩として、最もよく研究されている構造の一つである英語比較相関(CC)を分類し理解する能力について検討する。 一方の構文プローブの分類精度と他方のセマンティック・アプリケーション・タスクにおけるモデルの動作について実験を行い,その例としてBERT,RoBERTa,DeBERTaを挙げる。 以上の結果から,調査した3つのplmはすべてccの構造を認識できるが,その意味は利用できないことが示された。 多くのNLPタスクにおけるPLMの人為的な性能は主張されているが、このことはPLMが言語知識の中枢領域で深刻な欠点に悩まされていることを示している。

翻訳日:2022-10-25 16:53:04 公開日:2022-10-24
Mutual Information Alleviates Hallucinations in Abstractive Summarization ( http://arxiv.org/abs/2210.13210v1 )

Liam van der Poel, Ryan Cotterell, Clara Meister(参考訳) 抽象要約モデルから生成された言語品質の大幅な向上にもかかわらず、これらのモデルは依然として、ソース文書でサポートされていない出力コンテンツを幻覚的に示す傾向を示している。 多くの作品が、問題の原因を修正、または少なくとも解明しようと試みており、成功は限られている。 本稿では、モデルが生成時に幻覚コンテンツにより多くの確率を割り当てる可能性が著しく高い単純な基準、すなわちモデルの不確実性を特定する。 この発見は幻覚の潜在的な説明を与えている: モデルは継続について不確定な場合、高い限界確率のテキスト、すなわちトレーニングセットにおける高周波発生を好む。 また、このような幻覚を防ぐためにデコード中のリアルタイム介入の可能なルートを動機付けている。 モデルが不確実性を示すとき、対象トークンの確率ではなく、ソースとターゲットトークンのポイント毎の相互情報に対する最適化に切り替える復号戦略を提案する。 XSumデータセットを用いた実験により,トップパフォーマンスデコード戦略のルージュとバートSスコアを維持しながら,ハロゲン化トークンの確率を低下させることが示された。

翻訳日:2022-10-25 16:52:44 公開日:2022-10-24
Analyzing the Use of Influence Functions for Instance-Specific Data Filtering in Neural Machine Translation ( http://arxiv.org/abs/2210.13281v1 )

Tsz Kin Lam, Eva Hasler, Felix Hieber(参考訳) 顧客からのフィードバックは、商用機械翻訳システムを改善する重要なシグナルとなる。 特定の翻訳エラーを修正するひとつの解決策は、関連する誤ったトレーニングインスタンスを削除し、その後に、インスタンス固有のデータフィルタリングと呼ばれる機械翻訳システムを再トレーニングすることです。 影響関数 (IF) は, 画像分類, 有害音声検出, エンテーメントタスクなどの分類タスクにおいて, 関連する訓練例を見つけるのに有効であることが示されている。 探索例が与えられた場合、IFは勾配空間における一連の訓練例と探索例の類似性を測定することによって、影響のある訓練例を見つける。 本稿では,ニューラルマシン翻訳(nmt)における影響関数の利用について検討する。 美術影響関数の状態に対する2つの効果的な拡張を提案し, IFが手作り正規表現よりも一般的に適用可能であることを示す。

翻訳日:2022-10-25 16:52:26 公開日:2022-10-24
ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and Effective Text Generation ( http://arxiv.org/abs/2210.13304v1 )

Junyi Li, Tianyi Tang, Wayne Xin Zhao, Jian-Yun Nie and Ji-Rong Wen(参考訳) 本研究では,事前学習言語モデル(PLM)に基づくテキスト生成タスクについて検討する。 典型的には、トークン・バイ・トケン方式でテキストを生成するために自動回帰(ar)方式が採用されている。 AR生成の多くの利点にもかかわらず、通常は非効率な推論に悩まされる。 したがって、全てのターゲットトークンを同時に生成するために、非自己回帰(NAR)モデルを提案する。 しかしながら、NARモデルは、通常、出力テキストにトークン依存がないため、低い品質のテキストを生成する。 本稿では,NARテキスト生成におけるトークン依存性を明示的にモデル化する,効率的かつ効果的な PLM である ELMER を提案する。 早期終了技術を活用することで、ELMERは予測信頼性(より確実なトークンは下位層で終了する)に従って、異なるレイヤでのトークン生成を可能にする。 さらに,新しい事前学習目標であるレイヤ置換言語モデリングを提案し,各トークンの終了層をシーケンスで置換することにより,エルマーを事前学習する。 3つのテキスト生成タスクの実験では、ERMERはAR PLMs (29.92) 対 BART (30.61) ROUGE-L (XSUM) と性能ギャップを狭くし、10倍以上の推論速度を達成する。

翻訳日:2022-10-25 16:52:11 公開日:2022-10-24
Don't Discard Fixed-Window Audio Segmentation in Speech-to-Text Translation ( http://arxiv.org/abs/2210.13363v1 )

Chantal Amrhein and Barry Haddow(参考訳) 実生活アプリケーションでは、人間の供給するセグメンテーションに頼ることなく、エンド・ツー・エンドの音声翻訳モデルが連続音声でうまく機能することが重要である。 オンライン音声翻訳では、モデルが完全な発話が話される前に翻訳を開始する必要があるが、ほとんどの先行研究はセグメンテーション問題を無視している。 本稿では,オフライン・オンライン両方のセグメンテーションにおけるセグメンテーションエラーに対するモデルの堅牢性向上とセグメンテーション戦略の比較を行い,翻訳品質,フリック,遅延について報告する。 5つの異なる言語対についての知見から,簡単な固定ウィンドウ音声分割が,適切な条件で驚くほど良好に動作できることが示唆された。

翻訳日:2022-10-25 16:51:49 公開日:2022-10-24
Focused Concatenation for Context-Aware Neural Machine Translation ( http://arxiv.org/abs/2210.13388v1 )

Lorenzo Lupo, Marco Dinarelli, Laurent Besacier(参考訳) 文脈認識型ニューラルマシン翻訳への直接的なアプローチは、標準エンコーダ・デコーダアーキテクチャに、現在の文とそれに関連するコンテキストからの多くの文によって形成された一連の文のウィンドウを供給することである。 そこで本研究では,現在の文の翻訳に焦点を合わせ,目的とする文脈によって生じる損失を削減し,結合性を改善する手法を提案する。 また,文境界や相対文距離の概念を強化し,文脈記述対象に対するモデルコンプライアンスを容易にする改良も提案する。 提案手法は, 平均翻訳品質指標と比較テストセットの両方を用いて評価し, バニラ結合法や他の高度な文脈認識システムよりも優れていることを証明した。

翻訳日:2022-10-25 16:51:35 公開日:2022-10-24
Visualizing the Obvious: A Concreteness-based Ensemble Model for Noun Property Prediction ( http://arxiv.org/abs/2210.12905v1 )

Yue Yang, Artemis Panagopoulou, Marianna Apidianaki, Mark Yatskar and Chris Callison-Burch(参考訳) ニューラルネットワークモデルは、プローブを使って表現から抽出できるエンティティとその関係に関する豊富な知識をエンコードする。 しかし、名詞の共通の性質(赤いイチゴ、小さなアリなど)は、テキストで明示されることが滅多にないため、他の種類の知識と比較して抽出することが困難である。 これを主にコミュニケーションの参加者に明らかな知覚特性のケースと仮定する。 本稿では,これらの特性を画像から抽出し,アンサンブルモデルで使用し,言語モデルから抽出した情報を補完する手法を提案する。 知覚的性質は抽象的性質(例えば、興味深く、不完全)よりも具体的であると考える。 本稿では,形容詞の具体性スコアをレバーとして用いて,各ソース(テキスト対画像)の寄与を校正することを提案する。 名詞の実際の特性を他の非関係特性よりも上位にランク付けする必要があるランキングタスクにおいて,アンサンブルモデルを評価する。 提案したテキストと画像の組み合わせは,強力なテキストベース言語モデルと比較して名詞特性予測を大幅に改善することを示す。

翻訳日:2022-10-25 16:45:05 公開日:2022-10-24
Exploring Euphemism Detection in Few-Shot and Zero-Shot Settings ( http://arxiv.org/abs/2210.12926v1 )

Sedrick Scott Keh(参考訳) この研究は、EMNLP 2022 FigLang Workshopで提案されたEuphemism Detection Shared Taskに基づいており、ほとんどショットやゼロショットの設定にまで拡張されている。 共有タスクから得られたデータセットを用いて,数ショット,ゼロショットの定式化を行い,RoBERTaとGPT-3を用いて実験を行った。 以上の結果から, 言語モデルでは, 学習中に見つからない新しい用語であっても, ユーフェミズムの用語を比較的よく分類することが可能であることが示唆された。

翻訳日:2022-10-25 16:44:48 公開日:2022-10-24
Are Current Task-oriented Dialogue Systems Able to Satisfy Impolite Users? ( http://arxiv.org/abs/2210.12942v1 )

Zhiqiang Hu, Roy Kaa-Wei Lee, Nancy F. Chen(参考訳) タスク指向対話(tod)システムは、チケット予約やサービス問い合わせなど、多くのタスクのユーザを支援する。 既存のtodシステムは、顧客のニーズに応える上で有望な性能を示しているが、これらのシステムは、ユーザが対話エージェントと丁寧に対話することを想定している。 この仮定は非現実的であり、不愉快な顧客やフラストレーションのある顧客はTODシステムと不当に対話する可能性がある。 本稿は,TODシステムに対するユーザの影響を調査することで,この研究ギャップに対処することを目的とする。 具体的には,無作為対話コーパスを構築し,無作為対話コーパスの最先端todシステムを評価するための広範な実験を行った。 実験の結果,既存のtodシステムは不適切なユーザの発話を処理できないことがわかった。 また,不規則対話におけるTOD性能向上のためのデータ拡張手法を提案する。 それでも、不規則な対話を扱うことは、非常に難しい研究課題である。 インポライトな対話コーパスを公開し、ベンチマーク評価を確立することで、この新たな挑戦的な研究課題を調査できることを願っている。

翻訳日:2022-10-25 16:44:36 公開日:2022-10-24
Composition, Attention, or Both? ( http://arxiv.org/abs/2210.12958v1 )

Ryo Yoshida and Yohei Oseki(参考訳) 本稿では,サブツリーを合成関数で1つのベクトル表現に再帰的に構成し,自己認識機構で過去の構造情報に選択的に参画する,構成注意文法(CAG)と呼ばれる新しいアーキテクチャを提案する。 これらの成分 -- 合成機能と自己着脱機構 -- がヒト様構文一般化を誘導するかどうかについて検討する。 具体的には,モデルサイズを注意深く制御したこれら2つのコンポーネントを伴わずに言語モデル(lms)を訓練し,synticgymベンチマークで6つのテスト回路に対する構文一般化性能を評価する。 その結果,合成機能と自己着脱機構の両方がlmsをより人間らしくするために重要な役割を果たすことが示され,言語現象の綿密な検査は,合成機能が構文的特徴を許容するが意味的特徴は持たないが,サブツリー表現にパーコレートできることを示唆した。

翻訳日:2022-10-25 16:44:19 公開日:2022-10-24
Multi-Type Conversational Question-Answer Generation with Closed-ended and Unanswerable Questions ( http://arxiv.org/abs/2210.12979v1 )

Seonjeong Hwang, Yunsu Kim, Gary Geunbae Lee(参考訳) 会話型質問応答(CQA)は、与えられたコンテキストの漸進的かつインタラクティブな理解を促進するが、データ不足の問題により、多くの領域においてCQAシステムの構築は困難である。 本稿では,オープンエンド,クローズドエンド,未解決の質問など,さまざまな質問タイプでCQAのデータを合成する新しい手法を提案する。 質問の種類ごとに異なる生成フローを設計し、それらを単一の共有フレームワークで効果的に組み合わせます。 さらに,階層的応答性分類(階層的ac)モジュールを考案し,不可解な質問を得ながら合成データの品質を向上させる。 手動検査の結果,本フレームワークで生成した合成データは,人間による会話と非常によく似た特徴を持つことがわかった。 4つの領域にまたがって、我々の合成データに基づいて訓練されたCQAシステムは、人間の注釈付きデータに基づいて訓練されたシステムに近い性能を示す。

翻訳日:2022-10-25 16:44:02 公開日:2022-10-24
Maknuune: A Large Open Palestinian Arabic Lexicon ( http://arxiv.org/abs/2210.12985v1 )

Shahd Dibas, Christian Khairallah, Nizar Habash, Omar Fayez Sadi, Tariq Sairafy, Karmel Sarabta and Abrar Ardah(参考訳) 我々は、パレスチナのアラビア方言のための大きなオープンレキシコンであるMaknuuneを提示する。 マクヌーンは17Kのレムマから36K以上のエントリを持ち、3.7Kのルートを持っている。 すべての項目には、アラビア語正書法、音韻的転写、英語の用語集が含まれる。 いくつかのエントリには、壊れた複数語やテンポラティックな女性形、関連するフレーズやコロケーション、標準アラビア語のグロス、文法、使用法、収集されたエントリの位置に関する例やメモなどの追加情報が含まれている。

翻訳日:2022-10-25 16:43:47 公開日:2022-10-24
An Empirical Revisiting of Linguistic Knowledge Fusion in Language Understanding Tasks ( http://arxiv.org/abs/2210.13002v1 )

Changlong Yu, Tianyi Xiao, Lingpeng Kong, Yangqiu Song and Wilfred Ng(参考訳) 大規模言語モデルの事前訓練中に言語知識が出現するが、近年の研究は、人間の定義した言語的先行概念をタスク固有の微調整に明示的に組み込もうと試みている。 構文的あるいは意味的な知識を持つ言語モデルをパーサから注入すると、多くの言語理解タスクが改善される。 構造的言語学的先行性の有効性をさらに検討するため,GLUEベンチマークの課題に対して,解析されたグラフや木を簡単なもの(例:バランス木)に置き換える実験的検討を行った。 自明なグラフによるエンコーディングは、完全な教師付きおよび少数ショット設定で競争力またはさらに優れたパフォーマンスを達成する。 この成果は、明示的な言語的優先ではなく、融合層によってもたらされるより多くの機能的相互作用に起因する可能性がある。 したがって、将来高度な知識融合法を設計するために必要なベースラインとして自明なグラフを使うことに注意を向ける。

翻訳日:2022-10-25 16:43:38 公開日:2022-10-24
Multilingual Auxiliary Tasks Training: Bridging the Gap between Languages for Zero-Shot Transfer of Hate Speech Detection Models ( http://arxiv.org/abs/2210.13029v1 )

Syrielle Montariol, Arij Riabi, Djam\'e Seddah(参考訳) ゼロショットクロスリンガルトランスファー学習は、多くの言語特異性を伴うタスクや、ヘイトスピーチ検出のような言語間の文化的ギャップが存在する場合において、非常に困難であることが示されている。 本稿では,いくつかのドメインおよび言語におけるヘイトスピーチ検出の制限について,厳密な実験的設定を用いて強調する。 次に,言語間のヘイトスピーチ検出モデルのゼロショット転送を改善するために,感情分析,エンティティ認識,構文情報に依存するタスクといった多言語補助タスクを訓練することを提案する。 本研究では,言語間の言語的ギャップと文化的ギャップを埋める上で,ヘイトスピーチ検出モデルが副タスクの微調整によってもたらされる言語間知識プロキシの利点を示す。

翻訳日:2022-10-25 16:43:22 公開日:2022-10-24
"Covid vaccine is against Covid but Oxford vaccine is made at Oxford!" Semantic Interpretation of Proper Noun Compounds ( http://arxiv.org/abs/2210.13039v1 )

Keshav Kolluru and Gabriel Stanovsky and Mausam(参考訳) 適切な名詞化合物、例えば「共発ワクチン」は簡潔な方法で情報を伝達する(「共発ワクチン」は「新型コロナウイルスに対して免疫するワクチン」である)。 これらはニュース見出しなどのショートフォームドメインで一般的に使用されるが、情報検索アプリケーションでは無視されている。 この制限に対処するため、我々は22.5Kの固有名詞化合物と自由形式の意味解釈からなる新しい手動注釈付きデータセットProNCIをリリースする。 ProNCIは、以前の名詞複合データセットの60倍の大きさであり、以前にも調査されていない非合成例も含んでいる。 構成名詞に関する知識の多様さを生かして,適切な名詞成分から意味的解釈を自動的に生成するために,様々なニューラルモデルを用いて実験を行った。 対象とする知識,特に共通名詞を付加すると,パフォーマンスが2.8%向上することがわかった。 最後に,既存のオープンieシステムとモデル生成解釈を統合し,85%の精度で7.5%の収率向上を観測した。 データセットとコードはhttps://github.com/dair-iitd/pronciで入手できる。

翻訳日:2022-10-25 16:43:06 公開日:2022-10-24
Structural generalization is hard for sequence-to-sequence models ( http://arxiv.org/abs/2210.13050v1 )

Yuekun Yao and Alexander Koller(参考訳) シークエンス・ツー・シークエンス(seq2seq)モデルは、言語構造を予測することを含む多くのNLPタスクで成功している。 しかし、合成一般化に関する最近の研究により、seq2seqモデルは訓練で見られない言語構造への一般化において、非常に低い精度を達成することが示されている。 これは意味解析だけでなく、構文解析やテキストからテキストへのタスクにおいても見られるseq2seqモデルの一般的な制限であり、言語知識を組み込んだニューロシンボリックモデルによってしばしば克服されるという新たな証拠を示す。 さらに,これらの制約の理由についての最初の回答を与える実験についても報告する。

翻訳日:2022-10-25 16:42:43 公開日:2022-10-24
Event-Centric Question Answering via Contrastive Learning and Invertible Event Transformation ( http://arxiv.org/abs/2210.12902v1 )

Junru Lu, Xingwei Tan, Gabriele Pergola, Lin Gui, Yulan He(参考訳) 人間の読み理解は、しばしば物語におけるイベント意味関係の推論を必要とし、イベント中心の質問応答(qa)によって表される。 イベント中心のQAに対処するため、TranCLRと呼ばれる対照的な学習と可逆的なイベント変換を備えた新しいQAモデルを提案する。 提案モデルは,イベントの意味的ベクトルを共通事象埋め込み空間に投影し,コントラスト学習で学習し,イベントの意味的知識を主流のQAパイプラインに自然に注入するために,可逆変換行列を利用する。 変換行列は、イベント認識質問ベクトルを用いて、質問で発生したイベントと回答中のイベントの注釈付きイベント関係タイプで微調整される。 Event Semantic Relation Reasoning (ESTER) データセットの実験結果から, 既存の強靭なベースラインと比較して, 生成的および抽出的セッティングが著しく向上し, トークンレベルのF1スコアが8.4%, エクササイズマッチ(EM)スコアが3.0%向上した。 質的な分析は、TranCLRが生成した回答の質の高さを明らかにし、QAモデル学習にイベント知識を注入する可能性を示している。 私たちのコードとモデルは、https://github.com/LuJunru/TranCLR.orgにある。

翻訳日:2022-10-25 16:33:59 公開日:2022-10-24
Deep Learning Approach for Dynamic Sampling for Multichannel Mass Spectrometry Imaging ( http://arxiv.org/abs/2210.13415v1 )

David Helminiak, Hang Hu, Julia Laskin, and Dong Hye Ye(参考訳) 従来の直線走査を用いた質量分析画像(MSI)は、空間分解能の獲得に数時間から数日を要する。 サンプルの視野内のほとんどのピクセルは、基礎となる生物学的構造や化学的情報に関係しないことが多いため、MSIはスパースおよびダイナミックサンプリングアルゴリズムとの統合の候補として提示される。 スキャン中、確率モデルによって、どの場所が確率的に低エラーリコンストラクションの生成に不可欠な情報を含んでいるかを決定する。 必要な物理的測定回数を減少させることで、全体の取得時間を最小化する。 畳み込みニューラルネットワーク(cnn)を用いた動的サンプリング(dlads)の深層学習アプローチにより,ナノスプレー脱着電気スプレーイオン化(nano-desi)msi組織に対する70%のスループット向上が実証された。 低二乗回帰(slads-ls)と多層パーセプトロン(mlp)ネットワーク(slads-net)を用いて,dladと教師付き学習手法による動的サンプリングの評価を行った。 1つのm/zチャネルに制限されたSLADS-LSと、マルチチャネルのSLADS-LSとSLADS-Netに比較すると、DLADSはそれぞれ36.7%、7.0%、および6.2%のレグレッション性能を向上し、結果として6.0%、2.1%、および3.4%のリコンストラクション品質を得た。

翻訳日:2022-10-25 15:43:35 公開日:2022-10-24
Thermodynamics-informed neural networks for physically realistic mixed reality ( http://arxiv.org/abs/2210.13414v1 )

Quercus Hern\'andez, Alberto Bad\'ias, Francisco Chinesta, El\'ias Cueto(参考訳) 社会における没入的技術が差し迫った影響は、仮想世界のリアルタイムおよびインタラクティブな物理シミュレーションにおけるアクティブな研究が現実的になるように促される。 この文脈では、現実的な意味は物理学の法則に従うことである。 本稿では,複合現実感におけるリアルタイムユーザインタラクションによって引き起こされる変形可能な物体の動的応答を,ディープラーニングを用いて計算する手法を提案する。 グラフベースのアーキテクチャは予測の熱力学的一貫性を確保し、可視化パイプラインは自然で現実的なユーザエクスペリエンスを実現する。 混合現実シナリオにおける仮想または物理的固体と相互作用する仮想固体の2つの例は、その手法の性能を証明するために提供される。

翻訳日:2022-10-25 15:42:42 公開日:2022-10-24
Blind Polynomial Regression ( http://arxiv.org/abs/2210.11874v2 )

Alberto Natali and Geert Leus(参考訳) 多項式を観測データに当てはめることは、補間や予測のような多くの信号処理や機械学習タスクにおいてユビキタスなタスクである。 その文脈では、入力と出力のペアが利用可能であり、ゴールは多項式の係数を見つけることである。 しかし、多くの応用において、入力は部分的には知られ、全く知られておらず、従来の回帰アプローチは適用されない。 本稿では,(潜在的に部分的な)ブラインド回帰問題を形式的に定式化し,その理論的性質を説明するとともに,その解法を提案する。 ケーススタディとして,提案手法をジッタ補正問題に適用し,その性能を検証した。

翻訳日:2022-10-25 15:42:32 公開日:2022-10-24
Bridging Machine Learning and Sciences: Opportunities and Challenges ( http://arxiv.org/abs/2210.13441v1 )

Taoli Cheng(参考訳) 科学における機械学習の応用は近年、エキサイティングな進歩を遂げている。 広く適用可能な手法として、機械学習コミュニティでは長年にわたり異常検出が研究されてきた。 特に、深層ニューラルネットワークを用いた分散検出は、高次元データにおいて大きな進歩を遂げている。 近年、これらの技術は科学的分野においてその可能性を示している。 データ普遍性、実験プロトコル、モデル堅牢性など、それらの適用可能性について批判的に考察する。 本稿では,移行可能な実践とドメイン固有の課題を同時に提示する事例について論じ,近い将来に新たな学際研究パラダイムを確立するための出発点となる。

翻訳日:2022-10-25 15:42:03 公開日:2022-10-24
Langevin dynamics based algorithm e-TH$\varepsilon$O POULA for stochastic optimization problems with discontinuous stochastic gradient ( http://arxiv.org/abs/2210.13193v1 )

Dong-Young Lim, Ariel Neufeld, Sotirios Sabanis, Ying Zhang(参考訳) 我々は、量子推定、ベクトル量子化、CVaR最小化、ReLUニューラルネットワークを含む正規化最適化問題などの現実の応用に自然に現れる不連続確率勾配による最適化問題を解くために、e-TH$\varepsilon$O POULAと呼ばれる新しいランゲヴィンダイナミクスベースのアルゴリズムを導入する。 理論的にも数値的にも e-TH$\varepsilon$O POULA アルゴリズムの適用性を実証する。 より正確には、確率勾配が平均的に局所リプシッツであり、無限大条件で一定の凸性を満たす条件の下で、ワッサーシュタイン距離において e-TH$\varepsilon$O POULA の非漸近誤差境界を確立し、予想される余剰リスクの非漸近誤差推定を与える。 金融と保険の3つの主要な応用として、多周期ポートフォリオ最適化、多周期ポートフォリオ最適化における転送学習、および(Leaky)-ReLUアクティベーション機能を備えたニューラルネットワークを含む保険請求予測がある。 E-TH$\varepsilon$O POULAをモデル精度でSGLD, ADAM, AMSGradと比較し, 実世界のデータセットを用いて数値実験を行った。

翻訳日:2022-10-25 15:41:54 公開日:2022-10-24
PARAFAC2-based Coupled Matrix and Tensor Factorizations ( http://arxiv.org/abs/2210.13054v1 )

Carla Schenker, Xiulin Wang and Evrim Acar(参考訳) 結合行列とテンソル因子化(CMTF)は、行列と高次テンソルの形でデータセットを共同で解析する有効なデータ融合ツールとして登場した。 PARAFAC2モデルはCANDECOMP/PARAFAC(CP)テンソルモデルの柔軟性と不規則・ラガーテンソルの処理能力から、有望な代替品であることが示されている。 行列/テンソル分解と結合したparafac2モデルに基づく融合モデルは近年研究されているが、データセット間の正規化や結合のタイプは限られている。 本稿では,すべてのモードや線形結合に様々な制約を課すことができるような PARAFAC2 ベースのCMTF モデルを,AO (Alternating Optimization) と ADMM (Alternating Direction Method of Multipliers) を用いたアルゴリズムフレームワークを提案する。 数値実験により,提案手法が様々な制約と線形結合を用いて,基礎となるパターンを正確に復元できることを実証する。

翻訳日:2022-10-25 15:34:21 公開日:2022-10-24
Novelty Detection in Time Series via Weak Innovations Representation: A Deep Learning Approach ( http://arxiv.org/abs/2210.13358v1 )

Xinyi Wang, Mei-jen Lee, Qing Zhao, Lang Tong(参考訳) 未知および非パラメトリックな確率構造を持つ時系列における新規性検出について考察する。 時系列の過去のすべてのサンプルから統計的に独立した新規サンプルからなるイノベーションシーケンスを因果的に抽出する深層学習手法を提案する。 革新系列の確率構造における新しい変化をオンラインで検出するための新規性検出アルゴリズムを開発した。 提案手法の新規性検出のためにベイズリスク尺度に基づく最小限の最適性を確立し, 実データと合成データを用いた実験でその堅牢性と有効性を示す。

翻訳日:2022-10-25 15:34:00 公開日:2022-10-24
On representation of natural image patches ( http://arxiv.org/abs/2210.13004v1 )

Cheng Guo(参考訳) 第一原理から始めて、自然画像の局所統計をモデル化するために even code という教師なし学習法を導出する。 最初のバージョンでは、独立状態を持つ直交基底を用いて、数ピクセルの単純な確率分布をモデル化している。 第2版では、顕微鏡的損失関数を使用して、画像パッチの非線形スパースバイナリ表現を学習する。 二項表現空間における距離は、画像パッチの類似性を反映する。 学習モデルは、初期視覚システムのような局所エッジ検出と方向選択ユニットも備えている。

翻訳日:2022-10-25 15:32:29 公開日:2022-10-24
Iterative Patch Selection for High-Resolution Image Recognition ( http://arxiv.org/abs/2210.13007v1 )

Benjamin Bergner, Christoph Lippert, Aravindh Mahendran(参考訳) 高分解能画像は、自動運転やコンピュータ支援診断など、様々な用途で広く使われている。 しかし、そのような画像上でニューラルネットワークをトレーニングすることは計算的に困難であり、現代のGPUでも容易にメモリ外エラーにつながる。 本稿では,メモリ使用量を入力サイズから切り離し,ハードウェアの厳しい制約下での任意のサイズの画像の処理を可能にする,単純な手法であるイテレーティブ・パッチ選択(IPS)を提案する。 IPSは、最も健全なパッチだけを選択してこれを達成し、画像認識のためのグローバルな表現に集約する。 パッチ選択とアグリゲーションの両方のために、複数のインスタンス学習と密接な関係を示すクロスアテンションベースのトランスフォーマが導入された。 本手法は,最小のアクセラレータメモリを使用しながら,異なる領域,トレーニング体制,画像サイズにまたがって高い性能を示す。 例えば、最大250kのパッチ(>16ギガピクセル)と5GBのGPU VRAMのみをバッチサイズ16.6GBのバッチサイズで、スライディングイメージ全体のモデルを微調整することが可能です。

翻訳日:2022-10-25 15:32:23 公開日:2022-10-24
Brain Tumor Segmentation using Enhanced U-Net Model with Empirical Analysis ( http://arxiv.org/abs/2210.13336v1 )

MD Abdullah Al Nasim, Abdullah Al Munem, Maksuda Islam, Md Aminul Haque Palash, MD. Mahim Anjum Haque, and Faisal Muhammad Shah(参考訳) 脳のがんは致命的であり、慎重に外科切除する必要がある。 脳腫瘍は畳み込みニューラルネットワーク(cnn)を用いてu-netで分割された。 壊死性、浮腫性、成長性、健康的な組織の重なりを求めると、画像から関連する情報を得るのは難しいかもしれません。 2D U-Netネットワークは改善され、BraTSデータセットでトレーニングされ、4つの領域が見つかった。 U-Netは多くのエンコーダやデコーダルートを設定し、異なる方法で使用できる画像から情報を取得することができる。 計算時間を短縮するため,画像分割を重要でない背景詳細を除外する。 BraTSデータセットの実験により、MRI(MRI)から脳腫瘍を分離するモデルがうまく機能していることが示されている。 本研究では、2017年、2018年、2019年、2020年のBraTSデータセットが、BraTS 2019データセットの到達したダイススコア0.8717(ネクロティック)、0.9506(浮腫)、0.9427(エンハンシング)と大きく異なることはないことを示した。

翻訳日:2022-10-25 15:32:06 公開日:2022-10-24
Large Batch and Patch Size Training for Medical Image Segmentation ( http://arxiv.org/abs/2210.13364v1 )

Junya Sato and Shoji Kido(参考訳) マルチ組織セグメンテーションは、臓器の評価を可能にし、複数の臓器間の関係を説明し、正確な診断と治療の決定を容易にする。 しかし、データセットや計算資源が不足しているため、セグメンテーションを正確に実行できるモデルはほとんどない。 大規模,臨床,多種多様な腹部多臓器セグメンテーションベンチマークであるAMOS2022チャレンジでは,マルチGPU分散トレーニングを用いて,大規模なバッチサイズとパッチサイズを持つ3D-UNetモデルを訓練した。 セグメンテーション性能は,ベースライン設定に比べてバッチサイズやパッチサイズが大きいモデルでは向上傾向にあった。 異なる設定でトレーニングされたアンサンブルモデルを使用することで、精度はさらに向上した。 これらの結果は,臓器分節におけるパラメータ選択の基準となる。

翻訳日:2022-10-25 15:31:44 公開日:2022-10-24
FairGen: Fair Synthetic Data Generation ( http://arxiv.org/abs/2210.13023v1 )

Bhushan Chaudhari, Himanshu Choudhary, Aakash Agarwal, Kamna Meena, Tanmoy Bhowmik(参考訳) 銀行、製薬、エドテックなどの分野における機械学習の普及に伴い、モデルがあらゆるグループに対して不公平に差別されないように、責任あるai手法を採用することが最も重要になっている。 クリーンなトレーニングデータがないことから、生成的な敵対的手法は、テキスト、画像、不正検出をモデル化する構造化データセットなどの非構造化データから、さまざまなドメインにまたがる最先端アーキテクチャによる合成データを生成するのが望ましい。 これらのテクニックは、クラス不均衡、限られたトレーニングデータ、プライバシー問題によるデータへのアクセス制限など、いくつかの課題を克服する。 公正なデータを生成することに焦点を当てた既存の作業は、特定のGANアーキテクチャで機能するか、あるいはGAN間でチューニングするのが非常に困難です。 本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。 本論文はバイアス誘発サンプルの同定と除去に前処理アルゴリズムを用いる。 特に、合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアス誘発サンプルを除去することで、GANは本質的に真の情報的サンプルに焦点を当てる。 2つのオープンソースのデータセットを実験的に評価した結果,提案するパイプラインが公平なデータを生成する方法と,その性能向上を実証した。

翻訳日:2022-10-25 15:25:36 公開日:2022-10-24
Federated and Meta learning over Non-Wireless and Wireless Networks: A Tutorial ( http://arxiv.org/abs/2210.13111v1 )

Xiaonan Liu and Yansha Deng and Arumugam Nallanathan and Mehdi Bennis(参考訳) 近年、非ワイヤレスおよび無線ネットワークにおけるリソース管理、干渉管理、自律性、意思決定問題を解決するために、機械学習(ML)ソリューションが開発されている。 標準的なmlアプローチでは、トレーニングのための中央サーバでデータを収集する必要があり、デバイスのデータのプライバシを保持することはできない。 この問題に対処するため、フェデレーションドラーニング(FL)は、エッジデバイスがデータプライバシのローカルデータセットを共有することなく、協調的にMLモデルをトレーニングできる効果的な方法である。 通常、FLは与えられたタスクとすべてのデバイスに対するグローバルモデルを学ぶことに集中するので、異なるデータ分布を持つデバイスにモデルを適応することはできない。 このような場合、いくつかのデータサンプルを使用して異なるデータ分布に学習モデルを適応させるためにメタラーニングが用いられる。 このチュートリアルでは、fl、meta learning、federated meta learning(fedmeta)について包括的なレビューを行う。 他のチュートリアルに比べて、FL/meta-learning/FedMetaの設計、最適化、非ワイヤレスおよび無線ネットワーク上での進化の活用が目的である。 さらに、これらの学習アルゴリズム間の関係だけでなく、現実世界の応用におけるそれらの利点や欠点も分析する。

翻訳日:2022-10-25 15:25:12 公開日:2022-10-24
ADLight: A Universal Approach of Traffic Signal Control with Augmented Data Using Reinforcement Learning ( http://arxiv.org/abs/2210.13378v1 )

Maonan Wang, Yutong Xu, Xi Xiong, Yuheng Kan, Chengcheng Xu, Man-On Pun(参考訳) 交通信号制御は、動的ネットワークの混雑を減少させる可能性がある。 近年の研究では、強化学習法(RL)による交通信号制御が平均待ち時間を著しく短縮できることが示された。 しかし、既存の方法の欠点は、異なる構造を持つ新しい交差点のモデル再訓練が必要であることである。 本稿では,拡張データ(ADLight)を用いた新しい強化学習手法を提案する。 本稿では,異なる交差点に対して同じ構造を持つ一般化モデルを実現するために,現在の位相期間を設定した動作と動作の特徴を取り入れた新しいエージェント設計を提案する。 一般化性能を向上させるために,新しいデータ拡張法である \textit{movement shuffle} を開発した。 また,都市移動シミュレーション(sumo)において,新しい交差点を用いたユニバーサルモデルをテストする。 その結果,1つの環境で訓練されたモデル(平均待ち時間の5%の損失に過ぎず)に近づき,80%以上のトレーニング時間を削減でき,信号機のスケーラブルな操作において多くの計算資源を節約できることがわかった。

翻訳日:2022-10-25 15:24:52 公開日:2022-10-24
E-Valuating Classifier Two-Sample Tests ( http://arxiv.org/abs/2210.13027v1 )

Teodora Pandeva and Tim Bakker and Christian A. Naesseth and Patrick Forr\'e(参考訳) E値に基づく高次元データに対する分類器2サンプルテストであるE-C2STを提案する。 p$-valuesベースのテストと比較すると、E値を持つテストはI型エラーのサンプル保証が有限である。 E-C2STは、分割可能性比テストと予測独立性テストに関する既存の研究のアイデアを組み合わせている。 結果のE値には、代替仮説に関する情報が含まれている。 シミュレーションおよび実生活データに対するE-C2STの有用性を示す。 すべての実験において,E-C2STは他の手法に比べて低出力で開始するが,最終的には1方向に収束する。 同時に、e-c2stのtype iエラーは選択された重要度レベルを下回っており、必ずしもベースラインメソッドの場合ではない。 最後に、MRIデータセットを用いて、独立に実行される複数の研究からE値を乗算すると、有限サンプルI型エラー保証を保ちながらパワーを増大させるE値が結合されることを実証する。

翻訳日:2022-10-25 15:23:00 公開日:2022-10-24
Multi-Agent Path Finding via Tree LSTM ( http://arxiv.org/abs/2210.12933v1 )

Yuhao Jiang, Kunjie Zhang, Qimai Li, Jiaxin Chen, Xiaolong Zhu(参考訳) 近年,Multi-Agent Path Finding (MAPF) が運用研究 (OR) と強化学習 (RL) の両方の分野から注目を集めている。 しかし、2021年のFlatland3 ChallengeではMAPFの競争で、最良のRL法は27.9点に過ぎず、最高のOR法よりもはるかに少なかった。 本稿では,これまで最も優れたrlソリューションである125.3を数倍高く評価したflatland3 challengeに対する新しいrlソリューションを提案する。 我々はMAPFに新しいネットワークアーキテクチャ、TreeLSTMを創造的に適用する。 報酬形成,多相学習,集中制御など,他のRL技術とともに,我々のソリューションは上位2-3OR手法に匹敵するものである。

翻訳日:2022-10-25 15:14:59 公開日:2022-10-24
Ares: A System-Oriented Wargame Framework for Adversarial ML ( http://arxiv.org/abs/2210.12952v1 )

Farhan Ahmed, Pratik Vaishnavi, Kevin Eykholt, Amir Rahmati(参考訳) 10年近く前に機械学習モデルに対する敵の攻撃が発見されて以来、敵の機械学習の研究は急速に進化し、敵の攻撃に対するMLモデルの堅牢性を高めようとするディフェンダーと、これらの防御を弱めたり打ち負かすことができるより良い攻撃を開拓しようとする敵の間での永遠の戦争へと発展した。 しかし、このドメインはMLの実践者からはほとんど買われていない。これらの攻撃が現実世界のシステムに影響を及ぼすことを気にせず、またこれらの攻撃に対して堅牢性を求めるためにモデルの正確性を交換する意思もない。 本稿では、現実的なウォーゲームのような環境で、研究者が攻撃や防御を探索できる敵MLの評価フレームワークであるAlesの設計と実装の動機付けを行う。 aresは、攻撃者と防御者の間の対立を、対立する目標を持つ強化学習環境において2つのエージェントとして構成している。 これにより、障害発生時間などのシステムレベルの評価指標の導入と、標的防御の移動などの複雑な戦略の評価が可能になる。 我々は、敵が訓練したディフェンダーに対してホワイトボックス攻撃を仕掛けた最初の調査の結果を提供する。

翻訳日:2022-10-25 15:14:45 公開日:2022-10-24
Non-Contrastive Learning-based Behavioural Biometrics for Smart IoT Devices ( http://arxiv.org/abs/2210.12964v1 )

Oshan Jayawardana, Fariza Rashid, Suranga Seneviratne(参考訳) ビヘイビアバイオメトリックスは、パスワードや静的バイオメトリックスといった従来の認証手法の限界を克服する有効な代替手段として検討されている。 また、AR/VR機能を備えたスマートヘッドセット、ウェアラブル、アーブルといった、大きなフォームファクタやユーザとのシームレスな対話能力を持たないIoTデバイスのための、実行可能な認証方法として検討されている。 最近のビヘイビアバイオメトリックソリューションは、大量の注釈付きトレーニングデータを必要とするディープラーニングモデルを使用している。 このようなビヘイビアバイオメトリックスデータの収集は、プライバシとユーザビリティの懸念を生じさせる。 そこで本研究では,SimSiamに基づく非コントラスト型自己教師学習を用いて,行動バイオメトリックシステムのラベル効率を向上させることを提案する。 鍵となるアイデアは、大量の(そして匿名化された)データを使って優れた特徴抽出器を構築することである。 2つの脳波データセットを用いて,教師付き学習やデータ拡張といった従来の手法よりも,非コントラスト型学習の方が4%-11%高い結果を示す。 また、一般に、自己教師付き学習法は他のベースラインよりも優れていることを示す。 最後に,注意深い実験を通じて,非コントラスト学習プロセスに組み込むことができる様々な修正を行い,ハイパフォーマンスをアーカイブする。

翻訳日:2022-10-25 15:14:25 公開日:2022-10-24
Investigating Neuron Disturbing in Fusing Heterogeneous Neural Networks ( http://arxiv.org/abs/2210.12974v1 )

Biao Zhang, Peng Xiao, and Shuqin Zhang(参考訳) 個別に配置されたクライアントでトレーニングされたディープラーニングモデルをワンショットのコミュニケーションラウンドでグローバルモデルに融合させることは、フェデレートラーニングの簡単な実装である。 現在のモデル融合法は、ほぼ同一のアーキテクチャを持つニューラルネットワークを融合するのに実験的に有効であるが、理論的に解析されることは滅多にない。 本稿では,異種局所モデルのニューロン同士が相互に干渉するニューロン乱れ現象を明らかにする。 本稿では、クライアント間のデータ不均一性とニューラルネットワークの特性を組み合わせたベイズ的視点による詳細な説明を行う。 さらに,神経障害を排除し,入力に応じて局所モデルであるamsを適応的に選択することでニューラルネットワークを融合させる実験手法を提案する。 実験により、AMSは一般モデル融合法やアンサンブル法よりもデータ不均一性において堅牢であることが示された。 これはモデル融合における神経障害を考える必要性を意味する。 加えて、amsは様々なアーキテクチャを実験的なアルゴリズムとして融合するモデルとして利用可能であり、将来の作業のためにいくつかのamsの拡張もリストアップしている。

翻訳日:2022-10-25 15:14:04 公開日:2022-10-24
Empirical analysis of PGA-MAP-Elites for Neuroevolution in Uncertain Domains ( http://arxiv.org/abs/2210.13156v1 )

Manon Flageat, Felix Chalumeau, and Antoine Cully(参考訳) MAP-Elitesを含む品質多様性アルゴリズムは、最適化問題に対する多種多様な高性能なソリューションの収集を可能にするため、パフォーマンスのみの最適化アプローチの強力な代替手段として登場した。 しかし、それらはしばしば低次元の探索空間や決定論的環境に限られる。 最近導入されたPolicy Gradient Assisted MAP-Elites (PGA-MAP-Elites)アルゴリズムは、MAP-Elitesの従来の遺伝的演算子とDeep Reinforcement Learningにインスパイアされた勾配に基づく演算子をペアリングすることで、この制限を克服する。 この新しいオペレータは、ポリシー勾配を用いた高パフォーマンスソリューションへの突然変異を誘導する。 本研究では,PGA-MAP-Elitesの詳細な研究を提案する。 本稿では,不確定領域を考慮した場合のアルゴリズムの性能と生成解の再現性に対するポリシー勾配の利点を示す。 我々はまず,PGA-MAP-Elitesが決定論的かつ不確実な高次元環境において高い性能を持つことを示す。 第2に,PGA-MAP-Elites が生成するソリューションの集合は,すべてのベースラインを上回り,不確実な環境において高い再現性を示し,不確実なアプリケーションに特化して構築された品質多様性アプローチによるソリューションの再現性にアプローチする。 最後に、政策次数に基づく変動のダイナミクスのアブレーションと詳細な分析を提案する。 我々は,PGA-MAP-Elitesの性能を保証するために,政策段階の変動演算子が決定可能であることを実証する。

翻訳日:2022-10-25 15:07:24 公開日:2022-10-24
Applying Autonomous Hybrid Agent-based Computing to Difficult Optimization Problems ( http://arxiv.org/abs/2210.13205v1 )

Mateusz Godzik, Jacek Dajda, Marek Kisiel-Dorohinicki, Aleksander Byrski, Leszek Rutkowski, Patryk Orzechowski, Joost Wagenaar, Jason H. Moore(参考訳) 進化的マルチエージェントシステム(EMAS)は困難で多次元的な問題を扱うのに非常に適しており、その有効性はマルコフ-チェインモデルの解析に基づいて理論的に証明された。 現在、EMASに自律的ハイブリッド化を導入する研究が続けられている。 本稿では,EMASのハイブリッドバージョンを提案するとともに,複数のハイブリッド演算子の選択と導入,および本アルゴリズムのハイブリッドステップを開始するためのルールの定義について述べる。 これらのハイブリッドステップは、既存のよく知られた、効率的なメタヒューリスティックスを活用し、結果をメインアルゴリズムに統合する。 議論された修正は、多くの難しい連続最適化ベンチマークに基づいて評価される。

翻訳日:2022-10-25 15:06:56 公開日:2022-10-24
Unsupervised Object Representation Learning using Translation and Rotation Group Equivariant VAE ( http://arxiv.org/abs/2210.12918v1 )

Alireza Nasiri, Tristan Bepler(参考訳) 多くの画像モダリティにおいて、興味の対象は様々な場所やポーズ(すなわち、2dまたは3dにおける翻訳や回転の対象)で起こりうるが、対象の位置とポーズはその意味論(すなわち、対象の本質)を変えない。 すなわち、衛星画像における航空機の特定の位置と回転、または自然画像における椅子の3次元回転、または低温電子マイクログラフにおける粒子の回転は、それらの物体の本質的な性質を変えることはない。 本稿では,ポーズや位置に対して完全に教師なしの方法で不変な物体の意味表現を学ぶ問題を考える。 本稿では,翻訳・回転群等価変分オートエンコーダフレームワークであるTARGET-VAEを導入することで,この問題に対する従来のアプローチの欠点に対処する。 TARGET-VAEは3つのコアイノベーションを組み合わせています。 1)回転変換群同変エンコーダ構造, 2 近似推論ネットワークにより共同で推定される潜在回転、翻訳、および回転-翻訳-不変意味オブジェクト表現上の構造的異方性分布 3)空間的に均等なジェネレータネットワーク。 総合的な実験では,TARGET-VAEは,従来の方法の病態を著しく改善し,回避する監督なしで,絡み合った表現を学習する。 TARGET-VAEが学習したセマンティック表現は、回転と翻訳によって高度に劣化した画像に基づいて訓練されると、一貫したポーズのオブジェクトで学んだものと類似し、セマンティック潜在空間におけるクラスタリングを劇的に改善する。 さらに、TARGET-VAEは驚くほど正確な教師なしポーズと位置推定を行うことができる。 我々は、target-vaeのような手法が、教師なしオブジェクト生成、ポーズ予測、およびオブジェクト検出のための将来のアプローチとなることを期待している。

翻訳日:2022-10-25 14:59:03 公開日:2022-10-24
IT-RUDA: Information Theory Assisted Robust Unsupervised Domain Adaptation ( http://arxiv.org/abs/2210.12947v1 )

Shima Rashidi, Ruwan Tennakoon, Aref Miri Rekavandi, Papangkorn Jessadatavornwong, Amanda Freis, Garret Huff, Mark Easton, Adrian Mouritz, Reza Hoseinnezhad, Alireza Bab-Hadiashar(参考訳) トレイン(ソース)とテスト(ターゲット)データセット間の分散シフトは、マシンラーニングアプリケーションで発生する一般的な問題である。 この問題を解決する方法の1つは、ラベル豊富なソースドメインからラベルのないターゲットドメインへの知識転送を実行するUnsupervised Domain Adaptation (UDA)技術を使用することである。 ソースまたはターゲットデータセットに存在するアウトリーチは、実際にUDAを使用する場合、さらなる課題をもたらす可能性がある。 本稿では、この尺度の顕著な特徴として、単一のパラメータ$\alpha$で調整可能なロバスト性を継承しながら、ソースとターゲットの分布の相違を最小限に抑える尺度として$\alpha$-divergenceを用いる。 本稿では,提案手法の特別な場合として,他のよく知られた発散ベースのuda手法を導出できることを示す。 さらに、ソース損失と2つのドメインの間の最初の$\alpha$-divergenceという観点で、対象領域の損失に対して理論上の上限が導かれる。 提案手法のロバスト性は、ターゲットおよびソースデータセットに存在する余分なクラスが外れ値と見なされるオープンセットおよび部分的なUDA設定において、複数のベンチマークデータセットをテストすることによって検証される。

翻訳日:2022-10-25 14:58:32 公開日:2022-10-24
High-Resolution Image Editing via Multi-Stage Blended Diffusion ( http://arxiv.org/abs/2210.12965v1 )

Johannes Ackermann, Minjun Li(参考訳) 拡散モデルは画像生成や画像編集において大きな成果を上げている。 しかし、現在のアプローチは高分解能生成のためのトレーニング拡散モデルの計算コストのため、低分解能に限られている。 本稿では,事前学習した低分解能拡散モデルを用いてメガピクセル範囲の画像を編集する手法を提案する。 我々はまず,Blended Diffusionを用いて低解像度で画像を編集し,その後,高解像度モデルとBlended Diffusionを用いて複数のステージでアップスケールする。 提案手法を用いることで,拡散モデルの出力に対して,シェルフ超解像法のみを適用した場合よりも高い視力が得られる。 また,高分解能で直接拡散モデルを用いるよりも,グローバル一貫性が向上した。

翻訳日:2022-10-25 14:58:11 公開日:2022-10-24
Heat Demand Forecasting with Multi-Resolutional Representation of Heterogeneous Temporal Ensemble ( http://arxiv.org/abs/2210.13108v1 )

Adithya Ramachandran, Satyaki Chatterjee, Siming Bayer, Andreas Maier, Thorkil Flensmark(参考訳) 電力会社が直面する主要な課題の1つは、温室効果ガスの排出を最小限に抑えることである。 スマートメーターとスマートグリッドの出現は、負荷予測のような積極的な技術によって熱エネルギーの最適供給を実現する前例のない利点をもたらす。 本稿では,天気やホリデー/非ホリデーといった外因性変数を組み込む能力を備えたスカルグラムとして時系列を符号化したニューラルネットワークに基づく熱需要予測フレームワークを提案する。 その後、CNNを用いて、熱負荷のマルチステップ予測を行う。 最後に,提案手法をSARIMAXやLSTMといった最先端の手法と比較する。 振り返り実験による定量的結果は,提案フレームワークがデンマークから取得した実世界のデータを用いて,最先端のベースライン法を一貫して上回っていることを示している。 MAPEでは7.54%,RMSEでは417kWという最小誤差が,他の手法と比較して提案手法を用いて達成されている。

翻訳日:2022-10-25 14:57:59 公開日:2022-10-24
Robust Self-Supervised Learning with Lie Groups ( http://arxiv.org/abs/2210.13356v1 )

Mark Ibrahim, Diane Bouchacourt, Ari Morcos(参考訳) ディープラーニングはコンピュータビジョンの顕著な進歩につながった。 それでも、現在の最高のモデルでは、トレーニング中に見られるモデルと微妙に異なるバリエーションを示すと、壊れやすい。 物体のポーズ、色、照明のわずかな変化は、壊滅的な誤分類につながる可能性がある。 最先端のモデルは、一連のバリエーションが異なるオブジェクトにどのように影響するかを理解するのに苦労する。 より現実的な環境でオブジェクトがどのように変化するかという概念を具現化するフレームワークを提案する。 本手法はリー群の形式化を連続変換に応用し,モデルの分散シフトに対する頑健性を改善する。 我々は、最先端の自己教師型学習(SSL)モデルにフレームワークを適用し、Lieグループによる変換を明示的にモデル化することで、典型的なポーズで現在見られるような、新しいポーズや、どんなポーズでも未知のインスタンスでも、MAEが10%以上のパフォーマンス向上をもたらすことを発見した。 また、このアプローチをImageNetに適用し、Lie演算子の性能が約4%向上することを発見した。 これらの結果は、モデルのロバスト性を改善するための学習変換の可能性を実証する。

翻訳日:2022-10-25 14:57:44 公開日:2022-10-24
Modeling Information Change in Science Communication with Semantically Matched Paraphrases ( http://arxiv.org/abs/2210.13001v1 )

Dustin Wright and Jiaxin Pei and David Jurgens and Isabelle Augenstein(参考訳) メディアが科学的情報を忠実に伝えるかどうかは、長い間科学コミュニティにとって重要な問題だった。 パラフレーズの科学的発見を自動的に特定することで、科学コミュニケーションプロセスにおける情報変化の大規模追跡と分析が可能になるが、複数の領域にわたる科学情報間の類似性をシステムが理解する必要がある。 そこで本研究では,情報変更の程度に注釈が付された最初の科学的発見のパラフレーズデータセットであるspiced(scientific paraphrase and information change dataset)を提案する。 SPICEDには、ニュース記事、ソーシャルメディアの議論、オリジナル論文の全文から抽出された6000の科学的発見ペアが含まれている。 我々は,SPICEDが課題であり,SPICEDで訓練されたモデルが実世界の科学的主張の事実確認のための証拠検索における下流性能を向上させることを実証した。 最後に、SPICEDで訓練されたモデルが、人や組織が新しい科学的発見を忠実に伝達する程度に、大規模な傾向を示すことを示す。 データ、コード、事前訓練されたモデルはhttp://www.copenlu.com/publication/2022_emnlp_wright/で入手できる。

翻訳日:2022-10-25 14:56:15 公開日:2022-10-24
Sampling with Mollified Interaction Energy Descent ( http://arxiv.org/abs/2210.13400v1 )

Lingxiao Li, Qiang Liu, Anna Korba, Mikhail Yurochkin, Justin Solomon(参考訳) 正規化定数まで密度しか知られていない目標尺度からのサンプリングは、計算統計学と機械学習における根本的な問題である。 本稿では,新しいサンプリング最適化手法であるmollified interaction energy descent (mied)を提案する。 miedは、mollified interaction energies(mies)と呼ばれる確率測度の新たなエネルギークラスを最小化する。 これらのエネルギーは、pde理論に由来するディラックデルタの滑らかな近似であるmollifier関数に依存する。 モリファイアがディラックデルタに近づくと、MIEは目標測度に対してチ二乗発散に収束し、MIEの勾配流はチ二乗発散に一致することを示す。 このエネルギーを適切な離散化で最適化すると、非拘束領域と制約領域の両方でサンプリングする実用的な一階の粒子ベースアルゴリズムが得られる。 実験により,本アルゴリズムはSVGDのような既存の粒子ベースアルゴリズムに匹敵する非拘束サンプリング問題に対して,制約サンプリング問題に対して,厳密な最適化手法を組み込んで,より柔軟な制約処理を行う。

翻訳日:2022-10-25 14:50:00 公開日:2022-10-24
High Fidelity Neural Audio Compression ( http://arxiv.org/abs/2210.13438v1 )

Alexandre D\'efossez, Jade Copet, Gabriel Synnaeve, Yossi Adi(参考訳) ニューラルネットワークを利用した最先端のリアルタイム高忠実オーディオコーデックを提案する。 ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成される。 本研究では,単一のマルチスケール・スペクトログラム・アドバイザリーを用いて,効率的にアーティファクトを削減し,高品質なサンプルを生成することにより,トレーニングを簡素化し,高速化する。 損失の重みが表すべき全体的な勾配の分断を定義することで、この超パラメータの選択を典型的な損失のスケールから切り離すことができる。 最後に, 軽量トランスフォーマーモデルを用いて, 得られた表現を最大40%圧縮し, リアルタイムよりも高速に処理できることを示す。 提案モデルの主要な設計選択について, 学習目標, 建築的変化, 知覚的損失関数の研究などについて, 詳細な説明を行う。 広汎な主観評価(MUSHRAテスト)と,音声,雑音・残響音声,音楽など,幅広い帯域幅と音声領域に対するアブレーション実験を併用して提案する。 提案手法は,24kHzのモノフォニックと48kHzのステレオオーディオの両方を考慮し,すべての評価設定のベースライン手法よりも優れている。 コードとモデルはgithub.com/facebookresearch/encodecで入手できる。

翻訳日:2022-10-25 14:49:39 公開日:2022-10-24
Deep Grey-Box Modeling With Adaptive Data-Driven Models Toward Trustworthy Estimation of Theory-Driven Models ( http://arxiv.org/abs/2210.13103v1 )

Naoya Takeishi and Alexandros Kalousis(参考訳) ディープ・ニューラルネットとディープ・グレイボックス・モデリングと呼ばれる理論駆動モデルの組み合わせは、理論のバックボーンのおかげで本質的にある程度解釈できる。 ディープグレーボックスモデルは通常、理論駆動の部分がディープニューラルネットワークによって上書きされ無視されるのを防ぐために、正規化されたリスク最小化で学習される。 しかし、正規化器を非批判的に最適化して得られる理論駆動部分の推定は、与えられたデータにどの正規化器が適しているかがわからない場合、信頼し難い。 理論駆動部分の信頼に値する推定に向けて, 正規化者の行動を分析し, 異なる候補を比較し, 特定の選択を正当化する。 本稿では,ニューラルネットのアーキテクチャとトレーニング目標にわずかな変化を伴って,レギュレータの動作を経験的に分析することのできるフレームワークを提案する。

翻訳日:2022-10-25 14:40:27 公開日:2022-10-24
PAC-Bayesian Offline Contextual Bandits With Guarantees ( http://arxiv.org/abs/2210.13132v1 )

Otmane Sakhi and Nicolas Chopin and Pierre Alquier(参考訳) 本稿では,コンテキストバンディットにおけるオフラインポリシー最適化のための新しい原則的アプローチを提案する。 2つの確立されたリスク推定器に対して、ログポリシーをオフラインで確実に改善できる新しい一般化境界を提案する。 従来の作業とは異なり、我々のアプローチではホールトアウトセットでハイパーパラメータをチューニングする必要はなく、事前のA/Bテストなしでデプロイできる。 これはpac-ベイズレンズを通して問題を解析することで達成される; 主に、従来の政策パラメトリライズ(例えばsoftmax)を廃止し、代わりに政策を決定論的戦略の混合として解釈する。 我々は,我々の限界の厳密さと実践シナリオにおけるアプローチの有効性の実証実験を通じて実証する。

翻訳日:2022-10-25 14:40:12 公開日:2022-10-24
A PAC-Bayesian Generalization Bound for Equivariant Networks ( http://arxiv.org/abs/2210.13150v1 )

Arash Behboodi, Gabriele Cesa, Taco Cohen(参考訳) 等変ネットワークは、これらの対称性をモデルに組み込むことで、学習タスクの対称性に関する帰納バイアスをキャプチャする。 本稿では,同値空間の変換則が群表現によって決定される同変ネットワークに対するPACベイズ解析を用いた一般化誤差との関係について検討する。 各層に対するフーリエ領域における同変ネットワークの摂動解析を用いて、ノルムベースのPAC-ベイズ一般化境界を導出する。 境界は、一般化誤差に対するグループサイズ、および既約表現の多重度と次数の影響を特徴付け、それらを選択するためのガイドラインを提供する。 一般に、モデルにおけるより大きなグループサイズを用いることで、広範な数値実験によって証明された一般化誤差が向上することを示す。

翻訳日:2022-10-25 14:40:00 公開日:2022-10-24
Multiplicity-adjusted bootstrap tilting lower confidence bounds for conditional prediction performance measures ( http://arxiv.org/abs/2210.13206v1 )

Pascal Rink and Werner Brannath(参考訳) 機械学習では、潜在的に多くの競合モデルからの有望なモデルの選択と、その一般化性能の評価が、慎重に考慮する必要がある重要なタスクである。 通常、モデル選択と評価は厳密に分離された作業であり、サンプルをトレーニング、検証、評価セットに分割し、最終選択モデルの予測性能に対する単一の信頼区間のみを算出する。 そこで本研究では,選択問題を同時推論問題として解釈し,その予測性能に基づいて選択した複数のモデルに対する信頼度率の有効値を計算するアルゴリズムを提案する。 ブートストラップ傾きと最大T型多重度補正を用いる。 このアプローチは、予測モデル、任意のモデル選択戦略、および重みを受け入れる予測性能尺度の組み合わせに普遍的に適用できる。 提案手法は, 従来の手法に比べて信頼度が低く, 信頼性が低く, 公称範囲の確率に確実に到達できることを示すため, 様々なシミュレーション実験を行った。 さらに, サンプルサイズが小さい場合, 提案手法は, 評価対象とする1つのモデルのみの既定選択よりも優れた予測モデルが得られる。

翻訳日:2022-10-25 14:39:47 公開日:2022-10-24
MARS: Meta-Learning as Score Matching in the Function Space ( http://arxiv.org/abs/2210.13319v1 )

Krunoslav Lehman Pavasovic, Jonas Rothfuss and Andreas Krause(参考訳) メタラーニングは、関連するデータセットから有用な帰納的バイアスを抽出することを目的としている。 ベイジアンメタラーニングでは、ニューラルネットワークパラメータの事前分布を構築してこれを達成している。 しかし、高次元ニューラルネットワークパラメータ上で計算可能な事前分布の族を特定することは困難である。 結果として、既存のアプローチはメタラーニングの制限された対角的なガウスの先行に頼り、表現力と性能を著しく制限する。 これらの問題を回避するため,機能的ベイズニューラルネットワーク推論のレンズを通してメタラーニングにアプローチし,事前を確率的プロセスとみなし,関数空間で推論を行う。 具体的には、メタトレーニングタスクをデータ生成プロセスのサンプルとして捉え、メタラーニングをこの確率過程の法則を実証的に推定するものとして形式化する。 我々の手法は,パラメータ空間の先行ではなく,データ生成プロセスのスコア関数をメタ学習することで,複雑な事前知識をシームレスに獲得し,表現することができる。 総合ベンチマークでは,予測精度と不確実性評価の質が大幅に向上し,最先端の性能が得られることを示す。

翻訳日:2022-10-25 14:39:28 公開日:2022-10-24
Theoretical Guarantees for Domain Adaptation with Hierarchical Optimal Transport ( http://arxiv.org/abs/2210.13331v1 )

Mourad El Hamri, Youn\`es Bennani, Issam Falih(参考訳) ドメイン適応は、それぞれソースドメインとターゲットドメインと呼ばれるトレーニングとテストサンプルの間にデータ生成プロセスが異なる場合、統計学習理論において重要な問題として生じる。 最近の理論的進歩は、領域適応アルゴリズムの成功は、ソースとターゲット領域の確率分布のばらつきを最小限に抑える能力に大きく依存していることを示している。 しかし、この分岐を最小化することは、ソースリスクや理想的な合同仮説の複合誤差といった他の主要な成分の最小化とは独立にできない。 これらの用語間のトレードオフは、しばしば暗黙的であり、理論的な保証によって直接反映されないアルゴリズム的解によって保証される。 そこで,本稿では,階層的最適移動によるドメイン適応のための新しい理論的枠組みを提案する。 このフレームワークはより明示的な一般化境界を提供し、両方のドメイン内のサンプルの自然な階層構造をクラスやクラスタにまとめることができる。 さらに、階層的ワッサースタイン距離(Hierarchical Wasserstein distance)と呼ばれるソース領域とターゲット領域の間の新たな分岐測度を提供する。

翻訳日:2022-10-25 14:39:09 公開日:2022-10-24
On the failure of variational score matching for VAE models ( http://arxiv.org/abs/2210.13390v1 )

Li Kevin Wenliang(参考訳) スコアマッチング(SM)は、フレキシブル確率モデルのトレーニングに便利な手法であり、しばしばML(Maximum-likelihood)アプローチよりも好まれる。 しかし、これらのモデルは正規化モデルよりも解釈できないため、トレーニングの堅牢性を評価することは一般的に困難である。 本稿では,既存の変分sm目標に関する批判的研究を行い,広範囲のデータセットとネットワークアーキテクチャにおいて壊滅的な障害を示す。 可変オートエンコーダ (VAE) モデルを最適化する際に, 等価な自動エンコード損失から目的に関する理論的知見が直接現れる。 まず、フィッシャーオートエンコーダにおいて、SMは最大形よりもはるかに悪いモデルを生成することを示し、フィッシャーの発散による近似推論は、低密度局所最適化をもたらすことを示した。 しかし、重要な修正を加えると、この目的はエビデンスローバウンド(ELBO)に似た正規化された自己エンコード損失に還元される。 この分析は、修正SMアルゴリズムはガウスVAE上のELBOと非常によく似た振る舞いをするべきであると予測する。 次に、文献からFDに基づく他の2つの目的をレビューし、解釈不能な自動エンコード損失を減らし、おそらく性能の低下につながることを示す。 実験により, ELBOとベースライン目標のみが予測結果を確実に生成するのに対して, 従来提案されていたSM法は期待できないことが示唆された。

翻訳日:2022-10-25 14:38:29 公開日:2022-10-24
Data-IQ: Characterizing subgroups with heterogeneous outcomes in tabular data ( http://arxiv.org/abs/2210.13043v1 )

Nabeel Seedat, Jonathan Crabb\'e, Ioana Bica, Mihaela van der Schaar(参考訳) 平均して高いモデル性能は、モデルがデータのサブグループで体系的に過小評価されることを隠すことができる。 私たちは、結果の不均一性の独特な問題である表的な設定について検討しています – これは医療などの分野において、類似した特徴を持つ患者が異なる結果をもたらす可能性があるため、信頼性の高い予測が困難になるような場合が多いのです。 そこで本稿では,サンプルをサブグループに体系的に階層化するフレームワークであるData-IQを提案する。 トレーニング中の個々のサンプルの挙動を,その予測的信頼度と,重要なアレータリック(データ)の不確実性に基づいて分析する。 aleatoric uncertaintyをキャプチャすることで、原則的なキャラクタリゼーションが可能になり、データ例を3つの異なるサブグループ(easy、ambiguous、hard)に階層化することができる。 4つの現実世界の医療データセットにおけるdata-iqの利点を実験的に実証する。 データ-IQの例の特徴は, ベースラインと比較して, 同様の性能(異なる)モデル間での変動に対して最も頑健であることを示す。 Data-IQは、任意のMLモデル(ニューラルネットワーク、勾配向上など)で使用できるため、この特性は、柔軟なモデル選択を可能にしながら、データのキャラクタリゼーションの一貫性を保証する。 さらにこれを一歩進めて、機能獲得とデータセット選択の両方に新たなアプローチを構築することが可能であることを示す。 さらに, モデル一般化に対するアンビグラス部分群の影響に着目し, モデル利用の信頼性について報告する。

翻訳日:2022-10-25 14:32:11 公開日:2022-10-24
DAGformer: Directed Acyclic Graph Transformer ( http://arxiv.org/abs/2210.13148v1 )

Yuankai Luo(参考訳) 自然言語処理やコンピュータビジョンといった多くの分野において、トランスフォーマーアーキテクチャが標準となっている。 最近のtransformerアーキテクチャは、グラフニューラルネットワーク(gnn)の制限を自然に克服するため、グラフ表現学習への関心も高まっている。 本研究では,グラフダグの特殊かつ広く使われているクラスに注目した。 本稿では,部分順序で定義される到達可能性関係に応じて情報を処理する有向非巡回グラフトランス,dagformerを提案する。 DAGformerはシンプルで柔軟性があり、様々なトランスフォーマーベースのモデルで使用することができる。 我々のアーキテクチャは、DAGデータセットの最先端のパフォーマンスを達成し、従来のアプローチよりも優れていることを示す。

翻訳日:2022-10-25 14:31:43 公開日:2022-10-24
Reachability-Aware Laplacian Representation in Reinforcement Learning ( http://arxiv.org/abs/2210.13153v1 )

Kaixin Wang, Kuangqi Zhou, Jiashi Feng, Bryan Hooi, Xinchao Wang(参考訳) 強化学習 (Reinforcement Learning, RL) では、ラプラシアン表現 (LapRep) は環境の幾何学を符号化するタスクに依存しない状態表現である。 前述した LapRep の望ましい性質は、LapRep 空間におけるユークリッド距離が、状態間の到達性を概ね反映していることである。 しかし、LapRepは一般には必ずしもこの性質を持ちておらず、LapRepの下に小さな距離を持つ2つの状態は実際には環境から遠く離れている可能性がある。 このようなミスマッチは、報酬形成の学習プロセスを妨げる。 この問題を解決するために、LapRepの各次元を適切にスケーリングすることで、Reachability-Aware Laplacian Representation (RA-LapRep)を導入する。 単純さにもかかわらず、RA-LapRepはLapRepと比較して、理論的説明と実験結果の両方を通して、状態間の到達性をよりよく捉えることができることを示した。 さらに,この改善により,報酬形成性能が大幅に向上し,ボトルネック状態発見のメリットも期待できることを示した。

翻訳日:2022-10-25 14:31:31 公開日:2022-10-24
Evaluating Long-Term Memory in 3D Mazes ( http://arxiv.org/abs/2210.13383v1 )

Jurgis Pasukonis, Timothy Lillicrap, Danijar Hafner(参考訳) 知的エージェントは、部分的に観察された環境で推論するために有能な情報を記憶する必要がある。 例えば、一人称ビューを持つエージェントは、たとえ視界から外れても、関連するオブジェクトの位置を記憶すべきである。 同様に、部屋を効果的にナビゲートするには、エージェントは部屋の接続方法のフロアプランを記憶する必要がある。 しかしながら、強化学習におけるほとんどのベンチマークタスクはエージェントの長期記憶をテストせず、この重要な研究方向の進捗を遅くしている。 本稿では,エージェントの長期記憶評価に特化して設計されたランダム化迷路の3次元ドメインであるMemory Mazeを紹介する。 既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを計測し、時間とともに情報を統合することでエージェントをローカライズする必要がある。 memory mazeでは,オンライン強化学習ベンチマーク,多様なオフラインデータセット,オフライン探索評価を提案する。 人間のプレイヤーの記録は強いベースラインを確立し、記憶の蓄積と保持の必要性を検証し、各エピソードにおける報酬の増大に反映される。 現在のアルゴリズムは、時間を通じて停止したバックプロパゲーションをトレーニングし、小さな迷路で成功するが、大きな迷路では人間のパフォーマンスに欠けており、将来のアルゴリズム設計をメモリ迷路で評価する余地がある。

翻訳日:2022-10-25 14:31:09 公開日:2022-10-24
Avalon: A Benchmark for RL Generalization Using Procedurally Generated Worlds ( http://arxiv.org/abs/2210.13417v1 )

Joshua Albrecht, Abraham J. Fetterman, Bryden Fogelman, Ellie Kitanidis, Bartosz Wr\'oblewski, Nicole Seo, Michael Rosenthal, Maksis Knutins, Zachary Polizzi, James B. Simon, Kanjun Qiu(参考訳) 印象的な成功にもかかわらず、深層強化学習(rl)システムは、トレーニングと異なる新しいタスクや環境への一般化において人間のパフォーマンスに不足している。 RLの一般化を研究するためのベンチマークとして、高度に多様な手続き型3D世界のエンボディエージェントが、地形をナビゲートし、食料を狩猟し、危険を避けることで生き残らなければならない一連のタスクであるAvalonを紹介した。 アバロンは既存のRLベンチマークの中で、報酬関数、世界ダイナミクス、アクション空間が全てのタスクで同じであり、環境を変えることでのみ異なるタスクである。 この設定により、タスク内、タスク間、および前回のタスクから学んだスキルを組み合わせる必要がある構成タスクの一般化に関する調査が可能になる。 Avalonには、非常に効率的なシミュレータ、ベースラインのライブラリ、数百時間の人的パフォーマンスに対して評価された評価基準を備えたベンチマークが含まれている。 標準的なRLのベースラインはほとんどのタスクで進行するが、人間のパフォーマンスには程遠いため、Avalonは一般化可能なRLの探求を進めるのに十分である。

翻訳日:2022-10-25 14:30:48 公開日:2022-10-24
GFlowOut: Dropout with Generative Flow Networks ( http://arxiv.org/abs/2210.12928v1 )

Dianbo Liu, Moksh Jain, Bonaventure Dossou, Qianli Shen, Salem Lahlou, Anirudh Goyal, Nikolay Malkin, Chris Emezue, Dinghuai Zhang, Nadhir Hassen, Xu Ji, Kenji Kawaguchi, Yoshua Bengio(参考訳) ベイズ推論は、キャリブレーションの貧弱さや一般化、データ非効率など、現代のニューラルネットワークにおける多くの重要な問題に対処するための原則付きツールを提供する。 しかし、大規模アーキテクチャへのベイズ推論のスケーリングは困難であり、制限付き近似を必要とする。 モンテカルロドロップアウトは、近似推論やディープニューラルネットワークによる不確実性の推定に比較的安価な方法として広く使われている。 伝統的に、ドロップアウトマスクは固定分布から独立してサンプリングされる。 最近の研究は、ドロップアウトマスクを潜伏変数と見なすことができ、変動推論で推測できることを示している。 これらの手法は2つの重要な課題に直面している。 (a)マスク上の後方分布は高度にマルチモーダルであり、標準変分推論では近似が困難である。 b) サンプル依存情報とドロップアウトマスク間の相関を十分に活用して後方推定を改善することは容易ではない。 本稿では,これらの問題に対処するためにGFlowOutを提案する。 GFlowOutは、最近提案されたGenerative Flow Networks(GFlowNets)の確率的フレームワークを活用して、ドロップアウトマスク上の後部分布を学習する。 我々は,gflowout が予測分布をもたらすことを実証し,分散外データへの一般化と下流タスクの性能向上につながる不確実性推定を提供する。

翻訳日:2022-10-25 14:20:38 公開日:2022-10-24
Subspace-based Set Operations on a Pre-trained Word Embedding Space ( http://arxiv.org/abs/2210.13034v1 )

Yoichi Ishibashi, Sho Yokoi, Katsuhito Sudoh, Satoshi Nakamura(参考訳) 単語埋め込みは自然言語処理の基本的な技術である。 単語集合や集合演算を表す標準的な手法は限られているが、しばしば単語集合を用いたタスクに利用される。 このような集合演算に対する単語埋め込みの利点を活用できれば、文の類似度を計算し、与えられた単語集合と効果的に概念を共有できる単語を見つけることができる。 本研究では,事前学習した単語埋め込み空間における集合と集合の表現を定式化する。 本稿では,事前学習された単語埋め込み空間における部分空間を用いた集合演算の新しい定式化を提案する。 定義に基づいて,単語が集合に属する度合いと,2つの集合を埋め込むことの類似性に基づく2つの指標を提案する。 テキスト概念検索と意味的テキスト類似性タスクを用いた実験により,提案手法の有効性を実証した。

翻訳日:2022-10-25 14:12:00 公開日:2022-10-24
Generating Hierarchical Explanations on Text Classification Without Connecting Rules ( http://arxiv.org/abs/2210.13270v1 )

Yiming Ju, Yuanzhe Zhang, Kang Liu, Jun Zhao(参考訳) 深層nlpモデルの不透明性は、深層モデルがどのように予測するかを解釈する手法の開発の動機となった。 近年,単語の階層的クラスタリングを実現する階層的アトリビューションと,各クラスタに対するアトリビューションスコアを導入している。 しかし、階層的属性に関する既存の研究はすべて接続規則に従っており、クラスタは入力テキストの連続スパンに制限される。 我々は、追加の事前として接続規則がモデル決定プロセスを忠実に反映する能力を損なう可能性があると主張する。 そこで本研究では,連結規則を伴わずに階層的説明を生成し,階層的クラスタを生成するフレームワークを提案する。 実験結果とさらなる解析により,モデル予測過程を反映する高品質な説明を提供する上で,提案手法の有効性が示された。

翻訳日:2022-10-25 14:11:47 公開日:2022-10-24
Augmenting Task-Oriented Dialogue Systems with Relation Extraction ( http://arxiv.org/abs/2210.13344v1 )

Andrew Lee, Zhenguo Chen, Kevin Leach, Jonathan K. Kummerfeld(参考訳) 標準タスク指向対話パイプラインは、意図分類とスロットフィリングを使用してユーザの発話を解釈する。 このアプローチは幅広いクエリを扱うことができるが、スロット間の関係を含むより複雑なクエリを扱うのに必要な情報を取り出すことはできない。 本稿では,対話システムの機能拡張に有効な方法として,関係抽出のパイプラインへの統合を提案する。 3つの領域にまたがるスロットと関係アノテーションを持つ内部データセットを用いて,我々のアプローチを評価する。 最後に,関係アノテーションの表現能力が利用可能になった時点でスロット満載のアノテーションスキームを単純化し,ユーザの意図した意味を捉えながらスロット数を削減する方法を示す。

翻訳日:2022-10-25 14:11:35 公開日:2022-10-24
We need to talk about random seeds ( http://arxiv.org/abs/2210.13393v1 )

Steven Bethard(参考訳) 現代のニューラルネットワークライブラリはすべて、モデルパラメータの初期状態を決定するために一般的に使用される、ランダムシードのハイパーパラメータである。 優れたモデルを選択するためのハイパーパラメータ探索の一部として、いくつかのモデルのアンサンブルを作成したり、ランダムなシードハイパーパラメータに対するトレーニングアルゴリズムの感度を測定したりする。 ランダムシードは「再現性」のために固定ランダムシードを使用し、パフォーマンス比較のためのスコア分布を作成するためにランダムシードのみを変化させる。 ACLアンソロジーの85の最近の論文の分析によると、50%以上がランダム種子の危険利用を含んでいる。

翻訳日:2022-10-25 14:11:26 公開日:2022-10-24
BARS: A Benchmark for Airport Runway Segmentation ( http://arxiv.org/abs/2210.12922v1 )

Wenhui Chen and Zhijiang Zhang and Liang Yu and Yichun Tai(参考訳) 空港滑走路のセグメンテーションは、航空事故のリスクが最も大きい着陸段階での事故率を効果的に低減することができる。 ディープラーニングの急速な発展に伴い、関連する手法はセグメンテーションタスクにおいて優れた性能を示し、複雑なシーンに適応できる。 しかし,この分野では大規模で公開可能なデータセットが不足しているため,ディープラーニングに基づく手法の開発は困難である。 そこで我々はBARSという空港滑走路セグメンテーションのベンチマークを提案する。 一方、半自動アノテーションパイプラインは、アノテーションのワークロードを減らすように設計されている。 barsは最もリッチなカテゴリとフィールド内の唯一のインスタンスアノテーションを持つ最大のデータセットを持っています。 X-Planeシミュレーションプラットフォームを使用して収集されたデータセットには,3つのカテゴリを持つ10,002イメージと29,347のインスタンスが含まれている。 BARSにおける8つの代表的インスタンス分割法を評価し,その性能を解析した。 空港滑走路の特徴と規則的な形状に基づいて,マスクベースおよび輪郭ベース手法のスムーズなセグメンテーション結果を得るために,プラグアンドプレイスムーズな後処理モジュール (SPPM) と輪郭点制約損失 (CPCL) 関数を提案する。 さらに, 平均滑らか度 (AS) と呼ばれる新しい評価指標を開発し, 滑らか度を測定する。 実験の結果,既存のインスタンスセグメンテーション手法では,BARSの性能がよい予測結果が得られることがわかった。 SPPMとCPCLは平均精度をそれぞれ0.9%と1.13%向上させることができる。 また,sppmとcpclの平均平滑性向上率は,それぞれ50%以上,28%以上であった。 私たちの仕事はhttps://github.com/c-wenhui/BARS.comで公開されます。

翻訳日:2022-10-25 14:05:53 公開日:2022-10-24
mm-Wave Radar Hand Shape Classification Using Deformable Transformers ( http://arxiv.org/abs/2210.13079v1 )

Athmanarayanan Lakshmi Narayanan, Asma Beevi K. T, Haoyang Wu, Jingyi Ma, W. Margaret Huang(参考訳) リアルタイム・ミリ波レーダを用いた静的手形分類アルゴリズムと実装を提案する。 この手法は60Ghzレーダをセンサ入力として使用した低コストかつプライバシーに敏感なタッチレス制御技術におけるいくつかの応用を見出した。 従来のレンジ・ドップラー画像に基づく2次元分類法とは対照的に、変形可能なトランスフォーマーを用いた3次元レーダニューラルネットワークモデルは、独自の信号処理や、レンジ・ドップラーFFT画像に一般的な畳み込み技術を適用した先行手法によって設定された性能を著しく上回っている。 市販のレーダーセンサーを用いて内部に収集したデータセットで実験を行う。

翻訳日:2022-10-25 14:05:28 公開日:2022-10-24
Contrastive Representation Learning for Gaze Estimation ( http://arxiv.org/abs/2210.13404v1 )

Swati Jindal and Roberto Manduchi(参考訳) 自己教師付き学習(SSL)は、コンピュータビジョンにおける学習表現に普及している。 特にSSLは、さまざまな画像変換の下で視覚表現が不変であることを奨励するために、対照的な学習を利用する。 一方、視線推定のタスクは、様々な外観に対する不変性だけでなく、幾何学的変換への同値性も要求する。 本研究では,Gaze Contrastive Learning (GazeCLR) という,視線推定のための単純なコントラスト表現学習フレームワークを提案する。 GazeCLRは、多視点データを利用して等価性を促進し、不変学習のための視線方向を変更しない選択されたデータ拡張技術に依存している。 本実験は,視線推定作業におけるGazeCLRの有効性を実証するものである。 特に, GazeCLR は領域間視線推定の性能を向上し,17.2% の相対的改善が得られた。 さらに、GazeCLRフレームワークは、数ショット評価のための最先端の表現学習手法と競合する。 コードと事前トレーニングされたモデルは、https://github.com/jswati31/gazeclrで入手できる。

翻訳日:2022-10-25 14:05:15 公開日:2022-10-24
A Causal Framework to Quantify the Robustness of Mathematical Reasoning with Language Models ( http://arxiv.org/abs/2210.12023v2 )

Alessandro Stolfo, Zhijing Jin, Kumar Shridhar, Bernhard Sch\"olkopf and Mrinmaya Sachan(参考訳) 我々は最近、言語モデルに関する厳密な数学的推論問題に関する多くの驚くべき結果を目撃した。 同時に、これらのモデルの堅牢性も疑問視され、最近の研究により、モデルはソリューションを予測する際に問題記述の浅いパターンに依存することが示されている。 行動テストの考え方に基づいて,入力中の様々な要因,例えば問題テキストの表面形式,オペランド,数学演算子の出力解に対する因果効果をピン留めする新しい枠組みを提案する。 直感的な推論過程を記述した因果グラフの行動解析を基礎として,入力空間の直接的な介入に対する頑健さと感度の観点から言語モデルの振る舞いを考察する。 このフレームワークを二変量数ワード問題のテストベッドに適用する。 解析の結果,ロバスト性はスケールの関数として連続的に改善されないが,最近のLCMであるGPT-3-Instruct (175B)は,他のすべてのGPT変種と比較して,ロバスト性と感度の両方において劇的な改善を達成していることがわかった。

翻訳日:2022-10-25 14:05:02 公開日:2022-10-24
Towards Unifying Reference Expression Generation and Comprehension ( http://arxiv.org/abs/2210.13076v1 )

Duo Zheng, Tao Kong, Ya Jing, Jiaan Wang, Xiaojie Wang(参考訳) Reference Expression Generation(REG)とComprehension(REC)は2つの非常に相関したタスクである。 両者の関係を利用するために同時にREGとRECをモデリングすることは、両方を改善するための有望な方法である。 しかし、異なる入力の問題と、それら間の接続を1つのモデルで構築することは、関節モデルの設計と訓練に課題をもたらす。 この問題を解決するために,UniRefというREGとRECの統一モデルを提案する。 画像クロスアテンションと領域クロスアテンションを介して画像、領域、テキストを融合するIRTF(Image-Region-Text Fusion Layer)によって、これら2つのタスクを統一する。 さらにIRTFはRECタスクの擬似入力領域を生成し、RECおよびREG間で同じ表現空間を共有する統一的な方法を可能にする。 さらに,マルチグラニュラコーパス上でのUniRefモデルの事前学習に対して,VMLM(Vision- Conditioned Masked Language Modeling)とTRP(Text-Conditioned Region Prediction)を提案する。 VMLMとTRPはそれぞれREGとRECに直接関連しているが、互いに助け合う可能性がある。 3つのベンチマークデータセット、RefCOCO、RefCOCO+、RefCOCOgについて広範な実験を行った。 実験の結果,REGとRECの両方において,従来の最先端手法よりも優れた結果が得られた。

翻訳日:2022-10-25 13:56:26 公開日:2022-10-24
Multilingual Multimodal Learning with Machine Translated Text ( http://arxiv.org/abs/2210.13134v1 )

Chen Qiu, Dan Oneata, Emanuele Bugliarello, Stella Frank, Desmond Elliott(参考訳) 視覚と言語に関するほとんどの事前学習研究は英語の課題に焦点を当てている。 しかし、マルチリンガルなマルチモーダル評価データセット(Multi30K、xGQA、XVNLI、MARVL)の作成は、マルチリンガルとマルチモーダルの両方である高品質なトレーニングデータを見つける上で新たな課題となる。 本稿では,英語マルチモーダルデータの機械翻訳が,手軽に利用できる多言語データの欠如に対する効果的なプロキシとなるかを検討する。 マルチリンガル・マルチモーダル・ラーニングのための翻訳データであり、任意のマルチモーダル・データセットとモデルに適用することができる。 最先端モデルを用いて事前学習と微調整の両方に応用する。 低品質の翻訳文からモデルが学習することを防止するために,得られたデータセットから翻訳文を自動的に取り除くための2つの指標を提案する。 iglueベンチマークで20言語にまたがる5つのタスクに関する実験で、翻訳されたデータは、事前学習と微調整の両方において、多言語マルチモーダル学習に有用な信号を提供できることを示した。

翻訳日:2022-10-25 13:56:01 公開日:2022-10-24
Clean Text and Full-Body Transformer: Microsoft's Submission to the WMT22 Shared Task on Sign Language Translation ( http://arxiv.org/abs/2210.13326v1 )

Subhadeep Dey, Abhilash Pal, Cyrine Chaabani, Oscar Koller(参考訳) 本稿では,スイスのドイツ語手話用音声言語への手話翻訳に取り組む公共の競争である wmt 2022 において,手話翻訳に関するmicrosoft の最初の共有タスクへの提案について述べる。 データ不足と、ターゲット側で20万語を超える前例のない語彙サイズのため、このタスクは非常に難しい。 さらに、データは実際の放送ニュースから収集され、ネイティブな署名や長いビデオのシナリオをカバーしている。 近年の行動認識の進歩により,事前学習したI3Dモデルから特徴を抽出し,標準変圧器ネットワークを適用し,全身情報を組み込んだ。 対象テキストに注意深いデータクリーニングを適用することにより、システムの精度をさらに向上する。 テストセットと開発セットでそれぞれ0.6と0.78のbleuスコアを取得し,共有タスクの参加者の中で最高のスコアを得た。 また、人間の評価では、応募が第一位に達する。 BLEUスコアは、唇読解モデルから抽出した特徴を適用することにより、開発セットの1.08にさらに改善される。

翻訳日:2022-10-25 13:55:41 公開日:2022-10-24
Specializing Multi-domain NMT via Penalizing Low Mutual Information ( http://arxiv.org/abs/2210.12910v1 )

Jiyoung Lee, Hantae Kim, Hyunchang Cho, Edward Choi, and Cheonbok Park(参考訳) multi-domain neural machine translation (nmt)は、複数のドメインを持つ単一のモデルを訓練する。 一つのモデル内で複数のドメインを扱うのに効果があるため、魅力的である。 理想的マルチドメインnmtは、異なるドメイン特性を同時に学習する必要があるが、ドメイン特異性をつかむことは非自明なタスクである。 本稿では、相互情報レンズ(MI)を用いてドメイン固有情報を調査し、低MIをペナルティ化する新たな目的を提案する。 提案手法は,現在の競合するマルチドメインNMTモデルの最先端性能を実現する。 また,本研究の目的は,ドメイン特化マルチドメインnmtの低mi化を促進することである。

翻訳日:2022-10-25 13:47:53 公開日:2022-10-24
TIARA: Multi-grained Retrieval for Robust Question Answering over Large Knowledge Bases ( http://arxiv.org/abs/2210.12925v1 )

Yiheng Shu, Zhiwei Yu, Yuhan Li, B\"orje F. Karlsson, Tingting Ma, Yuzhong Qu and Chin-Yew Lin(参考訳) 事前訓練された言語モデル(PLM)は、複数のシナリオで有効性を示している。 しかし、KBQAは、特にカバレッジと一般化設定に関して、依然として困難である。 これは2つの主な要因による。 一 質問及び関連する知識の双方のセマンティクスをkbから理解すること。 二 意味的及び構文的正当性の両方で実行可能な論理形式を生成すること。 本稿では,plmが関連するkbコンテキスト,viz.,エンティティ,模範論理形式,スキーマ項目に集中するために,多粒度検索を適用することで,これらの問題に対処する新しいkbqaモデルであるtiaraを提案する。 さらに、制約付き復号は出力空間の制御と生成エラーの低減に使用される。 重要なベンチマークによる実験は、我々のアプローチの有効性を示す。 TIARAは、PLMやオラクルエンティティアノテーションなどを含む以前のSOTAよりも、GrailQAとWebQuestionsSPの少なくとも4.1と1.1のF1ポイントが優れている。

翻訳日:2022-10-25 13:47:42 公開日:2022-10-24
On the Effectiveness of Automated Metrics for Text Generation Systems ( http://arxiv.org/abs/2210.13025v1 )

Pius von D\"aniken, Jan Deriu, Don Tuggener, Mark Cieliebak(参考訳) テキスト生成の分野での大きな課題は、評価キャンペーンのガイドラインを抽出するために活用できる音理論が欠けているため、評価である。 本研究では,不完全な自動測定値や不十分な大きさのテストセットなど,不確実性の異なる要因を取り入れた理論を最初に提案する。 この理論は、所定の設定における一連のテキスト生成システムの性能を確実に区別するために必要なサンプル数を決定するような実用的な応用がある。 本稿では,WMT 21 と Spot-The-Bot の評価データに対する理論の適用について概説し,信頼性,堅牢性,評価結果の意義に関する評価プロトコルの改善について概説する。

翻訳日:2022-10-25 13:47:25 公開日:2022-10-24
Universal and Independent: Multilingual Probing Framework for Exhaustive Model Interpretation and Evaluation ( http://arxiv.org/abs/2210.13236v1 )

Oleg Serikov, Vitaly Protasov, Ekaterina Voloshina, Viktoria Knyazkova, Tatiana Shavrina(参考訳) 言語モデルの言語分析は、その推論、弱点、限界を説明し、記述する方法の1つである。 モデル解釈可能性研究の探索部分では、研究は個々の言語と個々の言語構造に関するものである。 検出された正規性は言語的に一貫性があるのか、それともその反対に、タイポロジーの尺度で不協和なのか? さらに、ほとんどの研究は言語と言語構造の固有の集合に対処し、実際の類型的多様性の知識は範囲外である。 本稿では,GUI支援フレームワークを用いて,Universal Dependenciesデータに存在するすべての形態素合成機能に対して,多数の言語を簡単に探索することができることを示す。 我々は,過去数年間のNLPにおけるアングロ中心の傾向を反映して,mBERTモデルで示された規則性の大部分は西欧語で典型的であることを示す。 私たちのフレームワークは、既存のプロビングツールボックス、モデルカード、リーダーボードと統合でき、実践者が標準プロビングメソッドを使用して共有し、多言語モデルの解釈を可能にします。 そこで本研究では,多言語モデルにおける多言語障害を体系化するためのツールキットを提案する。 https://github.com/AIRI-Institute/Probing_framework

翻訳日:2022-10-25 13:47:13 公開日:2022-10-24
Different Tunes Played with Equal Skill: Exploring a Unified Optimization Subspace for Delta Tuning ( http://arxiv.org/abs/2210.13311v1 )

Jing Yi, Weize Chen, Yujia Qin, Yankai Lin, Ning Ding, Xu Han, Zhiyuan Liu, Maosong Sun, Jie Zhou(参考訳) デルタチューニング(det、パラメータ効率チューニングとも呼ばれる)は、事前学習言語モデル(plm)を使用するための新しいパラダイムと考えられている。 今まで、異なる設計要素を持つ様々なDETが提案されており、微調整と同等のパフォーマンスを実現している。 しかし、上記の成功の背景にあるメカニズムはまだ未定であり、特に様々なdet間の接続は未熟である。 謎を解くために、異なるDETの適応は、それぞれ異なるDETの独立解を共同分解することによって発見できる統一された最適化部分空間において、低次元の最適化として再パラメータ化できるという仮説を立てた。 次に、サブ空間内で最適化を行うことにより、異なるDET間の接続を探索する。 実験では、あるdetに対して、単純に部分空間内で最適化を行うことで、元の空間と同等の性能を達成でき、部分空間で見つかった解を別のdetに転送して非自明な性能を得ることができる。 また、サブスペースのパフォーマンスの景観を視覚化し、異なるDETがすべてうまく機能する領域があることを見出した。 最後に、分析を拡張し、微調整とDETの強いつながりを示す。

翻訳日:2022-10-25 13:46:52 公開日:2022-10-24
Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs ( http://arxiv.org/abs/2210.13312v1 )

Maarten Sap, Ronan LeBras, Daniel Fried, Yejin Choi(参考訳) 社会的インテリジェンスと心の理論(ToM)、すなわち、関係するすべての人々の異なる精神状態、意図、反応を推論する能力によって、人間は日々の社会的相互作用を効果的にナビゲートし理解することができる。 NLPシステムはますます複雑な社会状況において使用されるため、社会的ダイナミクスを理解する能力は重要である。 本研究では,現代NLPシステムにおける社会的知能と心の理論のオープンな問題について,実証的・理論的観点から検討する。 現在の最大の言語モデル(gpt-3, brown et al., 2020)の1つには,2つのタスク - socialiqa (sap et al., 2019) という,モデルが社会的インタラクションの参加者の意図や反応を理解する能力を測定するもの - と,モデルがメンタル状態や参加者の現実を推測できるかどうかを測定する tomi (le et al., 2019) がある。 以上の結果から,socialiqa と tomi はそれぞれ 55% と 60% の well-below-human accuracies である。 結論として,データやニューラルネットワーク,トレーニングパラダイムに起因する制限を調べることで,大規模言語モデルの欠点を文脈化するために,実用学からの理論を導出する。 スケールしか必要としない一般的な物語に従えば、人中心のNLPアプローチがマインドの神経理論に対してより効果的である可能性が示唆される。

翻訳日:2022-10-25 13:46:33 公開日:2022-10-24
Are Current Decoding Strategies Capable of Facing the Challenges of Visual Dialogue? ( http://arxiv.org/abs/2210.12997v1 )

Amit Kumar Chaudhary, Alex J. Lucassen, Ioanna Tsani, Alberto Testoni(参考訳) 自然言語生成システムではデコーディング戦略が重要な役割を果たす。 それらは通常、オープンエンドのテキストのみのタスクで設計され、評価されるが、異なる戦略が目標指向のマルチモーダルシステムが直面する多くの課題(グルーディングやインフォメーションネスなど)をどのように扱うかは明確ではない。 この質問に答えるために,視覚対話参照ゲームにおいて,様々なデコーディング戦略とハイパーパラメータ構成を比較した。 いずれも、語彙的豊かさ、タスクの正確さ、視覚的根拠のバランスをとることはありませんでしたが、詳細な分析により、各デコード戦略の長所と短所を強調します。 われわれの発見と提案は、視覚対話タスクの課題を扱うより効率的な復号アルゴリズムの設計の出発点となるかもしれない。

翻訳日:2022-10-25 13:44:59 公開日:2022-10-24
Deep Kronecker Network ( http://arxiv.org/abs/2210.13327v1 )

Long Feng and Guang Yang(参考訳) 我々は,MRI,fMRI,CTなどの医用画像データを解析するための新しいフレームワークであるDeep Kronecker Network (DKN)を提案する。 医用画像データは、少なくとも2つの点で一般的な画像とは異なる。 i) サンプルサイズは通常、はるかに制限されている。 二 モデル解釈は、結果予測よりも、より関心事である。 独自の性質のため、畳み込みニューラルネットワーク(CNN)のような一般的な手法を直接適用することは困難である。 そこで我々はdknを提案しました 一 サンプルサイズ制限の低さに適応すること。 二 所望のモデル解釈を提供すること、及び 三 CNNの予測能力を達成すること。 DKNは一般に、行列と(高次)テンソル表現された画像データの両方に作用するだけでなく、離散的および連続的な結果にも適用することができる。 DKN は Kronecker の積構造の上に構築され、係数に対して暗黙的に滑らかな性質を課す。 さらに、クロネッカー構造は畳み込み形式に書けるので、DKNはCNN、特に完全な畳み込みネットワーク(FCN)にも似ている。 さらに、反復最小化アルゴリズムにより、DKNの解は、目的関数が極めて非凸である場合でも、幾何学的に真理に収束することが保証される。 興味深いことに、DKNは Zhou et al. (2010) によって提案されたテンソル回帰フレームワークと強く結びついており、CANDECOMP/PARAFAC (CP) 低ランク構造がテンソル係数に課される。 最後に、アルツハイマー病神経画像イニシアチブ(ADNI)の実際のMRIデータを用いて分類と回帰分析を行い、DKNの有効性を実証する。

翻訳日:2022-10-25 13:19:45 公開日:2022-10-24
Cards Against AI: Predicting Humor in a Fill-in-the-blank Party Game ( http://arxiv.org/abs/2210.13016v1 )

Dan Ofer, Dafna Shahaf(参考訳) ユーモアは本質的に社会的現象であり、社会的および文化的に受け入れられるものによって形成されるユーモラスな発話である。 ユーモアを理解することは、人間とコンピュータの相互作用に多くの応用がある重要なNLP課題である。 この作品では、プレイヤーが攻撃的あるいは政治的に正しくないカードを使って、満杯のステートメントを完結するパーティーゲームである「cards against humanity」という文脈でユーモアを探求する。 785Kのユニークなジョークを含む30万のオンラインゲームに関する新しいデータセットを導入し、分析し、洞察を提供する。 機械学習モデルをトレーニングして,ゲーム当たりの勝利ジョークを予測し,ユーザ情報なしでも2倍の成績(20\%)をランダムに達成した。 新たなカードを判定するより難しい作業では、モデルを一般化する能力は適度である。 興味深いことに、私たちのモデルは主にパンチラインカードに焦点を当てており、コンテキストへの影響はほとんどない。 特徴を分析した結果、短い、粗い、若いパンチラインが勝つ傾向にあることがわかった。

翻訳日:2022-10-25 13:19:03 公開日:2022-10-24
NVIDIA FLARE: Federated Learning from Simulation to Real-World ( http://arxiv.org/abs/2210.13291v1 )

Holger R. Roth, Yan Cheng, Yuhong Wen, Isaac Yang, Ziyue Xu, Yuan-Ting Hsieh, Kristopher Kersten, Ahmed Harouni, Can Zhao, Kevin Lu, Zhihong Zhang, Wenqi Li, Andriy Myronenko, Dong Yang, Sean Yang, Nicola Rieke, Abood Quraini, Chester Chen, Daguang Xu, Nic Ma, Prerna Dogra, Mona Flores, Andrew Feng(参考訳) フェデレートラーニング(FL)は、データを集中することなく、複数のコラボレータからさまざまなデータセットを活用することにより、堅牢で一般化可能なAIモデルの構築を可能にする。 私たちはNVIDIA FLAREをオープンソースソフトウェア開発キット(SDK)として開発しました。 このsdkには最先端のflアルゴリズムとフェデレーション機械学習のアプローチのためのソリューションが含まれており、企業間の分散学習のためのワークフローの構築を容易にし、プラットフォーム開発者が準同型暗号化や差分プライバシーを利用したマルチパーティコラボレーションのためのセキュアでプライバシ保護の製品を作成することができる。 sdkは軽量でフレキシブルでスケーラブルなpythonパッケージで、研究者は任意のトレーニングライブラリ(pytorch、tensorflow、xgboost、あるいはnumpy)で実装したデータサイエンスワークフローを、現実世界のfl設定で適用することができる。 本稿では,flareの鍵となる設計原則を紹介するとともに,さまざまなプライバシ保存アルゴリズムを実装するカスタマイズ可能なflワークフローを用いた,いくつかのユースケース(新型コロナウイルス解析など)について説明する。 コードはhttps://github.com/nvidia/nvflareで入手できる。

翻訳日:2022-10-25 13:18:36 公開日:2022-10-24
SpikeSim: An end-to-end Compute-in-Memory Hardware Evaluation Tool for Benchmarking Spiking Neural Networks ( http://arxiv.org/abs/2210.12899v1 )

Abhishek Moitra, Abhiroop Bhattacharjee, Runcong Kuang, Gokul Krishnan, Yu Cao, and Priyadarshini Panda(参考訳) SNNはエネルギー効率の良いマシンインテリジェンスに向けた活発な研究領域である。 従来のANNと比較すると、SNNはデータ処理に時間スパイクデータとLeaky-Integrate Fire/Integrate Fire (LIF/IF) のような生物解析可能なニューロン活性化機能を使用する。 しかし、SNNは、標準的なvon-Neumannコンピューティングプラットフォームにおいて、高いメモリと計算オーバーヘッドを引き起こす重要なドット積演算を発生させる。 今日、インメモリコンピューティング(imc)アーキテクチャは、フォン・ノイマンアーキテクチャに広く見られる「メモリ壁ボトルネック」を緩和するために提案されている。 最近の研究でIMCベースのSNNハードウェアアクセラレーターが提案されているが、以下のことは見過ごされている。 1)複数の時間ステップにわたるアナログドット製品操作によるsnn性能に及ぼすクロスバー非理想性の悪影響 2) LIF/IFやデータ通信モジュールといったSNN固有のコンポーネントのハードウェアオーバーヘッド。 そこで我々は,IMCマップしたSNNの現実的な性能,エネルギー,レイテンシ,面積評価を実現するツールであるSpikeSimを提案する。 SpikeSimは、SNNをマッピングするSpikeFlowと呼ばれる実用的なモノリシックIMCアーキテクチャで構成されている。 さらに、非理想計算エンジン(NICE)とエネルギー遅延領域(ELA)エンジンは、SpikeFlowマップされたSNNのハードウェア現実性評価を行う。 65nmのCMOS実装とCIFAR10, CIFAR100, TinyImagenetデータセットを用いた実験の結果, LIF/IFニューロンモジュールはハードウェア全体の11%以上を占めることがわかった。 神経モジュールの面積の1.24倍と10倍に減少するSNNトポロジカルな変化とエネルギー-遅延-生成値の総和を提案する。 さらに,本研究では,IMC が実装した ANN と SNN の総合比較を行い,SNN のスループットとエネルギー効率を 4 ビットの ANN と比較して向上させる鍵となる時間ステップが低いことを結論する。

翻訳日:2022-10-25 13:18:13 公開日:2022-10-24
# IQUAFLOW: 画像品質を測定するための新しいフレームワーク

IQUAFLOW: A new framework to measure image quality ( http://arxiv.org/abs/2210.13269v1 )

ライセンス: Link先を確認
P. Gall\'es (1), K. Takats (1), M. Hern\'andez-Cabronero (2), D. Berga (3), L. Pega (1), L. Riordan-Chen (1), C. Garcia (1), G. Becker (1), A. Garriga (3), A. Bukva (3), J. Serra-Sagrist\`a (2), D. Vilaseca (1), J. Mar\'in (1) ((1) Satellogic Inc, (2) Universitat Aut\`onoma de Barcelona - UAB-DEIC-GICI, (3) EURECAT - Multimedia Technologies Unit)(参考訳) IQUAFLOWは、画像品質を評価するツールセットを提供する新しい画像品質フレームワークである。 ユーザーは簡単に統合できるカスタムメトリクスを追加できる。 さらに、iquaflowでは、イメージ上でトレーニングされたAIモデル