このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221207となっている論文です。

PDF登録状況(公開日: 20221207)

TitleAuthorsAbstract論文公表日・翻訳日
# 駆動スピン-ボソンモデルにおける位相的に保護された量子ダイナモ効果

A topologically protected quantum dynamo effect in a driven spin-boson model ( http://arxiv.org/abs/2208.01707v3 )

ライセンス: Link先を確認
Ephraim Bernhardt, Cyril Elouard, Karyn Le Hur(参考訳) 共振器と共振器を結合した駆動系における量子ダイナモ効果を,空洞モードやオーミックボソニックバスを形成するモードの集合に記述する。 ハミルトニアン系が時間とともに変化すると、これは駆動速度と共鳴周波数を持つボソニックモードの力学場を誘導する。 この場はファラデーの誘導の法則を想起させる形で外部駆動場の変化に反対し、「量子ダイナモ効果」という用語を正当化している。 ブロッホ球面上で周期的に駆動されるスピン-$\frac{1}{2}$の特定の状況において、スピンを北から南極に転がして行う作業は、共鳴ボソニックモードのコヒーレントな変位に効率よく変換できることを示す。 この効果, その性能, 詳細は, 球のコアに有効電荷を形成することにより, トポロジカル系との関係に対処する放射磁場の存在下での駆動スピン-$$\frac{1}{2}$に対する制限について検討する。 ダイナモ効果は、このスピン-$\frac{1}{2}$の動的計測トポロジーに直接関係していることを示し、断熱限界において、運転作業を貯水池内のコヒーレント場に変換する位相的に保護された方法を提供する。 量子ダイナモモデルはメソスコピックと原子系で実現可能である。

We describe a quantum dynamo effect in a driven system coupled to a harmonic oscillator describing a cavity mode or to a collection of modes forming an Ohmic bosonic bath. When the system Hamiltonian changes in time, this induces a dynamical field in the bosonic modes having resonant frequencies with the driving velocity. This field opposes the change of the external driving field in a way reminiscent of Faraday's law of induction, justifying the term 'quantum dynamo effect'. For the specific situation of a periodically driven spin-$\frac{1}{2}$ on the Bloch sphere, we show that the work done by rolling the spin from north to south pole can efficiently be converted into a coherent displacement of the resonant bosonic modes, the effect thus corresponds to a work-to-work conversion and allows to interpret this transmitted energy into the bath as work. We study this effect, its performance and limitations in detail for a driven spin-$\frac{1}{2}$ in the presence of a radial magnetic field addressing a relation with topological systems through the formation of an effective charge in the core of the sphere. We show that the dynamo effect is directly related to the dynamically measured topology of this spin-$\frac{1}{2}$ and thus in the adiabatic limit provides a topologically protected method to convert driving work into a coherent field in the reservoir. The quantum dynamo model is realizable in mesoscopic and atomic systems.
翻訳日:2023-02-02 14:09:54 公開日:2022-12-07
# 認知心理学における人間の論理の非分布性と応答再現性効果の違反

Nondistributivity of human logic and violation of response replicability effect in cognitive psychology ( http://arxiv.org/abs/2208.12946v2 )

ライセンス: Link先を確認
Masanao Ozawa and Andrei Khrennikov(参考訳) 本研究の目的は,人間の推論を解析するための基本的なツールとして,量子論理の促進である。 古典論理 (boolean logic) と比較し, 連接と分断に対する分配則の違反の役割を強調する。 非分布性は論理変数の不適合性と等価であることはよく知られており、これらの変数に2つの値の真理値を一緒に割り当てることができない。 人間論理における量子論理非分布性が実験的に検証できるかどうかという自然な疑問が生まれている。 認知心理学における応答再現性効果(RRE)のテストは非分布性テストと同等であり、観察によって生成された精神状態の更新は、精神状態ベクトルの直交射影として記述される(Wang and Busemeyerの射影的更新予想)。 RREの簡単なテストが提案されている。 量子ライクなモデリングにおける以前の研究とは対照的に、我々は状態依存の枠組みで進み、特に、分布性、適合性、RREは固定された精神状態にあると考えられる。 本フレームワークでは,質問順と応答の再現性の効果を (von Neumann-L\"uders") の射影測定を用いて組み合わせることの不可能性に関する先行結果を改善する。

The aim of this paper is to promote quantum logic as one of the basic tools for analyzing human reasoning. We compare it with classical (Boolean) logic and highlight the role of violation of the distributive law for conjunction and disjunction. It is well known that nondistributivity is equivalent to incompatibility of logical variables -- the impossibility to assign jointly the two-valued truth values to these variables. A natural question arises as to whether quantum logical nondistributivity in human logic can be tested experimentally. We show that testing the response replicability effect (RRE) in cognitive psychology is equivalent to testing nondistributivity -- under the prevailing conjecture that the mental state update generated by observation is described as orthogonal projection of the mental state vector (the projective update conjecture of Wang and Busemeyer). A simple test of RRE is suggested. In contrast to the previous works in quantum-like modeling, we proceed in the state-dependent framework; in particular, distributivity, compatibility, and RRE are considered in a fixed mental state. In this framework, we improve the previous result on the impossibility to combine question order and response replicability effects by using (von Neumann-L\"uders) projective measurements.
翻訳日:2023-01-28 19:30:26 公開日:2022-12-07
# 電子磁気モーメントの測定

Measurement of the Electron Magnetic Moment ( http://arxiv.org/abs/2209.13084v2 )

ライセンス: Link先を確認
X. Fan, T. G. Myers, B. A. D. Sukra, and G. Gabrielse(参考訳) 電子磁気モーメント、$-\mu/\mu_B = g/2 = 1.001 \, 159 \, 652 \, 180 \, 59 \, (13) \, [0.13\, \rm{ppt}]$は14年間保持していた値の2.2倍の精度で決定される。 素粒子の最も正確に決定された性質は、標準モデル(SM)の最も正確な予測を10^{12}$で1ドルまで行うことである。 このテストは、sm予測が$\alpha$の関数であるため、微細構造定数$\alpha$の離散的な測定からの不確実性が排除されると、桁違いに改善される。 新しい測定とSM理論はともに$\alpha^{-1}=137.035 \, 999 \, 166 \, (15) \, [0.11 \, \rm{ppb}]$を、測定された$\alpha$の現在の不一致の10倍小さい不確かさで予測する。

The electron magnetic moment,$-\mu/\mu_B = g/2 = 1.001 \, 159 \, 652 \, 180 \, 59 \, (13) \, [0.13\, \rm{ppt}]$, is determined 2.2 times more accurately than the value that stood for 14 years. The most precisely determined property of an elementary particle tests the most precise prediction of the Standard Model (SM) to $1$ part in $10^{12}$. The test would improve an order of magnitude if the uncertainty from discrepant measurements of the fine structure constant $\alpha$ is eliminated since the SM prediction is a function of $\alpha$. The new measurement and SM theory together predict $\alpha^{-1}=137.035 \, 999 \, 166 \, (15) \, [0.11 \, \rm{ppb}]$ with an uncertainty ten times smaller than the current disagreement between measured $\alpha$ values.
翻訳日:2023-01-25 00:29:35 公開日:2022-12-07
# トポロジカルマターとフラクショナルエンタングルド幾何学

Topological Matter and Fractional Entangled Geometry ( http://arxiv.org/abs/2209.15381v3 )

ライセンス: Link先を確認
Karyn Le Hur(参考訳) ここでは、近年の量子物理学と、ディラック磁気モノポールとゲージ場とを結合するトポロジカル結晶の幾何学的アプローチの進歩を明らかにする。 量子スピン-$\frac{1}{2}$粒子のブロッホ球は、放射状磁場の存在下で整数位相電荷を得る。 大域的位相特性は表面の極から符号化され、滑らかな場、計量、量子距離と${\cal I}(\theta)$関数と位相数の正方形との対応が可能であることを示す。 情報は各極から薄いディラック弦上の赤道面へ輸送される。 我々は、空間と時間における「量子トポロメトリー」の理論を開発し、光の円二色性から結晶のトポロジカルバンド構造への量子化された光電効果のニュートンアプローチからの輸送に応用する。 トポロジカル格子モデルに関連するエッジモードは、球体や楕円体をシリンダーに変形する際に解析的に解決される。 ハニカム格子上の量子ホール効果、量子異常ホール効果、および量子スピンホール効果の位相的性質は、光物質結合からブリルアンゾーンで局所的に測定することができる。 形式主義は運動量空間からの相互作用効果を含めることができる。 相互作用はまた、曲線空間内の分数絡み合い幾何学をもたらすこともある。 量子力学における絡み合った波動関数、測地線のコヒーレント重ね合わせ、半位相数への方法、マヨラナフェルミオンの関係を解明する。 トポロジカルな事柄における実現を示す。 本研究では,立方体表面上のアキソニオン電気力学,位相絶縁体とメロンによる2次元球面モデルの関係を示す。

Here, we reveal our recent progress on a geometrical approach of quantum physics and topological crystals linking with Dirac magnetic monopoles and gauge fields through planetary electrodynamics. The Bloch sphere of a quantum spin-$\frac{1}{2}$ particle acquires an integer topological charge in the presence of a radial magnetic field. We show that global topological properties are encoded from the poles of the surface allowing a correspondence between smooth fields, metric and quantum distance with the ${\cal I}(\theta)$ function and square of the topological number. The information is transported from each pole to the equatorial plane on a thin Dirac string. We develop the theory, "quantum topometry" in space and time, and present applications on transport from a Newtonian approach, on a quantized photo-electric effect from circular dichroism of light towards topological band structures of crystals. Edge modes related to topological lattice models are resolved analytically when deforming the sphere or ellipse onto a cylinder. Topological properties of the quantum Hall effect, quantum anomalous Hall effect and quantum spin Hall effect on the honeycomb lattice can be measured locally in the Brillouin zone from light-matter coupling. The formalism allows us to include interaction effects from the momentum space. Interactions may also result in fractional entangled geometry within the curved space. We develop a relation between entangled wavefunction in quantum mechanics, coherent superposition of geometries, a way to one-half topological numbers and Majorana fermions. We show realizations in topological matter. We present a link between axion electrodynamics, topological insulators on a surface of a cube and the two-spheres' model via merons.
翻訳日:2023-01-24 07:38:40 公開日:2022-12-07
# 暗黒物質探索のためのエンタングルメント強化光学センサアレイ

Entanglement-enhanced optomechanical sensor array for dark matter searches ( http://arxiv.org/abs/2210.07291v2 )

ライセンス: Link先を確認
Anthony J. Brady, Xin Chen, Kewen Xiao, Yi Xia, Jack Manley, Mitul Dey Chowdhury, Zhen Liu, Roni Harnik, Dalziel J. Wilson, Zheshen Zhang and Quntao Zhuang(参考訳) ダークマターの性質は、現代物理学において最も重要な疑問の一つである。 ダークマターの探索は、重力相互作用の他に、通常物質と弱く相互作用するため、難しい。 メカニカルセンサーは低周波数領域における暗黒物質探索の有力候補の1つである。 本稿では,機械式センシング装置を用いたDM探索を支援するために,エンタングルメント強化光学式センシングシステムを提案する。 そこで本研究では,本システムの性能を評価するため,広帯域センシングに特に適する統合感度を,システムの帯域幅・感度トレードオフを高精度に定量化する。 次に、光学的センサアレイをコヒーレントに操作し、光学場間の連続的な多成分の絡み合いを利用して、センサの配列が独立したセンサ(例えば、$m$がセンサーの数である$\sqrt{m}\rightarrow m$)に対するスケーリングの利点と、絡み合いによるパフォーマンスの向上をもたらすことを示した。 このような利点は機械センサーの不均一性に対して堅牢であり、既製の実験部品で実現可能である。

The nature of dark matter is one of the most important open questions in modern physics. The search for dark matter is challenging since, besides gravitational interaction, it feebly interacts with ordinary matter. Mechanical sensors are one of the leading candidates for dark matter searches in the low frequency region. Here, we propose entanglement-enhanced optomechanical sensing systems to assist the search for DM with mechanical sensing devices. To assess the performance of our setup, we adopt the integrated sensitivity, which is particularly suitable for broadband sensing as it precisely quantifies the bandwidth-sensitivity tradeoff of the system. We then show that, by coherently operating the optomechanical sensor array and utilizing continuous-variable multi-partite entanglement between the optical fields, the array of sensors has a scaling advantage over independent sensors (i.e., $\sqrt{M}\rightarrow M$, where $M$ is the number of sensors) as well as a performance boost due to entanglement. Such an advantage is robust to imhomogeneities of the mechanical sensors and is achievable with off-the-shelf experimental components.
翻訳日:2023-01-22 16:45:37 公開日:2022-12-07
# 密度ニュートリノ系のマルチニュートリノ絡み合いと相関

Multi-Neutrino Entanglement and Correlations in Dense Neutrino Systems ( http://arxiv.org/abs/2210.08656v2 )

ライセンス: Link先を確認
Marc Illa and Martin J. Savage(参考訳) マルチニュートリノの絡み合いと相関の時間発展は、密集したニュートリノ環境に関連する2つのフレーバーの集団ニュートリノ振動で研究されている。 具体的には、QuantinuumのH1-1 20量子ビットトラップイオン量子コンピュータを用いて、最大12個のニュートリノを持つシステムのシミュレーションを行い、n-三角形を計算する。 n-tangle再スケーリングは、大きなシステムサイズで収束する。

The time-evolution of multi-neutrino entanglement and correlations are studied in two-flavor collective neutrino oscillations, relevant for dense neutrino environments, building upon previous works. Specifically, simulations performed of systems with up to 12 neutrinos using Quantinuum's H1-1 20 qubit trapped-ion quantum computer are used to compute n-tangles, and two- and three-body correlations, probing beyond mean-field descriptions. n-tangle re-scalings are found to converge for large system sizes.
翻訳日:2023-01-22 09:28:50 公開日:2022-12-07
# 有限温度における双極子ボソンのスタッガー量子相

Staggered quantum phases of dipolar bosons at finite temperatures ( http://arxiv.org/abs/2211.04821v2 )

ライセンス: Link先を確認
Kuldeep Suthar and Kwai-Kong Ng(参考訳) 相関トンネルを持つ拡張ボース・ハバード模型は、スタッガード超流動と超固体量子相を示す。 ガッツウィラー平均場と量子モンテカルロ法による二次元光学格子における双極子ボソンの量子相の有限温度相転移の研究を行った。 近傍の反発がオンサイト相互作用に匹敵する場合には、2つのトポロジカルに異なる超流体が通常の流体相によって分離されるのに対し、強いオフサイト相互作用では密度変調絶縁量子相が現れる。 定常流体遷移に対するスタッガー超流動の臨界温度を推定し、この遷移がコステリッツ-トゥーレス型のものであることを示す。 最後に、外部トラップポテンシャルの存在下でのスタガー量子位相の共存を解明する。 本研究では、最近の双極子光格子実験において、新しいスタッガー量子位相を観測する方法を提案する。

The extended Bose-Hubbard model with correlated tunneling exhibits staggered superfluid and supersolid quantum phases. We study finite-temperature phase transitions of quantum phases of dipolar bosons in a two-dimensional optical lattice using Gutzwiller mean-field and quantum Monte Carlo approaches. When nearest-neighbor repulsion is comparable to the on-site interaction, we find that the two topologically distinct superfluids are separated by a normal fluid phase, while at stronger off-site interactions, density-modulated insulating quantum phases appear. We estimate the critical temperature of the staggered superfluid to normal fluid transition and show that this transition is of the Kosterlitz-Thouless type. Finally, we elucidate the coexistence of staggered quantum phases in the presence of an external trapping potential. Our study paves a way to observe novel staggered quantum phases in recent dipolar optical lattice experiments.
翻訳日:2023-01-19 20:49:56 公開日:2022-12-07
# インスタントシステムのためのリアルタイムダイアグラム技術

Real-time diagram technique for instantonic systems ( http://arxiv.org/abs/2211.05746v2 )

ライセンス: Link先を確認
Nikita Kolganov(参考訳) シュウィンガー・ケルディッシュ図法は通常、リアルタイムインインイン相関関数の計算に関わっている。 熱状態の場合、虚時松原相関関数をリアルタイムで解析的に継続することができる。 しかしながら、全ての実時間相関関数はそのような手順で得られるわけではない。 さらに、数値解析継続は不適切な問題である。 したがって、熱状態の場合であってもシュウィンガー・ケルディシュ形式主義を必要とすることがある。 システムのポテンシャルが縮退するミニマを許すならば、インスタント効果がゲームに入るので、想像上の時間変換不変量に対応するものを含むインスタントなモジュライ空間も統合する必要がある。 しかし、シュウィンガー・ケルディシュ閉時間輪郭はそのような不変性を明示的に破る。 我々は、この不変性を回復し、どのように行うかを示す必要があると論じている。 その後、Schwinger-Keldyshダイアグラムのインスタントシステムへの拡張を構築し、最初の数点相関関数の例でそれを実証する。

The Schwinger-Keldysh diagram technique is usually involved in the calculation of real-time in-in correlation functions. In the case of a thermal state, one can analytically continue imaginary-time Matsubara correlation functions to real times. Nevertheless, not all real-time correlation functions usually can be obtained by such procedure. Moreover, numerical analytic continuation is an ill-posed problem. Thus, even in the case of a thermal state one may need for the Schwinger-Keldysh formalism. If the potential of a system admits degenerate minima, instantonic effects enter the game, so one should also integrate over the instantonic moduli space, including the one, corresponding to the imaginary time translational invariance. However, the Schwinger-Keldysh closed time contour explicitly breaks such invariance. We argue, that this invariance must be recovered, and show, how it can be done. After that, we construct an extension of the Schwinger-Keldysh diagram technique to instantonic systems and demonstrate it on the example of the first few-point correlation functions.
翻訳日:2023-01-19 19:13:55 公開日:2022-12-07
# 決定不能問題の多くの有界バージョンはNPハードである

Many bounded versions of undecidable problems are NP-hard ( http://arxiv.org/abs/2211.13532v2 )

ライセンス: Link先を確認
Andreas Klingler, Mirte van der Eyden, Sebastian Stengele, Tobias Reinhart, Gemma De las Cuevas(参考訳) 物理的にインスパイアされたいくつかの問題は決定不能であることが証明されており、例えばスペクトルギャップ問題や量子相関のメンバシップ問題がある。 これらの結果のほとんどが停止問題、タイリング問題、ポスト対応問題、行列死亡問題など、決定不能な問題のほんの一握りの削減に依存している。 これらの問題はすべて共通の性質を持ち、NPハードな有界バージョンを持つ。 この研究は、決定不能な未有界問題とその有界NPハードバージョンとの関係を確立する。 具体的には、有界バージョンにおけるNP硬度は、非有界問題の減少により容易に従うことを示す。 これにより、ポスト対応問題、行列死亡問題、行列積演算子の正当性、到達可能性問題、タイリング問題、基底状態エネルギー問題のNP硬度の新しいより単純な証明が導かれる。 この研究は、理論物理学における問題の難解性やパラメータ境界の計算結果に光を当てている。

Several physically inspired problems have been proven undecidable; examples are the spectral gap problem and the membership problem for quantum correlations. Most of these results rely on reductions from a handful of undecidable problems, such as the halting problem, the tiling problem, the Post correspondence problem or the matrix mortality problem. All these problems have a common property: they have an NP-hard bounded version. This work establishes a relation between undecidable unbounded problems and their bounded NP-hard versions. Specifically, we show that NP-hardness of a bounded version follows easily from the reduction of the unbounded problems. This leads to new and simpler proofs of the NP-hardness of bounded version of the Post correspondence problem, the matrix mortality problem, the positivity of matrix product operators, the reachability problem, the tiling problem, and the ground state energy problem. This work sheds light on the intractability of problems in theoretical physics and on the computational consequences of bounding a parameter.
翻訳日:2023-01-18 23:00:00 公開日:2022-12-07
# 位相図のプローブとしての実空間回路複雑性

Real space circuit complexity as a probe of phase diagrams ( http://arxiv.org/abs/2211.14106v2 )

ライセンス: Link先を確認
Nishan C. Jayarama, Viktor Svensson(参考訳) 回路の複雑さは、凝縮物系、特に位相図を調べる方法として様々な性質を研究するツールとして使われてきた。 しかし、絡み合いに基づく測度と比較すると、複雑さは欠如している。 非局所性を罰する罰則を課すと、位相図のより強力なプローブとなり、より微妙な特徴を探索できることが示される。 逆場を持つXY鎖の複雑さの解析解を導出することでこれを実現できる。

Circuit complexity has been used as a tool to study various properties in condensed matter systems, in particular as a way to probe the phase diagram. However, compared with measures based on entanglement, complexity has been found lacking. We show that when imposing penalty factors punishing non-locality, it becomes a much stronger probe of the phase diagram, able to probe more subtle features. We do this by deriving analytical solutions for the complexity in the XY chain with transverse field.
翻訳日:2023-01-17 20:51:11 公開日:2022-12-07
# 未知量子力学の非客観性について

Witnessing the non-objectivity of an unknown quantum dynamics ( http://arxiv.org/abs/2211.15638v2 )

ライセンス: Link先を確認
Davide Poderini, Giovanni Rodari, George Moreno, Emanuele Polino, Ranieri Nery, Alessia Suprano, Cristhiano Duarte, Fabio Sciarrino and Rafael Chaves(参考訳) 量子ダーウィン主義(Quantum Darwinism)は、顕微鏡レベルでの量子特性から古典的な客観的特徴(マクロスケールで使用されるもの)の出現を説明する。 量子システムとその周囲との相互作用は、情報を環境の多くの部分に冗長に増殖させ、異なる観測者にアクセスしやすく客観的にさせる。 しかし、量子系を直接、その環境だけを探査できないことを考えれば、未知の量子特性が客観的であるかどうかをどう確かめるか? 本稿では,この問題を分析し,客観性がベル的不等式を意味することを示す確率的枠組みを提案する。 この不等式を量子的に破る証拠は、我々が「集合的幻覚」と呼ぶ現象を引き起こす量子相関の非対象性(英語版)をデバイスに依存しない証明である: 環境の異なる部分を探索する観察者は、与えられた観測可能な観測結果について合意できるが、そのような結果は固定された観測可能な量子システムの特性と全く無関係である。 また、光子の時間的自由度が関心の量子系であり、その偏光が環境として機能する、魅力的なフォトニック実験も実施する。 完全にブラックボックスなアプローチを採用し、ベルの不等式を破ることで、完全にデバイスに依存しない枠組みで基礎となる量子力学の非対象性を保証する。

Quantum Darwinism offers an explanation for the emergence of classical objective features -- those we are used to at macroscopic scales -- from quantum properties at the microscopic level. The interaction of a quantum system with its surroundings redundantly proliferates information to many parts of the environment, turning it accessible and objective to different observers. But given that one cannot probe the quantum system directly, only its environment, how to witness whether an unknown quantum property can be deemed objective or not? Here we propose a probabilistic framework to analyze this question and show that objectivity implies a Bell-like inequality. Among several other results, we show quantum violations of this inequality, a device-independent proof of the non-objectivity of quantum correlations that give rise to the phenomenon we name "collective hallucination": observers probing distinct parts of the environment can agree upon their measurement outcome of a given observable but such outcome can be totally uncorrelated from the property of the quantum system that fixed observable should be probing. We also implement an appealing photonic experiment where the temporal degree of freedom of photons is the quantum system of interest, while their polarization acts as the environment. Employing a fully black-box approach, we achieve the violation of a Bell inequality, thus certifying the non-objectivity of the underlying quantum dynamics in a fully device-independent framework.
翻訳日:2023-01-17 15:01:12 公開日:2022-12-07
# 2次元フェルミオンの平均場限界に対する複数ランドウレベル充填法

Multiple Landau level filling for a mean field limit of 2D fermions ( http://arxiv.org/abs/2212.03780v1 )

ライセンス: Link先を確認
Denis P\'erice(参考訳) 量子ホール効果により、大きな磁場限界におけるN次元相互作用フェルミオンの研究を行う。 我々は境界領域で働き、ランダウ準位の有限縮退を確実にする。 我々の体制では、いくつかのレベルが完全に満たされ、不活性であり、これらのレベルの密度は一定である。 我々は、最後の部分充填されたランダウレベルにおける物理学の限界平均場と半古典的記述を導出する。

Motivated by the quantum hall effect, we study N two dimensional interacting fermions in a large magnetic field limit. We work in a bounded domain, ensuring finite degeneracy of the Landau levels. In our regime, several levels are fully filled and inert: the density in these levels is constant. We derive a limiting mean-field and semi classical description of the physics in the last, partially filled Landau level.
翻訳日:2023-01-09 19:08:59 公開日:2022-12-07
# 正の$\Delta E$定理

Positive $\Delta E$ theorem ( http://arxiv.org/abs/2212.03914v1 )

ライセンス: Link先を確認
Nilakash Sorokhaibam(参考訳) 有限正の温度で非常にカオス的な閉量子系が摂動した場合、系のエネルギーの変化(デルタE$)は常に正であることを示す。 この結果は線型順序で普遍的に真となる。 固有状態熱化仮説(ETH)を仮定すると、この結果はあらゆる順序で真であることを示す。 これらの系では、エントロピー(S)は温度上昇とともに増加する。 さらに、サブシステムの絡み合いエントロピー(EE)は、サブシステムに関連する広範な熱エントロピーと等しい。 したがって、$\Delta E$、$\Delta S$、$\Delta EE$は常に有限正の温度で正となる。 システムが負の温度であれば、$\Delta E$は負だが、$\Delta S$と$\Delta EE$は正である。 系が無限温度であれば、$\Delta E$, $\Delta S$, $\Delta EE$ はすべてゼロである。

We show that the change in energy ($\Delta E$) of a system is always positive when a highly chaotic closed quantum system at finite positive temperature is perturbed. This result holds true universally at linear order. Assuming eigenstate thermalization hypothesis (ETH), we show that this result holds true at all orders. For these systems, the entropy (S) increases with increasing temperature. Moreover, entanglement entropy (EE) of a subsystem is also equal to the extensive thermal entropy associated with the subsystem. So, $\Delta E$, $\Delta S$ and $\Delta EE$ are always positive at finite positive temperature. If the system is at negative temperature, $\Delta E$ is negative but $\Delta S$ and $\Delta EE$ are positive. If the system is at infinite temperature, $\Delta E$, $\Delta S$ and $\Delta EE$ are all exactly zero.
翻訳日:2023-01-09 18:51:24 公開日:2022-12-07
# 室温量子システムに対するボトムアップアプローチ

Bottom-up approach to room temperature quantum systems ( http://arxiv.org/abs/2212.03970v1 )

ライセンス: Link先を確認
Bochao Wei, Chao Li, Ce Pei, Chandra Raman(参考訳) 熱原子蒸気を用いて複雑な量子物質を構築するための「ボトムアップ」アプローチにおいて重要な要素を示す。 我々はレーザー冷却を使わずに、非常にゆっくりと動く個々の原子を分離して追跡した。 パッシブフィルタリングにより、3次元の速度ベクトルが$\bar{v}/20$以下である原子を慎重に選択することができ、ここで$\bar{v}$はアンサンブルの平均速度である。 新たな光子相関法を用いて、25\mu$mの視野内で1\mu$sの1つのゆっくりと動く原子の3次元軌道を追跡することができ、これら1つのエミッタのラビ振動を観測しながら、トラッキング能力に明確な制限をもたなかった。 本結果は,ボトムアップアプローチによる量子メモリ,イメージング,その他の量子情報応用における熱アンサンブルのパワーとスケーラビリティを示す。

We demonstrate a key ingredient in a 'bottom-up' approach to building complex quantum matter using thermal atomic vapors. We have isolated and tracked very slowly moving individual atoms without the aid of laser cooling. Passive filtering enabled us to carefully select atoms whose three-dimensional velocity vector has a magnitude below $\bar{v}/20$, where $\bar{v}$ is the mean velocity of the ensemble. Using a novel photon correlation technique, we could follow the three-dimensional trajectory of single, slowly moving atoms for $> 1\mu$s within a $25\mu$m field of view, with no obvious limit to the tracking ability while simultaneously observing Rabi oscillations of these single emitters. Our results demonstrate the power and scalability of thermal ensembles for utilization in quantum memories, imaging, and other quantum information applications through bottom-up approaches.
翻訳日:2023-01-09 18:51:09 公開日:2022-12-07
# 低次元位相要素を用いたセキュア通信

Secure communication using low dimensional topological elements ( http://arxiv.org/abs/2212.04350v1 )

ライセンス: Link先を確認
Manuel F. Ferrer-Garcia, Avishy Carmi, Alessio D'Errico, Hugo Larocque, Eliahu Cohen, Ebrahim Karimi(参考訳) 結び目やブレイドのような低次元の位相オブジェクトは、流体力学、光学、量子情報処理などの物理学の様々な領域で広く使われている。 このようなオブジェクトは、通信目的のためにブレイド表現を使用してエンコードされた情報を保存できる暗号法でも役割を担っている。 変形下での低次元トポロジカル要素のレジリエンスは、情報交換のための信頼性の高いフレームワークとして使用できる。 本稿では,この構成を認証に応用したチャレンジ応答プロトコルを提案する。 フレーム化されたリンクとブレイドがセキュアな通信の強化にどのように役立つかを示す、両方の手順の例を示す。

Low-dimensional topological objects, such as knots and braids, have become prevalent in multiple areas of physics, such as fluid dynamics, optics, and quantum information processing. Such objects also now play a role in cryptography, where a framed knot can store encoded information using its braid representation for communications purposes. The greater resilience of low-dimensional topological elements under deformations allows them to be employed as a reliable framework for information exchange. Here, we introduce a challenge-response protocol as an application of this construction for authentication. We provide illustrative examples of both procedures showing how framed links and braids may help to enhance secure communication.
翻訳日:2023-01-09 18:50:07 公開日:2022-12-07
# ボース・アインシュタイン凝縮体の弱測定による加熱

Weak-Measurement-Induced Heating in Bose-Einstein Condensates ( http://arxiv.org/abs/2212.03431v1 )

ライセンス: Link先を確認
Emine Altuntas and Ian B. Spielman(参考訳) 超低温原子は多体系の系-保存力学を理解するのに理想的なプラットフォームである。 ここでは、原子ボース-アインシュタイン凝縮体における量子バックアクションを研究し、遠方共振子、すなわち分散相互作用、プローブレーザービームと弱い相互作用を行う。 原子によって散乱された光は、系の状態の変化が測定のバックアクションから導かれる量子測定プロセスの一部と見なすことができる。 得られたバックアクションを堆積エネルギーの観点から実験的に定量化する。 システムと環境の相互作用を一般化した計測プロセスでモデル化し,マルコフ貯水池を導出する。 さらに,成層圏の光学格子とプローブ誘起光アシスト衝突(本質的な原子過程)の2つの系統的熱損失源を同定した。 観察された加熱と損失率は、分子共鳴における損失の増加と分子共鳴間の損失の減少にともなう発振関数である赤脱調よりも青色脱調では大きい。

Ultracold atoms are an ideal platform for understanding system-reservoir dynamics of many-body systems. Here, we study quantum back-action in atomic Bose-Einstein condensates, weakly interacting with a far-from resonant, i.e., dispersively interacting, probe laser beam. The light scattered by the atoms can be considered as a part of quantum measurement process whereby the change in the system state derives from measurement back-action. We experimentally quantify the resulting back-action in terms of the deposited energy. We model the interaction of the system and environment with a generalized measurement process, leading to a Markovian reservoir. Further, we identify two systematic sources of heating and loss: a stray optical lattice and probe-induced light assisted collisions (an intrinsic atomic process). The observed heating and loss rates are larger for blue detuning than for red detuning, where they are oscillatory functions of detuning with increased loss at molecular resonances and reduced loss between molecular resonances.
翻訳日:2023-01-09 18:42:46 公開日:2022-12-07
# ランダムガウス状態からのガウス的作業抽出はほぼ不可能である

Gaussian work extraction from random Gaussian states is nearly impossible ( http://arxiv.org/abs/2212.03492v1 )

ライセンス: Link先を確認
Uttam Singh, Jaros{\l}aw K. Korbicz, Nicolas J. Cerf(参考訳) 量子熱力学は、自然に量子状態変換の理論や、熱力学過程の小さな量子系のエネルギー交換として表現され、資源理論のアプローチに非常に適している。 熱力学における重要な資源は抽出可能な作業であり、実用的な熱エンジンのバックボーンを形成する。 したがって、仕事の源として機能する能力に基づいて量子状態を特徴づけることが最も重要である。 近い将来、量子光学装置は量子熱力学の理想的なテストベッドであることが判明し、量子光学状態からの作業抽出を評価することが不可欠である。 ここで、ガウス状態は一般的にガウスの作業抽出に役に立たないことを示す。 より具体的には、「測度集中」現象を利用することにより、(ゼロ平均)エネルギーで有界な多モードランダムガウス状態からガウス的抽出可能作業が指数関数的に小さくなる確率が証明される。 この結果はガウス的ユニタリーの下でガウス的状態から作業抽出を行うための$\epsilon$-no-go定理と考えて、ガウス的成分の量子熱力学的有用性に関する基本的な制限を明らかにすることができる。

Quantum thermodynamics can be naturally phrased as a theory of quantum state transformation and energy exchange for small-scale quantum systems undergoing thermodynamical processes, thereby making the resource theoretical approach very well suited. A key resource in thermodynamics is the extractable work, forming the backbone of practical thermal engines. Therefore, it is of utmost importance to characterize quantum states based on their ability to serve as a source of work. From a near term perspective, quantum optical setups turn out to be ideal testbeds for quantum thermodynamics, so it is essential to assess work extraction from quantum optical states. Here, we show that Gaussian states are typically useless for Gaussian work extraction. More specifically, by exploiting the "concentration of measure" phenomenon, we prove that the probability that the Gaussian extractable work from a (zero-mean) energy-bounded multimode random Gaussian state is nonzero is exponentially small. This result can be thought of as an $\epsilon$-no-go theorem for work extraction from Gaussian states under Gaussian unitaries, thereby revealing a fundamental limitation on the quantum thermodynamical usefulness of Gaussian components.
翻訳日:2023-01-09 18:42:31 公開日:2022-12-07
# 非可換時空における量子粒子:同一性危機

Quantum particles in non-commutative space-time: an identity crisis ( http://arxiv.org/abs/2212.03703v1 )

ライセンス: Link先を確認
Michele Arzano and Jerzy Kowalski-Glikman(参考訳) 我々は、同一粒子の概念はもはや時空対称性の非可換変形によって支配される量子系では明確に定義されていないと主張する。 そのようなモデルは、非アーベルリー群によって与えられる4次元空間によって特徴づけられる。 我々の分析は、複数の粒子を含む状態の場合、系の総運動量だけがよく定義された量子数であるという観察に基づいている。 そのような総運動量は、もはや一意に定義されていない粒子の個々のモーメントの非可換な組成から得られる。 私たちの分析の主な成果は、これらのモデルのフォック空間を構築する試みはすべて間違った仮定に基づいており、実際に失敗していることです。 また、状態のテンソル積における因子の交換を特徴付ける運動量量子数の自然なブレイディングが相対論的変換の下で共変であることを示し、場の長大な問題を解く。

We argue that the notion of identical particles is no longer well defined in quantum systems governed by non-commutative deformations of space-time symmetries. Such models are characterized by four-momentum space given by a non-abelian Lie group. Our analysis is based on the observation that, for states containing more than one particle, only the total momentum of the system is a well defined quantum number. Such total momentum is obtained from the non-abelian composition of the particles individual momenta which are no longer uniquely defined. The main upshot of our analysis is that all previous attempts to construct Fock spaces for these models rested on wrong assumptions and indeed have been unsuccessful. We also show how the natural braiding of momentum quantum numbers which characterizes the exchange of factors in the tensor product of states is covariant under relativistic transformations thus solving a long standing problem in the field.
翻訳日:2023-01-09 18:42:09 公開日:2022-12-07
# 非エルミートハミルトニアンによるフシミダイナミクス

Husimi dynamics generated by non-Hermitian Hamiltonians ( http://arxiv.org/abs/2212.03719v1 )

ライセンス: Link先を確認
Katherine Holmes, Wasim Rehman, Simon Malzard, and Eva-Maria Graefe(参考訳) 非エルミートハミルトニアンによって生成される力学は、しばしば従来のエルミート系よりも直観的ではない。 複素調和振動子のような単純なモデルであっても、ジェネリック初期状態の力学は驚くべき特徴を示す。 ここでは半古典的極限におけるフシミ分布のダイナミクスを解析し、全量子進化の基礎を明らかにした。 古典フシミの進化は2つの要素から成り立っている。 一 位相空間軌道に沿って評価された初期フシミ分布及び (ii)各位相空間点に対応するノルムの最終値。 どちらの要因も、興味深い動的行動を引き起こす。 量子力学が古典的なフジミ力学の上にどのように展開するかを2つの例で示す。

The dynamics generated by non-Hermitian Hamiltonians are often less intuitive than those of conventional Hermitian systems. Even for models as simple as a complexified harmonic oscillator, the dynamics for generic initial states shows surprising features. Here we analyse the dynamics of the Husimi distribution in a semiclassical limit, illuminating the foundations of the full quantum evolution. The classical Husimi evolution is composed of two factors, (i) the initial Husimi distribution evaluated along phase-space trajectories, and (ii) the final value of the norm corresponding to each phase-space point. Both factors conspire to lead to intriguing dynamical behaviours. We demonstrate how the full quantum dynamics unfolds on top of the classical Husimi dynamics for two instructive examples.
翻訳日:2023-01-09 18:41:56 公開日:2022-12-07
# 単一量子ドットスピンによる光子偏光制御

Controlling photon polarisation with a single quantum dot spin ( http://arxiv.org/abs/2212.03767v1 )

ライセンス: Link先を確認
Elham Mehdi, Manuel Gundin-Martinez, Cl\'ement Millet, Niccolo Somaschi, Aristide Lema\^itre, Isabelle Sagnes, Luc Le Gratiet, Dario Fioretto, Nadia Belabas, Olivier Krebs, Pascale Senellart and Lo\"ic Lanco(参考訳) 光量子コンピューティングと通信の枠組みでは、単一の静止量子ビットとの相互作用を用いて入射光子の条件演算を実装する受信ノードを構築することが主な目的である。 特に、スケーラブルノードの探求は、固体エミッタを用いたキャビティ強化スピン光子界面の開発を動機付けた。 しかし、安定で制御可能なスピン依存光子状態を決定論的に生成することが重要な課題である。 ここでは、単電荷半導体量子ドットを埋め込んだ柱状高Q空洞を用いて、単一電子スピンによって誘起される巨大偏極回転の制御を実証する。 完全なトモグラフィー法を用いて出力偏光ストークスベクトルを導出し、単一のスピン状態が条件付けされる。 スピン偏極マッピングおよびスピン媒介光子ゲートに基づく応用に必要となる,poincar\'e球面における$\pm \frac{\pi}{2}$および$\pi$等の回転振幅を実験的に示す。 本モデルでは, 環境騒音はスピン誘起回転の振幅を制限するものではなく, 出力状態の偏極純度をわずかに低下させる。 反射光子の偏光状態は、中程度のキャビティ複屈折と限られたノイズにより、制御されたスピン誘起回転を通じて、ポアンカルジュ球の大部分で制御可能であることが判明した。 この制御により、0磁場や低磁場を含む様々な構成でのスピン光子界面の動作が可能となり、フォトニッククラスター状態生成の鍵プロトコルとの互換性が保証される。

In the framework of optical quantum computing and communications, a major objective consists in building receiving nodes that implement conditional operations on incoming photons, using the interaction with a single stationary qubit. In particular, the quest for scalable nodes motivated the development of cavity-enhanced spin-photon interfaces with solid-state emitters. An important challenge remains, however, to produce a stable, controllable, spin-dependant photon state, in a deterministic way. Here we use a pillar-based high-Q cavity, embedding a singly-charged semiconductor quantum dot, to demonstrate the control of giant polarisation rotations induced by a single electron spin. A complete tomography approach is used to deduce the output polarisation Stokes vector, conditioned by a single spin state. We experimentally demonstrate rotation amplitudes such as $\pm \frac{\pi}{2}$ and $\pi$ in the Poincar\'e sphere, as required for applications based on spin-polarisation mapping and spin-mediated photon-photon gates. In agreement with our modeling, we observe that the environmental noise does not limit the amplitude of the spin-induced rotation, yet slightly degrades the polarisation purity of the output states. We find that the polarisation state of the reflected photons can be manipulated in most of the Poincar\'e sphere, through controlled spin-induced rotations, thanks to moderate cavity birefringence and limited noise. This control allows the operation of spin-photon interfaces in various configurations, including at zero or low magnetic fields, which ensures compatibility with key protocols for photonic cluster state generation.
翻訳日:2023-01-09 18:41:48 公開日:2022-12-07
# ノイマン境界条件を持つ不定形磁性管の背景における量子荷電スカラー物質の誘起真空エネルギー密度

Induced vacuum energy density of quantum charged scalar matter in the background of an impenetrable magnetic tube with the Neumann boundary condition ( http://arxiv.org/abs/2212.03801v1 )

ライセンス: Link先を確認
V.M. Gorkavenko, T.V. Gorkavenko, Yu.A. Sitenko, M.S. Tsarenkova(参考訳) 内部に磁束がある管外における荷電スカラー物質場の真空偏極を考察する。 チューブは量子物質には不可避であり、その表面には完全剛性(ノイマン)境界条件が課される。 任意の次元の空間と磁束の任意の値のとき、誘導された真空エネルギー密度の式を記述する。 ロンドンフラックス単位における半整数フラックス値と(2+1)次元時空の場合の数値計算を行う。 荷電されたスカラー物質場の真空エネルギーは、物質場のコンプトン波長がチューブの逆サイズをかなり超えると誘導されることを示す。 真空エネルギーは管の磁束の値に周期的であり,アハロノフ・ボーム効果の量子場-理論的表現を与えることを示す。 管の厚みの異なる値における管の中心からの距離に対する誘導真空エネルギーの依存性について検討した。 得られた結果は、完全反射(ディリクレ)境界条件において、より早く得られた結果と比較される。 ノイマン境界条件の場合における誘導真空エネルギー密度の値は、ディリクレ境界条件の場合よりも大きいことが示されている。

We consider vacuum polarization of charged scalar matter field outside the tube with magnetic flux inside. The tube is impenetrable for quantum matter and the perfectly rigid (Neumann) boundary condition is imposed at its surface. We write expressions for induced vacuum energy density for the case of a space of arbitrary dimension and for an arbitrary value of the magnetic flux. We do the numerical computation for the case of half-integer flux value in the London flux units and (2+1)-dimensional space-time. We show that the induced vacuum energy of the charged scalar matter field is induced if the Compton wavelength of the matter field exceeds the transverse size of the tube considerably. We show that vacuum energy is periodic in the value of the magnetic flux of the tube, providing a quantum-field-theoretical manifestation of the Aharonov-Bohm effect. The dependencies of the induced vacuum energy upon the distance from the center of the tube under the different values of its thickness were obtained. Obtained results are compared to the results obtained earlier in the case of the perfectly reflecting (Dirichlet) boundary condition. It is shown that the value of the induced vacuum energy density in the case of the Neumann boundary condition is greater than in the case of the Dirichlet boundary condition.
翻訳日:2023-01-09 18:41:21 公開日:2022-12-07
# 循環シナリオを超えた$M_3$でのチェイ写像の一般化

Generalizing Choi map in $M_3$ beyond circulant scenario ( http://arxiv.org/abs/2212.03807v1 )

ライセンス: Link先を確認
Anindita Bera, Giovanni Scala, Gniewomir Sarbicki, and Dariusz Chru\'sci\'nski(参考訳) 30年前に Cho et al. (Linear Algebra Appl) によって提案された M_3$ の線型正写像の族を一般化する。 記号 choi の非可逆写像の一般化として、${\bf 171}$, 213 (1992) が与えられた。 分解性に必要な十分な条件が提供される。

We present a generalization of the family of linear positive maps in $M_3$ proposed thirty years ago by Cho et al. (Linear Algebra Appl. ${\bf 171}$, 213 (1992)) as a generalization of the seminal Choi non-decomposable map. The necessary and sufficient conditions for decomposability are provided.
翻訳日:2023-01-09 18:41:04 公開日:2022-12-07
# トランスモン量子ビットの直接励起による隠蔽光子暗黒物質の検出

Detection of hidden photon dark matter using the direct excitation of transmon qubits ( http://arxiv.org/abs/2212.03884v1 )

ライセンス: Link先を確認
Shion Chen, Hajime Fukuda, Toshiaki Inada, Takeo Moroi, Tatsumi Nitta, Thanaporn Sichanugrist(参考訳) 超伝導量子ビットの励起を利用した新しいダークマター検出法を提案する。 O(10)\ \mu{\rm eV}$の質量の隠れた光子暗黒物質を仮定すると、古典的な波動マター振動は通常の光子との小さな運動的混合を通して有効な交流電場を誘導する。 これは量子ビットが共振しているときにコヒーレントな駆動場となり、基底状態から最初の励起状態へと発展する。 本研究は,光子暗黒物質の探索感度とともに,その進化速度と観測可能な励起率を評価した。 選択された質量に対して、1つの標準トランスモンキュービットで$\epsilon \sim 10^{-12}-10^{-14}$(ここで$\epsilon$は隠れた光子の運動混合パラメータ)に達することができる。 周波数調整可能なSQUIDベースのトランスモンの単純な拡張により、マススキャンは4-40\ \mu{\rm eV}$(1-10$ GHz)の範囲を適切な実行時間内にカバーできる。 量子ビット数に沿った感度のスケーラビリティは、超伝導量子コンピュータ技術の急速な進化にともなって、有望なプラットフォームとなる。

We propose a novel dark matter detection method utilizing the excitation of superconducting transmon qubits. Assuming the hidden photon dark matter of a mass of $O(10)\ \mu{\rm eV}$, the classical wave-matter oscillation induces an effective ac electric field via the small kinetic mixing with the ordinary photon. This serves as a coherent drive field for a qubit when it is resonant, evolving it from the ground state towards the first-excited state. We evaluate the rate of such evolution and observable excitations in the measurements, as well as the search sensitivity to the hidden photon dark matter. For a selected mass, one can reach $\epsilon \sim 10^{-12}-10^{-14}$ (where $\epsilon$ is the kinetic mixing parameter of the hidden photon) with a single standard transmon qubit. A simple extension to the frequency-tunable SQUID-based transmon enables the mass scan to cover the whole $4-40\ \mu{\rm eV}$ ($1-10$ GHz) range within a reasonable length of run time. The sensitivity scalability along the number of the qubits also makes it a promising platform in accord to the rapid evolution of the superconducting quantum computer technology.
翻訳日:2023-01-09 18:41:00 公開日:2022-12-07
# 原子再構成問題を解決する効率的なアルゴリズム。 私は... retribution-reconfiguration (red-rec) アルゴリズム

Efficient algorithms to solve atom reconfiguration problems. I. The redistribution-reconfiguration (red-rec) algorithm ( http://arxiv.org/abs/2212.03885v1 )

ライセンス: Link先を確認
Barry Cimring, Remy El Sabeh, Marc Bacvanski, Stephanie Maaz, Izzat El Hajj, Naomi Nishimura, Amer E. Mouawad and Alexandre Cooper(参考訳) 格子ジオメトリを持つ光学トラップの2次元配列に原子のコンパクトな配置を組み立てるための制御プロトコルを効率的に計算する再分配再構成〜(red-rec)アルゴリズムを提案する。 レッドレックアルゴリズムは、ドナー・レシーバー列のペア間で原子を再分割し、正確な変位最小化アルゴリズムを用いて各カラムを再設定し、複数のトラップを同時に動作させて実行時間を短縮する並列制御操作を利用する。 実際の物理パラメータと操作上の制約を用いて,損失の有無と損失の有無の両方において,red-recアルゴリズムの性能を数値的に定量化する。 グリッド上の原子のコンパクト中心構成を作成するのに必要なトラップ数を,所望の原子数の3/2のパワーとして半スケールの平均成功確率で表し,数万の原子の構成を組み立てることの難しさを浮き彫りにした。 さらに, しきい値よりも少ない原子を含む原子の構成を拒絶することで, 高速に合成できることを示す。 Red-recアルゴリズムは、リアルタイム制御システムに容易に展開できる効率的な実装を認め、高い平均成功確率と高速な準備時間を持つ原子の大規模な構成を組み立てる。

We propose the redistribution-reconfiguration~(red-rec) algorithm to efficiently compute control protocols to assemble compact-centered configurations of atoms in two-dimensional arrays of optical traps with lattice geometries. The red-rec algorithm redistributes atoms among pairs of donor-receiver columns and reconfigures each column using an exact displacement-minimizing algorithm, harnessing parallel control operations that simultaneously actuate multiple traps to reduce the execution time. We numerically quantify the performance of the red-rec algorithm, both in the absence and in the presence of loss, using realistic physical parameters and operational constraints. We show that the number of traps required to prepare a compact-centered configuration of atoms on a grid with a mean success probability of one half scales as the 3/2 power of the number of desired atoms, highlighting the challenges of assembling configurations of tens of thousands of atoms. We further demonstrate that faster preparation times can be achieved by rejecting configurations of atoms containing fewer atoms than a given threshold. The red-rec algorithm admits an efficient implementation that can readily be deployed on real-time control systems to assemble large configurations of atoms with high mean success probability and fast preparation times.
翻訳日:2023-01-09 18:40:38 公開日:2022-12-07
# 二次元原子格子におけるフォトニックトポロジカルアンダーソン絶縁体

Photonic topological Anderson insulator in a two-dimensional atomic lattice ( http://arxiv.org/abs/2212.05046v1 )

ライセンス: Link先を確認
Sergey E. Skipetrov and Pierre Wulles(参考訳) 原子位置の異常は位相的に非自明な位相位相トポロジーのアンダーソン絶縁体(tai)を誘導し、不動原子の2次元ハニカム格子の逆電気光学的準モードを誘導する。 TAIは時間反転対称性と反転対称性の両方を同様の程度に分解する必要がある。 非ゼロトポロジカル不変量、状態密度の減少、バルク内の空間局在化擬似デバイス、および伝播エッジ状態によって特徴づけられる。 TAI からトポロジカル絶縁体 (TI) 相への遷移は、トポロジカル不変量の一定値で起こり、TAI と TI は同じトポロジカル位相を表すことを示す。 原子格子中の光のトポロジーと障害の間の相互作用は、縦方向の光学場によるアンダーソンの局在の抑制によって強く影響され、電子系の対応する相互作用と異なり、別の詳細な研究が求められている。

Disorder in atomic positions can induce a topologically nontrivial phase - topological Anderson insulator (TAI) - for transverse electric optical quasimodes of a two-dimensional honeycomb lattice of immobile atoms. TAI requires both time-reversal and inversion symmetries to be broken to similar extents. It is characterized by a nonzero topological invariant, a reduced density of states and spatially localized quasimodes in the bulk, as well as propagating edge states. A transition from TAI to the topological insulator (TI) phase can take place at a constant value of the topological invariant, showing that TAI and TI represent the same topological phase. The interplay between topology and disorder for light in the considered atomic lattice is strongly affected by the suppression of Anderson localization due to longitudinal optical fields, which makes it different from the corresponding interplay in electronic systems and calls for a separate detailed study.
翻訳日:2023-01-09 18:23:31 公開日:2022-12-07
# トランスモン量子コンピュータの準周期パターンの摂動解析:多体局在の強化

Perturbative Analysis of Quasi-periodic Patterning of Transmon Quantum Computers: Enhancement of Many-Body Localization ( http://arxiv.org/abs/2212.03805v1 )

ライセンス: Link先を確認
Evangelos Varvelis and David P. DiVincenzo(参考訳) 近年、トランスモン量子ビットアーキテクチャは多体局所化と量子カオス相間の遷移を経験することが示されている。 量子計算では、システムが局所化された領域に残っていることが重要であるが、これを達成する最も一般的な方法はジョセフソンジャンクションパラメータの障害に依存する。 本稿では,パラメータの準周期パターン化を無作為性障害の代用として提案する。 本稿では,walsh-hadamard診断法を用いて,準周期性が局在化に有効であることを示す。 大規模で実験的に関連するシステムサイズに対する新しいハミルトニアンの局所化特性を調べるために、計算コストが対応する非相互作用系としか変わらない多体摂動理論を考案する。

Recently it has been shown that transmon qubit architectures experience a transition between a many-body localized and a quantum chaotic phase. While it is crucial for quantum computation that the system remains in the localized regime, the most common way to achieve this has relied on disorder in Josephson junction parameters. Here we propose a quasi-periodic patterning of parameters as a substitute for random disorder. We demonstrate, using the Walsh-Hadamard diagnostic, that quasiperiodicity is more effective at achieving localization. In order to study the localizing properties of our new Hamiltonian for large, experimentally relevant system sizes, we develop a many-body perturbation theory whose computational cost scales only like that of the corresponding non-interacting system.
翻訳日:2023-01-09 18:08:45 公開日:2022-12-07
# コヒーレントメソスコピック輸送における絡み合いと熱-運動的不確かさの関係

Entanglement and thermo-kinetic uncertainty relations in coherent mesoscopic transport ( http://arxiv.org/abs/2212.03835v1 )

ライセンス: Link先を確認
Kacper Prech, Philip Johansson, Elias Nyholm, Gabriel T. Landi, Claudio Verdozzi, Peter Samuelsson and Patrick P. Potts(参考訳) 量子力学と古典力学の違いの深い理解は、新興テクノロジーに大きな可能性を約束する。 それでも、特にオープン量子システムにおける量子コヒーレンスの役割に関して、いくつかの側面はよく分かっていない。 一方、一貫性は絡み合いや非局所性につながる。 他方では、変動が抑制され、古典的なプロセスに有効な熱力学の不確実性関係(TUR/KUR)に違反する可能性がある。 これらはコヒーレンスの2つの異なる表現を表し、1つは系の状態(静的)のみに依存し、2つの時間相関関数(力学)に依存する。 ここでは,このようなコヒーレンス表現を用いて,メソスコピック量子輸送が,確率的跳躍に基づく古典的モデルによって捉えることができるかを決定する。 この目的のために、2つの熱貯水池に結合した二重量子ドットの最小モデルに焦点を当てる。 このシステムでは、量子トンネルはラビ振動を誘発し、絡み合いと非局所性、TUR/KUR違反をもたらす。 これらの効果は、古典的記述の崩壊を記述するもので、コヒーレンスのピークを伴う。 本結果は,非古典的動作を示す非平衡デバイスの設計の指針となる。

A deeper understanding of the differences between quantum and classical dynamics promises great potential for emerging technologies. Nevertheless, some aspects remain poorly understood, particularly concerning the role of quantum coherence in open quantum systems. On the one hand, coherence leads to entanglement and even nonlocality. On the other, it may lead to a suppression of fluctuations, causing violations of thermo-kinetic uncertainty relations (TUR/KUR) that are valid for classical processes. These represent two different manifestations of coherence, one depending only on the state of the system (static) and one depending on two-time correlation functions (dynamical). Here we employ these manifestations of coherence to determine when mesoscopic quantum transport can be captured by a classical model based on stochastic jumps, and when such a model breaks down implying nonclassical behavior. To this end, we focus on a minimal model of a double quantum dot coupled to two thermal reservoirs. In this system, quantum tunneling induces Rabi oscillations and results in both entanglement and nonlocality, as well as TUR/KUR violations. These effects, which describe the breakdown of a classical description, are accompanied by a peak in coherence. Our results provide guiding principles for the design of out-of-equilibrium devices that exhibit nonclassical behavior.
翻訳日:2023-01-09 18:08:33 公開日:2022-12-07
# ハードウェア効率の良いニューラルネットワークによるビット読み出し

Hardware Efficient Neural Network Assisted Qubit Readout ( http://arxiv.org/abs/2212.03895v1 )

ライセンス: Link先を確認
Satvik Maurya, Chaithanya Naik Mude, William D. Oliver, Benjamin Lienhard, Swamit Tannu(参考訳) 量子ビットを読むことは量子コンピューティングの基本的な操作である。 量子情報を古典情報に変換し、その後の分類により、クォービット状態 `0' または `1' を割り当てる。 残念ながら、qubit readoutは超伝導量子プロセッサ上で最もエラーが発生しやすい、最も遅い操作の1つです。 最先端の超伝導量子プロセッサでは、読み出し誤差は1~10%である。 読み出しの誤りを起こしやすい性質は、より優れた識別器を設計し、より高いクビット読み出し精度を実現するための重要な研究結果となった。 読み出し精度は、ノイズ中間スケール量子(NISQ)アプリケーションのベンチマーク忠実度や、表面コードなどのエラー訂正コードにおける論理誤差率に影響を及ぼす。 以前の研究では、機械学習によるシングルショット量子ビット状態分類を使用しており、ディープニューラルネットワークはクロストークエラーの補償によって、より堅牢な識別に使用された。 しかし、特に高速なハードウェア識別が必要な場合、ニューラルネットワークサイズはシステムのスケーラビリティを制限することができる。 この最先端のベースライン設計は、ほとんどのシステムで超伝導量子ビットの制御と読み出しに使用される既製のfpgaでは実装できないため、ソフトウェアで識別を行う必要があるため、全体の読み出しレイテンシが増加する。 本研究では,マッチングフィルタと,量子状態判別のための拡張性のあるニューラルネットワークを組み合わせることで,量子状態推論を改善するスケーラブルなアプローチであるHERQULESを提案する。 我々は,既製のFPGA上で容易に実装可能なスケーラブルな設計により,ベースラインよりもはるかに高い読み出し精度(16.4%の改善)を実現している。 また、HERQULESはより汎用性が高く、トレーニングのオーバーヘッドを伴わずにベースライン設計よりも短い読み出し時間をサポートできることを示す。

Reading a qubit is a fundamental operation in quantum computing. It translates quantum information into classical information enabling subsequent classification to assign the qubit states `0' or `1'. Unfortunately, qubit readout is one of the most error-prone and slowest operations on a superconducting quantum processor. On state-of-the-art superconducting quantum processors, readout errors can range from 1-10%. The error-prone nature of readout has resulted in significant research to design better discriminators to achieve higher qubit-readout accuracies. The readout accuracy impacts the benchmark fidelity for Noisy Intermediate Scale Quantum (NISQ) applications or the logical error rate in error-correcting codes such as the surface code. Prior works have used machine-learning-assisted single-shot qubit-state classification, where a deep neural network was used for more robust discrimination by compensating for crosstalk errors. However, the neural network size can limit the scalability of systems, especially if fast hardware discrimination is required. This state-of-the-art baseline design cannot be implemented on off-the-shelf FPGAs used for the control and readout of superconducting qubits in most systems, which increases the overall readout latency, since discrimination has to be performed in software. In this work, we propose HERQULES, a scalable approach to improve qubit-state inference by using matched filters in conjunction with a significantly smaller and scalable neural network for qubit-state discrimination. We achieve substantially higher readout accuracies (16.4% relative improvement) than the baseline with a scalable design that can be readily implemented on off-the-shelf FPGAs. We also show that HERQULES is more versatile and can support shorter readout durations than the baseline design without additional training overheads.
翻訳日:2023-01-09 18:07:58 公開日:2022-12-07
# COMPAQT:スケーラブルな量子ビット制御のための圧縮波形記憶アーキテクチャ

COMPAQT: Compressed Waveform Memory Architecture for Scalable Qubit Control ( http://arxiv.org/abs/2212.03897v1 )

ライセンス: Link先を確認
Satvik Maurya, Swamit Tannu(参考訳) 超伝導アーキテクチャでは、クビットの状態はマイクロ波パルスを用いて操作される。 通常、パルスは波形メモリに格納され、デジタル-アナログ変換器(dac)にストリームされてゲート操作を合成する。 波形メモリはキュービットを操作するのに毎秒数十ギガバイトの帯域を必要とする。 残念ながら、必要なメモリ帯域幅はキュービット数で線形に増加する。 その結果、帯域幅の需要は、同時に制御できるキュービットの数を制限する。 例えば、現在のrfsocsベースのqubitコントロールプラットフォームでは、40qubit未満のコントロールが可能です。 さらに、タイトな電力予算内で動作するように設計された極低温asicコントローラの高メモリ帯域幅は、大きな電力散逸につながり、スケーラビリティが制限される。 本稿では,波形が高圧縮性であることを示し,この特性を利用して,スケーラブルで効率的なマイクロアーキテクチャComputQT - Compressed Waveform Memory Architecture for Qubit Controlを実現する。 波形メモリは読み取り専用であり、compaqtはこれを活用してコンパイル時に波形を圧縮し、圧縮波形をオンチップメモリに格納する。 パルスを生成するために、CompAQTは実行時に波形を圧縮し、圧縮された波形をDACにストリームする。 ハードウェア効率のよい離散コサイン変換を用いることで、平均して波形メモリ帯域幅が5倍に増加し、RFSoC設定で制御される量子ビットの総数を5倍にすることができる。 さらに、低温CMOS ASICコントローラ用のCompaQTマイクロアーキテクチャは、圧縮されていないベースラインに対して2.5倍の電力削減をもたらす。 また,圧縮エンジンが消費する電力を最大4倍に削減する適応圧縮方式を提案する。 圧縮スキームの損失にもかかわらず, CompAQT を用いた場合, 忠実度は 0.1% 未満に低下する。

On superconducting architectures, the state of a qubit is manipulated by using microwave pulses. Typically, the pulses are stored in the waveform memory and then streamed to the Digital-to-Analog Converter (DAC) to synthesize the gate operations. The waveform memory requires tens of gigabytes per second of bandwidth to manipulate the qubit. Unfortunately, the required memory bandwidth grows linearly with the number of qubits. As a result, the bandwidth demand limits the number of qubits we can control concurrently. For example, on current RFSoCs-based qubit control platforms, we can control less than 40 qubits. In addition, the high memory bandwidth for cryogenic ASIC controllers designed to operate within a tight power budget translates to significant power dissipation, thus limiting scalability. In this paper, we show that waveforms are highly compressible, and we leverage this property to enable a scalable and efficient microarchitecture COMPAQT - Compressed Waveform Memory Architecture for Qubit Control. Waveform memory is read-only and COMPAQT leverages this to compress waveforms at compile time and store the compressed waveform in the on-chip memory. To generate the pulse, COMPAQT decompresses the waveform at runtime and then streams the decompressed waveform to the DACs. Using the hardware-efficient discrete cosine transform, COMPAQT can achieve, on average, 5x increase in the waveform memory bandwidth, which can enable 5x increase in the total number of qubits controlled in an RFSoC setup. Moreover, COMPAQT microarchitecture for cryogenic CMOS ASIC controllers can result in a 2.5x power reduction over uncompressed baseline. We also propose an adaptive compression scheme to further reduce the power consumed by the decompression engine, enabling up to 4x power reduction. We see less than 0.1% degradation in fidelity when using COMPAQT despite using a lossy compression scheme.
翻訳日:2023-01-09 18:07:26 公開日:2022-12-07
# 長距離異方性ハイゼンベルク模型におけるマグノン境界状態の観測

Observation of magnon bound states in the long-range, anisotropic Heisenberg model ( http://arxiv.org/abs/2212.03899v1 )

ライセンス: Link先を確認
Florian Kranzl, Stefan Birnkammer, Manoj K. Joshi, Alvise Bastianello, Rainer Blatt, Michael Knap, Christian F. Roos(参考訳) 近年、コヒーレントな時間周期変調は、新しいハミルトニアンを実現するための汎用的なツールとして確立されている。 Floquet Engineeringと呼ばれるこのアプローチを用いることで、捕捉されたイオン量子シミュレータにおいて、チューニング可能な相互作用を持つ長距離異方性ハイゼンベルクモデルが実験的に実現される。 モデルのスペクトルは、単一のマグノン励起だけでなく、複合マグノン境界状態も含むことを示した。 実験的に実現されたパワーロー指数との長距離相互作用では、マグノンの群速度は非有界である。 それでも、十分に強い相互作用に対して、非発散群速度を持つこれらの非伝統的なマグノンの有界状態を観測する。 2つの不連続区間間の構成的相互情報を測定することにより、系の絡み合いダイナミクスに対する境界状態形成の影響を示す。 我々の観測は、量子多体系の非平衡ダイナミクスにおける複合励起の特異な役割に関する重要な洞察を与える。

Over the recent years coherent, time-periodic modulation has been established as a versatile tool for realizing novel Hamiltonians. Using this approach, known as Floquet engineering, we experimentally realize a long-ranged, anisotropic Heisenberg model with tunable interactions in a trapped ion quantum simulator. We demonstrate that the spectrum of the model contains not only single magnon excitations but also composite magnon bound states. For the long-range interactions with the experimentally realized power-law exponent, the group velocity of magnons is unbounded. Nonetheless, for sufficiently strong interactions we observe bound states of these unconventional magnons which possess a non-diverging group velocity. By measuring the configurational mutual information between two disjoint intervals, we demonstrate the implications of the bound state formation on the entanglement dynamics of the system. Our observations provide key insights into the peculiar role of composite excitations in the non-equilibrium dynamics of quantum many-body systems.
翻訳日:2023-01-09 18:06:58 公開日:2022-12-07
# 無限次元作用素の固有値とシンプレクティック固有値の間のインターレース関係

An Interlacing Relation between Eigenvalues and Symplectic Eigenvalues of Some Infinite Dimensional Operators ( http://arxiv.org/abs/2212.03900v1 )

ライセンス: Link先を確認
Tiju Cherian John, V. B. Kiran Kumar, and Anmary Tonny(参考訳) 2n\times 2n$ real positive matrices に対するウィリアムソンの正規形式は、正規行列のスペクトル定理のシンプレクティックな類似物である。 With the recent developments in quantum information theory, Williamson's normal form has opened up an active research area that may be dubbed as ``finite dimensional symplectic spectral theory" analogous to the usual spectral theory and matrix analysis. An infinite dimensional analogue of the Williamson's Normal form has appeared recently and has already become a corner stone for the theory of infinite mode quantum Gaussian states. In this article, we obtain some results in the direction of ``infinite dimensional symplectic spectral theory". 可算スペクトルを持つ無限次元作用素の特殊クラスの固有値とシンプレクティック固有値のインターレース関係を証明した。 このクラスの任意の演算子$S$に対して、$j \in \mathbb{N}$, $d_j^\downarrow(S) \leq \lambda_j^\downarrow(S)$と$\lambda_j^\uparrow(S)$に対して、$d_j(S)$と$ \lambda_{j}(S)$は、それぞれ$S$のシンプレクティック固有値と固有値である。 これは Bhatia と Jain (J) によって得られる有限次元の結果を一般化する。 数学 Phys 56, 112201 (2015)). ガウス共分散作用素(GCO)のクラスと正の絶対ノルムの演算子($(\mathcal{AN})_+$演算子)は、我々が考慮するクラスの特別な場合として現れる。 さらに,いくつかの具体例での結果を示し,積分作用素が gco または $(\mathcal{an})_+$ 作用素となるために必要な条件を導出する。 この理論と積分作用素の理論を結びつける興味深い疑問が開問題として残されている。

Williamson's Normal form for $2n\times 2n$ real positive matrices is a symplectic analogue of the spectral theorem for normal matrices. With the recent developments in quantum information theory, Williamson's normal form has opened up an active research area that may be dubbed as ``finite dimensional symplectic spectral theory" analogous to the usual spectral theory and matrix analysis. An infinite dimensional analogue of the Williamson's Normal form has appeared recently and has already become a corner stone for the theory of infinite mode quantum Gaussian states. In this article, we obtain some results in the direction of ``infinite dimensional symplectic spectral theory". We prove an interlacing relation between the eigenvalues and symplectic eigenvalues of a special class of infinite-dimensional operators with countable spectrum. We show that for any operator $S$ in this class and for $j \in \mathbb{N}$, $d_j^\downarrow(S) \leq \lambda_j^\downarrow(S),$ and $\lambda_j^\uparrow(S) \leq d_j^\uparrow(S)$, where $d_j(S)$ and $ \lambda_{j}(S)$ are the symplectic eigenvalues and eigenvalues of $S$, respectively (arranged in decreasing order they will be denoted by $d_j^\downarrow(S), \lambda_j^\downarrow(S)$ and in increasing order by $d_j^\uparrow(S), \lambda_j^\uparrow(S)$). This generalizes a finite dimensional result obtained by Bhatia and Jain (J. Math. Phys. 56, 112201 (2015)). The class of Gaussian Covariance Operators (GCO) and positive Absolutely Norm attaining Operators ($(\mathcal{AN})_+$ operators) appear as special cases of the class we consider. Furthermore, we illustrate our result on some concrete cases and derive necessary conditions for an integral operator to be a GCO or an $(\mathcal{AN})_+$ operator. An interesting question connecting this theory and the theory of integral operators is left as an open question.
翻訳日:2023-01-09 18:06:45 公開日:2022-12-07
# 非凸関数の定常点を求めるための量子下界

Quantum Lower Bounds for Finding Stationary Points of Nonconvex Functions ( http://arxiv.org/abs/2212.03906v1 )

ライセンス: Link先を確認
Chenyi Zhang, Tongyang Li(参考訳) 最適化問題に対する量子アルゴリズムは一般に興味深い。 異なる設定下での非凸最適化の古典的下界と凸最適化の量子的下界の最近の進歩にもかかわらず、非凸最適化の量子的下界は依然として広く開放されている。 本稿では,非凸関数の定常点である $\epsilon$-approximate を求める量子問合せ下限を体系的に研究し,次の2つの重要な設定を考察する。 1) $p$-th order デリバティブへのアクセスを有すること,又は 2)確率勾配へのアクセス。 古典的なクエリの下界は、第一設定に関して$\Omega\big(\epsilon^{-\frac{1+p}{p}}\big)$、第二設定に関して$\Omega(\epsilon^{-4})$である(あるいは、確率勾配関数が平均二乗滑らかであれば$\Omega(\epsilon^{-3})$)。 本稿では、これらの古典的な下界を量子設定に拡張する。 彼らはそれぞれ古典的なアルゴリズムの結果と一致し、平均二乗滑らか性仮定の有無にかかわらず、$p$-階微分入力または確率勾配入力を持つ非凸関数の$\epsilon$-stationary点を求める量子スピードアップがないことを示した。 技術的には、これらのすべての設定における古典的ハードインスタンスのシーケンシャルな性質が量子クエリにも適用されることを示し、定常点の情報の逐次的な開示以外の量子スピードアップを防止している。

Quantum algorithms for optimization problems are of general interest. Despite recent progress in classical lower bounds for nonconvex optimization under different settings and quantum lower bounds for convex optimization, quantum lower bounds for nonconvex optimization are still widely open. In this paper, we conduct a systematic study of quantum query lower bounds on finding $\epsilon$-approximate stationary points of nonconvex functions, and we consider the following two important settings: 1) having access to $p$-th order derivatives; or 2) having access to stochastic gradients. The classical query lower bounds is $\Omega\big(\epsilon^{-\frac{1+p}{p}}\big)$ regarding the first setting, and $\Omega(\epsilon^{-4})$ regarding the second setting (or $\Omega(\epsilon^{-3})$ if the stochastic gradient function is mean-squared smooth). In this paper, we extend all these classical lower bounds to the quantum setting. They match the classical algorithmic results respectively, demonstrating that there is no quantum speedup for finding $\epsilon$-stationary points of nonconvex functions with $p$-th order derivative inputs or stochastic gradient inputs, whether with or without the mean-squared smoothness assumption. Technically, our quantum lower bounds are obtained by showing that the sequential nature of classical hard instances in all these settings also applies to quantum queries, preventing any quantum speedup other than revealing information of the stationary points sequentially.
翻訳日:2023-01-09 18:06:00 公開日:2022-12-07
# 急速駆動システムにおける散逸と作業変動の最適制御

Optimal control of dissipation and work fluctuations for rapidly driven systems ( http://arxiv.org/abs/2212.03927v1 )

ライセンス: Link先を確認
Alberto Rolandi, Mart\'i Perarnau-Llobet, Harry J. D. Miller(参考訳) 顕微鏡システムの効率的で信頼性の高い制御を実現するためには、平均散逸と確率的変動を緩和する駆動プロトコルを検討する必要がある。 これは、システムが平衡から遠く離れており、望ましくないエントロピー生産を大量に生み出すような高速運転システムにおいて特に重要である。 ここでは、これらの最適プロトコルを高速に駆動された古典的および量子的システムで特徴づけ、制御変数の完全な集合における2つの不連続なジャンプからなることを証明する。 これらのジャンプは、最小の散逸または最小の揺らぎでプロセス間を補間するように調整することができ、状況によっては同時に最小化できる。 本稿では, 急速閉量子系, 古典的ビット消去, 量子相転移に近い散逸性イジング鎖による一般結果について述べる。

To achieve efficient and reliable control of microscopic systems one should look for driving protocols that mitigate both the average dissipation and stochastic fluctuations in work. This is especially important in fast driving regimes in which the system is driven far out of equilibrium, potentially creating large amounts of unwanted entropy production. Here we characterise these optimal protocols in rapidly driven classical and quantum systems and prove that they consist of two discontinuous jumps in the full set of control variables. These jumps can be tuned to interpolate between processes with either minimal dissipation or minimal fluctuations, and in some situations allow for simultaneous minimisation. We illustrate our general results with rapidly driven closed quantum systems, classical bit erasure and a dissipative Ising chain driven close to a quantum phase transition.
翻訳日:2023-01-09 18:05:27 公開日:2022-12-07
# 群コセット単元ゲームとデバイス非依存連続変数qkdへの応用

Group coset monogamy games and an application to device-independent continuous-variable QKD ( http://arxiv.org/abs/2212.03935v1 )

ライセンス: Link先を確認
Eric Culf, Thomas Vidick, and Victor V. Albert(参考訳) 我々は、最近導入された部分空間コセット状態のモノガミー・オブ・エンタングルメントゲーム(Coladangelo, Liu, Liu, and Zhandry; Crypto'21]を、量子ワンタイムパッドの群論的一般化を適用した部分群の要素上の一様重ね合わせである一般群コセット状態に拡張する。 我々は、有限群と無限群の広い範囲に適用できる部分群共集合状態から構成される一夫一婦ゲームの勝利確率の一般束を与える。 無限群の場合を研究するために、確率測度の演算子値の一般化として連続変数の測定を表現できる測度理論の形式論を更に発展させる。 本研究は,多原子分子の回転状態だけでなく連続可変モードでもゲームの実現をもたらす,様々な物理的関連グループにモノガミーゲームを適用する。 特定の群空間と部分群の組み合わせの場合、明示的な強境界を得る。 アプリケーションとして、汎用コヒーレント攻撃に対する一側デバイス独立セキュリティの証明として、圧縮状態の連続可変量子鍵分配プロトコルを初めて提供する。

We develop an extension of a recently introduced subspace coset state monogamy-of-entanglement game [Coladangelo, Liu, Liu, and Zhandry; Crypto'21] to general group coset states, which are uniform superpositions over elements of a subgroup to which has been applied a group-theoretic generalization of the quantum one-time pad. We give a general bound on the winning probability of a monogamy game constructed from subgroup coset states that applies to a wide range of finite and infinite groups. To study the infinite-group case, we use and further develop a measure-theoretic formalism that allows us to express continuous-variable measurements as operator-valued generalizations of probability measures. We apply the monogamy game bound to various physically relevant groups, yielding realizations of the game in continuous-variable modes as well as in rotational states of a polyatomic molecule. We obtain explicit strong bounds in the case of specific group-space and subgroup combinations. As an application, we provide the first proof of one sided-device independent security of a squeezed-state continuous-variable quantum key distribution protocol against general coherent attacks.
翻訳日:2023-01-09 18:05:13 公開日:2022-12-07
# 電気アハロノフ-ボーム効果による量子系のエネルギー準位シフト

Energy level shift of quantum systems via the electric Aharonov-Bohm effect ( http://arxiv.org/abs/2212.03437v1 )

ライセンス: Link先を確認
RY Chiao, H Hart, NA Inan, M Scheibner, J Sharping, DA Singleton, ME Tobar(参考訳) スカラー/電気アハロノフ-ボーム効果のループホールフリーバージョンは、アハロノフ-ボーム相を拾う量子系がファラデーケージに閉じ込められ、時間的に変化する空間的に均一なスカラーポテンシャルを持つ。 この領域の電場と磁場は、実験の全期間において事実上ゼロである。 このスカラー Aharonov-Bohmn 効果の観測可能な結果は、2スリット干渉パターンの縁をシフトするのではなく、量子系のエネルギーレベルをシフトさせることである。 本稿では,このスカラーAB効果とACスターク効果との間に強い数学的関係を示す。

A loop-hole free version of the scalar/electric Aharonov-Bohm effect is proposed where the quantum system which picks up the Aharonov-Bohm phase is confined to a Faraday cage with a time varying, spatially uniform scalar potential. The electric and magnetic fields in this region are effectively zero for the entire period of the experiment. The observable consequence of this version of the scalar Aharonov-Bohmn effect is to shift the energy levels of the quantum system rather than shift the fringes of the 2-slit interference pattern. We show a strong mathematical connection between this version of the scalar AB effect and the AC Stark effect.
翻訳日:2023-01-09 17:58:05 公開日:2022-12-07
# 単一および絡み合った量子ビットの幾何学的可視化

Geometric Visualizations of Single and Entangled Qubits ( http://arxiv.org/abs/2212.03448v1 )

ライセンス: Link先を確認
Li-Heng Henry Chang, Shea Roccaforte, Rose Xu, and Paul Cadden-Zimansky(参考訳) 単一量子ビットの可能な状態のBloch Sphere視覚化は、3次元空間内の点とキュービット状態の間の1対1の写像として有用な教育的、概念的なツールであることが証明された。 しかし、エンタングルメントのような量子力学の多くの重要な概念を理解するには、少なくとも2つの量子ビットを持つ状態についての直観的な記述を開発する必要がある。 本稿では,これらの状態の性質を定量的に定性的に符号化する1-および2-キュービット系の部分空間マップを作成することにより,この可視化問題を回避した。 特に、2-キュービット状態のトロイダル写像は状態空間の非自明な位相を照らし、距離と角度、 2-キュービット状態の絡み合いのレベルとその構成クォービットの混合状態特性を同時に読み取ることができる。 状態とその進化を数学的形式論をほとんど必要とせず符号化することで、これらの写像は量子力学と量子情報の基本概念を入門レベルで理解するのに特に有用であることが証明できる。 この論文で紹介された可視化のインタラクティブバージョンは、https://quantum.bard.edu/で利用可能である。

The Bloch Sphere visualization of the possible states of a single qubit has proved a useful pedagogical and conceptual tool as a one-to-one map between qubit states and points in a 3-D space. However, understanding many important concepts of quantum mechanics, such as entanglement, requires developing intuitions about states with a minimum of two qubits, which map one-to-one to unvisualizable spaces of 6 dimensions and higher. In this paper we circumvent this visualization issue by creating maps of subspaces of 1- and 2-qubit systems that quantitatively and qualitatively encode properties of these states in their geometries. In particular, a toroidal map of 2-qubit states illuminates the non-trivial topology of the state space while allowing one to simultaneously read off, in distances and angles, the level of entanglement in the 2-qubit state and the mixed state properties of its constituent qubits. By encoding states and their evolutions with little to no need of mathematical formalism, these maps may prove particularly useful for understanding fundamental concepts of quantum mechanics and quantum information at the introductory level. Interactive versions of the visualizations introduced in this paper are available at https://quantum.bard.edu/.
翻訳日:2023-01-09 17:57:53 公開日:2022-12-07
# Bi単結晶のフレジル電子超伝導

Fragile electronic superconductivity in Bi Single crystal ( http://arxiv.org/abs/2212.03543v1 )

ライセンス: Link先を確認
Anil Kumar, Rajendra Loke, Arindam Pramanik, Rajdeep Sensarma, Sitaram Ramakrishnan, Om Prakash, Biplab Bag, Arumugam Thamizhavel and Srinivasan Ramakrishnan(参考訳) 半金属ビスマス(Bi)は、非常に低いキャリア密度(\approx 3\times10^{17}$cm$^{-3}$)のため、超低温($10 mK)でも超伝導(SC)を示さないと推定された。 近年、超純度(99.999999\%)bi単結晶のバルク超伝導は、[$0001$](三角)-結晶方向に沿って測定された外挿上臨界場$\mathrm{h_c(0) = 5.2\mu}$t で $\mathrm{t_c = 0.53}$ mk で確立されている。 電荷キャリアの非常に低い濃度では、推定された大きなコヒーレンス長$\mathrm {\xi_{GL}(0)\approx 96 \mu}$mの脆弱なクーパー対を扱う。 また,BiのSC状態を理解するためには,従来の電子-フォノン結合機構(BCS様)を超える必要があるとも述べた。 Biは電荷担体として電子と穴を持つ補償半金属である。 scの電荷キャリアを見つけるために,[$01\bar 10$] (bisectrix)-結晶方向に沿った異方性臨界場の温度依存性を報告し,三角方向の観測値からそれ以前のデータと比較した。 臨界場の異方性に関する理論的解析は、Biバンドの3つのポケットの光電子がSCを担っていることを示唆し、Biが非常に弱いII型超伝導体であることを示唆している。 最後に, Bi における SC を説明するために提案されている理論について概説する。

It was presumed that semimetal Bismuth (Bi) would not show superconductivity (SC) even at ultra-low temperatures ($<$10 mK) due to its very low carrier density ($\approx 3\times10^{17}$cm$^{-3}$). Recently, we have established bulk superconductivity in ultra-pure (99.9999\%) Bi single crystal at $\mathrm{T_C = 0.53}$ mK with an extrapolated upper critical field $\mathrm{H_C(0) = 5.2\mu}$T measured along the [$0001$] (trigonal) -crystallographic direction. At very low concentrations of the charge carriers, we are dealing with fragile Cooper pairs with an estimated large coherence length $\mathrm{\xi_{GL}(0)\approx 96 \mu}$m. We also stated that one needs to go beyond the conventional electron-phonon coupling (BCS-like) mechanism to understand the SC state in Bi. Bi is a compensated semi-metal with electrons and holes as charge carriers. In order to find the charge carriers responsible for the SC, we report the temperature dependence of the anisotropic critical field along the [$01\bar 10$] (bisectrix)-crystallographic direction and compared it with the earlier data from measurements along the trigonal. Our theoretical analysis of the anisotropy of critical fields suggests that the light electrons in the three pockets of Bi bands are responsible for the SC and indicates that Bi is an extremely weak type-II (close to type-I) superconductor. Finally, we review the current theories proposed to explain the SC in Bi.
翻訳日:2023-01-09 17:57:32 公開日:2022-12-07
# 高エネルギー渦状態衝突における閾値効果

Threshold effects in high-energy vortex state collisions ( http://arxiv.org/abs/2212.03624v1 )

ライセンス: Link先を確認
Bei Liu, Igor P. Ivanov(参考訳) 調整可能な軌道角運動量(OAM)を持つ渦状態、原子、核、高エネルギー物理学における新しい機会の開き、従来の散乱実験では利用できないような、非平面波状態と非自明な位相構造で生成された粒子の衝突。 近年、高エネルギーの渦光子によって開始される$\gamma d \to pn$や$\gamma p \to \Delta^+$のような光誘起過程は、渦光子軸に対するターゲットハドロンの衝撃パラメータ$b$として顕著な閾値シフトと大きさの断面増強を示すべきであると議論された。 本研究では,ラゲール・ガウシアン粒子とコンパクトガウス波パケットとして調製された2つの光粒子の衝突による重粒子対生成の玩具過程をパラ軸近似で解析し,断面のしきい値挙動に特に注意を払う。 我々は,波状パケットの非単色性による閾値スミアリングを観測するが,ほぼ閾値の増大は確認しない。 代わりに、2つのガウス波パケット衝突と比較すると、OAM関連のディップは$b\to 0$である。

Collisions of particles prepared in non--plane-wave states with a non-trivial phase structure, such as vortex states carrying an adjustable orbital angular momentum (OAM), open novel opportunities in atomic, nuclear, and high-energy physics unavailable for traditional scattering experiments. Recently, it was argued that photoinduced processes such as $\gamma d \to pn$ and $\gamma p \to \Delta^+$ initiated by a high-energy vortex photon should display a remarkable threshold shift and a sizable cross section enhancement as the impact parameter $b$ of the target hadron with respect to the vortex photon axis goes to zero. In this work, we analyze, in the paraxial approximation, the toy process of heavy particle pair production in collision of two light particles prepared as a Laguerre-Gaussian and a compact Gaussian wave packets, paying special attention to the threshold behavior of the cross section. We do observe threshold smearing due to non-monochromaticity of the wave packets, but we do not confirm the near-threshold enhancement. Instead we find an OAM-related dip at $b\to 0$ as compared with the two Gaussian wave packet collision.
翻訳日:2023-01-09 17:57:08 公開日:2022-12-07
# lipkin-meshkov-glickモデルにおけるfotoc複雑性

FOTOC complexity in an extended Lipkin-Meshkov-Glick model ( http://arxiv.org/abs/2212.03682v1 )

ライセンス: Link先を確認
Nitesh Jaiswal, Mamta Gautam, Ankit Gill, Tapobrata Sarkar(参考訳) 拡張Lipkin-Meshkov-Glickモデルを用いて, 時間外相関器(FOTOC)について検討し, 基底状態と励起状態の両方において, 量子相転移における特異な挙動を示すことを示した。 我々は、FOTOCの力学が対称性と破壊対称性の位相において異なる挙動を持つことを示す。 時間とともにfotoc演算子をリスケールすると、少量で、それがloschmidt echoと同一であることが判明する。 また、両相ともFOTOC演算子のニールセン複雑性を計算し、この演算子を地上および励起状態に適用してモデルの準スクランブル状態を得る。 FOTOC演算子は、元の基底と励起状態に小さな摂動を導入する。 この摂動状態に対して、熱力学的極限において摂動において量子情報計量を第一次に計算する。 関連するリッチスカラーは、ゼロ次数の結果とは対照的に、破壊対称性の位相側における相転移において分岐する。 最後に、このモデルにおけるFubini-Studyの複雑さについて述べる。

We study fidelity out-of-time-order correlators (FOTOCs) in an extended Lipkin-Meshkov-Glick model and demonstrate that these exhibit distinctive behaviour at quantum phase transitions in both the ground and the excited states. We show that the dynamics of the FOTOC have different behaviour in the symmetric and broken-symmetry phases, and as one approaches phase transition. If we rescale the FOTOC operator with time, then for small times, we establish that it is identical to the Loschmidt echo. We also compute the Nielsen complexity of the FOTOC operator in both phases, and apply this operator on the ground and excited states to obtain the quasi-scrambled state of the model. The FOTOC operator introduces a small perturbation on the original ground and excited states. For this perturbed state, we compute the quantum information metric to first order in perturbation, in the thermodynamic limit. We find that the associated Ricci scalar diverges at the phase transition on the broken-symmetry phase side, in contrast to the zeroth order result. Finally, we comment upon the Fubini-Study complexity in this model.
翻訳日:2023-01-09 17:56:46 公開日:2022-12-07
# 量子準曲面の非相互全断面

Nonreciprocal total cross section of quantum metasurfaces ( http://arxiv.org/abs/2212.03761v1 )

ライセンス: Link先を確認
Nikita Nefedkin, Michele Cotrufo, Andrea Al\`u(参考訳) 非線形散乱体間の古典的相互作用に由来する非相対性は、量子コミュニティで注目を集め、量子情報処理と量子コンピューティングのための励起伝達を制御する有望なツールを提供している。 本研究では,2段階の原子の2つの並列周期配列によって形成される1対の量子準曲面に対して,ほぼ非相互断面を実現する可能性について検討する。 原子の位置と遷移周波数を制御し、原子が配置される環境が非相互性である必要なしに、そのような非線形システムにおいて大きな非相互応答が得られることを示す。 本研究では,この効果を暗黒状態のゆっくりとした個体群と結びつけ,非相反的な大きな応答を得ることが重要であることを示した。

Nonreciprocity originating from classical interactions among nonlinear scatterers has been attracting increasing attention in the quantum community, offering a promising tool to control excitation transfer for quantum information processing and quantum computing. In this work, we explore the possibility of realizing largely nonreciprocal total cross sections for a pair of quantum metasurfaces formed by two parallel periodic arrays of two-level atoms. We show that large nonreciprocal responses can be obtained in such nonlinear systems by controlling the position of the atoms and their transition frequencies, without requiring that the environment in which the atoms are placed is nonreciprocal. We demonstrate the connection of this effect with the population of a slowly-decaying dark state, which is critical to obtain large nonreciprocal responses.
翻訳日:2023-01-09 17:56:26 公開日:2022-12-07
# Kappa vacua: 2次元量子場理論における新しい真空の無限個数

Kappa vacua: Infinite number of new vacua in two-dimensional quantum field theory ( http://arxiv.org/abs/2212.03781v1 )

ライセンス: Link先を確認
Arash Azizi(参考訳) 我々は、実正のパラメータ $\kappa$ で分類された新しいモードを想定して、2次元量子場理論、単純性のためのクライン・ゴルドン場において無限個の空隙を明らかにする。 それぞれのモードには、例えば$\kappa$-vacuumという異なる真空がある。 この新しいモードはunruh-minkowskiモードの一般化である。 さらにミンコフスキーとリンドラーの vacua はそれぞれ$\kappa$-vacuum for $\kappa = 1$ と $\kappa \rightarrow \infty$ の特別な場合である。

We uncover an infinite number of vacua in two-dimensional quantum field theory, the Klein-Gordon field for simplicity, by conceiving a new mode that is classified by a real positive parameter $\kappa$. We show each mode has a distinct vacuum, say $\kappa$-vacuum. This new mode is a generalization of the Unruh-Minkowski mode. Moreover, the Minkowski and Rindler vacua are special cases of the $\kappa$-vacuum for $\kappa = 1$ and $\kappa \rightarrow \infty$, respectively.
翻訳日:2023-01-09 17:56:15 公開日:2022-12-07
# 最適量子化-ズフォールスジェネレータの変遷

Entwicklung eines schnellen optischen Quanten-Zufallsgenerators ( http://arxiv.org/abs/2212.04945v1 )

ライセンス: Link先を確認
Bastian Hacker(参考訳) 本研究は,真の量子乱数生成器のセットアップ,キャラクタリゼーション,データ処理について報告する。 ランダム性源として、光の純粋量子真空状態を使用し、レーザービームによって増幅される。 システムの性能と動作,および寄生誤差について検討した。 データの最適化された利用はフーリエ変換され、周波数振幅としてさらに処理される。 そのデータの抽出可能なエントロピーを計算し、ハッシュにより非ランダム信号の寄与を除去する。 このシステムは、25 gbit/sの速度で真の一意な乱数を生成できるため、以前の実装を大きく上回っている。

This work reports on setup, characterisation and data processing of a true quantum random number generator. As a randomness source a pure quantum vacuum state of light is used, which is amplified by a laser beam. Performance and behaviour of the system as well as parasitic errors are investigated. For an optimized exploitation of the data they are Fourier-transformed and processed further as frequency amplitudes. The extractable entropy in that data is calculated to allow for elimination of non-random signal contributions by hashing. The system is able to produce true and unique random numbers at a rate of 25 Gbit/s and thus outperforms previous implementations considerably.
翻訳日:2023-01-09 17:31:22 公開日:2022-12-07
# 非ブール関数のためのOracle演算子

Oracle Operators for Non-Boolean Functions ( http://arxiv.org/abs/2212.03933v1 )

ライセンス: Link先を確認
Fatema Elgebali and Wolfgang Scherer(参考訳) 本稿では,ブール立方体上の実数値関数に対する一般オラクル演算子の構成について述べる。 応用として、Shyamsundarの非線形振幅増幅 [arXiv:2102.04975] でそのような演算子を用いて、非断熱アルゴリズムによる二項最適化問題を解く。

We present a construction of a general oracle operator for a real-valued function on the Boolean cube. As an application, we use such operators in Shyamsundar's Non-Boolean Amplitude Amplification [arXiv:2102.04975] to solve binary optimization problems with a non-adiabatic algorithm.
翻訳日:2023-01-09 17:05:01 公開日:2022-12-07
# コヒーレントパウリチェックによる単発誤差軽減

Single-shot error mitigation by coherent Pauli checks ( http://arxiv.org/abs/2212.03937v1 )

ライセンス: Link先を確認
Ewout van den Berg, Sergey Bravyi, Jay M. Gambetta, Petar Jurcevic, Dmitri Maslov, Kristan Temme(参考訳) 量子回路の出力分布からサンプルを生成することは、多くの量子アルゴリズムの構成要素として使われるユビキタスなタスクである。 ここでは、clifford gatesが支配する量子回路の特殊なクラスに対して、完全な誤り訂正を欠いたノイズ量子プロセッサ上でこのタスクを実現する方法を示す。 提案手法はコヒーレント・パウリチェック(CPC)に基づいて,ランダムなパウリ型チェック演算子と検討された回路間の交換規則を検証することでクリフォード回路の誤差を検出する。 主な貢献は以下の通りである。 まず、CPCで保護されたクリフォード回路が論理誤差を含む確率の簡単な式を導出する。 多数のチェックの限界において、論理誤差確率は${\approx}7\epsilon n/5$の値に近づくことが示され、ここでは$n$はキュービット数、$\epsilon$は非分極誤差率である。 我々の公式は数値シミュレーションの結果とほぼ完全に一致する。 第2に、CPCは量子ビット接続に制限のある量子プロセッサに適していることを示す。 例えば、オールツーオールとリニアキュービット接続の違いは、CPCを実装するのに必要なCNOTゲートの数を3倍に増やすだけである。 第3に,単発設定における測定誤差の軽減に適した簡易片側CPCについて述べる。 最後に,最大10個の論理量子ビットと100個以上の論理CNOTゲートを持つCPCの実験実験を行った。 実験の結果、CPCは量子回路の出力分布をサンプリングする検討課題に対して、論理誤差確率を著しく向上させることがわかった。

Generating samples from the output distribution of a quantum circuit is a ubiquitous task used as a building block of many quantum algorithms. Here we show how to accomplish this task on a noisy quantum processor lacking full-blown error correction for a special class of quantum circuits dominated by Clifford gates. Our approach is based on Coherent Pauli Checks (CPCs) that detect errors in a Clifford circuit by verifying commutation rules between random Pauli-type check operators and the considered circuit. Our main contributions are as follows. First, we derive a simple formula for the probability that a Clifford circuit protected by CPCs contains a logical error. In the limit of a large number of checks, the logical error probability is shown to approach the value ${\approx}7\epsilon n/5$, where $n$ is the number of qubits and $\epsilon$ is the depolarizing error rate. Our formula agrees nearly perfectly with the numerical simulation results. Second, we show that CPCs are well-suited for quantum processors with a limited qubit connectivity. For example, the difference between all-to-all and linear qubit connectivity is only a 3X increase in the number of CNOT gates required to implement CPCs. Third, we describe simplified one-sided CPCs which are well-suited for mitigating measurement errors in the single-shot settings. Finally, we report an experimental demonstration of CPCs with up to 10 logical qubits and more than 100 logical CNOT gates. Our experimental results show that CPCs provide a marked improvement in the logical error probability for the considered task of sampling the output distribution of quantum circuits.
翻訳日:2023-01-09 17:04:54 公開日:2022-12-07
# ベクトル補間のための最適量子アルゴリズム

Optimal Quantum Algorithm for Vector Interpolation ( http://arxiv.org/abs/2212.03939v1 )

ライセンス: Link先を確認
Sophie Decoppet(参考訳) 本稿では,Childsらによって設計された多項式補間量子アルゴリズムを用いて学習可能な関数について検討する。 このアルゴリズムは当初、有限体 $\mathbb{f}_q$ で定義される多変数多項式関数の係数を求めることを意図していた。 我々は、その範囲を $\mathcal{O}_{\mathbf{s}}(\mathbf{v}) = \mathbf{s}\cdot\mathbf{v}$ という形のベクトル内積関数に拡張し、そこではベクトル $\mathbf{s} \in \mathbb{F}_q^n$ を求める。 我々は、$\mathcal{v}$ of $\mathcal{o}_{\mathbf{s}}$という領域に必要な条件を調べ、そのような関数に対してアルゴリズムが最適であることを示す。 さらに、大きな$q$ と大きなドメインオーダー $|\mathcal{v}| に対して成功確率が 1 に近づくことを示した。 最後に、私たちはこの成功の確率を達成するのに必要なクエリ数に関する保守的な公式を提供します。

In this paper we study the functions that can be learned through the polynomial interpolation quantum algorithm designed by Childs et al. This algorithm was initially intended to find the coefficients of a multivariate polynomial function defined on finite fields $\mathbb{F}_q$. We extend its scope to vector inner product functions of the form $\mathcal{O}_{\mathbf{s}}(\mathbf{v}) = \mathbf{s}\cdot\mathbf{v}$ where the goal is to find the vector $\mathbf{s} \in \mathbb{F}_q^n$. We examine the necessary conditions on the domain $\mathcal{V}$ of $\mathcal{O}_{\mathbf{s}}$ and prove that the algorithm is optimal for such functions. Furthermore, we show that the success probability approaches 1 for large $q$ and large domain order $|\mathcal{V}|.$ Finally, we provide a conservative formula for the number of queries required to achieve this success probability.
翻訳日:2023-01-09 17:04:28 公開日:2022-12-07
# 非エルミート量子モデルの準エルミート表現の体系

Systematics of quasi-Hermitian representations of non-Hermitian quantum models ( http://arxiv.org/abs/2212.03940v1 )

ライセンス: Link先を確認
Miloslav Znojil(参考訳) 最近急速に発展しているユニタリシステムの量子力学の文脈では、時間に依存しない非エルミートハミルトニアン$h$(実スペクトルを持ち、非物理的だがユーザフレンドリーなヒルベルト空間 ${\cal r}_n^{(0)}$ で作用するものとして定義される)を用いて、この記述の合成的帰結の集合を正しい物理的ヒルベルト空間の1つ${\cal r}_0^{(j)}$に導入し、記述する。 superscript $j$は$j=0$から$j=N$まで実行される。 理論の極値である$j=0$では、構成は現在よく知られており、内部積計量$\Theta=\Theta(H)$のみを含む。 ハミルトンの$H$自体は変わらない。 j=n$ では内積計量は自明であり、ハミルトニアンのみがエルミート化されなければならない: $h \to \mathfrak{h} = \omega\,h\,\omega^{-1}=\mathfrak{h}^\dagger$。 残りのsuperscripts $j=1,2,\ldots, N-1$では、一貫した量子モデルの構築の新しいハイブリッド形式が提案され、計量とハミルトニアンの両方を同時に修正する必要がある。 アプリケーションでは、これらのオプションの1つは、スキーマ的な3状態の例で示される方法で与えられた$H$に対して最適であると期待されている。

In the recently quickly developing context of quantum mechanics of unitary systems using a time-independent non-Hermitian Hamiltonian $H$ (having real spectrum and defined as acting in an unphysical but user-friendly Hilbert space ${\cal R}_N^{(0)}$), the present paper introduces and describes a set of constructive returns of the description to one of the correct and eligible physical Hilbert spaces ${\cal R}_0^{(j)}$. The superscript $j$ may run from $j=0$ to $j=N$. In the $j=0$ extreme of the theory the construction is currently well known and involves solely the inner product metric $\Theta=\Theta(H)$. The Hamiltonian $H$ itself remains unchanged. At $j=N$ the inner-product metric remains trivial and only the Hamiltonian must be Hermitized, $H \to \mathfrak{h} = \Omega\,H\,\Omega^{-1}=\mathfrak{h}^\dagger$. At the remaining superscripts $j=1,2,\ldots, N-1$, a new, hybrid form of the construction of a consistent quantum model is proposed, requiring a simultaneous amendment of both the metric and the Hamiltonian. In applications, one of these options is expected to be optimal for a given $H$ in a way illustrated by a schematic three-state example.
翻訳日:2023-01-09 17:04:07 公開日:2022-12-07
# 絡み合った攻撃者に対してセキュアな単一量子ビットロス耐性量子位置検証プロトコル

Single-qubit loss-tolerant quantum position verification protocol secure against entangled attackers ( http://arxiv.org/abs/2212.03674v1 )

ライセンス: Link先を確認
Lloren\c{c} Escol\`a-Farr\`as and Florian Speelman(参考訳) 古典的情報と量子的情報を組み合わせた量子位置検証(QPV)プロトコルは、損失の存在下では安全ではない。 本稿では,BB84 状態に基づくQPV プロトコルの損失耐性と,このプロトコルの一般化について検討する。 半定義型プログラミング(sdp)を用いたモノガミー・オブ・エンタングルメントゲーム(英語版)の勝利確率を限定することにより、これらの拡張された非局所ゲームにおける損失とエラーの関係に関する厳密な境界を見いだす。 これらの新たな境界は、より現実的な実験パラメータを用いたQPVプロトコルの使用を可能にする。 これらの結果が、n$ビットの古典情報と単一の量子ビットを結合した異質なプロトコルにどのように転送されるかを示し、中間量の光子損失が存在する場合でも、線形なエンタングルメント(古典情報ではn$)に対してセキュアなプロトコルを示す。 さらに、このプロトコルは、量子ビットを符号化した光子が光ファイバーで任意に遅延しても安全である。 また、この分析を2つ以上のベースの場合にも拡張し、その場合の損失耐性をさらに強く示します。 最後に, 半定値プログラムはモノガミー・オブ・エンタングルメントゲームと結びついているので, 片側デバイス非依存QKDプロトコルの解析にどのように適用できるかを述べる。

Protocols for quantum position verification (QPV) which combine classical and quantum information are insecure in the presence of loss. We study the exact loss-tolerance of the most popular protocol for QPV, which is based on BB84 states, and generalizations of this protocol. By bounding the winning probabilities of a variant of the monogamy-of-entanglement game using semidefinite programming (SDP), we find tight bounds for the relation between loss and error for these extended non-local games. These new bounds enable the usage of QPV protocols using more-realistic experimental parameters. We show how these results transfer to the variant protocol which combines $n$ bits of classical information with a single qubit, thereby exhibiting a protocol secure against a linear amount of entanglement (in the classical information $n$) even in the presence of a moderate amount of photon loss. Moreover, this protocol stays secure even if the photon encoding the qubit travels arbitrarily slow in an optical fiber. We also extend this analysis to the case of more than two bases, showing even stronger loss-tolerance for that case. Finally, since our semi-definite program bounds a monogamy-of-entanglement game, we describe how they can also be applied to improve the analysis of one-sided device-independent QKD protocols.
翻訳日:2023-01-09 16:55:41 公開日:2022-12-07
# 完全正の可視性に基づく非マルコフ量子力学の実験的かつ効率的な同定

Experimentally feasible and efficient identification of non-Markovian quantum dynamics based on completely-positive divisibility ( http://arxiv.org/abs/2212.03676v1 )

ライセンス: Link先を確認
Chan Hsu, Yu-Chien Kao, Hong-Bin Chen, Shih-Hsuan Chen, Che-Ming Li(参考訳) 量子力学の非マルコビアン性は、主系が開量子系においてその環境とどのように相互作用するかを特徴づける。 マルコフ過程の本質的な特徴の1つは、2つまたはそれ以上の正の完全正(CP)サブプロセスに任意に分割できることである。 しかし、分割過程の間に少なくとも1つの非cp過程が存在する場合、ダイナミクスは非マルコフ過程と呼ばれる。 本稿では,CP-divisibility に基づく非マルコフ性同定のための2つの実験可能な手法を提案する。 最初の方法は非マルコフ過程のロバスト性に基づいており、これは非マルコフ性が量子プロセス能力として扱えることを証明し、非CPプロセスがCPプロセスになるために必要な最小のCP操作に耐える能力を定量的に特徴付け、非CPプロセスは量子プロセストモグラフィ(QPT)と逆行列計算によって決定される。 第2の方法は、QPTを必要とせずに、動的プロセスの最小2つのシステム出力状態をトモグラフィ的に解析することで、非マルコフ力学を同定する効率的な手法を提供する。 両手法とも全光学系を用いて実装可能であり,複屈折結晶の単一光子および2光子ダイナミクスの非マルコフ性解析に応用可能であることを実証した。 また、状態トモグラフィーが実装可能な他の力学系における非マルコビアン性や関連する量子情報処理への影響を探るためにも使用できる。

The non-Markovianity of quantum dynamics characterizes how a principal system interacts with its environment in an open quantum system. One of the essential characteristics of a Markovian process is that it can be arbitrarily divided into two or more legitimate completely-positive (CP) subprocesses (i.e., the main process has CP-divisibility). However, when at least one non-CP process exists among the divided processes, the dynamics is said to be non-Markovian. Herein, we propose two experimentally feasible methods for identifying non-Markovianity based on CP-divisibility. The first method is based on the non-Markovian process robustness, which proves that non-Markovianity can be treated as a quantum process capability and quantitatively characterizes the ability of a non-CP process to endure a minimum amount of CP operations required to become a CP process, where this non-CP process is determined by quantum process tomography (QPT) and inverse matrix calculation. The second method provides an efficient approach for identifying non-Markovian dynamics by tomographically analyzing a minimum of just two system output states of the dynamical process without the need for QPT. We demonstrate that both methods can be implemented using all-optical setups and can be applied to analyze the non-Markovianity of single-photon and two-photon dynamics in birefringent crystals. They also can be used to explore non-Markovianity and the related effects on quantum-information processing in other dynamical systems where state tomography is implementable.
翻訳日:2023-01-09 16:55:15 公開日:2022-12-07
# 量子隠れマルコフモデルの実装と学習

Implementation and Learning of Quantum Hidden Markov Models ( http://arxiv.org/abs/2212.03796v1 )

ライセンス: Link先を確認
Vanio Markov, Vladimir Rastunkov, Amol Deshmukh, Daniel Fry, Charlee Stefanski(参考訳) 隠れマルコフモデルはシーケンシャルデータを学習し記述するための強力なツールである。 本研究では,古典的マルコフモデルよりも量子隠れマルコフモデルを用いることの利点を理解することに注力する。 本稿では,実用的でハードウェア効率のよい量子回路 ansatz とトレーニングアルゴリズムを提案する。 量子シミュレータを用いたこれらの動的回路の実行結果とIBM量子ハードウェアの結果を比較した。

Hidden Markov models are a powerful tool for learning and describing sequential data. In this work, we focus on understanding the advantages of using quantum hidden Markov models over classical counterparts. We propose a practical, hardware efficient quantum circuit ansatz, as well as a training algorithm. We compare results from executions of these dynamic circuits using quantum simulators with results from IBM quantum hardware.
翻訳日:2023-01-09 16:54:47 公開日:2022-12-07
# 射影測定によるベル非局在の実験的リサイクル

Experimental recycling of Bell nonlocality with projective measurements ( http://arxiv.org/abs/2212.03815v1 )

ライセンス: Link先を確認
Ya Xiao, Yan-Xin Rong, Xin-Hong Han, Shuo Wang, Xuan Fan, Wei-Chen Li, and Yong-Jian Gu(参考訳) 量子資源の保存方法として、ベル非局所性のリサイクルは実験的に研究されているが、連続的なアンシャープ測定に限定されている。 しかし, 近年では, 射影計測が非局所性のリサイクルに十分であることが理論的に示されている。 Rev. Lett. 230402 (2022)] である。 ここでは、非シャープな測定シナリオを超えて、射影測定による非局所資源のリサイクルを実験的に実証する。 クレーター=ホルン=シモニー=ホルト不平等(CHSH)の不平等の検証により、3つの独立政党がベル非局所性を2量子状態のリサイクル可能であることが判明した。 さらに、二重違反領域では、部分絡み合い状態に対する最適トレードオフは、最大絡み合い状態に対する11の標準偏差より良い。 この結果から,射影測定が量子相関のリサイクルと相容れないという一般的な誤解を実験的に排除した。 さらに,非局所的なリサイクル設定では絡み合い支援は必要とせず,より実験的にフレンドリーであり,他の種類の量子相関の再利用への道を開く。

As a way of saving quantum resources, recycling of Bell nonlocality has been experimentally studied, but restricted to sequential unsharp measurements. However, it has been theoretically shown recently that projective measurements are sufficient for recycling nonlocality [Phys. Rev. Lett. \textbf{129}, 230402 (2022)]. Here, we go beyond unsharp measurement scenarios and experimentally demonstrate the recycling of nonlocal resources with projective measurements. By verifying the violation of Clauser-Horne-Shimony-Holt (CHSH) inequality, we find that three independent parties can recycle the Bell nonlocality of a two-qubit state, whether it is maximally or partially entangled. Furthermore, in the double violation region, the optimal trade-off for partially entangled states can be 11 standard deviations better than that for maximally entangled states. Our results experimentally eliminate the common misconception that projective measurements are incompatible with the recycling of quantum correlations. In addition, our nonlocality recycling setup does not require entanglement assistance, which is much more experimentally friendly, thus paving the way for the reuse of other kinds of quantum correlations.
翻訳日:2023-01-09 16:54:43 公開日:2022-12-07
# ユニタリ世界における計測

Measurement in a Unitary World ( http://arxiv.org/abs/2212.03829v1 )

ライセンス: Link先を確認
Vishal Johnson (1 and 2), Reimar Leike, Philipp Frank (1), Torsten En{\ss}lin (1 and 2) ((1) Max Planck Institute for Astrophysics Garching, (2) Ludwig-Maximilians-Universit\"at M\"unchen)(参考訳) この記事では、ユニタリ(可逆)量子力学に基づいて進化する宇宙の文脈で測定がどのように理解できるかを考察する。 ユニタリ測定手順は、量子力学の非測定公理、特に実験の繰り返し可能性と一致して開発される。 ユニタリ測定では、観測者と測定量とが相関する。 この方法が機能するためには、相関関係を他の場所から転送する必要があると論じられている。 したがって相関は、測定が行われるときに消費される資源である。 このような測定のネットワークは、安定した客観的古典的現実を確立するとも主張されている。

This article explores how measurement can be understood in the context of a universe evolving according to unitary (reversible) quantum dynamics. A unitary measurement procedure is developed consistent with the non-measurement axioms of quantum mechanics, specifically that of repeatability of experiment. In a unitary measurement, the observer and the measured quantity become correlated. It is argued that for this to work the correlation necessarily has to be transferred from somewhere else. Thus, correlation is a resource that is consumed when measurements take place. It is also argued that a network of such measurements establishes a stable objective classical reality.
翻訳日:2023-01-09 16:54:23 公開日:2022-12-07
# SupercheQ: 分散データベースの量子アドバンテージ

SupercheQ: Quantum Advantage for Distributed Databases ( http://arxiv.org/abs/2212.03850v1 )

ライセンス: Link先を確認
P. Gokhale, E. R. Anschuetz, C. Campbell, F. T. Chong, E. D. Dahl, P. Frederick, E. B. Jones, B. Hall, S. Issa, P. Goiporia, S. Lee, P. Noell, V. Omole, D. Owusu-Antwi, M. A. Perlin, R. Rines, M. Saffman, K. N. Smith, and T. Tomesh(参考訳) 我々は、ファイルの等価性をチェックするための古典的プロトコルよりも漸近的に有利な量子プロトコルであるSupercheQを紹介した。 最初の変種であるSupercheQ-EE (Efficient Encoding)は、2^O(n)ビットのファイルの検証にn qubitsを使用し、同時メッセージパッシング設定において可能な古典的プロトコルよりも通信の複雑さ(帯域幅、しばしばネットワーク化されたアプリケーションの制限要因)が指数関数的に有利である。 さらに、SupercheQ-EEはポリ(n^l)深さの回路上で実装するために優雅にスケールダウンすることができ、任意の定数 l に対して O(n^l) ビットを持つファイルの検証を可能にする。 量子優位性はランダムな回路サンプリングによって達成され、近年の量子超越性と量子ボリューム実験の回路を実用化した。 GPUシミュレーションにより,SupercheQ-EEの性能評価を行った。 第2の変種であるSupercheQ-IE (Incremental Encoding) では、n qubits を使用して O(n^2) ビットのファイルを検証し、指紋のインクリメンタルアップデートを一定時間サポートしている。 さらに、supercheq-ieはcliffordゲートのみを必要とするため、エラー訂正実装のオーバーヘッドが比較的少ない。 我々は,IBM量子ハードウェア上でのQiskit Runtimeによる概念実証実験を行った。 SupercheQは、重要なデータベースのレプリカを伴って、分散データ設定にデプロイできると考えています。

We introduce SupercheQ, a family of quantum protocols that achieves asymptotic advantage over classical protocols for checking the equivalence of files, a task also known as fingerprinting. The first variant, SupercheQ-EE (Efficient Encoding), uses n qubits to verify files with 2^O(n) bits -- an exponential advantage in communication complexity (i.e. bandwidth, often the limiting factor in networked applications) over the best possible classical protocol in the simultaneous message passing setting. Moreover, SupercheQ-EE can be gracefully scaled down for implementation on circuits with poly(n^l) depth to enable verification for files with O(n^l) bits for arbitrary constant l. The quantum advantage is achieved by random circuit sampling, thereby endowing circuits from recent quantum supremacy and quantum volume experiments with a practical application. We validate SupercheQ-EE's performance at scale through GPU simulation. The second variant, SupercheQ-IE (Incremental Encoding), uses n qubits to verify files with O(n^2) bits while supporting constant-time incremental updates to the fingerprint. Moreover, SupercheQ-IE only requires Clifford gates, ensuring relatively modest overheads for error-corrected implementation. We experimentally demonstrate proof-of-concepts through Qiskit Runtime on IBM quantum hardware. We envision SupercheQ could be deployed in distributed data settings, accompanying replicas of important databases.
翻訳日:2023-01-09 16:54:02 公開日:2022-12-07
# ReQuSim: 短期量子リピータを忠実にシミュレートする

ReQuSim: Faithfully simulating near-term quantum repeaters ( http://arxiv.org/abs/2212.03896v1 )

ライセンス: Link先を確認
Julius Walln\"ofer, Frederik Hahn, Fabian Wiesner, Nathan Walk, Jens Eisert(参考訳) 量子リピータは、長い距離にわたって絡み合いを分配するのに必須であると長い間確立されてきた。 その結果、実験的な実現は量子通信の核となる課題となっている。 しかし、現実的で短期的な実験的なセットアップの実装の詳細については、多くのオープンな質問がある。 本稿では,現実的なリピータプロトコルの性能を評価するために,損失を忠実に含み,時間依存ノイズを伴う記憶などの幅広い欠陥をモデル化する量子リピータのための総合的なモンテカルロシミュレーションプラットフォームを提案する。 私たちのプラットフォームは、既知の分析結果を超えている量子リピータのセットアップと戦略の分析を可能にします。 本稿では, 絡み合いの浄化や複数のリピータ局の利用など, 性能向上のための戦略の組み合わせに着目し, それらの間に複雑な関係があることを実証する。 このプラットフォームが、量子インターネットへのコントリビューションを目的とした複雑な量子通信プロトコルをモデル化するために、現在利用可能なツールに欠けているリンクを埋めていることを強調する。

Quantum repeaters have long been established to be essential for distributing entanglement over long distances. Consequently, their experimental realization constitutes a core challenge of quantum communication. However, there are numerous open questions about implementation details for realistic, near-term experimental setups. In order to assess the performance of realistic repeater protocols, we here present a comprehensive Monte-Carlo based simulation platform for quantum repeaters that faithfully includes loss and models a wide range of imperfections such as memories with time-dependent noise. Our platform allows us to perform an analysis for quantum repeater setups and strategies that go far beyond known analytic results: This refers to being able to both capture more realistic noise models and analyse more complex repeater strategies. We present a number of findings centered around the combination of strategies for improving performance, such as entanglement purification and the use of multiple repeater stations, and demonstrate that there exist complex relationships between them. We stress how this platform is filling a missing link in the presently available tools to model complex quantum communication protocols aimed at contributing to the quantum internet.
翻訳日:2023-01-09 16:53:41 公開日:2022-12-07
# キャビティ電磁誘導透過性のための低光子レベルでの非古典的相関光多重性

Nonclassical correlated optical multistability at low photon level for cavity electromagnetically induced transparency ( http://arxiv.org/abs/2212.03402v1 )

ライセンス: Link先を確認
Jing Tang and Yuangang Deng(参考訳) 駆動拡散単原子キャビティの電磁透過における非平衡動的挙動について検討した。 光スタークシフト誘起強非線形性を用いて、ケラー非線形性を超えた光ビスタビリティと多重性が観察される。 本研究では,bistability と multistability の非平衡動的相転移は,大きなパラメータ領域のシステムパラメータによって非常に調整可能であることを示す。 これは、量子揺らぎと相関が非平衡動力学において重要な役割を果たすことを示唆するものであり、特に、非常に低い定常状態のキャビティの光子数で発生する光子束量子統計の安定性と多重性は、非常に強いキャビティ駆動場下でも観察される。 さらに、全量子計算の特異な空洞定常解は、空洞光子数がユニティよりはるかに小さい場合、半古典平均場法と多スタビリティ法に基づく最低解と良好に一致していることを示すが、これらの非古典量子状態はこのパラメータ法で強い量子揺らぎを持つべきである。 この結果は、量子構造における非古典的相関光多重性の研究の道を開くものであり、量子情報処理から量子メトロロジーへの潜在的な応用にエキサイティングな機会をもたらす可能性がある。

We study the nonequilibrium dynamic behaviors in a driven-dissipative single-atom cavity electromagnetically induced transparency. The optical bistability and multistability beyond a Kerr nonlinearity are observed utilizing the optical Stark shift induced strong nonlinearity. We show that the nonequilibrium dynamical phase transition between bistability and multistability is highly tunable by the system parameters in a large parameter region. The first-order dissipative optical bistability (multistability) always corresponds to the photon-bunching quantum statistics, which indicates that the quantum fluctuations and correlations play important roles in nonequilibrium dynamics.Interestingly, bistability and multistability with photon-bunching quantum statistics occurring at extremely low steady-state cavity photon number are observed, even under a very strong cavity driven field. Furthermore, we demonstrate that the unique cavity steady-state solution of the full quantum calculation is excellently consistent with the lowest solution based on the semiclassical mean-field approach in bistability and multistability regimes when the cavity photon number is much less than unity, albeit these nonclassical quantum states should possess strong quantum fluctuations in this parameter regime. Our results pave the way to exploring nonclassical correlated optical multistability in quantum regime, which may bring exciting opportunities for potential applications from quantum information processing to quantum metrology.
翻訳日:2023-01-09 16:46:24 公開日:2022-12-07
# 絡み合い交換及び絡み合い交換

Entanglement swapping and swapped entanglement ( http://arxiv.org/abs/2212.03413v1 )

ライセンス: Link先を確認
S. M. Zangi, Chitra Shukla, Atta Ur Rahman, and Bo Zheng(参考訳) 量子機器の異なる部分間の絡み合い分布への応用により、絡み合い交換が広く注目されている。 純粋および雑音系に対する絡み合い交換について検討し、量子状態に対する異なる絡み合い量子化器について議論する。 我々は,初期状態の絡み合いと最終状態の平均絡み合いの関係を,共起性と負性の観点から検討する。 初期量子状態が最大に絡み合ってベル基底で測定すると、最終状態の平均収束と平均負性は同様の結果をもたらす。 この場合、初期状態の収束(負性)の積を取ることで、最終状態の平均収束(平均負性)を簡単に得る。 しかし, 絡み替え時の非最大絡み合わせによる測定は, 平均絡み合わせを劣化させる。 さらに、初期混合状態の絡み合いの積は、絡み合い交換後に得られる最終状態の平均交換絡み合いに上限を与える。 最終的に得られた状態の平均収束は、これらの状態の平均負性に上限を与える。 また、未知の量子ビットの伝送路として出力状態をいかにうまく利用できるかについても論じる。

Entanglement swapping is gaining widespread attention due to its application in entanglement distribution among different parts of quantum appliances. We investigate the entanglement swapping for pure and noisy systems, and argue different entanglement quantifiers for quantum states. We explore the relationship between the entanglement of initial states and the average entanglement of final states in terms of concurrence and negativity. We find that if initial quantum states are maximally entangled and we make measurements in the Bell basis, then average concurrence and average negativity of final states give similar results. In this case, we simply obtain the average concurrence (average negativity) of the final states by taking the product of concurrences (negativities) of the initial states. However, the measurement in non-maximally entangled basis during entanglement swapping degrades the average swapped entanglement. Further, the product of the entanglement of the initial mixed states provides an upper bound to the average swapped entanglement of final states obtained after entanglement swapping. The average concurrence of finally obtained states provides an upper bound to the average negativity of these states. We also discuss how successfully the output state can be used as a channel for the teleportation of an unknown qubit.
翻訳日:2023-01-09 16:46:01 公開日:2022-12-07
# ダイソン級数を用いた時間依存微分方程式の量子アルゴリズム

Quantum algorithm for time-dependent differential equations using Dyson series ( http://arxiv.org/abs/2212.03544v1 )

ライセンス: Link先を確認
Dominic W. Berry, Pedro C. S. Costa(参考訳) 時間依存線形微分方程式は、古典物理学において解く必要がある一般的なタイプの問題である。 本稿では,誤差と導関数の複雑性の対数依存性を持つ時間依存線形微分方程式を解く量子アルゴリズムを提案する。 通常のように、次元との複雑性のスケーリングにおける古典的アプローチよりも指数関数的な改善があり、その解が量子状態の振幅で符号化されていることに注意が必要である。 本手法は線形方程式系においてダイソン級数を符号化し, 最適な量子線形方程式解法を用いて解く。 本手法は時間非依存微分方程式の場合の簡易なアプローチも提供する。

Time-dependent linear differential equations are a common type of problem that needs to be solved in classical physics. Here we provide a quantum algorithm for solving time-dependent linear differential equations with logarithmic dependence of the complexity on the error and derivative. As usual, there is an exponential improvement over classical approaches in the scaling of the complexity with the dimension, with the caveat that the solution is encoded in the amplitudes of a quantum state. Our method is to encode the Dyson series in a system of linear equations, then solve via the optimal quantum linear equation solver. Our method also provides a simplified approach in the case of time-independent differential equations.
翻訳日:2023-01-09 16:45:45 公開日:2022-12-07
# 6量子エンタングル状態による量子双方向テレポーテーション2-2または2-3量子ビットテレポーテーションプロトコルの改良

Improvement on Quantum bidirectional teleportation 2-2 or 2-3 qubit teleportation protocol via 6-qubit entangled state ( http://arxiv.org/abs/2212.03548v1 )

ライセンス: Link先を確認
Mitali Sisodia(参考訳) 最近、R-Gui Zhouら。 [J. Theor. Phys. 59, 166-172 (2020)] は、量子チャネルとして6ビットの絡み合った状態を利用して、2ビットと2ビットの2方向量子テレポーテーションのスキームを提案した。 周らによって計算された本質的な効率は正確ではないことが観察された。 本研究では,最適化された量子資源と古典的資源の少ない消費により,2量子状態と2量子状態の双方向テレポーテーションが可能となることを示す。 また, 周計画よりも優れた改良計画の本質的効率を算出した。 さらに,プロトコルのセキュリティについても論じる。

Recently, Ri-Gui Zhou et al. [Int. J. Theor. Phys. 59, 166-172 (2020)] proposed a scheme for bidirectional quantum teleportation of two-two and two-three qubit states by utilizing a six-qubit entangled state as a quantum channel. It is observed that the intrinsic efficiency calculated by Zhou et al. is not correct. In this improved scheme, we show that bidirectional teleportation of two-two and two-three qubit quantum states can be done by using optimized quantum resource and less consumption of classical resource. We also calculate the intrinsic efficiency of our improved scheme which is much better than the Zhou's scheme. Additionally, we also discuss about the security of the protocol.
翻訳日:2023-01-09 16:45:34 公開日:2022-12-07
# スピン軌道最大不協和状態

Spin-orbit maximally discordant mixed states ( http://arxiv.org/abs/2212.03579v1 )

ライセンス: Link先を確認
D. G. Braga, I. Fonseca, W. F. Balthazar, M. S. Sarandy, J. A. O. Huguenin(参考訳) 本稿では,光子の偏光及び横モード自由度に量子ビット(量子ビット)を符号化した線形光回路によるスピン軌道最大不協和混合状態の生成を提案する。 特に,非平衡スピン軌道絡み合い状態の調製法について論じ,この手法を用いて最大不協和混合状態を得る。 本稿ではジョーンズ行列形式を用いた光回路シミュレーションを提案する。 我々は絡み合い、古典的、量子的相関の研究を行った。 その結果、基礎理論とよく一致し、光学系における量子相関に対処するための新しい実験的なアプローチが開かれた。

We introduce a proposal to prepare spin-obit maximally discordant mixed states by a linear optical circuit, with quantum bits (qubits) encoded in the polarization and transverse mode degrees of freedom of photons. In particular, we discuss how to prepare non-balanced spin-orbit entangled states, applying this technique to obtain maximally discordant mixed states. We present a simulation of the optical circuit by using the Jones matrix formalism. We performed a study of entanglement, classical and quantum correlations. The results show excellent agreement with the underlying theory and open a new experimental approach for addressing quantum correlations in optical setups.
翻訳日:2023-01-09 16:45:17 公開日:2022-12-07
# 量子ビット上の量子熱雑音のモデル化とシミュレーション

Modeling and simulation of a quantum thermal noise on the qubit ( http://arxiv.org/abs/2212.03582v1 )

ライセンス: Link先を確認
Francois Chapeau-Blondeau(参考訳) 量子ノイズまたはデコヒーレンスは、量子技術の性能に影響を与える主要な要因である。 量子ビット上では、実際は重要な量子ノイズが熱雑音または一般化振幅減衰雑音であり、任意の温度で熱浴との相互作用を記述する。 しかし、量子ビットの熱雑音は数個の基本ポーリ作用素ではモデル化も直接シミュレートもできないが、特定の演算子を必要とする。 ここでの主な目標は、標準的な基本量子ビット演算子の熱雑音をシミュレートする回路モデルを構築することです。 kraus演算子に基づく一般的な量子演算モデルと関連する量子環境モデルから始まり、熱雑音に対する適切なスティンスプリング拡張表現を導出する。 この拡張ユニタリモデルは、単純な基本量子ビット作用素によって分解され、基本量子ゲートに基づく回路に変換される。 熱騒音を想定したシミュレータ回路に到達し,ノイズパラメータの簡易制御が組み込まれている。 その後、ノイズシミュレータが実装され、IBM-Q量子プロセッサ上でテストされる。 このシミュレータは、量子プロセッサ用の既存の量子回路ライブラリに有用な追加であり、量子信号と熱雑音に対処する情報処理を調査するための新しいツールを提供する。

Quantum noise or decoherence is a major factor impacting the performance of quantum technologies. On the qubit, an important quantum noise, often relevant in practice, is the thermal noise or generalized amplitude damping noise, describing the interaction with a thermal bath at an arbitrary temperature. A qubit thermal noise however cannot be modeled nor directly simulated with a few elementary Pauli operators, but instead requires specific operators. Our main goal here is to construct a circuit model for simulating the thermal noise from standard elementary qubit operators. Starting from a common quantum-operation model based on Kraus operators and an associated qubit-environment model, we derive a proper Stinespring dilated representation for the thermal noise. This dilated unitary model is then decomposed in terms of simple elementary qubit operators, and converted into a circuit based on elementary quantum gates. We arrive at our targeted simulator circuit for the thermal noise, coming with built-in easy control on the noise parameters. The noise simulator is then physically implemented and tested on an IBM-Q quantum processor. The simulator represents a useful addition to existing libraries of quantum circuits for quantum processors, and it offers a new tool for investigating quantum signal and information processing having to cope with thermal noise.
翻訳日:2023-01-09 16:45:08 公開日:2022-12-07
# 次元化のためのマニフォールド学習:量子イソマプアルゴリズム

Manifold Learning for Dimensionality Reduction: Quantum Isomap algorithm ( http://arxiv.org/abs/2212.03599v1 )

ライセンス: Link先を確認
WeiJun Feng and GongDe Guo and Kai Yu and Xin Zhang and Song Lin(参考訳) Isomapアルゴリズムは、代表的多様体学習アルゴリズムである。 このアルゴリズムは、データ解析プロセスを単純化し、神経画像、スペクトル分析、その他の分野で広く使われている。 しかし、Isomapアルゴリズムは大規模なデータセットを扱う際には扱いにくい。 本研究の目的は,量子計算による古典的アルゴリズムの高速化と,量子等角写像アルゴリズムの提案である。 アルゴリズムは2つのサブアルゴリズムからなる。 まず、量子フロイドアルゴリズム(quantum floyd algorithm)で、2つのノードの最短距離を計算する。 もう1つは量子Floydアルゴリズムに基づく量子イソマプアルゴリズムであり、元の高次元データに対する低次元表現を見つける。 最後に、量子Floydアルゴリズムがサンプリングなしで指数的高速化を実現することを解析する。 さらに、量子イソマップアルゴリズムの時間複雑性は$O(dNpolylogN)$である。 どちらのアルゴリズムも、古典的なアルゴリズムの時間的複雑さを減らす。

Isomap algorithm is a representative manifold learning algorithm. The algorithm simplifies the data analysis process and is widely used in neuroimaging, spectral analysis and other fields. However, the classic Isomap algorithm becomes unwieldy when dealing with large data sets. Our object is to accelerate the classical algorithm with quantum computing, and propose the quantum Isomap algorithm. The algorithm consists of two sub-algorithms. The first one is the quantum Floyd algorithm, which calculates the shortest distance for any two nodes. The other is quantum Isomap algorithm based on quantum Floyd algorithm, which finds a low-dimensional representation for the original high-dimensional data. Finally, we analyze that the quantum Floyd algorithm achieves exponential speedup without sampling. In addition, the time complexity of quantum Isomap algorithm is $O(dNpolylogN)$. Both algorithms reduce the time complexity of classical algorithms.
翻訳日:2023-01-09 16:44:48 公開日:2022-12-07
# Masanes-Galley-M\"uller and the State-Update Postulate"への回答

Reply to "Masanes-Galley-M\"uller and the State-Update Postulate" ( http://arxiv.org/abs/2212.03629v1 )

ライセンス: Link先を確認
Thomas D. Galley, Llu\'is Masanes, Markus P. M\"uller(参考訳) 先日のarxivに関するコメントで、blake c. stacey氏はnatの量子状態更新ルールの導出を批判している。 共産。 10, 1361 (2019). ここでは批判は根拠がないと論じる。 特に、ステーシーの主張とは対照的に、我々の証明は線型性を仮定しない。

In a recent comment on the arXiv, Blake C. Stacey criticizes our derivation of the quantum state update rule in Nat. Commun. 10, 1361 (2019). Here we argue that the criticism is unfounded. In particular, and in contrast to Stacey's claims, our proof does not assume linearity.
翻訳日:2023-01-09 16:44:39 公開日:2022-12-07
# 古典的雑音の存在下での自己保護量子シミュレーションと量子位相推定

Self-protected quantum simulation and quantum phase estimation in the presence of classical noise ( http://arxiv.org/abs/2212.03664v1 )

ライセンス: Link先を確認
Lian-Ao Wu(参考訳) デコヒーレンス現象は必然的に量子コンピューティングプロセスに存在する。 したがって、動的デカップリングや量子誤り訂正符号(QECC)などによるデコヒーレンスの動的抑制は、既知の量子アルゴリズムや、現在開発中の量子アルゴリズムの正確な実行に不可欠である。 このダイナミックゼロノイズ戦略は量子コンピューティングの将来への期待に合致するが、現状を踏まえると、我々は15年以上にわたって自己保護型量子アルゴリズムを、反対のリビング・アンド・ノイズ戦略に基づいて立ち上げてきた。 本稿では,古典的雑音に免疫する自己保護量子シミュレーションを提案する。 したがって、読み出しには従来の量子位相推定を古典雑音の存在下でのアップグレード版に一般化する。

The decoherence phenomenon inevitably exists in quantum computing processes. Consequently, dynamic suppression of decoherence for instance via dynamical decoupling, quantum error correction codes (QECC) etc. is crucial in accurately executing known or to-be-developed quantum algorithms. While this dynamic zero noise strategy well fits into our expectations for the future of quantum computing, given the status quo, we have launched self-protected quantum algorithms for over 15 years based on the opposite living-with-noise strategy. Here we propose self-protected quantum simulations immune to a large class of classical noise. Accordingly, for readout we generalize the conventional quantum phase estimation to its upgraded version in the presence of classical noise.
翻訳日:2023-01-09 16:44:33 公開日:2022-12-07
# 多ページdocvqa用階層型マルチモーダルトランスフォーマー

Hierarchical multimodal transformers for Multi-Page DocVQA ( http://arxiv.org/abs/2212.05935v1 )

ライセンス: Link先を確認
Rub\`en Tito, Dimosthenis Karatzas and Ernest Valveny(参考訳) Document Visual Question Answering (DocVQA)は、文書イメージから質問に答えるタスクである。 DocVQAの既存の作業は、シングルページのドキュメントのみを考慮している。 しかし、実際のシナリオでは、ドキュメントは主に、完全に処理されるべき複数のページで構成されています。 この作業では、DocVQAをマルチページシナリオに拡張します。 そのため、まずMP-DocVQAという新しいデータセットを作成し、単一のページではなく複数ページのドキュメントに質問を提示する。 第2に,t5アーキテクチャに基づく新しい階層的手法であるhi-vt5を提案する。 提案手法は,エンコーダが各ページの最も関連する情報を要約し,その要約情報をデコーダが取り出して最終回答を生成する階層的トランスフォーマアーキテクチャに基づいている。 広範な実験を通じて,本手法は一つの段階において,質問に答えることができ,回答を見つけるための関連情報を含むページを提供し,ある種の説明可能性尺度として利用できることを示した。

Document Visual Question Answering (DocVQA) refers to the task of answering questions from document images. Existing work on DocVQA only considers single-page documents. However, in real scenarios documents are mostly composed of multiple pages that should be processed altogether. In this work we extend DocVQA to the multi-page scenario. For that, we first create a new dataset, MP-DocVQA, where questions are posed over multi-page documents instead of single pages. Second, we propose a new hierarchical method, Hi-VT5, based on the T5 architecture, that overcomes the limitations of current methods to process long multi-page documents. The proposed method is based on a hierarchical transformer architecture where the encoder summarizes the most relevant information of every page and then, the decoder takes this summarized information to generate the final answer. Through extensive experimentation, we demonstrate that our method is able, in a single stage, to answer the questions and provide the page that contains the relevant information to find the answer, which can be used as a kind of explainability measure.
翻訳日:2022-12-18 18:52:07 公開日:2022-12-07
# 物体検出のための適応的自己学習

Adaptive Self-Training for Object Detection ( http://arxiv.org/abs/2212.05911v1 )

ライセンス: Link先を確認
Renaud Vandeghen and Gilles Louppe and Marc Van Droogenbroeck(参考訳) ディープラーニングは、画像内のオブジェクト検出のタスクを解決する効果的なソリューションとして登場したが、大きなラベル付きデータセットを必要とするコストがかかる。 このコストを軽減するために、豊富なラベルのないデータを活用する半教師付き物体検出手法が提案され、既に印象的な結果が出ている。 しかし、これらの方法のほとんどがしきい値化によって擬似ラベルと接地オブジェクトをリンクする必要がある。 以前の研究では、このしきい値は通常経験的に決定され、それは時間がかかり、1つのデータ分布に対してのみ実行される。 ドメイン、つまりデータ分布が変化すると、新しくコストのかかるパラメータ検索が必要となる。 本稿では,単純かつ効果的な教師教育手法である物体検出のための適応型自己学習法(astod)を提案する。 astodはスコアヒストグラムの基底値に基づいて閾値をコストなしで決定する。 また,教師の予測の質を向上させるために,新しい擬似ラベル手法を提案する。 疑似ラベル付けステップでは,未ラベル画像の異なるビューを用いて,誤り予測回数を削減し,よりよい候補ラベルを得る。 教師と生徒は個別に教育を受けており、教師を生徒に置き換えることで、反復的な手法で利用することができる。 ms-cocoデータセットでは、しきい値パラメータを必要としない最先端のメソッドに対して一貫して良好に動作し、パラメータスイープ検索を必要とするメソッドで競合結果を示す。 衛星画像を含むDIORデータセット上の教師付きベースラインに関する追加実験は、同様の結論を導き、データ分布に関係なく、自己学習においてスコア閾値を自動で適応させることが可能であることを証明した。

Deep learning has emerged as an effective solution for solving the task of object detection in images but at the cost of requiring large labeled datasets. To mitigate this cost, semi-supervised object detection methods, which consist in leveraging abundant unlabeled data, have been proposed and have already shown impressive results. However, most of these methods require linking a pseudo-label to a ground-truth object by thresholding. In previous works, this threshold value is usually determined empirically, which is time consuming, and only done for a single data distribution. When the domain, and thus the data distribution, changes, a new and costly parameter search is necessary. In this work, we introduce our method Adaptive Self-Training for Object Detection (ASTOD), which is a simple yet effective teacher-student method. ASTOD determines without cost a threshold value based directly on the ground value of the score histogram. To improve the quality of the teacher predictions, we also propose a novel pseudo-labeling procedure. We use different views of the unlabeled images during the pseudo-labeling step to reduce the number of missed predictions and thus obtain better candidate labels. Our teacher and our student are trained separately, and our method can be used in an iterative fashion by replacing the teacher by the student. On the MS-COCO dataset, our method consistently performs favorably against state-of-the-art methods that do not require a threshold parameter, and shows competitive results with methods that require a parameter sweep search. Additional experiments with respect to a supervised baseline on the DIOR dataset containing satellite images lead to similar conclusions, and prove that it is possible to adapt the score threshold automatically in self-training, regardless of the data distribution.
翻訳日:2022-12-18 18:50:54 公開日:2022-12-07
# 誘導伝送マップを有するエンコーダデコーダネットワーク:アーキテクチャ-拡張抽象

Encoder-Decoder Network with Guided Transmission Map: Architecture -- Extended Abstract ( http://arxiv.org/abs/2212.05936v1 )

ライセンス: Link先を確認
Le-Anh Tran, Dong-Chul Park(参考訳) 本稿では,新規かつ効果的な単一画像復調方式であるEDN-GTMを用いたエンコーダ・デコーダネットワークのアーキテクチャについて考察する。 EDN-GTMは、ネットワークの入力として、ダークチャネル事前(DCP)アプローチによって推定される対応する送信マップと合わせて、従来のRGBハジー画像を取る。 EDN-GTMは、タスクのデハージングのために開発されたU-Netの強化された構造を採用し、その結果のEDN-GDMは、PSNRとSSIMのメトリクスでベンチマークデハージングデータセットに最先端のパフォーマンスを示す。 本稿では,EDN-GTMの成功に大きく貢献するよく設計されたアーキテクチャを深く理解するために,高度なネットワーク設計を調査するためのスキームの中核構造を選択するための広範な実験と分析について述べる。

An insight into the architecture of the Encoder-Decoder Network with Guided Transmission Map (EDN-GTM), a novel and effective single image dehazing scheme, is presented in this paper. The EDN-GTM takes a conventional RGB hazy image in conjunction with the corresponding transmission map estimated by the dark channel prior (DCP) approach as inputs of the network. The EDN-GTM adopts an enhanced structure of U-Net developed for dehazing tasks and the resulting EDN-GDM has shown state-of-the-art performances on benchmark dehazing datasets in terms of PSNR and SSIM metrics. In order to give an in-depth understanding of the well-designed architecture which largely contributes to the success of the EDN-GTM, extensive experiments and analysis from selecting the core structure of the scheme to investigating advanced network designs are presented in this paper.
翻訳日:2022-12-18 18:50:28 公開日:2022-12-07
# 変分量子アルゴリズムのためのansatz設計手法の展望

Review of Ansatz Designing Techniques for Variational Quantum Algorithms ( http://arxiv.org/abs/2212.04913v1 )

ライセンス: Link先を確認
Junhan Qin(参考訳) 多くのタスクにおいて、量子コンピューティングは古典計算よりも指数加速度のポテンシャルを示す。 NISQ時代、可変成分サブ回路は量子コンピューティングの応用を可能にする。 量子コンピュータの固有ノイズと量子ビットサイズ制限を低減するため、既存の研究は変分量子アルゴリズム(VQA)の精度と効率を改善した。 本稿では,ゲートレベルとパルスレベルにおけるVQAの様々なアンザッツ改善手法について検討し,それらを分類,評価,要約する。

For a large number of tasks, quantum computing demonstrates the potential for exponential acceleration over classical computing. In the NISQ era, variable-component subcircuits enable applications of quantum computing. To reduce the inherent noise and qubit size limitations of quantum computers, existing research has improved the accuracy and efficiency of Variational Quantum Algorithm (VQA). In this paper, we explore the various ansatz improvement methods for VQAs at the gate level and pulse level, and classify, evaluate and summarize them.
翻訳日:2022-12-12 16:15:04 公開日:2022-12-07
# 12誘導心電図から左束分枝ブロックを診断するための深部コンフアテンションモデル

Deep conv-attention model for diagnosing left bundle branch block from 12-lead electrocardiograms ( http://arxiv.org/abs/2212.04936v1 )

ライセンス: Link先を確認
Alireza Sadeghi, Alireza Rezaee, Farshid Hajati(参考訳) 心臓再同期療法(英: Cardiac resynchronization therapy, CRT)は、心拍の異常を補う治療である。 この治療法は左束枝ブロック(LBBB)不整脈患者に有効であることが研究で示されている。 したがって、この不整脈を同定することは、CRTを使用するか否かを決定するための重要な初期ステップである。 一方、心電図(ECG)における従来のLBBB検出法は誤りと関連していることが多い。 したがって、この不整脈を心電図データから正確に診断する方法が必要となる。 機械学習は新しい研究分野として、人間のシステムの性能向上に寄与している。 ディープラーニングは、機械学習の新たなサブフィールドとして、データの解析とシステムの精度向上により多くの力を持つ。 本研究では12誘導心電図データからlbbb不整脈を検出するためのディープラーニングモデルを提案する。 このモデルは1次元拡張畳み込み層からなる。 注意機構は重要な入力データの特徴を特定し、入力をより正確に分類するためにも使われてきた。 提案手法は10倍のクロスバリデーション法を用いて10344個のECGサンプルを含むデータベース上で訓練および検証を行う。 12個の心電図データから得られた最終結果は以下の通りである。 精度:98.80+-0.08%、特異性:99.33+-0.11%、F1スコア:73.97+-1.8%、受信機動作特性曲線(AUC):0.875+-0.0192。 以上の結果から,本研究で提案したモデルは,LBBBを効率よく効果的に診断でき,医療センターで使用すれば,この不整脈と早期治療の診断に大いに役立つことが示唆された。

Cardiac resynchronization therapy (CRT) is a treatment that is used to compensate for irregularities in the heartbeat. Studies have shown that this treatment is more effective in heart patients with left bundle branch block (LBBB) arrhythmia. Therefore, identifying this arrhythmia is an important initial step in determining whether or not to use CRT. On the other hand, traditional methods for detecting LBBB on electrocardiograms (ECG) are often associated with errors. Thus, there is a need for an accurate method to diagnose this arrhythmia from ECG data. Machine learning, as a new field of study, has helped to increase human systems' performance. Deep learning, as a newer subfield of machine learning, has more power to analyze data and increase systems accuracy. This study presents a deep learning model for the detection of LBBB arrhythmia from 12-lead ECG data. This model consists of 1D dilated convolutional layers. Attention mechanism has also been used to identify important input data features and classify inputs more accurately. The proposed model is trained and validated on a database containing 10344 12-lead ECG samples using the 10-fold cross-validation method. The final results obtained by the model on the 12-lead ECG data are as follows. Accuracy: 98.80+-0.08%, specificity: 99.33+-0.11 %, F1 score: 73.97+-1.8%, and area under the receiver operating characteristics curve (AUC): 0.875+-0.0192. These results indicate that the proposed model in this study can effectively diagnose LBBB with good efficiency and, if used in medical centers, will greatly help diagnose this arrhythmia and early treatment.
翻訳日:2022-12-12 16:14:31 公開日:2022-12-07
# 自己教師付きPSG表現学習は高い対象間変動を示す

Self-Supervised PPG Representation Learning Shows High Inter-Subject Variability ( http://arxiv.org/abs/2212.04902v1 )

ライセンス: Link先を確認
Ramin Ghorbani, Marcel T.J. Reinders, and David M.J. Tax(参考訳) ウェアラブルにおけるセンサ技術の進歩により、ppg信号の収集と分析がますます関心を集めている。 機械学習を用いて、PSG信号に対応する心臓リズムを使用して、活動認識、睡眠ステージ検出、より一般的な健康状態などの様々なタスクを予測することができる。 しかし、教師付き学習は、一般に入手するのにコストがかかるラベル付きデータの量によって制限されることが多い。 この問題に対処するために,信号再構成のプレテキストタスクを用いた自己教師付き学習(SSL)手法を提案し,汎用的なPSG表現を学習する。 提案したSSLフレームワークのパフォーマンスは、2つの完全に教師されたベースラインと比較される。 その結果、SSLを使用したラベルデータ設定(クラスあたり10サンプル以下)は非常に限定的であり、SSLを学習した表現に基づいてトレーニングされた単純な分類器は、完全に教師されたディープニューラルネットワークよりも優れていることがわかった。 しかし、その結果、SSLで学習した表現は主題のエンコーディングに集中しすぎていることが判明した。 残念なことに、SSLで学習した表現にはオブジェクト間のばらつきが高いため、ラベル付きデータが不足している場合には、このデータを扱うことがより困難になる。 高いサブジェクト間変動は、まだ学習表現の改善の余地があることを示唆している。 一般論として、SSLはラベルスカースレジームにおけるPSGデータに機械学習モデルを広く利用するための道を開くことを示唆している。

With the progress of sensor technology in wearables, the collection and analysis of PPG signals are gaining more interest. Using Machine Learning, the cardiac rhythm corresponding to PPG signals can be used to predict different tasks such as activity recognition, sleep stage detection, or more general health status. However, supervised learning is often limited by the amount of available labeled data, which is typically expensive to obtain. To address this problem, we propose a Self-Supervised Learning (SSL) method with a pretext task of signal reconstruction to learn an informative generalized PPG representation. The performance of the proposed SSL framework is compared with two fully supervised baselines. The results show that in a very limited label data setting (10 samples per class or less), using SSL is beneficial, and a simple classifier trained on SSL-learned representations outperforms fully supervised deep neural networks. However, the results reveal that the SSL-learned representations are too focused on encoding the subjects. Unfortunately, there is high inter-subject variability in the SSL-learned representations, which makes working with this data more challenging when labeled data is scarce. The high inter-subject variability suggests that there is still room for improvements in learning representations. In general, the results suggest that SSL may pave the way for the broader use of machine learning models on PPG data in label-scarce regimes.
翻訳日:2022-12-12 14:47:31 公開日:2022-12-07
# 物理制約による温度・湿度の深層学習後処理

Physics-constrained deep learning postprocessing of temperature and humidity ( http://arxiv.org/abs/2212.04487v1 )

ライセンス: Link先を確認
Francesco Zanetta, Daniele Nerini, Tom Beucler and Mark A. Liniger(参考訳) 気象予報センターは現在、予報誤差を最小限に抑えるために統計的後処理方法に依存している。 これにより、スキルは向上するが、物理的な原則に違反したり、変数間の依存関係を無視する予測につながる可能性がある。 物理インフォームド機械学習の最近の進歩に基づき,気象学の専門知識を解析方程式の形で統合し,深層学習に基づく後処理モデルにおける物理的整合性を実現することを提案する。 スイスの表層気象のプロセス後処理に適用すると、ニューラルネットワークが熱力学状態方程式を強制することは、性能を損なうことなく、温度と湿度の物理的に一貫性のある予測をもたらすことが分かる。 その結果、後処理モデルにドメインの専門知識を組み込むことで、アプリケーション固有の要件を満たしながら天気予報情報を最適化できることが示唆された。

Weather forecasting centers currently rely on statistical postprocessing methods to minimize forecast error. This improves skill but can lead to predictions that violate physical principles or disregard dependencies between variables, which can be problematic for downstream applications and for the trustworthiness of postprocessing models, especially when they are based on new machine learning approaches. Building on recent advances in physics-informed machine learning, we propose to achieve physical consistency in deep learning-based postprocessing models by integrating meteorological expertise in the form of analytic equations. Applied to the post-processing of surface weather in Switzerland, we find that constraining a neural network to enforce thermodynamic state equations yields physically-consistent predictions of temperature and humidity without compromising performance. Our approach is especially advantageous when data is scarce, and our findings suggest that incorporating domain expertise into postprocessing models allows to optimize weather forecast information while satisfying application-specific requirements.
翻訳日:2022-12-09 16:49:45 公開日:2022-12-07
# 確率的音声から視覚への拡散優先による発話頭部生成

Talking Head Generation with Probabilistic Audio-to-Visual Diffusion Priors ( http://arxiv.org/abs/2212.04248v1 )

ライセンス: Link先を確認
Zhentao Yu, Zixin Yin, Deyu Zhou, Duomin Wang, Finn Wong, Baoyuan Wang(参考訳) 本稿では,ワンショット音声駆動対話ヘッド生成のためのシンプルで斬新なフレームワークを提案する。 制御合成のための追加の駆動源を決定論的に要求する以前の作品とは異なり、我々は、音声-リップ同期のフォトリアリズムと全体的な自然性の両方を維持しながら、入力された音声にセマンティックに一致するように、全唇非関連顔の動き(例えば、ポーズ、表情、点滅、視線など)を確率的にサンプリングする。 これは,新たに提案する音声から視覚への拡散を,音声と不連続な非リップ表現のマッピング上で事前学習することで実現される。 従来の拡散の確率的性質のおかげで、我々のフレームワークの大きな利点は、同じ音声クリップを与えられた多様な顔の動きシーケンスを合成できることです。 一般ベンチマークの総合評価を通じて,(1)拡散前の自己回帰は,ほぼすべての指標において有意に優れており,(2)全体的なシステムは,音声-リップ同期の観点からは先行研究と競合するが,音声入力と意味的に調和しながら,リッチで自然な唇非関連顔の動きを効果的にサンプリングすることができる。

In this paper, we introduce a simple and novel framework for one-shot audio-driven talking head generation. Unlike prior works that require additional driving sources for controlled synthesis in a deterministic manner, we instead probabilistically sample all the holistic lip-irrelevant facial motions (i.e. pose, expression, blink, gaze, etc.) to semantically match the input audio while still maintaining both the photo-realism of audio-lip synchronization and the overall naturalness. This is achieved by our newly proposed audio-to-visual diffusion prior trained on top of the mapping between audio and disentangled non-lip facial representations. Thanks to the probabilistic nature of the diffusion prior, one big advantage of our framework is it can synthesize diverse facial motion sequences given the same audio clip, which is quite user-friendly for many real applications. Through comprehensive evaluations on public benchmarks, we conclude that (1) our diffusion prior outperforms auto-regressive prior significantly on almost all the concerned metrics; (2) our overall system is competitive with prior works in terms of audio-lip synchronization but can effectively sample rich and natural-looking lip-irrelevant facial motions while still semantically harmonized with the audio input.
翻訳日:2022-12-09 16:46:12 公開日:2022-12-07
# 配車サービス需要の短期予測--ディープラーニングによるアプローチ

Short term prediction of demand for ride hailing services: A deep learning approach ( http://arxiv.org/abs/2212.03956v1 )

ライセンス: Link先を確認
Long Chen, Piyushimita (Vonu) Thakuriah, Konstantinos Ampountolas(参考訳) 配車サービスが普及するにつれて、そうしたサービスの需要を正確に予測することは、ドライバーを顧客に効率的に割り当て、アイドル時間を短縮し、混雑を改善し、乗客体験を向上させるのに役立つ。 本稿では,配車サービス需要の短期予測のためのディープラーニング畳み込みニューラルネットワークUberNetを提案する。 UberNetは、文献で見つかった時間的および空間的な特徴を活用して、配車サービスの需要を説明する多変量フレームワークを運用している。 提案モデルは,様々な特徴の源列を符号化し,予測系列を復号する2つのサブネットワークを含む。 UberNetのパフォーマンスと有効性を評価するために、2014年のUberピックアップデータの9ヶ月と、ニューヨーク市の28の空間的および時間的特徴を使用します。 UberNetのパフォーマンスを他のいくつかのアプローチと比較することにより、モデルの予測品質が極めて競争力があることを示す。 さらに、ubernetの予測性能は、経済的、社会的、構築された環境機能を使用する場合に優れている。 これは、ubernetが配車サービスのリアルタイム乗客需要予測に複雑なモチベーションを組み込むのに自然に適していることを示唆している。

As ride-hailing services become increasingly popular, being able to accurately predict demand for such services can help operators efficiently allocate drivers to customers, and reduce idle time, improve congestion, and enhance the passenger experience. This paper proposes UberNet, a deep learning Convolutional Neural Network for short-term prediction of demand for ride-hailing services. UberNet empploys a multivariate framework that utilises a number of temporal and spatial features that have been found in the literature to explain demand for ride-hailing services. The proposed model includes two sub-networks that aim to encode the source series of various features and decode the predicting series, respectively. To assess the performance and effectiveness of UberNet, we use 9 months of Uber pickup data in 2014 and 28 spatial and temporal features from New York City. By comparing the performance of UberNet with several other approaches, we show that the prediction quality of the model is highly competitive. Further, Ubernet's prediction performance is better when using economic, social and built environment features. This suggests that Ubernet is more naturally suited to including complex motivators in making real-time passenger demand predictions for ride-hailing services.
翻訳日:2022-12-09 16:45:46 公開日:2022-12-07
# codebench: ニューラルネットワークアーキテクチャとハードウェアアクセラレーションの共同設計フレームワーク

CODEBench: A Neural Architecture and Hardware Accelerator Co-Design Framework ( http://arxiv.org/abs/2212.03965v1 )

ライセンス: Link先を確認
Shikhar Tuli, Chia-Hao Li, Ritvik Sharma, Niraj K. Jha(参考訳) 近年、機械学習(ML)モデルとアクセラレーターアーキテクチャの自動設計は、業界と学術の両方から大きな注目を集めている。 しかし、ほとんどの共同設計フレームワークは、限られた検索空間を探索するか、MLモデルとアクセラレータの同時設計決定調査に最適化された探索技術を採用する。 さらに、MLモデルをトレーニングし、加速器の性能をシミュレートするのは計算コストが高い。 これらの制限に対処するため、この研究はCODEBenchと呼ばれる新しいニューラルアーキテクチャとハードウェアアクセラレーターの共同設計フレームワークを提案する。 CNNBenchとAccelBenchという2つの新しいベンチマークサブフレームワークで構成されており、畳み込みニューラルネットワーク(CNN)とCNNアクセラレーターの拡張設計空間を探索している。 CNNBenchは、高度探索技術BOSHNASを活用して、二階勾配を用いて最適なCNNアーキテクチャに収束するために、ニューラルネットワークヘテロセダスティックサロゲートモデルを効率的に訓練する。 accelbenchは、幅広いデザイン空間における様々なアクセラレーターアーキテクチャのサイクル正確なシミュレーションを行う。 提案手法であるboshcodeにより,cnn-acceleratorペアは最先端のデータセットよりも1.4%高い精度を実現し,59.1%のレイテンシと60.8%の消費電力を実現している。 ImageNetデータセットでは、Top1の精度が43.8%、エネルギー消費11.2%で3.7%向上している。 CODEBenchは1.5%の精度と34.7倍のスループットを実現し、CIFAR-10では11.0倍の低エネルギー遅延製品(EDP)と4.0倍の低いチップ領域を実現している。

Recently, automated co-design of machine learning (ML) models and accelerator architectures has attracted significant attention from both the industry and academia. However, most co-design frameworks either explore a limited search space or employ suboptimal exploration techniques for simultaneous design decision investigations of the ML model and the accelerator. Furthermore, training the ML model and simulating the accelerator performance is computationally expensive. To address these limitations, this work proposes a novel neural architecture and hardware accelerator co-design framework, called CODEBench. It is composed of two new benchmarking sub-frameworks, CNNBench and AccelBench, which explore expanded design spaces of convolutional neural networks (CNNs) and CNN accelerators. CNNBench leverages an advanced search technique, BOSHNAS, to efficiently train a neural heteroscedastic surrogate model to converge to an optimal CNN architecture by employing second-order gradients. AccelBench performs cycle-accurate simulations for a diverse set of accelerator architectures in a vast design space. With the proposed co-design method, called BOSHCODE, our best CNN-accelerator pair achieves 1.4% higher accuracy on the CIFAR-10 dataset compared to the state-of-the-art pair, while enabling 59.1% lower latency and 60.8% lower energy consumption. On the ImageNet dataset, it achieves 3.7% higher Top1 accuracy at 43.8% lower latency and 11.2% lower energy consumption. CODEBench outperforms the state-of-the-art framework, i.e., Auto-NBA, by achieving 1.5% higher accuracy and 34.7x higher throughput, while enabling 11.0x lower energy-delay product (EDP) and 4.0x lower chip area on CIFAR-10.
翻訳日:2022-12-09 16:45:27 公開日:2022-12-07
# ラグランジアン双対による交流最適潮流の教師なし深層学習

Unsupervised Deep Learning for AC Optimal Power Flow via Lagrangian Duality ( http://arxiv.org/abs/2212.03977v1 )

ライセンス: Link先を確認
Kejun Chen, Shourya Bose, and Yu Zhang(参考訳) 非凸交流最適電力流(AC-OPF)は電力系統解析における基本的な最適化問題である。 従来の解法の計算複雑性は一般に高く、リアルタイムの大規模ネットワークには適さない。 したがって、ディープラーニングベースのアプローチは、オフラインで時間を要するトレーニングプロセスを実行するために集中的に注目を集めています。 教師付き学習法では、最小限の最適性ギャップを持つ実現可能なAC-OPFソリューションが得られる。 しかし、トレーニングデータセットを生成するには、従来の解法が必要なことが多い。 本稿では,ac-opfのための教師なし学習フレームワークを提案する。 我々は,AC電力流方程式を解くことにより,残りの変数を復元しながら,決定変数の部分集合を出力するディープニューラルネットワークを開発した。 高速で分離されたパワーフローソルバを用いて計算時間を短縮する。 さらに、トレーニング損失として拡張ラグランジアン関数を用いることを提案する。 乗算器は制約違反の程度に応じて動的に調整される。 大規模数値実験の結果は,既存手法に対する提案手法の利点を裏付けるものである。

Non-convex AC optimal power flow (AC-OPF) is a fundamental optimization problem in power system analysis. The computational complexity of conventional solvers is typically high and not suitable for large-scale networks in real-time operation. Hence, deep learning based approaches have gained intensive attention to conduct the time-consuming training process offline. Supervised learning methods may yield a feasible AC-OPF solution with a small optimality gap. However, they often need conventional solvers to generate the training dataset. This paper proposes an end-to-end unsupervised learning based framework for AC-OPF. We develop a deep neural network to output a partial set of decision variables while the remaining variables are recovered by solving AC power flow equations. The fast decoupled power flow solver is adopted to further reduce the computational time. In addition, we propose using a modified augmented Lagrangian function as the training loss. The multipliers are adjusted dynamically based on the degree of constraint violation. Extensive numerical test results corroborate the advantages of our proposed approach over some existing methods.
翻訳日:2022-12-09 16:44:54 公開日:2022-12-07
# m-sharpness-aware minimizationを用いたディープニューラルネットワークの一般化

Improved Deep Neural Network Generalization Using m-Sharpness-Aware Minimization ( http://arxiv.org/abs/2212.04343v1 )

ライセンス: Link先を確認
Kayhan Behdin, Qingquan Song, Aman Gupta, David Durfee, Ayan Acharya, Sathiya Keerthi, Rahul Mazumder(参考訳) 現代のディープラーニングモデルは過パラメータ化されており、最適化設定は一般化性能に強く影響を及ぼす。 これらのシステムの信頼性の高い最適化の鍵となる要素は損失関数の修正である。 シャープネス・アウェア・ミニミゼーション (sam) は基礎となる損失関数を改良し、より優れた一般化能力を持つフラットターミニマへの降下法を導く。 本稿では, mSAM と呼ばれる SAM の変種に着目し, トレーニング中, ミニバッチのいくつかの相反するシャードにまたがる対向的摂動による更新を平均化する。 近年の研究ではmSAMがSAMよりも精度が高いことが示唆されている。 しかし、mSAMに関する包括的な実証研究は文献から欠落しており、以前の結果は、主に特定のアーキテクチャやデータセットに限られていた。 そこで本稿では,様々なタスクやデータセットにおけるmSAMの徹底的な評価について述べる。 我々は、mSAMの柔軟な実装を提供し、mSAMの一般化性能と、異なる画像分類と自然言語処理タスクにおけるSAMおよびバニラ訓練の性能を比較した。 我々はまた,mSAMによるトレーニングの計算コスト,ハイパーパラメータに対する感度,および損失景観の平坦性との関係を理解するために,慎重に実験を行った。 解析の結果, mSAM は SAM と比較して, 計算コストを大幅に増大させることなく, 幅広いタスクにおいて, より優れた一般化性能とフラットな最小値が得られることがわかった。

Modern deep learning models are over-parameterized, where the optimization setup strongly affects the generalization performance. A key element of reliable optimization for these systems is the modification of the loss function. Sharpness-Aware Minimization (SAM) modifies the underlying loss function to guide descent methods towards flatter minima, which arguably have better generalization abilities. In this paper, we focus on a variant of SAM known as mSAM, which, during training, averages the updates generated by adversarial perturbations across several disjoint shards of a mini-batch. Recent work suggests that mSAM can outperform SAM in terms of test accuracy. However, a comprehensive empirical study of mSAM is missing from the literature -- previous results have mostly been limited to specific architectures and datasets. To that end, this paper presents a thorough empirical evaluation of mSAM on various tasks and datasets. We provide a flexible implementation of mSAM and compare the generalization performance of mSAM to the performance of SAM and vanilla training on different image classification and natural language processing tasks. We also conduct careful experiments to understand the computational cost of training with mSAM, its sensitivity to hyperparameters and its correlation with the flatness of the loss landscape. Our analysis reveals that mSAM yields superior generalization performance and flatter minima, compared to SAM, across a wide range of tasks without significantly increasing computational costs.
翻訳日:2022-12-09 16:35:57 公開日:2022-12-07
# 疾患変異予測のための教師なし言語モデル

Unsupervised language models for disease variant prediction ( http://arxiv.org/abs/2212.03979v1 )

ライセンス: Link先を確認
Allan Zhou, Nicholas C. Landolfi, Daniel C. O'Neill(参考訳) ヒト遺伝子におけるタンパク質変異の病原性を予測することにかなりの関心がある。 高品質なラベルの広さのため、近年のアプローチでは、複数のシーケンスアライメント(MSA)を使用して、各遺伝子内の自然配列の変化の生成モデルを訓練している。 これらの生成モデルは、進化的適合性の代用として変種確率を予測する。 この研究では、この進化原理と事前訓練されたタンパク質言語モデル(LM)を組み合わせ、すでにタンパク質の構造と機能を予測する有望な結果を示している。 遺伝子ごとに異なるモデルを訓練する代わりに、広い配列のデータセットで訓練された単一のタンパク質lmは、msaや微調整なしで、あらゆる遺伝子変異ゼロショットの病原性を決定することができる。 この非教師なしアプローチを \textbf{velm} (言語モデルによる可変効果) と呼び, 臨床的にラベル付けされた疾患関連遺伝子の変異について評価すると, 技術水準に匹敵するスコアリング性能が得られることを示した。

There is considerable interest in predicting the pathogenicity of protein variants in human genes. Due to the sparsity of high quality labels, recent approaches turn to \textit{unsupervised} learning, using Multiple Sequence Alignments (MSAs) to train generative models of natural sequence variation within each gene. These generative models then predict variant likelihood as a proxy to evolutionary fitness. In this work we instead combine this evolutionary principle with pretrained protein language models (LMs), which have already shown promising results in predicting protein structure and function. Instead of training separate models per-gene, we find that a single protein LM trained on broad sequence datasets can score pathogenicity for any gene variant zero-shot, without MSAs or finetuning. We call this unsupervised approach \textbf{VELM} (Variant Effect via Language Models), and show that it achieves scoring performance comparable to the state of the art when evaluated on clinically labeled variants of disease-related genes.
翻訳日:2022-12-09 16:26:28 公開日:2022-12-07
# 化学精度の高い原子間ニューラルネットワークポテンシャルの伝達学習

Transfer learning for chemically accurate interatomic neural network potentials ( http://arxiv.org/abs/2212.03916v1 )

ライセンス: Link先を確認
Viktor Zaverkin, David Holzm\"uller, Luca Bonfirraro, and Johannes K\"astner(参考訳) ab-initio電子構造法による機械学習に基づく原子間ポテンシャルの開発は、計算化学と材料科学にとって難しい課題である。 本研究は, MD17およびANIデータセットから有機分子上で, 化学的に正確な原子間ニューラルネットワーク電位を効率的に生成するための伝達学習能力について検討した。 密度汎関数計算から得られたデータからネットワークパラメータを事前学習することで,より正確なab-initioデータに基づくモデルのサンプル効率が大幅に向上することを示す。 さらに,エネルギーラベルのみによる微調整は,正確な原子間力を得るのに十分であり,大規模な原子間力シミュレーションを行う。 また,特に事前学習および微調整データセットの設計とサイズに関して,転送学習の限界について検討する。 最後に, ANI-1x および ANI-1ccx データセット上で事前訓練および微調整を行い, 有機分子に容易に微調整できる GM-NN 電位を提供する。

Developing machine learning-based interatomic potentials from ab-initio electronic structure methods remains a challenging task for computational chemistry and materials science. This work studies the capability of transfer learning for efficiently generating chemically accurate interatomic neural network potentials on organic molecules from the MD17 and ANI data sets. We show that pre-training the network parameters on data obtained from density functional calculations considerably improves the sample efficiency of models trained on more accurate ab-initio data. Additionally, we show that fine-tuning with energy labels alone suffices to obtain accurate atomic forces and run large-scale atomistic simulations. We also investigate possible limitations of transfer learning, especially regarding the design and size of the pre-training and fine-tuning data sets. Finally, we provide GM-NN potentials pre-trained and fine-tuned on the ANI-1x and ANI-1ccx data sets, which can easily be fine-tuned on and applied to organic molecules.
翻訳日:2022-12-09 16:20:25 公開日:2022-12-07
# Fraud Analytics: 研究の10年 - この分野における課題とソリューションの組織化

Fraud Analytics: A Decade of Research -- Organizing Challenges and Solutions in the Field ( http://arxiv.org/abs/2212.04329v1 )

ライセンス: Link先を確認
Christopher Bockel-Rickermann, Tim Verdonck, Wouter Verbeke(参考訳) 不正分析と不正検出に関する文献は、過去10年間で生産量を大幅に増加させている。 このことは、詐欺分析研究の様々な側面の幅広い研究トピックと全体的なほとんど組織化につながった。 学者の焦点は不正なクレジットカード支払いの特定から不正保険請求の特定まで多岐にわたる。 加えて、様々な方法や研究目的がある。 本研究の目的は,不正分析の概観を提供することであり,その規律と多くのサブフィールドをより狭く整理することである。 2011年から2020年にかけて発行された不正分析に関する300件近い記録のサンプルを分析した。 体系的に、私たちはアプリケーションの最も顕著な領域、直面する課題、パフォーマンスメトリクス、使用されるメソッドを特定します。 さらに,詐欺分析手法の枠組みを構築し,今後の研究のキーワード化戦略を提案する。 不正分析の重要な課題の1つは、公開データセットへのアクセスである。 コミュニティをさらに支援するため,研究の動機となる研究において,適切なデータセットに対する8つの要件を提供する。 文献のサンプルをオンラインデータベースに構築する。 データベースは、同僚の研究者が調査し、構築する可能性を秘めている。

The literature on fraud analytics and fraud detection has seen a substantial increase in output in the past decade. This has led to a wide range of research topics and overall little organization of the many aspects of fraud analytical research. The focus of academics ranges from identifying fraudulent credit card payments to spotting illegitimate insurance claims. In addition, there is a wide range of methods and research objectives. This paper aims to provide an overview of fraud analytics in research and aims to more narrowly organize the discipline and its many subfields. We analyze a sample of almost 300 records on fraud analytics published between 2011 and 2020. In a systematic way, we identify the most prominent domains of application, challenges faced, performance metrics, and methods used. In addition, we build a framework for fraud analytical methods and propose a keywording strategy for future research. One of the key challenges in fraud analytics is access to public datasets. To further aid the community, we provide eight requirements for suitable data sets in research motivated by our research. We structure our sample of the literature in an online database. The database is available online for fellow researchers to investigate and potentially build upon.
翻訳日:2022-12-09 16:08:10 公開日:2022-12-07
# 連続行動を考慮したイミテータポリシの高次性能保証

Tight Performance Guarantees of Imitator Policies with Continuous Actions ( http://arxiv.org/abs/2212.03922v1 )

ライセンス: Link先を確認
Davide Maran, Alberto Maria Metelli, Marcello Restelli(参考訳) 行動クローニング(bc)は、専門家が示す行動を模倣するポリシーを学ぶことを目的としている。 BC の現在の理論的理解は有限作用の場合に限定される。 本稿では,継続行動の場合の模倣者政策の性能に関する理論的保証を提供することを目的として,bcを考察する。 我々は、値関数がリプシッツ連続であるという仮定の下で、連続作用の専門家に適用可能なワッサーシュタイン距離に基づく性能ギャップに縛られる小説を導出することから始める。 この後者の条件は実際は困難であり、リプシッツマルコフ決定過程やポリシーに対しても、値関数が常にホルダー連続であることを証明する緩和された設定を提案する。 この結果は独立利害関係であり、bc では模倣者政策の実行に一般的な拘束力を得ることができる。 最後に、ノイズインジェクション(ノイズカーネルの適用後の環境において、エキスパートアクションが実行される一般的なプラクティス)を分析する。 この手法は,ノイズ付加によるバイアスを伴って,より強力な性能保証を導出することができることを示す。

Behavioral Cloning (BC) aims at learning a policy that mimics the behavior demonstrated by an expert. The current theoretical understanding of BC is limited to the case of finite actions. In this paper, we study BC with the goal of providing theoretical guarantees on the performance of the imitator policy in the case of continuous actions. We start by deriving a novel bound on the performance gap based on Wasserstein distance, applicable for continuous-action experts, holding under the assumption that the value function is Lipschitz continuous. Since this latter condition is hardy fulfilled in practice, even for Lipschitz Markov Decision Processes and policies, we propose a relaxed setting, proving that value function is always Holder continuous. This result is of independent interest and allows obtaining in BC a general bound for the performance of the imitator policy. Finally, we analyze noise injection, a common practice in which the expert action is executed in the environment after the application of a noise kernel. We show that this practice allows deriving stronger performance guarantees, at the price of a bias due to the noise addition.
翻訳日:2022-12-09 15:59:32 公開日:2022-12-07
# 生成逆ネットワークとスペクトルマッピングを用いた構造的健康モニタリングのためのゼロショットトランスファー学習

Zero-Shot Transfer Learning for Structural Health Monitoring using Generative Adversarial Networks and Spectral Mapping ( http://arxiv.org/abs/2212.04002v1 )

ライセンス: Link先を確認
Mohammad Hesam Soleimani-Babakamali, Roksana Soleimani-Babakamali, Kourosh Nasrollahzadeh, Onur Avci, Serkan Kiranyaz, Ertugrul Taciroglu(参考訳) 構造的健康モニタリング(SHM)アプリケーションのためのデータ駆動型またはハイブリッドモデルのトレーニングを成功させるために、適切にラベル付けされ、適切にリッチで、ケース固有のデータを集めることは、難しい作業である。 我々は,任意のソースドメインで利用可能なデータを活用し,ドメイン適応を通じて対象ドメインに直接適用するTransfer Learning (TL) 手法が,この問題に対処するための実質的な対策となることを示唆する。 そこで,本研究では,損傷事例と損傷事例とを区別し,ドメイン適応(DA)技術を利用する新たなTL手法を提案する。 DAモジュールは、ソースドメインの損傷のないケースと損傷しないケースとを対比して、蓄積した知識をターゲットドメインに転送する。 高次元の特徴は、信号処理領域の知識を利用して一般化可能なDAアプローチを考案することができる。 GAN(Generative Adversarial Network)アーキテクチャは、その最適化プロセスがゼロショット設定で高次元入力に対応するため、学習に採用されている。 同時に、その訓練目的は、その判別器ネットワークが実(損傷なし)データと偽(見えない損傷あり)データとを区別するため、SHMの無損傷データや損傷データとシームレスに一致する。 実験の結果,無害と損傷の差に関する知識を3つの強く異質な独立した標的構造に伝達することに成功した。 受信機動作特性曲線(曲線下の領域-auc)の下の領域は、対象領域における無損傷と損傷事例の区別を評価し、最大0.95の値に達する。 無損傷および損傷ケースが互いに識別された場合、ゼロショット構造損傷検出を行う。 3つの独立したデータセットの平均F1スコアは0.978、0.992、0.975である。

Gathering properly labelled, adequately rich, and case-specific data for successfully training a data-driven or hybrid model for structural health monitoring (SHM) applications is a challenging task. We posit that a Transfer Learning (TL) method that utilizes available data in any relevant source domain and directly applies to the target domain through domain adaptation can provide substantial remedies to address this issue. Accordingly, we present a novel TL method that differentiates between the source's no-damage and damage cases and utilizes a domain adaptation (DA) technique. The DA module transfers the accumulated knowledge in contrasting no-damage and damage cases in the source domain to the target domain, given only the target's no-damage case. High-dimensional features allow employing signal processing domain knowledge to devise a generalizable DA approach. The Generative Adversarial Network (GAN) architecture is adopted for learning since its optimization process accommodates high-dimensional inputs in a zero-shot setting. At the same time, its training objective conforms seamlessly with the case of no-damage and damage data in SHM since its discriminator network differentiates between real (no damage) and fake (possibly unseen damage) data. An extensive set of experimental results demonstrates the method's success in transferring knowledge on differences between no-damage and damage cases across three strongly heterogeneous independent target structures. The area under the Receiver Operating Characteristics curves (Area Under the Curve - AUC) is used to evaluate the differentiation between no-damage and damage cases in the target domain, reaching values as high as 0.95. With no-damage and damage cases discerned from each other, zero-shot structural damage detection is carried out. The mean F1 scores for all damages in the three independent datasets are 0.978, 0.992, and 0.975.
翻訳日:2022-12-09 15:59:14 公開日:2022-12-07
# 自律運転における3次元セマンティックセグメンテーションのドメイン一般化

Domain generalization of 3D semantic segmentation in autonomous driving ( http://arxiv.org/abs/2212.04245v1 )

ライセンス: Link先を確認
Jules Sanchez and Jean-Emmanuel Deschaud and Francois Goulette(参考訳) ディープラーニングを用いた3d自律運転セマンティクスセグメンテーションは、非常に高いパフォーマンスに達する方法を提供し、よく研究されている主題となっている。 それでも、トレーニングデータセットのサイズが限られているため、これらのモデルは現実世界のアプリケーションで見られるあらゆる種類のオブジェクトやシーンを見ることはできない。 これらの未知の環境で信頼性を持つ能力は、ドメイン一般化と呼ばれる。 その重要性にもかかわらず、ドメインの一般化は3次元自律運転セマンティックセグメンテーションの場合、比較的未解明である。 このギャップを埋めるために,最先端の手法をテストし,lidar領域シフトに取り組むことの難しさについて論じた。 また,この領域の一般化に対処するために設計された最初の手法を提案し,これを3DLabelPropと呼ぶ。 この方法は、LiDARデータの幾何とシーケンシャル性を利用して、部分的に蓄積された点雲に取り組むことにより、その一般化性能を向上させる。 これはsemantickittiのみをトレーニングしながらsemanticposs上で52.6%のmiouに達し、一般化のための最先端のメソッド(第2のベストメソッドより+7.4%優れている)となっている。 このメソッドのコードはgithubで入手できる。

3D autonomous driving semantic segmentation using deep learning has become, a well-studied subject, providing methods that can reach very high performance. Nonetheless, because of the limited size of the training datasets, these models cannot see every type of object and scenes found in real-world applications. The ability to be reliable in these various unknown environments is called domain generalization. Despite its importance, domain generalization is relatively unexplored in the case of 3D autonomous driving semantic segmentation. To fill this gap, this paper presents the first benchmark for this application by testing state-of-the-art methods and discussing the difficulty of tackling LiDAR domain shifts. We also propose the first method designed to address this domain generalization, which we call 3DLabelProp. This method relies on leveraging the geometry and sequentiality of the LiDAR data to enhance its generalization performances by working on partially accumulated point clouds. It reaches a mIoU of 52.6% on SemanticPOSS while being trained only on SemanticKITTI, making it state-of-the-art method for generalization (+7.4% better than the second best method). The code for this method will be available on Github.
翻訳日:2022-12-09 15:52:27 公開日:2022-12-07
# ViTPose+:ジェネリックボディポーズ推定のためのビジョントランスフォーマー基礎モデル

ViTPose+: Vision Transformer Foundation Model for Generic Body Pose Estimation ( http://arxiv.org/abs/2212.04246v1 )

ライセンス: Link先を確認
Yufei Xu, Jing Zhang, Qiming Zhang, Dacheng Tao(参考訳) 本稿では,モデル構造の単純さ,モデルサイズにおける拡張性,トレーニングパラダイムの柔軟性,モデル間の知識の伝達性など,様々な側面から身体ポーズ推定のためのプレーンビジョントランスフォーマの驚くほど優れた特性を,vitposeと呼ばれる単純なベースラインモデルを用いて示す。 具体的には、VTPoseは、特徴をエンコードするエンコーダと、ボディーキーポイントをトップダウンまたはボトムアップの方法でデコードする軽量デコーダとして、平らで非階層的な視覚変換器を使用している。 スケーラブルなモデルキャパシティとvision transformerの高並列性を利用して、スループットとパフォーマンスのために新しいparetoフロントを設定することで、約20mから1bのパラメータにスケールアップできる。 さらに、ViTPoseは注意タイプ、入力解像度、事前学習および微調整戦略に関して非常に柔軟である。 この柔軟性に基づき,多種多様なボディポーズ推定タスク,すなわち,タスク非依存およびタスク特化フィードフォワードネットワークをトランスフォーマーに導入することにより,不均一なボディキーポイントカテゴリを扱う新しいViTPose+モデルを提案する。 また,大規模なViTPoseモデルの知識を,簡単な知識トークンで簡単に小さなものに伝達できることを実証的に実証した。 実験結果から, トップダウンおよびボトムアップの両設定において, 課題であるMS COCO Human Keypoint Detectionベンチマークにおいて, 提案するViTPoseモデルよりも優れていた。 さらに,人間のキーポイント検出のためのMS COCO, AI Challenger, OCHuman, MPII, 全身キーポイント検出のためのCOCO-Wholebody, 動物のキーポイント検出のためのAP-10K, APT-36Kなど,一連のボディポーズ推定タスクを同時に行う。

In this paper, we show the surprisingly good properties of plain vision transformers for body pose estimation from various aspects, namely simplicity in model structure, scalability in model size, flexibility in training paradigm, and transferability of knowledge between models, through a simple baseline model dubbed ViTPose. Specifically, ViTPose employs the plain and non-hierarchical vision transformer as an encoder to encode features and a lightweight decoder to decode body keypoints in either a top-down or a bottom-up manner. It can be scaled up from about 20M to 1B parameters by taking advantage of the scalable model capacity and high parallelism of the vision transformer, setting a new Pareto front for throughput and performance. Besides, ViTPose is very flexible regarding the attention type, input resolution, and pre-training and fine-tuning strategy. Based on the flexibility, a novel ViTPose+ model is proposed to deal with heterogeneous body keypoint categories in different types of body pose estimation tasks via knowledge factorization, i.e., adopting task-agnostic and task-specific feed-forward networks in the transformer. We also empirically demonstrate that the knowledge of large ViTPose models can be easily transferred to small ones via a simple knowledge token. Experimental results show that our ViTPose model outperforms representative methods on the challenging MS COCO Human Keypoint Detection benchmark at both top-down and bottom-up settings. Furthermore, our ViTPose+ model achieves state-of-the-art performance simultaneously on a series of body pose estimation tasks, including MS COCO, AI Challenger, OCHuman, MPII for human keypoint detection, COCO-Wholebody for whole-body keypoint detection, as well as AP-10K and APT-36K for animal keypoint detection, without sacrificing inference speed.
翻訳日:2022-12-09 15:52:05 公開日:2022-12-07
# 編集可能なNeRF: トポロジカルに可変なニューラルラジアンスフィールドをキーポイントで編集する

EditableNeRF: Editing Topologically Varying Neural Radiance Fields by Key Points ( http://arxiv.org/abs/2212.04247v1 )

ライセンス: Link先を確認
Chengwei Zheng, Wenbin Lin, Feng Xu(参考訳) ニューラルレイディアンス場(NeRF)は、高光写実的ノベルビュー合成を実現するが、特にダイナミックシーンにおいて、NeRFベースの手法でモデル化されたシーンを編集することは難しい問題である。 本稿では,動的シーンの編集やトポロジ的変化の支援などが可能な編集可能なニューラルレイディアンスフィールドを提案する。 一つのカメラから画像シーケンスを入力すると、ネットワークは完全に自動的に訓練され、選択した表面キーポイントを用いて位相的に変化するダイナミクスをモデル化する。 そして、エンドユーザーは、キーポイントを必要な新しい位置にドラッグするだけでシーンを編集できる。 そこで本研究では,シーン内のダイナミクスを考慮し,キーポイントの検出と初期化を行うシーン分析手法と,結合キーポイントと重み付け最適化による位相変化ダイナミクスをモデル化する重み付きキーポイント戦略を提案する。 提案手法は直感的な多次元編集(最大3次元)をサポートし,入力シーケンスにない斬新なシーンを生成する。 実験により,様々な動的シーンで高品質な編集が可能となり,最先端を上回っていることを示す。 コードを公開し、データをキャプチャします。

Neural radiance fields (NeRF) achieve highly photo-realistic novel-view synthesis, but it's a challenging problem to edit the scenes modeled by NeRF-based methods, especially for dynamic scenes. We propose editable neural radiance fields that enable end-users to easily edit dynamic scenes and even support topological changes. Input with an image sequence from a single camera, our network is trained fully automatically and models topologically varying dynamics using our picked-out surface key points. Then end-users can edit the scene by easily dragging the key points to desired new positions. To achieve this, we propose a scene analysis method to detect and initialize key points by considering the dynamics in the scene, and a weighted key points strategy to model topologically varying dynamics by joint key points and weights optimization. Our method supports intuitive multi-dimensional (up to 3D) editing and can generate novel scenes that are unseen in the input sequence. Experiments demonstrate that our method achieves high-quality editing on various dynamic scenes and outperforms the state-of-the-art. We will release our code and captured data.
翻訳日:2022-12-09 15:51:29 公開日:2022-12-07
# FSID: プロシージャシーン生成による完全な合成画像

FSID: Fully Synthetic Image Denoising via Procedural Scene Generation ( http://arxiv.org/abs/2212.03961v1 )

ライセンス: Link先を確認
Gyeongmin Choe, Beibei Du, Seonghyeon Nam, Xiaoyu Xiang, Bo Zhu, Rakesh Ranjan(参考訳) 低レベルのコンピュータビジョンと画像処理MLタスクでは、大規模データセットでのトレーニングが一般化に不可欠である。 しかし、主にインターネットから実世界のイメージに依存する標準的なプラクティスは、画像の品質、スケーラビリティ、そして特に商業的なコンテキストにおけるプライバシーの問題である。 そこで我々は,低レベルの視覚タスクに適した手続き型合成データ生成パイプラインとデータセットを開発した。 私たちのUnrealエンジンベースの合成データパイプラインは、ランダムな3Dオブジェクト、材料、幾何学的変換の組み合わせで、大きなシーンをアルゴリズムで生成します。 そして、カメラノイズプロファイルを校正してノイズ画像を合成する。 このパイプラインから、175,000のノイズ/クリーンな画像対からなる完全合成画像復調データセット(FSID)を作成した。 そして,スマートフォンカメラで撮影した実世界のノイズ画像から,この合成データだけで訓練したモデルが,競合するノイズ評価結果が得られることを示した。

For low-level computer vision and image processing ML tasks, training on large datasets is critical for generalization. However, the standard practice of relying on real-world images primarily from the Internet comes with image quality, scalability, and privacy issues, especially in commercial contexts. To address this, we have developed a procedural synthetic data generation pipeline and dataset tailored to low-level vision tasks. Our Unreal engine-based synthetic data pipeline populates large scenes algorithmically with a combination of random 3D objects, materials, and geometric transformations. Then, we calibrate the camera noise profiles to synthesize the noisy images. From this pipeline, we generated a fully synthetic image denoising dataset (FSID) which consists of 175,000 noisy/clean image pairs. We then trained and validated a CNN-based denoising model, and demonstrated that the model trained on this synthetic data alone can achieve competitive denoising results when evaluated on real-world noisy images captured with smartphone cameras.
翻訳日:2022-12-09 15:35:10 公開日:2022-12-07
# Cycle-resemblance 注意による医療画像の断片化

Few-shot Medical Image Segmentation with Cycle-resemblance Attention ( http://arxiv.org/abs/2212.03967v1 )

ライセンス: Link先を確認
Hao Ding, Changchang Sun, Hao Tang, Dawen Cai, Yan Yan(参考訳) 近年,医用画像の応用要件の増大と医用画像への注釈付けの専門的要件により,医用画像意味セグメンテーションの分野では,数発学習が注目されている。 ラベル付き医療画像の少ないセグメンテーションを実現するため,既存の研究の多くはPN(Proto-typeal Networks)を用いており,有望な成功を収めている。 しかし,提案する表現ネットワークから抽出した問合せ画像は見落とし,問合せ画像とサポート画像間の空間的接続を維持できなかった。 本稿では,クエリと医用画像のサポートのピクセルワイド関係をフル活用する,自己監督型少ショット医療画像セグメンテーションネットワークを提案し,CRA(Cycle-Resemblance Attention)モジュールを提案する。 特筆すべきは、我々はより豊富な関係情報を洗練するために、最初に複数の注意ブロックを並べる。 次に,CRAモジュールを古典的なプロトタイプネットワークに統合することによりCRAPNetを提案する。 腹部mriや腹部ctなど,2種類の医用画像データセットに関する広範囲な実験により,既存の最先端法よりも優れたモデルが得られた。

Recently, due to the increasing requirements of medical imaging applications and the professional requirements of annotating medical images, few-shot learning has gained increasing attention in the medical image semantic segmentation field. To perform segmentation with limited number of labeled medical images, most existing studies use Proto-typical Networks (PN) and have obtained compelling success. However, these approaches overlook the query image features extracted from the proposed representation network, failing to preserving the spatial connection between query and support images. In this paper, we propose a novel self-supervised few-shot medical image segmentation network and introduce a novel Cycle-Resemblance Attention (CRA) module to fully leverage the pixel-wise relation between query and support medical images. Notably, we first line up multiple attention blocks to refine more abundant relation information. Then, we present CRAPNet by integrating the CRA module with a classic prototype network, where pixel-wise relations between query and support features are well recaptured for segmentation. Extensive experiments on two different medical image datasets, e.g., abdomen MRI and abdomen CT, demonstrate the superiority of our model over existing state-of-the-art methods.
翻訳日:2022-12-09 15:34:54 公開日:2022-12-07
# 行動解析に強制注意を向けたマルチモーダル視覚変換器

Multimodal Vision Transformers with Forced Attention for Behavior Analysis ( http://arxiv.org/abs/2212.03968v1 )

ライセンス: Link先を確認
Tanay Agrawal, Michal Balazia, Philipp M\"uller, Fran\c{c}ois Br\'emond(参考訳) 人間の行動を理解するには、複数の入力モダリティを含むシーンの大きなコンテキストの微妙な詳細を見る必要がある。 より人間的なマシンの設計を可能にするためである。 トランスフォーマーアプローチは大幅に改善されているが、データ不足やバックグラウンドノイズなど、さまざまな課題に直面している。 これらの問題に対処するために,入力エンコーディングと追加入力の使用に改良されたバックボーンを付加した強制注意変換器(FAt)を導入する。 異なるタスクや入力のパフォーマンス向上に加えて、修正には時間とメモリリソースの削減が必要となる。 社会的シグナルと行動分析に関するタスクを一般化した特徴抽出モデルを提案する。 私たちの焦点は、人々が互いに対話しているビデオの動作を理解することや、社会的相互作用における最初の視点をシミュレートするカメラに話しかけることにあります。 ファットトランスフォーマーは、パーソナリティ認識とボディランゲージ認識の2つの下流タスクに適用される。 Udiva v0.5, First Impressions v2, MPII Group Interaction データセットの最先端結果を得た。 さらに,提案アーキテクチャの広範なアブレーション研究を行った。

Human behavior understanding requires looking at minute details in the large context of a scene containing multiple input modalities. It is necessary as it allows the design of more human-like machines. While transformer approaches have shown great improvements, they face multiple challenges such as lack of data or background noise. To tackle these, we introduce the Forced Attention (FAt) Transformer which utilize forced attention with a modified backbone for input encoding and a use of additional inputs. In addition to improving the performance on different tasks and inputs, the modification requires less time and memory resources. We provide a model for a generalised feature extraction for tasks concerning social signals and behavior analysis. Our focus is on understanding behavior in videos where people are interacting with each other or talking into the camera which simulates the first person point of view in social interaction. FAt Transformers are applied to two downstream tasks: personality recognition and body language recognition. We achieve state-of-the-art results for Udiva v0.5, First Impressions v2 and MPII Group Interaction datasets. We further provide an extensive ablation study of the proposed architecture.
翻訳日:2022-12-09 15:34:32 公開日:2022-12-07
# 時空間シフト下における超解像雨映画予測のための雨雲

RainUNet for Super-Resolution Rain Movie Prediction under Spatio-temporal Shifts ( http://arxiv.org/abs/2212.04005v1 )

ライセンス: Link先を確認
Jinyoung Park, Minseok Son, Seungju Cho, Inyoung Lee, Changick Kim(参考訳) 本稿では,weather4cast 2022チャレンジステージ2の解法を提案する。 課題の目的は,低解像度マルチバンド衛星画像を用いた地中レーダからの高分解能降雨イベントの予測である。 本稿では,課題に適したデータ前処理を行い,新しいRainUNetを用いて降雨映画を予測する手法を提案する。 rainunetは、時間分割可能なブロック(tsブロック)を持つ階層型u字型ネットワークで、デカップリングされた大きなカーネル3d畳み込みを用いて予測性能を向上させる。 様々な評価指標から,本手法はベースライン法と比較して有効であることが示された。 ソースコードはhttps://github.com/jinyxp/weather4cast-2022で入手できる。

This paper presents a solution to the Weather4cast 2022 Challenge Stage 2. The goal of the challenge is to forecast future high-resolution rainfall events obtained from ground radar using low-resolution multiband satellite images. We suggest a solution that performs data preprocessing appropriate to the challenge and then predicts rainfall movies using a novel RainUNet. RainUNet is a hierarchical U-shaped network with temporal-wise separable block (TS block) using a decoupled large kernel 3D convolution to improve the prediction performance. Various evaluation metrics show that our solution is effective compared to the baseline method. The source codes are available at https://github.com/jinyxp/Weather4cast-2022
翻訳日:2022-12-09 15:34:14 公開日:2022-12-07
# 仮想視覚言語推論タスクにおける学習行動効果ダイナミクス

Learning Action-Effect Dynamics for Hypothetical Vision-Language Reasoning Task ( http://arxiv.org/abs/2212.03866v1 )

ライセンス: Link先を確認
Shailaja Keyur Sampat, Pratyay Banerjee, Yezhou Yang and Chitta Baral(参考訳) 人間と世界との相互作用には「行動」が重要な役割を果たしている。 このように、日々の作業を支援する自律エージェントは、「行動と変化に関する推論(RAC)」を実行する能力も必要となる。 これは人工知能(AI)全般において重要な研究方向であるが、視覚的および言語的な入力を伴うRACの研究は比較的最近である。 CLEVR_HYP (Sampat et. al., 2021) は、仮説的な視覚言語推論のためのテストベッドであり、アクションが中心となる。 本研究では,行動の影響に関する推論を改善するための新しい学習戦略を提案する。 我々は,動作の表現をベクトルとして学習するために,エンコーダ・デコーダアーキテクチャを実装した。 上述のエンコーダデコーダアーキテクチャと既存のモダリティパーサとシーングラフ質問応答モデルを組み合わせることで,提案したシステムをCLEVR_HYPデータセット上で評価する。 提案手法の有効性を実証するために徹底的な実験を行い,性能,データ効率,一般化能力の観点から,従来のベースラインよりも優れていることを示す。

'Actions' play a vital role in how humans interact with the world. Thus, autonomous agents that would assist us in everyday tasks also require the capability to perform 'Reasoning about Actions & Change' (RAC). This has been an important research direction in Artificial Intelligence (AI) in general, but the study of RAC with visual and linguistic inputs is relatively recent. The CLEVR_HYP (Sampat et. al., 2021) is one such testbed for hypothetical vision-language reasoning with actions as the key focus. In this work, we propose a novel learning strategy that can improve reasoning about the effects of actions. We implement an encoder-decoder architecture to learn the representation of actions as vectors. We combine the aforementioned encoder-decoder architecture with existing modality parsers and a scene graph question answering model to evaluate our proposed system on the CLEVR_HYP dataset. We conduct thorough experiments to demonstrate the effectiveness of our proposed approach and discuss its advantages over previous baselines in terms of performance, data efficiency, and generalization capability.
翻訳日:2022-12-09 15:23:15 公開日:2022-12-07
# 多元的spoofトレースの学習 : 対面反スプーフィングのためのマルチモーダル異方性ネットワーク

Learning Polysemantic Spoof Trace: A Multi-Modal Disentanglement Network for Face Anti-spoofing ( http://arxiv.org/abs/2212.03943v1 )

ライセンス: Link先を確認
Kaicheng Li, Hongyu Yang, Binghui Chen, Pengyu Li, Biao Wang, Di Huang(参考訳) 顔認識システムの普及に伴い、その脆弱性が強調されている。 既存のフェイス・アンチ・スプーフィングメソッドは攻撃タイプ間で一般化することができるが、spoof特性の多様性のため、汎用的なソリューションは依然として困難である。 近年,スプーフトレースのアンタングル化フレームワークは,見知らぬスプーフシナリオと見えないスプーフシナリオの両方に対処する大きな可能性を示しているが,その性能は単一モーダル入力によって大きく制限されている。 本稿では,より高精度でロバストな汎用攻撃検出のための多元的spoofトレースを対象とするマルチモーダル異方性モデルを提案する。 特に,対向学習機構に基づき,rgbと奥行き入力からspoofパターンを推定するために,2ストリームの分散ネットワークが設計されている。 この場合、異なる攻撃で引き起こされる相補的なスプーフィングの手がかりをキャプチャする。 さらに、複数の段階で両方の表現を再結合し、個々のモダリティにおける絡み合いを促進する融合モジュールが悪用されている。 次にクロスモダリティアグリゲーションを実行し、予測のためにより包括的なspoofトレース表現を提供する。 複数のベンチマークで広範な評価が行われ、多神学的なspoofトレースの学習が、より知覚可能で解釈可能な結果を持つアンチスプーフィングに有利に寄与することを示した。

Along with the widespread use of face recognition systems, their vulnerability has become highlighted. While existing face anti-spoofing methods can be generalized between attack types, generic solutions are still challenging due to the diversity of spoof characteristics. Recently, the spoof trace disentanglement framework has shown great potential for coping with both seen and unseen spoof scenarios, but the performance is largely restricted by the single-modal input. This paper focuses on this issue and presents a multi-modal disentanglement model which targetedly learns polysemantic spoof traces for more accurate and robust generic attack detection. In particular, based on the adversarial learning mechanism, a two-stream disentangling network is designed to estimate spoof patterns from the RGB and depth inputs, respectively. In this case, it captures complementary spoofing clues inhering in different attacks. Furthermore, a fusion module is exploited, which recalibrates both representations at multiple stages to promote the disentanglement in each individual modality. It then performs cross-modality aggregation to deliver a more comprehensive spoof trace representation for prediction. Extensive evaluations are conducted on multiple benchmarks, demonstrating that learning polysemantic spoof traces favorably contributes to anti-spoofing with more perceptible and interpretable results.
翻訳日:2022-12-09 15:22:59 公開日:2022-12-07
# 辺縁クラスタリングと多変量クラスタリングのための並列化モデルに基づくアプローチ

A parallelizable model-based approach for marginal and multivariate clustering ( http://arxiv.org/abs/2212.04009v1 )

ライセンス: Link先を確認
Miguel de Carvalho, Gabriel Martos Venturini, Andrej Svetlo\v{s}\'ak(参考訳) 本稿では,モデルに基づくクラスタリングの頑健さを生かしたクラスタリング手法を開発し,その落とし穴の軽減を図る。 まず、標準モデルベースのクラスタリングはマージン毎に同じ数のクラスタを発生させる可能性があることに留意する。 各マージンが異なる数のクラスタを持つことを可能にするマージン当たりの有限混合モデルを定義し、戦略ゲームに触発されたアルゴリズムを使って多変量データをクラスタ化する。 第二に、提案されたクラスタリングアプローチは、マージンのモデルのみを指定するが、ジョイントを未定のままにしておくので、部分的に並列化できるという利点がある。 人工データに関する数値実験のバッテリは、提案手法の様々なシナリオにおける全体的な優れた性能を示し、実際のデータセットを使用して、その応用を実演する。

This paper develops a clustering method that takes advantage of the sturdiness of model-based clustering, while attempting to mitigate some of its pitfalls. First, we note that standard model-based clustering likely leads to the same number of clusters per margin, which seems a rather artificial assumption for a variety of datasets. We tackle this issue by specifying a finite mixture model per margin that allows each margin to have a different number of clusters, and then cluster the multivariate data using a strategy game-inspired algorithm to which we call Reign-and-Conquer. Second, since the proposed clustering approach only specifies a model for the margins -- but leaves the joint unspecified -- it has the advantage of being partially parallelizable; hence, the proposed approach is computationally appealing as well as more tractable for moderate to high dimensions than a `full' (joint) model-based clustering approach. A battery of numerical experiments on artificial data indicate an overall good performance of the proposed methods in a variety of scenarios, and real datasets are used to showcase their application in practice.
翻訳日:2022-12-09 15:16:30 公開日:2022-12-07
# DDoD:AIチームによる決定的攻撃の二重否定

DDoD: Dual Denial of Decision Attacks on Human-AI Teams ( http://arxiv.org/abs/2212.03980v1 )

ライセンス: Link先を確認
Benjamin Tag, Niels van Berkel, Sunny Verma, Benjamin Zi Hao Zhao, Shlomo Berkovsky, Dali Kaafar, Vassilis Kostakos, Olga Ohrimenko(参考訳) 人工知能(AI)システムは、意思決定プロセスをより速く、より正確に、より効率的にするためにますます使われています。 しかし、このようなシステムは攻撃される危険性も常にある。 AIベースのアプリケーションをターゲットにした攻撃の大半は、分類器やトレーニングデータを操作し、AIモデルの出力を変更することを目的としているが、最近提案されたスポンジ攻撃は、かなりのリソースを消費することで分類器の実行を妨げることを目的としている。 本研究では,協調型AIチームに対する「DDOD」攻撃を提案する。 我々は,このような攻撃が<textit{both compute and human>リソースを減らし,意思決定能力を著しく損なうことを論じる。 人的および計算資源上のDDoDについて述べるとともに、一連の模範領域における潜在的なリスクシナリオを示す。

Artificial Intelligence (AI) systems have been increasingly used to make decision-making processes faster, more accurate, and more efficient. However, such systems are also at constant risk of being attacked. While the majority of attacks targeting AI-based applications aim to manipulate classifiers or training data and alter the output of an AI model, recently proposed Sponge Attacks against AI models aim to impede the classifier's execution by consuming substantial resources. In this work, we propose \textit{Dual Denial of Decision (DDoD) attacks against collaborative Human-AI teams}. We discuss how such attacks aim to deplete \textit{both computational and human} resources, and significantly impair decision-making capabilities. We describe DDoD on human and computational resources and present potential risk scenarios in a series of exemplary domains.
翻訳日:2022-12-09 15:07:01 公開日:2022-12-07
# 交通流予測のための時空間自己監督学習

Spatio-Temporal Self-Supervised Learning for Traffic Flow Prediction ( http://arxiv.org/abs/2212.04475v1 )

ライセンス: Link先を確認
Jiahao Ji, Jingyuan Wang, Chao Huang, Junjie Wu, Boren Xu, Zhenhe Wu, Junbo Zhang, Yu Zheng(参考訳) 異なる時期における都市全体の交通流のロバストな予測は、インテリジェント交通システムにおいて重要な役割を果たす。 従来の研究は時空間相関のモデル化に多大な努力を払ってきたが、既存の手法には以下の2つの重要な制限がある。 一 殆どのモデルは、空間的不均一性を考慮せずに、一括して全ての領域の流れを予測する。 二 このモデルでは、時間変化のパターンによって引き起こされる時間的不均一性を捉えることができず、典型的には時間的相関を全時間にわたって共有パラメータ化空間でモデル化する。 これらの課題に対処するために,空間的・時間的不均一性を反映した交通パターン表現を補助的な自己教師型学習パラダイムで拡張する,新しい時空間自己監視学習(ST-SSL)トラフィック予測フレームワークを提案する。 具体的には、ST-SSLは時間的・空間的な畳み込みを備えた統合モジュール上に構築され、空間的・時間的に情報を符号化する。 適応時空間自己教師付き学習を実現するために,st-sslは属性レベルと構造レベルでのトラヒックフローグラフデータに対する適応強化を行う。 拡張トラフィックグラフ上に2つのSSL補助タスクを構築し,空間的および時間的不均一性を考慮した拡張によるトラフィック予測タスクを補完する。 4つのベンチマークデータセットの実験では、ST-SSLは様々な最先端のベースラインを一貫して上回っている。 時空間の不均一性は実用的なデータセットに広く存在するため、提案手法は他の時空間応用にも光を当てることができる。 モデル実装はhttps://github.com/Echo-Ji/ST-SSLで公開されている。

Robust prediction of citywide traffic flows at different time periods plays a crucial role in intelligent transportation systems. While previous work has made great efforts to model spatio-temporal correlations, existing methods still suffer from two key limitations: i) Most models collectively predict all regions' flows without accounting for spatial heterogeneity, i.e., different regions may have skewed traffic flow distributions. ii) These models fail to capture the temporal heterogeneity induced by time-varying traffic patterns, as they typically model temporal correlations with a shared parameterized space for all time periods. To tackle these challenges, we propose a novel Spatio-Temporal Self-Supervised Learning (ST-SSL) traffic prediction framework which enhances the traffic pattern representations to be reflective of both spatial and temporal heterogeneity, with auxiliary self-supervised learning paradigms. Specifically, our ST-SSL is built over an integrated module with temporal and spatial convolutions for encoding the information across space and time. To achieve the adaptive spatio-temporal self-supervised learning, our ST-SSL first performs the adaptive augmentation over the traffic flow graph data at both attribute- and structure-levels. On top of the augmented traffic graph, two SSL auxiliary tasks are constructed to supplement the main traffic prediction task with spatial and temporal heterogeneity-aware augmentation. Experiments on four benchmark datasets demonstrate that ST-SSL consistently outperforms various state-of-the-art baselines. Since spatio-temporal heterogeneity widely exists in practical datasets, the proposed framework may also cast light on other spatial-temporal applications. Model implementation is available at https://github.com/Echo-Ji/ST-SSL.
翻訳日:2022-12-09 14:58:14 公開日:2022-12-07
# 需給不確実性下における鉱物資産評価グラフの学習

Learning on Graphs for Mineral Asset Valuation Under Supply and Demand Uncertainty ( http://arxiv.org/abs/2212.03865v1 )

ライセンス: Link先を確認
Yassine Yaakoubi, Hager Radi, Roussos Dimitrakopoulos(参考訳) 鉱物資源の評価は資源や埋蔵量を取り巻く供給(地質学的)の不確実性や需要の不確実性(コモディティ・プライス)に大きく依存する課題である。 本研究では,「採掘複雑化」フレームワークにおいて,供給・需要不確実性の下での鉱物資源評価と鉱山計画のスケジューリングと最適化を共同で行うために,グラフベースの推論・モデリング・解法を提案する。 3つのグラフベースのソリューションが提案されている。 (i)ブロックサンプリングされた鉱石の体表象を学ぶ神経分岐政策 (二)ヒューリスティック選択木を探索することを学ぶ指導方針 三 グラフ構造としてモデル化された値/供給連鎖最適化とダイナミクスを管理する超ヒューリスティック。 2つの大規模産業用地雷施設で行った結果, 原産品の最適度, 実行時間, 繰り返し回数の最大3桁の減少, 鉱物資源価値の最大40%の増大が確認された。

Valuing mineral assets is a challenging task that is highly dependent on the supply (geological) uncertainty surrounding resources and reserves, and the uncertainty of demand (commodity prices). In this work, a graph-based reasoning, modeling and solution approach is proposed to jointly address mineral asset valuation and mine plan scheduling and optimization under supply and demand uncertainty in the "mining complex" framework. Three graph-based solutions are proposed: (i) a neural branching policy that learns a block-sampling ore body representation, (ii) a guiding policy that learns to explore a heuristic selection tree, (iii) a hyper-heuristic that manages the value/supply chain optimization and dynamics modeled as a graph structure. Results on two large-scale industrial mining complexes show a reduction of up to three orders of magnitude in primal suboptimality, execution time, and number of iterations, and an increase of up to 40% in the mineral asset value.
翻訳日:2022-12-09 14:48:16 公開日:2022-12-07
# コビッド19号用医薬品リサイクル知識グラフの解析

Analysis of Drug repurposing Knowledge graphs for Covid-19 ( http://arxiv.org/abs/2212.03911v1 )

ライセンス: Link先を確認
Ajay Kumar Gogineni(参考訳) 知識グラフ(KG)は、エンティティとエンティティ間の構造的関係の観点でデータを表現するために用いられる。 この表現は、レコメンデーションシステムや質問応答といった複雑な問題を解決するために用いられる。 本研究では,drkg(drreposing knowledge graph)を用いて,covid-19候補薬のセットを提案する。 DRKGは、化合物のメカニズムと関連する生物学的機能を理解するために、大量のオープンソースバイオメディカル知識を用いて構築された生物学的知識グラフである。 ノードと関係埋め込みは知識グラフ埋め込みモデルとニューラルネットワークおよび注意関連モデルを用いて学習される。 異なるモデルを使用して、モデルの目的を変更してノードを埋め込む。 これらの埋め込みは後に、2つのノード間のリンク予測タスクとしてモデル化できる疾患に関連するタンパク質に、候補薬が病気の治療に有効であるか、あるいは薬物がどの程度結合するかを予測するために使用される。 RESCALは、MR、MRR、Hits@3でテストデータセットでベストを尽くした。

Knowledge graph (KG) is used to represent data in terms of entities and structural relations between the entities. This representation can be used to solve complex problems such as recommendation systems and question answering. In this study, a set of candidate drugs for COVID-19 are proposed by using Drug repurposing knowledge graph (DRKG). DRKG is a biological knowledge graph constructed using a vast amount of open source biomedical knowledge to understand the mechanism of compounds and the related biological functions. Node and relation embeddings are learned using knowledge graph embedding models and neural network and attention related models. Different models are used to get the node embedding by changing the objective of the model. These embeddings are later used to predict if a candidate drug is effective to treat a disease or how likely it is for a drug to bind to a protein associated to a disease which can be modelled as a link prediction task between two nodes. RESCAL performed the best on the test dataset in terms of MR, MRR and Hits@3.
翻訳日:2022-12-09 14:47:59 公開日:2022-12-07
# 国別重要度サンプリングによる低変数オフ政治評価

Low Variance Off-policy Evaluation with State-based Importance Sampling ( http://arxiv.org/abs/2212.03932v1 )

ライセンス: Link先を確認
David M. Bossens and Philip Thomas(参考訳) 政治外の強化学習において、行動政策は環境との探索的相互作用を行い、状態-行動-回帰サンプルを取得し、その結果、期待されるリターンを最適化するターゲットポリシーを学ぶのに使用される。 これは、しばしば無関係な行動ポリシーによって収集されたサンプルからターゲットポリシーを評価する必要がある、オフポリシー評価の問題につながる。 重要度サンプリングは伝統的統計手法であり、しばしば政治外評価に適用される。 重要度サンプリング推定器は偏りがないが、その分散は、行動確率比の積として重要度を計算し、長期計画を含む領域に対して低い精度で推定値を得るため、決定過程の水平線とともに指数関数的に増加する。 本稿では,「ネグリブル状態」を伴うサブトラジェクタの動作確率比を,大まかに言えば,選択された動作が回帰推定に影響を与えない状態に対して,重要度重みの計算から低下させる状態に基づく重要度サンプリング(sis)を提案する。 理論的には、この結果は分散上限の指数を減少させ、平均二乗誤差を改善できることを示した。 共分散テストに基づく自動探索アルゴリズムを提案し, 状態に基づく重要度サンプリングを行う際に最小のmseを持つ無視可能な状態集合を同定する。 リフト領域では、アクションが次の状態と報酬に影響を与えない「リフト状態」を含む実験が行われる。 その結果,sisは従来の重要度サンプリング,分解毎重要度サンプリング,インクリメンタル重要度サンプリングに比べて,ばらつきの低減と精度の向上を実現した。

In off-policy reinforcement learning, a behaviour policy performs exploratory interactions with the environment to obtain state-action-reward samples which are then used to learn a target policy that optimises the expected return. This leads to a problem of off-policy evaluation, where one needs to evaluate the target policy from samples collected by the often unrelated behaviour policy. Importance sampling is a traditional statistical technique that is often applied to off-policy evaluation. While importance sampling estimators are unbiased, their variance increases exponentially with the horizon of the decision process due to computing the importance weight as a product of action probability ratios, yielding estimates with low accuracy for domains involving long-term planning. This paper proposes state-based importance sampling (SIS), which drops the action probability ratios of sub-trajectories with "neglible states" -- roughly speaking, those for which the chosen actions have no impact on the return estimate -- from the computation of the importance weight. Theoretical results show that this results in a reduction of the exponent in the variance upper bound as well as improving the mean squared error. An automated search algorithm based on covariance testing is proposed to identify a negligible state set which has minimal MSE when performing state-based importance sampling. Experiments are conducted on a lift domain, which include "lift states" where the action has no impact on the following state and reward. The results demonstrate that using the search algorithm, SIS yields reduced variance and improved accuracy compared to traditional importance sampling, per-decision importance sampling, and incremental importance sampling.
翻訳日:2022-12-09 14:47:42 公開日:2022-12-07
# グラフ検索の学習ヒューリスティックス

Learning Graph Search Heuristics ( http://arxiv.org/abs/2212.03978v1 )

ライセンス: Link先を確認
Michal P\'andy, Weikang Qiu, Gabriele Corso, Petar Veli\v{c}kovi\'c, Rex Ying, Jure Leskovec, Pietro Li\`o(参考訳) グラフ内の2つのノード間の経路を探すことは、コンピュータ科学において最もよく研究され基礎的な問題の一つである。 ロボット工学、AI、生物学などの多くの分野において、実践者はパスフィニングアルゴリズムを加速するために探索ヒューリスティックを開発する。 しかし、与えられたユースケースの問題と構造に基づいてヒューリスティックを手作業で設計するのは、面倒で複雑なプロセスである。 本稿では,新しいニューラルアーキテクチャであるphil(path heuristic with imitation learning)と,模倣学習とグラフ表現学習の最近の進歩を活用して,データからグラフ探索とナビゲーションヒューリスティックを検出するためのトレーニングアルゴリズムを提案する。 学習時には,探索軌跡と最短経路距離のデータセットを集約し,パスフィンディングプロセスのステップを通じてバックプロパゲーションを用いて,特殊なグラフニューラルネットワークに基づくヒューリスティック関数を訓練する。 我々のヒューリスティック関数は、ノード距離の推定に有用なグラフ埋め込みを学習し、グラフサイズに依存しない一定時間動作し、テスト時にa*のようなアルゴリズムに容易に組み込むことができる。 実験の結果、PHILはベンチマークデータセットの最先端の手法と比較して探索ノードの数を平均58.5倍に減らし、生物学的ネットワークから道路ネットワークまで多様なグラフに直接適用でき、時間クリティカルなロボット分野における高速な計画を可能にしている。

Searching for a path between two nodes in a graph is one of the most well-studied and fundamental problems in computer science. In numerous domains such as robotics, AI, or biology, practitioners develop search heuristics to accelerate their pathfinding algorithms. However, it is a laborious and complex process to hand-design heuristics based on the problem and the structure of a given use case. Here we present PHIL (Path Heuristic with Imitation Learning), a novel neural architecture and a training algorithm for discovering graph search and navigation heuristics from data by leveraging recent advances in imitation learning and graph representation learning. At training time, we aggregate datasets of search trajectories and ground-truth shortest path distances, which we use to train a specialized graph neural network-based heuristic function using backpropagation through steps of the pathfinding process. Our heuristic function learns graph embeddings useful for inferring node distances, runs in constant time independent of graph sizes, and can be easily incorporated in an algorithm such as A* at test time. Experiments show that PHIL reduces the number of explored nodes compared to state-of-the-art methods on benchmark datasets by 58.5\% on average, can be directly applied in diverse graphs ranging from biological networks to road networks, and allows for fast planning in time-critical robotics domains.
翻訳日:2022-12-09 14:47:11 公開日:2022-12-07
# TweetDrought:Twitterのデータに基づく深海干ばつの影響

TweetDrought: A Deep-Learning Drought Impacts Recognizer based on Twitter Data ( http://arxiv.org/abs/2212.04001v1 )

ライセンス: Link先を確認
Beichen Zhang, Frank Schilder, Kelly Helm Smith, Michael J. Hayes, Sherri Harms, Tsegaye Tadesse(参考訳) 干ばつの影響をよりよく理解するようになると、温暖な気候下ではますます重要になる。 伝統的な干ばつ指標は主に生物物理学的な変数であり、社会、経済、環境システムに影響を与えない。 我々は、Transformers (BERT) を用いたトランスフォーマーによる双方向エンコーダ表現を用いて、ニュースベースのDrought Impact Report (DIR) のデータに基づいてモデルを微調整し、米国からのフィルタリングされたTwitterデータに基づいて7種類の干ばつ影響を認識する。 DIRテストセットで満足度0.89のマクロF1スコアを得た。 モデルはカリフォルニアのツイートに適用され、キーワードベースのラベルで検証された。 マクロF1スコアは0.58。 しかし、キーワードの制限により、議論を呼んだラベルでチェックされたツイートも発見できる。 BERTラベルの83.5%はキーワードラベルと比較して正しい。 全体として、細調整されたBERTベースの認識器は、干ばつの影響について適切な予測と貴重な情報を提供した。 モデルの解釈と分析は、経験的ドメインの専門知識と一致していた。

Acquiring a better understanding of drought impacts becomes increasingly vital under a warming climate. Traditional drought indices describe mainly biophysical variables and not impacts on social, economic, and environmental systems. We utilized natural language processing and bidirectional encoder representation from Transformers (BERT) based transfer learning to fine-tune the model on the data from the news-based Drought Impact Report (DIR) and then apply it to recognize seven types of drought impacts based on the filtered Twitter data from the United States. Our model achieved a satisfying macro-F1 score of 0.89 on the DIR test set. The model was then applied to California tweets and validated with keyword-based labels. The macro-F1 score was 0.58. However, due to the limitation of keywords, we also spot-checked tweets with controversial labels. 83.5% of BERT labels were correct compared to the keyword labels. Overall, the fine-tuned BERT-based recognizer provided proper predictions and valuable information on drought impacts. The interpretation and analysis of the model were consistent with experiential domain expertise.
翻訳日:2022-12-09 14:38:39 公開日:2022-12-07
# メディア体験によるメディアの記憶可能性の予測

Experiences from the MediaEval Predicting Media Memorability Task ( http://arxiv.org/abs/2212.03955v1 )

ライセンス: Link先を確認
Alba Garc\'ia Deco de Herrera and Mihai Gabriel Constantin and Chaire-H\'el\`ene Demarty and Camilo Fosco and Sebastian Halder and Graham Healy and Bogdan Ionescu and Ana Matran-Fernandez and Alan F. Smeaton and Mushfika Sultana and Lorin Sweeney(参考訳) MediaEval評価キャンペーンにおける予測メディア記憶可能性タスクは、2018年から毎年実施されており、この時期にはいくつかの異なるタスクやデータセットが使用されている。 これにより、同じデータと再現可能な方法で多くの記憶可能性予測技術の性能を比較し、それらの技術を洗練・改善することができる。 メディアの記憶力を計算するために作られたリソースは現在、実際の評価キャンペーンを超えて研究者によって使用されている。 本稿では,研究コミュニティで学んだ総合的な教訓を含め,課題の概要を紹介する。

The Predicting Media Memorability task in the MediaEval evaluation campaign has been running annually since 2018 and several different tasks and data sets have been used in this time. This has allowed us to compare the performance of many memorability prediction techniques on the same data and in a reproducible way and to refine and improve on those techniques. The resources created to compute media memorability are now being used by researchers well beyond the actual evaluation campaign. In this paper we present a summary of the task, including the collective lessons we have learned for the research community.
翻訳日:2022-12-09 14:37:48 公開日:2022-12-07
# 脳年齢推定のための深層学習 : 体系的考察

Deep Learning for Brain Age Estimation: A Systematic Review ( http://arxiv.org/abs/2212.03868v1 )

ライセンス: Link先を確認
M. Tanveer, M. A. Ganaie, Iman Beheshti, Tripti Goel, Nehal Ahmad, Kuan-Ting Lai, Kaizhu Huang, Yu-Dong Zhang, Javier Del Ser, Chin-Teng Lin(参考訳) 長年にわたり、機械学習モデルは脳の年齢を正確に予測するために神経画像データにうまく使われてきた。 健康な脳老化パターンからの逸脱は、加速された脳老化と脳の異常と関連している。 したがって、正確な脳年齢推定を行うには、効率的かつ正確な診断技術が必要である。 この目的のために、さまざまなデータ駆動モデリングメソッドを使用して、過去にいくつかのコントリビューションが報告されている。 近年、深層ニューラルネットワーク(深層学習とも呼ばれる)は、脳年齢推定を含む多様体神経画像研究で広く使われている。 本稿では,神経画像データを用いた脳年齢推定における深層学習の適用に関する文献の包括的分析を行う。 このアプリケーションで使用されるさまざまなディープラーニングアーキテクチャの詳細と分析を行い、その応用を定量的に探求する論文を公開している。 また,脳年齢推定の枠組みについても検討し,その利点と弱点を比較検討した。 最後に,今後の方向性を展望し,今後の研究をめざしてレビューを締めくくった。 本論文の最終的な目標は,深層学習モデルを用いて脳年齢推定に近づこうとする新入者や経験者に対する,共通かつインフォームドな参考文献の確立である。

Over the years, Machine Learning models have been successfully employed on neuroimaging data for accurately predicting brain age. Deviations from the healthy brain aging pattern are associated to the accelerated brain aging and brain abnormalities. Hence, efficient and accurate diagnosis techniques are required for eliciting accurate brain age estimations. Several contributions have been reported in the past for this purpose, resorting to different data-driven modeling methods. Recently, deep neural networks (also referred to as deep learning) have become prevalent in manifold neuroimaging studies, including brain age estimation. In this review, we offer a comprehensive analysis of the literature related to the adoption of deep learning for brain age estimation with neuroimaging data. We detail and analyze different deep learning architectures used for this application, pausing at research works published to date quantitatively exploring their application. We also examine different brain age estimation frameworks, comparatively exposing their advantages and weaknesses. Finally, the review concludes with an outlook towards future directions that should be followed by prospective studies. The ultimate goal of this paper is to establish a common and informed reference for newcomers and experienced researchers willing to approach brain age estimation by using deep learning models
翻訳日:2022-12-09 14:31:22 公開日:2022-12-07
# XAIを超える: 説明指導型学習の体系的調査

Going Beyond XAI: A Systematic Survey for Explanation-Guided Learning ( http://arxiv.org/abs/2212.03954v1 )

ライセンス: Link先を確認
Yuyang Gao, Siyi Gu, Junji Jiang, Sungsoo Ray Hong, Dazhou Yu, Liang Zhao(参考訳) ディープニューラルネットワーク(DNN)の社会的影響が増大するにつれて、従来のモデルの精度基準の改善から、公正性、説明責任、透明性(FaccT)、不偏性といった高度な人間の美徳の注入まで、DNNを進めるための目標はより複雑で多様になる。 近年、説明可能な人工知能(XAI)の技術が注目されており、機械学習(ML)エンジニアがAIモデルを理解するのに大いに役立っている。 しかし、同時に、AIコミュニティにおけるXAI以外のニーズの出現を目の当たりにし始めた。XAIから学んだ知見に基づいて、モデルの合理的さとパフォーマンスを意図通りに改善できるように、DNNを運営するMLエンジニアにどのように権限を与えることができるのか? 本稿は、DNNの推論プロセスに正規化、監督、モデル説明への介入を加えることによって、DNNの推論プロセスを支援する手法の分野である説明指導学習(EGL)について、タイムリーかつ広範な文献概要を提供する。 そこで我々はまず,EGLとその一般学習パラダイムを形式的に定義する。 次に、egl評価の重要な要因の概要と、既存の評価手順とeglのためのメトリクスの要約と分類について述べる。 最後に、eglの現在および将来の応用分野と方向性について論じ、コンピュータビジョン(cv)や自然言語処理(nlp)ドメインなど、様々な一般的なアプリケーションドメインにおける既存のeglモデル間の包括的比較研究を目的とする広範な実験研究を行った。

As the societal impact of Deep Neural Networks (DNNs) grows, the goals for advancing DNNs become more complex and diverse, ranging from improving a conventional model accuracy metric to infusing advanced human virtues such as fairness, accountability, transparency (FaccT), and unbiasedness. Recently, techniques in Explainable Artificial Intelligence (XAI) are attracting considerable attention, and have tremendously helped Machine Learning (ML) engineers in understanding AI models. However, at the same time, we started to witness the emerging need beyond XAI among AI communities; based on the insights learned from XAI, how can we better empower ML engineers in steering their DNNs so that the model's reasonableness and performance can be improved as intended? This article provides a timely and extensive literature overview of the field Explanation-Guided Learning (EGL), a domain of techniques that steer the DNNs' reasoning process by adding regularization, supervision, or intervention on model explanations. In doing so, we first provide a formal definition of EGL and its general learning paradigm. Secondly, an overview of the key factors for EGL evaluation, as well as summarization and categorization of existing evaluation procedures and metrics for EGL are provided. Finally, the current and potential future application areas and directions of EGL are discussed, and an extensive experimental study is presented aiming at providing comprehensive comparative studies among existing EGL models in various popular application domains, such as Computer Vision (CV) and Natural Language Processing (NLP) domains.
翻訳日:2022-12-09 14:31:05 公開日:2022-12-07
# 音素ベースニューラルトランスデューサの格子自由系列判別訓練

Lattice-Free Sequence Discriminative Training for Phoneme-Based Neural Transducers ( http://arxiv.org/abs/2212.04325v1 )

ライセンス: Link先を確認
Zijian Yang, Wei Zhou, Ralf Schl\"uter, Hermann Ney(参考訳) 近年,RNN-Transducersは様々な自動音声認識タスクにおいて顕著な成果を上げている。 しかし,RNNトランスデューサでは,ハイブリッドモードにおいて優れた性能を示す格子フリーシーケンス識別訓練法はほとんど研究されていない。 本研究では,音素ベースニューラルトランスデューサの最終後方出力に使用する格子フリーな最大相互情報,格子フリーセグメントレベル最小ベイズリスク,格子フリー最小ベイズリスクという3つの格子フリートレーニング目標を提案する。 N-bestリストを用いた基準と比較すると、格子フリーな手法はトレーニング中の仮説生成の復号ステップを排除し、より効率的なトレーニングをもたらす。 実験の結果, 格子自由法は, シーケンスレベルのクロスエントロピー訓練モデルと比較して, 単語誤り率を最大6.5%向上させることがわかった。 N-best-listベースの最小ベイズリスク目標と比較すると、格子フリーな手法は性能の低下とともに40%から70%の相対的なトレーニングタイムスピードアップが得られる。

Recently, RNN-Transducers have achieved remarkable results on various automatic speech recognition tasks. However, lattice-free sequence discriminative training methods, which obtain superior performance in hybrid modes, are rarely investigated in RNN-Transducers. In this work, we propose three lattice-free training objectives, namely lattice-free maximum mutual information, lattice-free segment-level minimum Bayes risk, and lattice-free minimum Bayes risk, which are used for the final posterior output of the phoneme-based neural transducer with a limited context dependency. Compared to criteria using N-best lists, lattice-free methods eliminate the decoding step for hypotheses generation during training, which leads to more efficient training. Experimental results show that lattice-free methods gain up to 6.5% relative improvement in word error rate compared to a sequence-level cross-entropy trained model. Compared to the N-best-list based minimum Bayes risk objectives, lattice-free methods gain 40% - 70% relative training time speedup with a small degradation in performance.
翻訳日:2022-12-09 14:29:49 公開日:2022-12-07
# 未来に対する反事実

Counterfactuals for the Future ( http://arxiv.org/abs/2212.03974v1 )

ライセンス: Link先を確認
Lucius E. J. Bynum, Joshua R. Loftus, Julia Stoyanovich(参考訳) 反事実はしばしば「回想的」と表現され、実現された過去に対する仮説上の代替に焦点が当てられる。 この記述は、モデル化されているシステムにおける外因性変数の構造と安定性に関する暗黙の仮定にしばしば関係している。 本研究では,各単位の外因性雑音項が何らかの単位固有構造や安定性を示すという,外因性変数に関する異なる仮定を合理的に行う場合を考える。 これは、反事実(retrospective)ではなく、別の反事実(forward-look)の利用につながります。 本稿では,前向きな対人行為を動機づける治療選択問題である「対人的治療選択」を導入する。 次に、外因性雑音に関する異なる仮定と整合した治療選択に対する介入的アプローチと前方的アプローチのミスマッチが、いかに直感的結果をもたらすかを検討する。

Counterfactuals are often described as 'retrospective,' focusing on hypothetical alternatives to a realized past. This description relates to an often implicit assumption about the structure and stability of exogenous variables in the system being modeled -- an assumption that is reasonable in many settings where counterfactuals are used. In this work, we consider cases where we might reasonably make a different assumption about exogenous variables, namely, that the exogenous noise terms of each unit do exhibit some unit-specific structure and/or stability. This leads us to a different use of counterfactuals -- a 'forward-looking' rather than 'retrospective' counterfactual. We introduce "counterfactual treatment choice," a type of treatment choice problem that motivates using forward-looking counterfactuals. We then explore how mismatches between interventional versus forward-looking counterfactual approaches to treatment choice, consistent with different assumptions about exogenous noise, can lead to counterintuitive results.
翻訳日:2022-12-09 14:29:30 公開日:2022-12-07
# 科学テキストによる事前学習による教育的質問生成の改善

Pre-Training With Scientific Text Improves Educational Question Generation ( http://arxiv.org/abs/2212.03869v1 )

ライセンス: Link先を確認
Hamze Muse, Sahan Bulathwela and Emine Yilmaz(参考訳) デジタル教材やスケーラブルなeラーニングシステムの普及に伴い、ai支援によるパーソナライズド学習を実現する可能性が高まっている。 この状況では、教育的質問の自動生成が重要な役割を担い、グローバル人口が個人化された学習旅行を運用している場合に、スケーラブルな自己評価を可能にする。 EduQGは,大規模言語モデルに適応して構築された,新しい教育用質問生成モデルである。 最初の実験では、EduQGは科学テキストを事前学習することで優れた教育的質問を作成できることを示した。

With the boom of digital educational materials and scalable e-learning systems, the potential for realising AI-assisted personalised learning has skyrocketed. In this landscape, the automatic generation of educational questions will play a key role, enabling scalable self-assessment when a global population is manoeuvring their personalised learning journeys. We develop EduQG, a novel educational question generation model built by adapting a large language model. Our initial experiments demonstrate that EduQG can produce superior educational questions by pre-training on scientific text.
翻訳日:2022-12-09 14:22:14 公開日:2022-12-07
# 深層畳み込みニューラルネットワークを進化させるマルチソース変換学習に基づく効率的な進化的深層学習フレームワーク

An Efficient Evolutionary Deep Learning Framework Based on Multi-source Transfer Learning to Evolve Deep Convolutional Neural Networks ( http://arxiv.org/abs/2212.03942v1 )

ライセンス: Link先を確認
Bin Wang, Bing Xue, Mengjie Zhang(参考訳) 畳み込みニューラルネットワーク(CNN)は、より複雑なトポロジを導入し、より深くより広いCNNへのキャパシティを拡大することで、長年にわたって、より優れたパフォーマンスを実現してきた。 これにより、CNNのマニュアル設計が極めて困難になるため、CNNの自動化設計が研究スポットライトとなり、手動設計のCNNよりも優れたCNNが得られる。 しかし、計算コストは依然としてCNNを自動設計するボトルネックである。 本稿では, 伝達学習に触発され, 分類精度を損なうことなくcnnを効率的に発展させるための新しい進化計算ベースフレームワークを提案する。 提案フレームワークは,ターゲットドメインデータセットよりも小さなデータセットであるマルチソースドメインを活用して,一般化されたCNNブロックを1回だけ進化させる。 そして,進化したブロックを拡張,深層化するために新しいスタック化手法を提案し,最適なスタック化解を求めるグリッド探索法を提案する。 実験により,提案手法は,40時間以内で15の競合相手よりも高速に優れたCNNを取得することを示す。 分類精度に関して,提案手法は,CIFAR-10,CIFAR-100,SVHNデータセットでそれぞれ3.46%,18.36%,1.76%の誤差率を達成し,競合相手に対して高い競争力を発揮する。

Convolutional neural networks (CNNs) have constantly achieved better performance over years by introducing more complex topology, and enlarging the capacity towards deeper and wider CNNs. This makes the manual design of CNNs extremely difficult, so the automated design of CNNs has come into the research spotlight, which has obtained CNNs that outperform manually-designed CNNs. However, the computational cost is still the bottleneck of automatically designing CNNs. In this paper, inspired by transfer learning, a new evolutionary computation based framework is proposed to efficiently evolve CNNs without compromising the classification accuracy. The proposed framework leverages multi-source domains, which are smaller datasets than the target domain datasets, to evolve a generalised CNN block only once. And then, a new stacking method is proposed to both widen and deepen the evolved block, and a grid search method is proposed to find optimal stacking solutions. The experimental results show the proposed method acquires good CNNs faster than 15 peer competitors within less than 40 GPU-hours. Regarding the classification accuracy, the proposed method gains its strong competitiveness against the peer competitors, which achieves the best error rates of 3.46%, 18.36% and 1.76% for the CIFAR-10, CIFAR-100 and SVHN datasets, respectively.
翻訳日:2022-12-09 14:21:46 公開日:2022-12-07
# マルチレートVAE:列車が1回、全速度歪曲する

Multi-Rate VAE: Train Once, Get the Full Rate-Distortion Curve ( http://arxiv.org/abs/2212.03905v1 )

ライセンス: Link先を確認
Juhan Bae, Michael R. Zhang, Michael Ruan, Eric Wang, So Hasegawa, Jimmy Ba, Roger Grosse(参考訳) variational autoencoder(vaes)は、幅広いアプリケーションで使用されるデータの潜在表現を学ぶための強力なツールである。 実際には、vaesは通常、潜在変数が保持する情報量を選択するために複数のトレーニングラウンドを必要とする。 再構成誤差(歪み)とKL発散率(レート)とのこのトレードオフは通常、ハイパーパラメータ$\beta$でパラメータ化される。 本稿では,1回のトレーニングで,様々な$\beta$に対応する最適パラメータを学習するための計算効率の良いフレームワークであるMulti-Rate VAE(MR-VAE)を紹介する。 重要なアイデアは、$\beta$をハイパーネットワークを使用して最適なパラメータにマッピングする応答関数を明示的に定式化することである。 MR-VAEは、$\beta$に基づいて条件付きでプレアクティベーションをゲートする、コンパクトな応答ハイパーネットワークを構築する。 線形VAEを解析し、線形VAEに対して正確に応答関数を表現できることを示し、提案アーキテクチャを正当化する。 学習されたハイパーネットワークにより、mr-vaesは追加のトレーニングなしでレート分散曲線を構築でき、ハイパーパラメータチューニングをかなり少なくしてデプロイできる。 実証的に、我々のアプローチは競争力があり、最小限の計算とメモリオーバーヘッドで複数の$\beta$-VAEsトレーニングのパフォーマンスを上回ることが多い。

Variational autoencoders (VAEs) are powerful tools for learning latent representations of data used in a wide range of applications. In practice, VAEs usually require multiple training rounds to choose the amount of information the latent variable should retain. This trade-off between the reconstruction error (distortion) and the KL divergence (rate) is typically parameterized by a hyperparameter $\beta$. In this paper, we introduce Multi-Rate VAE (MR-VAE), a computationally efficient framework for learning optimal parameters corresponding to various $\beta$ in a single training run. The key idea is to explicitly formulate a response function that maps $\beta$ to the optimal parameters using hypernetworks. MR-VAEs construct a compact response hypernetwork where the pre-activations are conditionally gated based on $\beta$. We justify the proposed architecture by analyzing linear VAEs and showing that it can represent response functions exactly for linear VAEs. With the learned hypernetwork, MR-VAEs can construct the rate-distortion curve without additional training and can be deployed with significantly less hyperparameter tuning. Empirically, our approach is competitive and often exceeds the performance of multiple $\beta$-VAEs training with minimal computation and memory overheads.
翻訳日:2022-12-09 14:20:16 公開日:2022-12-07
# リンクストリーム解析のための周波数構造アプローチ

A Frequency-Structure Approach for Link Stream Analysis ( http://arxiv.org/abs/2212.03804v1 )

ライセンス: Link先を確認
Esteban Bautista and Matthieu Latapy(参考訳) リンクストリームは、$(t, u, v)$というトリプレットのセットで、$u$と$v$がt$でやりとりされたことを示す。 リンクストリームモデル 多数のデータセットとその適切な研究は多くのアプリケーションで不可欠である。 実際には、生のリンクストリームは、しばしば集約されるか、決定が行われる時系列やグラフに変換される。 しかし、生のリンクストリームの動的および構造的情報が変換対象にどう影響するかは、まだ不明である。 本研究では,代数線形グラフと信号演算子を用いたリンクストリームの研究により,この問題に光を当てることが可能であることを示す。 また,その線形性から,信号処理の手法の多くはリンクストリームの時間・周波数情報の解析に容易に適用できることを示す。 しかし,リレーショナル/構造情報を解析するための線形グラフ法は限られている。 我々は開発によるこの制限に対処する (i)異なる解像度レベルで構造に分解できるグラフの新たな基盤 (ii) 制御された方法で構造情報を変更可能なグラフのフィルタ。 これらの開発とその時間ドメインを私たちのフレームワークにプラグインすることで、私たちは、 (i)周波数構造領域でそれらを表現できるリンクストリームの新しい基底を取得し、 (ii) 相互作用の集約やユークリッド空間への埋め込みなど、リンクストリームに対する多くの興味深い変換は、周波数構造領域における単純なフィルタと見なすことができる。

A link stream is a set of triplets $(t, u, v)$ indicating that $u$ and $v$ interacted at time $t$. Link streams model numerous datasets and their proper study is crucial in many applications. In practice, raw link streams are often aggregated or transformed into time series or graphs where decisions are made. Yet, it remains unclear how the dynamical and structural information of a raw link stream carries into the transformed object. This work shows that it is possible to shed light into this question by studying link streams via algebraically linear graph and signal operators, for which we introduce a novel linear matrix framework for the analysis of link streams. We show that, due to their linearity, most methods in signal processing can be easily adopted by our framework to analyze the time/frequency information of link streams. However, the availability of linear graph methods to analyze relational/structural information is limited. We address this limitation by developing (i) a new basis for graphs that allow us to decompose them into structures at different resolution levels; and (ii) filters for graphs that allow us to change their structural information in a controlled manner. By plugging-in these developments and their time-domain counterpart into our framework, we are able to (i) obtain a new basis for link streams that allow us to represent them in a frequency-structure domain; and (ii) show that many interesting transformations to link streams, like the aggregation of interactions or their embedding into a euclidean space, can be seen as simple filters in our frequency-structure domain.
翻訳日:2022-12-08 17:31:18 公開日:2022-12-07
# 多様体の線形切断の計算:量子絡み合い、テンソル分解など

Computing linear sections of varieties: quantum entanglement, tensor decompositions and beyond ( http://arxiv.org/abs/2212.03851v1 )

ライセンス: Link先を確認
Nathaniel Johnston, Benjamin Lovitz and Aravindan Vijayaraghavan(参考訳) 我々は、与えられた線型部分空間(ここで$\mathbb{F}$は実あるいは複素体)との任意の円錐多様体の交叉における元を見つける問題を研究する。 この問題は、多種多様な選択の下でアルゴリズムの問題の豊富な族を捉えている。 ランク1行列からなる多様体の特殊ケースは、量子情報理論やテンソル分解など、様々な領域における中心問題と強く結びついている。 この問題は、ランク1の様々な行列であっても最悪の場合においてNPハードであることが知られている。 驚くべきことに、これらの困難さにもかかわらず、我々は「典型的な」部分空間でこの問題を解決する効率的なアルゴリズムを与える。 ここで、部分空間 $u \subseteq \mathbb{f}^n$ は、ある次元のジェネリックに選択され、その多様体のいくつかのジェネリック要素がそれに含まれる可能性がある。 我々のアルゴリズムの主な結果は多項式時間アルゴリズムであり、多様体上の穏やかな非退化仮定の下で、多様体に存在する$u$のすべての要素を回復する。 以下の結果が得られる: $\bullet$ uniqueness results and polynomial time algorithms for generic instance of a broad class of low-rank decomposition problems which goes beyond tensor decompositions。 ここでは、$\sum_{i=1}^R v_i \otimes w_i$ という形の分解を復元する。 これはテンソル分解の特別な場合においても新しいアルゴリズムによる結果を意味する。 量子エンタングルメントにおけるいくつかのエンタングル部分空間問題に対する$\bullet$多項式時間アルゴリズムは、$r$エンタングルメント、完全エンタングルメント、真の部分空間のエンタングルメントの決定を含む。 これらの問題はすべて最悪の場合np-hardであるが、本アルゴリズムは最大値の定数倍までの次元の一般部分空間に対して多項式時間で解く。

We study the problem of finding elements in the intersection of an arbitrary conic variety in $\mathbb{F}^n$ with a given linear subspace (where $\mathbb{F}$ can be the real or complex field). This problem captures a rich family of algorithmic problems under different choices of the variety. The special case of the variety consisting of rank-1 matrices already has strong connections to central problems in different areas like quantum information theory and tensor decompositions. This problem is known to be NP-hard in the worst-case, even for the variety of rank-1 matrices. Surprisingly, despite these hardness results we give efficient algorithms that solve this problem for "typical" subspaces. Here, the subspace $U \subseteq \mathbb{F}^n$ is chosen generically of a certain dimension, potentially with some generic elements of the variety contained in it. Our main algorithmic result is a polynomial time algorithm that recovers all the elements of $U$ that lie in the variety, under some mild non-degeneracy assumptions on the variety. As corollaries, we obtain the following results: $\bullet$ Uniqueness results and polynomial time algorithms for generic instances of a broad class of low-rank decomposition problems that go beyond tensor decompositions. Here, we recover a decomposition of the form $\sum_{i=1}^R v_i \otimes w_i$, where the $v_i$ are elements of the given variety $X$. This implies new algorithmic results even in the special case of tensor decompositions. $\bullet$ Polynomial time algorithms for several entangled subspaces problems in quantum entanglement, including determining $r$-entanglement, complete entanglement, and genuine entanglement of a subspace. While all of these problems are NP-hard in the worst case, our algorithm solves them in polynomial time for generic subspaces of dimension up to a constant multiple of the maximum possible.
翻訳日:2022-12-08 17:30:36 公開日:2022-12-07
# スマートグリッドにおけるサイバーアタック検出とローカライズのための時間グラフニューラルネットワーク

A Temporal Graph Neural Network for Cyber Attack Detection and Localization in Smart Grids ( http://arxiv.org/abs/2212.03390v1 )

ライセンス: Link先を確認
Seyed Hamed Haghshenas, Md Abul Hasnat, Mia Naeini(参考訳) 本稿では,スマートグリッドのシステム状態に対する偽データインジェクションとランプ攻撃の検出とローカライズを行うための時間グラフニューラルネットワーク(TGNN)フレームワークを提案する。 GNNフレームワークによるシステムのトポロジ情報と状態測定を同時に取得することで,検出機構の性能を向上させることができる。 この問題は、異常測定を識別するメッセージパッシング機構を備えたGNNを介して分類問題として定式化される。 メッセージパッシングの集約プロセスで使用される残差ブロックとゲートリカレントユニットは、計算時間と性能を改善することができる。 提案モデルの性能は,電力系統状態と有望な性能を示す攻撃シナリオの広範なシミュレーションにより評価されている。 また、攻撃の強度と位置に対するモデルの感度と、モデルの検出遅延と検出精度についても評価した。

This paper presents a Temporal Graph Neural Network (TGNN) framework for detection and localization of false data injection and ramp attacks on the system state in smart grids. Capturing the topological information of the system through the GNN framework along with the state measurements can improve the performance of the detection mechanism. The problem is formulated as a classification problem through a GNN with message passing mechanism to identify abnormal measurements. The residual block used in the aggregation process of message passing and the gated recurrent unit can lead to improved computational time and performance. The performance of the proposed model has been evaluated through extensive simulations of power system states and attack scenarios showing promising performance. The sensitivity of the model to intensity and location of the attacks and model's detection delay versus detection accuracy have also been evaluated.
翻訳日:2022-12-08 17:28:14 公開日:2022-12-07
# MIMO-DBnet:音声分離のためのマルチチャネル入力と複数出力DOA対応ビームフォーミングネットワーク

MIMO-DBnet: Multi-channel Input and Multiple Outputs DOA-aware Beamforming Network for Speech Separation ( http://arxiv.org/abs/2212.03401v1 )

ライセンス: Link先を確認
Yanjie Fu, Haoran Yin, Meng Ge, Longbiao Wang, Gaoyan Zhang, Jianwu Dang, Chengyun Deng, Fei Wang(参考訳) 近年,多チャンネル音声分離のための深層学習型ビームフォーマが提案されている。 それでも、そのほとんどは、スピーカーの特徴、顔画像、方向情報など、事前に知られている余分な手がかりに依存している。 本稿では,MIMO-DBnetという混合信号のみを与えられた方向案内音声分離のためのエンドツーエンドビームフォーミングネットワークを提案する。 具体的には,複数チャネルの入力と複数出力アーキテクチャを設計し,各ソースの指向性に基づく埋め込みとビームフォーミング重みを予測する。 正確に推定された方向埋め込みは、神経ビームフォーマーが位相ラッピングの効果を相殺するため、より正確な2つの音源の音声信号の再構成を可能にする非常に効果的な空間的識別ガイダンスを提供する。 実験の結果,提案するMIMO-DBnetは,ベースラインシステムに比べて網羅的な改善を達成できるだけでなく,位相ラップ時の高周波帯の性能も維持できることがわかった。

Recently, many deep learning based beamformers have been proposed for multi-channel speech separation. Nevertheless, most of them rely on extra cues known in advance, such as speaker feature, face image or directional information. In this paper, we propose an end-to-end beamforming network for direction guided speech separation given merely the mixture signal, namely MIMO-DBnet. Specifically, we design a multi-channel input and multiple outputs architecture to predict the direction-of-arrival based embeddings and beamforming weights for each source. The precisely estimated directional embedding provides quite effective spatial discrimination guidance for the neural beamformer to offset the effect of phase wrapping, thus allowing more accurate reconstruction of two sources' speech signals. Experiments show that our proposed MIMO-DBnet not only achieves a comprehensive decent improvement compared to baseline systems, but also maintain the performance on high frequency bands when phase wrapping occurs.
翻訳日:2022-12-08 17:28:03 公開日:2022-12-07
# 注意機構に基づくBi-LSTM価格予測

Bi-LSTM Price Prediction based on Attention Mechanism ( http://arxiv.org/abs/2212.03443v1 )

ライセンス: Link先を確認
Jiashu Lou, Leyi Cui, Ye Li(参考訳) 金融デリバティブ市場の拡大と発展に伴い、取引の頻度もより速く、より速くなります。 人間の限界により、最近はアルゴリズムと自動トレーディングが議論の中心となっている。 本稿では,金とビットコインという2つの一般的な資産をベースとした,注目機構に基づく双方向LSTMニューラルネットワークを提案する。 機能工学の面では,従来の技術要素を付加すると同時に,時系列モデルを組み合わせることで,要因の開発も行います。 モデルパラメータの選択において、我々は最終的に2層深層学習ネットワークを選択した。 aucの測定によれば、bitcoinと金の正確性はそれぞれ71.94%と73.03%である。 予測結果を用いて,2年間で1089.34%のリターンを達成した。 同時に,本論文で提案した Bi-LSTM モデルと従来のモデルとの比較を行い,本モデルがデータセット上で最高の性能を示すことを示す。 最後に, モデルの重要性と実験結果, 今後の改善方向性について考察する。

With the increasing enrichment and development of the financial derivatives market, the frequency of transactions is also faster and faster. Due to human limitations, algorithms and automatic trading have recently become the focus of discussion. In this paper, we propose a bidirectional LSTM neural network based on an attention mechanism, which is based on two popular assets, gold and bitcoin. In terms of Feature Engineering, on the one hand, we add traditional technical factors, and at the same time, we combine time series models to develop factors. In the selection of model parameters, we finally chose a two-layer deep learning network. According to AUC measurement, the accuracy of bitcoin and gold is 71.94% and 73.03% respectively. Using the forecast results, we achieved a return of 1089.34% in two years. At the same time, we also compare the attention Bi-LSTM model proposed in this paper with the traditional model, and the results show that our model has the best performance in this data set. Finally, we discuss the significance of the model and the experimental results, as well as the possible improvement direction in the future.
翻訳日:2022-12-08 17:27:48 公開日:2022-12-07
# 幾何学的深層学習が事前学習されたタンパク質言語モデルと出会うとき

When Geometric Deep Learning Meets Pretrained Protein Language Models ( http://arxiv.org/abs/2212.03447v1 )

ライセンス: Link先を確認
Fang Wu, Yu Tao, Dragomir Radev, Jinbo Xu(参考訳) 幾何学的深層学習は、最近、非ユークリッド領域で大きな成功を収め、大きな生体分子の3次元構造を学習することが、別の研究領域として浮上している。 しかし、その有効性は構造データが限られているため、大きく制約されている。 一方、1Dシークエンスで訓練されたタンパク質言語モデルでは、広範囲のアプリケーションで拡張性を示す。 それにもかかわらず、幾何学的ニューラルネットワークの表現力を促進するためにこれらの異なるタンパク質のモダリティを組み合わせることを検討する以前の研究はない。 このギャップに対処するため、よく訓練されたタンパク質言語モデルから学んだ知識を、いくつかの最先端の幾何学的ネットワークに統合する最善の一歩を踏み出した。 実験は、タンパク質-タンパク質界面予測、モデル品質評価、タンパク質-タンパク質剛体ドッキング、結合親和性予測など、さまざまなタンパク質表現学習ベンチマークで評価され、ベースラインよりも20%改善され、新しい最先端のパフォーマンスが得られた。 強い証拠は、タンパク質言語モデルの知識の組み入れが幾何ネットワークの能力を大幅に向上させ、複雑なタスクに一般化できることを示唆している。

Geometric deep learning has recently achieved great success in non-Euclidean domains, and learning on 3D structures of large biomolecules is emerging as a distinct research area. However, its efficacy is largely constrained due to the limited quantity of structural data. Meanwhile, protein language models trained on substantial 1D sequences have shown burgeoning capabilities with scale in a broad range of applications. Nevertheless, no preceding studies consider combining these different protein modalities to promote the representation power of geometric neural networks. To address this gap, we make the foremost step to integrate the knowledge learned by well-trained protein language models into several state-of-the-art geometric networks. Experiments are evaluated on a variety of protein representation learning benchmarks, including protein-protein interface prediction, model quality assessment, protein-protein rigid-body docking, and binding affinity prediction, leading to an overall improvement of 20% over baselines and the new state-of-the-art performance. Strong evidence indicates that the incorporation of protein language models' knowledge enhances geometric networks' capacity by a significant margin and can be generalized to complex tasks.
翻訳日:2022-12-08 17:27:34 公開日:2022-12-07
# データにアルゴリズムを導入する --personal health train(pht-medic)を使用したセキュアな分散医療分析

Bringing the Algorithms to the Data -- Secure Distributed Medical Analytics using the Personal Health Train (PHT-meDIC) ( http://arxiv.org/abs/2212.03481v1 )

ライセンス: Link先を確認
Marius de Arruda Botelho Herr, Michael Graf, Peter Placzek, Florian K\"onig, Felix B\"otte, Tyra Stickel, David Hieber, Lukas Zimmermann, Michael Slupina, Christopher Mohr, Stephanie Biergans, Mete Akg\"un, Nico Pfeifer, Oliver Kohlbacher(参考訳) データプライバシとセキュリティ – ますます厳格なデータ保護規則によって実施される – の必要性は、マシンラーニングに医療データを使用することを困難にしている。 特に、異なる病院間でのデータ転送は許可されないことが多く、したがってデータのクロスサイトプールはオプションではない。 GO-FAIRイニシアチブで提案されているPersonal Health Train(PHT)パラダイムは、機密データを転送することなく、分析のために分散データにアクセスできるようにする、"データへのアルゴリズム"パラダイムを実装している。 本稿では,PHT概念のオープンソース実装であるPHT-meDICを提案する。 コンテナ化により、複雑なデータ分析パイプライン(ゲノムや画像解析など)を、セキュアでスケーラブルな方法で複数のサイトに容易にデプロイすることができます。 基盤となる技術的概念、セキュリティモデル、ガバナンスプロセスについて論じる。 この実装は、医用画像データへのディープニューラルネットワークの適用を含む、大規模データの分散分析にうまく適用されている。

The need for data privacy and security -- enforced through increasingly strict data protection regulations -- renders the use of healthcare data for machine learning difficult. In particular, the transfer of data between different hospitals is often not permissible and thus cross-site pooling of data not an option. The Personal Health Train (PHT) paradigm proposed within the GO-FAIR initiative implements an 'algorithm to the data' paradigm that ensures that distributed data can be accessed for analysis without transferring any sensitive data. We present PHT-meDIC, a productively deployed open-source implementation of the PHT concept. Containerization allows us to easily deploy even complex data analysis pipelines (e.g, genomics, image analysis) across multiple sites in a secure and scalable manner. We discuss the underlying technological concepts, security models, and governance processes. The implementation has been successfully applied to distributed analyses of large-scale data, including applications of deep neural networks to medical image data.
翻訳日:2022-12-08 17:27:12 公開日:2022-12-07
# グリッド接続インバータの故障診断のためのディジタルツインの最適化 -ベイズ的アプローチ-

Optimizing a Digital Twin for Fault Diagnosis in Grid Connected Inverters -- A Bayesian Approach ( http://arxiv.org/abs/2212.03564v1 )

ライセンス: Link先を確認
Pavol Mulinka, Subham Sahoo, Charalampos Kalalas, Pedro H. J. Nardelli(参考訳) 本稿では,グリッド接続インバータの様々な故障を診断するために,ハイパーパラメータチューニングに基づくディジタルツインのベイズ最適化を行う。 障害検出と診断は非常に高い精度を必要とするため、デジタル双生児のオンライン最適化に向けた取り組みを軸に、限られたデータ量で柔軟な実装を可能にします。 その結果、提案フレームワークは、限られたデータを持つディジタルツインの設計のモデルバージョニングやデプロイの実用的なソリューションとなるだけでなく、ディープラーニングツールの統合により、ハイパーパラメータチューニング機能を改善することができる。 分類性能評価では,仮想同期発電機(VSG)制御グリッドフォーミングコンバータの異なる故障事例について検討し,本手法の有効性を実証する。 我々の研究結果は、従来のハイパーパラメータチューニング手法の欠点を克服し、ディジタルツイン設計によって達成された精度と忠実度の向上を明らかにした。

In this paper, a hyperparameter tuning based Bayesian optimization of digital twins is carried out to diagnose various faults in grid connected inverters. As fault detection and diagnosis require very high precision, we channelize our efforts towards an online optimization of the digital twins, which, in turn, allows a flexible implementation with limited amount of data. As a result, the proposed framework not only becomes a practical solution for model versioning and deployment of digital twins design with limited data, but also allows integration of deep learning tools to improve the hyperparameter tuning capabilities. For classification performance assessment, we consider different fault cases in virtual synchronous generator (VSG) controlled grid-forming converters and demonstrate the efficacy of our approach. Our research outcomes reveal the increased accuracy and fidelity levels achieved by our digital twin design, overcoming the shortcomings of traditional hyperparameter tuning methods.
翻訳日:2022-12-08 17:26:54 公開日:2022-12-07
# ランダム力学系に対する濃度現象:作用素論的アプローチ

Concentration Phenomenon for Random Dynamical Systems: An Operator Theoretic Approach ( http://arxiv.org/abs/2212.03670v1 )

ライセンス: Link先を確認
Muhammad Abdullah Naeem(参考訳) 作用素論的手法により、離散時間マルコフ連鎖の与えられた観測可能な `$r$' の濃度現象を「$\mu_{\pi}$' を不変エルゴード測度として定式化し、おそらく非有界状態空間への支持を持つ。 この論文の主な貢献は、マルコフ遷移作用素 $P$ の合成と、$e^{r}$ で定義される乗算作用素の研究によって、退屈な確率的方法を回避することである。 観測可能/報酬関数が非有界であるとしても、ある$q>2$, $\|e^{r}\|_{q \rightarrow 2} \propto \exp\big(\mu_{\pi}(r) +\frac{2q}{q-2}\big) $ and $P$ is hyperbounded with norm control $\|P\|_{2 \rightarrow q }< e^{\frac{1}{2}[\frac{1}{2}-\frac{1}{q}]} の場合、シャープな非漸近濃度境界は従う。 emph{transport-entropy} 不等式は、上述の乗算作用素上の上限をすべての$q>2$に対して保証する。 濃度現象における 'emph{reversibility} の役割は脱線化される。 これらの結果は、システムに関する正確な知識が得られていないような、集中不等式 w.r.t 標準の非有界オブザーバブル/逆関数を許容するコミュニティの強化学習や制御に特に有用である。

Via operator theoretic methods, we formalize the concentration phenomenon for a given observable `$r$' of a discrete time Markov chain with `$\mu_{\pi}$' as invariant ergodic measure, possibly having support on an unbounded state space. The main contribution of this paper is circumventing tedious probabilistic methods with a study of a composition of the Markov transition operator $P$ followed by a multiplication operator defined by $e^{r}$. It turns out that even if the observable/ reward function is unbounded, but for some for some $q>2$, $\|e^{r}\|_{q \rightarrow 2} \propto \exp\big(\mu_{\pi}(r) +\frac{2q}{q-2}\big) $ and $P$ is hyperbounded with norm control $\|P\|_{2 \rightarrow q }< e^{\frac{1}{2}[\frac{1}{2}-\frac{1}{q}]}$, sharp non-asymptotic concentration bounds follow. \emph{Transport-entropy} inequality ensures the aforementioned upper bound on multiplication operator for all $q>2$. The role of \emph{reversibility} in concentration phenomenon is demystified. These results are particularly useful for the reinforcement learning and controls communities as they allow for concentration inequalities w.r.t standard unbounded obersvables/reward functions where exact knowledge of the system is not available, let alone the reversibility of stationary measure.
翻訳日:2022-12-08 17:26:38 公開日:2022-12-07
# 蛍光望遠鏡データにおけるトラック状事象選択のためのニューラルネットワークアプローチ

A Neural Network Approach for Selecting Track-like Events in Fluorescence Telescope Data ( http://arxiv.org/abs/2212.03787v1 )

ライセンス: Link先を確認
Mikhail Zotov, Denis Sokolinskii(参考訳) 2016-2017年、地球大気中の蛍光放射によって超高エネルギー宇宙線(UHECR)を登録する可能性をテストする世界初の実験が行われた。 2019年以降、ロシア・イタリアの蛍光望遠鏡(FT)ミニEUSO(UV Atmosphere)がISSで運用されている。 UHECRの登録にFTを使用する成層圏実験EUSO-SPB2は2023年に予定されている。 本稿では,単純な畳み込みニューラルネットワークを用いて,そのような機器を用いて得られる様々なデータからトラック状事象を効果的に発見する方法を示す。

In 2016-2017, TUS, the world's first experiment for testing the possibility of registering ultra-high energy cosmic rays (UHECRs) by their fluorescent radiation in the night atmosphere of Earth was carried out. Since 2019, the Russian-Italian fluorescence telescope (FT) Mini-EUSO ("UV Atmosphere") has been operating on the ISS. The stratospheric experiment EUSO-SPB2, which will employ an FT for registering UHECRs, is planned for 2023. We show how a simple convolutional neural network can be effectively used to find track-like events in the variety of data obtained with such instruments.
翻訳日:2022-12-08 17:19:21 公開日:2022-12-07
# 公正性と説明可能性:公正なモデル説明に向けてギャップを埋める

Fairness and Explainability: Bridging the Gap Towards Fair Model Explanations ( http://arxiv.org/abs/2212.03840v1 )

ライセンス: Link先を確認
Yuying Zhao, Yu Wang, Tyler Derr(参考訳) 機械学習モデルは現実世界のアプリケーションでは前例のない成功を収めてきたが、特定の人口集団に対して偏り/不公平な決定を下し、差別的な結果をもたらす可能性がある。 バイアスの測定と緩和に研究努力が注がれているが、主に意思決定手順で符号化されたバイアスを無視しながら、結果指向の観点からバイアスを研究する。 これにより、プロシージャ指向バイアスをキャプチャできないため、完全なデバイアス法を持つ能力が制限される。 幸いなことに、説明可能な機械学習の急速な開発により、予測に関する説明が利用できるようになった。 本研究では,説明に基づく手続き指向公正の新たな視点を提示することにより,公正性と説明可能性のギャップを埋める。 本研究では,Ratio と Value-based Explanation Fairness の異なるグループ間の説明品質のギャップを測定することで,手順に基づくバイアスを同定する。 新たなメトリクスは、予測からバイアスを緩和するだけでなく、手順に基づくバイアスを軽減するための最適化目標の設計をさらに動機付けます。 設計した最適化目標に基づいて,従来の公正性の向上,説明公正性の向上,実用性能の維持など,複数の目標を同時に達成する包括的公正性アルゴリズム(CFA)を提案する。 実世界のデータセットに関する広範な実験は,提案するcfaの有効性を示し,説明可能性の観点から公平性を検討することの重要性を強調した。 私たちのコードはhttps://github.com/YuyingZhao/FairExplanations-CFAで公開されています。

While machine learning models have achieved unprecedented success in real-world applications, they might make biased/unfair decisions for specific demographic groups and hence result in discriminative outcomes. Although research efforts have been devoted to measuring and mitigating bias, they mainly study bias from the result-oriented perspective while neglecting the bias encoded in the decision-making procedure. This results in their inability to capture procedure-oriented bias, which therefore limits the ability to have a fully debiasing method. Fortunately, with the rapid development of explainable machine learning, explanations for predictions are now available to gain insights into the procedure. In this work, we bridge the gap between fairness and explainability by presenting a novel perspective of procedure-oriented fairness based on explanations. We identify the procedure-based bias by measuring the gap of explanation quality between different groups with Ratio-based and Value-based Explanation Fairness. The new metrics further motivate us to design an optimization objective to mitigate the procedure-based bias where we observe that it will also mitigate bias from the prediction. Based on our designed optimization objective, we propose a Comprehensive Fairness Algorithm (CFA), which simultaneously fulfills multiple objectives - improving traditional fairness, satisfying explanation fairness, and maintaining the utility performance. Extensive experiments on real-world datasets demonstrate the effectiveness of our proposed CFA and highlight the importance of considering fairness from the explainability perspective. Our code is publicly available at https://github.com/YuyingZhao/FairExplanations-CFA .
翻訳日:2022-12-08 17:19:12 公開日:2022-12-07
# ソーシャルメディアプラットフォームから残した二重圧縮ビデオフィンガープリントの学習

Learning Double-Compression Video Fingerprints Left from Social-Media Platforms ( http://arxiv.org/abs/2212.03658v1 )

ライセンス: Link先を確認
Irene Amerini, Aris Anagnostopoulos, Luca Maiano, Lorenzo Ricciardi Celsi(参考訳) ソーシャルメディアやメッセージングアプリが主要なコミュニケーションプラットフォームになりつつある。 マルチメディアコンテンツはユーザのエンゲージメントを向上させ、非常に重要なコミュニケーションツールとなっている。 しかし、フェイクニュースや操作されたコンテンツは容易にバイラルになり、ビデオや画像のソースを検証できるだけでなく、ネイティブコンテンツとダウンロードコンテンツの区別も必要になる。 そこで本稿では,映像コンテンツを分析して,動画を生来のソーシャルネットワークに遡るCNNアーキテクチャを提案する。 実験の結果,ビデオだけでなく,画像の精度も極めて良好であることがわかった。

Social media and messaging apps have become major communication platforms. Multimedia contents promote improved user engagement and have thus become a very important communication tool. However, fake news and manipulated content can easily go viral, so, being able to verify the source of videos and images as well as to distinguish between native and downloaded content becomes essential. Most of the work performed so far on social media provenance has concentrated on images; in this paper, we propose a CNN architecture that analyzes video content to trace videos back to their social network of origin. The experiments demonstrate that stating platform provenance is possible for videos as well as images with very good accuracy.
翻訳日:2022-12-08 17:18:47 公開日:2022-12-07
# マジック:マルチアートの知能コレオグラフィーデータセットと3Dダンス生成のためのネットワーク

Magic: Multi Art Genre Intelligent Choreography Dataset and Network for 3D Dance Generation ( http://arxiv.org/abs/2212.03741v1 )

ライセンス: Link先を確認
Ronghui Li, Junfan Zhao, Yachao Zhang, Mingyang Su, Zeping Ren, Han Zhang, Xiu Li(参考訳) マルチジャンルのデータセットが欠如しているため、与えられた音楽から複数のジャンルと長期の振付シーケンスを取得することは難しい課題である。 この問題に対処するため,マルチアート・インテリジェント・コレオグラフィー・データセット(MagicDance)を提案する。 MagicDanceのデータは、モーションキャプチャの技術者が支援するプロのダンサーから取得される。 計8時間の3Dモーションキャプチャー・ヒューマン・ダンスとペア・ミュージックがあり、16種類のダンスジャンルがある。 われわれの知る限りでは、MagicDanceは最も多くのジャンルの3Dダンスデータセットだ。 また,既存の2種類の手法 (ジェネレーションベース法と合成ベース法) は多様性と持続時間のうち1つしか満たせないが,ある程度補完できることがわかった。 この観察に基づいて,拡散に基づく3次元多様なダンスフラグメント生成ネットワーク(3dgnet)とジャンル・コヒーレント認識検索モジュール(gcrm)をカスケードする生成合成振付ネットワーク(magicnet)を提案する。 前者は1つの音楽クリップから様々なダンスの断片を生成できる。 後者は、3DGNetが生成した最高のダンスフラグメントを選択し、ジャンルとコヒーレントマッチングスコアに応じて、それらを完全なダンスに切り替える。 定量的かつ定性的な実験はMagicDanceの品質とMagicNetの最先端性能を示している。

Achieving multiple genres and long-term choreography sequences from given music is a challenging task, due to the lack of a multi-genre dataset. To tackle this problem,we propose a Multi Art Genre Intelligent Choreography Dataset (MagicDance). The data of MagicDance is captured from professional dancers assisted by motion capture technicians. It has a total of 8 hours 3D motioncapture human dances with paired music, and 16 different dance genres. To the best of our knowledge, MagicDance is the 3D dance dataset with the most genres. In addition, we find that the existing two types of methods (generation-based method and synthesis-based method) can only satisfy one of the diversity and duration, but they can complement to some extent. Based on this observation, we also propose a generation-synthesis choreography network (MagicNet), which cascades a Diffusion-based 3D Diverse Dance fragments Generation Network (3DGNet) and a Genre&Coherent aware Retrieval Module (GCRM). The former can generate various dance fragments from only one music clip. The latter is utilized to select the best dance fragment generated by 3DGNet and switch them into a complete dance according to the genre and coherent matching score. Quantitative and qualitative experiments demonstrate the quality of MagicDance, and the state-of-the-art performance of MagicNet.
翻訳日:2022-12-08 17:18:36 公開日:2022-12-07
# iQuery:オーディオ・ビジュアル・サウンド分離のためのクエリーとしてのインスツルメンツ

iQuery: Instruments as Queries for Audio-Visual Sound Separation ( http://arxiv.org/abs/2212.03814v1 )

ライセンス: Link先を確認
Jiaben Chen, Renrui Zhang, Dongze Lian, Jiaqi Yang, Ziyao Zeng, Jianbo Shi(参考訳) 現在の音声-視覚分離方式は、オーディオエンコーダ・デコーダネットワークがエンコーダボトルネックの視覚的符号化機能と融合した標準的なアーキテクチャ設計を共有する。 この設計は、音声分離のための頑健な音声復号化を伴うマルチモーダル特徴符号化の学習と相反する。 新しい楽器に一般化するには、すべての楽器の視覚と音声のネットワーク全体を微調整しなければならない。 視覚-音分離タスクを再構成し、柔軟なクエリ拡張機構を備えたインスツルメンツ・アズ・クエリー(iQuery)を提案する。 当社のアプローチは, クロスモーダル整合性とクロスインストラクションの絡み合いを保証する。 我々は「視覚的に命名された」クエリを用いて、音声クエリの学習を開始し、モーダルな注意を用いて推定波形における潜在的な音源干渉を取り除く。 テキストプロンプト設計からインスピレーションを得て,新しい楽器やイベントクラスに一般化するために,注意機構を凍結しながら音声プロンプトとして追加クエリを挿入する。 3つのベンチマークによる実験結果から,iqueryは音源分離性能が向上した。

Current audio-visual separation methods share a standard architecture design where an audio encoder-decoder network is fused with visual encoding features at the encoder bottleneck. This design confounds the learning of multi-modal feature encoding with robust sound decoding for audio separation. To generalize to a new instrument: one must finetune the entire visual and audio network for all musical instruments. We re-formulate visual-sound separation task and propose Instrument as Query (iQuery) with a flexible query expansion mechanism. Our approach ensures cross-modal consistency and cross-instrument disentanglement. We utilize "visually named" queries to initiate the learning of audio queries and use cross-modal attention to remove potential sound source interference at the estimated waveforms. To generalize to a new instrument or event class, drawing inspiration from the text-prompt design, we insert an additional query as an audio prompt while freezing the attention mechanism. Experimental results on three benchmarks demonstrate that our iQuery improves audio-visual sound source separation performance.
翻訳日:2022-12-08 17:18:15 公開日:2022-12-07
# NeRFEditor: フル3Dシーン編集のための微分可能なスタイル分解

NeRFEditor: Differentiable Style Decomposition for Full 3D Scene Editing ( http://arxiv.org/abs/2212.03848v1 )

ライセンス: Link先を確認
Chunyi Sun, Yanbing Liu, Junlin Han, Stephen Gould(参考訳) 我々は,360{\deg} で撮影された映像を入力とし,高品質でアイデンティティを保った3Dシーンを出力する3Dシーン編集のための効率的な学習フレームワークであるNeRFEditorを提案する。 本手法は,参照画像やテキストプロンプト,ユーザインタラクションなど,さまざまな種類の編集を支援する。 我々は,事前学習されたスタイルガンモデルと nerf モデルに相互学習を促すことにより,これを実現する。 具体的には、NeRFモデルを用いて多数の画像アングルペアを生成して調整器を訓練し、StyleGAN潜伏符号を調整して任意の角度で高忠実なスタイリング画像を生成する。 GANアウトオブドメインビューに編集を外挿するために、自己教師付き学習方法でトレーニングされた別のモジュールを考案する。 このモジュールは、新しいビューの画像をStyleGANの隠された空間にマッピングし、StyleGANが新しいビューでスタイリングされたイメージを生成する。 この2つのモジュールは360{\deg}ビューでガイド画像を生成し、nerfを微調整してスタイライゼーション効果を生じさせ、そこでは安定した微調整戦略が提案されている。 実験の結果、NeRFEditorは、より優れた編集性、忠実性、アイデンティティ保存を備えた、ベンチマークや実世界のシーンの先行作業よりも優れていた。

We present NeRFEditor, an efficient learning framework for 3D scene editing, which takes a video captured over 360{\deg} as input and outputs a high-quality, identity-preserving stylized 3D scene. Our method supports diverse types of editing such as guided by reference images, text prompts, and user interactions. We achieve this by encouraging a pre-trained StyleGAN model and a NeRF model to learn from each other mutually. Specifically, we use a NeRF model to generate numerous image-angle pairs to train an adjustor, which can adjust the StyleGAN latent code to generate high-fidelity stylized images for any given angle. To extrapolate editing to GAN out-of-domain views, we devise another module that is trained in a self-supervised learning manner. This module maps novel-view images to the hidden space of StyleGAN that allows StyleGAN to generate stylized images on novel views. These two modules together produce guided images in 360{\deg}views to finetune a NeRF to make stylization effects, where a stable fine-tuning strategy is proposed to achieve this. Experiments show that NeRFEditor outperforms prior work on benchmark and real-world scenes with better editability, fidelity, and identity preservation.
翻訳日:2022-12-08 17:17:56 公開日:2022-12-07
# 混合現実感を用いたスパース3dスキャンにおける非剛性物体のポイントクラウド登録

Point Cloud Registration of non-rigid objects in sparse 3D Scans with applications in Mixed Reality ( http://arxiv.org/abs/2212.03856v1 )

ライセンス: Link先を確認
Manorama Jha(参考訳) ポイントクラウド登録は、同じオブジェクトを参照する2つの3Dポイントクラウドの対応するポイントを整列する問題である。 課題は、ノイズの処理と現実世界の3dスキャンの部分マッチングだ。 非剛性物体に対しては、2つの3dスキャンの間に生じる物体形状の変形を考慮に入れるという別の課題がある。 そこで本研究では,拡張現実/混合現実領域のユースケースにおける非剛性ポイントクラウド登録の問題について検討する。 我々は、関節について互いに相対的に動く部品を持つ剛体物体で起こる特殊な非剛体変形、例えば、手とヒンジを持つロボットとヒンジを持つ機械に注意を向ける。 我々は,このようなオブジェクトに対する効率的かつロバストなポイントクラウド登録ワークフローを提案し,microsoft hololens 2 を用いて収集した実世界データを用いて評価する。

Point Cloud Registration is the problem of aligning the corresponding points of two 3D point clouds referring to the same object. The challenges include dealing with noise and partial match of real-world 3D scans. For non-rigid objects, there is an additional challenge of accounting for deformations in the object shape that happen to the object in between the two 3D scans. In this project, we study the problem of non-rigid point cloud registration for use cases in the Augmented/Mixed Reality domain. We focus our attention on a special class of non-rigid deformations that happen in rigid objects with parts that move relative to one another about joints, for example, robots with hands and machines with hinges. We propose an efficient and robust point-cloud registration workflow for such objects and evaluate it on real-world data collected using Microsoft Hololens 2, a leading Mixed Reality Platform.
翻訳日:2022-12-08 17:17:33 公開日:2022-12-07
# 慣性航法システムにおけるオイラー角決定支援ベクターマシン

Support Vector Machine for Determining Euler Angles in an Inertial Navigation System ( http://arxiv.org/abs/2212.03550v1 )

ライセンス: Link先を確認
Aleksandr N. Grekov (1) (2), Aleksei A. Kabanov (2), Sergei Yu. Alekseev (1), ((1) Institute of Natural and Technical Systems, (2) Sevastopol State University)(参考訳) 本稿では,機械学習(ML)法を用いたMEMSセンサを用いた慣性ナビゲーションシステムの精度向上について論じる。 分類器の入力データとして,MEMSセンサを密閉プラットフォーム上に設置した実験室で得られたインフォメーションを用いて傾斜角を調整した。 モデルの有効性を評価するため、線形多項式半径基底関数の場合、各コアに対するこれらのモデルのパラメータの異なる値で試験曲線を構築した。 逆正則化パラメータをパラメータとして用いた。 提案アルゴリズムは,MEMSセンサに典型的なノイズの存在を正しく分類し,ハイパラメータの最適値を選択すると良好な分類結果が得られることを示した。

The paper discusses the improvement of the accuracy of an inertial navigation system created on the basis of MEMS sensors using machine learning (ML) methods. As input data for the classifier, we used infor-mation obtained from a developed laboratory setup with MEMS sensors on a sealed platform with the ability to adjust its tilt angles. To assess the effectiveness of the models, test curves were constructed with different values of the parameters of these models for each core in the case of a linear, polynomial radial basis function. The inverse regularization parameter was used as a parameter. The proposed algorithm based on MO has demonstrated its ability to correctly classify in the presence of noise typical for MEMS sensors, where good classification results were obtained when choosing the optimal values of hyperpa-rameters.
翻訳日:2022-12-08 17:17:19 公開日:2022-12-07
# 可聴空間地図

Audio Latent Space Cartography ( http://arxiv.org/abs/2212.02610v2 )

ライセンス: Link先を確認
Nicolas Jonason, Bob L.T. Sturm(参考訳) 音声画像生成パイプラインを用いた音声潜在空間の可視化について検討する。 これは音声潜在空間の解釈可能性に役立つと信じている。 我々は、nsynthデータセットで様々な結果を示す。 Webデモが公開されている。

We explore the generation of visualisations of audio latent spaces using an audio-to-image generation pipeline. We believe this can help with the interpretability of audio latent spaces. We demonstrate a variety of results on the NSynth dataset. A web demo is available.
翻訳日:2022-12-08 17:17:08 公開日:2022-12-07
# 連続学習の統計力学--変動原理と平均場ポテンシャル

Statistical mechanics of continual learning: variational principle and mean-field potential ( http://arxiv.org/abs/2212.02846v2 )

ライセンス: Link先を確認
Chan Li and Zhenye Huang and Wenxuan Zou and Haiping Huang(参考訳) 人工知能への障害は、異なる性質の複数のタスクの継続的な学習によって設定される。 近年、機械学習と神経科学のアングルの両方から様々なヒューリスティックなトリックが提案されているが、それらは統一された理論基盤を欠いている。 本稿では,重み付き単層および多層ニューラルネットワークにおける連続学習に着目した。 そこで, ニューラルネットワークは, 勾配が定義する離散重み空間ではなく, フィールド空間で訓練され, さらに, 重みの不確かさが自然に組み込まれ, タスク間のシナプス資源を調節する, 変分ベイズ学習環境を提案する。 物理学的な観点からは、変分連続学習をフランツ・パリシ熱力学ポテンシャルフレームワークに翻訳し、そこでは以前のタスク知識が事前および参照としても作用する。 したがって, 学習性能を平均場次数パラメータを用いて解析し, その予測は確率勾配降下法による数値実験と一致する。 提案する原理的フレームワークは弾性重み強化にもつながり,神経科学はメタ塑性に触発され,深層ネットワークを用いた実世界のマルチタスク学習に理論に基づく手法を提供する。

An obstacle to artificial general intelligence is set by the continual learning of multiple tasks of different nature. Recently, various heuristic tricks, both from machine learning and from neuroscience angles, were proposed, but they lack a unified theory ground. Here, we focus on the continual learning in single-layered and multi-layered neural networks of binary weights. A variational Bayesian learning setting is thus proposed, where the neural network is trained in a field-space, rather than the gradient-ill-defined discrete-weight space, and furthermore, the weight uncertainty is naturally incorporated, and modulates the synaptic resources among tasks. From a physics perspective, we translate the variational continual learning into the Franz-Parisi thermodynamic potential framework, where the previous task knowledge acts as a prior and a reference as well. Therefore, the learning performance can be analytically studied with mean-field order parameters, whose predictions coincide with the numerical experiments using stochastic gradient descent methods. Our proposed principled frameworks also connect to elastic weight consolidation, and neuroscience inspired metaplasticity, providing a theory-grounded method for the real-world multi-task learning with deep networks.
翻訳日:2022-12-08 17:17:06 公開日:2022-12-07
# SDRM3: 動的リアルタイムマルチモデルMLワークロードのための動的スケジューリング

SDRM3: A Dynamic Scheduler for Dynamic Real-time Multi-model ML Workloads ( http://arxiv.org/abs/2212.03414v1 )

ライセンス: Link先を確認
Seah Kim, Hyoukjun Kwon, Jinook Song, Jihyuck Jo, Yu-Hsin Chen, Liangzhen Lai, Vikas Chandra(参考訳) AR/VRやドローン制御といったリアルタイムマルチモデルML(RTMM)ワークロードは、モデル内のタスク、モデル、レイヤ(あるいはMLオペレータ)など、さまざまなレベルでの動的な振る舞いを伴います。 このような動的な振る舞いは、システム全体の負荷が従来のMLワークロードとは異なり予測不可能であるため、MLシステムにおけるシステムソフトウェアにとって新たな課題である。 また、リアルタイム処理は期限を満たす必要があり、マルチモデルワークロードは極めて異質なモデルを含む。 RTMMワークロードはリソース制約のあるデバイス(例えばVRヘッドセット)で実行されることが多いため、効果的なスケジューラの開発は重要な研究課題である。 そこで本研究では,マルチアクセラレータをターゲットとしたrtmm方式ワークロードの動的処理を効果的に行う新しいスケジューラsdrm3を提案する。 スケジューリング決定を行うために、sdrm3はrtmmワークロードのユニークな要求を定量化し、定量化されたスコアを使用して、異なるモデルや入力フレーム上の現在のシステム負荷やその他の推論ジョブを考慮してスケジューリング決定を駆動する。 SDRM3には調整可能なパラメータがあり、勾配降下のようなオンライン最適化に基づいて動的ワークロードの変更に高速な適応性を提供する。 また,システム負荷に基づいて,スーパーネット内の適切なサブネットワークを動的に選択するスケジューリング効率とモデル性能(例えば,精度)のトレードオフを利用するために,スーパーネットに基づくモデルレベルの動的性を利用する手法を提案する。 5つの現実的RTMMワークロードシナリオに対する評価において、SDRM3は、エネルギ遅延積(EDP)等価メトリックであるUXCost全体の37.7%と53.2%を幾何学平均(97.6%と97.1%)で削減し、我々のスケジューリング手法の有効性を示している。

Emerging real-time multi-model ML (RTMM) workloads such as AR/VR and drone control often involve dynamic behaviors in various levels; task, model, and layers (or, ML operators) within a model. Such dynamic behaviors are new challenges to the system software in an ML system because the overall system load is unpredictable unlike traditional ML workloads. Also, the real-time processing requires to meet deadlines, and multi-model workloads involve highly heterogeneous models. As RTMM workloads often run on resource-constrained devices (e.g., VR headset), developing an effective scheduler is an important research problem. Therefore, we propose a new scheduler, SDRM3, that effectively handles various dynamicity in RTMM style workloads targeting multi-accelerator systems. To make scheduling decisions, SDRM3 quantifies the unique requirements for RTMM workloads and utilizes the quantified scores to drive scheduling decisions, considering the current system load and other inference jobs on different models and input frames. SDRM3 has tunable parameters that provide fast adaptivity to dynamic workload changes based on a gradient descent-like online optimization, which typically converges within five steps for new workloads. In addition, we also propose a method to exploit model level dynamicity based on Supernet for exploiting the trade-off between the scheduling effectiveness and model performance (e.g., accuracy), which dynamically selects a proper sub-network in a Supernet based on the system loads. In our evaluation on five realistic RTMM workload scenarios, SDRM3 reduces the overall UXCost, which is a energy-delay-product (EDP)-equivalent metric for real-time applications defined in the paper, by 37.7% and 53.2% on geometric mean (up to 97.6% and 97.1%) compared to state-of-the-art baselines, which shows the efficacy of our scheduling methodology.
翻訳日:2022-12-08 17:11:24 公開日:2022-12-07
# 時間拡張による動的グラフノード分類

Dynamic Graph Node Classification via Time Augmentation ( http://arxiv.org/abs/2212.03449v1 )

ライセンス: Link先を確認
Jiarui Sun, Mengting Gu, Chin-Chia Michael Yeh, Yujie Fan, Girish Chowdhary, Wei Zhang(参考訳) グラフ構造化データのノード分類は、ラベルが不明なノードを分類することを目的としている。 静的グラフの研究は一般的であるが、動的グラフノードの分類に焦点を当てた研究はほとんどない。 動的グラフのノード分類は2つの理由から難しい。 第一に、モデルは構造的情報と時間的情報の両方、特に長い歴史を持つ動的グラフにおいて、大きな受容場を必要とする。 第二に、動的グラフのサイズが大きくなるにつれて、モデルのスケーラビリティが重要な関心事になる。 これらの問題に対処するために,時間拡張動的グラフニューラルネットワーク(TADGNN)フレームワークを提案する。 TADGNNは2つのモジュールから構成される。 1)時間的拡張モジュールは、時間的時間的変化を構造的に捉え、時間的増分時空間グラフを作成し、 2)構築した時間拡張グラフを用いて各ノードの動的表現を時間にわたって学習する情報伝達モジュール。 4つの動的グラフベンチマークでノード分類実験を行う。 実験により,TADGNNフレームワークは,高いスケーラビリティを示しながら,静的かつ動的なSOTAGNNモデルよりも優れた性能を示した。 また,提案手法の有効性を検証するための理論的および経験的分析を行った。 私たちのコードはhttps://sites.google.com/view/tadgnnで入手できる。

Node classification for graph-structured data aims to classify nodes whose labels are unknown. While studies on static graphs are prevalent, few studies have focused on dynamic graph node classification. Node classification on dynamic graphs is challenging for two reasons. First, the model needs to capture both structural and temporal information, particularly on dynamic graphs with a long history and require large receptive fields. Second, model scalability becomes a significant concern as the size of the dynamic graph increases. To address these problems, we propose the Time Augmented Dynamic Graph Neural Network (TADGNN) framework. TADGNN consists of two modules: 1) a time augmentation module that captures the temporal evolution of nodes across time structurally, creating a time-augmented spatio-temporal graph, and 2) an information propagation module that learns the dynamic representations for each node across time using the constructed time-augmented graph. We perform node classification experiments on four dynamic graph benchmarks. Experimental results demonstrate that TADGNN framework outperforms several static and dynamic state-of-the-art (SOTA) GNN models while demonstrating superior scalability. We also conduct theoretical and empirical analyses to validate the efficiency of the proposed method. Our code is available at https://sites.google.com/view/tadgnn.
翻訳日:2022-12-08 17:10:47 公開日:2022-12-07
# Fallen Angelが手動モデルと自動機械学習による投資と破産予測を実施

Fallen Angel Bonds Investment and Bankruptcy Predictions Using Manual Models and Automated Machine Learning ( http://arxiv.org/abs/2212.03454v1 )

ライセンス: Link先を確認
Harrison Mateika, Juannan Jia, Linda Lillard, Noah Cronbaugh, and Will Shin(参考訳) この研究の主な目的は、どのエンジェル債が下落するかが投資適格債に逆戻りするか、どれが倒産するかを最も予測するモデルを見つけることだった。 このソリューションを実装するためには、倒産を予測できる最適な機械学習モデルを作成するのが理想的な方法だと考えた。 そこで私たちは、ロジスティック回帰(logistic regression)、kn、svm、nnの4つの分類方法を選択することにしました。 Google Cloudの機械学習の自動化方法も利用しました。 モデル比較の結果、google cloudの機械学習が精度の高いスコアを持つことを除けば、モデルが元のデータセットで破産を予測できなかったことが分かりました。 しかし、過剰にサンプリングされた機能選択データセットは、非常にうまく機能しました。 これは、このモデルが過剰にサンプリングされたデータの物語に合致するように過度に適合しているためかもしれない(このデータセットの外部のデータを正確に予測できないように)。 したがって、破産を予測できると確信するモデルを作ることができなかったのです。 しかし、このプロジェクトから価値を2つの重要な方法で見つけることができた。 ひとつは、google cloudの機械学習モデルが、すべてのメトリックとすべてのデータセットにおいて、他のモデルに匹敵するか、あるいは同等に実行されることだ。 2つ目は、機能選択を利用することで予測能力がそれほど低下しないことである。 これは、倒産予測に関する将来の実験のために収集するデータ量を削減できることを意味します。

The primary aim of this research was to find a model that best predicts which fallen angel bonds would either potentially rise up back to investment grade bonds and which ones would fall into bankruptcy. To implement the solution, we thought that the ideal method would be to create an optimal machine learning model that could predict bankruptcies. Among the many machine learning models out there we decided to pick four classification methods: logistic regression, KNN, SVM, and NN. We also utilized an automated methods of Google Cloud's machine learning. The results of our model comparisons showed that the models did not predict bankruptcies very well on the original data set with the exception of Google Cloud's machine learning having a high precision score. However, our over-sampled and feature selection data set did perform very well. This could likely be due to the model being over-fitted to match the narrative of the over-sampled data (as in, it does not accurately predict data outside of this data set quite well). Therefore, we were not able to create a model that we are confident that would predict bankruptcies. However, we were able to find value out of this project in two key ways. The first is that Google Cloud's machine learning model in every metric and in every data set either outperformed or performed on par with the other models. The second is that we found that utilizing feature selection did not reduce predictive power that much. This means that we can reduce the amount of data to collect for future experimentation regarding predicting bankruptcies.
翻訳日:2022-12-08 17:10:30 公開日:2022-12-07
# Dock2D:分子認識問題のための合成データ

Dock2D: Synthetic data for the molecular recognition problem ( http://arxiv.org/abs/2212.03456v1 )

ライセンス: Link先を確認
Siddharth Bhadra-Lobo and Georgy Derevyanko and Guillaume Lamoureux(参考訳) タンパク質の物理的相互作用を予測することは、計算生物学における基礎的な問題である。 学習に基づく新しいアルゴリズムのクラスが積極的に開発され、タンパク質データバンクから抽出されたタンパク質複合体のエンドツーエンドで訓練されている。 これらのトレーニングデータセットは、プロトタイピングに使用するのが難しく、画像や自然言語のデータセットとは異なり、非専門家によって容易に解釈できない。 Dock2D-IPとDock2D-IFは2つの"toy"データセットで、タンパク質とタンパク質の相互作用を予測するアルゴリズムを選択できる。 dock2d-ip(interaction pose)のそれぞれの例では、相互作用が知られている2つの形状の相互作用ポーズと、dock2d-if(interaction fact)のそれぞれの例が、2つの形状が安定な複合体を形成するかどうかを示している。 本稿では,この問題に対する基礎的解法をいくつか提案し,相互作用ポーズ課題(エネルギー最小化「ドッキング問題」として定式化)や相互作用の事実(拘束自由エネルギー推定問題として定式化)を解いて,その基礎的エネルギー関数を学習できることを示す。

Predicting the physical interaction of proteins is a cornerstone problem in computational biology. New classes of learning-based algorithms are actively being developed, and are typically trained end-to-end on protein complex structures extracted from the Protein Data Bank. These training datasets tend to be large and difficult to use for prototyping and, unlike image or natural language datasets, they are not easily interpretable by non-experts. We present Dock2D-IP and Dock2D-IF, two "toy" datasets that can be used to select algorithms predicting protein-protein interactions$\unicode{x2014}$or any other type of molecular interactions. Using two-dimensional shapes as input, each example from Dock2D-IP ("interaction pose") describes the interaction pose of two shapes known to interact and each example from Dock2D-IF ("interaction fact") describes whether two shapes form a stable complex or not. We propose a number of baseline solutions to the problem and show that the same underlying energy function can be learned either by solving the interaction pose task (formulated as an energy-minimization "docking" problem) or the fact-of-interaction task (formulated as a binding free energy estimation problem).
翻訳日:2022-12-08 17:10:04 公開日:2022-12-07
# プライバシ保護フェデレーション学習による風車条件情報のフリートワイド共有に向けて

Towards Fleet-wide Sharing of Wind Turbine Condition Information through Privacy-preserving Federated Learning ( http://arxiv.org/abs/2212.03529v1 )

ライセンス: Link先を確認
Lorin Jenkel, Stefan Jonas, Angela Meyer(参考訳) テラバイトのデータは、風力タービンメーカーが艦隊から毎日収集している。 データにはタービンの健康診断や性能モニタリングのための貴重なリアルタイム情報が含まれており、まれな故障や重要な部品の残りのサービス寿命を予測する。 しかし、風力タービンの艦隊から得られた豊富なデータは、製造会社がビジネス上の戦略的理由からタービンデータのプライバシーを優先しているため、オペレーター、ユーティリティ企業、研究者にはアクセスできないままです。 データアクセスの欠如は、データ駆動型タービンの運用とメンテナンス戦略の改善、ダウンタイムの削減といった機会の活用を妨げる。 本稿では,風力タービンにデータを残して,製造業者が望むようなデータのプライバシを保ちながら,そのローカルデータに対するフリートワイドな学習を可能にする分散フェデレーション機械学習手法を提案する。 本研究では, 汎用訓練データに乏しい風力タービンが, フェデレート学習を伴うより正確な故障検出モデルから恩恵を受ける一方で, フェデレーション学習プロセスに参加することでモデル性能を損なうタービンは存在しないことを示す。 従来のトレーニングプロセスとフェデレーショントレーニングプロセスを比較すると,コミュニケーションやオーバヘッド操作の増加により,フェデレーショントレーニングにおける平均モデルトレーニング時間は7倍に向上する。 したがって、モデル訓練時間は、特に大型の風力タービン車両において、連合学習アプリケーションにおいてさらに探求され、緩和される必要がある障害を構成する可能性がある。

Terabytes of data are collected every day by wind turbine manufacturers from their fleets. The data contain valuable real-time information for turbine health diagnostics and performance monitoring, for predicting rare failures and the remaining service life of critical parts. And yet, this wealth of data from wind turbine fleets remains inaccessible to operators, utility companies, and researchers as manufacturing companies prefer the privacy of their fleets' turbine data for business strategic reasons. The lack of data access impedes the exploitation of opportunities, such as improving data-driven turbine operation and maintenance strategies and reducing downtimes. We present a distributed federated machine learning approach that leaves the data on the wind turbines to preserve the data privacy, as desired by manufacturers, while still enabling fleet-wide learning on those local data. We demonstrate in a case study that wind turbines which are scarce in representative training data benefit from more accurate fault detection models with federated learning, while no turbine experiences a loss in model performance by participating in the federated learning process. When comparing conventional and federated training processes, the average model training time rises significantly by a factor of 7 in the federated training due to increased communication and overhead operations. Thus, model training times might constitute an impediment that needs to be further explored and alleviated in federated learning applications, especially for large wind turbine fleets.
翻訳日:2022-12-08 17:09:42 公開日:2022-12-07
# グラフニューラルネットワークのためのノード指向スペクトルフィルタリング

Node-oriented Spectral Filtering for Graph Neural Networks ( http://arxiv.org/abs/2212.03654v1 )

ライセンス: Link先を確認
Shuai Zheng, Zhenfeng Zhu, Zhizhe Liu, Youru Li, and Yao Zhao(参考訳) グラフニューラルネットワーク(GNN)は、GNNの固有のローパスフィルタリング特性により、非ホモフィルグラフデータを扱う場合、好ましくないグラフデータに対して顕著な性能を示した。 一般に、実世界のグラフは多彩なサブグラフパターンの複雑な混合であることが多いので、現在のほとんどの作品のように、グローバルの観点からグラフ上の普遍的スペクトルフィルタを学ぶことは、局所的なパターンの変化に適応するのが非常に困難である。 局所パターンに関する理論的解析に基づいて, 既存のスペクトルフィルタリング法を再考し, \textbf{\underline{n}}ode-oriented spectral \textbf{\underline{f}}iltering for \textbf{\underline{g}}raph \textbf{\underline{n}}eural \textbf{\underline{n}}etwork (nfgnn)を提案する。 各ノードのノード指向のスペクトルフィルタを推定することにより、nfgnnは一般化された変換演算子を介して正確な局所ノード位置決め機能を備えることにより、局所ホモフィリパターンのバリエーションを適応的に判別する。 一方、再パラメータ化の利用は、ノード指向スペクトルフィルタを学習するための大域的一貫性と局所感度のトレードオフをもたらす。 さらに,NFGNNの局所化特性を理論的に解析し,適応フィルタリング後の信号が対応するノードの周囲に留まっていることを示す。 実験の結果,提案したNFGNNの方が良好な性能を示した。

Graph neural networks (GNNs) have shown remarkable performance on homophilic graph data while being far less impressive when handling non-homophilic graph data due to the inherent low-pass filtering property of GNNs. In general, since the real-world graphs are often a complex mixture of diverse subgraph patterns, learning a universal spectral filter on the graph from the global perspective as in most current works may still suffer from great difficulty in adapting to the variation of local patterns. On the basis of the theoretical analysis on local patterns, we rethink the existing spectral filtering methods and propose the \textbf{\underline{N}}ode-oriented spectral \textbf{\underline{F}}iltering for \textbf{\underline{G}}raph \textbf{\underline{N}}eural \textbf{\underline{N}}etwork (namely NFGNN). By estimating the node-oriented spectral filter for each node, NFGNN is provided with the capability of precise local node positioning via the generalized translated operator, thus discriminating the variations of local homophily patterns adaptively. Meanwhile, the utilization of re-parameterization brings a good trade-off between global consistency and local sensibility for learning the node-oriented spectral filters. Furthermore, we theoretically analyze the localization property of NFGNN, demonstrating that the signal after adaptive filtering is still positioned around the corresponding node. Extensive experimental results demonstrate that the proposed NFGNN achieves more favorable performance.
翻訳日:2022-12-08 17:09:18 公開日:2022-12-07
# BeMi Stardust:二元化ニューラルネットワークの構造的アンサンブル

The BeMi Stardust: a Structured Ensemble of Binarized Neural Networks ( http://arxiv.org/abs/2212.03659v1 )

ライセンス: Link先を確認
Ambrogio Maria Bernardelli, Stefano Gualandi, Hoong Chuin Lau, Simone Milanesi(参考訳) バイナリニューラルネットワーク(BNN)は、その軽量アーキテクチャと低消費電力デバイス上での動作能力により、注目を集めている。 少数ショット学習に限定されたBNNの訓練技術は、MIP(Mixed Integer Programming)アプローチに基づいている。 本稿では,bnnの構造化アーキテクチャであるbemiアンサンブルを提案する。bnnを1組のクラス毎にトレーニングし,最終結果を予測するために多数決方式を適用する。 2つのクラスを区別する単一のbnnのトレーニングは、ロバスト性と単純さの原則に従ってレキシカル多目的関数を最適化するmipモデルによって達成される。 このアプローチにより、出力が入力に対する小さな摂動に影響されず、アクティブウェイトの数が可能な限り少ないトレーニングネットワークが構築され、精度が保たれる。 mnist と fashion-mnist のデータセットを用いて,クラス毎に最大 40 のトレーニング画像を用いてモデルを検証する。 我々の構造的アンサンブルは、確率勾配降下と最先端のMIPベースのアプローチで訓練されたBNNよりも優れている。 mnistデータセットの平均精度は51.1%であるが、bemiアンサンブルは、1クラスあたり10イメージでトレーニングすると61.7%、クラス当たり40イメージでトレーニングした場合76.4%で、平均精度は61.7%である。

Binarized Neural Networks (BNNs) are receiving increasing attention due to their lightweight architecture and ability to run on low-power devices. The state-of-the-art for training classification BNNs restricted to few-shot learning is based on a Mixed Integer Programming (MIP) approach. This paper proposes the BeMi ensemble, a structured architecture of BNNs based on training a single BNN for each possible pair of classes and applying a majority voting scheme to predict the final output. The training of a single BNN discriminating between two classes is achieved by a MIP model that optimizes a lexicographic multi-objective function according to robustness and simplicity principles. This approach results in training networks whose output is not affected by small perturbations on the input and whose number of active weights is as small as possible, while good accuracy is preserved. We computationally validate our model using the MNIST and Fashion-MNIST datasets using up to 40 training images per class. Our structured ensemble outperforms both BNNs trained by stochastic gradient descent and state-of-the-art MIP-based approaches. While the previous approaches achieve an average accuracy of 51.1% on the MNIST dataset, the BeMi ensemble achieves an average accuracy of 61.7% when trained with 10 images per class and 76.4% when trained with 40 images per class.
翻訳日:2022-12-08 17:08:46 公開日:2022-12-07
# 表現的アーキテクチャは、ダイナミクスに基づく神経集団モデルの解釈性を高める

Expressive architectures enhance interpretability of dynamics-based neural population models ( http://arxiv.org/abs/2212.03771v1 )

ライセンス: Link先を確認
Andrew R. Sedler, Christopher Versteeg, Chethan Pandarinath(参考訳) 記録された神経活動から潜伏するダイナミクスを回復できる人工ニューラルネットワークは、生物学的計算の基礎となる動的モチーフを特定し解釈するための強力な手段を提供する。 ニューラルネットワークのみが潜時力学系を一意に決定しないことを考えると、解釈可能なアーキテクチャは正確かつ低次元の潜時力学を優先すべきである。 本研究では,ニューラルネットワークから3つの潜伏カオスアトラクションを復元する際のシーケンシャルオートエンコーダ(SAE)の性能評価を行った。 rnn(recurrent neural network)ベースのダイナミクスを持つsaeは、真の潜在状態の次元において正確な速度を推定できず、データに存在しない動的特徴に依存することが判明した。 一方,神経常微分方程式(ノード)に基づくsaeは,真の潜在状態次元における正確な速度を推定すると同時に,潜在軌道や不動点構造も復元する。 この発見は、NODEがベクトル場をモデル化するために任意のキャパシティの多層パーセプトロン(MLP)を使用できるという事実による。 動力学モデルの表現性を潜在次元から分離することで、ノードはrnn細胞が失敗する必要な低次元ダイナミクスを学ぶことができる。 広く使われているrnnベースのダイナミクスの準最適解釈性は、低次元の潜在空間における正確なダイナミクスの学習を可能にするノードのような代替アーキテクチャの置き換えを動機付ける可能性がある。

Artificial neural networks that can recover latent dynamics from recorded neural activity may provide a powerful avenue for identifying and interpreting the dynamical motifs underlying biological computation. Given that neural variance alone does not uniquely determine a latent dynamical system, interpretable architectures should prioritize accurate and low-dimensional latent dynamics. In this work, we evaluated the performance of sequential autoencoders (SAEs) in recovering three latent chaotic attractors from simulated neural datasets. We found that SAEs with widely-used recurrent neural network (RNN)-based dynamics were unable to infer accurate rates at the true latent state dimensionality, and that larger RNNs relied upon dynamical features not present in the data. On the other hand, SAEs with neural ordinary differential equation (NODE)-based dynamics inferred accurate rates at the true latent state dimensionality, while also recovering latent trajectories and fixed point structure. We attribute this finding to the fact that NODEs allow use of multi-layer perceptrons (MLPs) of arbitrary capacity to model the vector field. Decoupling the expressivity of the dynamics model from its latent dimensionality enables NODEs to learn the requisite low-D dynamics where RNN cells fail. The suboptimal interpretability of widely-used RNN-based dynamics may motivate substitution for alternative architectures, such as NODE, that enable learning of accurate dynamics in low-dimensional latent spaces.
翻訳日:2022-12-08 17:08:22 公開日:2022-12-07
# 360{\textdegree}画像上のNeRFの非均一サンプリング戦略

Non-uniform Sampling Strategies for NeRF on 360{\textdegree} images ( http://arxiv.org/abs/2212.03635v1 )

ライセンス: Link先を確認
Takashi Otonari, Satoshi Ikehata, Kiyoharu Aizawa(参考訳) 近年,ニューラルレイディアンス場(NeRF)の出現に伴い,視点画像を用いた新しいビュー合成の性能が劇的に向上している。 本研究では,360{\textdegree}全方位画像に対して,NeRFを効果的に構築する2つの新しい手法を提案する。 高緯度領域に空間的歪みを有するerpフォーマットの360{\textdegree}画像の特徴と360{\textdegree}ワイドビューアングルのため、nerfの一般的な光線サンプリング戦略は効果がない。 したがって、NeRFのビュー合成精度は制限され、学習は効率的ではない。 そこで本研究では,nrfが360{\textdegree}画像に適合する2つの非一様レイサンプリング方式を提案する。 室内シーンと屋外シーンのReplicaモデルとSceneCityモデルを用いて,Synth360の評価データセットを作成した。 実験の結果,提案手法は精度と効率の両面から360{\textdegree} 画像 NeRF の構築に成功した。 この提案は、NeRFの高度な変種に適用可能である。 DietNeRF、AugNeRF、NeRF++と提案手法を組み合わせることで、さらなる性能向上を実現した。 さらに,提案手法が実世界のシーンの品質を360{\textdegree}画像で向上させることを示す。 Synth360: https://drive.google.com/drive/folders/1suL9B7DO2no21ggiIHkH3JF3OecasQLb

In recent years, the performance of novel view synthesis using perspective images has dramatically improved with the advent of neural radiance fields (NeRF). This study proposes two novel techniques that effectively build NeRF for 360{\textdegree} omnidirectional images. Due to the characteristics of a 360{\textdegree} image of ERP format that has spatial distortion in their high latitude regions and a 360{\textdegree} wide viewing angle, NeRF's general ray sampling strategy is ineffective. Hence, the view synthesis accuracy of NeRF is limited and learning is not efficient. We propose two non-uniform ray sampling schemes for NeRF to suit 360{\textdegree} images - distortion-aware ray sampling and content-aware ray sampling. We created an evaluation dataset Synth360 using Replica and SceneCity models of indoor and outdoor scenes, respectively. In experiments, we show that our proposal successfully builds 360{\textdegree} image NeRF in terms of both accuracy and efficiency. The proposal is widely applicable to advanced variants of NeRF. DietNeRF, AugNeRF, and NeRF++ combined with the proposed techniques further improve the performance. Moreover, we show that our proposed method enhances the quality of real-world scenes in 360{\textdegree} images. Synth360: https://drive.google.com/drive/folders/1suL9B7DO2no21ggiIHkH3JF3OecasQLb.
翻訳日:2022-12-08 17:01:53 公開日:2022-12-07
# 雑音レーダデータにおける意味セグメンテーションのためのガウスレーダトランスフォーマ

Gaussian Radar Transformer for Semantic Segmentation in Noisy Radar Data ( http://arxiv.org/abs/2212.03690v1 )

ライセンス: Link先を確認
Matthias Zeller and Jens Behley and Michael Heidingsfeld and Cyrill Stachniss(参考訳) シーン理解は、将来の状態予測、衝突回避、経路計画のための動的環境における自律ロボットにとって不可欠である。 カメラとLiDARは近年大きく進歩したが、悪天候下では限界に直面した。 マルチモーダルセンサーの可能性を最大限に活用するために、レーダーセンサーは安全上重要なタスクに必須であり、現在ほとんどの新車に搭載されている。 本稿では,レーダーポイント雲内の移動物体の意味セグメンテーションの問題に対処し,他のセンサモダリティを用いて環境の知覚を向上させる。 ポイントクラウドを高密度化するために複数のスキャンを集約する代わりに、スパースな単一スキャンセグメンテーションを正確に実行するセルフアテンションメカニズムに基づく新しいアプローチを提案する。 ガウス型レーダトランスフォーマーと呼ばれるこの手法は,新たに導入されたガウス型トランスフォーマー層を含み,ソフトマックス正規化をガウス関数に置き換え,個々の点の寄与を分離する。 長距離依存を捉えるトランスフォーマの課題に取り組むため,我々は受容場を拡大し,強い空間関係を捉えるための注意深いアップ・アンド・ダウンサンプリングモジュールを提案する。 我々はRadarScenesデータセットの他の最先端手法と比較し、時間的情報を活用することなく、多様な環境において優れたセグメンテーション品質を示す。

Scene understanding is crucial for autonomous robots in dynamic environments for making future state predictions, avoiding collisions, and path planning. Camera and LiDAR perception made tremendous progress in recent years, but face limitations under adverse weather conditions. To leverage the full potential of multi-modal sensor suites, radar sensors are essential for safety critical tasks and are already installed in most new vehicles today. In this paper, we address the problem of semantic segmentation of moving objects in radar point clouds to enhance the perception of the environment with another sensor modality. Instead of aggregating multiple scans to densify the point clouds, we propose a novel approach based on the self-attention mechanism to accurately perform sparse, single-scan segmentation. Our approach, called Gaussian Radar Transformer, includes the newly introduced Gaussian transformer layer, which replaces the softmax normalization by a Gaussian function to decouple the contribution of individual points. To tackle the challenge of the transformer to capture long-range dependencies, we propose our attentive up- and downsampling modules to enlarge the receptive field and capture strong spatial relations. We compare our approach to other state-of-the-art methods on the RadarScenes data set and show superior segmentation quality in diverse environments, even without exploiting temporal information.
翻訳日:2022-12-08 17:01:31 公開日:2022-12-07
# GLeaD: ジェネレータリードタスクによるGANの改善

GLeaD: Improving GANs with A Generator-Leading Task ( http://arxiv.org/abs/2212.03752v1 )

ライセンス: Link先を確認
Qingyan Bai, Ceyuan Yang, Yinghao Xu, Xihui Liu, Yujiu Yang, Yujun Shen(参考訳) 生成逆数ネットワーク(GAN)は、ジェネレータ(G)と識別器(D)との間の2プレーヤゲームとして定式化され、Dには、画像が実データから来るか、Gによって生成されるかの区別が求められる。 GANにおけるより公平なゲームに向けて、G が D にタスクを割り当てるような対戦訓練の新しいパラダイムを提案する。 具体的には、画像が与えられた場合、D は G によって適切に復号化して入力を再構成できる代表的特徴を抽出することを期待する。 このようにして、自由学習の代わりに、D は領域分類に対する G の見解と一致するよう促される。 各種データセットに対する実験結果は,ベースラインに対するアプローチのかなりの優位性を示している。 例えば、LSUNベッドルームではStyleGAN2のFIDを4.30から2.55に、LSUN教会では4.04から2.82に改善する。 この活動における先駆的な試みは、gan改善のためにより良い設計のジェネレータリードタスクをコミュニティに促すことができると信じています。

Generative adversarial network (GAN) is formulated as a two-player game between a generator (G) and a discriminator (D), where D is asked to differentiate whether an image comes from real data or is produced by G. Under such a formulation, D plays as the rule maker and hence tends to dominate the competition. Towards a fairer game in GANs, we propose a new paradigm for adversarial training, which makes G assign a task to D as well. Specifically, given an image, we expect D to extract representative features that can be adequately decoded by G to reconstruct the input. That way, instead of learning freely, D is urged to align with the view of G for domain classification. Experimental results on various datasets demonstrate the substantial superiority of our approach over the baselines. For instance, we improve the FID of StyleGAN2 from 4.30 to 2.55 on LSUN Bedroom and from 4.04 to 2.82 on LSUN Church. We believe that the pioneering attempt present in this work could inspire the community with better designed generator-leading tasks for GAN improvement.
翻訳日:2022-12-08 17:01:07 公開日:2022-12-07
# 逐次表現混合によるワンショット画像から画像への変換を用いた意味領域分割のための教師なしドメイン適応

Unsupervised Domain Adaptation for Semantic Segmentation using One-shot Image-to-Image Translation via Latent Representation Mixing ( http://arxiv.org/abs/2212.03826v1 )

ライセンス: Link先を確認
Sarmad F. Ismael, Koray Kayabol, and Erchan Aptoula(参考訳) ドメイン適応は、大規模土地利用・土地被覆マップ計算において広く見られるドメインシフトと、教師ありセマンティックセグメンテーションに不可欠なピクセルレベルの地平の不足の両方を扱うための重要な戦略の1つである。 ソースドメインの再スタイリングによる敵のドメイン適応に焦点をあてた研究は、一般的には生成的な敵のネットワークを通じて、様々なレベルの成功を報告しているが、それらは意味的な矛盾、視覚的な腐敗に苦しめられ、しばしば多数のターゲットドメインのサンプルを必要とする。 本稿では,超高解像度画像の意味セグメンテーションのための教師なし領域適応法を提案する。 i) 意味的に一貫性があり、ノイズのない画像につながること。 ii) 単一の対象領域サンプル(すなわちワンショット)で動作し、かつ、 三 最先端の方法から必要なパラメータの数のごく一部であつて。 より具体的には、潜在コンテンツ表現をドメイン間で混合するエンコーダ・デコーダ原理に基づいて画像から画像への変換パラダイムを提案し、セマンティック一貫性を強制するために知覚ネットワークモジュールと損失関数をさらに導入する。 都市間比較実験により,提案手法は最先端領域適応法より優れていることが示された。 ソースコードは \url{https://github.com/sarmadfismael/lrm_i2i}で入手できる。

Domain adaptation is one of the prominent strategies for handling both domain shift, that is widely encountered in large-scale land use/land cover map calculation, and the scarcity of pixel-level ground truth that is crucial for supervised semantic segmentation. Studies focusing on adversarial domain adaptation via re-styling source domain samples, commonly through generative adversarial networks, have reported varying levels of success, yet they suffer from semantic inconsistencies, visual corruptions, and often require a large number of target domain samples. In this letter, we propose a new unsupervised domain adaptation method for the semantic segmentation of very high resolution images, that i) leads to semantically consistent and noise-free images, ii) operates with a single target domain sample (i.e. one-shot) and iii) at a fraction of the number of parameters required from state-of-the-art methods. More specifically an image-to-image translation paradigm is proposed, based on an encoder-decoder principle where latent content representations are mixed across domains, and a perceptual network module and loss function is further introduced to enforce semantic consistency. Cross-city comparative experiments have shown that the proposed method outperforms state-of-the-art domain adaptation methods. Our source code will be available at \url{https://github.com/Sarmadfismael/LRM_I2I}.
翻訳日:2022-12-08 17:00:45 公開日:2022-12-07
# ロボットマニピュレーションのためのスマート・センサ・フュージョン

See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation ( http://arxiv.org/abs/2212.03858v1 )

ライセンス: Link先を確認
Hao Li, Yizhi Zhang, Junzhe Zhu, Shaoxiong Wang, Michelle A Lee, Huazhe Xu, Edward Adelson, Li Fei-Fei, Ruohan Gao, Jiajun Wu(参考訳) 人間は日常的な活動において様々な仕事をこなすために全ての感覚を使用する。 対照的に、ロボット操作に関する既存の研究は、主に視覚や触覚などの2つのモードに依存している。 本研究では,視覚,聴覚,触覚の知覚がロボットの複雑な操作課題を協調的に解くのにどのように役立つのかを体系的に研究する。 カメラで観察し、コンタクトマイクで聴き、視覚ベースの触覚センサーで感じられるロボットシステムを構築し、これら3つの感覚モダリティを自己接触モデルと融合させた。 ロボット操作のためのマルチセンサー知覚の必要性とパワーを示す: ビジョンはロボットのグローバルな状態を表示するが、しばしば閉塞に苦しむことがあり、オーディオは目に見えない重要な瞬間の即時のフィードバックを提供し、タッチは意思決定のための正確な局所幾何学を提供する。 ロボットシステムは3つのモダリティをすべて活用し、従来の方法を大幅に上回っています。

Humans use all of their senses to accomplish different tasks in everyday activities. In contrast, existing work on robotic manipulation mostly relies on one, or occasionally two modalities, such as vision and touch. In this work, we systematically study how visual, auditory, and tactile perception can jointly help robots to solve complex manipulation tasks. We build a robot system that can see with a camera, hear with a contact microphone, and feel with a vision-based tactile sensor, with all three sensory modalities fused with a self-attention model. Results on two challenging tasks, dense packing and pouring, demonstrate the necessity and power of multisensory perception for robotic manipulation: vision displays the global status of the robot but can often suffer from occlusion, audio provides immediate feedback of key moments that are even invisible, and touch offers precise local geometry for decision making. Leveraging all three modalities, our robotic system significantly outperforms prior methods.
翻訳日:2022-12-08 17:00:24 公開日:2022-12-07
# SAIH:HPCシステムにおけるAIパフォーマンストレンドを理解するためのスケーラブルな評価手法

SAIH: A Scalable Evaluation Methodology for Understanding AI Performance Trend on HPC Systems ( http://arxiv.org/abs/2212.03410v1 )

ライセンス: Link先を確認
Jiangsu Du, Dongsheng Li, Yingpeng Wen, Jiazhi Jiang, Dan Huang, Xiangke Liao, and Yutong Lu(参考訳) 新たな人工知能(AI)技術は、宇宙学、物理学、バイオインフォマティクスなど様々な科学研究を迅速化しており、ハイパフォーマンスコンピューティング(HPC)システムにおいて必然的に重要な分野となっている。 既存のAIベンチマークは、データセットとAIモデルの観点から、事前に定義された問題サイズの下でHPCシステムのAIパフォーマンスを評価するために、よく認識されたAIアプリケーションをカスタマイズする傾向がある。 問題サイズにスケーラビリティが欠如しているため、静的AIベンチマークは、HPCシステム、特に大規模システムにおける科学AIアプリケーションの進化するAIアプリケーションのパフォーマンストレンドを理解するのに役立つ可能性がある。 本稿では,HPCシステムのAI性能傾向を,カスタマイズされたAIアプリケーションの問題サイズを拡大して解析するスケーラブルな評価手法(SAIH)を提案する。 スケーラビリティを実現するため、SAIHは問題のサイズを拡大するための新しいメカニズムのセットを構築している。 データとモデルは絶えずスケールするので、HPCシステムにおけるAIパフォーマンスの傾向と範囲を調べ、システムのボトルネックをさらに診断することができる。 提案手法を検証するため,SAIHのケーススタディとしてGPUを備えた実HPCシステムを評価するために,宇宙AIアプリケーションを拡張した。

Novel artificial intelligence (AI) technology has expedited various scientific research, e.g., cosmology, physics and bioinformatics, inevitably becoming a significant category of workload on high performance computing (HPC) systems. Existing AI benchmarks tend to customize well-recognized AI applications, so as to evaluate the AI performance of HPC systems under predefined problem size, in terms of datasets and AI models. Due to lack of scalability on the problem size, static AI benchmarks might be under competent to help understand the performance trend of evolving AI applications on HPC systems, in particular, the scientific AI applications on large-scale systems. In this paper, we propose a scalable evaluation methodology (SAIH) for analyzing the AI performance trend of HPC systems with scaling the problem sizes of customized AI applications. To enable scalability, SAIH builds a set of novel mechanisms for augmenting problem sizes. As the data and model constantly scale, we can investigate the trend and range of AI performance on HPC systems, and further diagnose system bottlenecks. To verify our methodology, we augment a cosmological AI application to evaluate a real HPC system equipped with GPUs as a case study of SAIH.
翻訳日:2022-12-08 17:00:09 公開日:2022-12-07
# 一般関数空間における最適輸送マップ推定

Optimal transport map estimation in general function spaces ( http://arxiv.org/abs/2212.03722v1 )

ライセンス: Link先を確認
Vincent Divol, Jonathan Niles-Weed, Aram-Alexandre Pooladian(参考訳) 固定された)ソース分布の$P$と未知のターゲット分布の$Q$の間の最適なトランスポートマップを推定する問題は、$Q$のサンプルに基づいて検討する。 このような最適輸送マップの推定は、生成的モデリングのような現代的な統計応用においてますます重要になっている。 現在、推定率はいくつかの設定でしか知られていない(例えば、$p$ と $q$ は、トランスポートマップが h\"older クラスにあるとき、上下に境界を持つ)が、実際には反映されないことが多い。 一般関数空間における最適輸送写像の推定率を求める統一手法を提案する。 ソース測度 $p$ は poincar\'e の不等式を満たすこと、最適写像は計量エントロピーを制御できる空間にある滑らかな凸関数の勾配であることのみを要求する。 特別の場合として,有界密度とH\"古い輸送マップの既知推定率を復元するが,事前の作業ではカバーされない多くの設定において,ほぼ鋭い結果が得られる。 例えば、$p$が正規分布であり、トランスポートマップが無限幅の浅いニューラルネットワークによって与えられる場合に、最初の統計的推定率を提供する。

We consider the problem of estimating the optimal transport map between a (fixed) source distribution $P$ and an unknown target distribution $Q$, based on samples from $Q$. The estimation of such optimal transport maps has become increasingly relevant in modern statistical applications, such as generative modeling. At present, estimation rates are only known in a few settings (e.g. when $P$ and $Q$ have densities bounded above and below and when the transport map lies in a H\"older class), which are often not reflected in practice. We present a unified methodology for obtaining rates of estimation of optimal transport maps in general function spaces. Our assumptions are significantly weaker than those appearing in the literature: we require only that the source measure $P$ satisfies a Poincar\'e inequality and that the optimal map be the gradient of a smooth convex function that lies in a space whose metric entropy can be controlled. As a special case, we recover known estimation rates for bounded densities and H\"older transport maps, but also obtain nearly sharp results in many settings not covered by prior work. For example, we provide the first statistical rates of estimation when $P$ is the normal distribution and the transport map is given by an infinite-width shallow neural network.
翻訳日:2022-12-08 16:59:47 公開日:2022-12-07
# DIAMOND: 分散バイレベル最適化におけるサンプルと通信の複雑さ

DIAMOND: Taming Sample and Communication Complexities in Decentralized Bilevel Optimization ( http://arxiv.org/abs/2212.02376v2 )

ライセンス: Link先を確認
Peiwen Qiu, Yining Li, Zhuqing Liu, Prashant Khanduri, Jia Liu, Ness B. Shroff, Elizabeth Serena Bentley, Kurt Turck(参考訳) 分散化された双レベル最適化は、ピアツーピアエッジネットワークにおける多くの新興マルチエージェント学習パラダイム(マルチエージェントメタラーニングやマルチエージェント強化学習など)の基盤的役割により、近年注目を集めている。 しかしながら、エッジネットワークの限られた計算能力と通信能力を扱うために、分散二レベル最適化技術を開発する上での課題は、サンプルと通信の複雑さを減らすことである。 これは、ダイアモンド(運動量と勾配追跡を伴う分散単時間スケール確率近似)と呼ばれる新しい分散二段階最適化を開発する動機となった。 本論文の貢献は以下のとおりである。 i)DIAMONDアルゴリズムは,2レベル最適化の自然な二重ループ構造に従わず,単一ループ構造を採用する。 二 ダイヤモンドアルゴリズムは、既存の方法と比較して、完全な勾配評価を必要としないため、試料及び計算の複雑さを更に低減する。 iii) モーメント情報と勾配追跡手法の注意深い統合により,DIAMONDアルゴリズムはサンプルおよび通信複雑度において$\mathcal{O}(\epsilon^{-3/2})$を享受し,それぞれがデータセットサイズに依存しず,既存の作業を大幅に上回っていることを示す。 大規模な実験も理論的な結果を検証する。

Decentralized bilevel optimization has received increasing attention recently due to its foundational role in many emerging multi-agent learning paradigms (e.g., multi-agent meta-learning and multi-agent reinforcement learning) over peer-to-peer edge networks. However, to work with the limited computation and communication capabilities of edge networks, a major challenge in developing decentralized bilevel optimization techniques is to lower sample and communication complexities. This motivates us to develop a new decentralized bilevel optimization called DIAMOND (decentralized single-timescale stochastic approximation with momentum and gradient-tracking). The contributions of this paper are as follows: i) our DIAMOND algorithm adopts a single-loop structure rather than following the natural double-loop structure of bilevel optimization, which offers low computation and implementation complexity; ii) compared to existing approaches, the DIAMOND algorithm does not require any full gradient evaluations, which further reduces both sample and computational complexities; iii) through a careful integration of momentum information and gradient tracking techniques, we show that the DIAMOND algorithm enjoys $\mathcal{O}(\epsilon^{-3/2})$ in sample and communication complexities for achieving an $\epsilon$-stationary solution, both of which are independent of the dataset sizes and significantly outperform existing works. Extensive experiments also verify our theoretical findings.
翻訳日:2022-12-08 16:59:25 公開日:2022-12-07
# 不均一グラフ表現を用いた説明可能な動き予測

Towards Explainable Motion Prediction using Heterogeneous Graph Representations ( http://arxiv.org/abs/2212.03806v1 )

ライセンス: Link先を確認
Sandra Carrasco Limeros, Sylwia Majchrowska, Joakim Johnander, Christoffer Petersson, David Fern\'andez Llorca(参考訳) 動き予測システムは、自動運転車が安全かつ効率的な計画を実行できるようにする交通シナリオの将来の挙動を捉えることを目的としている。 これらのシナリオの進化は極めて不確実であり、シーン内の静的および動的オブジェクトとの相互作用に依存する。 GNNベースのアプローチは、これらの相互作用を自然にモデル化するのに適しているため、近年注目を集めている。 しかしながら、未検討のままである主な課題の1つは、解釈可能性や説明可能性といった側面を含む自動運転システムの透明性要件に対処するために、これらのモデルの複雑さと不透明さに対処する方法である。 本研究では,異なるアプローチを用いて動作予測システムの説明可能性を向上させることを目的とする。 まず,トラヒックシーンのヘテログラフ表現と車線グラフトラバーサルに基づく,オブジェクトレベルおよびタイプレベルアテンションを用いたインタラクション行動の学習に基づく,説明可能なヘテロジニアスグラフベースポリシ(xhgp)モデルを提案する。 この学習された注意は、シーンにおける最も重要なエージェントと相互作用に関する情報を提供する。 第2に、GNNExplainerの提供する説明で、同様のアイデアを探求する。 第3に,入力データに対する変更に対するトレーニングモデルの感度,すなわちシーンの要素をマスキングし,トラジェクタの変更を行い,動的エージェントの追加・削除を行うことで,選択された個々のシナリオの説明を偽り推論に適用する。 本論文で提示される説明可能性分析は,より透明で信頼性の高いモーション予測システムへの第一歩であり,ユーザ,開発者,規制機関の観点から重要である。 この作業を再現するコードはhttps://github.com/sancarlim/Explainable-MP/tree/v1.1で公開されている。

Motion prediction systems aim to capture the future behavior of traffic scenarios enabling autonomous vehicles to perform safe and efficient planning. The evolution of these scenarios is highly uncertain and depends on the interactions of agents with static and dynamic objects in the scene. GNN-based approaches have recently gained attention as they are well suited to naturally model these interactions. However, one of the main challenges that remains unexplored is how to address the complexity and opacity of these models in order to deal with the transparency requirements for autonomous driving systems, which includes aspects such as interpretability and explainability. In this work, we aim to improve the explainability of motion prediction systems by using different approaches. First, we propose a new Explainable Heterogeneous Graph-based Policy (XHGP) model based on an heterograph representation of the traffic scene and lane-graph traversals, which learns interaction behaviors using object-level and type-level attention. This learned attention provides information about the most important agents and interactions in the scene. Second, we explore this same idea with the explanations provided by GNNExplainer. Third, we apply counterfactual reasoning to provide explanations of selected individual scenarios by exploring the sensitivity of the trained model to changes made to the input data, i.e., masking some elements of the scene, modifying trajectories, and adding or removing dynamic agents. The explainability analysis provided in this paper is a first step towards more transparent and reliable motion prediction systems, important from the perspective of the user, developers and regulatory agencies. The code to reproduce this work is publicly available at https://github.com/sancarlim/Explainable-MP/tree/v1.1.
翻訳日:2022-12-08 16:52:59 公開日:2022-12-07
# マルチサービスエッジインテリジェンスパラダイムに向けて:無線による時間臨界制御のための時間適応予測

Toward Multi-Service Edge-Intelligence Paradigm: Temporal-Adaptive Prediction for Time-Critical Control over Wireless ( http://arxiv.org/abs/2212.03809v1 )

ライセンス: Link先を確認
Adnan Aijaz, Nan Jiang, Aftab Khan(参考訳) 時間クリティカルな制御アプリケーションは通常、通信ネットワークに厳しい接続要件を課す。 パケット損失、同期エラー、様々な遅延などの無線媒体に関連する欠陥は、しばしば安全性に影響を及ぼすリアルタイム制御の性能に有害な影響を及ぼす。 本稿では,無線の時間クリティカル制御を実現するための新しいパラダイムとして,マルチサービスエッジインテリジェンスを提案する。 無線アクセス、エッジコンピューティング、機械学習技術の緊密な統合を中心に展開するマルチサービスエッジインテリジェンスの概念を示し、無線不完全な場合の安定性を保証する。 本稿は、マルチサービスエッジインテリジェンスにおける重要なシステム設計側面について述べる。 また,無線環境の動的変化に対処するための時間適応予測手法を提案する。 ロボット遠隔操作のシナリオでパフォーマンス結果を提供する。 最後に、マルチサービスエッジインテリジェンスのためのオープンリサーチとデザインの課題について論じる。

Time-critical control applications typically pose stringent connectivity requirements for communication networks. The imperfections associated with the wireless medium such as packet losses, synchronization errors, and varying delays have a detrimental effect on performance of real-time control, often with safety implications. This paper introduces multi-service edge-intelligence as a new paradigm for realizing time-critical control over wireless. It presents the concept of multi-service edge-intelligence which revolves around tight integration of wireless access, edge-computing and machine learning techniques, in order to provide stability guarantees under wireless imperfections. The paper articulates some of the key system design aspects of multi-service edge-intelligence. It also presents a temporal-adaptive prediction technique to cope with dynamically changing wireless environments. It provides performance results in a robotic teleoperation scenario. Finally, it discusses some open research and design challenges for multi-service edge-intelligence.
翻訳日:2022-12-08 16:52:32 公開日:2022-12-07
# ユーザエージェント対話における音響的・感情的特徴の分析と活用

Analysis and Utilization of Entrainment on Acoustic and Emotion Features in User-agent Dialogue ( http://arxiv.org/abs/2212.03398v1 )

ライセンス: Link先を確認
Daxin Tan, Nikos Kargas, David McHardy, Constantinos Papayiannis, Antonio Bonafonte, Marek Strelec, Jonas Rohnke, Agis Oikonomou Filandras, Trevor Wood(参考訳) イントレメント(entrainment)とは、会話の相手と協調するために、会話者同士が話すスタイルに適応する現象である。 音響的、韻律的、語彙的、あるいは構文的に異なる次元で発見されている。 本研究では,音声アシスタントの音声対話システムを改善するために,学習現象を探索し,活用する。 まず,人間同士の対話において,音響的特徴に関するエントレメント現象の存在を考察し,その分析を感情的特徴に拡張する。 分析の結果,音響的特徴と感情的特徴の両面において強いエントレーニングの証拠が得られた。 そこで本研究では,2つのトレーニングポリシを実装し,テキスト音声(TTS)システムに統合することで,合成性能とユーザエクスペリエンスが向上するかどうかを評価する。 TTSシステムへのエントレメント原理の統合は、音響的特徴を考慮した場合の性能改善をもたらすが、感情的特徴を考慮した場合の明らかな改善は見つからない。

Entrainment is the phenomenon by which an interlocutor adapts their speaking style to align with their partner in conversations. It has been found in different dimensions as acoustic, prosodic, lexical or syntactic. In this work, we explore and utilize the entrainment phenomenon to improve spoken dialogue systems for voice assistants. We first examine the existence of the entrainment phenomenon in human-to-human dialogues in respect to acoustic feature and then extend the analysis to emotion features. The analysis results show strong evidence of entrainment in terms of both acoustic and emotion features. Based on this findings, we implement two entrainment policies and assess if the integration of entrainment principle into a Text-to-Speech (TTS) system improves the synthesis performance and the user experience. It is found that the integration of the entrainment principle into a TTS system brings performance improvement when considering acoustic features, while no obvious improvement is observed when considering emotion features.
翻訳日:2022-12-08 16:52:01 公開日:2022-12-07
# 動的言語と音韻埋め込みを用いたバイリンガルTSの改善

Improve Bilingual TTS Using Dynamic Language and Phonology Embedding ( http://arxiv.org/abs/2212.03435v1 )

ライセンス: Link先を確認
Fengyu Yang, Jian Luan, Yujun Wang(参考訳) ほとんどの場合、バイリンガルTSは、第1言語のみ、第2言語のみ、第1言語に埋め込まれた第2言語という3種類の入力スクリプトを扱う必要がある。 後者の2つの状況では、第二言語の発音とイントネーションは、通常、第一言語の影響により、全く異なる。 したがって、相互干渉を伴わずに、異なる文脈で第二言語の発音と音調を正確にモデル化することは大きな課題である。 本稿では,単言語中国語話者からより標準的な英語音声を取得するためのマンダリン英語ttsシステムを構築する。 異なる音韻間の英語の相違を捉えるために,音韻の埋め込みを導入する。 埋め込みマスクは、異なる言語間の情報を区別するための言語埋め込みと、英語表現に焦点を当てる音韻埋め込みに適用される。 言語と音韻の動的強度を捉えるための埋め込み強度変調器を特別に設計する。 実験の結果,単言語中国語話者の英語音声は,より自然で標準的な音声を生成できることが判明した。 分析から,適切な音韻制御は,異なるシナリオにおける性能向上に寄与することがわかった。

In most cases, bilingual TTS needs to handle three types of input scripts: first language only, second language only, and second language embedded in the first language. In the latter two situations, the pronunciation and intonation of the second language are usually quite different due to the influence of the first language. Therefore, it is a big challenge to accurately model the pronunciation and intonation of the second language in different contexts without mutual interference. This paper builds a Mandarin-English TTS system to acquire more standard spoken English speech from a monolingual Chinese speaker. We introduce phonology embedding to capture the English differences between different phonology. Embedding mask is applied to language embedding for distinguishing information between different languages and to phonology embedding for focusing on English expression. We specially design an embedding strength modulator to capture the dynamic strength of language and phonology. Experiments show that our approach can produce significantly more natural and standard spoken English speech of the monolingual Chinese speaker. From analysis, we find that suitable phonology control contributes to better performance in different scenarios.
翻訳日:2022-12-08 16:51:45 公開日:2022-12-07
# 補助言語情報を組み合わせた自己教師付き多言語音声表現学習の改善

Improved Self-Supervised Multilingual Speech Representation Learning Combined with Auxiliary Language Information ( http://arxiv.org/abs/2212.03476v1 )

ライセンス: Link先を確認
Fenglin Ding, Genshun Wan, Pengcheng Li, Jia Pan, Cong Liu(参考訳) 多言語エンドツーエンドモデルはモノリンガルシステムよりも大幅に改善されている。 音声の事前学習手法の開発により、xlsrのような自己教師付き多言語音声表現学習は、多言語自動音声認識(asr)の性能向上に成功している。 しかし、教師付き学習と同様、多言語事前学習も言語干渉に悩まされ、多言語システムの適用にさらに影響を及ぼす可能性がある。 本稿では,事前学習段階における言語対外訓練,言語埋め込み,言語適応訓練などの補助的言語情報を活用することで,自己指導型多言語事前学習を改善する手法を紹介する。 16言語からなる多言語ASRタスクについて実験を行った。 実験の結果,標準XLSRモデルよりも14.3%,事前学習しないマルチリンガルモデルよりも19.8%向上した。

Multilingual end-to-end models have shown great improvement over monolingual systems. With the development of pre-training methods on speech, self-supervised multilingual speech representation learning like XLSR has shown success in improving the performance of multilingual automatic speech recognition (ASR). However, similar to the supervised learning, multilingual pre-training may also suffer from language interference and further affect the application of multilingual system. In this paper, we introduce several techniques for improving self-supervised multilingual pre-training by leveraging auxiliary language information, including the language adversarial training, language embedding and language adaptive training during the pre-training stage. We conduct experiments on a multilingual ASR task consisting of 16 languages. Our experimental results demonstrate 14.3% relative gain over the standard XLSR model, and 19.8% relative gain over the no pre-training multilingual model.
翻訳日:2022-12-08 16:51:28 公開日:2022-12-07
# M3ST:3レベル混合による音声翻訳

M3ST: Mix at Three Levels for Speech Translation ( http://arxiv.org/abs/2212.03657v1 )

ライセンス: Link先を確認
Xuxin Cheng, Qianqian Dong, Fengpeng Yue, Tom Ko, Mingxuan Wang, Yuexian Zou(参考訳) エンドツーエンド音声テキスト翻訳(ST)におけるデータ不足の解決法 データ拡張は、データセットを拡張して多くのタスクのパフォーマンスを改善する効率的な方法であることがよく知られている。 本稿では,拡張学習コーパスの多様性を高めるために,音声翻訳法(m^3st)の3段階混合を提案する。 具体的には,外部機械翻訳(MT)データを用いた事前学習モデルに基づく2段階の微調整を行う。 微調整の第1段階では、トレーニングコーパスを単語レベル、文レベル、フレームレベルを含む3つのレベルで混合し、モデル全体を混合データで微調整する。 ファインチューニングの第2段階では、オリジナル音声シーケンスとオリジナルテキストシーケンスの両方を並列にモデルに取り込み、そのネットワークを微調整し、Jensen-Shannon分散を用いて出力を正規化する。 MuST-C音声翻訳ベンチマークと分析実験により、M^3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。

How to solve the data scarcity problem for end-to-end speech-to-text translation (ST)? It's well known that data augmentation is an efficient method to improve performance for many tasks by enlarging the dataset. In this paper, we propose Mix at three levels for Speech Translation (M^3ST) method to increase the diversity of the augmented training corpus. Specifically, we conduct two phases of fine-tuning based on a pre-trained model using external machine translation (MT) data. In the first stage of fine-tuning, we mix the training corpus at three levels, including word level, sentence level and frame level, and fine-tune the entire model with mixed data. At the second stage of fine-tuning, we take both original speech sequences and original text sequences in parallel into the model to fine-tune the network, and use Jensen-Shannon divergence to regularize their outputs. Experiments on MuST-C speech translation benchmark and analysis show that M^3ST outperforms current strong baselines and achieves state-of-the-art results on eight directions with an average BLEU of 29.9.
翻訳日:2022-12-08 16:51:13 公開日:2022-12-07
# 判断,ローカライズ,編集:テキスト・画像生成のためのビジュアル・コモンセンスのモラルを保証する

Judge, Localize, and Edit: Ensuring Visual Commonsense Morality for Text-to-Image Generation ( http://arxiv.org/abs/2212.03507v1 )

ライセンス: Link先を確認
Seongbeom Park, Suhong Moon, Jinkyu Kim(参考訳) テキスト・ツー・イメージ生成手法は高解像度で高品質な画像を生成するが、これらの手法はコモンセンス道徳の観点から不適切な内容を含む不道徳な画像を生成するべきではない。 従来のアプローチはこれらの倫理的懸念を無視することが多く、既存の解決策は不道徳な画像生成を避けるために限られている。 本稿では,合成画像の不道徳性を自動判定し,これらの画像を道徳的代替物として扱うことを目的とする。 この目的のために,(1)モデルが与えられた画像の視覚的コモンセンス不道徳性を認識し,(2)画像を不道徳にする不道徳な属性(およびテクスト的)を局所化し強調する,(3)不道徳なイメージを道徳的に適格な代替物として操作する,という3つのプリミティブを持つモデルを構築した。 現状の安定拡散テキスト画像生成モデルを用いて実験を行い、倫理的画像操作の有効性を示す。 人間の研究では、道徳的に満足なイメージを不道徳なイメージから生成できることが確認されました。 我々の実装は、テキストから画像への生成モデルのための新しい安全性チェッカーとして広く使用されるように、出版と同時に公開される予定だ。

Text-to-image generation methods produce high-resolution and high-quality images, but these methods should not produce immoral images that may contain inappropriate content from the commonsense morality perspective. Conventional approaches often neglect these ethical concerns, and existing solutions are limited in avoiding immoral image generation. In this paper, we aim to automatically judge the immorality of synthesized images and manipulate these images into a moral alternative. To this end, we build a model that has the three main primitives: (1) our model recognizes the visual commonsense immorality of a given image, (2) our model localizes or highlights immoral visual (and textual) attributes that make the image immoral, and (3) our model manipulates a given immoral image into a morally-qualifying alternative. We experiment with the state-of-the-art Stable Diffusion text-to-image generation model and show the effectiveness of our ethical image manipulation. Our human study confirms that ours is indeed able to generate morally-satisfying images from immoral ones. Our implementation will be publicly available upon publication to be widely used as a new safety checker for text-to-image generation models.
翻訳日:2022-12-08 16:50:26 公開日:2022-12-07
# 低線量CT画像の投影領域における1つの試料拡散モデル

One Sample Diffusion Model in Projection Domain for Low-Dose CT Imaging ( http://arxiv.org/abs/2212.03630v1 )

ライセンス: Link先を確認
Bin Huang, Liu Zhang, Shiyu Lu, Boyu Lin, Weiwen Wu, Qiegen Liu(参考訳) 低線量CTは臨床応用における放射線リスクの低減に重要な役割を果たしている。 しかし、放射線線量を減らすことで画質が著しく低下する。 ディープラーニングの急速な開発と幅広い応用により、低線量CTイメージングアルゴリズムの開発に向けた新たな方向性がもたらされた。 そこで我々は低用量CT再構成のための投影領域における完全に教師なし1サンプル拡散モデル(OSDM)を提案する。 単一試料から十分な事前情報を抽出するために、ハンケル行列式を用いる。 さらに、ペナル化した最小二乗および全変分を導入し、優れた画質を実現する。 具体的には,まず,ネットワーク入力として構造ハンケル行列から多数のテンソルを抽出し,1つのシングラム上でスコアベース生成モデルを訓練する。 そして、推論段階で、確率微分方程式ソルバとデータ一貫性ステップとを反復的に行い、このシングラムデータを得る。 最後に、フィルタ付きバックプロジェクションアルゴリズムにより最終画像を得る。 再建された結果は、通常用量に近づいている。 その結果,osdmは実用的かつ効果的なモデルであり,画像品質を保ちつつアーティファクトを低減できることがわかった。

Low-dose computed tomography (CT) plays a significant role in reducing the radiation risk in clinical applications. However, lowering the radiation dose will significantly degrade the image quality. With the rapid development and wide application of deep learning, it has brought new directions for the development of low-dose CT imaging algorithms. Therefore, we propose a fully unsupervised one sample diffusion model (OSDM)in projection domain for low-dose CT reconstruction. To extract sufficient prior information from single sample, the Hankel matrix formulation is employed. Besides, the penalized weighted least-squares and total variation are introduced to achieve superior image quality. Specifically, we first train a score-based generative model on one sinogram by extracting a great number of tensors from the structural-Hankel matrix as the network input to capture prior distribution. Then, at the inference stage, the stochastic differential equation solver and data consistency step are performed iteratively to obtain the sinogram data. Finally, the final image is obtained through the filtered back-projection algorithm. The reconstructed results are approaching to the normal-dose counterparts. The results prove that OSDM is practical and effective model for reducing the artifacts and preserving the image quality.
翻訳日:2022-12-08 16:49:58 公開日:2022-12-07
# CrossPyramid:部分観測時間列に対するニューラル正規微分方程式アーキテクチャ

CrossPyramid: Neural Ordinary Differential Equations Architecture for Partially-observed Time-series ( http://arxiv.org/abs/2212.03560v1 )

ライセンス: Link先を確認
Futoon M. Abushaqra, Hao Xue, Yongli Ren, Flora D. Salim(参考訳) 通常微分方程式(ODE)に基づくモデルは、多くの時系列問題を解決するために一般的な基礎モデルとなっている。 ニューラルODEと従来のRNNモデルを組み合わせることで、不規則な時系列を表現できる。 しかし、ODEベースのモデルでは、最初の観測値や最後の観測値に基づいて隠れ状態の軌跡を定義する必要がある。 この事実は、生成した隠蔽状態が十分である期間と、それが一般的に使用される短いシーケンスの代わりに長いシーケンスを使用する場合に有効であるかどうかに関する疑問を引き起こす。 本稿では、シーケンス表現の一般化性を高めることを目的とした、新しいODEベースのモデルであるCrossPyramidを紹介する。 CrossPyramidは、最後に観測された値から隠れた状態のみに依存するのではなく、他のサンプルから学んだODE潜在表現も考慮している。 提案モデルの主な考え方は,標本間の非線形相関に基づいて観測されていない値の隠れ状態を定義することである。 そこでCrossPyramidは、(1)ODE Auto-Encoderを使って最適なデータ表現を学習する。 2) サンプル間の関係特性に基づいて学習した表現(隠れ状態)を分類するピラミッド注意法について検討した。 3) 事前学習した情報を統合し、各サンプルに最終潜在状態を提供するクロスレベルode-rnn。 部分的に観測された合成および実世界のデータセットに関する広範な実験を通して、提案アーキテクチャは断続的な系列の長いギャップを効果的にモデル化し、最先端のアプローチより優れていることを示す。 その結果、予測と分類のタスクにおいて、不変量データセットと多変量データセットの平均値が10\%向上した。

Ordinary Differential Equations (ODE)-based models have become popular foundation models to solve many time-series problems. Combining neural ODEs with traditional RNN models has provided the best representation for irregular time series. However, ODE-based models require the trajectory of hidden states to be defined based on the initial observed value or the last available observation. This fact raises questions about how long the generated hidden state is sufficient and whether it is effective when long sequences are used instead of the typically used shorter sequences. In this article, we introduce CrossPyramid, a novel ODE-based model that aims to enhance the generalizability of sequences representation. CrossPyramid does not rely only on the hidden state from the last observed value; it also considers ODE latent representations learned from other samples. The main idea of our proposed model is to define the hidden state for the unobserved values based on the non-linear correlation between samples. Accordingly, CrossPyramid is built with three distinctive parts: (1) ODE Auto-Encoder to learn the best data representation. (2) Pyramidal attention method to categorize the learned representations (hidden state) based on the relationship characteristics between samples. (3) Cross-level ODE-RNN to integrate the previously learned information and provide the final latent state for each sample. Through extensive experiments on partially-observed synthetic and real-world datasets, we show that the proposed architecture can effectively model the long gaps in intermittent series and outperforms state-of-the-art approaches. The results show an average improvement of 10\% on univariate and multivariate datasets for both forecasting and classification tasks.
翻訳日:2022-12-08 16:44:15 公開日:2022-12-07
# 政策制約とQ-Ensembleによる自己刺激学習の促進

Accelerating Self-Imitation Learning from Demonstrations via Policy Constraints and Q-Ensemble ( http://arxiv.org/abs/2212.03562v1 )

ライセンス: Link先を確認
Chao Li(参考訳) 深層強化学習(DRL)はロボット制御ポリシーを生成する新しい方法を提供する。 しかしながら、トレーニング制御ポリシのプロセスは長い探索を必要とするため、現実世界のタスクにおいて強化学習(RL)のサンプル効率が低い。 模擬学習 (IL) と実演からの学習 (LfD) の両方が専門家によるデモンストレーションを用いて訓練プロセスを改善するが、不完全な専門家による実演は政策改善を誤解させる可能性がある。 オフラインからオンラインへの強化学習は、ポリシーを初期化するために多くのオフラインデータを必要とする。 上記の課題を解決するために,A-SILfDという,専門家による実演をエージェントの成功体験として扱い,政策改善を制約するための経験を学習する手法を提案する。 さらに, アンサンブルQ関数によるQ関数の推定誤差が大きいため, 性能劣化を防止する。 実験の結果,A-SILfDは少数の品質専門家による実験により,サンプル効率を大幅に向上できることがわかった。 4つのMujoco連続制御タスクでは、A-SILfDはオンライントレーニングの15万ステップ後にベースラインメソッドを著しく上回り、トレーニング中に不完全な専門家のデモンストレーションによって誤解されることはない。

Deep reinforcement learning (DRL) provides a new way to generate robot control policy. However, the process of training control policy requires lengthy exploration, resulting in a low sample efficiency of reinforcement learning (RL) in real-world tasks. Both imitation learning (IL) and learning from demonstrations (LfD) improve the training process by using expert demonstrations, but imperfect expert demonstrations can mislead policy improvement. Offline to Online reinforcement learning requires a lot of offline data to initialize the policy, and distribution shift can easily lead to performance degradation during online fine-tuning. To solve the above problems, we propose a learning from demonstrations method named A-SILfD, which treats expert demonstrations as the agent's successful experiences and uses experiences to constrain policy improvement. Furthermore, we prevent performance degradation due to large estimation errors in the Q-function by the ensemble Q-functions. Our experiments show that A-SILfD can significantly improve sample efficiency using a small number of different quality expert demonstrations. In four Mujoco continuous control tasks, A-SILfD can significantly outperform baseline methods after 150,000 steps of online training and is not misled by imperfect expert demonstrations during training.
翻訳日:2022-12-08 16:43:52 公開日:2022-12-07
# 顔インタラクショングラフネットワークによる剛体力学の学習

Learning rigid dynamics with face interaction graph networks ( http://arxiv.org/abs/2212.03574v1 )

ライセンス: Link先を確認
Kelsey R. Allen, Yulia Rubanova, Tatiana Lopez-Guevara, William Whitney, Alvaro Sanchez-Gonzalez, Peter Battaglia, Tobias Pfaff(参考訳) 任意の形状の剛性衝突のシミュレーションは、複雑な幾何学と相互作用の強い非線形性のために、非常に難しい。 グラフニューラルネットワーク(gnn)ベースのモデルは、流体、布、関節体などの複雑な物理力学をシミュレートするのに有効であるが、非常に単純な形状を除いて、剛体物理学では効果が低く効率的である。 メッシュのノード間の衝突をモデル化する既存の方法は、ノードから遠く離れた面に衝突が発生した場合に苦労するため、しばしば不正確である。 幾何を多くの粒子で密に表現する別のアプローチは、複雑な形状に対して非常に高価である。 本稿では,gnnベースの手法を超えて拡張された顔インタラクショングラフネットワーク(fignet)を紹介し,ノードではなくメッシュ顔間のインタラクションを計算する。 学習したノードとパーティクルベースの手法と比較して、FIGNetは複雑な形状の相互作用をシミュレートする上で約4倍正確である。 さらに、fignetは現実世界のデータから直接摩擦ダイナミクスを学習することができ、少量のトレーニングデータから解析解法よりも正確である。 FIGNetは、学習したシミュレータとほとんど競合しない数少ない物理ドメインの1つであり、ロボット工学、グラフィックス、メカニカルデザインなどの関連分野をシミュレーションとモデルベースの計画のための新しいツールとして提供している。

Simulating rigid collisions among arbitrary shapes is notoriously difficult due to complex geometry and the strong non-linearity of the interactions. While graph neural network (GNN)-based models are effective at learning to simulate complex physical dynamics, such as fluids, cloth and articulated bodies, they have been less effective and efficient on rigid-body physics, except with very simple shapes. Existing methods that model collisions through the meshes' nodes are often inaccurate because they struggle when collisions occur on faces far from nodes. Alternative approaches that represent the geometry densely with many particles are prohibitively expensive for complex shapes. Here we introduce the Face Interaction Graph Network (FIGNet) which extends beyond GNN-based methods, and computes interactions between mesh faces, rather than nodes. Compared to learned node- and particle-based methods, FIGNet is around 4x more accurate in simulating complex shape interactions, while also 8x more computationally efficient on sparse, rigid meshes. Moreover, FIGNet can learn frictional dynamics directly from real-world data, and can be more accurate than analytical solvers given modest amounts of training data. FIGNet represents a key step forward in one of the few remaining physical domains which have seen little competition from learned simulators, and offers allied fields such as robotics, graphics and mechanical design a new tool for simulation and model-based planning.
翻訳日:2022-12-08 16:43:14 公開日:2022-12-07
# ソフトk-meansの全球解について

On the Global Solution of Soft k-Means ( http://arxiv.org/abs/2212.03589v1 )

ライセンス: Link先を確認
Feiping Nie, Hong Chen, Rong Wang, Xuelong Li(参考訳) 本稿では,ソフトk平均問題をグローバルに解くアルゴリズムを提案する。 ファジィ c-平均とは異なり、ソフト k-平均 (skm) は行列分解型目的を持ち、一般的な確率分解型クラスタリング法、例えば左確率クラスタリング (lsc) と密接な関係を持つことが示されている。 ソフトk平均問題の解法としていくつかの研究がなされているが、通常はSkMの非凸性から大域的最適性を保証することのできない交互最小化スキームや投射勾配降下法を用いる。 本稿では,Soft k-Means問題の実現可能な解がグローバルに最適であるような条件を提示し,提案アルゴリズムの出力が満足できることを示す。 さらに,ソフトk-平均問題に対して,安定性,非特異性,lscとの関連について興味深い議論を行う。 そこで, 最小体積k平均 (MVSkM) と呼ばれる新しいモデルを提案し, 非特異性問題に対処する。 最後に、実験結果が理論的結果を支持する。

This paper presents an algorithm to solve the Soft k-Means problem globally. Unlike Fuzzy c-Means, Soft k-Means (SkM) has a matrix factorization-type objective and has been shown to have a close relation with the popular probability decomposition-type clustering methods, e.g., Left Stochastic Clustering (LSC). Though some work has been done for solving the Soft k-Means problem, they usually use an alternating minimization scheme or the projected gradient descent method, which cannot guarantee global optimality since the non-convexity of SkM. In this paper, we present a sufficient condition for a feasible solution of Soft k-Means problem to be globally optimal and show the output of the proposed algorithm satisfies it. Moreover, for the Soft k-Means problem, we provide interesting discussions on stability, solutions non-uniqueness, and connection with LSC. Then, a new model, named Minimal Volume Soft k-Means (MVSkM), is proposed to address the solutions non-uniqueness issue. Finally, experimental results support our theoretical results.
翻訳日:2022-12-08 16:42:35 公開日:2022-12-07
# 学習制御ポリシーを用いた移動目標のアクティブ分類

Active Classification of Moving Targets with Learned Control Policies ( http://arxiv.org/abs/2212.03068v2 )

ライセンス: Link先を確認
\'Alvaro Serra-G\'omez, Eduardo Montijano, Wendelin B\"ohmer, Javier Alonso-Mora(参考訳) 本稿では,複数の移動目標を分類するために,ドローンが意味情報を収集しなければならない問題を考える。 特に,「ブラックボックス」分類器,例えばディープ・ラーニング・ニューラルネットを用いて情報を抽出した場合,ドローンを情報的視点,位置,方向へと移動させる制御入力を計算することの課題に対処する。 これらのアルゴリズムは通常、視点と関連する出力の間の分析的関係が欠如しており、情報収集スキームでの使用を妨げている。 このギャップを埋めるために,本研究は,ドローンの移動,方向,咬合について推論しながら,できるだけ多くの非分類対象から証拠を取得することを好む次の視点として,強化学習(rl)によって訓練された,新たな注意に基づくアーキテクチャを提案する。 そして、実際のダイナミクスを考慮した低レベルのmpcコントローラを使用して、ドローンを望ましい視点に移動させる。 このアプローチは,さまざまなベースラインを上回るだけでなく,トレーニング中に見つからないシナリオにも適用可能であることを示す。 さらに,ネットワークが多数のターゲットにスケールし,ターゲットの異なる移動ダイナミクスによく一般化することを示す。

In this paper, we consider the problem where a drone has to collect semantic information to classify multiple moving targets. In particular, we address the challenge of computing control inputs that move the drone to informative viewpoints, position and orientation, when the information is extracted using a "black-box" classifier, e.g., a deep learning neural network. These algorithms typically lack of analytical relationships between the viewpoints and their associated outputs, preventing their use in information-gathering schemes. To fill this gap, we propose a novel attention-based architecture, trained via Reinforcement Learning (RL), that outputs the next viewpoint for the drone favoring the acquisition of evidence from as many unclassified targets as possible while reasoning about their movement, orientation, and occlusions. Then, we use a low-level MPC controller to move the drone to the desired viewpoint taking into account its actual dynamics. We show that our approach not only outperforms a variety of baselines but also generalizes to scenarios unseen during training. Additionally, we show that the network scales to large numbers of targets and generalizes well to different movement dynamics of the targets.
翻訳日:2022-12-08 16:41:55 公開日:2022-12-07
# learn to explore: メタラーニングによるインタラクティブなデータ探索について

Learn to Explore: on Bootstrapping Interactive Data Exploration with Meta-learning ( http://arxiv.org/abs/2212.03423v1 )

ライセンス: Link先を確認
Yukun Cao, Xike Xie, and Kexin Huang(参考訳) インタラクティブデータ探索(IDE)は、人間の能力を超える量と複雑さを持つビッグデータを理解する効果的な方法である。 IDEの主な目標は、複数ラウンドのユーザラベリングを通じて、データベースからユーザ関心領域を見つけることである。 既存のIDEはアクティブラーニングフレームワークを採用しており、ユーザーは選択したタプルの面白さを反復的に識別またはラベル付けする。 データ探索のプロセスは、データベースタプルがユーザにとって興味深いかどうかを決定する分類器を訓練するプロセスと見なすことができる。 したがって、効率的な探索は、関心のあるデータ領域に到達するのに、ユーザラベリングのイテレーションをほんの数回必要とします。 本研究では,データ探索を,数回の学習例,あるいは探索イテレーションで分類器を学習する,マイトショット学習のプロセスとして捉えた。 そこで本研究では,自動生成したメタタスクを用いて分類器の学習方法を学習し,探索プロセスを大幅に短縮するメタラーニングに基づくラーニング・ツー・エクスプローラーフレームワークを提案する。 実データセットに関する広範囲な実験により,提案手法が既存の探索型ソリューションよりも精度と効率の面で優れていることが示された。

Interactive data exploration (IDE) is an effective way of comprehending big data, whose volume and complexity are beyond human abilities. The main goal of IDE is to discover user interest regions from a database through multi-rounds of user labelling. Existing IDEs adopt active-learning framework, where users iteratively discriminate or label the interestingness of selected tuples. The process of data exploration can be viewed as the process of training a classifier, which determines whether a database tuple is interesting to a user. An efficient exploration thus takes very few iterations of user labelling to reach the data region of interest. In this work, we consider the data exploration as the process of few-shot learning, where the classifier is learned with only a few training examples, or exploration iterations. To this end, we propose a learning-to-explore framework, based on meta-learning, which learns how to learn a classifier with automatically generated meta-tasks, so that the exploration process can be much shortened. Extensive experiments on real datasets show that our proposal outperforms existing explore-by-example solutions in terms of accuracy and efficiency.
翻訳日:2022-12-08 16:41:34 公開日:2022-12-07
# 協調型マルチエージェントシステムにおける動的DCOPのための分散相互作用グラフ構築

Distributed Interaction Graph Construction for Dynamic DCOPs in Cooperative Multi-agent Systems ( http://arxiv.org/abs/2212.03461v1 )

ライセンス: Link先を確認
Brighter Agyemang, Fenghui Ren, Jun Yan(参考訳) DCOPアルゴリズムは通常、操作する相互作用グラフに依存する。 オープンで動的な環境では、そのような手法はエージェント間でこの相互作用グラフが生成され維持される方法に対処する必要がある。 既存の手法では、環境の変化を検出したり、新しいエージェントが接続を容易にするために潜在的隣人を知っていると仮定して、グラフ全体を再構築する必要がある。 本稿では,この問題に対処する分散相互作用グラフ構築アルゴリズムを提案する。 提案手法は,事前定義された制約グラフを仮定せず,環境の破壊的変化後に安定化する。 提案手法は既存のDCOPアルゴリズムと組み合わせて複数の動的問題を解くことで評価する。 実験の結果,提案手法はオープンおよび動的環境に対して安定なマルチエージェントインタラクショングラフを構築し,維持できることがわかった。

DCOP algorithms usually rely on interaction graphs to operate. In open and dynamic environments, such methods need to address how this interaction graph is generated and maintained among agents. Existing methods require reconstructing the entire graph upon detecting changes in the environment or assuming that new agents know potential neighbors to facilitate connection. We propose a novel distributed interaction graph construction algorithm to address this problem. The proposed method does not assume a predefined constraint graph and stabilizes after disruptive changes in the environment. We evaluate our approach by pairing it with existing DCOP algorithms to solve several generated dynamic problems. The experiment results show that the proposed algorithm effectively constructs and maintains a stable multi-agent interaction graph for open and dynamic environments.
翻訳日:2022-12-08 16:41:15 公開日:2022-12-07
# 衛星画像認識モデルの概要

Overview Of Satellite Image Recognition Models ( http://arxiv.org/abs/2212.03716v1 )

ライセンス: Link先を確認
Alexey Averkin and Sergey Yarushev(参考訳) 本稿では,既存の衛星画像認識モデルの解析を行い,情報ソースとしての衛星画像認識の分野における問題点を考察し,深層学習法を比較し,既存の画像認識法を解析した。 得られた結果は,衛星画像に基づく火災認識モデルの今後の発展と,ファジィ認知地図に基づくマクロ経済状況予測の認知モデルへの認識結果の入力データとしての利用の基礎となる。

In this article, the analysis of existing models of satellite image recognition was carried out, the problems in the field of satellite image recognition as a source of information were considered and analyzed, deep learning methods were compared, and existing image recognition methods were analyzed. The results obtained will be used as a basis for the prospective development of a fire recognition model based on satellite images and the use of recognition results as input data for a cognitive model of forecasting the macro-economic situation based on fuzzy cognitive maps.
翻訳日:2022-12-08 16:34:32 公開日:2022-12-07
# GAMMA:Attentive Marine Debris Detectionのためのジェネレーション拡張

GAMMA: Generative Augmentation for Attentive Marine Debris Detection ( http://arxiv.org/abs/2212.03759v1 )

ライセンス: Link先を確認
Vaishnavi Khindkar, Janhavi Khindkar(参考訳) 本研究では,水中デブリデータによる視覚検出の不十分な課題を解決するため,効率的かつ生成的な拡張手法を提案する。 われわれはcycleganをデータ拡張技術として利用し, 陸生プラスチックのオープンで豊富なデータを水中画像に変換する。 事前の作業は、既存のデータの強化や強化にのみ焦点を合わせ、さらにデータセットにバイアスを加える。 空気中のプラスチックデータを海中の背景に変換する手法と比較した。 また,アテンション機構を用いた水中デブリ検出のための新しいアーキテクチャを提案する。 提案手法は, 画像の関連事例のみに焦点を合わせることで, 自律下水車(AUV)を用いた海洋破片の検出において, 高い負荷がかかる検出器性能を向上させる。 本手法を用いた海洋破片検出のための広範囲な実験を行った。 定量的および定性的な結果は、最先端の手法を著しく上回るフレームワークの可能性を示している。

We propose an efficient and generative augmentation approach to solve the inadequacy concern of underwater debris data for visual detection. We use cycleGAN as a data augmentation technique to convert openly available, abundant data of terrestrial plastic to underwater-style images. Prior works just focus on augmenting or enhancing existing data, which moreover adds bias to the dataset. Compared to our technique, which devises variation, transforming additional in-air plastic data to the marine background. We also propose a novel architecture for underwater debris detection using an attention mechanism. Our method helps to focus only on relevant instances of the image, thereby enhancing the detector performance, which is highly obliged while detecting the marine debris using Autonomous Underwater Vehicle (AUV). We perform extensive experiments for marine debris detection using our approach. Quantitative and qualitative results demonstrate the potential of our framework that significantly outperforms the state-of-the-art methods.
翻訳日:2022-12-08 16:34:24 公開日:2022-12-07
# ソースフリードメイン適応におけるcentroid-hypothesis conflictの和解

Reconciling a Centroid-Hypothesis Conflict in Source-Free Domain Adaptation ( http://arxiv.org/abs/2212.03795v1 )

ライセンス: Link先を確認
Idit Diamant, Roy H. Jennings, Oranit Dror, Hai Victor Habi, Arnon Netzer(参考訳) ソースフリードメイン適応(Source-free domain adapt, SFDA)は、ソースドメインから学習した知識をラベルのないターゲットドメインに転送することを目的としている。 SFDAの既存のアプローチは通常、確立されたエントロピー最小化技術を含む自己学習に焦点を当てている。 SFDAの主な課題の1つは、ドメインのミスアライメントによるエラーの蓄積を減らすことである。 最近の戦略は、表現空間におけるクラスタリングによって生成されたクラス毎のプロトタイプ(センタロイド)に基づいてターゲットサンプルを擬似ラベル付けすることで、エラーの蓄積を減らすことに成功した。 しかし、この戦略はまた、擬似ラベルのクロスエントロピーと最小エントロピーが目的に衝突するケースを生み出している。 我々はこの紛争をセントロイド・ヒポテシス紛争と呼ぶ。 本稿では,エントロピー最小化目標を擬似ラベルのクロスエントロピーと整合させることにより,この矛盾を解消することを提案する。 3つの領域適応データセットに2つの損失目標を整列させることの有効性を示す。 さらに,最新のアーキテクチャを用いて最新の結果を提供するとともに,これらのアーキテクチャ間でのメソッドの一貫性も示す。

Source-free domain adaptation (SFDA) aims to transfer knowledge learned from a source domain to an unlabeled target domain, where the source data is unavailable during adaptation. Existing approaches for SFDA focus on self-training usually including well-established entropy minimization techniques. One of the main challenges in SFDA is to reduce accumulation of errors caused by domain misalignment. A recent strategy successfully managed to reduce error accumulation by pseudo-labeling the target samples based on class-wise prototypes (centroids) generated by their clustering in the representation space. However, this strategy also creates cases for which the cross-entropy of a pseudo-label and the minimum entropy have a conflict in their objectives. We call this conflict the centroid-hypothesis conflict. We propose to reconcile this conflict by aligning the entropy minimization objective with that of the pseudo labels' cross entropy. We demonstrate the effectiveness of aligning the two loss objectives on three domain adaptation datasets. In addition, we provide state-of-the-art results using up-to-date architectures also showing the consistency of our method across these architectures.
翻訳日:2022-12-08 16:34:06 公開日:2022-12-07
# Few-Shot Prompt Learning を用いたモデル補完の自動化

Towards using Few-Shot Prompt Learning for Automating Model Completion ( http://arxiv.org/abs/2212.03404v1 )

ライセンス: Link先を確認
Meriem Ben Chaaben and Lola Burgue\~no and Houari Sahraoui(参考訳) 我々は、ドメインモデリングアクティビティの完了を改善するための単純かつ新しいアプローチを提案します。 このアプローチでは,大規模データセットのトレーニングや微調整を必要とせず,短時間のプロンプト学習を用いて,大規模言語モデルのパワーを活用している。 このアプローチを実装し、静的および動的ドメイン図の完成時にテストしました。 最初の評価では、このようなアプローチは効果的であり、モデリングアクティビティ中に異なる方法で統合できることを示した。

We propose a simple yet a novel approach to improve completion in domain modeling activities. Our approach exploits the power of large language models by using few-shot prompt learning without the need to train or fine-tune those models with large datasets that are scarce in this field. We implemented our approach and tested it on the completion of static and dynamic domain diagrams. Our initial evaluation shows that such an approach is effective and can be integrated in different ways during the modeling activities.
翻訳日:2022-12-08 16:33:47 公開日:2022-12-07
# 弱教師付きコントラスト事前学習によるテキスト埋め込み

Text Embeddings by Weakly-Supervised Contrastive Pre-training ( http://arxiv.org/abs/2212.03533v1 )

ライセンス: Link先を確認
Liang Wang, Nan Yang, Xiaolong Huang, Binxing Jiao, Linjun Yang, Daxin Jiang, Rangan Majumder, Furu Wei(参考訳) 本稿では,多種多様なタスクによく伝達される最先端のテキスト埋め込みであるE5について述べる。 このモデルは,大規模テキストペアデータセット(CCPairs)の弱い監視信号を用いて,対照的に訓練される。 E5は、検索、クラスタリング、分類のようなテキストの単一ベクトル表現を必要とするタスクに対して汎用的な埋め込みモデルとして容易に利用でき、ゼロショットと微調整の両方で強力なパフォーマンスを達成することができる。 BEIRおよびMTEBベンチマークから56のデータセットについて広範囲に評価を行った。 ゼロショット設定の場合、e5はラベル付きデータを使わずにbeir検索ベンチマークで強力なbm25ベースラインを上回る最初のモデルである。 微調整すると、E5はMTEBベンチマークの最良の結果を得ることができ、既存の埋め込みモデルを40倍のパラメータで上回る。

This paper presents E5, a family of state-of-the-art text embeddings that transfer well to a wide range of tasks. The model is trained in a contrastive manner with weak supervision signals from our curated large-scale text pair dataset (called CCPairs). E5 can be readily used as a general-purpose embedding model for any tasks requiring a single-vector representation of texts such as retrieval, clustering, and classification, achieving strong performance in both zero-shot and fine-tuned settings. We conduct extensive evaluations on 56 datasets from the BEIR and MTEB benchmarks. For zero-shot settings, E5 is the first model that outperforms the strong BM25 baseline on the BEIR retrieval benchmark without using any labeled data. When fine-tuned, E5 obtains the best results on the MTEB benchmark, beating existing embedding models with 40x more parameters.
翻訳日:2022-12-08 16:33:39 公開日:2022-12-07
# Recommenderシステムにおける言語モデリングのPivotalの役割:タスク特化学習とタスク非依存表現学習の強化

Pivotal Role of Language Modeling in Recommender Systems: Enriching Task-specific and Task-agnostic Representation Learning ( http://arxiv.org/abs/2212.03760v1 )

ライセンス: Link先を確認
Kyuyong Shin, Hanock Kwak, Wonjae Kim, Jisu Jeong, Seungjae Jung, Kyung-Min Kim, Jung-Woo Ha, Sang-Woo Lee(参考訳) 近年,様々なアプリケーションのユーザ行動データを活用する統合ユーザモデリングフレームワークが提案されている。 ユーザの行動シーケンスをプレーンテキストとして活用することの最大のメリットは、汎用性を失うことなく、ドメインやシステム内のリッチな情報を表現することだ。 ユーザ履歴コーパスのための言語モデリングは、レコメンダシステムを改善するのに役立つか? その汎用性は、多くのドメインで広く研究されてきたが、レコメンデーションシステムへの応用は、まだ未検討のままである。 タスク固有のユーザ履歴に直接適用される言語モデリングは,様々なレコメンデーションタスクにおいて優れた結果が得られることを示す。 また、追加のタスクに依存しないユーザ履歴を利用することで、大きなパフォーマンス上のメリットが得られます。 さらに,本手法は,未確認領域やサービスにおいても,幅広い実世界のレコメンデータシステムに対して,有望な伝達学習能力を提供できることを示す。

Recent studies have proposed a unified user modeling framework that leverages user behavior data from various applications. Most benefit from utilizing users' behavior sequences as plain texts, representing rich information in any domain or system without losing generality. Hence, a question arises: Can language modeling for user history corpus help improve recommender systems? While its versatile usability has been widely investigated in many domains, its applications to recommender systems still remain underexplored. We show that language modeling applied directly to task-specific user histories achieves excellent results on diverse recommendation tasks. Also, leveraging additional task-agnostic user histories delivers significant performance benefits. We further demonstrate that our approach can provide promising transfer learning capabilities for a broad spectrum of real-world recommender systems, even on unseen domains and services.
翻訳日:2022-12-08 16:33:25 公開日:2022-12-07
# 有害な共変量シフトに対する学習に基づく仮説テスト

A Learning Based Hypothesis Test for Harmful Covariate Shift ( http://arxiv.org/abs/2212.02742v2 )

ライセンス: Link先を確認
Tom Ginsberg, Zhongyuan Liang, and Rahul G. Krishnan(参考訳) テスト時に共変量シフトを迅速かつ正確に識別する能力は、ハイリスクなドメインにデプロイされた安全な機械学習システムの重要かつしばしば見過ごされるコンポーネントである。 分散テスト例で予測をすべきでないことを検出する方法は存在するが、トレーニングとテスト時間の分散レベルの違いを特定することは、モデルがデプロイ設定から削除され、再トレーニングされるタイミングを決定するのに役立つ。 本研究では,有害な共変量シフト(HCS)を,予測モデルの一般化を弱める可能性のある分布の変化として定義する。 HCSの検出には、トレーニングデータとテストデータに一致しないように訓練された分類器のアンサンブル間の不一致を用いる。 我々は,このアンサンブルを訓練する損失関数を導出し,この不一致率とエントロピーがHCSの強力な識別統計値を表すことを示す。 実験により,多種多様な高次元データセット上で,統計的確度で有害な共変量シフトを検出する能力を示す。 多数のドメインとモダリティにまたがって,既存の手法と比較して,特に観測されたサンプル数が少ない場合,最先端の性能を示す。

The ability to quickly and accurately identify covariate shift at test time is a critical and often overlooked component of safe machine learning systems deployed in high-risk domains. While methods exist for detecting when predictions should not be made on out-of-distribution test examples, identifying distributional level differences between training and test time can help determine when a model should be removed from the deployment setting and retrained. In this work, we define harmful covariate shift (HCS) as a change in distribution that may weaken the generalization of a predictive model. To detect HCS, we use the discordance between an ensemble of classifiers trained to agree on training data and disagree on test data. We derive a loss function for training this ensemble and show that the disagreement rate and entropy represent powerful discriminative statistics for HCS. Empirically, we demonstrate the ability of our method to detect harmful covariate shift with statistical certainty on a variety of high-dimensional datasets. Across numerous domains and modalities, we show state-of-the-art performance compared to existing methods, particularly when the number of observed test samples is small.
翻訳日:2022-12-08 16:33:10 公開日:2022-12-07
# ハードウェア故障に対するグラフニューラルネットワークのレジリエンスの評価と解析

Assessing and Analyzing the Resilience of Graph Neural Networks Against Hardware Faults ( http://arxiv.org/abs/2212.03475v1 )

ライセンス: Link先を確認
Xun Jiao, Ruixuan Wang, Fred Lin, Daniel Moore, Sriram Sankar(参考訳) グラフニューラルネットワーク(GNN)は近年,グラフ構造化データの学習において有望な学習パラダイムとして登場し,レコメンデーションシステムやソーシャルネットワーク,電子設計自動化(EDA)など,さまざまな領域で広く成功している。 他のディープラーニング(DL)メソッドと同様に、GNNは高度なハードウェアシステムや専用のアクセラレータにデプロイされている。 しかし、GNNの人気と近年のハードウェアへのGNN導入の取り組みにもかかわらず、GNNのフォールトトレランスとレジリエンスは概して見過ごされている。 本論文は, DL手法のアルゴリズム的レジリエンスに着想を得て, ハードウェア欠陥とGNN精度の関係を理解することを目的とした, GNNレジリエンスの大規模かつ実証的研究を行う。 PyTorch上にカスタマイズされたフォールトインジェクションツールを開発することで、さまざまなGNNモデルやアプリケーションデータセットに対して広範なフォールトインジェクション実験を行う。 我々は,GNNモデルの誤差レジリエンスが,異なるモデルやアプリケーションデータセットに対して桁違いに変化することを観察した。 さらに,gnnのレジリエンス向上のために,低コストなエラー緩和機構を検討する。 このGNNレジリエンス研究は、将来のGNNアクセラレータ設計とアーキテクチャ最適化のための新たな方向性と機会を開くことを目的としている。

Graph neural networks (GNNs) have recently emerged as a promising learning paradigm in learning graph-structured data and have demonstrated wide success across various domains such as recommendation systems, social networks, and electronic design automation (EDA). Like other deep learning (DL) methods, GNNs are being deployed in sophisticated modern hardware systems, as well as dedicated accelerators. However, despite the popularity of GNNs and the recent efforts of bringing GNNs to hardware, the fault tolerance and resilience of GNNs has generally been overlooked. Inspired by the inherent algorithmic resilience of DL methods, this paper conducts, for the first time, a large-scale and empirical study of GNN resilience, aiming to understand the relationship between hardware faults and GNN accuracy. By developing a customized fault injection tool on top of PyTorch, we perform extensive fault injection experiments to various GNN models and application datasets. We observe that the error resilience of GNN models varies by orders of magnitude with respect to different models and application datasets. Further, we explore a low-cost error mitigation mechanism for GNN to enhance its resilience. This GNN resilience study aims to open up new directions and opportunities for future GNN accelerator design and architectural optimization.
翻訳日:2022-12-08 16:32:49 公開日:2022-12-07
# mob-fl:インテリジェントコネクテッドカーのためのモビリティアウェアフェデレーション学習

MOB-FL: Mobility-Aware Federated Learning for Intelligent Connected Vehicles ( http://arxiv.org/abs/2212.03519v1 )

ライセンス: Link先を確認
Bowen Xie, Yuxuan Sun, Sheng Zhou, Zhisheng Niu, Yang Xu, Jingran Chen, Deniz G\"und\"uz(参考訳) フェデレートラーニング(FL)は、インテリジェントコネクテッドカー(ICV)と強力なセンシング、コンピューティング、通信機能を備えた未来の車両のインターネットを実現するための有望なアプローチである。 データトラフィックとプライバシリークを制限するため、近隣のICVをコーディネートしてニューラルネットワークを協調的かつ分散的にトレーニングする基地局(BS)について検討する。 しかし、車両の移動性のため、BSとICVの接続は短命であり、ISVの資源利用に影響し、トレーニングプロセスの収束速度が向上する。 本稿では,FLの収束性能を向上させるため,各トレーニングラウンドの時間と局所反復回数を最適化し,高速化されたFL-ICVフレームワークを提案する。 短寿命無線接続下でのICVの資源利用を最大化し,収束速度を向上させることを目的としたモビリティ対応最適化アルゴリズムMOB-FLを提案する。 ビーム選択および軌道予測タスクに基づくシミュレーション結果は,提案手法の有効性を検証した。

Federated learning (FL) is a promising approach to enable the future Internet of vehicles consisting of intelligent connected vehicles (ICVs) with powerful sensing, computing and communication capabilities. We consider a base station (BS) coordinating nearby ICVs to train a neural network in a collaborative yet distributed manner, in order to limit data traffic and privacy leakage. However, due to the mobility of vehicles, the connections between the BS and ICVs are short-lived, which affects the resource utilization of ICVs, and thus, the convergence speed of the training process. In this paper, we propose an accelerated FL-ICV framework, by optimizing the duration of each training round and the number of local iterations, for better convergence performance of FL. We propose a mobility-aware optimization algorithm called MOB-FL, which aims at maximizing the resource utilization of ICVs under short-lived wireless connections, so as to increase the convergence speed. Simulation results based on the beam selection and the trajectory prediction tasks verify the effectiveness of the proposed solution.
翻訳日:2022-12-08 16:32:28 公開日:2022-12-07
# 学習可能な拡張による対比深部グラフクラスタリング

Contrastive Deep Graph Clustering with Learnable Augmentation ( http://arxiv.org/abs/2212.03559v1 )

ライセンス: Link先を確認
Xihong Yang, Yue Liu, Sihang Zhou, Siwei Wang, Xinwang Liu, En Zhu(参考訳) グラフの対比学習はディープグラフクラスタリングの重要な手法である。 既存の手法はまず確率的な拡張でグラフビューを生成し、次にクロスビュー一貫性の原則でネットワークをトレーニングする。 性能は良好だが,既存の拡張手法は通常ランダムであり,事前定義された拡張に依存しており,これは不十分であり,最終クラスタリングタスク間の交渉が不十分である。 そこで本研究では,ニューラルネットワークによって完全に最適化されたLearable Graph Data Augmentation (GCC-LDA) を用いたグラフコントラストクラスタリング手法を提案する。 対角学習機構は、拡張ビューの多様性を確保しつつ、潜在空間におけるクロスビュー一貫性を維持するように設計されている。 本フレームワークでは,構造レベルと属性レベルの両方の強化学習のために,構造拡張器と属性拡張器を構築した。 学習親和性行列の信頼性を向上させるため、学習手順にクラスタリングを導入し、高信頼擬似ラベル行列とクロスビューサンプル類似性行列の両方を用いて学習親和性行列を洗練する。 学習過程において,学習視点に対する永続的最適化を提供するため,より信頼性の高いクラスタリング情報を得るために,2段階のトレーニング戦略を設計する。 6つのベンチマークデータセットに対するGCC-LDAの有効性を示した。

Graph contrastive learning is an important method for deep graph clustering. The existing methods first generate the graph views with stochastic augmentations and then train the network with a cross-view consistency principle. Although good performance has been achieved, we observe that the existing augmentation methods are usually random and rely on pre-defined augmentations, which is insufficient and lacks negotiation between the final clustering task. To solve the problem, we propose a novel Graph Contrastive Clustering method with the Learnable graph Data Augmentation (GCC-LDA), which is optimized completely by the neural networks. An adversarial learning mechanism is designed to keep cross-view consistency in the latent space while ensuring the diversity of augmented views. In our framework, a structure augmentor and an attribute augmentor are constructed for augmentation learning in both structure level and attribute level. To improve the reliability of the learned affinity matrix, clustering is introduced to the learning procedure and the learned affinity matrix is refined with both the high-confidence pseudo-label matrix and the cross-view sample similarity matrix. During the training procedure, to provide persistent optimization for the learned view, we design a two-stage training strategy to obtain more reliable clustering information. Extensive experimental results demonstrate the effectiveness of GCC-LDA on six benchmark datasets.
翻訳日:2022-12-08 16:32:10 公開日:2022-12-07
# BoxPolyp:外部粗いバウンディングボックスアノテーションを用いたBoost Generalized Polyp Segmentation

BoxPolyp:Boost Generalized Polyp Segmentation Using Extra Coarse Bounding Box Annotations ( http://arxiv.org/abs/2212.03498v1 )

ライセンス: Link先を確認
Jun Wei, Yiwen Hu, Guanbin Li, Shuguang Cui, S Kevin Zhou, Zhen Li(参考訳) 正確なポリープ分画は大腸癌の診断と治療において非常に重要である。 しかし、正確なマスクアノテーションの作成コストが高いため、既存のポリプセグメンテーション手法は深刻なデータ不足とモデル一般化の障害に苦しむ。 逆に、粗いpolypバウンディングボックスアノテーションはよりアクセスしやすい。 そこで,本稿では,正確なマスクと余分な粗いボックスアノテーションの両方をフル活用するためのブーストボックスポリプモデルを提案する。 実際、ボックスアノテーションは、反復ブーストセグメンテーションモデルを通じて細粒度ポリプ領域を生成する以前のポリプセグメンテーションモデルの過剰フィッティング問題を緩和するために適用される。 この目的を達成するために、FPSモジュールが最初に提案され、より少ないノイズでボックスアノテーションからピクセル単位の擬似ラベルを生成することで、性能が大幅に向上した。 また、同一ポリプの外観整合性を考慮して、画像整合性(IC)損失を設計する。 このようなIC損失は、2つの異なるネットワークによって抽出された特徴間の距離を明示的に狭め、モデルの堅牢性を向上させる。 BoxPolypはプラグイン・アンド・プレイモデルで、魅力的なバックボーンにマージすることができます。 5つの挑戦的ベンチマークにおける定量的および定性的な実験結果から,提案手法が従来の最先端手法よりも高い性能を示した。

Accurate polyp segmentation is of great importance for colorectal cancer diagnosis and treatment. However, due to the high cost of producing accurate mask annotations, existing polyp segmentation methods suffer from severe data shortage and impaired model generalization. Reversely, coarse polyp bounding box annotations are more accessible. Thus, in this paper, we propose a boosted BoxPolyp model to make full use of both accurate mask and extra coarse box annotations. In practice, box annotations are applied to alleviate the over-fitting issue of previous polyp segmentation models, which generate fine-grained polyp area through the iterative boosted segmentation model. To achieve this goal, a fusion filter sampling (FFS) module is firstly proposed to generate pixel-wise pseudo labels from box annotations with less noise, leading to significant performance improvements. Besides, considering the appearance consistency of the same polyp, an image consistency (IC) loss is designed. Such IC loss explicitly narrows the distance between features extracted by two different networks, which improves the robustness of the model. Note that our BoxPolyp is a plug-and-play model, which can be merged into any appealing backbone. Quantitative and qualitative experimental results on five challenging benchmarks confirm that our proposed model outperforms previous state-of-the-art methods by a large margin.
翻訳日:2022-12-08 16:25:52 公開日:2022-12-07
# worldview-3画像における屋上太陽エネルギー発生のサイト評価とレイアウト最適化

Site Assessment and Layout Optimization for Rooftop Solar Energy Generation in Worldview-3 Imagery ( http://arxiv.org/abs/2212.03516v1 )

ライセンス: Link先を確認
Zeyad Awwad, Abdulaziz Alharbi, Abdulelah H. Habib, and Olivier L. de Weck(参考訳) 近年、住宅用屋上PVの普及に伴い、1つの効率的なレイアウト設計の問題が近年ますます重要になっている。 多数の自動手法が導入されたが、これらは計算的トラクタビリティを改善するために仮定と3つのヒューリスティックに頼っている。 5つのシェーディング損失を考慮に入れた幾何学的柔軟性でより一般的な定式化を解こうとする,完全な自動レイアウト設計4パイプラインを実証する。 提案手法は,衛星画像から屋上面積を生成し,パネル位置,方位角,傾斜角を予め定義されたレイアウトを課すのではなく6 MINLP最適化を用いて選択する。 以上の結果から, 一般的な8つのヒューリスティックは, しばしば有効であるが, 幾何的制約やシェーディング損失から生じる9つの合併症により, 普遍的には適さない可能性が示唆された。 最後に,10の文献からいくつかの特定のヒューリスティックスを評価し,シェーディング効果を考慮した場合の屋根上太陽エネルギー11ポテンシャルの向上に役立つ親指の新規則を提案する。

With the growth of residential rooftop PV adoption in recent decades, the problem of 1 effective layout design has become increasingly important in recent years. Although a number 2 of automated methods have been introduced, these tend to rely on simplifying assumptions and 3 heuristics to improve computational tractability. We demonstrate a fully automated layout design 4 pipeline that attempts to solve a more general formulation with greater geometric flexibility that 5 accounts for shading losses. Our approach generates rooftop areas from satellite imagery and uses 6 MINLP optimization to select panel positions, azimuth angles and tilt angles on an individual basis 7 rather than imposing any predefined layouts. Our results demonstrate that although several common 8 heuristics are often effective, they may not be universally suitable due to complications resulting 9 from geometric restrictions and shading losses. Finally, we evaluate a few specific heuristics from the 10 literature and propose a potential new rule of thumb that may help improve rooftop solar energy 11 potential when shading effects are considered.
翻訳日:2022-12-08 16:25:29 公開日:2022-12-07
# AsyInst: Box-Supervised Instance SegmentationのためのDepthGradとColorによる非対称親和性

AsyInst: Asymmetric Affinity with DepthGrad and Color for Box-Supervised Instance Segmentation ( http://arxiv.org/abs/2212.03517v1 )

ライセンス: Link先を確認
Siwei Yang, Longlong Jing, Junfei Xiao, Hang Zhao, Alan Yuille, Yingwei Li(参考訳) 弱教師付きインスタンスセグメンテーションは難しいタスクである。 既存の手法は通常、境界ボックスを監督として使用し、例えばセグメンテーションのペアワイズカラーアフィニティ損失のような正規化損失項でネットワークを最適化する。 系統的な分析により,(1)色親和性は機能するが,深度勾配などの他のモードに比べて性能は劣るが,(2)本来の親和性損失は意図したような自明な予測を妨げないが,実際には対称な親和性損失項のため,この過程を加速させる。 本稿では,この2つの制約を克服するために,自明な予測に対するペナルティを与え,異なるモダリティによる親和性損失を一般化する新しい非対称親和性損失を提案する。 提案する非対称アフィニティ損失により,cityscapesデータセットの最先端手法を上回り,マスクapのベースラインメソッドを3.5%上回った。

The weakly supervised instance segmentation is a challenging task. The existing methods typically use bounding boxes as supervision and optimize the network with a regularization loss term such as pairwise color affinity loss for instance segmentation. Through systematic analysis, we found that the commonly used pairwise affinity loss has two limitations: (1) it works with color affinity but leads to inferior performance with other modalities such as depth gradient, (2)the original affinity loss does not prevent trivial predictions as intended but actually accelerates this process due to the affinity loss term being symmetric. To overcome these two limitations, in this paper, we propose a novel asymmetric affinity loss which provides the penalty against the trivial prediction and generalizes well with affinity loss from different modalities. With the proposed asymmetric affinity loss, our method outperforms the state-of-the-art methods on the Cityscapes dataset and outperforms our baseline method by 3.5% in mask AP.
翻訳日:2022-12-08 16:25:11 公開日:2022-12-07
# Team MT_IoTの多目的追跡チャレンジ技術レポート

Multiple Object Tracking Challenge Technical Report for Team MT_IoT ( http://arxiv.org/abs/2212.03586v1 )

ライセンス: Link先を確認
Feng Yan, Zhiheng Li, Weixin Luo, Zequn jie, Fan Liang, Xiaolin Wei, Lin Ma(参考訳) 本稿では,複合環境におけるMOT(Multiple-Object Tracking)チャレンジに関する簡単な技術的報告を行う。 本稿では,MOTタスクを人間の検出と軌道マッチングを含む2段階のタスクとして扱う。 具体的には、改良された人間検出器を設計し、運動軌跡の完全性を保証するためにほとんどの検出を関連付けた。 さらに,より正確なトレースマッチングを得るための位置方向マッチング行列を提案する。 そこで本手法では,DanceTrackチャレンジデータセット上で66.672 HOTAと93.971 MOTAを達成した。

This is a brief technical report of our proposed method for Multiple-Object Tracking (MOT) Challenge in Complex Environments. In this paper, we treat the MOT task as a two-stage task including human detection and trajectory matching. Specifically, we designed an improved human detector and associated most of detection to guarantee the integrity of the motion trajectory. We also propose a location-wise matching matrix to obtain more accurate trace matching. Without any model merging, our method achieves 66.672 HOTA and 93.971 MOTA on the DanceTrack challenge dataset.
翻訳日:2022-12-08 16:24:50 公開日:2022-12-07
# ZegCLIP: ゼロショットセマンティックセマンティックセグメンテーションのためのCLIP適応に向けて

ZegCLIP: Towards Adapting CLIP for Zero-shot Semantic Segmentation ( http://arxiv.org/abs/2212.03588v1 )

ライセンス: Link先を確認
Ziqin Zhou, Bowen Zhang, Yinjie Lei, Lingqiao Liu, Yifan Liu(参考訳) 近年、CLIPは2段階のスキームを用いて画素レベルのゼロショット学習タスクに適用されている。 一般的な考え方は、まずクラスに依存しない領域の提案を生成し、次に収穫した提案領域をCLIPに供給して、画像レベルのゼロショット分類機能を活用することである。 このような方式は有効であるが、2つの画像エンコーダが必要であり、1つは提案生成用、もう1つはCLIP用であり、複雑なパイプラインと高い計算コストをもたらす。 本研究では,CLIPのゼロショット予測能力を画像からピクセルレベルまで直接拡張する,シンプルで効率的なワンステージソリューションを提案する。 私たちの調査は、CLIPから抽出したテキストとパッチの埋め込みの類似性を比較してセマンティックマスクを生成するベースラインとして、簡単な拡張から始まります。 しかし、そのようなパラダイムは、目に見えないクラスに過度に適合し、一般化に失敗する可能性がある。 そこで本研究では,CLIPの持つゼロショット容量を大幅に維持し,画素レベルの一般化能力を向上できることを示す。 これらの修正を組み込むことで、ZegCLIPと呼ばれる効率的なゼロショットセマンティックセグメンテーションシステムが得られる。 3つの公開ベンチマークに関する広範な実験を通じて、ZegCLIPは優れたパフォーマンスを示し、"インダクティブ"と"トランスダクティブ"の両方のゼロショット設定において、最先端の手法よりも大きなマージンで性能を向上している。 また,2段階法と比較して,1段階ZegCLIPは推論の約5倍の高速化を実現している。 コードをhttps://github.com/ZiqinZhou66/ZegCLIP.gitでリリースします。

Recently, CLIP has been applied to pixel-level zero-shot learning tasks via a two-stage scheme. The general idea is to first generate class-agnostic region proposals and then feed the cropped proposal regions to CLIP to utilize its image-level zero-shot classification capability. While effective, such a scheme requires two image encoders, one for proposal generation and one for CLIP, leading to a complicated pipeline and high computational cost. In this work, we pursue a simpler-and-efficient one-stage solution that directly extends CLIP's zero-shot prediction capability from image to pixel level. Our investigation starts with a straightforward extension as our baseline that generates semantic masks by comparing the similarity between text and patch embeddings extracted from CLIP. However, such a paradigm could heavily overfit the seen classes and fail to generalize to unseen classes. To handle this issue, we propose three simple-but-effective designs and figure out that they can significantly retain the inherent zero-shot capacity of CLIP and improve pixel-level generalization ability. Incorporating those modifications leads to an efficient zero-shot semantic segmentation system called ZegCLIP. Through extensive experiments on three public benchmarks, ZegCLIP demonstrates superior performance, outperforming the state-of-the-art methods by a large margin under both "inductive" and "transductive" zero-shot settings. In addition, compared with the two-stage method, our one-stage ZegCLIP achieves a speedup of about 5 times faster during inference. We release the code at https://github.com/ZiqinZhou66/ZegCLIP.git.
翻訳日:2022-12-08 16:24:42 公開日:2022-12-07
# 直感的・非拘束な2次元立方体表現による頭部同時検出と姿勢推定

An Intuitive and Unconstrained 2D Cube Representation for Simultaneous Head Detection and Pose Estimation ( http://arxiv.org/abs/2212.03623v1 )

ライセンス: Link先を確認
Huayi Zhou, Fei Jiang, Lili Xiong, Hongtao Lu(参考訳) 最近のヘッドポーズ推定 (hpe) 法はオイラー角表現に支配されている。 回転ラベルの固有のあいまいさ問題を避けるために、代替四元数ベースおよびベクトルベース表現を導入する。 しかし、両者は視覚的に直観的ではなく、しばしば等角なオイラー角ラベルに由来する。 本稿では,関節頭部検出とポーズ推定のために,直感的かつ非拘束的な2次元立方体表現を用いた新しい単一段階鍵点法を提案する。 2d立方体は、ほぼ1つの頭部を囲む3d正規六面体ラベルの直交射影であり、それ自体は頭部の位置を含む。 頭部の向きを任意の回転角度で直接的かつあいまいに反射することができる。 一般的な6-DoFオブジェクトのポーズ推定とは異なり、我々の2D立方体は頭部の3-DoFを無視するが、頭部の3-DoFは保持する。 等辺長の先行に基づいて,誤差確率PnPアルゴリズムを適用するのではなく,予測された2次元頭部立方体からオイラー角の閉形式解を得ることができる。 提案手法は,AFLW2000およびBIWIデータセット上での他の代表手法と同等の結果を得る。 また、cmu panopticデータセットの新規なテストにより、本手法は変更することなく、制約のないフルビューhpeタスクにシームレスに適応できることを示した。

Most recent head pose estimation (HPE) methods are dominated by the Euler angle representation. To avoid its inherent ambiguity problem of rotation labels, alternative quaternion-based and vector-based representations are introduced. However, they both are not visually intuitive, and often derived from equivocal Euler angle labels. In this paper, we present a novel single-stage keypoint-based method via an {\it intuitive} and {\it unconstrained} 2D cube representation for joint head detection and pose estimation. The 2D cube is an orthogonal projection of the 3D regular hexahedron label roughly surrounding one head, and itself contains the head location. It can reflect the head orientation straightforwardly and unambiguously in any rotation angle. Unlike the general 6-DoF object pose estimation, our 2D cube ignores the 3-DoF of head size but retains the 3-DoF of head pose. Based on the prior of equal side length, we can effortlessly obtain the closed-form solution of Euler angles from predicted 2D head cube instead of applying the error-prone PnP algorithm. In experiments, our proposed method achieves comparable results with other representative methods on the public AFLW2000 and BIWI datasets. Besides, a novel test on the CMU panoptic dataset shows that our method can be seamlessly adapted to the unconstrained full-view HPE task without modification.
翻訳日:2022-12-08 16:24:14 公開日:2022-12-07
# 顔アンチ・スプーフィングのための周期的不整形特徴翻訳

Cyclically Disentangled Feature Translation for Face Anti-spoofing ( http://arxiv.org/abs/2212.03651v1 )

ライセンス: Link先を確認
Haixiao Yue, Keyao Wang, Guosheng Zhang, Haocheng Feng, Junyu Han, Errui Ding, Jingdong Wang(参考訳) 顔アンチスプーフィングの現在のドメイン適応法は、ラベル付きソースドメインデータとラベルなしターゲットドメインデータを利用して、有望な一般化可能な決定境界を得る。 しかし,これらの手法では,照度,顔のカテゴリ,スプーフタイプなどの領域差によって最終分類性能を低下させるような,ドメイン不変性の特徴的乱れを完璧に実現することが通常困難である。 本研究では,cdftn(cyclicly disentangled feature translation network)と呼ばれる新しいドメイン適応手法を提案する。 具体的には、CDFTNは、以下の擬似ラベル付きサンプルを生成する。 1) ソースドメイン不変の生長特徴 2) ドメイン固有のコンテンツ特徴を対象とし、ドメイン敵のトレーニングによって絡み合う。 ロバスト分類器は、ソースドメインラベルの監督下で合成擬似ラベル画像に基づいて訓練される。 さらに,マルチターゲットドメイン適応のためのcdftnを拡張し,よりラベルなしのターゲットドメインのデータを活用する。 いくつかの公開データセットに対する大規模な実験は、提案手法が芸術の状態を著しく上回ることを示した。

Current domain adaptation methods for face anti-spoofing leverage labeled source domain data and unlabeled target domain data to obtain a promising generalizable decision boundary. However, it is usually difficult for these methods to achieve a perfect domain-invariant liveness feature disentanglement, which may degrade the final classification performance by domain differences in illumination, face category, spoof type, etc. In this work, we tackle cross-scenario face anti-spoofing by proposing a novel domain adaptation method called cyclically disentangled feature translation network (CDFTN). Specifically, CDFTN generates pseudo-labeled samples that possess: 1) source domain-invariant liveness features and 2) target domain-specific content features, which are disentangled through domain adversarial training. A robust classifier is trained based on the synthetic pseudo-labeled images under the supervision of source domain labels. We further extend CDFTN for multi-target domain adaptation by leveraging data from more unlabeled target domains. Extensive experiments on several public datasets demonstrate that our proposed approach significantly outperforms the state of the art.
翻訳日:2022-12-08 16:23:47 公開日:2022-12-07
# SAR時系列における教師なし洪水検出

Unsupervised Flood Detection on SAR Time Series ( http://arxiv.org/abs/2212.03675v1 )

ライセンス: Link先を確認
Ritu Yadav, Andrea Nascetti, Hossein Azizpour, Yifang Ban(参考訳) 人類文明は地球系にますます強い影響を与えている。 気候変動や土地利用の変化の影響を受けて、近年は洪水などの自然災害が増加している。 地球観測は、負の影響を評価し緩和するための貴重な情報源である。 地球観測データから変化を検出することは、その影響を監視する方法のひとつだ。 効果的かつ信頼性の高い変更検出(CD)手法は,早期の災害発生リスクの同定に有効である。 本研究では,時系列Synthetic Aperture Radar~(SAR)データに基づく新しい教師なしCD手法を提案する。 提案手法は,教師なし学習手法,再構築,コントラスト学習を訓練した確率論的モデルである。 変更マップは、プリインシデントデータとポストインシデントデータとの分布差の助けを借りて生成される。 提案するCDモデルは,洪水検出データに基づいて評価する。 我々はCopernicus Emergency Management Servicesの3つの洪水イベントとSen1Floods11データセットの6つの洪水イベントを含む8つの異なる洪水現場でのモデルの有効性を検証した。 提案モデルでは平均64.53\%のインターセクションオーバーユニオン(IoU)値と75.43\%のF1スコアを得た。 達成されたiouスコアは約6-27\%であり、f1スコアは比較なしおよび教師なしの既存のcdメソッドよりも約7-22\%良い。 本研究の成果と広範な議論により,提案手法の有効性が示された。

Human civilization has an increasingly powerful influence on the earth system. Affected by climate change and land-use change, natural disasters such as flooding have been increasing in recent years. Earth observations are an invaluable source for assessing and mitigating negative impacts. Detecting changes from Earth observation data is one way to monitor the possible impact. Effective and reliable Change Detection (CD) methods can help in identifying the risk of disaster events at an early stage. In this work, we propose a novel unsupervised CD method on time series Synthetic Aperture Radar~(SAR) data. Our proposed method is a probabilistic model trained with unsupervised learning techniques, reconstruction, and contrastive learning. The change map is generated with the help of the distribution difference between pre-incident and post-incident data. Our proposed CD model is evaluated on flood detection data. We verified the efficacy of our model on 8 different flood sites, including three recent flood events from Copernicus Emergency Management Services and six from the Sen1Floods11 dataset. Our proposed model achieved an average of 64.53\% Intersection Over Union(IoU) value and 75.43\% F1 score. Our achieved IoU score is approximately 6-27\% and F1 score is approximately 7-22\% better than the compared unsupervised and supervised existing CD methods. The results and extensive discussion presented in the study show the effectiveness of the proposed unsupervised CD method.
翻訳日:2022-12-08 16:23:30 公開日:2022-12-07
# 顔提示攻撃検出

Face Presentation Attack Detection ( http://arxiv.org/abs/2212.03680v1 )

ライセンス: Link先を確認
Zitong Yu, Chenxu Zhao, Zhen Lei(参考訳) 顔認識技術は、その利便性と精度の高さから、チェックインやモバイル支払いといった日々のインタラクティブなアプリケーションで広く使われている。 しかしながら、プレゼンテーションアタック(PA)に対する脆弱性は、超セキュアなアプリケーションシナリオにおける信頼性の高い使用を制限する。 プレゼンテーションアタックはISO標準で次のように定義されている。 バイオメトリックデータキャプチャサブシステムへのプレゼンテーションは、バイオメトリックシステムの動作に干渉することを目的としている。 特にPAは、単純な2Dプリント、リプレイ、より洗練された3Dマスク、部分マスクなど多岐にわたる。 PAに対する顔認識システムを保護するため、学術界と産業界は、PAD(face presentation attack detection)技術(または「face anti-spoofing(FAS)」)の開発に多大な注意を払ってきた。

Face recognition technology has been widely used in daily interactive applications such as checking-in and mobile payment due to its convenience and high accuracy. However, its vulnerability to presentation attacks (PAs) limits its reliable use in ultra-secure applicational scenarios. A presentation attack is first defined in ISO standard as: a presentation to the biometric data capture subsystem with the goal of interfering with the operation of the biometric system. Specifically, PAs range from simple 2D print, replay and more sophisticated 3D masks and partial masks. To defend the face recognition systems against PAs, both academia and industry have paid extensive attention to developing face presentation attack detection (PAD) technology (or namely `face anti-spoofing (FAS)').
翻訳日:2022-12-08 16:23:11 公開日:2022-12-07
# 衛星画像を用いた火災検知システムの開発

Development Of A Fire Detection System On Satellite Images ( http://arxiv.org/abs/2212.03709v1 )

ライセンス: Link先を確認
Sergey Yarushev and Alexey Averkin(参考訳) 本稿では,衛星画像上での山火事認識のための深層ニューラルネットワークの畳み込みアーキテクチャの開発について論じる。 画像分類の結果に基づき,マクロ経済状況の分析を行うファジィ認知マップを構築した。 また,衛星画像上の山火事データを用いたファジィ認知地図に基づくマクロ経済指標の予測にハイブリッド認知モデルを用いる可能性についても検討した。

This paper discusses the development of a convolutional architecture of a deep neural network for the recognition of wildfires on satellite images. Based on the results of image classification, a fuzzy cognitive map of the analysis of the macroeconomic situation was built. The paper also considers the prospect of using hybrid cognitive models for forecasting macroeconomic indicators based on fuzzy cognitive maps using data on recognized wildfires on satellite images.
翻訳日:2022-12-08 16:23:00 公開日:2022-12-07
# Drone Atttention: ドローンカメラによる活動認識のための疎重時間アテンション

DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera Based Activity Recognition ( http://arxiv.org/abs/2212.03384v1 )

ライセンス: Link先を確認
Santosh Kumar Yadav, Achleshwar Luthra, Esha Pahwa, Kamlesh Tiwari, Heena Rathore, Hari Mohan Pandey, Peter Corcoran(参考訳) ドローン搭載カメラを用いた人間行動認識(HAR)は近年,コンピュータビジョン研究コミュニティから大きな関心を集めている。 堅牢で効率的なHARシステムは、ビデオ監視、群衆行動分析、スポーツ分析、人間とコンピュータの相互作用といった分野において重要な役割を果たす。 難しいのは、複雑なポーズ、異なる視点、そしてアクションが行われる環境シナリオを理解することです。 このような複雑さに対処するため、本稿では、疎サンプリングされたビデオフレームをグローバルに重み付けされた時間的注意を得るために利用する、スパース重み付き時間的注意(SWTA)モジュールを提案する。 提案するswatは2つの部分からなる。 まず、与えられたフレームの集合をわずかにサンプリングする時間セグメントネットワーク。 第二に、光学的流れから導かれる注目マップと生のRGB画像との融合を含む重み付き時間的注意。 続くベースネットネットワークは、畳み込みニューラルネットワーク(CNN)モジュールと、アクティビティ認識を提供する完全に接続されたレイヤで構成される。 SWTAネットワークは、既存の深層CNNアーキテクチャのプラグインモジュールとして使用することができ、個別の時間ストリームを不要にすることで、時間情報の学習を最適化することができる。 Okutama、MOD20、Drone-Actionという3つの公開ベンチマークデータセットで評価されている。 提案モデルの精度は72.76%, 92.56%, 78.86%であり, 従来の性能を25.26%, 18.56%, 2.94%で上回っている。

Human activity recognition (HAR) using drone-mounted cameras has attracted considerable interest from the computer vision research community in recent years. A robust and efficient HAR system has a pivotal role in fields like video surveillance, crowd behavior analysis, sports analysis, and human-computer interaction. What makes it challenging are the complex poses, understanding different viewpoints, and the environmental scenarios where the action is taking place. To address such complexities, in this paper, we propose a novel Sparse Weighted Temporal Attention (SWTA) module to utilize sparsely sampled video frames for obtaining global weighted temporal attention. The proposed SWTA is comprised of two parts. First, temporal segment network that sparsely samples a given set of frames. Second, weighted temporal attention, which incorporates a fusion of attention maps derived from optical flow, with raw RGB images. This is followed by a basenet network, which comprises a convolutional neural network (CNN) module along with fully connected layers that provide us with activity recognition. The SWTA network can be used as a plug-in module to the existing deep CNN architectures, for optimizing them to learn temporal information by eliminating the need for a separate temporal stream. It has been evaluated on three publicly available benchmark datasets, namely Okutama, MOD20, and Drone-Action. The proposed model has received an accuracy of 72.76%, 92.56%, and 78.86% on the respective datasets thereby surpassing the previous state-of-the-art performances by a margin of 25.26%, 18.56%, and 2.94%, respectively.
翻訳日:2022-12-08 16:17:23 公開日:2022-12-07
# SSDNeRF:神経放射場の意味的ソフト分解

SSDNeRF: Semantic Soft Decomposition of Neural Radiance Fields ( http://arxiv.org/abs/2212.03406v1 )

ライセンス: Link先を確認
Siddhant Ranade, Christoph Lassner, Kai Li, Christian Haene, Shen-Chi Chen, Jean-Charles Bazin, Sofien Bouaziz(参考訳) neural radiance fields (nerfs) は、シーンのプレンオプティクス関数によってパラメータ化されたシーンの輝度を符号化する。 これは、MLPと高次元空間へのマッピングを併用して実現され、非常に詳細なシーンを撮影することが証明されている。 当然のことながら、同じパラメータ化を使ってシーンの余分な特性を符号化することができる。 この点において特に興味深いのは、シーンの意味分解である。 本稿では,シーンの放射信号と組み合わせて意味信号を符号化する,ニューラルレイディアンスフィールド(SSDNeRF)のセマンティックソフト分解手法を提案する。 このアプローチでは,シーンのソフトな分解をセマンティックなパーツにすることで,複数の意味クラスを同じ方向にブレンドして正しくエンコードすることが可能です。 これはシーンの詳細な3Dセマンティック表現をもたらすだけでなく、エンコーディングに使用されるMLPの正規化効果が意味表現の改善に役立つことも示している。 本稿では,共有オブジェクトのデータセット上に最先端のセグメンテーションと再構成結果を示し,提案手法が,カジュアルに撮影された自撮りビデオのデータセット上で,高品質な時間的一貫性のあるビデオ編集と再合成にどのように適用できるかを実証する。

Neural Radiance Fields (NeRFs) encode the radiance in a scene parameterized by the scene's plenoptic function. This is achieved by using an MLP together with a mapping to a higher-dimensional space, and has been proven to capture scenes with a great level of detail. Naturally, the same parameterization can be used to encode additional properties of the scene, beyond just its radiance. A particularly interesting property in this regard is the semantic decomposition of the scene. We introduce a novel technique for semantic soft decomposition of neural radiance fields (named SSDNeRF) which jointly encodes semantic signals in combination with radiance signals of a scene. Our approach provides a soft decomposition of the scene into semantic parts, enabling us to correctly encode multiple semantic classes blending along the same direction -- an impossible feat for existing methods. Not only does this lead to a detailed, 3D semantic representation of the scene, but we also show that the regularizing effects of the MLP used for encoding help to improve the semantic representation. We show state-of-the-art segmentation and reconstruction results on a dataset of common objects and demonstrate how the proposed approach can be applied for high quality temporally consistent video editing and re-compositing on a dataset of casually captured selfie videos.
翻訳日:2022-12-08 16:16:56 公開日:2022-12-07
# 簡易なNadaraya-Watsonヘッドによる説明可能な分類

A Simple Nadaraya-Watson Head can offer Explainable and Calibrated Classification ( http://arxiv.org/abs/2212.03411v1 )

ライセンス: Link先を確認
Alan Q. Wang and Mert R. Sabuncu(参考訳) 本稿では,任意のニューラルネットワークアーキテクチャで使用可能な,単純で非学習可能で非パラメトリックなnadaraya-watson(nw)予測ヘッドを経験的に解析する。 NWヘッドでは、予測はサポートセットからのラベルの重み付き平均である。 ウェイトは、クエリ機能とサポート機能の間の距離から計算される。 これは、特徴に学習可能な分類ヘッド(例えば、完全連結層)を使用することによる支配的なアプローチとは対照的であり、解釈が困難であり、校正が不十分な予測をもたらす可能性がある。 コンピュータビジョンタスクの一連の実験結果から,nwヘッドはパラメトリックヘッドよりも優れた校正を得られるが,同等の精度と計算オーバーヘッドは最小であることが示された。 推論時間効率をさらに高めるために,比較的小さな蒸留サポートセットを作成するために,トレーニングセット上で実行されるクラスタリングステップを含む簡単なアプローチを提案する。 モデル予測を解釈する手段として重み付けを用いることに加えて、与えられたクエリの予測に対するサポート要素の影響を定量化する、計算の容易な"サポート影響関数"も提示する。 我々の実験で示したように、影響関数はユーザーがトレーニングされたモデルをデバッグすることができる。 NWヘッドは柔軟性があり、解釈可能で、非常に有用なビルディングブロックであり、様々なアプリケーションで使用できます。

In this paper, we empirically analyze a simple, non-learnable, and nonparametric Nadaraya-Watson (NW) prediction head that can be used with any neural network architecture. In the NW head, the prediction is a weighted average of labels from a support set. The weights are computed from distances between the query feature and support features. This is in contrast to the dominant approach of using a learnable classification head (e.g., a fully-connected layer) on the features, which can be challenging to interpret and can yield poorly calibrated predictions. Our empirical results on an array of computer vision tasks demonstrate that the NW head can yield better calibration than its parametric counterpart, while having comparable accuracy and with minimal computational overhead. To further increase inference-time efficiency, we propose a simple approach that involves a clustering step run on the training set to create a relatively small distilled support set. In addition to using the weights as a means of interpreting model predictions, we further present an easy-to-compute "support influence function," which quantifies the influence of a support element on the prediction for a given query. As we demonstrate in our experiments, the influence function can allow the user to debug a trained model. We believe that the NW head is a flexible, interpretable, and highly useful building block that can be used in a range of applications.
翻訳日:2022-12-08 16:16:34 公開日:2022-12-07
# スリム化可能な刈り込みニューラルネットワーク

Slimmable Pruned Neural Networks ( http://arxiv.org/abs/2212.03415v1 )

ライセンス: Link先を確認
Hideaki Kuratsu and Atsuyoshi Nakamura(参考訳) Slimmable Neural Networks (S-Net) は、現在の計算資源の可用性に応じて、事前に定義されたチャネル(サブネットワーク)の1つを動的に選択できる新しいネットワークである。 しかし、S-Net上の各サブネットワークの精度は、異なるサブネットワーク上での同時最適化が困難であるため、同一サイズの個別訓練ネットワークの精度よりも劣っている。 本稿では、s-netのように、各層(幅乗算器)に同じチャネルの割合の構造を採用する代わりに、プルーニングによって学習されるサブネットワーク構造を持つ、スリム化可能なプルーニングニューラルネットワーク(sp-net)を提案し、また、新しいプルーニング手順を提案する。 また,スリム化可能なチャネルソート (scs) を導入し, s-net および 0 padding match (zpm) のpruning と prune の残差構造を効率的に計算できるようにした。 SP-Netは任意の種類のチャネルプルーニング手法と組み合わせることができ、NASモデルのような複雑な処理や時間を要するアーキテクチャ検索は不要である。 S-Net上の同じFLOPのサブネットワークと比較して、SP-NetはResNet-50では1.2-1.5%、VGGNetでは0.9-4.4%、MobileNetV1では1.3-2.7%、ImageNetでは1.4-3.1%の精度向上を実現している。 さらに,本手法は,他のSOTAプルーニング法よりも優れ,ImageNetの実験結果により,様々なNASモデルと同等である。 コードはhttps://github.com/hideakikuratsu/sp-netで入手できる。

Slimmable Neural Networks (S-Net) is a novel network which enabled to select one of the predefined proportions of channels (sub-network) dynamically depending on the current computational resource availability. The accuracy of each sub-network on S-Net, however, is inferior to that of individually trained networks of the same size due to its difficulty of simultaneous optimization on different sub-networks. In this paper, we propose Slimmable Pruned Neural Networks (SP-Net), which has sub-network structures learned by pruning instead of adopting structures with the same proportion of channels in each layer (width multiplier) like S-Net, and we also propose new pruning procedures: multi-base pruning instead of one-shot or iterative pruning to realize high accuracy and huge training time saving. We also introduced slimmable channel sorting (scs) to achieve calculation as fast as S-Net and zero padding match (zpm) pruning to prune residual structure in more efficient way. SP-Net can be combined with any kind of channel pruning methods and does not require any complicated processing or time-consuming architecture search like NAS models. Compared with each sub-network of the same FLOPs on S-Net, SP-Net improves accuracy by 1.2-1.5% for ResNet-50, 0.9-4.4% for VGGNet, 1.3-2.7% for MobileNetV1, 1.4-3.1% for MobileNetV2 on ImageNet. Furthermore, our methods outperform other SOTA pruning methods and are on par with various NAS models according to our experimental results on ImageNet. The code is available at https://github.com/hideakikuratsu/SP-Net.
翻訳日:2022-12-08 16:16:12 公開日:2022-12-07
# シーングラフのペアによる行動効果の学習

Learning Action-Effect Dynamics from Pairs of Scene-graphs ( http://arxiv.org/abs/2212.03433v1 )

ライセンス: Link先を確認
Shailaja Keyur Sampat, Pratyay Banerjee, Yezhou Yang and Chitta Baral(参考訳) 人間と世界との相互作用には「行動」が重要な役割を果たしている。 このように、日々の作業を支援する自律エージェントは、「行動と変化に関する推論(RAC)」を実行する能力も必要となる。 近年,視覚・言語入力を用いたRAC研究への関心が高まっている。 グラフはしばしば視覚的内容(オブジェクト、その属性、オブジェクト間の関係)の意味的構造を表現するために使われ、一般にシーングラフと呼ばれる。 本研究では,画像のシーングラフ表現を活用し,自然言語に記述された動作の効果を判断する手法を提案する。 我々は既存の clevr_hyp (sampat et. al, 2021) データセットを用いて実験を行い,提案手法が既存のモデルと比較して性能,データ効率,一般化能力において有効であることを示す。

'Actions' play a vital role in how humans interact with the world. Thus, autonomous agents that would assist us in everyday tasks also require the capability to perform 'Reasoning about Actions & Change' (RAC). Recently, there has been growing interest in the study of RAC with visual and linguistic inputs. Graphs are often used to represent semantic structure of the visual content (i.e. objects, their attributes and relationships among objects), commonly referred to as scene-graphs. In this work, we propose a novel method that leverages scene-graph representation of images to reason about the effects of actions described in natural language. We experiment with existing CLEVR_HYP (Sampat et. al, 2021) dataset and show that our proposed approach is effective in terms of performance, data efficiency, and generalization capability compared to existing models.
翻訳日:2022-12-08 16:15:42 公開日:2022-12-07
# タスクに色を付ける:Color Quantisation Transformerを使ってColor Namingを人工的に発見する

Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation Transformer ( http://arxiv.org/abs/2212.03434v1 )

ライセンス: Link先を確認
Shenghan Su and Lin Gu and Ziteng Cui and Yue Yang and Jingjing Shen and Hiroaki Yamane and Zenghui Zhang and Tatsuya Harada(参考訳) カラーナミング系が効率的なコミュニケーションと知覚機構の二重の圧力の下で進化するという長年の理論は、ナファアナラ語からの4年分のダイアクロニックデータの分析を含む、より多くの言語研究によって支持されている。 これは、ハイレベルな認識性能で表現される通信効率を最適化することで、人工知能が進化し、同様の色覚システムを発見できるかどうかを探究するきっかけとなる。 そこで本研究では,色空間を定量化する新しいカラー量子化変換器CQFormerを提案する。 rgb画像が与えられると、アノテーションブランチは色パレットで定量化された画像を生成する前にインデックスマップにマップし、パレットブランチは色空間全体において適切な色を見つけるためにキーポイント検出方法を利用する。 色アノテーションと相互作用することで、cqformerは、検出された色システムのために、マシンビジョンの正確さと、異なる色分布や安定した色分布のような色知覚構造の両方をバランスさせることができる。 興味深いことに、私たちは人工色システムと人間の言語における基本色用語の一貫性のある進化パターンも観察しています。 また,色量化手法は,分類や検出などのハイレベルな認識タスクにおいて高い性能を維持しながら,画像記憶を効果的に圧縮する効率的な定量化手法も提供する。 超低ビットレート色を用いた実験により,本手法の優れた性能を示す。 近いうちにソースコードをリリースします。

The long-standing theory that a colour-naming system evolves under the dual pressure of efficient communication and perceptual mechanism is supported by more and more linguistic studies including the analysis of four decades' diachronic data from the Nafaanra language. This inspires us to explore whether artificial intelligence could evolve and discover a similar colour-naming system via optimising the communication efficiency represented by high-level recognition performance. Here, we propose a novel colour quantisation transformer, CQFormer, that quantises colour space while maintaining the accuracy of machine recognition on the quantised images. Given an RGB image, Annotation Branch maps it into an index map before generating the quantised image with a colour palette, meanwhile the Palette Branch utilises a key-point detection way to find proper colours in palette among whole colour space. By interacting with colour annotation, CQFormer is able to balance both the machine vision accuracy and colour perceptual structure such as distinct and stable colour distribution for discovered colour system. Very interestingly, we even observe the consistent evolution pattern between our artificial colour system and basic colour terms across human languages. Besides, our colour quantisation method also offers an efficient quantisation method that effectively compresses the image storage while maintaining a high performance in high-level recognition tasks such as classification and detection. Extensive experiments demonstrate the superior performance of our method with extremely low bit-rate colours. We will release the source code soon.
翻訳日:2022-12-08 16:15:28 公開日:2022-12-07
# UI Layers Group Detector: テキストフュージョンとボックスアテンションによるUIレイヤのグループ化

UI Layers Group Detector: Grouping UI Layers via Text Fusion and Box Attention ( http://arxiv.org/abs/2212.03440v1 )

ライセンス: Link先を確認
Shuhong Xiao, Tingting Zhou, Yunnong Chen, Dengming Zhang, Liuqing Chen, Lingyun Sun, Shiyu Yue(参考訳) graphic user interface(gui)はモバイルアプリの普及と繁栄で大きな需要に直面している。 UI設計ドラフトからの自動UIコード生成は、開発プロセスを劇的に単純化します。 しかし、設計ドラフトのネスティング層構造は、生成されたコードの品質とユーザビリティに影響する。 生成されたコードのアクセシビリティを改善するため、ネストしたレイヤを検出してグループ化するGUI自動化技術はほとんどありません。 本稿では,画像(基本形状と視覚要素)を自動的に検出するビジョンベース手法として,同じ意味を持つテキスト層として,uiレイヤ群検出器を提案する。 グループローカライゼーションのための優先情報として,デザインドラフトからのテキスト情報を利用する2つのプラグインコンポーネント,テキスト融合とボックスアテンションを提案する。 トレーニングとテストのための大規模uiデータセットを構築し,検出性能向上のためのデータ拡張手法を提案する。 実験の結果,提案手法は層分けの精度が高いことがわかった。

Graphic User Interface (GUI) is facing great demand with the popularization and prosperity of mobile apps. Automatic UI code generation from UI design draft dramatically simplifies the development process. However, the nesting layer structure in the design draft affects the quality and usability of the generated code. Few existing GUI automated techniques detect and group the nested layers to improve the accessibility of generated code. In this paper, we proposed our UI Layers Group Detector as a vision-based method that automatically detects images (i.e., basic shapes and visual elements) and text layers that present the same semantic meanings. We propose two plug-in components, text fusion and box attention, that utilize text information from design drafts as a priori information for group localization. We construct a large-scale UI dataset for training and testing, and present a data augmentation approach to boost the detection performance. The experiment shows that the proposed method achieves a decent accuracy regarding layers grouping.
翻訳日:2022-12-08 16:15:03 公開日:2022-12-07
# 涙膜脂質層のダイナミクスの追跡

Tracking the Dynamics of the Tear Film Lipid Layer ( http://arxiv.org/abs/2212.03450v1 )

ライセンス: Link先を確認
Tejasvi Kothapalli, Charlie Shou, Jennifer Ding, Jiayun Wang, Andrew D. Graham, Tatyana Svitova, Stella X. Yu, Meng C. Lin(参考訳) ドライアイ病(DED)は最も一般的な眼疾患の1つで、米国の成人の5%以上がDEDに罹患している。 涙膜不安定性はDEDの既知の因子であり, 涙膜を被覆し安定化する薄い脂質層によって, 大部分が制御されていると考えられている。 本研究は眼疾患診断を支援するため,コンピュータビジョン技術を用いて涙膜脂質層(tfll)の拡散を数値的に解析する新しいパラダイムを提案する。 涙膜脂質層が拡散した11本のビデオがマイクロ干渉計で収集され、サブセットがアノテートされる。 様々な柱型コンピュータビジョン技術に基づくトラッキングアルゴリズムを開発した。 このメソッドはhttps://easytear-dev.github.io/にある。

Dry Eye Disease (DED) is one of the most common ocular diseases: over five percent of US adults suffer from DED. Tear film instability is a known factor for DED, and is thought to be regulated in large part by the thin lipid layer that covers and stabilizes the tear film. In order to aid eye related disease diagnosis, this work proposes a novel paradigm in using computer vision techniques to numerically analyze the tear film lipid layer (TFLL) spread. Eleven videos of the tear film lipid layer spread are collected with a micro-interferometer and a subset are annotated. A tracking algorithm relying on various pillar computer vision techniques is developed. Our method can be found at https://easytear-dev.github.io/.
翻訳日:2022-12-08 16:14:49 公開日:2022-12-07
# SimVTP: Masked Autoencodersによる簡単なビデオテキスト事前トレーニング

SimVTP: Simple Video Text Pre-training with Masked Autoencoders ( http://arxiv.org/abs/2212.03490v1 )

ライセンス: Link先を確認
Yue Ma, Tianyu Yang, Yin Shan, Xiu Li(参考訳) 本稿では,マスク付きオートエンコーダを用いた簡易ビデオテキスト事前学習フレームワークSimVTPを提案する。 入力ビデオの空間的-時間的チューブと入力テキストの単語トークンをランダムにマスクし、それらを統一オーテンコーダに供給し、欠落したピクセルと単語を再構築する。 simvtpにはいくつかの特性があります 1) 統一されたオートエンコーダにより,SimVTPは,ビデオチューブとテキストトークン間のクロスモーダルアライメントを暗黙的に学習する,あるモダリティのマスク信号の再構成を行う。 2)simvtpはビデオの時間的冗長性により高いビデオマスキング比(例:90%)の恩恵を受けるだけでなく、最適な性能を得るためにはbert(例:15%)よりもはるかに高いテキストマスキング比(例:75%)を必要とする。 これは、ビデオモダリティの支援によって、テキストの再構成が難しくなるため、より高いマスク比を必要とするため、有用な機能学習のために、プリテキストを困難にするためである。 3)ビデオテキストコントラッシブラーニング(VTC)とビデオテキストマッチング(VTM)を併用したSimVTPの取得により,転送性能が向上する可能性が示唆された。 4) SimVTPは、例えば、WebVid-2Mの10%のデータのみを事前トレーニングすることで、MSRVTT上で驚くほど良い結果(43.8 R@1)を得る。 事前学習したモデルを様々な下流タスクに転送し、優れた性能を実現する。 コードとモデルはhttps://github.com/mayuelala/simvtpでリリースされる。

This paper presents SimVTP: a Simple Video-Text Pretraining framework via masked autoencoders. We randomly mask out the spatial-temporal tubes of input video and the word tokens of input text and then feed them into a unified autencoder to reconstruct the missing pixels and words. Our SimVTP has several properties: 1) Thanks to the unified autoencoder, SimVTP reconstructs the masked signal of one modality with the help from another modality, which implicitly learns the cross-modal alignment between video tubes and text tokens. 2) SimVTP not only benefits from a high video masking ratio (e.g. 90%) due to the temporal redundancy of video, but also needs a high text masking ratio (e.g. 75%), which is much higher than BERT (e.g. 15%), to achieve optimal performance. This is because the aid of video modality makes text reconstruction less challenging, which thus needs a higher mask ratio to make the pretext harder for useful feature learning. 3) Equipping SimVTP with video-text contrastive learning (VTC) and video-text matching (VTM), which are two commonly used cross-modal training strategies, could further improve the transferable performance significantly. 4) SimVTP is dataefficent, e.g., pre-training only on 10% data of WebVid-2M, SimVTP achieves surprisingly good results (43.8 R@1) on MSRVTT, which is far above recent state-of-the-art methods pre-trained on both CC3M and WebVid-2M. We transfer our pre-trained model to various downstream tasks and achieve superior performance. The codes and models will be released at https://github.com/mayuelala/SimVTP.
翻訳日:2022-12-08 16:14:38 公開日:2022-12-07
# DiffusionInst: インスタンス分割のための拡散モデル

DiffusionInst: Diffusion Model for Instance Segmentation ( http://arxiv.org/abs/2212.02773v2 )

ライセンス: Link先を確認
Zhangxuan Gu and Haoxing Chen and Zhuoer Xu and Jun Lan and Changhua Meng and Weiqiang Wang(参考訳) 近年、拡散フレームワークは従来の最先端画像生成モデルと同等の性能を達成している。 研究者は、その強力なノイズから画像へのデノイジングパイプラインのために、識別タスクでその変種に興味を持っている。 本稿では,インスタンスをインスタンス認識フィルタとして表現し,ノイズからフィルタへの分節化プロセスとしてインスタンスセグメンテーションを定式化する新しいフレームワークであるdiffenceinstを提案する。 このモデルは、RPNからの誘導バイアスを伴わずにノイズの多い基底を逆転するように訓練されている。 推論中、ランダムに生成されたフィルタを入力として取り出し、1ステップまたは複数ステップでマスクを出力する。 COCOとLVISの大規模な実験結果から、DiffusionInstは既存のインスタンスセグメンテーションモデルと比較して競争性能が向上することが示された。 私たちの仕事はシンプルで効果的なベースラインとして機能し、差別的タスクに挑戦するためにより効率的な拡散フレームワークを設計するきっかけになることを期待しています。 私たちのコードはhttps://github.com/chenhaoxing/diffusioninstで利用可能です。

Recently, diffusion frameworks have achieved comparable performance with previous state-of-the-art image generation models. Researchers are curious about its variants in discriminative tasks because of its powerful noise-to-image denoising pipeline. This paper proposes DiffusionInst, a novel framework that represents instances as instance-aware filters and formulates instance segmentation as a noise-to-filter denoising process. The model is trained to reverse the noisy groundtruth without any inductive bias from RPN. During inference, it takes a randomly generated filter as input and outputs mask in one-step or multi-step denoising. Extensive experimental results on COCO and LVIS show that DiffusionInst achieves competitive performance compared to existing instance segmentation models. We hope our work could serve as a simple yet effective baseline, which could inspire designing more efficient diffusion frameworks for challenging discriminative tasks. Our code is available in https://github.com/chenhaoxing/DiffusionInst.
翻訳日:2022-12-08 16:08:35 公開日:2022-12-07
# M-VADER:マルチモーダル文脈での拡散モデル

M-VADER: A Model for Diffusion with Multimodal Context ( http://arxiv.org/abs/2212.02936v2 )

ライセンス: Link先を確認
Samuel Weinbach, Marco Bellagente, Constantin Eichenberg, Andrew Dai, Robert Baldock, Souradeep Nanda, Bj\"orn Deiseroth, Koen Oostermeijer, Hannah Teufel, Andres Felipe Cruz-Salinas(参考訳) 画像とテキストの任意の組み合わせを用いて出力を指定できる画像生成用拡散モデル(DM) M-VADERを紹介する。 M-VADERは、画像とテキストの組み合わせと複数の画像の組み合わせを用いて、指定された画像を生成することができることを示す。 従来,テキストプロンプトを用いて出力画像を指定することが可能なdm画像生成アルゴリズムが数多く導入されてきた。 これらのモデルの成功に着想を得て、人間が最も重要な視覚コンテキストの要素を記述するために既に言語が開発されたという考えに導かれ、視覚言語モデルと密接に関連した埋め込みモデルを導入する。 具体的には、自己回帰視覚言語モデルMAGMAの成分と意味探索のために微調整されたバイアスを組み合わせた13億のパラメータマルチモーダルデコーダである埋め込みモデルS-MAGMAを紹介する。

We introduce M-VADER: a diffusion model (DM) for image generation where the output can be specified using arbitrary combinations of images and text. We show how M-VADER enables the generation of images specified using combinations of image and text, and combinations of multiple images. Previously, a number of successful DM image generation algorithms have been introduced that make it possible to specify the output image using a text prompt. Inspired by the success of those models, and led by the notion that language was already developed to describe the elements of visual contexts that humans find most important, we introduce an embedding model closely related to a vision-language model. Specifically, we introduce the embedding model S-MAGMA: a 13 billion parameter multimodal decoder combining components from an autoregressive vision-language model MAGMA and biases finetuned for semantic search.
翻訳日:2022-12-08 16:08:18 公開日:2022-12-07
# GD-MAE: LiDARポイントクラウド上でのMAE事前学習のための生成デコーダ

GD-MAE: Generative Decoder for MAE Pre-training on LiDAR Point Clouds ( http://arxiv.org/abs/2212.03010v2 )

ライセンス: Link先を確認
Honghui Yang and Tong He and Jiaheng Liu and Hua Chen and Boxi Wu and Binbin Lin and Xiaofei He and Wanli Ouyang(参考訳) Masked Autoencoders (MAE) が画像やビデオなどの視覚タスクの開発において著しく進歩しているにもかかわらず、大規模な3Dポイント雲におけるMAEの探索は、不規則性のため、依然として困難である。 従来の3D MAEフレームワークとは対照的に、複雑なデコーダを設計して、維持領域からマスキング情報を推測するか、高度なマスキング戦略を採用するか、より単純なパラダイムを提案する。 中心となる考え方は、MAE (GD-MAE) に \textbf{G}enerative \textbf{D}ecoder を適用し、周囲のコンテキストを自動的にマージして、階層的な融合方式でマスクされた幾何学的知識を復元することである。 そこで本手法では,デコーダのヒューリスティックな設計を導入せず,様々なマスキング戦略を探索する柔軟性を享受できる。 対応する部分のレイテンシは,従来の方法に比べて低く,パフォーマンスも向上している。 提案手法の有効性を,Waymo,KITTI,ONCEなどの大規模ベンチマークで実証した。 下流検出タスクの一貫性の向上は、強い堅牢性と一般化能力を示している。 我々の手法は最先端の結果を明らかにするだけでなく、Waymoデータセット上のラベル付きデータのtextbf{20\%}でも同等の精度が得られる。 コードは \url{https://github.com/Nightmare-n/GD-MAE} でリリースされる。

Despite the tremendous progress of Masked Autoencoders (MAE) in developing vision tasks such as image and video, exploring MAE in large-scale 3D point clouds remains challenging due to the inherent irregularity. In contrast to previous 3D MAE frameworks, which either design a complex decoder to infer masked information from maintained regions or adopt sophisticated masking strategies, we instead propose a much simpler paradigm. The core idea is to apply a \textbf{G}enerative \textbf{D}ecoder for MAE (GD-MAE) to automatically merges the surrounding context to restore the masked geometric knowledge in a hierarchical fusion manner. In doing so, our approach is free from introducing the heuristic design of decoders and enjoys the flexibility of exploring various masking strategies. The corresponding part costs less than \textbf{12\%} latency compared with conventional methods, while achieving better performance. We demonstrate the efficacy of the proposed method on several large-scale benchmarks: Waymo, KITTI, and ONCE. Consistent improvement on downstream detection tasks illustrates strong robustness and generalization capability. Not only our method reveals state-of-the-art results, but remarkably, we achieve comparable accuracy even with \textbf{20\%} of the labeled data on the Waymo dataset. The code will be released at \url{https://github.com/Nightmare-n/GD-MAE}.
翻訳日:2022-12-08 16:08:05 公開日:2022-12-07
# AbHE: あらゆる注意に基づくホログラフィー推定

AbHE: All Attention-based Homography Estimation ( http://arxiv.org/abs/2212.03029v2 )

ライセンス: Link先を確認
Mingxiao Huo, Zhihao Zhang, Xianqiang Yang(参考訳) ホログラフィー推定は、画像アライメントのための多視点画像から変換を得るための基本的なコンピュータビジョンタスクである。 教師なし学習ホモグラフィ推定は、特徴抽出と変換行列回帰のための畳み込みニューラルネットワークを訓練する。 最先端のホモグラフィ法は畳み込みニューラルネットワークに基づいているが、高レベルの視覚タスクにおいて優位性を示すトランスフォーマーに焦点を当てた研究はほとんどない。 本稿では,局所的な特徴に対する畳み込みニューラルネットワークとグローバルな特徴のためのトランスフォーマーモジュールを組み合わせた,Swin Transformerに基づく強力なベースラインモデルを提案する。 さらに、機能マップ内のマッチングされた特徴を粗く検索するために、クロス非ローカル層が導入される。 ホモグラフィ回帰段階では、相関ボリュームのチャネルに対して注意層を採用し、いくつかの弱い相関特徴点を排除できる。 実験により,自由度8自由度(dofs)ホモグラフィにおいて,本手法が最先端法を過大評価することを示した。

Homography estimation is a basic computer vision task, which aims to obtain the transformation from multi-view images for image alignment. Unsupervised learning homography estimation trains a convolution neural network for feature extraction and transformation matrix regression. While the state-of-theart homography method is based on convolution neural networks, few work focuses on transformer which shows superiority in highlevel vision tasks. In this paper, we propose a strong-baseline model based on the Swin Transformer, which combines convolution neural network for local features and transformer module for global features. Moreover, a cross non-local layer is introduced to search the matched features within the feature maps coarsely. In the homography regression stage, we adopt an attention layer for the channels of correlation volume, which can drop out some weak correlation feature points. The experiment shows that in 8 Degree-of-Freedoms(DOFs) homography estimation our method overperforms the state-of-the-art method.
翻訳日:2022-12-08 16:07:37 公開日:2022-12-07
# InternVideo: 生成的および差別的学習による一般ビデオ財団モデル

InternVideo: General Video Foundation Models via Generative and Discriminative Learning ( http://arxiv.org/abs/2212.03191v2 )

ライセンス: Link先を確認
Yi Wang, Kunchang Li, Yizhuo Li, Yinan He, Bingkun Huang, Zhiyu Zhao, Hongjie Zhang, Jilan Xu, Yi Liu, Zun Wang, Sen Xing, Guo Chen, Junting Pan, Jiashuo Yu, Yali Wang, Limin Wang, Yu Qiao(参考訳) 基礎モデルは最近、コンピュータビジョンにおける様々な下流タスクにおいて優れたパフォーマンスを示している。 しかし、既存の視覚基盤モデルの多くは、ダイナミックで複雑なビデオレベルの理解タスクに限られる画像レベルの事前学習と適応にのみ焦点をあてている。 このギャップを埋めるために,生成的および判別的自己教師付きビデオ学習を活用し,一般のビデオ基盤モデルであるinternvideoを提案する。 特に、InternVideoは、マスク付きビデオモデリングとビデオ言語コントラスト学習を事前学習対象として効率的に探索し、これらの2つの補完フレームワークのビデオ表現を学習可能な方法で選択的にコーディネートし、様々なビデオアプリケーションを強化する。 InternVideoは、ビデオアクション認識/検出、ビデオ言語アライメント、オープンワールドビデオアプリケーションなど、39のビデオデータセットの最先端のパフォーマンスを達成する。 特に,提案手法は,Kinetics-400とSomething V2ベンチマークでそれぞれ91.1%と77.2%のTop-1精度が得られる。 これらの結果は、ビデオ理解のためのInternVideoの汎用性を示すものだ。 コードはhttps://github.com/OpenGVLab/InternVideoで公開される。

The foundation models have recently shown excellent performance on a variety of downstream tasks in computer vision. However, most existing vision foundation models simply focus on image-level pretraining and adpation, which are limited for dynamic and complex video-level understanding tasks. To fill the gap, we present general video foundation models, InternVideo, by taking advantage of both generative and discriminative self-supervised video learning. Specifically, InternVideo efficiently explores masked video modeling and video-language contrastive learning as the pretraining objectives, and selectively coordinates video representations of these two complementary frameworks in a learnable manner to boost various video applications. Without bells and whistles, InternVideo achieves state-of-the-art performance on 39 video datasets from extensive tasks including video action recognition/detection, video-language alignment, and open-world video applications. Especially, our methods can obtain 91.1% and 77.2% top-1 accuracy on the challenging Kinetics-400 and Something-Something V2 benchmarks, respectively. All of these results effectively show the generality of our InternVideo for video understanding. The code will be released at https://github.com/OpenGVLab/InternVideo .
翻訳日:2022-12-08 16:07:22 公開日:2022-12-07
# g-map: ドメインタスクのための一般メモリ型事前学習言語モデル

G-MAP: General Memory-Augmented Pre-trained Language Model for Domain Tasks ( http://arxiv.org/abs/2212.03613v1 )

ライセンス: Link先を確認
Zhongwei Wan, Yichun Yin, Wei Zhang, Jiaxin Shi, Lifeng Shang, Guangyong Chen, Xin Jiang, Qun Liu(参考訳) 近年、特定のドメイン(例えば、生物医学やコンピュータ科学)のタスク性能を高めるために、ドメイン固有のPLMが提案されている。 しかし、このDomain-Adaptive Pre-Training (DAPT; Gururangan et al. (2020)) は、一般的なPLMが獲得したこれまでの一般的な知識を忘れがちであり、破滅的な忘れ物現象と準最適性能をもたらす。 そこで本研究では,一般の知識を失うことなく,フリーズした一般plmから構築したメモリ表現によってドメイン固有plmを拡張できる汎用メモリ拡張事前学習言語モデル(g-map)の新たなフレームワークを提案する。 具体的には、新しいメモリ表示層を提案し、それに基づいて異なる拡張戦略を検討し、メモリ表現を構築し、それをドメイン固有のplmに適応的に融合する。 我々は,G-MAPが様々な領域(生物・コンピュータ科学出版物,ニュース,レビュー)およびタスクの異なる種類(テキスト分類,QA,NER)において有効であることを示し,提案したG-MAPが全てのタスクにおいてSOTA結果を得ることができることを示す。

Recently, domain-specific PLMs have been proposed to boost the task performance of specific domains (e.g., biomedical and computer science) by continuing to pre-train general PLMs with domain-specific corpora. However, this Domain-Adaptive Pre-Training (DAPT; Gururangan et al. (2020)) tends to forget the previous general knowledge acquired by general PLMs, which leads to a catastrophic forgetting phenomenon and sub-optimal performance. To alleviate this problem, we propose a new framework of General Memory Augmented Pre-trained Language Model (G-MAP), which augments the domain-specific PLM by a memory representation built from the frozen general PLM without losing any general knowledge. Specifically, we propose a new memory-augmented layer, and based on it, different augmented strategies are explored to build the memory representation and then adaptively fuse it into the domain-specific PLM. We demonstrate the effectiveness of G-MAP on various domains (biomedical and computer science publications, news, and reviews) and different kinds (text classification, QA, NER) of tasks, and the extensive results show that the proposed G-MAP can achieve SOTA results on all tasks.
翻訳日:2022-12-08 15:59:36 公開日:2022-12-07
# ヒューマンライクな自然言語生成のための知識の調和と推論 : 簡単なレビュー

Harnessing Knowledge and Reasoning for Human-Like Natural Language Generation: A Brief Review ( http://arxiv.org/abs/2212.03747v1 )

ライセンス: Link先を確認
Jiangjie Chen and Yanghua Xiao(参考訳) 自然言語生成技術(NLG)の急速な発展と応用は、自動テキスト生成の分野に革命をもたらした。 しかし、これらの技術は、真に合理的で有意義な人間的なテキストを作り出す能力にはまだ限界がある。 本稿では,言語生成を通して人間的な推論を伝達するために,NLGが知識によってガイドされることの重要性を検討する。 知的NLGシステムのための10の目標を提案し,知識と推論によって導かれるNLG技術の成果を概観した。 また,これらの目標を追求する上で,今後の方向性と課題を想定して結論づける。

The rapid development and application of natural language generation (NLG) techniques has revolutionized the field of automatic text production. However, these techniques are still limited in their ability to produce human-like text that is truly reasonable and informative. In this paper, we explore the importance of NLG being guided by knowledge, in order to convey human-like reasoning through language generation. We propose ten goals for intelligent NLG systems to pursue, and briefly review the achievement of NLG techniques guided by knowledge and reasoning. We also conclude by envisioning future directions and challenges in the pursuit of these goals.
翻訳日:2022-12-08 15:59:01 公開日:2022-12-07
# ファインチューニングと微分プライベートなファインチューニングBERTモデルからの名前付きエンティティ抽出に関する研究

A Study on Extracting Named Entities from Fine-tuned vs. Differentially Private Fine-tuned BERT Models ( http://arxiv.org/abs/2212.03749v1 )

ライセンス: Link先を確認
Andor Diera and Nicolas Lell and Aygul Garifullina and Ansgar Scherp(参考訳) ディープラーニングを保存するプライバシーは、ディープラーニングの新たな分野であり、ディープニューラルネットワークの使用によるプライバシーリスクを軽減することを目指している。 そのようなリスクの1つは、個人やプライバシーに敏感な情報を含むデータセットでトレーニングされた言語モデルからのデータ抽出をトレーニングすることである。 本研究では,細調整BERTモデルにおける名前付き実体記憶の程度について検討した。 実験では,単一ラベルのテキスト分類を代表的な下流タスクとして使用し,差分プライバシー(dp)を持つものを含む3種類の微調整設定を実験で採用した。 2つのプロンプト戦略を持つカスタムシーケンシャルサンプリング戦略を用いて、細調整されたBERTモデルから大量のテキストサンプルを作成する。 名前付きエンティティのサンプルを検索し、微調整データセットにも存在するかどうかを確認する。 我々は2つのベンチマークデータセットをメールとブログのドメインで実験する。 本稿では,DPの適用がBERTのテキスト生成能力に大きな影響を与えることを示す。 さらに、細調整されたBERTは、事前訓練されたBERTモデルよりも、細調整されたデータセット固有の名前付きエンティティを生成しないことを示す。 これはBERTが個人またはプライバシーに敏感な名前のエンティティを発行する可能性は低いことを示唆している。 総じて、BERTベースのサービスがデータ抽出攻撃の訓練を行う傾向にあるかを理解することが重要である。

Privacy preserving deep learning is an emerging field in machine learning that aims to mitigate the privacy risks in the use of deep neural networks. One such risk is training data extraction from language models that have been trained on datasets , which contain personal and privacy sensitive information. In our study, we investigate the extent of named entity memorization in fine-tuned BERT models. We use single-label text classification as representative downstream task and employ three different fine-tuning setups in our experiments, including one with Differentially Privacy (DP). We create a large number of text samples from the fine-tuned BERT models utilizing a custom sequential sampling strategy with two prompting strategies. We search in these samples for named entities and check if they are also present in the fine-tuning datasets. We experiment with two benchmark datasets in the domains of emails and blogs. We show that the application of DP has a huge effect on the text generation capabilities of BERT. Furthermore, we show that a fine-tuned BERT does not generate more named entities entities specific to the fine-tuning dataset than a BERT model that is pre-trained only. This suggests that BERT is unlikely to emit personal or privacy sensitive named entities. Overall, our results are important to understand to what extent BERT-based services are prone to training data extraction attacks.
翻訳日:2022-12-08 15:58:50 公開日:2022-12-07
# タスク命令からの学習のロバスト性

Robustness of Learning from Task Instructions ( http://arxiv.org/abs/2212.03813v1 )

ライセンス: Link先を確認
Jiasheng Gu, Hanzi Xu, Liangyu Nie and Wenpeng Yin(参考訳) 従来の教師付き学習は、主に個々のタスクに取り組み、タスク固有の大きな例のトレーニングを必要とする。 このパラダイムは、タスク固有の例セットを作成するのにコストがかかるため、タスクの一般化を著しく妨げます。 新たなタスクに迅速かつ容易に一般化できるシステムを構築するために,タスク命令が近年,監督の新たなトレンドとして採用されている。 これらの命令はモデルにタスクの定義を与え、モデルが命令と入力に基づいて適切な応答を出力することを可能にする。 しかし、タスク命令はしばしば異なる形式で表現され、2つのスレッドから解釈できる: まず、いくつかの命令は短い文であり、プロンプトのような事前学習された言語モデル(plm)指向であり、他の命令は段落であり、amazon mturkのような人間指向である。 タスク一般化のための堅牢なシステムは、命令の可変性に関係なく、新しいタスクを処理できる必要がある。 しかし、命令駆動タスクの一般化を扱うシステムの堅牢性はまだ未検討である。 本研究は,新しいタスクの指示がいつ強固であるかを考察する。 (i)悪質に操られた (ii)言い換える、または (iii)異なる簡潔さのレベルから。 私たちの知る限りでは、plmが可変性の異なる要素を持つ命令によって監視される場合の堅牢性について体系的に研究するのはこれが初めてです。

Traditional supervised learning mostly works on individual tasks and requires training on a large set of task-specific examples. This paradigm seriously hinders the development of task generalization since preparing a task-specific example set is costly. To build a system that can quickly and easily generalize to new tasks, task instructions have been adopted as an emerging trend of supervision recently. These instructions give the model the definition of the task and allow the model to output the appropriate answer based on the instructions and inputs. However, task instructions are often expressed in different forms, which can be interpreted from two threads: first, some instructions are short sentences and are pretrained language model (PLM) oriented, such as prompts, while other instructions are paragraphs and are human-oriented, such as those in Amazon MTurk; second, different end-users very likely explain the same task with instructions of different textual expressions. A robust system for task generalization should be able to handle any new tasks regardless of the variability of instructions. However, the system robustness in dealing with instruction-driven task generalization is still unexplored. This work investigates the system robustness when the instructions of new tasks are (i) maliciously manipulated, (ii) paraphrased, or (iii) from different levels of conciseness. To our knowledge, this is the first work that systematically studies how robust a PLM is when it is supervised by instructions with different factors of variability.
翻訳日:2022-12-08 15:58:31 公開日:2022-12-07
# 国家対立型マルチエージェント強化学習の解決策とは?

What is the Solution for State-Adversarial Multi-Agent Reinforcement Learning? ( http://arxiv.org/abs/2212.02705v2 )

ライセンス: Link先を確認
Songyang Han, Sanbao Su, Sihong He, Shuo Han, Haizhao Yang, Fei Miao(参考訳) エージェントのポリシーが真の状態に基づいていると仮定して,MARL(Multi-Agent Reinforcement Learning)手法が開発されている。 最近の研究は、報酬、移行確率、その他のパートナーの政策の不確実性の下で、MARLの堅牢性を改善している。 しかし、実世界のマルチエージェントシステムでは、状態推定はセンサ測定ノイズや逆境によっても乱される可能性がある。 真の状態情報のみを訓練したエージェントのポリシーは、実行中に逆境状態の摂動に直面した場合に最適なソリューションから逸脱する。 逆境状態摂動下でのMARLの研究は限られている。 そこで本研究では,MARL の基本特性を状態不確実性下で研究する最初の試みとして,SAMG (State-Adversarial Markov Game) を提案する。 最適エージェントポリシーとロバストなナッシュ均衡が常にSAMGに対して存在するとは限らないことを証明している。 その代わりに,提案するsamgの解法であるロバスト・エージェント・ポリシーを敵対的状態摂動の下で定義し,エージェントは最悪の場合の期待状態値を最大化しようとする。 次に,勾配降下法に基づくロバストなmarlアルゴリズムを設計し,marlエージェントのロバストポリシを学習する。 提案手法は,既存の文献のベースラインに対するエージェントの報酬を減少させ,一方,本アルゴリズムは状態摂動でベースラインを上回り,状態の不確実性下でのmarlポリシーの頑健性を大幅に改善することを示す。

Various types of Multi-Agent Reinforcement Learning (MARL) methods have been developed, assuming that agents' policies are based on true states. Recent works have improved the robustness of MARL under uncertainties from the reward, transition probability, or other partners' policies. However, in real-world multi-agent systems, state estimations may be perturbed by sensor measurement noise or even adversaries. Agents' policies trained with only true state information will deviate from optimal solutions when facing adversarial state perturbations during execution. MARL under adversarial state perturbations has limited study. Hence, in this work, we propose a State-Adversarial Markov Game (SAMG) and make the first attempt to study the fundamental properties of MARL under state uncertainties. We prove that the optimal agent policy and the robust Nash equilibrium do not always exist for an SAMG. Instead, we define the solution concept, robust agent policy, of the proposed SAMG under adversarial state perturbations, where agents want to maximize the worst-case expected state value. We then design a gradient descent ascent-based robust MARL algorithm to learn the robust policies for the MARL agents. Our experiments show that adversarial state perturbations decrease agents' rewards for several baselines from the existing literature, while our algorithm outperforms baselines with state perturbations and significantly improves the robustness of the MARL policies under state uncertainties.
翻訳日:2022-12-08 15:58:09 公開日:2022-12-07
# 検索に基づく手続きコンテンツ生成とモンテカルロ木探索を用いたリアルタイム戦略ゲームユニットの作成

Generating Real-Time Strategy Game Units Using Search-Based Procedural Content Generation and Monte Carlo Tree Search ( http://arxiv.org/abs/2212.03387v1 )

ライセンス: Link先を確認
Kynan Sorochan, Matthew Guzdial(参考訳) リアルタイム戦略(RTS)ゲームユニット生成は、プロシージャコンテンツ生成(PCG)研究の未調査領域であり、興味深くバランスの取れたユニットを自動的に生成する方法の問題を残している。 ユニークでバランスの取れたユニットを作ることは、RTSゲームを設計する上で、人間にとっても難しい作業だ。 ユニットを自動設計する方法を持つことは、開発者が作成プロセスをスピードアップし、新しいアイデアを見つけるのに役立つだろう。 本研究では、バランスよく有用なRTSユニットを生成する方法を提案する。 探索ベースPCGとモンテカルロ木探索(MCTS)に基づく適合度関数を描画する。 本システムによって生成された10個のユニットをゲームmicrortsで使用するように設計し,それらのユニットがユニークで有用でバランスが取れていることを示す。

Real-Time Strategy (RTS) game unit generation is an unexplored area of Procedural Content Generation (PCG) research, which leaves the question of how to automatically generate interesting and balanced units unanswered. Creating unique and balanced units can be a difficult task when designing an RTS game, even for humans. Having an automated method of designing units could help developers speed up the creation process as well as find new ideas. In this work we propose a method of generating balanced and useful RTS units. We draw on Search-Based PCG and a fitness function based on Monte Carlo Tree Search (MCTS). We present ten units generated by our system designed to be used in the game microRTS, as well as results demonstrating that these units are unique, useful, and balanced.
翻訳日:2022-12-08 15:57:44 公開日:2022-12-07
# 投票と施設立地の同時目的の最適化

Optimizing Multiple Simultaneous Objectives for Voting and Facility Location ( http://arxiv.org/abs/2212.03467v1 )

ライセンス: Link先を確認
Yeu Han, Christopher Jerrett, Elliot Anshelevich(参考訳) 我々は古典的な施設位置設定について研究し、任意の距離空間に$n$クライアントと$m$可能な施設位置を与え、施設を建設する場所を選択したい。 全く同じ設定は、投票者がクライアントであり、投票者からこの結果のコストを表す結果までの距離(例えば、そのイデオロギー的な違いに基づいて)で、候補または結果を選択することを目標とする空間的社会的選択にも生じる。 これまでのほとんどの作業とは異なり、最適化するための単一の目的(クライアントから施設までの総距離、最大距離など)に集中するのではなく、複数の異なる目的を同時に最適化しようと試みています。 より具体的には、合計距離、最大距離、その他多くの目的を含む$l$-centrumファミリーを考える。 そのような目的の任意のペア(例えば、最大と和)が、最適結果と比較して同時に近似できるかどうかについて、厳密な境界を示す。 特に、そのような目的の任意のペアに対して、1+\sqrt{2}$の係数で両方の目的を同時に近似する結果を選択することができ、最適化された2つの目的がよりよくなるにつれて、この因子がどのように改善するかを正確に評価することができる。 例えば、$q>2$異なる遠心目標に対して、これらの目的のすべての$q$を小さな定数で近似することは常に可能であり、この定数は 3 に $q\rightarrow \infty$ として近づく。 これらの結果から,数個の同時目標のみを最適化する場合,これらすべての目標に対する3つの近似よりもはるかに優れた結果が得られることがわかった。

We study the classic facility location setting, where we are given $n$ clients and $m$ possible facility locations in some arbitrary metric space, and want to choose a location to build a facility. The exact same setting also arises in spatial social choice, where voters are the clients and the goal is to choose a candidate or outcome, with the distance from a voter to an outcome representing the cost of this outcome for the voter (e.g., based on their ideological differences). Unlike most previous work, we do not focus on a single objective to optimize (e.g., the total distance from clients to the facility, or the maximum distance, etc.), but instead attempt to optimize several different objectives simultaneously. More specifically, we consider the $l$-centrum family of objectives, which includes the total distance, max distance, and many others. We present tight bounds on how well any pair of such objectives (e.g., max and sum) can be simultaneously approximated compared to their optimum outcomes. In particular, we show that for any such pair of objectives, it is always possible to choose an outcome which simultaneously approximates both objectives within a factor of $1+\sqrt{2}$, and give a precise characterization of how this factor improves as the two objectives being optimized become more similar. For $q>2$ different centrum objectives, we show that it is always possible to approximate all $q$ of these objectives within a small constant, and that this constant approaches 3 as $q\rightarrow \infty$. Our results show that when optimizing only a few simultaneous objectives, it is always possible to form an outcome which is a significantly better than 3 approximation for all of these objectives.
翻訳日:2022-12-08 15:57:28 公開日:2022-12-07
# 高次イジングマシンによる効率的な最適化

Efficient Optimization with Higher-Order Ising Machines ( http://arxiv.org/abs/2212.03426v1 )

ライセンス: Link先を確認
Connor Bybee, Denis Kleyko, Dmitri E. Nikonov, Amir Khosrowshahi, Bruno A. Olshausen, Friedrich T. Sommer(参考訳) 並列ハードウェア上で組合せ最適化問題を解決するための顕著なアプローチは、イジングマシン、すなわち相互作用する二元スピン変数のネットワークのハードウェア実装である。 ほとんどのIsingマシンは2階の相互作用を利用するが、満足度問題のような最適化問題の重要なクラスは高階の相互作用を持つIsingネットワークにシームレスにマッピングする。 本稿では,高次イジングマシンが,従来の2次イジングマシンと比較して,スピン変数の数と接続性の観点から,リソース効率のよい課題を解決できることを実証する。 さらに,結合発振器で実装した高次Isingマシンが2次Isingマシンよりも優れた解を迅速に見つけ出すという,Boolean \textit{k}-satisfiability問題のベンチマークデータセット上で,Isingマシンの現状を改良した。

A prominent approach to solving combinatorial optimization problems on parallel hardware is Ising machines, i.e., hardware implementations of networks of interacting binary spin variables. Most Ising machines leverage second-order interactions although important classes of optimization problems, such as satisfiability problems, map more seamlessly to Ising networks with higher-order interactions. Here, we demonstrate that higher-order Ising machines can solve satisfiability problems more resource-efficiently in terms of the number of spin variables and their connections when compared to traditional second-order Ising machines. Further, our results show on a benchmark dataset of Boolean \textit{k}-satisfiability problems that higher-order Ising machines implemented with coupled oscillators rapidly find solutions that are better than second-order Ising machines, thus, improving the current state-of-the-art for Ising machines.
翻訳日:2022-12-08 15:56:58 公開日:2022-12-07
# GARF:Geometry-Aware Generalized Neural Radiance Field

GARF:Geometry-Aware Generalized Neural Radiance Field ( http://arxiv.org/abs/2212.02280v2 )

ライセンス: Link先を確認
Yue Shi, Dingyi Rong, Bingbing Ni, Chang Chen, Wenjun Zhang(参考訳) Neural Radiance Field (NeRF)は、自由視点レンダリングタスクに革命をもたらし、印象的な結果を得た。 しかし、効率と精度の問題は幅広い応用を妨げている。 そこで,これらの問題に対処するために,gemetry-aware dynamic sampling (gads) 戦略を用いた幾何認識型一般化ニューラルネットワーク放射場 (garf) を提案する。 既存の一般的なnerfとは異なり、我々のフレームワークはほんの数枚の入力画像でピクセルスケールと幾何スケールの両方で目に見えないシーンを推測する。 より具体的には,エンコーダ・デコーダ構造とポイントレベルの学習可能なマルチビュー機能融合モジュールにより,新規ビュー合成の共通属性を学習する。 一般化モデルにおけるシーン特性の保存のために, 粗い形状を導出する教師なし深さ推定モジュールを導入し, 推定面の近接空間へのレイサンプリング間隔を狭くし, 期待最大位置においてサンプルを絞り, 幾何認識動的サンプリング戦略 (gads) を構成する。 さらに,より情報的な表現学習を支援するために,マルチレベルセマンティック一貫性損失(MSC)を導入する。 室内および屋外のデータセットに対する大規模な実験は、最先端の一般化されたNeRF法と比較すると、GARFは、レンダリング品質と3D幾何推定を改善しながら、サンプルを25%以上削減することを示している。

Neural Radiance Field (NeRF) has revolutionized free viewpoint rendering tasks and achieved impressive results. However, the efficiency and accuracy problems hinder its wide applications. To address these issues, we propose Geometry-Aware Generalized Neural Radiance Field (GARF) with a geometry-aware dynamic sampling (GADS) strategy to perform real-time novel view rendering and unsupervised depth estimation on unseen scenes without per-scene optimization. Distinct from most existing generalized NeRFs, our framework infers the unseen scenes on both pixel-scale and geometry-scale with only a few input images. More specifically, our method learns common attributes of novel-view synthesis by an encoder-decoder structure and a point-level learnable multi-view feature fusion module which helps avoid occlusion. To preserve scene characteristics in the generalized model, we introduce an unsupervised depth estimation module to derive the coarse geometry, narrow down the ray sampling interval to proximity space of the estimated surface and sample in expectation maximum position, constituting Geometry-Aware Dynamic Sampling strategy (GADS). Moreover, we introduce a Multi-level Semantic Consistency loss (MSC) to assist more informative representation learning. Extensive experiments on indoor and outdoor datasets show that comparing with state-of-the-art generalized NeRF methods, GARF reduces samples by more than 25\%, while improving rendering quality and 3D geometry estimation.
翻訳日:2022-12-08 15:56:40 公開日:2022-12-07
# 美術史の流れを捉え

Capturing the Flow of Art History ( http://arxiv.org/abs/2212.03421v1 )

ライセンス: Link先を確認
Chenxi Ji(参考訳) 機械がアートスタイルを分類する方法を本当に理解しているか? 歴史的には、芸術は人間の目によって認識され解釈され、人々が芸術をどう認識し理解するかに関して常に議論がある。 歴史家や一般大衆は、歴史や社会的要因の文脈を通して芸術の主題を解釈する傾向がある。 しかし、スタイルは主題とは異なっている。 スタイルが絵画の中の特定の物体の存在と一致せず、主にその形態に関係しており、異なるレベルの特徴と関連付けられるという事実を考える。 (Ahmed Elgammal et al. 2018)は、アートワークのスタイルと、それがどのように流れ、どのように進化するかという「遷移」の識別と分類を、人間と機械の両方にとって課題として残している。 本研究では、この興味深いトピックを明らかにするために、一連の最先端のニューラルネットワークと多様体学習アルゴリズムを探索する。

Do we really understand how machine classifies art styles? Historically, art is perceived and interpreted by human eyes and there are always controversial discussions over how people identify and understand art. Historians and general public tend to interpret the subject matter of art through the context of history and social factors. Style, however, is different from subject matter. Given the fact that Style does not correspond to the existence of certain objects in the painting and is mainly related to the form and can be correlated with features at different levels.(Ahmed Elgammal et al. 2018), which makes the identification and classification of the characteristics artwork's style and the "transition" - how it flows and evolves - remains as a challenge for both human and machine. In this work, a series of state-of-art neural networks and manifold learning algorithms are explored to unveil this intriguing topic: How does machine capture and interpret the flow of Art History?
翻訳日:2022-12-08 15:49:26 公開日:2022-12-07
# 拡散アートかデジタル偽造か? 拡散モデルにおけるデータレプリケーションの検討

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models ( http://arxiv.org/abs/2212.03860v1 )

ライセンス: Link先を確認
Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) カットエッジ拡散モデルは高品質でカスタマイズ可能な画像を生成し、商業芸術やグラフィックデザインの目的で使用することができる。 しかし、拡散モデルは独自の芸術作品を作るのか、それともトレーニングセットから直接コンテンツを盗むのか? 本研究では,生成した画像とトレーニングサンプルを比較し,コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。 フレームワークをオックスフォード花、Celeb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製の速度にどのように影響するかを議論する。 また,人気のある安定拡散モデルを含む拡散モデルが,トレーニングデータからぼんやりとコピーされるケースを特定する。

Cutting-edge diffusion models produce images with high quality and customizability, enabling them to be used for commercial art and graphic design purposes. But do diffusion models create unique works of art, or are they stealing content directly from their training sets? In this work, we study image retrieval frameworks that enable us to compare generated images with training samples and detect when content has been replicated. Applying our frameworks to diffusion models trained on multiple datasets including Oxford flowers, Celeb-A, ImageNet, and LAION, we discuss how factors such as training set size impact rates of content replication. We also identify cases where diffusion models, including the popular Stable Diffusion model, blatantly copy from their training data.
翻訳日:2022-12-08 15:49:10 公開日:2022-12-07
# 汎用マルチ忠実性サロゲートモデル:効率的なレアイベントシミュレーションのためのフレームワークとアクティブラーニング戦略

General multi-fidelity surrogate models: Framework and active learning strategies for efficient rare event simulation ( http://arxiv.org/abs/2212.03375v1 )

ライセンス: Link先を確認
Promit Chakroborty, Somayajulu L. N. Dhulipala, Yifeng Che, Wen Jiang, Benjamin W. Spencer, Jason D. Hales, Michael D. Shields(参考訳) 高忠実性計算モデルを用いた複雑な実世界のシステムの故障確率の推定は、特に確率が小さい場合には、しばしば非常に高価である。 しかし、複数の低忠実度モデルと高忠実度モデルからの情報を統合することで、いくつかの課題が生じる。 本稿では,高信頼度解析のためのサブセット・シミュレーション・フレームワーク内でのオン・ザ・フライモデル・アダクティ・アセスメント・セットを用いて,多要素サロゲートをアクティブ・ラーニング・ストラテジーを用いて構築する頑健な多要素サロゲート・モデリング戦略を提案する。 そして、まず、各低忠実度モデルにガウス過程補正を適用し、モデルの局所予測精度とコストに基づいてモデル確率を割り当てる。 これらのサロゲートをモデル平均化と決定論的・確率的モデル選択に基づく全体サロゲートモデルに融合する3つの戦略が提案されている。 戦略はどのモデル評価が必要かを規定する。 低忠実度モデル間の関係は仮定されていないが、高忠実度モデルは最も正確で計算コストの高いモデルであると仮定されている。 トリソ核燃料の故障確率を評価するケーススタディを含む2つの解析的および2つの数値的ケーススタディを通して、このアルゴリズムは高忠実度モデル呼び出し数を劇的に削減し(計算コスト)、非常に正確であることが示されている。

Estimating the probability of failure for complex real-world systems using high-fidelity computational models is often prohibitively expensive, especially when the probability is small. Exploiting low-fidelity models can make this process more feasible, but merging information from multiple low-fidelity and high-fidelity models poses several challenges. This paper presents a robust multi-fidelity surrogate modeling strategy in which the multi-fidelity surrogate is assembled using an active learning strategy using an on-the-fly model adequacy assessment set within a subset simulation framework for efficient reliability analysis. The multi-fidelity surrogate is assembled by first applying a Gaussian process correction to each low-fidelity model and assigning a model probability based on the model's local predictive accuracy and cost. Three strategies are proposed to fuse these individual surrogates into an overall surrogate model based on model averaging and deterministic/stochastic model selection. The strategies also dictate which model evaluations are necessary. No assumptions are made about the relationships between low-fidelity models, while the high-fidelity model is assumed to be the most accurate and most computationally expensive model. Through two analytical and two numerical case studies, including a case study evaluating the failure probability of Tristructural isotropic-coated (TRISO) nuclear fuels, the algorithm is shown to be highly accurate while drastically reducing the number of high-fidelity model calls (and hence computational cost).
翻訳日:2022-12-08 15:48:57 公開日:2022-12-07
# オンチップトレーニングによるマルチ階層機械学習等化器のFPGA実装

FPGA Implementation of Multi-Layer Machine Learning Equalizer with On-Chip Training ( http://arxiv.org/abs/2212.03515v1 )

ライセンス: Link先を確認
Keren Liu, Erik B\"orjeson, Christian H\"ager, Per Larsson-Edefors(参考訳) FPGA上で複数の線形および非線形計算層を置換する適応機械学習等化器の設計と実装を行う。 勾配バックプロパゲーションによるオンチップトレーニングは、時間変化チャネル障害へのリアルタイム適応を可能にする。

We design and implement an adaptive machine learning equalizer that alternates multiple linear and nonlinear computational layers on an FPGA. On-chip training via gradient backpropagation is shown to allow for real-time adaptation to time-varying channel impairments.
翻訳日:2022-12-08 15:48:32 公開日:2022-12-07
# コントラスト微調整によるスクリプトイベント予測のための生成手法

A Generative Approach for Script Event Prediction via Contrastive Fine-tuning ( http://arxiv.org/abs/2212.03496v1 )

ライセンス: Link先を確認
Fangqi Zhu, Jun Gao, Changlong Yu, Wei Wang, Chen Xu, Xin Mu, Min Yang, Ruifeng Xu(参考訳) スクリプトイベント予測は、コンテキストによって次のイベントを予測することを目的としている。 これはイベント間の相関を推測する能力を必要とする。 近年の研究では、事前訓練された言語モデルを用いて、外部知識~(談話関係など)を組み込むことにより、事象相関推論の改善が試みられている。 有望な結果が得られたが、いくつかの課題はまだ残っている。 まず、現在の作業で採用されている事前学習された言語モデルは、イベントレベルの知識を無視し、イベント間の相関をうまく捉えることができない。 第二に、談話マーカーを持つイベント間の明示的な相関のみを捉えることができ、多くの暗黙の相関を捉えることができないため、談話関係とイベント間の相関のモデル化は制限される。 そこで本研究では,事前学習された言語モデルにイベント中心の事前学習目標を微調整し,生成パラダイム内で次の事象を予測する新しい生成手法を提案する。 具体的には,まず,事前学習した言語モデルにイベントレベルの知識を注入する学習目的として,新たなイベントレベルの空白インフィルング戦略を導入し,生成モデルの微調整のための確率に基づくコントラスト損失を設計する。 追加の予測層を使う代わりに、生成モデルによって生成されたシーケンスの確率を用いて予測を行う。 われわれのアプローチは、外部の知識を使わずに、ソフトな方法でイベント間の相関関係をモデル化する。 確率に基づく予測は、予測を行うために追加のネットワークを使用する必要をなくし、イベント内の各単語をスコア付けするため、幾分解釈可能である。 MCNC(Multi-choice narrative cloze)タスクの実験結果から,本手法は他の最先端のベースラインよりも優れた結果が得られることが示された。 私たちのコードは \url{https://github.com/zhufq00/mcnc} で利用可能です。

Script event prediction aims to predict the subsequent event given the context. This requires the capability to infer the correlations between events. Recent works have attempted to improve event correlation reasoning by using pretrained language models and incorporating external knowledge~(e.g., discourse relations). Though promising results have been achieved, some challenges still remain. First, the pretrained language models adopted by current works ignore event-level knowledge, resulting in an inability to capture the correlations between events well. Second, modeling correlations between events with discourse relations is limited because it can only capture explicit correlations between events with discourse markers, and cannot capture many implicit correlations. To this end, we propose a novel generative approach for this task, in which a pretrained language model is fine-tuned with an event-centric pretraining objective and predicts the next event within a generative paradigm. Specifically, we first introduce a novel event-level blank infilling strategy as the learning objective to inject event-level knowledge into the pretrained language model, and then design a likelihood-based contrastive loss for fine-tuning the generative model. Instead of using an additional prediction layer, we perform prediction by using sequence likelihoods generated by the generative model. Our approach models correlations between events in a soft way without any external knowledge. The likelihood-based prediction eliminates the need to use additional networks to make predictions and is somewhat interpretable since it scores each word in the event. Experimental results on the multi-choice narrative cloze~(MCNC) task demonstrate that our approach achieves better results than other state-of-the-art baselines. Our code will be available at \url{https://github.com/zhufq00/mcnc}.
翻訳日:2022-12-08 15:48:06 公開日:2022-12-07
# WIDER & CLOSER:Zero-shot inter-lingual Named Entity Recognitionのための短チャネル蒸留器の混合

WIDER & CLOSER: Mixture of Short-channel Distillers for Zero-shot Cross-lingual Named Entity Recognition ( http://arxiv.org/abs/2212.03506v1 )

ライセンス: Link先を確認
Jun-Yu Ma, Beiduo Chen, Jia-Chen Gu, Zhen-Hua Ling, Wu Guo, Quan Liu, Zhigang Chen and Cong Liu(参考訳) Zero-shot クロスランガルなエンティティ認識 (NER) は、アノテートおよびリッチリソースのデータから、ターゲット言語におけるラベルなしおよびリーンリソースデータへの知識の転送を目的としている。 教師・学生の蒸留フレームワークに基づく既存の主流の手法は、事前訓練された言語モデルの中間層に存在する豊かで相補的な情報を無視する。 本研究では,教師モデルにおける豊富な階層情報を完全にやりとりし,学生モデルに知識を十分かつ効率的に伝達するために,短チャネル蒸留器(MSD)の混合方式を提案する。 具体的には、複数の蒸留器を混合として集約することで十分な情報伝達を実現するため、多チャンネル蒸留フレームワークを設計する。 さらに,教師モデルと生徒モデル間のチャネルを短縮し,ドメイン不変性を維持するために並列ドメイン適応を用いた教師なし手法を提案する。 9言語にまたがる4つのデータセットの実験により, ゼロショット言語間NERにおいて, 提案手法が新たな最先端性能を実現し, 言語や分野間での高度な一般化と互換性が示された。

Zero-shot cross-lingual named entity recognition (NER) aims at transferring knowledge from annotated and rich-resource data in source languages to unlabeled and lean-resource data in target languages. Existing mainstream methods based on the teacher-student distillation framework ignore the rich and complementary information lying in the intermediate layers of pre-trained language models, and domain-invariant information is easily lost during transfer. In this study, a mixture of short-channel distillers (MSD) method is proposed to fully interact the rich hierarchical information in the teacher model and to transfer knowledge to the student model sufficiently and efficiently. Concretely, a multi-channel distillation framework is designed for sufficient information transfer by aggregating multiple distillers as a mixture. Besides, an unsupervised method adopting parallel domain adaptation is proposed to shorten the channels between the teacher and student models to preserve domain-invariant features. Experiments on four datasets across nine languages demonstrate that the proposed method achieves new state-of-the-art performance on zero-shot cross-lingual NER and shows great generalization and compatibility across languages and fields.
翻訳日:2022-12-08 15:47:38 公開日:2022-12-07
# タグ埋め込みとよく定義された中間表現は問題記述の自動生成を改善する

Tag Embedding and Well-defined Intermediate Representation improve Auto-Formulation of Problem Description ( http://arxiv.org/abs/2212.03575v1 )

ライセンス: Link先を確認
Sanghwan Jang(参考訳) 本稿では,最適化問題を正規表現に変換する課題である問題記述の自動定式化について述べる。 まず、中間表現を定義してオートフォーミュレーションタスクを単純化し、次に所定のエンティティタグ情報を利用するためにエンティティタグ埋め込みを導入します。 アブレーション実験はNeurIPS 2022 NL4Opt competition subtask 2で2位となった提案手法の有効性を示した。

In this report, I address auto-formulation of problem description, the task of converting an optimization problem into a canonical representation. I first simplify the auto-formulation task by defining an intermediate representation, then introduce entity tag embedding to utilize a given entity tag information. The ablation study demonstrate the effectiveness of the proposed method, which finally took second place in NeurIPS 2022 NL4Opt competition subtask 2.
翻訳日:2022-12-08 15:47:19 公開日:2022-12-07
# ランダム部分空間上の正規化EMM

Regularized ERM on random subspaces ( http://arxiv.org/abs/2212.01866v2 )

ライセンス: Link先を確認
Andrea Della Vecchia, Ernesto De Vito, Lorenzo Rosasco(参考訳) 仮説空間は与えられた空間のランダム部分空間である古典的経験的リスク最小化の自然な拡張を研究する。 特に、データのランダムなサブセットにまたがるデータ依存部分空間を考慮し、カーネルメソッドに対するnystromアプローチの特別なケースとして復元する。 ランダムな部分空間を考えると自然に計算上の節約につながるが、問題は対応する学習精度が劣化するかどうかである。 これらの統計計算トレードオフは、ロジスティック損失のような最小二乗損失と自己調和損失関数のために最近研究されている。 ここでは、これらの結果を、サポートベクトルマシンで使用されるヒンジ損失など、滑らかでないかもしれない凸リプシッツ損失関数に拡張する。 この統一分析には、高速なレートを達成するために、サブガウス入力のような異なる技術ツールを使用する新しい証明を開発する必要がある。 本研究の主目的は,学習の困難さによって異なる設定が存在することを示し,性能の低下を伴わずに計算効率を向上できることを示した。

We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystrom approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This unified analysis requires developing new proofs, that use different technical tools, such as sub-gaussian inputs, to achieve fast rates. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance.
翻訳日:2022-12-08 15:41:44 公開日:2022-12-07
# 時系列の逐次予測等式推論

Sequential Predictive Conformal Inference for Time Series ( http://arxiv.org/abs/2212.03463v1 )

ライセンス: Link先を確認
Chen Xu, Yao Xie(参考訳) 逐次データ(例えば時系列)に対する分布自由な共形予測アルゴリズムを新たに提案し,そのアルゴリズムを \textit{sequential predictive conformal inference} (\texttt{SPCI}) と呼ぶ。 具体的には、時系列データが交換不能である性質を特に考慮し、時間的残差に基づく既存の共形予測アルゴリズムは適用できない。 主な考え方は、適合度スコアの時間的依存を利用することであり、したがって過去の適合度スコアは将来のものに関する情報を含む。 そして,予測アルゴリズムを用いて,共形予測区間の問題を将来の残差の量子化を予測した。 理論的には、質的回帰の一貫性解析を拡張することによって漸近的有効条件範囲を確立する。 シミュレーションと実データ実験を用いて, 所望の実験範囲における他の既存手法と比較して, 区間幅が有意に減少することを示す。

We present a new distribution-free conformal prediction algorithm for sequential data (e.g., time series), called the \textit{sequential predictive conformal inference} (\texttt{SPCI}). We specifically account for the nature that the time series data are non-exchangeable, and thus many existing conformal prediction algorithms based on temporal residuals are not applicable. The main idea is to exploit the temporal dependence of conformity scores; thus, the past conformity scores contain information about future ones. Then we cast the problem of conformal prediction interval as predicting the quantile of a future residual, given a prediction algorithm. Theoretically, we establish asymptotic valid conditional coverage upon extending consistency analyses in quantile regression. Using simulation and real-data experiments, we demonstrate a significant reduction in interval width of \texttt{SPCI} compared to other existing methods under the desired empirical coverage.
翻訳日:2022-12-08 15:40:51 公開日:2022-12-07
# 計量的解明;理論から実践へ

Metric Elicitation; Moving from Theory to Practice ( http://arxiv.org/abs/2212.03495v1 )

ライセンス: Link先を確認
Safinah Ali, Sohini Upadhyay, Gaurush Hiranandani, Elena L. Glassman, Oluwasanmi Koyejo(参考訳) Metric Elicitation(ME)は、タスクとコンテキストに基づいて暗黙のユーザー嗜好に合うように分類メトリクスを抽出するフレームワークである。 既存のME戦略は、ユーザが混乱行列のような分類器統計よりも、最も容易に好みのフィードバックを提供できるという仮定に基づいている。 この研究は、me戦略の初めての実装を提供することで、私を検証します。 具体的には、webベースのmeインタフェースを作成し、ユーザの好みのメトリクスをバイナリ分類設定で導き出すユーザ調査を行う。 本研究の成果と今後の研究指針について論じる。

Metric Elicitation (ME) is a framework for eliciting classification metrics that better align with implicit user preferences based on the task and context. The existing ME strategy so far is based on the assumption that users can most easily provide preference feedback over classifier statistics such as confusion matrices. This work examines ME, by providing a first ever implementation of the ME strategy. Specifically, we create a web-based ME interface and conduct a user study that elicits users' preferred metrics in a binary classification setting. We discuss the study findings and present guidelines for future research in this direction.
翻訳日:2022-12-08 15:40:35 公開日:2022-12-07
# metastackvis: メタモデルの視覚支援性能評価

MetaStackVis: Visually-Assisted Performance Evaluation of Metamodels ( http://arxiv.org/abs/2212.03539v1 )

ライセンス: Link先を確認
Ilya Ploshchik, Angelos Chatzimparmpas, Andreas Kerren(参考訳) スタック化(スタックド・ジェネレーション)とは、複数のベースモデルが元のデータセットで訓練されているにもかかわらず、少なくとも1つの余分な層に配置された1つ以上のメタモデルの入力データとしてさらに使用されるアンサンブル学習法である。 モデルのスタックを構成することで高性能な結果が得られるが、通常は試行錯誤のプロセスが伴う。 そこで,これまで開発したビジュアルアナリティクスシステムStackGenVisは,ユーザが予測性能を計測して,最高のパフォーマンスと多様なモデルを選択するのを支援するために設計された。 しかし、単一のロジスティック回帰メタモデルのみを使用する。 本稿では,新しい可視化ツールであるmetastackvisを用いて,代替メタモデルがスタックングアンサンブルの性能に与える影響について検討する。 我々のインタラクティブツールは、ユーザが予測可能な確率と複数のバリデーションメトリクスに応じて、異なる特異点とペアのメタモデルを視覚的に探索し、特定の問題のあるデータインスタンスを予測するのに役立つ。 MetaStackVisは、医療データセットと専門家インタビューによる利用シナリオで評価された。

Stacking (or stacked generalization) is an ensemble learning method with one main distinctiveness from the rest: even though several base models are trained on the original data set, their predictions are further used as input data for one or more metamodels arranged in at least one extra layer. Composing a stack of models can produce high-performance outcomes, but it usually involves a trial-and-error process. Therefore, our previously developed visual analytics system, StackGenVis, was mainly designed to assist users in choosing a set of top-performing and diverse models by measuring their predictive performance. However, it only employs a single logistic regression metamodel. In this paper, we investigate the impact of alternative metamodels on the performance of stacking ensembles using a novel visualization tool, called MetaStackVis. Our interactive tool helps users to visually explore different singular and pairs of metamodels according to their predictive probabilities and multiple validation metrics, as well as their ability to predict specific problematic data instances. MetaStackVis was evaluated with a usage scenario based on a medical data set and via expert interviews.
翻訳日:2022-12-08 15:40:25 公開日:2022-12-07
# ネットワーク干渉による因果推論のための周辺適応推定器

Neighborhood Adaptive Estimators for Causal Inference under Network Interference ( http://arxiv.org/abs/2212.03683v1 )

ライセンス: Link先を確認
Alexandre Belloni, Fei Fang and Alexander Volfovsky(参考訳) 因果効果の推定は、ほとんどの応用分野において不可欠な部分となっている。 これらの現代の因果問題を解くには、多くの古典的な因果仮説の違反に取り組む必要がある。 本研究は,古典的非干渉仮説の違反を考察し,ある個人に対する治療が他者の結果に影響を及ぼす可能性を示唆する。 干渉を扱いやすくするため、干渉がどのように進行するかを記述する既知のネットワークを考える。 しかし、この領域における以前の研究とは異なり、ユニットが経験した干渉の半径(および強度)は未知であり、このユニットに接続されている処理および未処理の異なるサブネットワークに依存することができる。 このような環境での処理に対する平均的直接的治療効果の予測について検討した。 提案した推定器はレプスキー様の手順に基づいて、関連するラジイおよび治療代入パターンを探索する。 従来の研究とは対照的に,提案手法はネットワーク干渉パターンを近似することを目的としている。 干渉関数の推定のためのオラクルの不等式と対応する適応率を確立する。 本研究では, 平均的な直接治療効果を示す2つの推定器の提案と解析を行う。 データ駆動型パターン作成(すなわち、機能工学)とネットワーク依存から生じるいくつかの課題に対処します。 収束率に加えて, 穏やかな正規性条件下では, 提案する推定器の1つが漸近的に正規であり, 偏りがないことを示す。

Estimating causal effects has become an integral part of most applied fields. Solving these modern causal questions requires tackling violations of many classical causal assumptions. In this work we consider the violation of the classical no-interference assumption, meaning that the treatment of one individuals might affect the outcomes of another. To make interference tractable, we consider a known network that describes how interference may travel. However, unlike previous work in this area, the radius (and intensity) of the interference experienced by a unit is unknown and can depend on different sub-networks of those treated and untreated that are connected to this unit. We study estimators for the average direct treatment effect on the treated in such a setting. The proposed estimator builds upon a Lepski-like procedure that searches over the possible relevant radii and treatment assignment patterns. In contrast to previous work, the proposed procedure aims to approximate the relevant network interference patterns. We establish oracle inequalities and corresponding adaptive rates for the estimation of the interference function. We leverage such estimates to propose and analyze two estimators for the average direct treatment effect on the treated. We address several challenges steaming from the data-driven creation of the patterns (i.e. feature engineering) and the network dependence. In addition to rates of convergence, under mild regularity conditions, we show that one of the proposed estimators is asymptotically normal and unbiased.
翻訳日:2022-12-08 15:40:04 公開日:2022-12-07
# モデル勾配によるトレーニングデータの再構成, 実現可能

Reconstructing Training Data from Model Gradient, Provably ( http://arxiv.org/abs/2212.03714v1 )

ライセンス: Link先を確認
Zihan Wang, Jason Lee, Qi Lei(参考訳) モデルの勾配がトレーニングサンプルに関する情報を漏洩する時期と程度を理解することは、プライバシに関する重要な質問である。 本稿では,データのトレーニングや記憶がなくても,ランダムに選択されたパラメータ値で,単一の勾配クエリからトレーニングサンプルを完全に再構築することができる,という驚くべき結果を示す。 我々は,浅層ニューラルネットワークや深層ニューラルネットワーク,幅広い活性化関数を用いて,温和な条件下でのトレーニングデータの識別可能性を証明する。 また,テンソル分解に基づく統計的かつ計算効率の良いアルゴリズムを提案し,トレーニングデータを再構成する。 センシティブなトレーニングデータを示す証明可能な攻撃として、我々の発見はプライバシー、特に連邦学習における深刻な脅威を示唆している。

Understanding when and how much a model gradient leaks information about the training sample is an important question in privacy. In this paper, we present a surprising result: even without training or memorizing the data, we can fully reconstruct the training samples from a single gradient query at a randomly chosen parameter value. We prove the identifiability of the training data under mild conditions: with shallow or deep neural networks and a wide range of activation functions. We also present a statistically and computationally efficient algorithm based on tensor decomposition to reconstruct the training data. As a provable attack that reveals sensitive training data, our findings suggest potential severe threats to privacy, especially in federated learning.
翻訳日:2022-12-08 15:39:42 公開日:2022-12-07
# Phase2vec:物理インフォームド畳み込みネットワークを組み込んだ動的システム

Phase2vec: Dynamical systems embedding with a physics-informed convolutional network ( http://arxiv.org/abs/2212.03857v1 )

ライセンス: Link先を確認
Matthew Ricci, Noa Moriel, Zoe Piran, Mor Nitzan(参考訳) 力学系は、物理科学や生物科学の至る所で無数の形で見られるが、これらの系は自然に普遍的同値類(保守的、散逸的、安定的、不安定、圧縮的、あるいは非圧縮的)に分類される。 これらのクラスをデータから予測することは、既存の時系列分類法が苦労する計算物理学において重要な課題である。 ここでは,2次元力学系の高品位で物理的に意味のある表現を,監督なしで学習する埋め込み法である \texttt{phase2vec} を提案する。 我々の埋め込みは、流れデータから幾何学的特徴を抽出する畳み込みバックボーンによって生成され、物理的に変形したベクトル場再構成損失を最小化する。 補助訓練期間において、埋め込みを最適化し、不知覚データの方程式を等式ごとのフィッティング法の性能以上でロバストに符号化する。 トレーニングされたアーキテクチャは、目に見えないデータの方程式を予測できるだけでなく、重要なことに、組み込み物理システムの基本的なセマンティクスを尊重する埋め込みを学習することができる。 標準ブラックボックス分類器や最先端の時系列分類手法と比較して,入力データの物理的カテゴリが埋め込みから復号できる程度を調査し,学習埋め込みの品質を検証する。 我々の埋め込みは、固定点の安定性、エネルギーの保存、流れの非圧縮性など、基礎となるデータの重要な物理的特性を、競合する手法よりも忠実にエンコードしている。 我々はついに気象データの解析に埋め込みを適用し、気候的に意味のある特徴を検出できることを示した。 以上より,物理系における動的特徴の発見に向けた組込みアプローチの実現可能性を示す。

Dynamical systems are found in innumerable forms across the physical and biological sciences, yet all these systems fall naturally into universal equivalence classes: conservative or dissipative, stable or unstable, compressible or incompressible. Predicting these classes from data remains an essential open challenge in computational physics at which existing time-series classification methods struggle. Here, we propose, \texttt{phase2vec}, an embedding method that learns high-quality, physically-meaningful representations of 2D dynamical systems without supervision. Our embeddings are produced by a convolutional backbone that extracts geometric features from flow data and minimizes a physically-informed vector field reconstruction loss. In an auxiliary training period, embeddings are optimized so that they robustly encode the equations of unseen data over and above the performance of a per-equation fitting method. The trained architecture can not only predict the equations of unseen data, but also, crucially, learns embeddings that respect the underlying semantics of the embedded physical systems. We validate the quality of learned embeddings investigating the extent to which physical categories of input data can be decoded from embeddings compared to standard blackbox classifiers and state-of-the-art time series classification techniques. We find that our embeddings encode important physical properties of the underlying data, including the stability of fixed points, conservation of energy, and the incompressibility of flows, with greater fidelity than competing methods. We finally apply our embeddings to the analysis of meteorological data, showing we can detect climatically meaningful features. Collectively, our results demonstrate the viability of embedding approaches for the discovery of dynamical features in physical systems.
翻訳日:2022-12-08 15:39:28 公開日:2022-12-07
# 複数の摂動攻撃:異なる$\ell_p$-normでpixelwiseを攻撃し、逆境のパフォーマンスを改善する

Multiple Perturbation Attack: Attack Pixelwise Under Different $\ell_p$-norms For Better Adversarial Performance ( http://arxiv.org/abs/2212.03069v2 )

ライセンス: Link先を確認
Ngoc N. Tran, Anh Tuan Bui, Dinh Phung, Trung Le(参考訳) 敵対的機械学習は、特に現在のランドスケープにおけるディープニューラルネットワークのユビキタス使用に関して、主要な関心事とホットトピックである。 敵の攻撃と防御は、通常、防御者や攻撃者が時間をかけて進化する猫とマウスのゲームに例えられる。 一方の目標は、悪意のあるアクターに耐性のある強力で堅牢なディープネットワークを開発することだ。 一方、これを実現するためには、より強力な敵攻撃を考案し、これらの防衛モデルに挑戦する必要がある。 既存の攻撃のほとんどは、近接性の概念を定義するために単一の$\ell_p$距離(一般に$p\in\{1,2,\infty\}$)を採用しており、この$p$-normで全てのピクセルを逆の例で更新する。 これらの$\ell_p$攻撃には、それぞれ独自の長所と短所があり、複数の$\ell_p$ノルムに対してロバストな防御モデルを同時に突破できる単一の攻撃は存在しない。 これらの観測により、我々は様々な$\ell_p$勾配の投影をピクセルレベルで組み合わせ、対向対向摂動を達成するという自然なアプローチを思いついた。 具体的には、攻撃性能を最大化するために各ピクセルを摂動させる方法を学習し、また、攻撃例の全体的な可視性を維持します。 最後に, 標準ベンチマークを用いた各種実験により, 本手法は最先端の防御機構にまたがる最も強固な攻撃よりも優れており, クリーンな視認性は保たれていることを示した。

Adversarial machine learning has been both a major concern and a hot topic recently, especially with the ubiquitous use of deep neural networks in the current landscape. Adversarial attacks and defenses are usually likened to a cat-and-mouse game in which defenders and attackers evolve over the time. On one hand, the goal is to develop strong and robust deep networks that are resistant to malicious actors. On the other hand, in order to achieve that, we need to devise even stronger adversarial attacks to challenge these defense models. Most of existing attacks employs a single $\ell_p$ distance (commonly, $p\in\{1,2,\infty\}$) to define the concept of closeness and performs steepest gradient ascent w.r.t. this $p$-norm to update all pixels in an adversarial example in the same way. These $\ell_p$ attacks each has its own pros and cons; and there is no single attack that can successfully break through defense models that are robust against multiple $\ell_p$ norms simultaneously. Motivated by these observations, we come up with a natural approach: combining various $\ell_p$ gradient projections on a pixel level to achieve a joint adversarial perturbation. Specifically, we learn how to perturb each pixel to maximize the attack performance, while maintaining the overall visual imperceptibility of adversarial examples. Finally, through various experiments with standardized benchmarks, we show that our method outperforms most current strong attacks across state-of-the-art defense mechanisms, while retaining its ability to remain clean visually.
翻訳日:2022-12-08 15:38:57 公開日:2022-12-07
# 教示事項:視覚トランスフォーマーにおける監督の役割の検討

Teaching Matters: Investigating the Role of Supervision in Vision Transformers ( http://arxiv.org/abs/2212.03862v1 )

ライセンス: Link先を確認
Matthew Walmer, Saksham Suri, Kamal Gupta, Abhinav Shrivastava(参考訳) ビジョントランスフォーマー(ViT)は近年大きな人気を集め、多くのアプリケーションに普及している。 しかし、異なる学習パラダイムの下での行動の多様性については、十分に検討されていない。 我々は、異なる監督方法によって訓練されたViTを比較し、彼らの注意、表現、下流のパフォーマンスの観点から様々な行動を学ぶことを示す。 また、オフセットローカルアテンションヘッドの出現など、監督の面で一貫性のあるViT動作も発見する。 これらは、現在のトークンに隣接するトークンに固定された方向オフセットで出席するセルフアテンションヘッドである。 分析の結果,vitは高度に柔軟であり,訓練方法によって異なる順序で局所的およびグローバル的な情報を処理できることがわかった。 対照的な自己監督手法は、明示的な教師付き機能と競合する特徴を学習し、パートレベルのタスクに勝るものさえある。 また、再構成に基づくモデルの表現は、対照的な自己教師付きモデルと非自明な類似性を示す。 最後に、与えられたタスクの「ベスト」層が、監督方法とタスクによってどのように異なるかを示し、さらに、ViTにおける情報処理の順番が異なることを示す。

Vision Transformers (ViTs) have gained significant popularity in recent years and have proliferated into many applications. However, it is not well explored how varied their behavior is under different learning paradigms. We compare ViTs trained through different methods of supervision, and show that they learn a diverse range of behaviors in terms of their attention, representations, and downstream performance. We also discover ViT behaviors that are consistent across supervision, including the emergence of Offset Local Attention Heads. These are self-attention heads that attend to a token adjacent to the current token with a fixed directional offset, a phenomenon that to the best of our knowledge has not been highlighted in any prior work. Our analysis shows that ViTs are highly flexible and learn to process local and global information in different orders depending on their training method. We find that contrastive self-supervised methods learn features that are competitive with explicitly supervised features, and they can even be superior for part-level tasks. We also find that the representations of reconstruction-based models show non-trivial similarity to contrastive self-supervised models. Finally, we show how the "best" layer for a given task varies by both supervision method and task, further demonstrating the differing order of information processing in ViTs.
翻訳日:2022-12-08 15:32:55 公開日:2022-12-07
# X-Paste: CLIPとStableDiffusionによる大規模コピーペーストの再検討

X-Paste: Revisit Copy-Paste at Scale with CLIP and StableDiffusion ( http://arxiv.org/abs/2212.03863v1 )

ライセンス: Link先を確認
Hanqing Zhao and Dianmo Sheng and Jianmin Bao and Dongdong Chen and Dong Chen and Fang Wen and Lu Yuan and Ce Liu and Wenbo Zhou and Qi Chu and Weiming Zhang and Nenghai Yu(参考訳) Copy-Pasteは、インスタンスセグメンテーションのためのシンプルで効果的なデータ拡張戦略である。 オブジェクトインスタンスを新しいバックグラウンドイメージにランダムにペーストすることで、新しいトレーニングデータを無償で生成し、特に稀なオブジェクトカテゴリにおいてセグメンテーションのパフォーマンスを大幅に向上する。 コピーペーストで使用される多様で高品質なオブジェクトインスタンスは、より多くのパフォーマンス向上をもたらすが、以前の作品は、人間の注釈付きインスタンスセグメンテーションデータセットからのオブジェクトインスタンスや、3dオブジェクトモデルからのレンダリングを利用する。 本稿では,新たに出現したゼロショット認識モデル(クリップなど)とtext2画像モデル(stablediffusionなど)を用いて,コピーペーストを大規模に再検討する。 我々は、text2imageモデルを用いて画像やゼロショット認識モデルを生成し、さまざまなオブジェクトカテゴリに対してノイズの多いクロール画像をフィルタリングすることが、Copy-Pasteを真にスケーラブルにするための実現可能な方法であることを示す。 このような成功のために,我々は「X-Paste」と呼ばれるデータ取得処理フレームワークを設計し,体系的な研究を行う。 LVISデータセットでは、X-Pasteが強力なベースラインであるCenterNet2よりも大幅に改善され、Swin-Lがバックボーンとなっている。 具体的には、すべてのクラスで +2.6 ボックス ap と +2.1 マスク ap をアーカイブし、ロングテールクラスの +6.8 ボックス ap +6.5 マスク ap でさらに大きな利益を得る。

Copy-Paste is a simple and effective data augmentation strategy for instance segmentation. By randomly pasting object instances onto new background images, it creates new training data for free and significantly boosts the segmentation performance, especially for rare object categories. Although diverse, high-quality object instances used in Copy-Paste result in more performance gain, previous works utilize object instances either from human-annotated instance segmentation datasets or rendered from 3D object models, and both approaches are too expensive to scale up to obtain good diversity. In this paper, we revisit Copy-Paste at scale with the power of newly emerged zero-shot recognition models (e.g., CLIP) and text2image models (e.g., StableDiffusion). We demonstrate for the first time that using a text2image model to generate images or zero-shot recognition model to filter noisily crawled images for different object categories is a feasible way to make Copy-Paste truly scalable. To make such success happen, we design a data acquisition and processing framework, dubbed "X-Paste", upon which a systematic study is conducted. On the LVIS dataset, X-Paste provides impressive improvements over the strong baseline CenterNet2 with Swin-L as the backbone. Specifically, it archives +2.6 box AP and +2.1 mask AP gains on all classes and even more significant gains with +6.8 box AP +6.5 mask AP on long-tail classes.
翻訳日:2022-12-08 15:32:34 公開日:2022-12-07
# スマート農業における時系列数値関連ルールマイニング変種

Time series numerical association rule mining variants in smart agriculture ( http://arxiv.org/abs/2212.03669v1 )

ライセンス: Link先を確認
Iztok Fister Jr. and Du\v{s}an Fister and Iztok Fister and Vili Podgorelec and Sancho Salcedo-Sanz(参考訳) 数値関連ルールマイニングは、アルゴリズムがカテゴリー的および数値的属性で直接操作できる、非常に効率的な関連ルールマイニング方法を提供する。 これらの方法は、データが順次入力される異なるトランザクションデータベースをマイニングするのに適しています。 しかし、時系列データから関連ルールを抽出する新たな手法を提供する時系列数値関連ルールマイニングには、ほとんど注目されていない。 本稿では,時系列数値関連ルールマイニングのための新しいアルゴリズム手法とそのスマート農業への応用について述べる。 本稿では,プラントパラメータを監視するハードウェア環境の概念と,実用実験による新しいデータマイニング手法を提案する。 実際の実験では、この手法の可能性を示し、さらなる拡張の扉を開いた。

Numerical association rule mining offers a very efficient way of mining association rules, where algorithms can operate directly with categorical and numerical attributes. These methods are suitable for mining different transaction databases, where data are entered sequentially. However, little attention has been paid to the time series numerical association rule mining, which offers a new technique for extracting association rules from time series data. This paper presents a new algorithmic method for time series numerical association rule mining and its application in smart agriculture. We offer a concept of a hardware environment for monitoring plant parameters and a novel data mining method with practical experiments. The practical experiments showed the method's potential and opened the door for further extension.
翻訳日:2022-12-08 15:31:14 公開日:2022-12-07
# 深い局所化レベル分析の改善: ゲームログがいかに役立つか

Improving Deep Localized Level Analysis: How Game Logs Can Help ( http://arxiv.org/abs/2212.03376v1 )

ライセンス: Link先を確認
Natalie Bombardieri, Matthew Guzdial(参考訳) プレイヤーモデリングは、プレイヤーの理解に関連する研究分野である。 この分野での追求の1つは、ゲームがどのようにプレイヤーに感じるかを予測する能力に影響を及ぼすことである。 本稿では,ゲームイベントログ上で学習したプレイヤー体験を局所化された階層構造情報と組み合わせて予測する深層畳み込みニューラルネットワーク(cnn)を用いて,予測に影響を与える新たな改善を提案する。 スーパーマリオブラザース(infinite mario bros.)とスーパーマリオブラザーズ:ザ・ロスト・レベル(gwario: the lost levels)とオリジナルのスーパーマリオブラザース(super mario bros.)に基づいて、我々のアプローチをテストします。 クロスドメインプレーヤモデリングの試験時間に欠如している場合でも,事前作業よりも優れており,プレイヤログのトレーニングの有用性が実証されている。

Player modelling is the field of study associated with understanding players. One pursuit in this field is affect prediction: the ability to predict how a game will make a player feel. We present novel improvements to affect prediction by using a deep convolutional neural network (CNN) to predict player experience trained on game event logs in tandem with localized level structure information. We test our approach on levels based on Super Mario Bros. (Infinite Mario Bros.) and Super Mario Bros.: The Lost Levels (Gwario), as well as original Super Mario Bros. levels. We outperform prior work, and demonstrate the utility of training on player logs, even when lacking them at test time for cross-domain player modelling.
翻訳日:2022-12-08 15:29:56 公開日:2022-12-07
# 機械学習モデルの局所的解釈可能性のための真理的メタ説明

Truthful Meta-Explanations for Local Interpretability of Machine Learning Models ( http://arxiv.org/abs/2212.03513v1 )

ライセンス: Link先を確認
Ioannis Mollas, Nick Bassiliades, Grigorios Tsoumakas(参考訳) 機械学習ベースのシステムの幅広いタスクへの統合の自動化は、そのパフォーマンスとスピードの結果として拡大した。 MLベースのシステムを採用するには多くの利点があるが、解釈不可能な場合、人間の命が危険にさらされているクリティカルでハイリスクなアプリケーションで使用するべきではない。 この問題に対処するため、研究者や企業は複雑なMLシステムの解釈可能性を改善する方法を模索しており、いくつかの方法が開発されている。 実際、多くの技術が開発されているため、評価基準を使用しても、実践者がアプリケーションに最適なものを選択することは困難です。 その結果,高品質な評価基準に基づくメタ説明手法である選択ツールの需要が明らかになった。 本稿では,忠実度に基づく尺度である真理度基準の上に構築された局所的メタ説明手法を提案する。 本研究は,すべての概念を具体的に定義し,実験を通じて,技術と計量の両立を実証する。

Automated Machine Learning-based systems' integration into a wide range of tasks has expanded as a result of their performance and speed. Although there are numerous advantages to employing ML-based systems, if they are not interpretable, they should not be used in critical, high-risk applications where human lives are at risk. To address this issue, researchers and businesses have been focusing on finding ways to improve the interpretability of complex ML systems, and several such methods have been developed. Indeed, there are so many developed techniques that it is difficult for practitioners to choose the best among them for their applications, even when using evaluation metrics. As a result, the demand for a selection tool, a meta-explanation technique based on a high-quality evaluation metric, is apparent. In this paper, we present a local meta-explanation technique which builds on top of the truthfulness metric, which is a faithfulness-based metric. We demonstrate the effectiveness of both the technique and the metric by concretely defining all the concepts and through experimentation.
翻訳日:2022-12-08 15:29:40 公開日:2022-12-07
# 信頼と対話する - ビジネスプロセスのコンフォーメーショナル規範的監視

Intervening With Confidence: Conformal Prescriptive Monitoring of Business Processes ( http://arxiv.org/abs/2212.03710v1 )

ライセンス: Link先を確認
Mahmoud Shoush and Marlon Dumas(参考訳) 規定的プロセス監視方法は、実行時に介入(例えば、顧客に割引を提供する)を選択的にトリガーして、望ましいケース結果(例えば、購入する顧客)の確率を高めることにより、プロセスのパフォーマンスを向上させる。 規範的プロセス監視手法のバックボーンは介入ポリシーであり、どのケースといつ介入が実行されるかを決定する。 この分野での既存の手法は、介入ポリシーを定義するための予測モデルに依存しており、特に、負の結果の予測確率が閾値を超えると介入を引き起こす政策を考える。 しかし、予測モデルによって計算される確率は、高いレベルの不確実性(信頼性の低い)を持ち、不必要な介入につながり、したがって無駄な労力がかかる。 この無駄は、介入の実行に利用可能なリソースが限られている場合に特に問題となる。 そこで本研究では,既存の規範的プロセス監視手法を,いわゆる共形予測,すなわち信頼性保証付き予測で拡張する手法を提案する。 実生活の公開データセットを用いた実証評価では、コンフォメーション予測は限られたリソース下での規範的プロセス監視手法の純利を高めることが示されている。

Prescriptive process monitoring methods seek to improve the performance of a process by selectively triggering interventions at runtime (e.g., offering a discount to a customer) to increase the probability of a desired case outcome (e.g., a customer making a purchase). The backbone of a prescriptive process monitoring method is an intervention policy, which determines for which cases and when an intervention should be executed. Existing methods in this field rely on predictive models to define intervention policies; specifically, they consider policies that trigger an intervention when the estimated probability of a negative outcome exceeds a threshold. However, the probabilities computed by a predictive model may come with a high level of uncertainty (low confidence), leading to unnecessary interventions and, thus, wasted effort. This waste is particularly problematic when the resources available to execute interventions are limited. To tackle this shortcoming, this paper proposes an approach to extend existing prescriptive process monitoring methods with so-called conformal predictions, i.e., predictions with confidence guarantees. An empirical evaluation using real-life public datasets shows that conformal predictions enhance the net gain of prescriptive process monitoring methods under limited resources.
翻訳日:2022-12-08 15:24:11 公開日:2022-12-07
# Tiered Reward関数による行動選好の特定

Specifying Behavior Preference with Tiered Reward Functions ( http://arxiv.org/abs/2212.03733v1 )

ライセンス: Link先を確認
Zhiyuan Zhou, Henry Sowerby, Michael L. Littman(参考訳) 強化学習エージェントは、環境相互作用を通じて報酬信号の最大化を試みる。 人間として、学習プロセスへの私たちの貢献は、報酬関数を設計することにあります。 プログラマのように、私たちは振る舞いを念頭に置いて、それを正式な仕様、すなわち報酬に変換する必要があります。 本研究では,望ましい状態に到達し,望ましくない状態を避けるように定式化したタスクにおける報酬設計問題を考える。 まず,政策空間の厳格な部分順序付けを提案する。 我々は、悪い状態をより長く避けながら、より早く、より高い確率で良い状態に到達する政策を好む。 次に,環境に依存しない階層型報酬構造を提案し,好意関係に応じてパレート最適の政策を導出することが保証されていることを示す。 最後に,階層化報酬関数を複数の環境において実験的に評価し,望ましい行動を誘発し,高速な学習につながることを示す。

Reinforcement-learning agents seek to maximize a reward signal through environmental interactions. As humans, our contribution to the learning process is through designing the reward function. Like programmers, we have a behavior in mind and have to translate it into a formal specification, namely rewards. In this work, we consider the reward-design problem in tasks formulated as reaching desirable states and avoiding undesirable states. To start, we propose a strict partial ordering of the policy space. We prefer policies that reach the good states faster and with higher probability while avoiding the bad states longer. Next, we propose an environment-independent tiered reward structure and show it is guaranteed to induce policies that are Pareto-optimal according to our preference relation. Finally, we empirically evaluate tiered reward functions on several environments and show they induce desired behavior and lead to fast learning.
翻訳日:2022-12-08 15:23:51 公開日:2022-12-07
# 予測方法の分類基準

Criteria for Classifying Forecasting Methods ( http://arxiv.org/abs/2212.03523v1 )

ライセンス: Link先を確認
Tim Januschowski, Jan Gasthaus, Yuyang Wang, David Salinas, Valentin Flunkert, Michael Bohlke-Schneider, Laurent Callot(参考訳) 予測手法を「機械学習」か「統計」のどちらかに分類することは、M4コンペティションや主催者による結論によって実証されるように、予測文学やコミュニティの一部において一般的となっている。 この区別は、どちらのクラスにも割り当てられたメソッドの根本的な違いに起因するものではない。 代わりに、この区別はおそらく部族的な性質であり、異なる予測方法の適切性と有効性についての洞察を制限する。 我々は,予測手法の代替的特徴を提示することで,有意義な結論を導き出すことができる。 さらに,MLと統計コミュニティの相互補間から最も恩恵を受ける可能性のある予測分野についても論じる。

Classifying forecasting methods as being either of a "machine learning" or "statistical" nature has become commonplace in parts of the forecasting literature and community, as exemplified by the M4 competition and the conclusion drawn by the organizers. We argue that this distinction does not stem from fundamental differences in the methods assigned to either class. Instead, this distinction is probably of a tribal nature, which limits the insights into the appropriateness and effectiveness of different forecasting methods. We provide alternative characteristics of forecasting methods which, in our view, allow to draw meaningful conclusions. Further, we discuss areas of forecasting which could benefit most from cross-pollination between the ML and the statistics communities.
翻訳日:2022-12-08 15:23:39 公開日:2022-12-07
# グループ化バイアスデータの分類改善のための構造活用

Leveraging Structure for Improved Classification of Grouped Biased Data ( http://arxiv.org/abs/2212.03697v1 )

ライセンス: Link先を確認
Daniel Zeiberg, Shantanu Jain, Predrag Radivojac(参考訳) 我々は、データポイントが自然にグループ化されたアプリケーション(例えば、州によってグループ化された調査応答)に対する半教師付きバイナリ分類とラベル付きデータのバイアス(例えば、調査回答者は人口を代表していない)について検討する。 グループは特徴空間に重複し、その結果、入力出力パターンはグループ全体で関連付けられる。 このようなデータの固有の構造をモデル化するために、グループに依存しない特徴空間で定義されるグループ間の分割射影クラス条件不変性を仮定する。 この仮定の下では、群に依存しない特徴に対してクラスに関する追加情報を持ち、ROC曲線の下では確実に改善された面積を持つことを示す。 さらに、ラベル付きデータとラベル付きデータの両方にわたる分割計画型クラス条件分布の不分散を仮定し、ラベル付きデータのバイアスにもかかわらず、構造を明示的に活用して最適なグループ対応確率共役分類器を学習する半教師付きアルゴリズムを導出する。 合成および実データを用いた実験は,本アルゴリズムが標準教師付きおよび半教師付き学習アプローチにまたがって,適切なベースラインとアブレーションモデルに対して有効であることを示す。

We consider semi-supervised binary classification for applications in which data points are naturally grouped (e.g., survey responses grouped by state) and the labeled data is biased (e.g., survey respondents are not representative of the population). The groups overlap in the feature space and consequently the input-output patterns are related across the groups. To model the inherent structure in such data, we assume the partition-projected class-conditional invariance across groups, defined in terms of the group-agnostic feature space. We demonstrate that under this assumption, the group carries additional information about the class, over the group-agnostic features, with provably improved area under the ROC curve. Further assuming invariance of partition-projected class-conditional distributions across both labeled and unlabeled data, we derive a semi-supervised algorithm that explicitly leverages the structure to learn an optimal, group-aware, probability-calibrated classifier, despite the bias in the labeled data. Experiments on synthetic and real data demonstrate the efficacy of our algorithm over suitable baselines and ablative models, spanning standard supervised and semi-supervised learning approaches, with and without incorporating the group directly as a feature.
翻訳日:2022-12-08 15:23:27 公開日:2022-12-07
# 最大$\ell_1$-margin分類器のタイト境界

Tight bounds for maximum $\ell_1$-margin classifiers ( http://arxiv.org/abs/2212.03783v1 )

ライセンス: Link先を確認
Stefan Stojanovic, Konstantin Donhauser and Fanny Yang(参考訳) 線形モデル上でのブースティング法や座標降下のような一般的な反復アルゴリズムは、データを線形分離可能な高次元状態において最大$\ell_1$-margin分類器、すなわちスパースハードマージンSVMに収束する。 以前の研究は、$\ell_1$-normに依存する多くの推定者が、厳密な基底真理に対する統計率を改善することを一貫して示している。 驚くべきことに、この適応性は標準判別設定の最大$\ell_1$-margin分類器には適用されない。 特に、ノイズのない設定では、一般的な基底真理に対して$\frac{\|\wgt\|_1^{2/3}}{n^{1/3}}$の順序に一致する予測誤差の上限を上下に厳密に示す。 画像を完成させるために、ノイズ観測を補間すると、誤差は$\frac{1}{\sqrt{\log(d/n)}}$で消滅する。 したがって、最初に、最大$\ell_1$-margin分類器に対する良性過剰性を示す。

Popular iterative algorithms such as boosting methods and coordinate descent on linear models converge to the maximum $\ell_1$-margin classifier, a.k.a. sparse hard-margin SVM, in high dimensional regimes where the data is linearly separable. Previous works consistently show that many estimators relying on the $\ell_1$-norm achieve improved statistical rates for hard sparse ground truths. We show that surprisingly, this adaptivity does not apply to the maximum $\ell_1$-margin classifier for a standard discriminative setting. In particular, for the noiseless setting, we prove tight upper and lower bounds for the prediction error that match existing rates of order $\frac{\|\wgt\|_1^{2/3}}{n^{1/3}}$ for general ground truths. To complete the picture, we show that when interpolating noisy observations, the error vanishes at a rate of order $\frac{1}{\sqrt{\log(d/n)}}$. We are therefore first to show benign overfitting for the maximum $\ell_1$-margin classifier.
翻訳日:2022-12-08 15:23:04 公開日:2022-12-07
# 確率的ライジングバンド

Stochastic Rising Bandits ( http://arxiv.org/abs/2212.03798v1 )

ライセンス: Link先を確認
Alberto Maria Metelli, Francesco Trov\`o, Matteo Pirola, Marcello Restelli(参考訳) 本稿では,確率的多腕バンディット (mabs) の分野において,選択されたオプション (arm) によるフィードバックのみを用いてオンライン学習が可能な逐次的選択手法について述べる。 腕の期待報酬が単調に減少しない、安静で安静な包帯の特定の事例について検討した。 この特徴は、支払いの規則性を利用して厳密な後悔の限界を与える特別に作られたアルゴリズムを設計することを可能にする。 残りのケース (R-ed-UCB) と、レスレスケース (R-less-UCB) のためのアルゴリズムを設計し、インスタンスの特性と、ある状況下では$\widetilde{\mathcal{O}}(T^{\frac{2}{3}})$に対して後悔の意を与える。 実世界データセットのオンラインモデル選択問題と,複数の合成タスクにおける非定常mabの最先端手法との比較を行った。 最後に, 合成および実世界のデータを用いて, 非定常バンディットに対する最先端アルゴリズムと比較し, 提案手法の有効性を示す。

This paper is in the field of stochastic Multi-Armed Bandits (MABs), i.e., those sequential selection techniques able to learn online using only the feedback given by the chosen option (a.k.a. arm). We study a particular case of the rested and restless bandits in which the arms' expected payoff is monotonically non-decreasing. This characteristic allows designing specifically crafted algorithms that exploit the regularity of the payoffs to provide tight regret bounds. We design an algorithm for the rested case (R-ed-UCB) and one for the restless case (R-less-UCB), providing a regret bound depending on the properties of the instance and, under certain circumstances, of $\widetilde{\mathcal{O}}(T^{\frac{2}{3}})$. We empirically compare our algorithms with state-of-the-art methods for non-stationary MABs over several synthetically generated tasks and an online model selection problem for a real-world dataset. Finally, using synthetic and real-world data, we illustrate the effectiveness of the proposed approaches compared with state-of-the-art algorithms for the non-stationary bandits.
翻訳日:2022-12-08 15:22:39 公開日:2022-12-07
# 最適プロセス識別のための教師なしスペクトル帯域特徴同定

Unsupervised spectral-band feature identification for optimal process discrimination ( http://arxiv.org/abs/2212.03800v1 )

ライセンス: Link先を確認
Akash Tiwari and Satish Bukkapatnam(参考訳) 実世界の動的過程の変化は、エネルギーの差$\textbf{E}(\underline{\alpha})$のスペクトルバンドの集合$\underline{\alpha}$の点でしばしば説明される。 a$ と $b$ の2つのクラスの連続スペクトル、あるいは一般には、2つの確率過程 $s^{(a)}(f)$ と $s^{(b)}(f)$, $f \in \mathbb{r}^+$ が与えられると、スペクトルバンド $\underline{\alpha} \subset \mathbb{r}^+$ と呼ばれる区間のサブセットを識別するユビキタスな問題に対処し、これらのバンドのエネルギー $\textbf{e}(\underline{\alpha})$ は2つのクラスを最適に判別することができる。 EGO-MDAは、2つのクラスからのスペクトルのサンプルに対して最適なスペクトルバンドを同定するための教師なし手法である。 EGO-MDA は、調整された多項対数類似度 (deviance) 基準を反復的に最小化する統計的アプローチを採用している。 ここで、MDA(Mixture Discriminant Analysis)は、2つのGMM分布パラメータ、すなわち$\mathcal{M}^* = \underset{\mathcal{M}}{\rm argmin}~\mathcal{D}(\underline{\alpha}, \mathcal{M})$からMLEを導出し、与えられたスペクトル表現に対して最適に2つのクラスを識別する分類器を同定することを目的としている。 効率的なグローバル最適化 (ego) は、与えられた gmm パラメータ $\mathcal{m}$ に対して、スペクトル帯域 $\underline{\alpha}^* = \underset{\underline{\alpha}}{\rm argmin}~\mathcal{d}(\underline{\alpha},\mathcal{m})$ を求める。 混合とモデル誤特定の分離率の低い病理例について,パラメータ$\mathcal{m}$の推定値に対するサンプルサイズと反復数の影響と,それゆえ分類器の性能について検討する。 合成データセットに関するケーススタディを提供する。 異常追跡のための最適スペクトルバンドリングの工学的応用として、EGO-MDAは、試験された他の方法と比較して、中央値の約70%の改善を達成した。

Changes in real-world dynamic processes are often described in terms of differences in energies $\textbf{E}(\underline{\alpha})$ of a set of spectral-bands $\underline{\alpha}$. Given continuous spectra of two classes $A$ and $B$, or in general, two stochastic processes $S^{(A)}(f)$ and $S^{(B)}(f)$, $f \in \mathbb{R}^+$, we address the ubiquitous problem of identifying a subset of intervals of $f$ called spectral-bands $\underline{\alpha} \subset \mathbb{R}^+$ such that the energies $\textbf{E}(\underline{\alpha})$ of these bands can optimally discriminate between the two classes. We introduce EGO-MDA, an unsupervised method to identify optimal spectral-bands $\underline{\alpha}^*$ for given samples of spectra from two classes. EGO-MDA employs a statistical approach that iteratively minimizes an adjusted multinomial log-likelihood (deviance) criterion $\mathcal{D}(\underline{\alpha},\mathcal{M})$. Here, Mixture Discriminant Analysis (MDA) aims to derive MLE of two GMM distribution parameters, i.e., $\mathcal{M}^* = \underset{\mathcal{M}}{\rm argmin}~\mathcal{D}(\underline{\alpha}, \mathcal{M})$ and identify a classifier that optimally discriminates between two classes for a given spectral representation. The Efficient Global Optimization (EGO) finds the spectral-bands $\underline{\alpha}^* = \underset{\underline{\alpha}}{\rm argmin}~\mathcal{D}(\underline{\alpha},\mathcal{M})$ for given GMM parameters $\mathcal{M}$. For pathological cases of low separation between mixtures and model misspecification, we discuss the effect of the sample size and the number of iterations on the estimates of parameters $\mathcal{M}$ and therefore the classifier performance. A case study on a synthetic data set is provided. In an engineering application of optimal spectral-banding for anomaly tracking, EGO-MDA achieved at least 70% improvement in the median deviance relative to other methods tested.
翻訳日:2022-12-08 15:22:18 公開日:2022-12-07
# 部分フェデレートgan(padpaf)による部分絡み合い

Partial Disentanglement with Partially-Federated GANs (PaDPaF) ( http://arxiv.org/abs/2212.03836v1 )

ライセンス: Link先を確認
Abdulla Jasem Almansoori, Samuel Horv\'ath, Martin Tak\'a\v{c}(参考訳) フェデレーション学習は、レコメンデーションシステム、IoT(Internet of Things)、ヘルスケア、自動運転車など、多くの潜在的な現実のアプリケーションで人気のある機械学習パラダイムとなっている。 現在のほとんどのアプリケーションは分類に基づくタスクに重点を置いているが、パーソナライズされた生成モデルの学習はほとんど探索されていない。 本稿では,グローバルクライアント非依存モデルとローカルクライアント固有生成モデルを組み合わせた新しいアーキテクチャを提案する。 フェデレーションモデルのトレーニングのための標準技術を用いて,提案モデルでは,クライアント依存のバリエーション(スタイル)からグローバルに一貫性のある表現(コンテンツ)を暗黙的に分離することにより,プライバシとパーソナライズを実現する。 このような分解により、パーソナライズされたモデルでは、クライアントの所定のスタイルを維持しながら、ローカルに見えないラベルを生成し、グローバルなコンテンツ特徴の単純な線形分類器をトレーニングすることで、すべてのクライアントのラベルを高精度に予測することができる。 さらに、コンテンツのみを共有することで、データ匿名化のような他の重要なアプリケーションを可能にする。 大規模な実験的評価は,我々の発見を裏付けるものであり,提案手法に対する部分的理論的正当性も提供する。

Federated learning has become a popular machine learning paradigm with many potential real-life applications, including recommendation systems, the Internet of Things (IoT), healthcare, and self-driving cars. Though most current applications focus on classification-based tasks, learning personalized generative models remains largely unexplored, and their benefits in the heterogeneous setting still need to be better understood. This work proposes a novel architecture combining global client-agnostic and local client-specific generative models. We show that using standard techniques for training federated models, our proposed model achieves privacy and personalization that is achieved by implicitly disentangling the globally-consistent representation (i.e. content) from the client-dependent variations (i.e. style). Using such decomposition, personalized models can generate locally unseen labels while preserving the given style of the client and can predict the labels for all clients with high accuracy by training a simple linear classifier on the global content features. Furthermore, disentanglement enables other essential applications, such as data anonymization, by sharing only content. Extensive experimental evaluation corroborates our findings, and we also provide partial theoretical justifications for the proposed approach.
翻訳日:2022-12-08 15:20:36 公開日:2022-12-07
# 人間互換自動車を目指して:感情遷移モデルを用いた自動走行における非言語チューリングテストの検討

Towards human-compatible autonomous car: A study of non-verbal Turing test in automated driving with affective transition modelling ( http://arxiv.org/abs/2212.02908v2 )

ライセンス: Link先を確認
Zhaoning Li, Qiaoli Jiang, Zhengming Wu, Anqi Liu, Haiyan Wu, Miner Huang, Kai Huang, and Yixuan Ku(参考訳) 人間がハンズフリーの道を進むとき、自動運転車は不可欠だ。 既存の文献では、人間のように運転すれば自動運転車の受容が増加すると強調されているが、スパースリサーチは、現在の自動運転車の人間的類似性を調べるために乗客の席の観点から自然主義的な経験を提供する。 本研究は、69人の参加者のフィードバックに基づいて、AIドライバーが乗客のための人間ライクな乗車体験を作成できるかどうかを実路シナリオで検証した。 我々は、自動走行のためのノンバーバルチューリングテストの乗車体験ベースのバージョンを設計した。 参加者は、人間かAIドライバーが運転する自動運転車に乗って乗客となり、ドライバーが人間なのかAIなのかを判断した。 aiドライバーは、乗客が偶然にaiドライバーを検知したため、テストに合格できなかった。 対照的に、人間の運転者が車を運転したとき、乗客の判断は偶然だった。 実験では、人間の乗客が人間性をいかに受け入れるかについても検討した。 レーウィンのフィールド理論に基づいて,信号検出理論と事前学習言語モデルを組み合わせて,乗客の人間性評価行動を予測する計算モデルを開発した。 実験前のベースライン感情とそれに対応するポストステージ感情との情緒的遷移をモデルの信号強度として用いた。 その結果、乗客の人間性の記述は、より感情的な移行によって増加することが判明した。 本研究は、自律運転の今後の方向性となる乗客の人間性記述における情緒変化の重要な役割を示唆する。

Autonomous cars are indispensable when humans go further down the hands-free route. Although existing literature highlights that the acceptance of the autonomous car will increase if it drives in a human-like manner, sparse research offers the naturalistic experience from a passenger's seat perspective to examine the human likeness of current autonomous cars. The present study tested whether the AI driver could create a human-like ride experience for passengers based on 69 participants' feedback in a real-road scenario. We designed a ride experience-based version of the non-verbal Turing test for automated driving. Participants rode in autonomous cars (driven by either human or AI drivers) as a passenger and judged whether the driver was human or AI. The AI driver failed to pass our test because passengers detected the AI driver above chance. In contrast, when the human driver drove the car, the passengers' judgement was around chance. We further investigated how human passengers ascribe humanness in our test. Based on Lewin's field theory, we advanced a computational model combining signal detection theory with pre-trained language models to predict passengers' humanness rating behaviour. We employed affective transition between pre-study baseline emotions and corresponding post-stage emotions as the signal strength of our model. Results showed that the passengers' ascription of humanness would increase with the greater affective transition. Our study suggested an important role of affective transition in passengers' ascription of humanness, which might become a future direction for autonomous driving.
翻訳日:2022-12-08 15:14:47 公開日:2022-12-07
# Tacotron2, WaveGlow, Transfer Learning を用いた低リソースエンド・ツー・エンドサンスクリットTS

Low-Resource End-to-end Sanskrit TTS using Tacotron2, WaveGlow and Transfer Learning ( http://arxiv.org/abs/2212.03558v1 )

ライセンス: Link先を確認
Ankur Debnath, Shridevi S Patil, Gangotri Nadiger, Ramakrishnan Angarai Ganesan(参考訳) エンドツーエンドの音声合成システム(TTS: End-to-end text-to-speech)は、英語やスペイン語などのヨーロッパの言語向けに、最先端の音声品質、韻律、自然さで開発された。 しかし、インドの言語用エンドツーエンドTSの開発は品質面で遅れを取っている。 そのようなタスクに関わる課題は次のとおりです。 1) 品質訓練データの不足 2 訓練及び推論における効率の低下 3) 大きな語彙サイズの場合の収束が遅い。 本稿では,サンスクリットにおける自然音声音声を低資源環境下で合成するために,制限されたサンスクリットデータを用いた英語事前学習型タコトロン2モデルの微調整を行った。 実験の結果,サンスクリット語話者37名を対象に,総合的なMOS3.38を達成できた。 使用した音声データが2.5時間しか持たないという事実を考えると、これは本当に良い結果です。

End-to-end text-to-speech (TTS) systems have been developed for European languages like English and Spanish with state-of-the-art speech quality, prosody, and naturalness. However, development of end-to-end TTS for Indian languages is lagging behind in terms of quality. The challenges involved in such a task are: 1) scarcity of quality training data; 2) low efficiency during training and inference; 3) slow convergence in the case of large vocabulary size. In our work reported in this paper, we have investigated the use of fine-tuning the English-pretrained Tacotron2 model with limited Sanskrit data to synthesize natural sounding speech in Sanskrit in low resource settings. Our experiments show encouraging results, achieving an overall MOS of 3.38 from 37 evaluators with good Sanskrit spoken knowledge. This is really a very good result, considering the fact that the speech data we have used is of duration 2.5 hours only.
翻訳日:2022-12-08 15:14:27 公開日:2022-12-07
# 確率的エネルギー予測のための拡散確率モデル

Denoising diffusion probabilistic models for probabilistic energy forecasting ( http://arxiv.org/abs/2212.02977v2 )

ライセンス: Link先を確認
Esteban Hernandez Capel, Jonathan Dumas(参考訳) シナリオに基づく確率的予測は、再生可能エネルギーの不安定な性質に対処する意思決定者のための重要なツールとなっている。 そこで本稿では,近年のディープラーニング生成手法であるdenoising diffusion probabilistic modelsを提案する。 これは、最近コンピュータビジョンコミュニティで印象的な結果を実証した潜伏変数モデルのクラスである。 しかしながら、私たちの知る限りでは、電力システムアプリケーションにおける新しい課題に直面する上で重要な要素である、負荷、PV、風力の時系列の高品質なサンプルを生成できることの実証はまだありません。 そこで本研究では,グローバルエネルギー予測コンペティション2014のオープンデータを用いたエネルギー予測モデルの最初の実装を提案する。 このアプローチは、生成的逆ネットワーク、変分オートエンコーダ、正規化フローなど、最先端のディープラーニング生成モデルと競合することが示されている。

Scenario-based probabilistic forecasts have become a vital tool to equip decision-makers to address the uncertain nature of renewable energies. To that end, this paper presents a recent promising deep learning generative approach called denoising diffusion probabilistic models. It is a class of latent variable models which have recently demonstrated impressive results in the computer vision community. However, to the best of our knowledge, there has yet to be a demonstration that they can generate high-quality samples of load, PV, or wind power time series, crucial elements to face the new challenges in power systems applications. Thus, we propose the first implementation of this model for energy forecasting using the open data of the Global Energy Forecasting Competition 2014. The results demonstrate this approach is competitive with other state-of-the-art deep learning generative models, including generative adversarial networks, variational autoencoders, and normalizing flows.
翻訳日:2022-12-08 15:14:11 公開日:2022-12-07
# 制限ボルツマン機械の隠れ層からの状態遷移規則の学習

Learning State Transition Rules from Hidden Layers of Restricted Boltzmann Machines ( http://arxiv.org/abs/2212.03374v1 )

ライセンス: Link先を確認
Koji Watanabe, Katsumi Inoue(参考訳) システムのダイナミクスを理解することは、多くの科学的および工学的領域において重要である。 この問題は、機械学習技術を用いた観測から状態遷移規則を学習することで解決できる。 このような時系列データは、しばしばノイズとあいまいさを持つ多くの連続変数のシーケンスから構成されるが、いくつかの必須変数でモデル化できるダイナミクスの規則が必要である。 本研究では,高次元時系列データから少数の必須隠れ変数を抽出し,これらの隠れ変数間の状態遷移規則を学習する手法を提案する。 提案手法は,可視層における可観測データと隠蔽層における潜時特徴を取り扱うリミテッド・ボルツマン・マシン(RBM)に基づく。 しかし、ビデオやオーディオのような現実世界のデータには離散変数と連続変数の両方が含まれており、これらの変数は時間的関係を持つ。 そこで我々は,連続可視変数を扱うためにガウス-ベルノウルリ制限ボルツマンマシン(GB-RBM)と離散隠れ変数間の時間依存性を捉えるために,ガウス-ベルノウルリ制限ボルツマンマシン(RTGB-RBM)を提案する。 また,隠れ変数として必須情報を抽出し,解釈可能な状態遷移規則を表現するルールベース手法を提案する。 提案手法を評価するために,バウンシングボールと移動MNISTデータセットの実験を行った。 実験の結果,隠れ変数間の状態遷移規則として物理系のダイナミクスを学習でき,観測された状態遷移から観測されない将来の状態を予測できることがわかった。

Understanding the dynamics of a system is important in many scientific and engineering domains. This problem can be approached by learning state transition rules from observations using machine learning techniques. Such observed time-series data often consist of sequences of many continuous variables with noise and ambiguity, but we often need rules of dynamics that can be modeled with a few essential variables. In this work, we propose a method for extracting a small number of essential hidden variables from high-dimensional time-series data and for learning state transition rules between these hidden variables. The proposed method is based on the Restricted Boltzmann Machine (RBM), which treats observable data in the visible layer and latent features in the hidden layer. However, real-world data, such as video and audio, include both discrete and continuous variables, and these variables have temporal relationships. Therefore, we propose Recurrent Temporal GaussianBernoulli Restricted Boltzmann Machine (RTGB-RBM), which combines Gaussian-Bernoulli Restricted Boltzmann Machine (GB-RBM) to handle continuous visible variables, and Recurrent Temporal Restricted Boltzmann Machine (RT-RBM) to capture time dependence between discrete hidden variables. We also propose a rule-based method that extracts essential information as hidden variables and represents state transition rules in interpretable form. We conduct experiments on Bouncing Ball and Moving MNIST datasets to evaluate our proposed method. Experimental results show that our method can learn the dynamics of those physical systems as state transition rules between hidden variables and can predict unobserved future states from observed state transitions.
翻訳日:2022-12-08 15:12:40 公開日:2022-12-07
# 解釈可能な逐次データモデリングのための原型部品の選択学習

Learning to Select Prototypical Parts for Interpretable Sequential Data Modeling ( http://arxiv.org/abs/2212.03396v1 )

ライセンス: Link先を確認
Yifei Zhang, Neng Gao, Cunqing Ma(参考訳) プロトタイプベースの解釈可能性手法は、類似性の観点から記憶された例や典型的な代表者の参照集合と比較することにより、モデル予測の直感的な説明を提供する。 逐次データモデリングの分野では、プロトタイプの類似度計算は通常符号化表現ベクトルに基づいている。 しかし、非常に再帰的な関数のため、通常プロトタイプベースの説明と元の入力の間には無視できない相違がある。 本研究では,原型概念の線形結合を用いた自己説明選択モデル(SESM)を提案する。 このモデルは、入力のサブシーケンスを選択することでケースベース推論の考え方を採用しており、それは主に異なる概念を原型的な部分として活性化し、ユーザが異なる例入力から選択したサブシーケンスと比較してモデル決定を理解することができる。 より良い解釈可能性を得るために,多様性,安定性,局所性といった制約をトレーニング対象として設計する。 異なる領域における大規模な実験により,提案手法は有望な解釈可能性と競争精度を示すことが示された。

Prototype-based interpretability methods provide intuitive explanations of model prediction by comparing samples to a reference set of memorized exemplars or typical representatives in terms of similarity. In the field of sequential data modeling, similarity calculations of prototypes are usually based on encoded representation vectors. However, due to highly recursive functions, there is usually a non-negligible disparity between the prototype-based explanations and the original input. In this work, we propose a Self-Explaining Selective Model (SESM) that uses a linear combination of prototypical concepts to explain its own predictions. The model employs the idea of case-based reasoning by selecting sub-sequences of the input that mostly activate different concepts as prototypical parts, which users can compare to sub-sequences selected from different example inputs to understand model decisions. For better interpretability, we design multiple constraints including diversity, stability, and locality as training objectives. Extensive experiments in different domains demonstrate that our method exhibits promising interpretability and competitive accuracy.
翻訳日:2022-12-08 15:12:01 公開日:2022-12-07
# Tree DNN - ディープコンテナネットワーク

Tree DNN: A Deep Container Network ( http://arxiv.org/abs/2212.03474v1 )

ライセンス: Link先を確認
Brijraj Singh, Swati Gupta, Mayukh Das, Praveen Doreswamy Naidu, Sharan Kumar Allur(参考訳) マルチタスク学習(mtl)は、迅速なトレーニング、データ効率、過剰フィッティングの低減など、ユーザ製品において重要性を示している。 mtlは、ネットワークパラメータを共有し、複数のタスクを同時にネットワークにトレーニングすることで実現します。 しかし、各タスクが異なるデータセットからトレーニングが必要な場合、MTLはソリューションを提供しない。 上記の問題を解決するため,我々はtreednnというアーキテクチャを提案し,そのトレーニング手法を提案する。 TreeDNNはモデルを複数のデータセットで同時にトレーニングするのに役立つ。 パラメータ記憶におけるROM要求の低減と,推論時にのみ特定の分岐をロードすることでシステムの応答性を向上させることで,TreeDNNが競合性能を提供することを示した。

Multi-Task Learning (MTL) has shown its importance at user products for fast training, data efficiency, reduced overfitting etc. MTL achieves it by sharing the network parameters and training a network for multiple tasks simultaneously. However, MTL does not provide the solution, if each task needs training from a different dataset. In order to solve the stated problem, we have proposed an architecture named TreeDNN along with it's training methodology. TreeDNN helps in training the model with multiple datasets simultaneously, where each branch of the tree may need a different training dataset. We have shown in the results that TreeDNN provides competitive performance with the advantage of reduced ROM requirement for parameter storage and increased responsiveness of the system by loading only specific branch at inference time.
翻訳日:2022-12-08 15:11:45 公開日:2022-12-07
# deepspeed data efficiency: 効率的なデータサンプリングとルーティングによるディープラーニングモデルの品質とトレーニング効率の向上

DeepSpeed Data Efficiency: Improving Deep Learning Model Quality and Training Efficiency via Efficient Data Sampling and Routing ( http://arxiv.org/abs/2212.03597v1 )

ライセンス: Link先を確認
Conglong Li, Zhewei Yao, Xiaoxia Wu, Minjia Zhang, Yuxiong He(参考訳) ディープラーニングモデルの最近の進歩は、厳しいトレーニングコストを犠牲にしている。 モデルサイズの増加が根本原因の1つだが、もう1つの強調されていない事実は、データスケールが実際にモデルスケールと同じ速度で増加しており、トレーニングコストが両者に比例していることである。 急速に進化するモデルアーキテクチャと比較して、トレーニングデータ(特に高価な基礎モデル)を効率的に利用する方法は、データ効率能力に重点を置く便利なフレームワークが欠如しているため、調査が小さく、実現が困難である。 この目的のために,より優れたデータ利用,トレーニング効率の向上,モデル品質向上のためのフレームワークであるDeepSpeed Data Efficiencyライブラリを提案する。 具体的には、カリキュラム学習による効率的なデータサンプリングと、ランダムなレイヤワイドトークンドロップによる効率的なデータルーティングを提供する。 deepspeed data efficiencyは拡張性、柔軟性、構成性を考慮しており、ユーザーはフレームワークを簡単に利用して複数のテクニックを組み立て、カスタマイズされた戦略を適用することができる。 GPT-3 1.3B と BERT-Large 言語モデル事前学習にソリューションを適用することで、データ量と時間量で最大2倍の時間と2倍の時間で類似したモデル品質を実現することができる。

Recent advances on deep learning models come at the price of formidable training cost. The increasing model size is one of the root cause, but another less-emphasized fact is that data scale is actually increasing at a similar speed as model scale, and the training cost is proportional to both of them. Compared to the rapidly evolving model architecture, how to efficiently use the training data (especially for the expensive foundation model pertaining) is both less explored and difficult to realize due to the lack of a convenient framework that focus on data efficiency capabilities. To this end, we present DeepSpeed Data Efficiency library, a framework that makes better use of data, increases training efficiency, and improves model quality. Specifically, it provides efficient data sampling via curriculum learning, and efficient data routing via random layerwise token dropping. DeepSpeed Data Efficiency takes extensibility, flexibility and composability into consideration, so that users can easily utilize the framework to compose multiple techniques and apply customized strategies. By applying our solution to GPT-3 1.3B and BERT-Large language model pretraining, we can achieve similar model quality with up to 2x less data and 2x less time, or achieve better model quality under similar amount of data and time.
翻訳日:2022-12-08 15:11:35 公開日:2022-12-07
# JamPatoisNLI:ジャマイカのパトワの自然言語推論データセット

JamPatoisNLI: A Jamaican Patois Natural Language Inference Dataset ( http://arxiv.org/abs/2212.03419v1 )

ライセンス: Link先を確認
Ruth-Ann Armstrong, John Hewitt and Christopher Manning(参考訳) jampatoisnliはクレオール語で自然言語推論のための最初のデータセットであるジャマイカ語パトワを提供する。 語源の少ない言語の多くはクレオール語である。 これらの言語は、一般的に主要な世界言語から派生した語彙と、原語話者の言語とクレオール化による言語誕生の過程を反映した独特の文法を持っている。 これにより、大きな単言語または多言語事前学習モデルからの移動の有効性を探求する際、彼ら特有の場所となる。 我々の研究は、以前の研究とともに、これらのモデルからトレーニングセットの言語とは無関係な低リソース言語への移行は、あまり効果がないことを示しているが、クレオールへの移行によるより強力な結果が期待できる。 実際、我々の実験は、これらの非関連言語よりもJamPatoisNLIの少数ショット学習によるかなり良い結果を示し、クレオールと高リソースベース言語のユニークな関係が言語間移動にどのように影響するかを理解するのに役立ちます。 JamPatoisNLIは自然に生成された前提と専門家による仮説で構成され、伝統的に保存されていない言語の研究と言語間NLPを理解するための有用なベンチマークへのステップである。

JamPatoisNLI provides the first dataset for natural language inference in a creole language, Jamaican Patois. Many of the most-spoken low-resource languages are creoles. These languages commonly have a lexicon derived from a major world language and a distinctive grammar reflecting the languages of the original speakers and the process of language birth by creolization. This gives them a distinctive place in exploring the effectiveness of transfer from large monolingual or multilingual pretrained models. While our work, along with previous work, shows that transfer from these models to low-resource languages that are unrelated to languages in their training set is not very effective, we would expect stronger results from transfer to creoles. Indeed, our experiments show considerably better results from few-shot learning of JamPatoisNLI than for such unrelated languages, and help us begin to understand how the unique relationship between creoles and their high-resource base languages affect cross-lingual transfer. JamPatoisNLI, which consists of naturally-occurring premises and expert-written hypotheses, is a step towards steering research into a traditionally underserved language and a useful benchmark for understanding cross-lingual NLP.
翻訳日:2022-12-08 15:05:37 公開日:2022-12-07
# 大規模言語モデルについて

Talking About Large Language Models ( http://arxiv.org/abs/2212.03551v1 )

ライセンス: Link先を確認
Murray Shanahan(参考訳) 人工知能の急速な進歩により、私たちはテクノロジーと哲学が興味深い方法で交わる時代に入った。 この交差点の中心に直立する位置は、大きな言語モデル(LLM)である。 LLMが人間の言語を模倣するほど、人類同型化の脆弱さは増していき、それらが実際により人間らしく埋め込まれたシステムを見るようになる。 この傾向は、これらのシステムを記述する際に「知識」や「信念」や「思考」といった哲学的に読み込まれた用語を使う自然な傾向によって増幅される。 この傾向を緩和するため,本論文では,LLMの仕組みや,それらが実際に機能するシステムについて,繰り返し遡るプラクティスを提唱する。 科学的精度の向上は、人工知能に関する議論において、分野内と公共の領域の両方において、より哲学的なニュアンスを促進することを期待している。

Thanks to rapid progress in artificial intelligence, we have entered an era when technology and philosophy intersect in interesting ways. Sitting squarely at the centre of this intersection are large language models (LLMs). The more adept LLMs become at mimicking human language, the more vulnerable we become to anthropomorphism, to seeing the systems in which they are embedded as more human-like than they really are. This trend is amplified by the natural tendency to use philosophically loaded terms, such as "knows", "believes", and "thinks", when describing these systems. To mitigate this trend, this paper advocates the practice of repeatedly stepping back to remind ourselves of how LLMs, and the systems of which they form a part, actually work. The hope is that increased scientific precision will encourage more philosophical nuance in the discourse around artificial intelligence, both within the field and in the public sphere.
翻訳日:2022-12-08 15:05:15 公開日:2022-12-07
# 時空間2.5D点としての物体

Objects as Spatio-Temporal 2.5D points ( http://arxiv.org/abs/2212.02755v2 )

ライセンス: Link先を確認
Paridhi Singh, Gaurav Singh and Arun Kumar(参考訳) 映像中の物体やトラックの正確な鳥の視線(BEV)位置を決定することは、物体の相互作用マッピングやシナリオ抽出など様々な知覚タスクに不可欠であるが、それを達成するために必要な監督レベルは、調達が極めて困難である。 ネットワークの単一フィードフォワードパスにおける2次元物体検出とシーンの深度予測を共同で学習することにより,物体の3次元位置を推定する軽量で弱い教師付き手法を提案する。 提案手法は,中心点に基づく単発物体検出装置を拡張し,各オブジェクトを時空間的にBEVポイントとしてモデル化し,クエリ時に3DやBEVアノテーションやLiDARデータを必要としない新しいオブジェクト表現を提案する。 このアプローチでは、簡単に利用可能な2Dオブジェクトの監視とLiDARポイントクラウド(トレーニング時にのみ使用される)を活用して、単一のネットワークを共同でトレーニングすることで、シーン全体の深さとともに2Dオブジェクトの検出を予測し、BEVのポイントとして時空間的にオブジェクトトラックをモデル化する。 提案手法は,最近の sota 手法と比較して計算量的に 10 万ドル以上効率がよいが,kitti 追跡ベンチマークでは同等の精度が得られる。

Determining accurate bird's eye view (BEV) positions of objects and tracks in a scene is vital for various perception tasks including object interactions mapping, scenario extraction etc., however, the level of supervision required to accomplish that is extremely challenging to procure. We propose a light-weight, weakly supervised method to estimate 3D position of objects by jointly learning to regress the 2D object detections and scene's depth prediction in a single feed-forward pass of a network. Our proposed method extends a center-point based single-shot object detector, and introduces a novel object representation where each object is modeled as a BEV point spatio-temporally, without the need of any 3D or BEV annotations for training and LiDAR data at query time. The approach leverages readily available 2D object supervision along with LiDAR point clouds (used only during training) to jointly train a single network, that learns to predict 2D object detection alongside the whole scene's depth, to spatio-temporally model object tracks as points in BEV. The proposed method is computationally over $\sim$10x efficient compared to recent SOTA approaches while achieving comparable accuracies on KITTI tracking benchmark.
翻訳日:2022-12-08 15:05:00 公開日:2022-12-07
# 幾何空間アグリゲータによる連続深度表現の学習

Learning Continuous Depth Representation via Geometric Spatial Aggregator ( http://arxiv.org/abs/2212.03499v1 )

ライセンス: Link先を確認
Xiaohang Wang, Xuanhong Chen, Bingbing Ni, Zhengyan Tong, Hang Wang(参考訳) 深度マップ超解像(DSR)は3次元コンピュータビジョンの基本的な課題である。 任意のスケールDSRは、このシナリオではより現実的な設定であるが、従来のアプローチは主に非効率な実数スケールアップサンプリングの問題に悩まされている。 そこで本研究では,DSRのための新しい連続深度表現法を提案する。 この表現の中心は我々の提案した幾何学的空間アグリゲータ (GSA) であり、これは任意にアップサンプリングされたターゲットグリッドにより変調された距離場を利用して、幾何学的情報を特徴集約とターゲット生成に明示的に導入する。 さらに,gsrを用いたブリック化により,局所座標と高分解能出力結果との関数マッピングを原理的に構築する手法を持つgeodsrというトランスフォーマチックバックボーンを提案する。 標準深度マップベンチマーク(nyu v2 など)の広範な実験結果から,提案手法が任意のスケール深度マップのスーパーレゾリューションにおいて,先行技術と比較して相当な回復率を達成できることが示されている。 私たちのコードはhttps://github.com/nana01219/geodsrで利用可能です。

Depth map super-resolution (DSR) has been a fundamental task for 3D computer vision. While arbitrary scale DSR is a more realistic setting in this scenario, previous approaches predominantly suffer from the issue of inefficient real-numbered scale upsampling. To explicitly address this issue, we propose a novel continuous depth representation for DSR. The heart of this representation is our proposed Geometric Spatial Aggregator (GSA), which exploits a distance field modulated by arbitrarily upsampled target gridding, through which the geometric information is explicitly introduced into feature aggregation and target generation. Furthermore, bricking with GSA, we present a transformer-style backbone named GeoDSR, which possesses a principled way to construct the functional mapping between local coordinates and the high-resolution output results, empowering our model with the advantage of arbitrary shape transformation ready to help diverse zooming demand. Extensive experimental results on standard depth map benchmarks, e.g., NYU v2, have demonstrated that the proposed framework achieves significant restoration gain in arbitrary scale depth map super-resolution compared with the prior art. Our codes are available at https://github.com/nana01219/GeoDSR.
翻訳日:2022-12-08 15:04:40 公開日:2022-12-07
# LWSIS:LiDAR誘導の弱めに監視された自動運転用インスタンスセグメンテーション

LWSIS: LiDAR-guided Weakly Supervised Instance Segmentation for Autonomous Driving ( http://arxiv.org/abs/2212.03504v1 )

ライセンス: Link先を確認
Xiang Li, Junbo Yin, Botian Shi, Yikang Li, Ruigang Yang, Jianbin Shen(参考訳) イメージインスタンスのセグメンテーションは自動運転の基本的な研究テーマであり、シーン理解と道路安全に不可欠である。 高度な学習ベースのアプローチは、トレーニングに高価な2Dマスクアノテーションに依存することが多い。 本稿では,市販の3dデータ,すなわち3dボックスと共にポイントクラウドを活用し,2dイメージインスタンスセグメンテーションモデルをトレーニングするための自然な弱い監督手法として,lidar誘導型弱教師付きインスタンスセグメンテーション(lwsis)という,より芸術的なフレームワークを提案する。 lwsisはトレーニング中のマルチモーダルデータの補完情報を利用するだけでなく,密集した2dマスクのアノテーションコストを大幅に削減する。 LWSISは2つの重要なモジュール、Point Label Assignment (PLA) と Graph-based Consistency Regularization (GCR) で構成されている。 前者のモジュールは3Dポイントクラウドを2Dポイントワイズラベルとして自動的に割り当てることを目的としており、後者は幾何とマルチモーダルデータの外観整合性を強制することによって予測をさらに洗練する。 さらに, nuInsSeg と呼ばれる nuScenes 上で二次インスタンスセグメンテーションアノテーションを実施し, マルチモーダル認識タスクのさらなる研究を奨励する。 nuInsSegの大規模な実験は、大規模なWaymoと同様に、LWSISがトレーニング中に3Dデータのみを含むことによって、既存の弱教師付きセグメンテーションモデルを大幅に改善できることを示している。 さらに、lwsisをpointpaintingのような3dオブジェクト検出器に組み込むことで、3d検出性能を無償で向上することができる。 コードとデータセットはhttps://github.com/serenos/lwsisで入手できる。

Image instance segmentation is a fundamental research topic in autonomous driving, which is crucial for scene understanding and road safety. Advanced learning-based approaches often rely on the costly 2D mask annotations for training. In this paper, we present a more artful framework, LiDAR-guided Weakly Supervised Instance Segmentation (LWSIS), which leverages the off-the-shelf 3D data, i.e., Point Cloud, together with the 3D boxes, as natural weak supervisions for training the 2D image instance segmentation models. Our LWSIS not only exploits the complementary information in multimodal data during training, but also significantly reduces the annotation cost of the dense 2D masks. In detail, LWSIS consists of two crucial modules, Point Label Assignment (PLA) and Graph-based Consistency Regularization (GCR). The former module aims to automatically assign the 3D point cloud as 2D point-wise labels, while the latter further refines the predictions by enforcing geometry and appearance consistency of the multimodal data. Moreover, we conduct a secondary instance segmentation annotation on the nuScenes, named nuInsSeg, to encourage further research on multimodal perception tasks. Extensive experiments on the nuInsSeg, as well as the large-scale Waymo, show that LWSIS can substantially improve existing weakly supervised segmentation models by only involving 3D data during training. Additionally, LWSIS can also be incorporated into 3D object detectors like PointPainting to boost the 3D detection performance for free. The code and dataset are available at https://github.com/Serenos/LWSIS.
翻訳日:2022-12-08 15:04:20 公開日:2022-12-07
# 信頼性分布損失ネットワークの効率的な変化推定法

Efficient Stein Variational Inference for Reliable Distribution-lossless Network Pruning ( http://arxiv.org/abs/2212.03537v1 )

ライセンス: Link先を確認
Yingchun Wang, Song Guo, Jingcai Guo, Weizhan Zhang, Yida Xu, Jie Zhang, Yi Liu(参考訳) ネットワークプルーニングは、軽量だが正確なモデルを生成し、リソース制限のあるエッジデバイスへのデプロイを可能にする、有望な方法である。 しかし、現在の最先端技術では、与えられたネットワーク内の有効なサブネットワークと他の超流動パラメータが同じ分布を共有していると仮定している。 通常はゼロに近い値を排除する。 単純ではあるが、効果的なモデルは自然にそれに関連する多くの小さな値を持つので、最も適切な方法ではないかもしれない。 既にモデル空間に埋め込まれているニアゼロ値の除去は、モデルの精度を著しく低下させる可能性がある。 別の研究の行は、人間による先行仮説に依存しているすべての可能なサブ構造に対して、個別の事前を割り当てることを提案した。 さらに悪いことに、既存の手法では正規化された点推定、すなわちハードプルーニングを使用しており、プルーニングされたネットワークのエラー推定や信頼性の正当性は提供できない。 本稿では,ベイズ処理における緑化抽選を理論的に見つけるために,DLLPという新しい分布ロスレスプルーニング法を提案する。 具体的には、DLLPはバニラネットワークを、潜在プルーンドモデルと他の冗長性のための離散的な先行としてモデル化する。 さらに重要なことは、DLLPはStein Variational Inferenceを使用して、潜伏した事前にアプローチし、未知の分布を持つKLの発散を計算するのを効果的にバイパスする。 小型Cifar-10と大規模ImageNetを併用した大規模実験により,本手法は解析性能の高いスペーサーネットワークを実現できることを示した。

Network pruning is a promising way to generate light but accurate models and enable their deployment on resource-limited edge devices. However, the current state-of-the-art assumes that the effective sub-network and the other superfluous parameters in the given network share the same distribution, where pruning inevitably involves a distribution truncation operation. They usually eliminate values near zero. While simple, it may not be the most appropriate method, as effective models may naturally have many small values associated with them. Removing near-zero values already embedded in model space may significantly reduce model accuracy. Another line of work has proposed to assign discrete prior over all possible sub-structures that still rely on human-crafted prior hypotheses. Worse still, existing methods use regularized point estimates, namely Hard Pruning, that can not provide error estimations and fail reliability justification for the pruned networks. In this paper, we propose a novel distribution-lossless pruning method, named DLLP, to theoretically find the pruned lottery within Bayesian treatment. Specifically, DLLP remodels the vanilla networks as discrete priors for the latent pruned model and the other redundancy. More importantly, DLLP uses Stein Variational Inference to approach the latent prior and effectively bypasses calculating KL divergence with unknown distribution. Extensive experiments based on small Cifar-10 and large-scaled ImageNet demonstrate that our method can obtain sparser networks with great generalization performance while providing quantified reliability for the pruned model.
翻訳日:2022-12-08 15:03:49 公開日:2022-12-07
# 顔領域変位軌跡系列に基づく顔偽造検出

Face Forgery Detection Based on Facial Region Displacement Trajectory Series ( http://arxiv.org/abs/2212.03678v1 )

ライセンス: Link先を確認
YuYang Sun, ZhiYong Zhang, Isao Echizen, Huy H.Nguyen, ChangZhen Qiu and Lu Sun(参考訳) deepfakes oneのようなディープラーニングベースの技術は、社会とアカデミア、特に鍛造顔画像の合成に使われるものの両方で広く注目を集めている。 これらの自動およびプロのスキルフリーな顔操作技術は、表情とデメネータを維持しながら、元の画像またはビデオの顔を任意のターゲットオブジェクトに置き換えることができる。 人間の顔はアイデンティティの特徴と密接に関連しているため、悪質に拡散されたアイデンティティ操作されたビデオは、メディアに対する公衆の信頼の危機を招き、深刻な政治的、社会的、法的影響をもたらす可能性がある。 操作された映像を効果的に検出するために,顔ブレンディングプロセスにおける位置オフセットに着目し,正規化顔の強制アフィン変換を行った。 本稿では,顔領域変位の軌跡に基づく操作映像の検出手法を提案する。 具体的には,変位情報をロバストに表現できる仮想アンカーを用いた顔の軌跡抽出手法を開発した。 この情報は、二重ストリーム空間-時間グラフの注意とゲートリカレント単位バックボーンに基づく操作ビデオの軌跡列において、多次元アーティファクトを露出するネットワークを構築するために用いられた。 本手法を様々な操作データセットで検証したところ,その精度と一般化能力は先行検出法と競合することがわかった。

Deep-learning-based technologies such as deepfakes ones have been attracting widespread attention in both society and academia, particularly ones used to synthesize forged face images. These automatic and professional-skill-free face manipulation technologies can be used to replace the face in an original image or video with any target object while maintaining the expression and demeanor. Since human faces are closely related to identity characteristics, maliciously disseminated identity manipulated videos could trigger a crisis of public trust in the media and could even have serious political, social, and legal implications. To effectively detect manipulated videos, we focus on the position offset in the face blending process, resulting from the forced affine transformation of the normalized forged face. We introduce a method for detecting manipulated videos that is based on the trajectory of the facial region displacement. Specifically, we develop a virtual-anchor-based method for extracting the facial trajectory, which can robustly represent displacement information. This information was used to construct a network for exposing multidimensional artifacts in the trajectory sequences of manipulated videos that is based on dual-stream spatial-temporal graph attention and a gated recurrent unit backbone. Testing of our method on various manipulation datasets demonstrated that its accuracy and generalization ability is competitive with that of the leading detection methods.
翻訳日:2022-12-08 15:02:53 公開日:2022-12-07
# 教師なし言語モデルにおける潜在知識の発見

Discovering Latent Knowledge in Language Models Without Supervision ( http://arxiv.org/abs/2212.03827v1 )

ライセンス: Link先を確認
Collin Burns, Haotian Ye, Dan Klein, Jacob Steinhardt(参考訳) 言語モデルのトレーニングのための既存のテクニックは、真実とミスアライメントすることができる: 模倣学習でモデルをトレーニングすれば、人間が犯すエラーを再現する可能性がある。 本稿では,言語モデルの内部アクティベーション内で,純粋に教師なしの方法で潜在知識を直接発見することで,この問題を回避することを提案する。 具体的には,ラベルのないモデルアクティベーションのみに与えられるイエスノー質問に正確に答える手法を提案する。 これは、文とその否定が真理値と反対であるような論理的整合性を満たす活性化空間の方向を見つけることで機能する。 教師なし, モデル出力がないにもかかわらず, 提案手法は, 大規模言語モデルで表現される多様な知識を, 6つのモデルと10の質問応答データセットで回収し, ゼロショット精度を平均4倍に向上させることを示した。 また、モデルが誤った回答を生成するように促された場合でも、迅速な感度を半分に減らし、高い精度を維持し続けることもわかりました。 私たちの結果は、明示的な基底的真理ラベルにアクセスできない場合でも、言語モデルが知っていることを発見するための最初のステップを提供します。

Existing techniques for training language models can be misaligned with the truth: if we train models with imitation learning, they may reproduce errors that humans make; if we train them to generate text that humans rate highly, they may output errors that human evaluators can't detect. We propose circumventing this issue by directly finding latent knowledge inside the internal activations of a language model in a purely unsupervised way. Specifically, we introduce a method for accurately answering yes-no questions given only unlabeled model activations. It works by finding a direction in activation space that satisfies logical consistency properties, such as that a statement and its negation have opposite truth values. We show that despite using no supervision and no model outputs, our method can recover diverse knowledge represented in large language models: across 6 models and 10 question-answering datasets, it outperforms zero-shot accuracy by 4\% on average. We also find that it cuts prompt sensitivity in half and continues to maintain high accuracy even when models are prompted to generate incorrect answers. Our results provide an initial step toward discovering what language models know, distinct from what they say, even when we don't have access to explicit ground truth labels.
翻訳日:2022-12-08 14:56:16 公開日:2022-12-07
# 人工知能セキュリティコンペティション(AISC)

Artificial Intelligence Security Competition (AISC) ( http://arxiv.org/abs/2212.03412v1 )

ライセンス: Link先を確認
Yinpeng Dong, Peng Chen, Senyou Deng, Lianji L, Yi Sun, Hanyu Zhao, Jiaxing Li, Yunteng Tan, Xinyu Liu, Yangyi Dong, Enhui Xu, Jincai Xu, Shu Xu, Xuelin Fu, Changfeng Sun, Haoliang Han, Xuchong Zhang, Shen Chen, Zhimin Sun, Junyi Cao, Taiping Yao, Shouhong Ding, Yu Wu, Jian Lin, Tianpeng Wu, Ye Wang, Yu Fu, Lin Feng, Kangkang Gao, Zeyu Liu, Yuanzhe Pang, Chengqi Duan, Huipeng Zhou, Yajie Wang, Yuhang Zhao, Shangbo Wu, Haoran Lyu, Zhiyu Lin, Yifei Gao, Shuang Li, Haonan Wang, Jitao Sang, Chen Ma, Junhao Zheng, Yijia Li, Chao Shen, Chenhao Lin, Zhichao Cui, Guoshuai Liu, Huafeng Shi, Kun Hu, Mengxin Zhang(参考訳) 人工知能(AI)のセキュリティは、安全で信頼性があり、信頼できるAIシステムに向けた重要な研究分野である。 AIセキュリティの研究を加速するため、AISCはZhonguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, RealAIによって、Zhonguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en)の一部として組織された。 このコンペには、deepfake security competition、autonomous driving security competition、face recognition security competitionの3つのトラックがある。 本報告では,これらの3トラックの競合ルールと,各トラックの上位チームのソリューションを紹介する。

The security of artificial intelligence (AI) is an important research area towards safe, reliable, and trustworthy AI systems. To accelerate the research on AI security, the Artificial Intelligence Security Competition (AISC) was organized by the Zhongguancun Laboratory, China Industrial Control Systems Cyber Emergency Response Team, Institute for Artificial Intelligence, Tsinghua University, and RealAI as part of the Zhongguancun International Frontier Technology Innovation Competition (https://www.zgc-aisc.com/en). The competition consists of three tracks, including Deepfake Security Competition, Autonomous Driving Security Competition, and Face Recognition Security Competition. This report will introduce the competition rules of these three tracks and the solutions of top-ranking teams in each track.
翻訳日:2022-12-08 14:55:32 公開日:2022-12-07
# MEDIAR:マルチモード顕微鏡のためのデータ中心とモデル中心の調和

MEDIAR: Harmony of Data-Centric and Model-Centric for Multi-Modality Microscopy ( http://arxiv.org/abs/2212.03465v1 )

ライセンス: Link先を確認
Gihun Lee, Sangmook Kim, Joonkee Kim, Se-Young Yun(参考訳) 細胞セグメンテーションは計算生物学解析の基本的な課題である。 細胞インスタンスの同定は、様々な下流生物医学研究における第一歩であることが多い。 しかし、近年の深層学習に基づく手法を含む多くのセルセグメンテーションアルゴリズムは、マルチモーダリティ環境下では限定的な一般性を示している。 この問題に対処するため,NeurIPS 2022にて多モード高分解能顕微鏡画像における微弱な細胞分離を行った。 本稿では,マルチモーダルなセルインスタンスセグメンテーションのための総合パイプラインであるMEDIARを提案する。 mediarは、データ中心とモデル中心のアプローチを学習と推論の戦略として調和させ、検証フェーズで0.9067 f1-scoreを達成し、時間予算を満足する。 その後の研究を促進するために、ソースコードとトレーニングされたモデルをオープンソースとして提供します。

Cell segmentation is a fundamental task for computational biology analysis. Identifying the cell instances is often the first step in various downstream biomedical studies. However, many cell segmentation algorithms, including the recently emerging deep learning-based methods, still show limited generality under the multi-modality environment. Weakly Supervised Cell Segmentation in Multi-modality High-Resolution Microscopy Images was hosted at NeurIPS 2022 to tackle this problem. We propose MEDIAR, a holistic pipeline for cell instance segmentation under multi-modality in this challenge. MEDIAR harmonizes data-centric and model-centric approaches as the learning and inference strategies, achieving a 0.9067 F1-score at the validation phase while satisfying the time budget. To facilitate subsequent research, we provide the source code and trained model as open-source: https://github.com/Lee-Gihun/MEDIAR
翻訳日:2022-12-08 14:55:14 公開日:2022-12-07
# パドル:位相振幅スペクトルの不等角化早期停止による雑音ラベル学習

PADDLES: Phase-Amplitude Spectrum Disentangled Early Stopping for Learning with Noisy Labels ( http://arxiv.org/abs/2212.03462v1 )

ライセンス: Link先を確認
Huaxi Huang, Hui Kang, Sheng Liu, Olivier Salvado, Thierry Rakotoarivelo, Dadong Wang, Tongliang Liu(参考訳) 畳み込みニューラルネットワーク(CNN)は、学習パターンの優位性を示しているが、ラベルノイズに敏感であり、トレーニング中にノイズラベルをオーバーフィットさせる可能性がある。 早期停止戦略は初期訓練段階でcnnの更新を回避し、ノイズラベルの存在下で広く採用されている。 動物の視覚系において周波数領域の振幅スペクトル(AS)と位相スペクトル(PS)が異なる役割を担っているという生物学的知見により、より意味的な情報を捉えるPSは、ASよりもDNNの頑健性を高め、ノイズをラベル付けできる可能性が示唆された。 そこで我々は,DFT(Disdisrete Fourier Transform)を用いて,いくつかの層の特徴をASとPSに切り離すことにより,ASとPSの異なるタイミングで早期停止を提案する。 提案手法は,合成データと実世界のラベルノイズデータセットの両方に有効であることが示された。 PADDLESは、他の早期停止方法より優れ、最先端のパフォーマンスを得る。

Convolutional Neural Networks (CNNs) have demonstrated superiority in learning patterns, but are sensitive to label noises and may overfit noisy labels during training. The early stopping strategy averts updating CNNs during the early training phase and is widely employed in the presence of noisy labels. Motivated by biological findings that the amplitude spectrum (AS) and phase spectrum (PS) in the frequency domain play different roles in the animal's vision system, we observe that PS, which captures more semantic information, can increase the robustness of DNNs to label noise, more so than AS can. We thus propose early stops at different times for AS and PS by disentangling the features of some layer(s) into AS and PS using Discrete Fourier Transform (DFT) during training. Our proposed Phase-AmplituDe DisentangLed Early Stopping (PADDLES) method is shown to be effective on both synthetic and real-world label-noise datasets. PADDLES outperforms other early stopping methods and obtains state-of-the-art performance.
翻訳日:2022-12-08 14:55:00 公開日:2022-12-07
# セタチアン自動光識別を目指して:海洋生態学における細粒・小ショット学習の枠組み

Towards Automatic Cetacean Photo-Identification: A Framework for Fine-Grain, Few-Shot Learning in Marine Ecology ( http://arxiv.org/abs/2212.03646v1 )

ライセンス: Link先を確認
Cameron Trotter, Nick Wright, A. Stephen McGough, Matt Sharpe, Barbara Cheney, M\`onica Arso Civil, Reny Tyson Moore, Jason Allen, Per Berggren(参考訳) 光同定法(photo-id)は、海洋研究者がcetacean (dolphin, whale, porpoise)の個体数を監視するために用いた、非侵襲的な捕獲回収法である。 この方法は歴史的に手作業で行われており、大量の画像が収集されたため、高い作業負荷とコストがかかる。 近年、写真IDの高速化のために自動アシストが開発されているが、処理に不随意であり、利用可能なすべての識別情報を活用していないことが多い。 本稿では, 収穫などのデータ前処理を必要とせずに, 利用可能なすべての情報に基づいて, ほぼ確実に一致することのできる, 完全自動写真ID支援の実現を目的とする。 これは、個々のレベルのカタログマッチングのために下流に渡す前に、未編集のフィールド画像中のセタサンを検出することを目的としたコンピュータビジョンモデルのパイプラインと後処理技術によって達成される。 このシステムは、未対応の個人を扱い、カタログの類似性比較によってそれらを調査のためにフラグ付けする。 本システムは,タンザニアとイギリスにおけるカタログの背びれ検出のタスクにmAP@IOU[0.5] = 0.91, 0.96, 英国およびイギリスにおけるカタログの個別分類のタスクに83.1, 97.5%の精度で評価された。

Photo-identification (photo-id) is one of the main non-invasive capture-recapture methods utilised by marine researchers for monitoring cetacean (dolphin, whale, and porpoise) populations. This method has historically been performed manually resulting in high workload and cost due to the vast number of images collected. Recently automated aids have been developed to help speed-up photo-id, although they are often disjoint in their processing and do not utilise all available identifying information. Work presented in this paper aims to create a fully automatic photo-id aid capable of providing most likely matches based on all available information without the need for data pre-processing such as cropping. This is achieved through a pipeline of computer vision models and post-processing techniques aimed at detecting cetaceans in unedited field imagery before passing them downstream for individual level catalogue matching. The system is capable of handling previously uncatalogued individuals and flagging these for investigation thanks to catalogue similarity comparison. We evaluate the system against multiple real-life photo-id catalogues, achieving mAP@IOU[0.5] = 0.91, 0.96 for the task of dorsal fin detection on catalogues from Tanzania and the UK respectively and 83.1, 97.5% top-10 accuracy for the task of individual classification on catalogues from the UK and USA.
翻訳日:2022-12-08 14:54:40 公開日:2022-12-07
# 好奇心はポリシー検索の多様性を生み出す

Curiosity creates Diversity in Policy Search ( http://arxiv.org/abs/2212.03530v1 )

ライセンス: Link先を確認
Paul-Antoine Le Tolguenec, Emmanuel Rachelson, Yann Besse, Dennis G. Wilson(参考訳) ポリシーを探すとき、報酬の少ない環境は、どの行動を改善するか、避けるかについての十分な情報がないことが多い。 このような環境では、ポリシー検索プロセスは、報酬を得られる遷移を盲目的に検索することを余儀なくされ、早期報酬は、この探索をいずれかの方向にバイアスすることができない。 これを解決する方法のひとつは、報酬が見つかるまで、本質的なモチベーションを使って新しい移行を探索することだ。 本研究では,最近提案されている進化的政策探索手法における本質的動機づけ,好奇心の定義について述べる。 我々は,キュリオシティを適合度指標として用いる進化戦略であるcuriosity-esを提案する。 私たちは、一般的に使用される多様性の指標である、好奇心とノベルティを比較し、明示的な多様性基準を必要とせずに、キュリオシティが完全なエピソードよりも高い多様性を生み出すことができることを発見し、報酬を得る複数のポリシーに導く。

When searching for policies, reward-sparse environments often lack sufficient information about which behaviors to improve upon or avoid. In such environments, the policy search process is bound to blindly search for reward-yielding transitions and no early reward can bias this search in one direction or another. A way to overcome this is to use intrinsic motivation in order to explore new transitions until a reward is found. In this work, we use a recently proposed definition of intrinsic motivation, Curiosity, in an evolutionary policy search method. We propose Curiosity-ES, an evolutionary strategy adapted to use Curiosity as a fitness metric. We compare Curiosity with Novelty, a commonly used diversity metric, and find that Curiosity can generate higher diversity over full episodes without the need for an explicit diversity criterion and lead to multiple policies which find reward.
翻訳日:2022-12-08 14:54:17 公開日:2022-12-07
# 非退化サドル点の固定時間収束と高速蒸発を伴う一般化勾配流

Generalized Gradient Flows with Provable Fixed-Time Convergence and Fast Evasion of Non-Degenerate Saddle Points ( http://arxiv.org/abs/2212.03765v1 )

ライセンス: Link先を確認
Mayank Baranwal, Param Budhraja, Vishal Raj, Ashish R. Hota(参考訳) 勾配に基づく1次凸最適化アルゴリズムは、機械学習タスクを含む様々な領域で広く適用できる。 連続時間力学系の固定時間安定性理論の最近の進歩に動機づけられ、非凸関数のサブクラスにさらに拡張する最も強い収束保証を持つ高速化最適化アルゴリズムを設計するための一般化フレームワークを提案する。 特に,Polak-{\L}ojasiewicz (PL) の不等式を満たす目的関数の最適解に,固定時間で確実に収束する, \emph{GenFlow} アルゴリズムとその運動量不変量を導入する。 さらに、非退化サドル点を許容する関数に対しては、提案したGenFlowアルゴリズムでは、これらのサドル点を回避するのに要する時間は初期条件すべてに一様であることを示す。 最後に、最適解がサドル点である極小極小問題に対して、同様のスキームが固定時間内に再び最適解に到達することが示される。 このアルゴリズムの優れた収束特性は、様々なベンチマークデータセットで実験的に検証される。

Gradient-based first-order convex optimization algorithms find widespread applicability in a variety of domains, including machine learning tasks. Motivated by the recent advances in fixed-time stability theory of continuous-time dynamical systems, we introduce a generalized framework for designing accelerated optimization algorithms with strongest convergence guarantees that further extend to a subclass of non-convex functions. In particular, we introduce the \emph{GenFlow} algorithm and its momentum variant that provably converge to the optimal solution of objective functions satisfying the Polyak-{\L}ojasiewicz (PL) inequality, in a fixed-time. Moreover for functions that admit non-degenerate saddle-points, we show that for the proposed GenFlow algorithm, the time required to evade these saddle-points is bounded uniformly for all initial conditions. Finally, for strongly convex-strongly concave minimax problems whose optimal solution is a saddle point, a similar scheme is shown to arrive at the optimal solution again in a fixed-time. The superior convergence properties of our algorithm are validated experimentally on a variety of benchmark datasets.
翻訳日:2022-12-08 14:54:02 公開日:2022-12-07