このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221110となっている論文です。

PDF登録状況(公開日: 20221110)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子力学における同一粒子:受け取られた見解に反して

Identical Particles in Quantum Mechanics: Against the Received View ( http://arxiv.org/abs/2102.02894v2 )

ライセンス: Link先を確認
Dennis Dieks(参考訳) 受信された見解によれば、同一の量子粒子は、個性を持たない未知の物体である。 この章では、この見解を議論し、批判し、代替案を提案する。 この代替案によれば、いわゆる同一の量子粒子は多くの場合、全く物体(粒子)と見なすべきではない。 しかし、粒子画像が適用可能な状況もある。 しかし、これらのケースで現れる粒子は、受信された視点の粒子とは異なり、識別可能な個体である。

According to the Received View identical quantum particles are a previously unknown kind of objects that do not possess individuality. In this Chapter we discuss this view, criticize it, and propose an alternative. According to this alternative view so-called identical quantum particles should in many cases not be seen as objects (particles) at all. However, there are situations in which a particle picture does become applicable. But the particles that emerge in these cases are distinguishable individuals, unlike the particles of the Received View.
翻訳日:2023-04-12 19:41:42 公開日:2022-11-10
# アプリケーション駆動学習:動的リザーブと需要予測に応用したクローズドループ予測と最適化アプローチ

Application-Driven Learning: A Closed-Loop Prediction and Optimization Approach Applied to Dynamic Reserves and Demand Forecasting ( http://arxiv.org/abs/2102.13273v4 )

ライセンス: Link先を確認
Joaquim Dias Garcia, Alexandre Street, Tito Homem-de-Mello and Francisco D. Mu\~noz(参考訳) 予測と意思決定は一般に、オープンループアプローチに従って、フィードバックのない2つの逐次ステップとしてモデル化される。 本稿では,二段階最適化問題によって予測と意思決定のプロセスが統合され,協調最適化される新しいクローズドループフレームワークであるアプリケーション駆動学習を提案する。 提案手法を一般的な形式で提示し,選択したアプリケーションの期待コストの観点から解が最適な推定器に収束することを示す。 次に,2段階問題のKKT条件に基づく正確な解法と,分解法に適したスケーラブルなヒューリスティックな解法を提案する。 提案手法は, ダイナミックリザーブ要件と条件付き負荷予測を規定する関連問題に適用し, 産業プラクティスにおける現在の 'emph{ad hoc} 手順に対する代替アプローチを提供する。 提案手法を標準の最小二乗予測とディスパッチ計画プロセスでベンチマークする。 提案手法を図示システムに適用し,数十台のバスから数千台のバスを備えた大規模現実的なシステムまで,幅広い事例に適用する。 その結果,提案手法はスケーラブルであり,標準のオープンループ方式よりも一貫して優れた性能が得られることがわかった。

Forecasting and decision-making are generally modeled as two sequential steps with no feedback, following an open-loop approach. In this paper, we present application-driven learning, a new closed-loop framework in which the processes of forecasting and decision-making are merged and co-optimized through a bilevel optimization problem. We present our methodology in a general format and prove that the solution converges to the best estimator in terms of the expected cost of the selected application. Then, we propose two solution methods: an exact method based on the KKT conditions of the second-level problem and a scalable heuristic approach suitable for decomposition methods. The proposed methodology is applied to the relevant problem of defining dynamic reserve requirements and conditional load forecasts, offering an alternative approach to current \emph{ad hoc} procedures implemented in industry practices. We benchmark our methodology with the standard sequential least-squares forecast and dispatch planning process. We apply the proposed methodology to an illustrative system and to a wide range of instances, from dozens of buses to large-scale realistic systems with thousands of buses. Our results show that the proposed methodology is scalable and yields consistently better performance than the standard open-loop approach.
翻訳日:2023-04-09 20:48:10 公開日:2022-11-10
# 畳み込みとしてのデコヒーレンス因子--ガウスと指数コヒーレンス損失の相互作用

Decoherence factor as a convolution: an interplay between a Gaussian and an exponential coherence loss ( http://arxiv.org/abs/2110.09463v2 )

ライセンス: Link先を確認
Bin Yan and Wojciech H. Zurek(参考訳) 本稿では,ガウス型と指数型デコヒーレンス間の遷移の性質を明らかにした。 本稿では,デコヒーレンス係数(密度行列がポインター基底表現で表されるときの非対角的項の抑制の時間依存性を制御する)がガウス関数と指数関数の畳み込みによって記述され,その寄与はシステム環境相互作用の強さによって変調されることを示す。 強結合限界と弱結合限界では、デコヒーレンスはそれぞれ親しみやすいガウス形式と指数形式に還元される。 このメカニズムはスピンバスモデルと量子ブラウン運動の2つのパラダイム的なデコヒーレンスの例で実証されている。

This paper identifies and investigates nature of the transition between Gaussian and exponential forms of decoherence. We show that the decoherence factor (that controls the time dependence of the suppression of the off-diagonal terms when the density matrix is expressed in the pointer basis representation) can be described by the convolution of Gaussian and exponential functions, their contributions modulated by the strength of the system-environment interaction. In the strong and weak coupling limits, decoherence reduces to the familiar Gaussian and exponential forms, respectively. The mechanism is demonstrated with two paradigmatic examples of decoherence -- a spin-bath model and the quantum Brownian motion.
翻訳日:2023-03-11 04:07:43 公開日:2022-11-10
# 量子力学におけるベイズ主義、条件確率および遷移のラプラスの法則

Bayesianism, Conditional Probability and Laplace Law of Succession in Quantum Mechanics ( http://arxiv.org/abs/2112.08622v3 )

ライセンス: Link先を確認
Tsubasa Ichikawa(参考訳) ベイズ的視点から古典確率と量子確率の比較研究を行い、与えられた命題が真であるかどうかの合理的な信念として確率を解釈する。 この観点から条件付き確率を含む3つの問題について議論する。 一 信念の合理性の尺度が与えられたとき、その確率の公理を満たすか。 ii)これらの公理を満たす確率を考えると、それは信念の合理的な程度の尺度と見なされるか。 三 合理的信念の度合いを、発生した事象の相対頻度の観点から評価することができるか。 ここでは、古典的確率と同様に、相対周波数との関係が少数の観測の場合、わずかに修正されることから、これらの問題は量子確率で肯定的に解決できることを示す。 これは、量子力学におけるベイズ確率と相対周波数の関係が、条件付き確率を含む古典的確率理論と同一であることを意味する。

We present a comparative study between classical probability and quantum probability from the Bayesian viewpoint, where probability is construed as our rational degree of belief on whether a given statement is true. From this viewpoint, including conditional probability, three issues are discussed: i) Given a measure of the rational degree of belief, does it satisfy the axioms of the probability? ii) Given the probability satisfying these axioms, is it seen as the measure of the rational degree of belief? iii) Can the measure of the rational degree of belief be evaluated in terms of the relative frequency of events occurring? Here we show that as with the classical probability, all these issues can be resolved affirmatively in the quantum probability, provided that the relation to the relative frequency is slightly modified in case of a small number of observations. This implies that the relation between the Bayesian probability and the relative frequency in quantum mechanics is the same as that in the classical probability theory, including conditional probability.
翻訳日:2023-03-04 09:46:55 公開日:2022-11-10
# フラクタル位相符号による量子誤差補正

Quantum error correction with fractal topological codes ( http://arxiv.org/abs/2201.03568v2 )

ライセンス: Link先を確認
Arpit Dua, Tomas Jochym-O'Connor, Guanyu Zhu(参考訳) 近年、フラクタル曲面符号(英語版)(fscs)のクラスがハウスドルフ次元2+\epsilon$のフラクタル格子上に構築され、フォールトトレラントな非クリフフォードcczゲートが認められている。 このようなfscの性能をフォールトトレラント量子メモリとして検討する。 ハウスドルフ次元が 2+\epsilon$ の FSC において,ビットフリップと位相フリップの誤差に対する非ゼロしきい値を持つ復号法が存在することを証明した。 ビットフリップ誤差に対して, フラクタル格子の穴の境界に適切な修正を施すことにより, 通常の3次元表面符号の弦状症候群に対して開発されたスイープデコーダをFSCに適用する。 さらに、FSCに対するスイープデコーダの適応は、自己補正と単発性を維持している。 位相フリップ誤差に対して,ポイント様症候群に対して,最小長マッチング(MWPM)デコーダを用いる。 本研究では,スイープデコーダの現象ノイズと,ハウスドルフ次元が$D_H\approx2.966$の特定のFSCのMWPMデコーダの符号容量閾値(より低い2.95\%$)の持続的耐故障閾値(\sim 1.7\%$)を報告する。 後者は、ハウスドルフ次元を介して調整可能なフラクタル格子上のゼロ温度閉じ込め-ヒッグス転移の臨界点に写像することができる。

Recently, a class of fractal surface codes (FSCs), has been constructed on fractal lattices with Hausdorff dimension $2+\epsilon$, which admits a fault-tolerant non-Clifford CCZ gate. We investigate the performance of such FSCs as fault-tolerant quantum memories. We prove that there exist decoding strategies with non-zero thresholds for bit-flip and phase-flip errors in the FSCs with Hausdorff dimension $2+\epsilon$. For the bit-flip errors, we adapt the sweep decoder, developed for string-like syndromes in the regular 3D surface code, to the FSCs by designing suitable modifications on the boundaries of the holes in the fractal lattice. Moreover, our adaptation of the sweep decoder for the FSCs maintains its self-correcting and single-shot nature. For the phase-flip errors, we employ the minimum-weight-perfect-matching (MWPM) decoder for the point-like syndromes. We report a sustainable fault-tolerant threshold ($\sim 1.7\%$) under phenomenological noise for the sweep decoder and the code capacity threshold (lower bounded by $2.95\%$) for the MWPM decoder for a particular FSC with Hausdorff dimension $D_H\approx2.966$. The latter can be mapped to the critical point of a zero-temperature confinement-Higgs transition on the fractal lattice, which is tunable via the Hausdorff dimension.
翻訳日:2023-03-01 19:36:38 公開日:2022-11-10
# 時空双対性による量子多体ダイナミクスの絡み合い障壁克服

Overcoming the entanglement barrier in quantum many-body dynamics via space-time duality ( http://arxiv.org/abs/2201.04150v2 )

ライセンス: Link先を確認
Alessio Lerose and Michael Sonner and Dmitry A. Abanin(参考訳) 量子多体系の非平衡性を記述するのは、波動関数の絡み合いが高いため困難である。 局所サブシステムの環境として多体系の影響をエンコードする影響行列(IM)による局所観測装置の進化について述べる。 近年の研究では、無限系の im は時間的絡み合いが低く、行列生成状態 (mps) として効率的に表現できることがわかった。 しかし、IMの直接的反復的な構造は、時間的絡み合い障壁(TEB)である非常に絡み合った中間状態に遭遇する。 TEBはユビキタスであり、積分可能なスピン鎖の挙動を正確に捉えた半古典的な準粒子像によってその物理的起源を解明する。 さらに、TEBは、よく定義された準粒子が欠如しているカオススピン鎖でも生じることを示す。 これらの知見に基づいて、TEBを確実に回避し、MPSとして熱力学限界IMを効率的に構築する代替光コーン成長アルゴリズムを定式化する。 この研究は、熱化と輸送のためのIMアプローチの効率性の起源を明らかにする。

Describing non-equilibrium properties of quantum many-body systems is challenging due to high entanglement in the wavefunction. We describe evolution of local observables via the influence matrix (IM), which encodes the effects of a many-body system as an environment for local subsystems. Recent works found that in many dynamical regimes the IM of an infinite system has low temporal entanglement and can be efficiently represented as a matrix-product state (MPS). Yet, direct iterative constructions of the IM encounter highly entangled intermediate states - a temporal entanglement barrier (TEB). We argue that TEB is ubiquitous, and elucidate its physical origin via a semiclassical quasiparticle picture that exactly captures the behavior of integrable spin chains. Further, we show that a TEB also arises in chaotic spin chains, which lack well-defined quasiparticles. Based on these insights, we formulate an alternative light-cone growth algorithm, which provably avoids TEB, thus providing an efficient construction of the thermodynamic-limit IM as a MPS. This work uncovers the origin of the efficiency of the IM approach for thermalization and transport.
翻訳日:2023-03-01 12:44:58 公開日:2022-11-10
# 連続時間量子ウォークによるフィードバック支援量子探索

Feedback-assisted quantum search by continuous-time quantum walks ( http://arxiv.org/abs/2201.04566v2 )

ライセンス: Link先を確認
Alessandro Candeloro, Claudia Benedetti, Marco G. Genoni, Matteo G.A. Paris(参考訳) 本稿では,連続的な測定とフィードバックを補助する量子ウォークを用いて,目標ノードのサイクルグラフ上の量子探索に対処する。 オラクルが対象の状態のプロジェクタとして記述される以前の空間探索アプローチとは異なり、我々は代わりにフィードバックハミルトニアンによって実装された動的オラクルを考える。 特に、我々のプロトコルは、ウォーカーを所望のターゲットノードに駆動することができる。 このアイデアは、グラフ上の量子ウォーカーの位置を継続的に監視し、測定から得られた情報に基づいてユニタリフィードバック操作を適用することに基づいている。 フィードバックはノード間の結合を変化させ、数値的な手順によって各タイミングで最適化される。 我々は,n=15$までの次元グラフの進化を記述する確率的軌跡を数値的にシミュレートし,ウォーカーの状態と対象ノードの平均忠実性を通じてプロトコルの性能を定量化する。 制御戦略,特にフィードバック結合が得る可能性のある値について,さまざまな制約について論じる。 非バウンドコントロールでは、プロトコルがターゲットノード上のウォーカーをすばやくローカライズすることができることが分かりました。 次に,制御結合の上限値を設定しながら,所望のノードでウォーカーを安定化させることで,性能を低下させる方法について論じる。 最後に、結合が離散集合からのみ値を取ることのできるデジタルフィードバックプロトコルが、一般に連続的有界プロトコルと同等に効率的であることを示す。

We address the quantum search of a target node on a cycle graph by means of a quantum walk assisted by continuous measurement and feedback. Unlike previous spatial search approaches, where the oracle is described as a projector on the target state, we instead consider a dynamical oracle implemented through a feedback Hamiltonian. In particular, our protocol is able to drive the walker to a desired target node. The idea is based on continuously monitoring the position of the quantum walker on the graph and then to apply a unitary feedback operation based on the information obtained from measurement. The feedback changes the couplings between the nodes and it is optimized at each time via a numerical procedure. We numerically simulate the stochastic trajectories describing the evolution for graphs of dimensions up to $N=15$, and quantify the performance of the protocol via the average fidelity between the state of the walker and the target node. We discuss different constraints on the control strategy, in particular on the possible values that the feedback couplings can take. We find that for unbounded controls, the protocol is able to quickly localize the walker on the target node. We then discuss how the performance is lowered by posing an upper bound on the control couplings, but still allowing to stabilize the walker in the desired node. Finally, we show how a digital feedback protocol, where the couplings can take values only from a discrete set, seems in general as efficient as the continuous bounded one.
翻訳日:2023-03-01 08:39:05 公開日:2022-11-10
# 一般化計測による渦粒子の生成

Generation of vortex particles via generalized measurements ( http://arxiv.org/abs/2201.07997v4 )

ライセンス: Link先を確認
D. V. Karlovets, S. S. Baturin, G. Geloni, G. K. Sizykh, and V. G. Serbo(参考訳) 硬X線ツイスト光子と軌道角運動量を持つ相対論的質量粒子(渦電子、ミューオン、陽子など)は、高エネルギー・核物理学に多くの可能性を持つ。 しかし、そのような状態は主に回折技術によって得られ、相対論的エネルギーには適用できない。 ここで、ハドロン、イオン、核を含む異なる粒子の渦状態は、ポスト選択プロトコルを変更するだけで、2つの最終粒子を持つ大きな種類のプロセスで生成できることを示す。 絡み合いと不確実性の関係により、他の粒子の運動量方位角が大きな不確実性で測定された場合、最終粒子の進化状態がねじれてしまう。 例えば、チェレンコフとアンデュレータ放射、強いレーザービームによる粒子衝突、$e\mu \to e\mu、ep \to ep$などである。 この技術は、リニアコライダの超相対論的レプトンとハドロンビームに適応することができ、また、ストレージリングや自由電子レーザーにおけるX線および$\gamma$-rangeツイスト光子の発生を促進することもできる。

The hard X-ray twisted photons and relativistic massive particles with orbital angular momentum -- vortex electrons, muons, protons, etc. -- have many potential applications in high-energy and nuclear physics. However, such states can be obtained so far mainly via diffraction techniques, not applicable for relativistic energies. Here we show that the vortex states of different particles, including hadrons, ions, and nuclei, can be generated in a large class of processes with two final particles simply by altering a postselection protocol. Thanks to entanglement and to the uncertainty relations, an evolved state of a final particle becomes twisted if the momentum azimuthal angle of the other particle is measured with a large uncertainty. We give several examples, including Cherenkov and undulator radiation, particle collisions with intense laser beams, $e\mu \to e\mu, ep \to ep$. This technique can be adapted for ultrarelativistic lepton and hadron beams of linear colliders, and it can also facilitate the development of sources of X-ray and $\gamma$-range twisted photons at storage rings and free-electron lasers.
翻訳日:2023-02-28 08:17:12 公開日:2022-11-10
# 磁気トモグラフィーによる単一電子スピンのマッピング

Mapping single electron spins with magnetic tomography ( http://arxiv.org/abs/2203.04892v2 )

ライセンス: Link先を確認
Dan Yudilevich, Rainer St\"ohr, Andrej Denisenko, Amit Finkler(参考訳) 単一電子スピンの位置のマッピングは、ナノスケール磁気共鳴イメージングや量子ネットワークキャラクタリゼーションのような応用に非常に望ましい能力である。 本稿では、外部磁場を回転させて量子スピンセンサ近傍の単一電子スピンの正確な位置を特定する方法を示す。 ダイヤモンド中の窒素空孔中心を量子センサとし、磁場ベクトルを変化させることで、結晶中の親電子スピンへの双極子結合を変調する。 双極子カップリングの変調にはスピンの座標に関する情報が含まれており、そこからその位置を0.9\,\aaの不確かさで抽出する。 センサから10\,nmまでの精度で電子スピンを検出できることを示す。 超微粒子結合電子スピンをマッピングする手法の適用性について検討し,ニトロキシドラジカルの同定に応用できることを示す。 磁気トモグラフィー法は、個々の分子の構造を研究するための距離測定に利用できる。

Mapping the positions of single electron spins is a highly desired capability for applications such as nanoscale magnetic resonance imaging and quantum network characterization. Here, we demonstrate a method based on rotating an external magnetic field to identify the precise location of single electron spins in the vicinity of a quantum spin sensor. We use a nitrogen-vacancy center in diamond as a quantum sensor and modulate the dipolar coupling to a proximate electron spin in the crystal by varying the magnetic field vector. The modulation of the dipolar coupling contains information on the coordinates of the spin, from which we extract its position with an uncertainty of 0.9\,\AA. We show that the method can be used to locate electron spins with nanometer precision up to 10\,nm away from the sensor. We discuss the method's applicability to mapping hyperfine coupled electron spins, and show it may be applied to locating nitroxide radicals. The magnetic tomography method can be utilized for distance measurements for studying the structure of individual molecules.
翻訳日:2023-02-22 19:36:40 公開日:2022-11-10
# 雑音量子計算による空間変形下におけるベンゼンの基底状態エネルギーの計算

Calculating the ground state energy of benzene under spatial deformations with noisy quantum computing ( http://arxiv.org/abs/2203.05275v2 )

ライセンス: Link先を確認
Wassil Sennane, Jean-Philip Piquemal and Marko J. Ran\v{c}i\'c(参考訳) 本稿では,変分量子固有解法(VQE)を用いて,空間変形下でのベンゼンの基底状態エネルギーを算出する。 この研究の主な目的は、古典的な方法が失敗することが知られている領域において、多数の軌道の問題を解くために、短期的なデバイスで量子コンピューティングアンサーゼを使用することの可能性を推定することである。 さらに,我々の高度なシミュレーションプラットフォームと実際の量子コンピュータを組み合わせることで,量子コンピュータ固有のノイズが結果にどのように影響するかを分析した。 私たちの研究の中心は、ハードウェア効率と量子ユニタリ結合クラスタ ansatze (qucc) です。 まず,ハードウェア効率のよいアンザッツは,ベンゼンの極端変形に対して平均場法を上回らせる可能性を秘めている。 しかし、重要な問題は均衡に留まり、実際の化学応用を妨げている。 さらに、ハードウェア効率のよいansatzは、ノイズとノイズのないケースの両方において、パラメータの初期推測に強く依存する結果をもたらし、最適化問題はノイズよりもその収束に大きな影響を与える。 これは実際の量子コンピューティング実験と比較して確認される。 一方、qucc ansatz代替回路はより深い回路を示す。 したがって、ノイズ効果は増大し、極端であるため、平均場理論を上回らない。 2つのシミュレータ/8-16 qubits qpuによるquccの計算は、ショットノイズよりもハードウェアノイズに敏感であるように思われる。 最後に、この研究により、qUCC法はハッケル近似とともにqUCC法を利用できるため、系の物理学をよりよく捉えることが示されている。 この近似を超越して、このような難しい問題の最適化の複雑さを劇的に高める方法について議論した。

In this manuscript, we calculate the ground state energy of benzene under spatial deformations by using the variational quantum eigensolver (VQE). The primary goal of the study is estimating the feasibility of using quantum computing ansatze on near-term devices for solving problems with large number of orbitals in regions where classical methods are known to fail. Furthermore, by combining our advanced simulation platform with real quantum computers, we provided an analysis of how the noise, inherent to quantum computers, affects the results. The centers of our study are the hardware efficient and quantum unitary coupled cluster ansatze (qUCC). First, we find that the hardware efficient ansatz has the potential to outperform mean-field methods for extreme deformations of benzene. However, key problems remain at equilibrium, preventing real chemical application. Moreover, the hardware efficient ansatz yields results that strongly depend on the initial guess of parameters - both in the noisy and noiseless cases - and optimization issues have a higher impact on their convergence than noise. This is confirmed by comparison with real quantum computing experiments. On the other hand, the qUCC ansatz alternative exhibits deeper circuits. Therefore, noise effects increase and are so extreme that the method never outperform mean-field theories. Our dual simulator/8-16 qubits QPU computations of qUCC appears to be a lot more sensitive to hardware noise than shot noise, which give further indications about where the noise-reduction efforts should be directed towards. Finally, the study shows that qUCC method better captures the physics of the system as the qUCC method can be utilized together with the Huckel approximation. We discussed how going beyond this approximation sharply increases the optimization complexity of such a difficult problem.
翻訳日:2023-02-22 12:16:54 公開日:2022-11-10
# 2成分BECを用いた測定に基づく量子計算

Measurement-based quantum computation using two-component BECs ( http://arxiv.org/abs/2203.08993v3 )

ライセンス: Link先を確認
Genji Fujii(参考訳) 本稿では,2成分Bose-Einstein Condensates (BECs) を用いた測定ベース量子計算(MBQC)を提案する。 この理論を構築する際、mbqc の生成演算子と消滅演算子を導入する必要がある。 これはストークス作用素 (Schwinger Boson) を考えることで実現される。 その結果,測定後の状態は粒子数に依存することがわかった。

We propose measurement-based quantum computation (MBQC) using two-component Bose-Einstein condensates (BECs). When constructing our theory, we need to introduce creation operator and annihilation operator for MBQC. This is realized by considering the Stokes operator (Schwinger boson). As a result, we find that the state after a measurement depends on the number of particles.
翻訳日:2023-02-21 22:51:55 公開日:2022-11-10
# So2Sat POP -- 大陸規模の空間からの人口推定のためのベンチマークデータセット

So2Sat POP -- A Curated Benchmark Data Set for Population Estimation from Space on a Continental Scale ( http://arxiv.org/abs/2204.08524v2 )

ライセンス: Link先を確認
Sugandha Doda, Yuanyuan Wang, Matthias Kahl, Eike Jens Hoffmann, Kim Ouan, Hannes Taubenb\"ock, Xiao Xiang Zhu(参考訳) ダイナミックな人口分布の確保は、都市計画、災害管理など多くの意思決定プロセスの鍵であり、最も重要なことは政府が社会技術供給をより適切に配分することを助けることである。 これらの目的の達成のためには、良い人口データが不可欠である。 国勢調査を通じて人口データを収集する伝統的な方法は高価で退屈である。 近年,人口分布を推定する統計・機械学習手法が開発されている。 ほとんどのメソッドは、小さなスケールで開発されているか、まだ公開されていないデータセットを使用する。 これにより,新しい手法の開発と評価が困難になる。 このギャップを埋めるために、98のヨーロッパの都市で人口推定のための包括的なデータセットを提供する。 データセットは、デジタル高度モデル、地域気候ゾーン、土地利用比率、夜間照明とマルチスペクトルセンチネル-2画像の組み合わせ、およびオープンストリートマップイニシアチブのデータで構成されている。 我々は,人口推定分野における高度なアプローチの開発において,研究コミュニティに貴重な付加物となることを期待する。

Obtaining a dynamic population distribution is key to many decision-making processes such as urban planning, disaster management and most importantly helping the government to better allocate socio-technical supply. For the aspiration of these objectives, good population data is essential. The traditional method of collecting population data through the census is expensive and tedious. In recent years, statistical and machine learning methods have been developed to estimate population distribution. Most of the methods use data sets that are either developed on a small scale or not publicly available yet. Thus, the development and evaluation of new methods become challenging. We fill this gap by providing a comprehensive data set for population estimation in 98 European cities. The data set comprises a digital elevation model, local climate zone, land use proportions, nighttime lights in combination with multi-spectral Sentinel-2 imagery, and data from the Open Street Map initiative. We anticipate that it would be a valuable addition to the research community for the development of sophisticated approaches in the field of population estimation.
翻訳日:2023-02-19 16:19:31 公開日:2022-11-10
# health guardian platform - デジタルヘルス研究における発見を加速するテクノロジスタック

Health Guardian Platform: A technology stack to accelerate discovery in Digital Health research ( http://arxiv.org/abs/2211.06330v1 )

ライセンス: Link先を確認
Bo Wen, Vince S. Siu, Italo Buleje, Kuan Yu Hsieh, Takashi Itoh, Lukas Zimmerli, Nigel Hinds, Elif Eyigoz, Bing Dang, Stefan von Cavallar, Jeffrey L. Rogers(参考訳) この論文は、IBM Digital Healthチームが開発した、新しいデジタルバイオマーカーの発見とデジタルヘルス技術の開発を加速するプラットフォームであるHealth Guardianの設計哲学とアーキテクチャを強調した。 Health Guardianは、臨床コホートからのデータをテストして疾患を理解し、早期予防を可能にするクラウドベースのマイクロサービスへの人工知能(AI)研究の迅速な翻訳を可能にする。 このプラットフォームは、モバイルアプリケーション、ウェアラブル、IoT(Internet of Things)デバイスに接続して、健康関連のデータをセキュアなデータベースに収集することができる。 分析が作成されると、事前に定義されたテンプレートを使用してコードをクラウド上にコンテナ化しデプロイし、1つ以上のセンサーデバイスから収集したデータを使用してモデルを検証できる。 Health Guardianプラットフォームは現在、70以上の分析機能を備えた時系列、テキスト、オーディオ、ビデオ入力をサポートし、非商業的な科学研究に利用されている。 本稿では,ai手法を用いて音声記録から言語的特徴を抽出し,個人のミニメンタル状態を評価し,adを有する可能性を評価し,85歳になる前にadの発生を予測するアルツハイマー病評価マイクロサービスの例を示す。 現在、世界中のIBM研究チームは、初期の研究アイデアのテストベッドとしてHealth Guardianを内部的に使用しており、外部の協力者と協力してAIモデルの開発と臨床研究を支援し、強化している。

This paper highlights the design philosophy and architecture of the Health Guardian, a platform developed by the IBM Digital Health team to accelerate discoveries of new digital biomarkers and development of digital health technologies. The Health Guardian allows for rapid translation of artificial intelligence (AI) research into cloud-based microservices that can be tested with data from clinical cohorts to understand disease and enable early prevention. The platform can be connected to mobile applications, wearables, or Internet of things (IoT) devices to collect health-related data into a secure database. When the analytics are created, the researchers can containerize and deploy their code on the cloud using pre-defined templates, and validate the models using the data collected from one or more sensing devices. The Health Guardian platform currently supports time-series, text, audio, and video inputs with 70+ analytic capabilities and is used for non-commercial scientific research. We provide an example of the Alzheimer's disease (AD) assessment microservice which uses AI methods to extract linguistic features from audio recordings to evaluate an individual's mini-mental state, the likelihood of having AD, and to predict the onset of AD before turning the age of 85. Today, IBM research teams across the globe use the Health Guardian internally as a test bed for early-stage research ideas, and externally with collaborators to support and enhance AI model development and clinical study efforts.
翻訳日:2023-02-19 12:25:25 公開日:2022-11-10
# 学生の達成度におけるソシオデモグラフィーの不平等--ロンドンにおける個人不均一性と差別的正確性(MAIHDA)の交差多段階分析と応用

Sociodemographic inequalities in student achievement: An intersectional multilevel analysis of individual heterogeneity and discriminatory accuracy (MAIHDA) with application to students in London, England ( http://arxiv.org/abs/2211.06321v1 )

ライセンス: Link先を確認
Lucy Prior, Clare Evans, Juan Merlo and George Leckie(参考訳) 学生の成績の不等式は、教育システムに対する継続的な懸念であり、交叉的であると認識されている。 補間性は不利の多次元的な性質を考慮し、個人の経験を形作る社会的決定要因を認識させる。 MAIHDA (Intersectional multilevel analysis of individual heterogeneity and discriminatory accuracy) は、人口健康において開発された新しいアプローチであるが、教育研究には限定的である。 本研究では,このアプローチをイングランド・ロンドンにおける学生の2つのコホート間で,学生の達成度における社会デモグラフィの不等式を研究するために導入し,応用する。 我々は,学生の年齢,性別,フリースクールの食事状況,特別な教育的ニーズ,民族性の組み合わせから生じる144の交叉構造を定義する。 結果がコホート間で頑固に一貫性のあるインタラクティブな効果ではなく,主に添加物によって構成される達成度において,実質的な階層レベルの変動が見いだされる。 我々は,政策立案者がより注意を払うべきだと結論し,交差型MAIHDAは自らの経験を研究する上で有用なアプローチを提供する。

Sociodemographic inequalities in student achievement are a persistent concern for education systems and are increasingly recognized to be intersectional. Intersectionality considers the multidimensional nature of disadvantage, appreciating the interlocking social determinants which shape individual experience. Intersectional multilevel analysis of individual heterogeneity and discriminatory accuracy (MAIHDA) is a new approach developed in population health but with limited application in educational research. In this study, we introduce and apply this approach to study sociodemographic inequalities in student achievement across two cohorts of students in London, England. We define 144 intersectional strata arising from combinations of student age, gender, free school meal status, special educational needs, and ethnicity. We find substantial strata-level variation in achievement composed primarily by additive rather than interactive effects with results stubbornly consistent across the cohorts. We conclude that policymakers should pay greater attention to multiply marginalized students and intersectional MAIHDA provides a useful approach to study their experiences.
翻訳日:2023-02-19 12:24:29 公開日:2022-11-10
# クリーピーストーリーの基礎を分解する

Decomposing the Fundamentals of Creepy Stories ( http://arxiv.org/abs/2211.05369v1 )

ライセンス: Link先を確認
Sakshi Goel, Haripriya Dharmala, Yuchen Zhang, Keith Burghardt(参考訳) 恐怖は普遍的な概念であり、人々はそれを都市伝説や怖い映画、現代の物語に刻み込む。 しかし、なぜこれらのストーリーが怖く、より一般的に人々が怖いのかという疑問が残されている。 本研究では,ソーシャルメディアサイトredditのフォーラム(サブredditとして知られる)で数万の恐ろしい記事を解析することで,これらの質問を考察する。 まず、ストーリーを怖がらせるのに使用する安定したコアテクニックを分析する前に、これらのストーリーを鮮やかに保つために、ライティングスタイルがどのように進化したかを調べます。 作家たちは何年もの間、自分の物語のテーマを、お化け屋敷から学校関連のテーマ、身体の恐怖、病気へと変えてきた。 しかし、いくつかの特徴は安定しており、道化師や悪魔のような擬人名詞に関連する単語は、ベースラインよりも怖い話の方が一般的である。 さらに,恐怖を含む文に注釈を付けるデータセットも収集した。 我々はこれらのデータを用いて、人々が恐怖を物語の中で表現する場所を定量化するために使用される、高精度な恐怖検出ニューラルネットワークモデルを開発する。 恐怖を表現した文章や、怖い話で最もよく見られる言葉が、物語の特定のポイントをスパイクし、おそらく読者を物語の結末まで席の端に留める方法として現れる。 これらの結果は、著者が読者にどう対処するか、またストーリーに恐怖が現れるのか、という新たな理解を与えてくれる。

Fear is a universal concept; people crave it in urban legends, scary movies, and modern stories. Open questions remain, however, about why these stories are scary and more generally what scares people. In this study, we explore these questions by analyzing tens of thousands of scary stories on forums (known as subreddits) in a social media website, Reddit. We first explore how writing styles have evolved to keep these stories fresh before we analyze the stable core techniques writers use to make stories scary. We find that writers have changed the themes of their stories over years from haunted houses to school-related themes, body horror, and diseases. Yet some features remain stable; words associated with pseudo-human nouns, such as clown or devil are more common in scary stories than baselines. In addition, we collect a range of datasets that annotate sentences containing fear. We use these data to develop a high-accuracy fear detection neural network model, which is used to quantify where people express fear in scary stories. We find that sentences describing fear, and words most often seen in scary stories, spike at particular points in a story, possibly as a way to keep the readers on the edge of their seats until the story's conclusion. These results provide a new understanding of how authors cater to their readers, and how fear may manifest in stories.
翻訳日:2023-02-19 12:19:58 公開日:2022-11-10
# 安定拡散安全フィルタの組替え

Red-Teaming the Stable Diffusion Safety Filter ( http://arxiv.org/abs/2210.04610v5 )

ライセンス: Link先を確認
Javier Rando and Daniel Paleka and David Lindner and Lennart Heim and Florian Tram\`er(参考訳) stable diffusionは、dalle、imagen、partiといったプロプライエタリモデルに匹敵する、最近のオープンソースイメージ生成モデルである。 安定拡散は、明示的な画像の生成を防ぐ安全フィルタを備えている。 残念ながら、フィルターは難解で文書化されていない。 これにより、ユーザがアプリケーションの誤用を防ぎ、フィルタの制限を理解して改善することが難しくなる。 まず,安全フィルタをバイパスする乱雑なコンテンツの生成が容易であることを示す。 そして、フィルターをリバースエンジニアリングして、性的なコンテンツを防ぐために、暴力やゴアなど同様に乱暴なコンテンツを無視していることに気付く。 分析から,今後のモデルリリースにおける安全性対策は,コミュニティのセキュリティ貢献を刺激するために,完全にオープンで適切に文書化されていくべきであると論じている。

Stable Diffusion is a recent open-source image generation model comparable to proprietary models such as DALLE, Imagen, or Parti. Stable Diffusion comes with a safety filter that aims to prevent generating explicit images. Unfortunately, the filter is obfuscated and poorly documented. This makes it hard for users to prevent misuse in their applications, and to understand the filter's limitations and improve it. We first show that it is easy to generate disturbing content that bypasses the safety filter. We then reverse-engineer the filter and find that while it aims to prevent sexual content, it ignores violence, gore, and other similarly disturbing content. Based on our analysis, we argue safety measures in future model releases should strive to be fully open and properly documented to stimulate security contributions from the community.
翻訳日:2023-02-19 11:37:05 公開日:2022-11-10
# 量子ランダムアクセスにおける非古典的時間相関の役割

Role of nonclassical temporal correlation in powering quantum random access codes ( http://arxiv.org/abs/2204.05537v3 )

ライセンス: Link先を確認
Subhankar Bera, Ananda G. Maity, Shiladitya Mal and A. S. Majumdar(参考訳) 我々はランダムアクセスコードの背後にある量子アドバンテージの根本的な起源を探求する。 非侵襲現実主義モデルと互換性のある新しい時間的不等式を提案し、共有ランダム性の存在下で1ビットランダムアクセスコードに符号化されたnビットの非ゼロ量子優位性は、対応する時間的不等式に等しいことを示す。 この接続の即時的な結果として、1ビットランダムアクセスコードに符号化されたnビットの最大成功確率が、対応する不等式の最大値違反が達成されたときに得られることを示す。 1ビットのランダムアクセスコードにエンコードされたnビットの非ゼロ量子長所、つまり、対応する時間的不等式に対する非ゼロな違反は、真のランダム性を証明することができる。

We explore the fundamental origin of the quantum advantage behind random access code. We propose new temporal inequalities compatible with noninvasive-realist models and show that any non-zero quantum advantage of n bits encoded to 1-bit random access code in the presence of shared randomness is equivalent to the violation of the corresponding temporal inequality. As an immediate consequence of this connection, we also prove that the maximal success probability of n bits encoded to 1-bit random access code can be obtained when the maximal violation of the corresponding inequality is achieved. We then show that any non-zero quantum advantage of n bits encoded to 1-bit random access code, or in other words, any non-zero violation of the corresponding temporal inequality can certify genuine randomness.
翻訳日:2023-02-17 05:50:13 公開日:2022-11-10
# Qermitによる誤り除去のボリュームベンチマーク

Volumetric Benchmarking of Error Mitigation with Qermit ( http://arxiv.org/abs/2204.09725v2 )

ライセンス: Link先を確認
Cristina Cirstoiu, Silas Dilkes, Daniel Mills, Seyon Sivarajah, Ross Duncan(参考訳) 量子コンピュータのサイズが大きくなるにつれて、ノイズの有害効果が蓄積する。 デバイスが小さすぎてエラー訂正ができない場合、エラー軽減が用いられることがある。 誤差緩和は量子状態の忠実度を増大させるのではなく、観測値の期待値などの関心事量の近似誤差を減らすことを目的としている。 しかしながら、どの回路タイプ、どの特性を持つデバイスがエラー軽減の恩恵を受けるかは、まだ不明である。 本稿では,量子誤差緩和手法の性能を評価する手法を開発した。 私たちのベンチマークはボリューム的に設計され、異なる超伝導ハードウェアデバイスで実行されます。 大規模な古典シミュレーションも比較に用いられる。 これらのベンチマークは、エラー軽減プロトコルの予測と実際の性能の切り離しを識別し、それらが有用である状況を特定するために使用される。 これらの実験を行い、より広いコミュニティの利益を得るために、量子エラー軽減のためのQermitanオープンソースpythonパッケージを紹介します。 qermitは幅広いエラー緩和法をサポートし、拡張が容易であり、エラー緩和プロトコルとサブルーチンの構成を容易にするモジュラーグラフベースのソフトウェア設計を備えている。

The detrimental effect of noise accumulates as quantum computers grow in size. In the case where devices are too small or noisy to perform error correction, error mitigation may be used. Error mitigation does not increase the fidelity of quantum states, but instead aims to reduce the approximation error in quantities of concern, such as expectation values of observables. However, it is as yet unclear which circuit types, and devices of which characteristics, benefit most from the use of error mitigation. Here we develop a methodology to assess the performance of quantum error mitigation techniques. Our benchmarks are volumetric in design, and are performed on different superconducting hardware devices. Extensive classical simulations are also used for comparison. We use these benchmarks to identify disconnects between the predicted and practical performance of error mitigation protocols, and to identify the situations in which their use is beneficial. To perform these experiments, and for the benefit of the wider community, we introduce Qermit - an open source python package for quantum error mitigation. Qermit supports a wide range of error mitigation methods, is easily extensible and has a modular graph-based software design that facilitates composition of error mitigation protocols and subroutines.
翻訳日:2023-02-16 06:03:54 公開日:2022-11-10
# Floquet-Weyl半金属間の可変界面状態

Tunable interface states between Floquet-Weyl semimetals ( http://arxiv.org/abs/2205.05388v2 )

ライセンス: Link先を確認
F. Bonasera, S.-B. Zhang, L. Privitera, F.M.D. Pellegrino(参考訳) ワイル半金属とノダル線半金属はそれぞれ0次元点と1次元線に接する線形電子バンドによって特徴づけられる。 近年、円偏光により、節線半金属が可変フロッケ・ワイル半金属に導かれると予測されている。 本研究では,対向する円偏光を持つ2本の光線により照射された陰極線半金属の2つの領域間の界面状態について検討する。 極小モデルの中では、ファン・ホーブ特異点の生成のような偏光をチューニングすることでエネルギー構造の顕著な修正が見つかる。 さらに、界面面上に磁気不純物の$\delta$ドーピングを加えることにより、界面状態の切り替え可能かつ位相的に非自明な渦様擬似スピンパターンが発生することを示す。

Weyl semimetals and nodal line semimetals are characterized by linear electronic bands touching at zero-dimensional points and one-dimensional lines, respectively. Recently, it has been predicted that nodal line semimetals can be driven into tunable Floquet-Weyl semimetals by circularly polarized light. Here, we study the occurrence of interface states between two regions of a nodal line semimetal shined by two beams of light with opposite circular polarizations. Within a minimal model, we find remarkable modifications of the energy structure by tuning the polarized light, such as the possible generation of van Hove singularities. Moreover, by adding a $\delta$-doping of magnetic impurities along the interfacial plane, we show the occurrence of a switchable and topologically non-trivial, vortex-like pseudo-spin pattern of the interface states.
翻訳日:2023-02-13 12:39:26 公開日:2022-11-10
# 物質の短期量子シミュレーションに向けて

Towards near-term quantum simulation of materials ( http://arxiv.org/abs/2205.15256v2 )

ライセンス: Link先を確認
Laura Clinton, Toby Cubitt, Brian Flynn, Filippo Maria Gambetta, Joel Klassen, Ashley Montanaro, Stephen Piddock, Raul A. Santos and Evan Sheridan(参考訳) 材料のシミュレーションは量子コンピュータの最も有望な応用の一つである。 短期ハードウェアでは、これらのシミュレーションの重要な制約は回路深さである。 多くの量子シミュレーションアルゴリズムは、ハミルトニアン内の各項によって生成されるユニタリ進化の層に依存する。 これは時間力学において単一のトロッターステップとして現れ、ハミルトニアン変分アンサッツの下の変分量子固有解法では単一のアンサッツ層として現れる。 本稿では, 層の深さがシステムサイズに依存しない材料モデリングのための新しい量子アルゴリズムを提案する。 この設計は、ワニエ基底における材料の局所性を生かし、局所性を保存するための調整されたフェルミオン符号化を用いる。 本稿では,この手法の回路コストを分析し,密度汎関数理論データを量子回路命令に変換するコンパイラを提案する。 コンパイラは、ベースゲートレベルから特定の対象物質の物理に由来する最適化まで、複数のレベルの回路を自動的に最適化する。 幅広い構造・技術領域にまたがる材料に対する数値計算結果を示す。 この結果は、ハミルトニアンの構造を考慮しない標準的な先行手法よりも、回路深度における多くの桁数の減少を示す。 例えば、srvo$_3$) strontium vanadate のリソース要件を 3\times3\times3$ 格子で 864 から 180 qubits に改善し、単一のトロッターまたは変分層の回路深さを 7.5\times 10^8$ から 884$ に改善した。 量子アルゴリズム設計は材料や応用を理解することを取り入れているため,スケーラブルでフォールトトレラントな量子コンピュータを必要とせずに,材料シミュレーションが量子コンピュータ上で実現可能であることを示す。

Simulation of materials is one of the most promising applications of quantum computers. On near-term hardware the crucial constraint on these simulations is circuit depth. Many quantum simulation algorithms rely on a layer of unitary evolutions generated by each term in a Hamiltonian. This appears in time-dynamics as a single Trotter step, and in variational quantum eigensolvers under the Hamiltonian variational ansatz as a single ansatz layer. We present a new quantum algorithm design for materials modelling where the depth of a layer is independent of the system size. This design takes advantage of the locality of materials in the Wannier basis and employs a tailored fermionic encoding that preserves locality. We analyse the circuit costs of this approach and present a compiler that transforms density functional theory data into quantum circuit instructions -- connecting the physics of the material to the simulation circuit. The compiler automatically optimises circuits at multiple levels, from the base gate level to optimisations derived from the physics of the specific target material. We present numerical results for materials spanning a wide structural and technological range. Our results demonstrate a reduction of many orders of magnitude in circuit depth over standard prior methods that do not consider the structure of the Hamiltonian. For example our results improve resource requirements for Strontium Vanadate (SrVO$_3$) from 864 to 180 qubits for a $3\times3\times3$ lattice, and the circuit depth of a single Trotter or variational layer from $7.5\times 10^8$ to depth $884$. Although this is still beyond current hardware, our results show that materials simulation may be feasible on quantum computers without necessarily requiring scalable, fault-tolerant quantum computers, provided quantum algorithm design incorporates understanding of the materials and applications.
翻訳日:2023-02-11 06:34:37 公開日:2022-11-10
# 非局所性を示す物質波ラリティータッパー干渉計

A matter wave Rarity-Tapster interferometer to demonstrate non-locality ( http://arxiv.org/abs/2206.08560v2 )

ライセンス: Link先を確認
Kieran F. Thomas, Bryce M. Henson, Yu Wang, Robert J. Lewis-Swan, Karen V. Kheruntsyan, Sean S. Hodgman, Andrew G. Truscott(参考訳) 本稿では, ヘリウムボース-アインシュタイン凝縮体を共役させた2ドルの散乱ハローを用いたRarity-Tapster干渉計を用いて, 物質波系における量子非局所性を示す実験的なアプローチを提案する。 本手法の理論的基礎を論じ,その適合性を実験的に定量化する。 概念の証明として、ベル不等式(英語版)のクロージャ・ホーン・シモニー・ホルト(英語版)(chsh)バージョンに対して最大 cshs-ベルパラメータが$s=1.1(1)$ に対応する、v=0.42(9)$ の干渉可視性を、$\sim 4$ の相関長で分離した原子間で実証する。 これは、巨大粒子の運動自由度に対するベルの不等式違反の実証と、重力に敏感な系における量子効果の測定への重要な一歩である。

We present an experimentally viable approach to demonstrating quantum non-locality in a matter wave system via a Rarity-Tapster interferometer using two $s$-wave scattering halos generated by colliding helium Bose-Einstein condensates. The theoretical basis for this method is discussed, and its suitability is experimentally quantified. As a proof of concept, we demonstrate an interferometric visibility of $V=0.42(9)$, corresponding to a maximum CSHS-Bell parameter of $S=1.1(1)$, for the Clauser-Horne-Shimony-Holt (CHSH) version of the Bell inequality, between atoms separated by $\sim 4$ correlation lengths. This constitutes a significant step towards a demonstration of a Bell inequality violation for motional degrees of freedom of massive particles and possible measurements of quantum effects in a gravitationally sensitive system.
翻訳日:2023-02-09 02:07:57 公開日:2022-11-10
# ノイズ診断とフィルタベースディジタルエラー軽減のためのスペクトル解析

Spectral analysis for noise diagnostics and filter-based digital error mitigation ( http://arxiv.org/abs/2206.08811v2 )

ライセンス: Link先を確認
Enrico Fontana, Ivan Rungger, Ross Duncan, Cristina C\^irstoiu(参考訳) スペクトル解析と古典的信号処理ツールを用いて、パラメータ化量子回路における雑音の影響を調べる。 異なるノイズモデルでは、デバイスエラーによる出力信号に含まれる追加の高周波数モードを定量化する。 これらのノイズによるモードのフィルタリングはデバイスエラーを効果的に軽減することを示す。 既存の手法と組み合わせると、ノイズのない変動景観の再構成が改善される。 さらに、これらの技術に対する古典的および量子的リソース要件を説明し、量子ハードウェア上での応用動機回路の有効性を検証した。

We investigate the effects of noise on parameterised quantum circuits using spectral analysis and classical signal processing tools. For different noise models, we quantify the additional, higher frequency modes in the output signal caused by device errors. We show that filtering these noise-induced modes effectively mitigates device errors. When combined with existing methods, this yields an improved reconstruction of the noiseless variational landscape. Moreover, we describe the classical and quantum resource requirements for these techniques and test their effectiveness for application motivated circuits on quantum hardware.
翻訳日:2023-02-09 02:00:22 公開日:2022-11-10
# 非可換空間における異方性調和振動子の位相空間分布の絡み合い

Entanglement in phase-space distribution for an anisotropic harmonic oscillator in noncommutative space ( http://arxiv.org/abs/2206.10599v3 )

ライセンス: Link先を確認
Pinaki Patra(参考訳) 非可換空間における異方性調和振動子に対応する二粒子ガウス状態は、シモンの分離条件(一般化されたペレス・ホロデツキ基準)の助けを借りて研究される。 非可換座標間の絡み合いを示すために、パラメータ(質量と周波数)は一意な制約方程式を満たさなければならないことが判明した。 システムの厳密な解はモデルを対角化し、内在的なシンプレクティック構造を保ち続けることによって得られる。 位相空間におけるウィグナー準確率分布を研究することで、絡み合う自由度を同定できることが示されている。 コーディネートは他のコーディネートに対応する共役運動量のみに絡み合っていることを示した。

The bi-partite Gaussian state, corresponding to an anisotropic harmonic oscillator in a noncommutative-space, is investigated with the help of the Simon's separability condition (generalized Peres-Horodecki criterion). It turns out that, in order to exhibit the entanglement between the noncommutative co-ordinates, the parameters (mass and frequency) have to satisfy an unique constraint equation. Exact solutions for the system are obtained after diagonalizing the model, keeping the intrinsic symplectic structure intact. It is shown that, the identification of the entangled degrees of freedom is possible by studying the Wigner quasiprobability distribution in phase-space. We have shown that the co-ordinates are entangled only with the conjugate momentum corresponding to other co-ordinates.
翻訳日:2023-02-08 23:34:13 公開日:2022-11-10
# 量子階層モデルにおける局所励起の拡散

Spreading of a local excitation in a Quantum Hierarchical Model ( http://arxiv.org/abs/2207.06790v2 )

ライセンス: Link先を確認
Luca Capizzi, Guido Giachetti, Alessandro Santini and Mario Collura(参考訳) 常磁性相における量子ダイソン階層モデルのダイナミクスについて検討する。 地磁気場状態の局所励起による初期状態を考慮する。 階層ネットワーク上の単一粒子ダイナミクスを解くことによって,その時間進化の予測を行う。 局在化機構が発見され、励起は任意のタイミングで初期位置に近いままである。 さらに、空間と時間の間の普遍的なスケーリングは、相互作用の代数的減衰に関係し、$r^{-1-\sigma}$ と表される。 我々は,大磁場のテンソルネットワーク技術を用いた数値計算と比較し,多体力学における機構の堅牢性について議論した。

We study the dynamics of the quantum Dyson hierarchical model in its paramagnetic phase. An initial state made by a local excitation of the paramagnetic ground state is considered. We provide analytical predictions for its time evolution, solving the single-particle dynamics on a hierarchical network. A localization mechanism is found and the excitation remains close to its initial position at arbitrary times. Furthermore, a universal scaling among space and time is found related to the algebraic decay of the interactions as $r^{-1-\sigma}$. We compare our predictions to numerics, employing tensor network techniques, for large magnetic fields, discussing the robustness of the mechanism in the full many-body dynamics.
翻訳日:2023-02-05 01:28:59 公開日:2022-11-10
# 駆動トランスモンにおける古典的カオスの思い出

Reminiscence of classical chaos in driven transmons ( http://arxiv.org/abs/2207.09361v2 )

ライセンス: Link先を確認
Joachim Cohen, Alexandru Petrescu, Ross Shillito, Alexandre Blais(参考訳) トランスモン量子ビットは超伝導量子情報プロセッサアーキテクチャにおいてユビキタスに使われている。 強力な駆動は、パラメトリック活性化プロセスを含む高速で高忠実なゲートと測定を実現するために必要である。 ここでは,実験で日常的に使用される無共鳴ドライブであっても,その大部分がカオス性を持つトランスモンスペクトルの構造に強い修正を生じさせる可能性があることを示す。 フロッケ=マルコフ形式論におけるトランスモンの完全な非線形ダイナミクスを考えると、これらのカオス状態は、しばしば無調和性が弱いという仮説によって無視され、トランスモンの計算状態の寿命に強く影響する。 特に,カオス支援型量子位相すべりはバンド分散を大幅に促進する。 測定共振器の存在下では、カオス的挙動に近づくと、強いトランスモン共振器ハイブリッド化と、素共振器周波数を中心とする平均共振器応答とが相関することがわかった。 これらの結果は、分散量子ビットの読み出しのような強い駆動動作中のカオス誘起量子分解効果の出現を特徴付ける光子数しきい値をもたらす。 ここで述べた現象は、低インピーダンスジョセフソン接合に基づく全ての回路に存在することが期待されている。

Transmon qubits are ubiquitously used in superconducting quantum information processor architectures. Strong drives are required to realize fast, high-fidelity, gates and measurements, including parametrically activated processes. Here, we show that even off-resonant drives, in regimes routinely used in experiments, can cause strong modifications to the structure of the transmon spectrum rendering a large part of it chaotic. Accounting for the full nonlinear dynamics of the transmon in a Floquet-Markov formalism, we find that these chaotic states, often neglected through the hypothesis that the anharmonicity is weak, strongly impact the lifetime of the transmon's computational states. In particular, we observe that chaos-assisted quantum phase slips greatly enhance band dispersions. In the presence of a measurement resonator, we find that approaching chaotic behavior correlates with strong transmon-resonator hybridization, and an average resonator response centered on the bare resonator frequency. These results lead to a photon number threshold characterizing the appearance of chaos-induced quantum demolition effects during strong-drive operations such as dispersive qubit readout. The phenomena described here are expected to be present in all circuits based on low-impedance Josephson-junctions.
翻訳日:2023-02-04 13:00:15 公開日:2022-11-10
# 近似パウリ・フィエルツモデルに対するカシミール・ポルダー効果:原子+壁の場合

The Casimir-Polder effect for an approximate Pauli-Fierz model: the atom plus wall case ( http://arxiv.org/abs/2208.02203v2 )

ライセンス: Link先を確認
Marco Olivieri(参考訳) 無限導体壁と相互作用する水素原子からなる系について検討した。 相互作用エネルギーは、ファン・デル・ワールス力の出現により、原子と壁の間の距離を l$ とすると、$l^{-3}$ のように崩壊する。 本稿では, 電磁場の量子ゆらぎによる寄与を考慮すると, カシミール・ポルダー効果(Casimir-Polder effect)の名で生じる遅延効果を生じさせる秩序$L^{-4}$の崩壊により相互作用が弱まることを示す。 この分析は、システムに関連する適切なパウリ・フィエルツモデルを双極子近似で研究し、0および1光子との相互作用に還元する。

We study a system composed of a hydrogen atom interacting with an infinite conductor wall. The interaction energy decays like $L^{-3}$, where $L$ is the distance between the atom and the wall, due to the emergence of the van der Waals forces. In this paper we show how, considering the contributions from the quantum fluctuations of the electromagnetic field, the interaction is weakened to a decay of order $L^{-4}$ giving rise to the retardation effects which fall under the name of Casimir-Polder effect. The analysis is done by studying a suitable Pauli-Fierz model associated to the system, in dipole approximation and reduced to the interaction with 0 and 1 photon.
翻訳日:2023-02-02 09:55:40 公開日:2022-11-10
# 時間周期系の最適ハミルトニアンシミュレーション

Optimal Hamiltonian simulation for time-periodic systems ( http://arxiv.org/abs/2209.05048v2 )

ライセンス: Link先を確認
Kaoru Mizuta and Keisuke Fujii(参考訳) 時間発展作用素 $u(t)$ の実装はハミルトニアンシミュレーションと呼ばれ、量子コンピュータの最も有望な利用の1つである。 時間非依存ハミルトニアンにとって、量子化は時間進化$U(t)=e^{-iHt}$の効率的な実現を確立し、時間$t$と許容可能なエラー$\varepsilon$の両方で最適な計算資源を達成する。 対照的に、時間依存システムでは、時間依存の処理が難しいため、よりコストがかかる。 本稿では,Floquetシステムと呼ばれる時間周期性を持つ汎用時間依存システムに対して,最適・近接最適ハミルトニアンシミュレーションを確立する。 フーリエ指数をラベル付けした補助状態を備えたいわゆるFloquet-Hilbert空間を用いることで、時間順積やダイソン系列の展開に依存することなく、確実に対象の時間進化状態を得る方法を開発した。 したがって、時間発展を実装するためのコストを測定するクエリ複雑性は、時間$t$と逆誤差$\varepsilon$でそれぞれ最適およびほぼ最適依存性を持ち、量子化のコストに十分近いものとなる。 そこで本プロトコルでは,時間依存型システムでは,時間依存型システムのように,時間依存型システムのように効率的にアクセス可能なクラスを提供する。 また,非平衡現象のシミュレーションや断熱状態の合成にも応用できるため,凝縮物物理学や量子化学における非平衡現象や,量子計算における時間依存性をもたらす量子タスクに光を当てる。

The implementation of time-evolution operators $U(t)$, called Hamiltonian simulation, is one of the most promising usage of quantum computers. For time-independent Hamiltonians, qubitization has recently established efficient realization of time-evolution $U(t)=e^{-iHt}$, with achieving the optimal computational resource both in time $t$ and an allowable error $\varepsilon$. In contrast, those for time-dependent systems require larger cost due to the difficulty of handling time-dependency. In this paper, we establish optimal/nearly-optimal Hamiltonian simulation for generic time-dependent systems with time-periodicity, known as Floquet systems. By using a so-called Floquet-Hilbert space equipped with auxiliary states labeling Fourier indices, we develop a way to certainly obtain the target time-evolved state without relying on either time-ordered product or Dyson-series expansion. Consequently, the query complexity, which measures the cost for implementing the time-evolution, has optimal and nearly-optimal dependency respectively in time $t$ and inverse error $\varepsilon$, and becomes sufficiently close to that of qubitization. Thus, our protocol tells us that, among generic time-dependent systems, time-periodic systems provides a class accessible as efficiently as time-independent systems despite the existence of time-dependency. As we also provide applications to simulation of nonequilibrium phenomena and adiabatic state preparation, our results will shed light on nonequilibrium phenomena in condensed matter physics and quantum chemistry, and quantum tasks yielding time-dependency in quantum computation.
翻訳日:2023-01-26 22:23:58 公開日:2022-11-10
# 擬似ハーミティティーによる擬似エントロピーの構成可能現実条件

Constructible reality condition of pseudo entropy via pseudo-Hermiticity ( http://arxiv.org/abs/2209.07308v2 )

ライセンス: Link先を確認
Wu-zhong Guo, Song He, Yu-Xuan Zhang(参考訳) 絡み合いのエントロピーの一般化として、擬エントロピーは必ずしも現実ではない。 実数値擬エントロピーはホログラフィと量子相転移に有望な応用がある。 擬楕円性の概念を擬似エントロピーの現実条件の定式化に適用する。 我々は、還元された遷移行列の固有値が固有値の実または複素対を持つ遷移行列の一般形式を見つける。 さらに、擬(R\'enyi)エントロピーが非負となる遷移行列のクラスを構築する。 量子場理論における実擬エントロピーを与えるいくつかの既知の例は、我々の枠組みで説明できる。 この結果は, 実擬エントロピーを持つ遷移行列を生成する新しい手法を提供する。 最後に、擬似エントロピーの現実条件は、量子場理論の富田・竹崎モジュラー理論と関連していることを示す。

As a generalization of entanglement entropy, pseudo entropy is not always real. The real-valued pseudo entropy has promising applications in holography and quantum phase transition. We apply the notion of pseudo-Hermticity to formulate the reality condition of pseudo entropy. We find the general form of the transition matrix for which the eigenvalues of the reduced transition matrix possess real or complex pairs of eigenvalues. Further, we construct a class of transition matrices for which the pseudo (R\'enyi) entropies are non-negative. Some known examples which give real pseudo entropy in quantum field theories can be explained in our framework. Our results offer a novel method to generate the transition matrix with real pseudo entropy. Finally, we show the reality condition for pseudo entropy is related to the Tomita-Takesaki modular theory for quantum field theory.
翻訳日:2023-01-26 12:07:09 公開日:2022-11-10
# 量子コンピュータの固有エネルギー推定のための正弦ハミルトニアン作用素のパワー

Power of Sine Hamiltonian Operator for Estimating the Eigenstate Energies on Quantum Computers ( http://arxiv.org/abs/2209.14801v2 )

ライセンス: Link先を確認
Qingxing Xie, Yi Song and Yan Zhao(参考訳) 量子コンピュータは、量子化学における難しい問題を解決する上で大きな可能性を秘めている。 本稿では, 与えられたハミルトニアン (h) の固有値を評価するために, シン・ハミルトニアン作用素 (psho) のパワー (power of sine hamiltonian operator) と呼ばれる新しい古典量子ハイブリッド法を提案する。 PSHOでは、任意の参照状態に対して、正弦ハミルトンパワー状態の正規化エネルギーを決定することができる。 パワーの増加により、初期基準状態は、基準状態の膨張係数において最大の絶対固有値を持つ固有状態に収束し、正弦ハミルトニアンパワー状態の正規化エネルギーは、アイに収束する。 ハミルトンの基底エネルギーと励起状態エネルギーは、異なるt値を取ることで決定できる。 PSHO法の性能はH4分子とLiH分子の数値計算によって実証される。 現在の変分量子固有解法と比較して、PSHOはアンザッツ回路を設計する必要がなく、複雑な非線形最適化問題を回避している。 PSHOは、短期量子デバイスにおいて大きな応用可能性を持っている。

Quantum computers have been shown to have tremendous potential in solving difficult problems in quantum chemistry. In this paper, we propose a new classical quantum hybrid method, named as power of sine Hamiltonian operator (PSHO), to evaluate the eigenvalues of a given Hamiltonian (H). In PSHO, for any reference state, the normalized energy of the sine Hamiltonian power state can be determined. With the increase of the power, the initial reference state can converge to the eigenstate with the largest absolute eigenvalue in the coefficients of the expansion of reference state, and the normalized energy of the sine Hamiltonian power state converges to Ei. The ground and excited state energies of a Hamiltonian can be determined by taking different t values. The performance of the PSHO method is demonstrated by numerical calculations of the H4 and LiH molecules. Compared with the current popular variational quantum eigensolver method, PSHO does not need to design the ansatz circuits and avoids the complex nonlinear optimization problems. PSHO has great application potential in near term quantum devices.
翻訳日:2023-01-24 16:52:00 公開日:2022-11-10
# 適応バイアス量子近似最適化アルゴリズムによるSAT問題の解法

Solution of SAT Problems with the Adaptive-Bias Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2210.02822v2 )

ライセンス: Link先を確認
Yunlong Yu, Chenfeng Cao, Xiang-Bin Wang, Nic Shannon, and Robert Joynt(参考訳) 量子近似最適化アルゴリズム(QAOA)は、短期量子デバイスにおける古典的な組合せ最適化問題を解くための有望な方法である。 QAOA を 3-SAT および Max-3-SAT 問題に使用する場合、量子コストは、節密度が変化するにつれて、それぞれ容易にハードなパターンまたは簡単なハードなパターンを示す。 ハードリージョン問題で必要とされる量子リソースは、現在のNISQデバイスには及ばない。 本稿では, 適応バイアスQAOA (ab-QAOA) は, 簡単なハードあるいは簡単なハードの遷移を示さず, ハード領域の3SATとMax-3-SATの20倍のスピードアップを達成できることを示す。 この改良は、進化の過程でより標的にされ、より限定された絡み合いから生じる。 本稿では,ab-QAOAでは局所場を用いて進化を導くため,古典最適化は必須ではないことを示す。 これにより,Ab-QAOAに比べて量子ゲートが著しく少ないハードリージョン3SATとMax-3-SATの問題を効果的に解くことができる最適化フリーなAb-QAOAを提案する。 我々の研究は、NISQデバイスにおける最適化問題に対する量子アドバンテージを実現するための道を開いた。

The quantum approximate optimization algorithm (QAOA) is a promising method for solving certain classical combinatorial optimization problems on near-term quantum devices. When employing the QAOA to 3-SAT and Max-3-SAT problems, the quantum cost exhibits an easy-hard-easy or easy-hard pattern respectively as the clause density is changed. The quantum resources needed in the hard-region problems are out of reach for current NISQ devices. We show by numerical simulations and analytical arguments that the adaptive-bias QAOA (ab-QAOA) does not show the easy-hard or easy-hard-easy transitions and can achieve a 20 and 70-fold speedup for the hard-region 3-SAT and Max-3-SAT problems, respectively. The improvement comes from a more targeted and more limited generation of entanglement during the evolution. We demonstrate that classical optimization is not strictly necessary in the ab-QAOA since local fields are used to guide the evolution. This leads us to propose an optimization-free ab-QAOA that can solve the hard-region 3-SAT and Max-3-SAT problems effectively with significantly fewer quantum gates as compared to the original ab-QAOA. Our work paves the way for realizing quantum advantages for optimization problems on NISQ devices.
翻訳日:2023-01-23 15:01:36 公開日:2022-11-10
# 一次元水鎖における量子相転移

A quantum phase transition in the one-dimensional water chain ( http://arxiv.org/abs/2210.08124v2 )

ライセンス: Link先を確認
Tobias Serwatka, Roger G. Melko, Anton Burkov, and Pierre-Nicholas Roy(参考訳) 量子相転移(QPT)の概念は凝縮物質系の記述において中心的な役割を果たす。 本研究では, 量子相転移が重要な分子系である水に存在し, 回転分子の線形鎖を形成することを実証するために, 高品質な波動関数に基づくシミュレーションを行う。 種々の臨界指数を決定し、水鎖 QPT を (1+1) 次元イジング普遍性クラスに属することを明らかにする。 さらに, 破壊対称性の影響について検討し, 反転対称性を破ることにより, 秩序量子相の基底状態縮退が持ち上げられ, 反対の偏極を持つ2つの多体状態が得られることを示した。 強誘電性相を形成する可能性と、量子臨界状態の熱安定性を最大10Kにすることで、線形水鎖は量子デバイスのプラットフォームとして有望な候補となる。

The concept of quantum phase transitions (QPT) plays a central role in the description of condensed matter systems. In this contribution, we perform high-quality wavefunction-based simulations to demonstrate the existence of a quantum phase transition in a crucially relevant molecular system, namely water, forming linear chains of rotating molecules. We determine various critical exponents and reveal the water chain QPT to belong to the (1+1) dimensional Ising universality class. Furthermore, the effect of breaking symmetries is examined and it is shown that by breaking the inversion symmetry, the ground state degeneracy of the ordered quantum phase is lifted to yield two many-body states with opposite polarization. The possibility of forming ferroelectric phases together with a thermal stability of the quantum critical regime up to ~10 K makes the linear water chain a promising candidate as a platform for quantum devices.
翻訳日:2023-01-22 14:02:23 公開日:2022-11-10
# 時間-ビンフォトニックquditsを用いたメモリ必要最小限の絡み合い分布

Entanglement distribution with minimal memory requirements using time-bin photonic qudits ( http://arxiv.org/abs/2210.16540v2 )

ライセンス: Link先を確認
Yunzhe Zheng, Hemant Sharma, and Johannes Borregaard(参考訳) 分散ノード間で複数の量子ビット対を生成することは、将来の量子インターネットの前提条件である。 実用可能な生成率を達成するために、フォトニック量子ビットに基づく標準プロトコルは複数の長期量子記憶を必要とする。 本稿では,2つの分散量子ビットレジスタ間で複数の(m$)絡み合ったペアを同時に生成できる2^m$次元の時間ビンフォトニックキューディットに基づく新しいプロトコルを提案し,キャビティを介するスピン光子相互作用に基づくプロトコルの実装について概説する。 quditプロトコルを採用することで、必要なqubitメモリ時間は、標準のqubitアプローチとは対照的に、ノード間の伝送損失に依存します。 このように、我々のプロトコルは、短期量子ネットワークの性能を大幅に向上させることができる。

Generating multiple entangled qubit pairs between distributed nodes is a prerequisite for a future quantum internet. To achieve a practicable generation rate, standard protocols based on photonic qubits require multiple long-term quantum memories, which remains a significant experimental challenge. In this paper, we propose a novel protocol based on $2^m$-dimensional time-bin photonic qudits that allow for the simultaneous generation of multiple ($m$) entangled pairs between two distributed qubit registers and outline a specific implementation of the protocol based on cavity-mediated spin-photon interactions. By adopting the qudit protocol, the required qubit memory time is independent of the transmission loss between the nodes in contrast to standard qubit approaches. As such, our protocol can significantly boost the performance of near-term quantum networks.
翻訳日:2023-01-21 03:08:40 公開日:2022-11-10
# 位相的シンプレクティック近藤問題の厳密解

Exact solution of the topological symplectic Kondo problem ( http://arxiv.org/abs/2211.00034v2 )

ライセンス: Link先を確認
Elio J. K\"onig and Alexei M. Tsvelik(参考訳) 近藤効果は強相関電子系の物理学における典型的な現象である。 最近の注目は、アノン様不純物エントロピーの残余な近藤不純物を利用して、近藤物理学を量子情報科学に応用することである。 この物理は、微調整されたマルチチャネル近藤やマヨラナのトポロジカル近藤効果において提案されているが、シンプレクティック対称性を持つ近藤効果と、共鳴レベルの配列に結合する従来のs波超伝導と、完全チャネル対称性やマヨラナフェルミオンを必要としない実装の詳細について述べる。 摂動の役割を慎重に議論し、大域ゼーマンが2チャネルSU(k)固定点までシステムを駆動することを示す。 残留エントロピー、比熱、磁化の具体的な結果は、Sp(2k)の熱力学Bethe Ansatzを用いて導出される。 この解は、アノン様ヒルベルト空間次元を持つ量子臨界基底状態の存在を証明するだけでなく、臨界点における特に弱い非フェルミ液体の挙動を証明する。 我々は、非分析性の弱さを、不純物における状態の抑制された密度の表示として解釈し、置換性エノンと伝導電子の非常に弱い結合だけを引き起こす。 この弱い接続、設計の単純さ、効果の安定性を考えると、シンプレクティック近藤効果は特に量子情報応用に適していると推測する。

The Kondo effect is an archetypical phenomenon in the physics of strongly correlated electron systems. Recent attention has focused on the application of Kondo physics to quantum information science by exploiting overscreened Kondo impurities with residual anyon-like impurity entropy. While this physics was proposed in the fine-tuned multi-channel Kondo setup or in the Majorana-based topological Kondo effect, we here study the Kondo effect with symplectic symmetry Sp(2k) and present details about the implementation which importantly only involves conventional s-wave superconductivity coupled to an array of resonant levels and neither requires perfect channel symmetry nor Majorana fermions. We carefully discuss the role of perturbations and show that a global Zeeman drives the system to a 2-channel SU(k) fixed point. Exact results for the residual entropy, specific heat, and magnetization are derived using the thermodynamic Bethe Ansatz for Sp(2k). This solution not only proves the existence of a quantum critical ground state with anyon-like Hilbert space dimension but also a particularly weak non-Fermi liquid behavior at criticality. We interpret the weakness of non-analyticities as a manifestation of suppressed density of states at the impurity causing only a very weak connection of putative anyons and conduction electrons. Given this weak connection, the simplicity of the design, and the stability of the effect, we conjecture that the symplectic Kondo effect may be particularly suitable for quantum information applications.
翻訳日:2023-01-20 22:08:45 公開日:2022-11-10
# コールド原子量子シミュレータにおける力学物質を含む大規模2+1$d$\mathrm{u}(1)$ゲージ理論

Large-Scale $2+1$D $\mathrm{U}(1)$ Gauge Theory with Dynamical Matter in a Cold-Atom Quantum Simulator ( http://arxiv.org/abs/2211.01380v2 )

ライセンス: Link先を確認
Jesse Osborne, Ian P. McCulloch, Bing Yang, Philipp Hauke, Jad C. Halimeh(参考訳) 量子シミュレータ技術の主要な推進役は、高レベルの制御とチューニング性で合成量子物質のセットアップにおいて高エネルギー現象を観測することである。 ここでは,スピンレスボーソンを用いたコールド原子量子シミュレータにおいて,動的物質とゲージ場を持つ大規模2+1$d$\mathrm{u}(1)$ゲージ理論を実験的に実現することを提案する。 対応するガウスの法則のボソニック計算基底への全写像を提示する。 次に,2つの空間周期を有する2次元単種bose-hubbard光学リーブ超格子において,目標ゲージ理論を創発的ゲージ保護項によって忠実に実現・安定化できることを示す。 無限行列積状態を用いて断熱スイープと大域的クエンチダイナミクスの数値ベンチマークを計算し、マッピングの忠実性をさらに確認する。 我々の研究は、ゲージ理論の量子シミュレーターを高空間次元における粒子物理学の研究において大きな前進をもたらし、既存の冷原子プラットフォームで容易に実装できる。

A major driver of quantum-simulator technology is the prospect of probing high-energy phenomena in synthetic quantum matter setups at a high level of control and tunability. Here, we propose an experimentally feasible realization of a large-scale $2+1$D $\mathrm{U}(1)$ gauge theory with dynamical matter and gauge fields in a cold-atom quantum simulator with spinless bosons. We present the full mapping of the corresponding Gauss's law onto the bosonic computational basis. We then show that the target gauge theory can be faithfully realized and stabilized by an emergent gauge protection term in a two-dimensional single-species Bose--Hubbard optical Lieb superlattice with two spatial periods along either direction, thereby requiring only moderate experimental resources already available in current cold-atom setups. Using infinite matrix product states, we calculate numerical benchmarks for adiabatic sweeps and global quench dynamics that further confirm the fidelity of the mapping. Our work brings quantum simulators of gauge theories a significant step forward in terms of investigating particle physics in higher spatial dimensions, and is readily implementable in existing cold-atom platforms.
翻訳日:2023-01-20 16:39:22 公開日:2022-11-10
# 連続体に非線形境界状態を持つ系を用いた光学系における大きなフォック状態と大圧縮状態の生成

Creating large Fock states and massively squeezed states in optics using systems with nonlinear bound states in the continuum ( http://arxiv.org/abs/2211.01514v2 )

ライセンス: Link先を確認
Nicholas Rivera, Jamison Sloan, Yannick Salamin, John D. Joannopoulos, and Marin Soljacic(参考訳) 電磁場の量子化は、フォック状態(Fock state)と呼ばれる、正確な整数数の光子を持つ量子力学的状態の存在に直接繋がる。 これらの基本的な状態は長い間理解されており、多くの潜在的な応用にもかかわらず、それらを生成することは概してオープンな問題である。 例えば、光周波数では、2次以上のフォック状態を決定論的に生成することは困難である。 本稿では,非線形光学における新しい効果の存在を予測し,任意の周波数における大きなフォック状態の決定論的生成を可能にする。 連続体におけるn-光子束縛状態(n-光子束縛状態)と呼ばれるこの効果は、光子nの正確な数が共鳴の内側にある場合、光子共鳴(キャビティモードなど)が失われる。 解析理論と数値シミュレーションに基づいて、これらの境界状態は、光のコヒーレントな状態が、この境界状態を支持する系に注入されると、制御可能な光子数のフォック状態に自然に進化する現象を可能にすることを示す。 この効果は、古典物理学(すなわちショットノイズ)から期待される値よりも光子数のゆらぎが(遠く)低い光を(非常に)絞った状態を作り出すためにも直接適用できる。 非線形ナノフォトニクスシステムにおいて予測された効果を実験的に実現するためのシステムの例をいくつか提案し、大きな n (n > 10) の光フォック状態と、非常に大きなスクイージングを持つよりマクロなフォトニック状態を生成する例を示し、ショットノイズに関連する古典的な値よりも90%少ないノイズ(10dB)を持つ。

The quantization of the electromagnetic field leads directly to the existence of quantum mechanical states, called Fock states, with an exact integer number of photons. Despite these fundamental states being long-understood, and despite their many potential applications, generating them is largely an open problem. For example, at optical frequencies, it is challenging to deterministically generate Fock states of order two and beyond. Here, we predict the existence of a new effect in nonlinear optics, which enables the deterministic generation of large Fock states at arbitrary frequencies. The effect, which we call an n-photon bound state in the continuum, is one in which a photonic resonance (such as a cavity mode) becomes lossless when a precise number of photons n is inside the resonance. Based on analytical theory and numerical simulations, we show that these bound states enable a remarkable phenomenon in which a coherent state of light, when injected into a system supporting this bound state, can spontaneously evolve into a Fock state of a controllable photon number. This effect is also directly applicable for creating (highly) squeezed states of light, whose photon number fluctuations are (far) below the value expected from classical physics (i.e., shot noise). We suggest several examples of systems to experimentally realize the effects predicted here in nonlinear nanophotonic systems, showing examples of generating both optical Fock states with large n (n > 10), as well as more macroscopic photonic states with very large squeezing, with over 90% less noise (10 dB) than the classical value associated with shot noise.
翻訳日:2023-01-20 16:30:58 公開日:2022-11-10
# マルチループ散乱振幅の因果関係の量子アルゴリズム

Quantum Algorithm for Querying Causality of Multiloop Scattering Amplitudes ( http://arxiv.org/abs/2211.05487v1 )

ライセンス: Link先を確認
Selomit Ram\'irez-Uribe(参考訳) 量子アルゴリズムの最初のFeynmanループ積分への応用について概説する。 量子コンピューティングと摂動場理論の接続は、ファインマンプロパゲータの2つのオンシェル状態が自然に量子ビットに符号化されているという事実により実現可能である。 対処すべき特別な問題は、マルチループファインマン図形の因果特異配置の同定である。 このような構成の同定は、非構造化データセット上で複数のソリューションをクエリする修正Groverの量子アルゴリズムの実装によって行われる。

The first application of a quantum algorithm to Feynman loop integrals is reviewed. The connection between quantum computing and perturbative quantum field theory is feasible due to fact that the two on-shell states of a Feynman propagator are naturally encoded in a qubit. The particular problem to be addressed is the identification of the causal singular configurations of multiloop Feynman diagrams. The identification of such configurations is carried out through the implementation of a modified Grover's quantum algorithm for querying multiple solutions over unstructured datasets.
翻訳日:2023-01-19 19:44:19 公開日:2022-11-10
# コヒーレンス生成による低温量子温度測定

Low-temperature quantum thermometry boosted by coherence generation ( http://arxiv.org/abs/2211.05461v1 )

ライセンス: Link先を確認
Asghar Ullah, M. Tahir Naseem, and \"Ozg\"ur E. M\"ustecapl{\i}o\u{g}lu(参考訳) 低温の正確な推定は、基礎的および技術的に重要な問題である。 本研究では,温度計プローブにおける量子コヒーレンス発生による熱感度の高めによる低温計測手法を提案する。 プローブは試料と熱分解し、典型的な温度測定で測定される。 提案手法では,2レベル量子システム(qubit)をプローブとして検討し,ancilla qubitsの組をインタフェースとして試料への直接プローブアクセスを禁じた。 大域的なマスター方程式を導出して、プローブの開システムダイナミクスを記述することにより、アンシラ-プロベ系全体が試料とともに熱化するが、そのプローブは非局所散逸チャネル下において、個体数とコヒーレンスがサンプル温度に依存する非熱定常状態へと進化することを示す。 我々は, 量子フィッシャー情報を用いた低温測定の温度測定性能を特徴付け, 量子コヒーレンスとアンシラ量子ビット数の増加により, 異なる低温での複数のピークや高いピークが量子フィッシャー情報に出現することを発見した。 本研究では,非熱量子プローブ,特に量子コヒーレンス発生を,熱試料とプローブ量子ビットの多重量子ビット界面を用いて行うことで,温度推定の感度を高め,測定可能な低温範囲を広げることができることを明らかにした。

Precise estimation of low temperature is a question of both fundamental and technological significance. We address this question by presenting a low-temperature measurement scheme with enhanced thermal sensitivity due to quantum coherence generation in a thermometer probe. Probes are expected to thermalize with the sample to be measured in typical temperature measurements. In our scheme, we consider a two-level quantum system (qubit) as our probe and forbid direct probe access to the sample by using a set of ancilla qubits as an interface. By deriving a global master equation to describe the open system dynamics of the probe, we show that while the whole ancilla-probe system thermalizes with the sample, the probe per se evolves under nonlocal dissipation channels into a non-thermal steady state whose populations and coherences depend on the sample temperature. We characterize the thermometric performance of the low-temperature measurement using quantum Fisher information and we find that multiple and higher peaks at different low temperatures can emerge in the quantum Fisher information with increasing quantum coherence and number of ancilla qubits. Our analysis reveals that using non-thermal quantum probes, specifically quantum coherence generation in a qubit thermometer by a multiple qubit interface between a thermal sample and the probe qubit, can enhance the sensitivity of temperature estimation and broaden the measurable low temperatures range.
翻訳日:2023-01-19 19:44:12 公開日:2022-11-10
# 期待される要素識別問題に対する最適完全量子アルゴリズム

Optimal exact quantum algorithm for the promised element distinctness problem ( http://arxiv.org/abs/2211.05443v1 )

ライセンス: Link先を確認
Guanzhong Li and Lvzhou Li(参考訳) 要素差分問題は、文字列$x=(x_1,\ldots,x_N)$の$N$要素が同じ値の2つの要素(例えば衝突対)を含むかどうかを判断することであり、アンバイニスは最適量子アルゴリズムを提案した。 ambainisのアルゴリズムの背後にあるアイデアは、最初に、x$が少なくとも1つの衝突ペアを含むと約束されたバージョンに問題を縮小し、その後、promise問題の量子ウォーク検索に基づいて$o(n^{2/3})$クエリを必要とする$\mathcal{a}$というアルゴリズムを設計することである。 しかし、$\mathcal{a}$ は確率的であり、正しい答えを与えることができない。 したがって、本研究では、errが無く、$o(n^{2/3})$クエリを必要とするpromise問題の正確な量子アルゴリズムを設計する。 このアルゴリズムは最適である。 理論的には、擬ジョンソングラフ上の量子ウォーク探索演算子を任意の位相を持つように修正し、ヨルダンの補題を解析ツールとして、一般化されたグローバー作用素に量子ウォーク探索演算子を還元する。 これにより、最近提案された固定軸回転法(FXR)を正確な量子探索に利用し、100\%の成功を達成できる。

The element distinctness problem is to determine whether a string $x=(x_1,\ldots,x_N)$ of $N$ elements contains two elements of the same value (a.k.a colliding pair), for which Ambainis proposed an optimal quantum algorithm. The idea behind Ambainis' algorithm is to first reduce the problem to the promised version in which $x$ is promised to contain at most one colliding pair, and then design an algorithm $\mathcal{A}$ requiring $O(N^{2/3})$ queries based on quantum walk search for the promise problem. However, $\mathcal{A}$ is probabilistic and may fail to give the right answer. We thus, in this work, design an exact quantum algorithm for the promise problem which never errs and requires $O(N^{2/3})$ queries. This algorithm is proved optimal. Technically, we modify the quantum walk search operator on quasi-Johnson graph to have arbitrary phases, and then use Jordan's lemma as the analyzing tool to reduce the quantum walk search operator to the generalized Grover's operator. This allows us to utilize the recently proposed fixed-axis-rotation (FXR) method for exact quantum search, and hence achieve 100\% success.
翻訳日:2023-01-19 19:43:48 公開日:2022-11-10
# 量子ビット接続は量子回路の複雑さに影響を与えるか?

Does qubit connectivity impact quantum circuit complexity? ( http://arxiv.org/abs/2211.05413v1 )

ライセンス: Link先を確認
Jonathan Allcock, Pei Yuan, Shengyu Zhang(参考訳) 量子コンピューティングの物理的実装スキーム(超伝導量子ビット、量子ドット、低温原子など)は、特定の量子ビットにのみ2量子ゲートを適用することができる。 閉じ込められたイオンやフォトニクスに基づく他のスキームは、そのような制約を受けない。 例えば、1D鎖のような1次元の量子ビット接続に制限のないnビット量子回路をコンパイルすると、通常、深さが$O(n^2)$となり、サイズが$O(n)$になる。 n qubits 上のランダム回路は各層に$\theta(n)$ 2-qubit ゲートを持ち、それらの定数分数は距離 $\theta(n)$ によって分離された qubits に作用する。 ほぼすべてのn量子ビットユニタリは、深さ$\omega(4^n/n)$の量子回路と、サイズ$\omega(4^n)$の量子回路を必要とすることが知られているが、本論文では、1dチェーン量子ビット接続制約下でも、すべてのn$量子ビットユニタリを$o(4^n/n)$の回路で実装できることを示す。 この結果を拡張し,3方向のqubit接続について検討する。 まず、より一般的な接続グラフを検討し、グラフが接続されている限り、サイズは常に$o(4^n)$となることを示す。 深度について,d-次元格子,完全d-ary木,拡張グラフについて検討し,1D鎖に類似した結果を示す。 第2に,アシラが利用可能である場合を考える。 ancillae の場合、深さは多項式となり、空間的深さのトレードオフは指数関数的に多くの ancillae がない限り qubit 接続制約によって損なわれることはない。 第3に、対角的ユニタリや量子状態準備を含む特殊ユニタリを、機械学習や線形代数問題において多くの量子アルゴリズムで使用される基本課題として考える。

Some physical implementation schemes of quantum computing -- such as those based on superconducting qubits, quantum dots, and cold atoms -- can apply two-qubit gates only on certain pairs of qubits. Other schemes -- such as those based on trapped ions and photonics -- are not subject to such constraints. These qubit connectivity constraints are commonly viewed as a disadvantage; for example, compiling an unrestricted n-qubit quantum circuit to one with poor qubit connectivity, such as a 1D chain, usually results in a blowup of depth by $O(n^2)$ and size by $O(n)$. It is appealing to conjecture that this overhead is unavoidable -- a random circuit on n qubits has $\Theta(n)$ 2-qubit gates in each layer and a constant fraction of them act on qubits separated by distance $\Theta(n)$. While it is known that almost all n-qubit unitaries need quantum circuits of $\Omega(4^n/n)$ depth and $\Omega(4^n)$ size to realize, in this paper, we show that all $n$-qubit unitaries can be implemented by circuits of $O(4^n/n)$ depth and $O(4^n)$ size even under 1D chain qubit connectivity constraints. We extend this result and investigate qubit connectivity along three directions. First, we consider more general connectivity graphs, and show that the size can always be made $O(4^n)$ as long as the graph is connected. For depth, we study d-dimensional grids, complete d-ary trees and expander graphs, and show results similar to the 1D chain. Second, we consider the case when ancillae are available. We show that, with ancillae, the depth can be made polynomial, and the space-depth trade-off is not impaired by the qubit connectivity constraint unless we have exponentially many ancillae. Third, we consider special unitaries, including diagonal unitaries and quantum state preparation, the last being a fundamental task used in many quantum algorithms for machine learning and linear algebra problems.
翻訳日:2023-01-19 19:42:56 公開日:2022-11-10
# 重力質量殻の量子力学

Quantum dynamics of gravitational massive shell ( http://arxiv.org/abs/2211.05401v1 )

ライセンス: Link先を確認
Andrzej G\'o\'zd\'z, Marcin Kisielowski, W{\l}odzimierz Piechocki(参考訳) 真空中における自己重力性薄膜シェルの量子力学を考察した。 系の量子ハミルトニアンは正定値である。 選択されたパラメータセットの中で、量子シェルは地平線の上に跳ね返る。 量子系は対応する古典系の重力特異点に崩壊しないと考えられる。

The quantum dynamics of a self-gravitating thin matter shell in vacuum has been considered. Quantum Hamiltonian of the system is positive definite. Within chosen set of parameters, the quantum shell bounces above the horizon. Considered quantum system does not collapse to the gravitational singularity of the corresponding classical system.
翻訳日:2023-01-19 19:42:14 公開日:2022-11-10
# 41量子ビット超伝導プロセッサにおける位相零モードの観測

Observing topological zero modes on a 41-qubit superconducting processor ( http://arxiv.org/abs/2211.05341v1 )

ライセンス: Link先を確認
Yun-Hao Shi, Yu Liu, Yu-Ran Zhang, Zhongcheng Xiang, Kaixuan Huang, Tao Liu, Yong-Yi Wang, Jia-Chi Zhang, Cheng-Lin Deng, Gui-Han Liang, Zheng-Yang Mei, Hao Li, Tian-Ming Li, Wei-Guo Ma, Hao-Tian Liu, Chi-Tong Chen, Tong Liu, Ye Tian, Xiaohui Song, S. P. Zhao, Kai Xu, Dongning Zheng, Franco Nori, and Heng Fan(参考訳) ノイズのある中間スケール量子(NISQ)プロセッサ上で、量子物質の異なるエキゾチック位相をプログラミングすることは、量子シミュレーションの実用的な利点である。 ハイブリッドアナログ-デジタル量子シミュレータ上で正確な量子演算とアドレス可能な読み出しを行う能力は、実際の材料で非常に困難な創発的トポロジカル状態のプログラムと特徴付けを可能にする。 ここでは,1次元(1次元)の43量子ビット超伝導量子プロセッサ chuang-tzu を開発し,様々な種類の aubry-andr$\acute{\text{e}}$-harper (aah) モデルを開発した。 最大41量子ビットの対角AAHモデルの工学例を用いて、垂直磁場下での2次元(2次元)電子ガスを予測したホフスタッター蝶エネルギースペクトルを実験的に実証した。 さらに,Floquet 技術を用いて,非対角方向のAAHモデルの空隙を模擬し,バンド構造を直接測定し,量子ウォーク(QWs)における境界励起の局所化を目撃する。 バルクエッジ対応では, これまでに実験的に観測されたことのないギャップレス複合AAHモデルにおいて, 位相ゼロエネルギーエッジモードの存在を検証する。 驚くべきことに、量子プロセッサの40以上の量子ビット数は、ディラック点、エネルギーギャップの閉ざし、偶数と奇数の違い、エッジとバルク状態の区別を含む複雑なバンド構造から、1次元量子多体系の実質的なトポロジー的特徴を捉えるのに十分な大きさである。 高制御性フロッケ工学によって支援された超伝導量子プロセッサを用いて,nisq時代の量子トポロジカル多体系を探索する汎用ハイブリッドシミュレーション手法を確立した。

Programming different exotic topological phases of quantum matter on a noisy intermediate-scale quantum (NISQ) processor represents a practical advantage of quantum simulation. The capabilities to perform accurate quantum operations and addressable readouts on a hybrid analogue-digital quantum simulator enable to program and characterise emergent topological states that are very challenging in real materials. Here, we develop a one-dimensional (1D) 43-qubit superconducting quantum processor, named as Chuang-tzu, to engineer different types of Aubry-Andr$\acute{\text{e}}$-Harper (AAH) models. By engineering instances of diagonal AAH models using up to 41 qubits, we experimentally demonstrate the Hofstadter butterfly energy spectrum, predicted for a two-dimensional (2D) electron gas under a perpendicular magnetic field. In addition, we apply Floquet engineering to simulate gapless commensurate off-diagonal AAH models, directly measure the band structures and witness the localisation of a boundary excitation during its quantum walks (QWs). With the bulk-edge correspondence, we verify the existence of topological zero-energy edge modes in the gapless commensurate AAH models, which have never been experimentally observed before. Remarkably, the qubit number over 40 in our quantum processor is large enough to capture the substantial topological features of a 1D quantum many-body system from its complex band structure, including Dirac points, the energy gap's closing, the difference between the even and odd number of sites, and the distinction between edge and bulk states. Using a superconducting quantum processor assisted by highly controllable Floquet engineering, our results establish a versatile hybrid simulation approach to exploring quantum topological many-body systems in the NISQ era.
翻訳日:2023-01-19 19:42:10 公開日:2022-11-10
# Xパラメータに基づく量子コンピューティング応用のためのジョセフソン走行波パラメトリック増幅器の設計とシミュレーション

X-parameter based design and simulation of Josephson traveling-wave parametric amplifiers for quantum computing applications ( http://arxiv.org/abs/2211.05328v1 )

ライセンス: Link先を確認
Kaidong Peng, Rick Poore, Philip Krantz, David E. Root, Kevin P. O'Brien(参考訳) 量子適応型Xパラメータを用いて、損失回路成分の散逸の存在下で、汎用的、多ポート非線形パラメトリック回路のための効率的で正確かつ包括的分析フレームワークを提案する。 この手法をジョセフソン走行波パラメトリック増幅器(JTWPA)に適用し、超伝導およびスピン量子ビット量子コンピューティングアーキテクチャにおいて重要な要素である。 Xパラメータは古典的非線形回路の調和平衡解から生成され、次にフィールドラグ演算子基底にマッピングされるので、複数の相互作用モードのそれぞれに関連するエネルギーは古典的なパワーウェーブではなく光子占有に対応する。 汎用多ポート多周波数パラメトリック回路の量子効率の比例関係を提示し、2つの異なるJTWPA設計に対して評価した。 ゲインと量子効率は、時間領域解のフーリエ解析から得られたものと一致しているが、精度、速度、現実世界の障害、統計的変動、寄生効果、インピーダンスミスマッチ(バンド内およびバンド外)をシームレスに含む能力が向上している。 統合フローはKeysightのPathWave Advanced Design System (ADS)で実装され、MITの著者によるオープンソースシミュレーションコードであるJosephsonCircuits.jlで独立に実装されている。

We present an efficient, accurate, and comprehensive analysis framework for generic, multi-port nonlinear parametric circuits, in the presence of dissipation from lossy circuit components, based on "quantum-adapted" X-parameters. We apply this method to Josephson traveling-wave parametric amplifiers (JTWPAs) - a key component in superconducting and spin qubit quantum computing architectures - which are challenging to model accurately due to their thousands of linear and nonlinear circuit components. X-parameters are generated from a harmonic balance solution of the classical nonlinear circuit and then mapped to the field ladder operator basis, so that the energy associated with each of the multiple interacting modes corresponds to photon occupancy, rather than classical power waves. Explicit relations for the quantum efficiency of a generic, multi-port, multi-frequency parametric circuit are presented and evaluated for two distinct JTWPA designs. The gain and quantum efficiency are consistent with those obtained from Fourier analysis of time-domain solutions, but with enhanced accuracy, speed, and the ability to include real-world impairments, statistical variations, parasitic effects, and impedance mismatches (in- and out-of-band) seamlessly. The unified flow is implemented in Keysight's PathWave Advanced Design System (ADS) and independently in an open-source simulation code, JosephsonCircuits.jl, from the MIT authors.
翻訳日:2023-01-19 19:41:36 公開日:2022-11-10
# 重み付き局所ハミルトン問題のパラメータ化複雑性と量子指数時間仮説

Parameterized Complexity of Weighted Local Hamiltonian Problems and the Quantum Exponential Time Hypothesis ( http://arxiv.org/abs/2211.05325v1 )

ライセンス: Link先を確認
Michael J. Bremner, Zhengfeng Ji, Xingjian Li, Luke Mathieson, Mauro E.S. Morales(参考訳) 我々は、ハミング重み$k$の計算基底状態の重み付けされた量子状態が重み付けされた局所ハミルトン問題と呼ばれる局所ハミルトン問題のパラメータ化版を研究する。 ハミング重み制約は、系において許容される励起数や粒子数に対する制約として物理的解釈を持つことができる。 この問題は量子ウェフト階層の最初のレベルであるQW[1]であり、M[1] の量子アナログである QM[1] では難しいことを証明している。 この結果から,指数時間仮説(ETH)の自然量子アナログが偽でない限り,この問題はFPQTでは不可能であることが示唆された。

We study a parameterized version of the local Hamiltonian problem, called the weighted local Hamiltonian problem, where the relevant quantum states are superpositions of computational basis states of Hamming weight $k$. The Hamming weight constraint can have a physical interpretation as a constraint on the number of excitations allowed or particle number in a system. We prove that this problem is in QW[1], the first level of the quantum weft hierarchy and that it is hard for QM[1], the quantum analogue of M[1]. Our results show that this problem cannot be fixed-parameter quantum tractable (FPQT) unless certain natural quantum analogue of the exponential time hypothesis (ETH) is false.
翻訳日:2023-01-19 19:41:09 公開日:2022-11-10
# 二重量子ドットにおける量子プログラムのモジュール化と拡張性

Modularized and scalable compilation for quantum program in double quantum dots ( http://arxiv.org/abs/2211.05300v1 )

ライセンス: Link先を確認
Run-Hong He, Xu-Sheng Xu, Mark S. Byrd and Zhao-Ming Wang(参考訳) 任意の量子プログラムは、基盤となるハードウェア特性に応じて実行可能な形式にコンパイルする必要がある。 特定の物理プラットフォームによって課される制御の厳格な制限は、このタスクを難しくする可能性がある。 本稿では,アンザッツ回路をトレーニングし,半導体二重量子ドットにおける一重項量子ビットに対する一重項量子ゲート列の高忠実度コンパイルを実証的に実現するための新しい手法を提案する。 さらに,この制約付きシステムにおいて量子プログラムをモジュール的に実装し,その性能を2つの代表的かつ有意義なデモンストレーション,すなわち,データベース探索(静的コンパイル)のためのグローバーアルゴリズムと,最大カット最適化(動的コンパイル)のための変分量子固有ソルバの変種を用いて検証するスケーラブルなアーキテクチャを提案する。 我々の研究は、この物理資源の可能性を高度で複雑な量子アルゴリズムに活用するための重要な一歩となる。

Any quantum program requires compiling into an executable form according to the underlying hardware characteristics. While the stringent restrictions on control imposed by certain physical platforms may make this task challenging. In this paper, based on the quantum variational algorithm, we propose an novel scheme to train the Ansatz circuit and exemplarily realize high-fidelity compilation of a series of universal quantum gates for singlet-triplet qubits in semiconductor double quantum dots, a typical heavily constrained system. Furthermore, we propose a scalable architecture to modularly implement quantum programs in this constrained systems and validate its performance with two representative and meaningful demonstrations, i.e., the Grover's algorithm for the database searching (static compilation) and a variant of variational quantum eigensolver for the Max-Cut optimization (dynamic compilation). Our work constitutes an important stepping-stone for exploiting the potential of this physical resource for advanced and complicated quantum algorithms.
翻訳日:2023-01-19 19:40:55 公開日:2022-11-10
# 機械学習による効率良く汎用的な絡み合い検出に向けて

Towards efficient and generic entanglement detection by machine learning ( http://arxiv.org/abs/2211.05592v1 )

ライセンス: Link先を確認
Jue Xu and Qi Zhao(参考訳) 絡み合いの検出は、実用的な量子計算と通信に欠かせないステップである。 本手法は, 従来手法と比べ, 様々な種類のノイズに頑健で, サンプル効率のよいフレキシブルな機械学習支援型絡み検出プロトコルを提案する。 本プロトコルは、古典的機械学習モデルを合成データセットで訓練することにより、汎用的絡み合い状態のための絡み合い分類器を得る。 データセットには、2種類の状態とそのラベル(絡み合っているか分離可能である)の古典的な特徴が含まれている。 k-局所ポーリ可観測器の集合の期待値である状態の古典的特徴は、古典的影法によってサンプル効率良く推定される。 数値シミュレーションでは、コヒーレントノイズとw状態と大きな白色ノイズを混合した4量子ビットghz状態の絡み合いを高精度に検出できる。

Detection of entanglement is an indispensable step to practical quantum computation and communication. Compared with the conventional entanglement witness method based on fidelity, we propose a flexible, machine learning assisted entanglement detection protocol that is robust to different types of noises and sample efficient. In this protocol, an entanglement classifier for a generic entangled state is obtained by training a classical machine learning model with a synthetic dataset. The dataset contains classical features of two types of states and their labels (either entangled or separable). The classical features of a state, which are expectation values of a set of k-local Pauli observables, are estimated sample-efficiently by the classical shadow method. In the numerical simulation, our classifier can detect the entanglement of 4-qubit GHZ states with coherent noise and W states mixed with large white noise, with high accuracy.
翻訳日:2023-01-19 19:34:06 公開日:2022-11-10
# ランダム密度行列:正方形バーズ距離の平均忠実性と分散に関する解析結果

Random density matrices: Analytical results for mean fidelity and variance of squared Bures distance ( http://arxiv.org/abs/2211.05587v1 )

ライセンス: Link先を確認
Aritra Laha and Santosh Kumar(参考訳) 量子情報理論の重要な問題の一つは、量子状態の識別可能性に関する問題である。 この文脈では、バーズ距離は様々な距離測度の中で最上位の選択肢の1つである。 また、量子情報理論において重要な別の量である忠実性にも関係している。 本研究では,固定密度行列とランダム密度行列,および2つの独立確率密度行列との間の正方形バーズ距離の平均忠実度とばらつきについて,正確な結果を得る。 これらの結果は、最近得られた平均根の忠実度と正方形のバーズ距離(Phys. Rev. A 104, 022438 (2021))を補うものである。 平均値と分散値の両方が利用できるため、二乗バーズ距離の確率密度のガンマ分布に基づく近似も可能となる。 解析結果はモンテカルロシミュレーションを用いて裏付けられる。 さらに, この解析結果と, 結合キックトップを用いた還元密度行列とランダム磁場中の相関スピンチェーン系との間の二乗バーズ距離の平均と分散を比較した。 どちらの場合も良い合意が得られます。

One of the key issues in quantum information theory related problems concerns with that of distinguishability of quantum states. In this context, Bures distance serves as one of the foremost choices among various distance measures. It also relates to fidelity, which is another quantity of immense importance in quantum information theory. In this work, we derive exact results for the average fidelity and variance of the squared Bures distance between a fixed density matrix and a random density matrix, and also between two independent random density matrices. These results supplement the recently obtained results for the mean root fidelity and mean of squared Bures distance [Phys. Rev. A 104, 022438 (2021)]. The availability of both mean and variance also enables us to provide a gamma-distribution-based approximation for the probability density of the squared Bures distance. The analytical results are corroborated using Monte Carlo simulations. Furthermore, we compare our analytical results with the mean and variance of the squared Bures distance between reduced density matrices generated using coupled kicked tops, and a correlated spin chain system in a random magnetic field. In both cases, we find good agreement.
翻訳日:2023-01-19 19:33:51 公開日:2022-11-10
# qudit-entangled状態から熱力学的作業を抽出するために必要な基準

Necessary criterion for extracting thermodynamical work from qudit-entangled state ( http://arxiv.org/abs/2211.05585v1 )

ライセンス: Link先を確認
Sumit Nandi(参考訳) 局所的な操作と古典的通信(LOCC)によるバイパルタイト純キュウエット絡み合った状態から熱力学的作業を抽出する新しい基準が提示された。 我々は, LOCCパラダイムの高次元絡み合い状態から作業を引き出すためには, 不要な$G$-concurrenceが必須条件であることを示した。

A novel criterion of extracting thermodynamical work from a bipartite pure qudit-entangled state by means of local operation and classical communication (LOCC) has been presented. We have shown that non-vanishing $G$-concurrence is a necessary condition to extract work from an higher dimensional entangled state in LOCC paradigm.
翻訳日:2023-01-19 19:33:31 公開日:2022-11-10
# ベルの定理は因果関係の統計理論における運動である

Bell's theorem is an exercise in the statistical theory of causality ( http://arxiv.org/abs/2211.05569v1 )

ライセンス: Link先を確認
Richard D. Gill(参考訳) 本稿では,多くの観測変数と観測されていない確率変数間の直接的統計的因果関係を表現したDAG(Directed Acyclic Graphs)で定義される,グラフィカルモデルやベイズネットに基づく統計因果関係の理論の基本的な結果としてベル-CHSHの不等式を導出する。 抜け穴のないベル実験における時空間的制約と自然古典的統計的因果関係がベルの局所隠れ変数の概念とchshの不等式にどのようにつながるかを示す。 ローカル」という言葉は、選択された設定が観察された結果に影響を及ぼす方法に当てはまる。 ベルの結論はこの方法で回避できるという最近の主張にもかかわらず、文脈的設定に依存した隠れ変数(測定装置に存在し、測定設定に依存すると考えられる)は自動的にカバーされる。

In this short note, I derive the Bell-CHSH inequalities as an elementary result in the present-day theory of statistical causality based on graphical models or Bayes' nets, defined in terms of DAGs (Directed Acyclic Graphs) representing direct statistical causal influences between a number of observed and unobserved random variables. I show how spatio-temporal constraints in loophole-free Bell experiments, and natural classical statistical causality considerations, lead to Bell's notion of local hidden variables, and thence to the CHSH inequalities. The word "local" applies to the way that the chosen settings influence the observed outcomes. The case of contextual setting-dependent hidden variables (thought of as being located in the measurement devices and dependent on the measurement settings) is automatically covered, despite recent claims that Bell's conclusions can be circumvented in this way.
翻訳日:2023-01-19 19:33:24 公開日:2022-11-10
# 真の多部絡み検出のための汎用フレームワーク

A generic framework for genuine multipartite entanglement detection ( http://arxiv.org/abs/2211.05563v1 )

ライセンス: Link先を確認
Xin-Yu Xu, Qing Zhou, Shuai Zhao, Shu-Ming Hu, Li Li, Nai-Le Liu, Kai Chen(参考訳) マルチパーティエンタングルメントの検出戦略の設計は、基本量子力学の理解において中心的な重要性を持ち、量子情報応用に大きな影響を与えた。 しかし、特に量子ネットワークのようにノード数が急速に増加すると、正確でロバストな検出アプローチが著しく阻害される。 本稿では,汎用的および運用的枠組みによる任意の対象状態に対する新たな絡み合い証人を生成するための,必要な手順を提案する。 このフレームワークは、体系的かつ高効率な特性を享受し、実際的な状況で自然に発生する様々な状態に対して、真のマルチパーティの絡み合いを確定し、現在の標準手法を劇的に上回る。 優れた耐雑音性を有するため,本手法は,様々な実環境において真の多成分絡み合いを目撃し,量子ネットワークの新興領域における絡み合い資源の最適利用を容易にするために広く適用できるべきである。

Design of detection strategies for multipartite entanglement stands as a central importance on our understanding of fundamental quantum mechanics and has had substantial impact on quantum information applications. However, accurate and robust detection approaches are severely hindered, particularly when the number of nodes grows rapidly like in a quantum network. Here we present an exquisite procedure that generates novel entanglement witness for arbitrary targeted state via a generic and operational framework. The framework enjoys a systematic and high-efficient character and allows to substantiate genuine multipartite entanglement for a variety of states that arise naturally in practical situations, and to dramatically outperform currently standard methods. With excellent noise tolerance, our framework should be broadly applicable to witness genuine multipartite entanglement in various practically scenarios, and to facilitate making the best use of entangled resources in the emerging area of quantum network.
翻訳日:2023-01-19 19:33:08 公開日:2022-11-10
# 正規化フォン・ノイマンエントロピーと真無限次元系の絡み合いへの応用

Renormalized von Neumann entropy with application to entanglement in genuine infinite dimensional systems ( http://arxiv.org/abs/2211.05542v1 )

ライセンス: Link先を確認
Roman Gielerak(参考訳) フォン・ノイマン量子エントロピー(一般に有限で連続的な無限次元の場合)の再正規化バージョンが提案され、自然の物理的要求(双分数系と無限次元系を記述する一般的な量子状態の場合の「良い」絡み合いの測度として期待される)に従う。 再正規化量子エントロピーはフレドホルム行列式理論の明示的な利用によって定義される。 導入された再正規化の連続性と有限性に関する主要な結果を証明するために、無限次元グラスマン代数理論に基づく基本的なグロゼンディックアプローチを適用する。 偏化理論のいくつかの特徴は、この論文で証明されたように、導入された再正規化の下で保存される。 この事実により、LOCC比較理論の既知の(主に2次元の有限次元量子系の文脈で)ほとんどの結果を、真の無限次元の2次元量子系の場合へ拡張することができる。

A renormalized version of the von Neumann quantum entropy (which is finite and continuous in general, infinite dimensional case) and which obeys several of the natural physical demands (as expected for a "good" measure of entanglement in the case of general quantum states describing bipartite and infinite-dimensional systems) is proposed. The renormalized quantum entropy is defined by the explicit use of the Fredholm determinants theory. To prove the main results on continuity and finiteness of the introduced renormalization the fundamental Grothendick approach, which is based on the infinite dimensional Grassmann algebra theory, is applied. Several features of majorization theory are preserved under then introduced renormalization as it is proved in this paper. This fact enables us to extend most of the known (mainly, in the context of two-partite, finite-dimensional quantum systems) results of the LOCC comparison theory to the case of genuine infinite-dimensional, two-partite quantum systems.
翻訳日:2023-01-19 19:32:50 公開日:2022-11-10
# フラストレーション量子スピン系に対する変圧器変分波動関数

Transformer variational wave functions for frustrated quantum spin systems ( http://arxiv.org/abs/2211.05504v1 )

ライセンス: Link先を確認
Luciano Loris Viteritti, Riccardo Rende and Federico Becca(参考訳) textit{transformer architecture}$は、自然言語処理タスクの最先端モデルとなり、リカレントおよび畳み込み構造を避けている。 その重要な特徴は、入力シーケンスの要素間の長距離相関を記述する能力である。 このアプローチはコンピュータビジョンのタスクにも適用されており、$\textit{Vision Transformer}$ (ViT)アーキテクチャを定義し、最先端の畳み込みニューラルネットワークと比較して競合的な結果が得られる。 これらの成果により、量子多体系における変分ニューラルネットワーク状態の新しいクラスである$\textit{ViT wave function}$を定義するために、複雑なパラメータを持つViTアーキテクチャの適応を提案する。 このアイデアを1次元の$j_1$-$j_2$ハイゼンベルクモデルに適用し、比較的単純なパラメトリゼーションがガッピング位相とギャップレス位相の両方において優れた結果が得られることを示した。 特に、ViT状態は、指数関数的に崩壊するスピンスピン相関と前者の二量体秩序の出現、および後者のスピンスピン相関を正確に記述する。 ViT波動関数の成功は、局所演算と大域演算の混合に依存するため、大規模システムの研究を高精度に行うことができる。

The $\textit{Transformer architecture}$ has become the state-of-art model for natural language processing tasks, avoiding recurrent and convolutional structures. Its key feature is the ability to describe long-range correlations among the elements of the input sequences. This approach has also been adapted to computer vision tasks, thus defining the $\textit{Vision Transformer}$ (ViT) architecture, obtaining competitive results compared to state-of-art deep Convolutional-Neural Networks. Motivated by these achievements, we propose an adaptation of the ViT architecture with complex parameters to define a new class of variational neural-network states for quantum many-body systems, the $\textit{ViT wave function}$. We apply this idea to the one-dimensional $J_1$-$J_2$ Heisenberg model, demonstrating that a relatively simple parametrization gets excellent results for both gapped and gapless phases. In particular, the ViT state accurately describes exponentially decaying spin-spin correlations and the emergence of dimer order in the former case, as well as long-range spin-spin correlations within the latter one. The success of the ViT wave function relies on mixing both local and global operations, thus enabling the study of large systems with high accuracy.
翻訳日:2023-01-19 19:32:09 公開日:2022-11-10
# ブラックホール放射復号は量子暗号である

Black-Hole Radiation Decoding is Quantum Cryptography ( http://arxiv.org/abs/2211.05491v1 )

ライセンス: Link先を確認
Zvika Brakerski(参考訳) 高エネルギー物理学における現象と標準暗号プリミティブの存在との間の同値関係を研究し、そのような同値が成立する最初の例を示す。 少数の先行研究は、高エネルギー現象が暗号の硬さによって説明できることを示した。 例えば、ブラックホールホーキング放射の復号化の難しさを説明する一方向関数の存在(Harlow and Hayden 2013 Aaronson 2016)や、擬ランダム量子状態を用いて計算の難易度を説明するAdS/CFT辞書(Bouland, Fefferman and Vazirani, 2020)がある。 この研究では、ブラックホールの放射線復号化の前例に対して、安全な量子暗号の存在も示唆している。 実際、ブラックホールの放射線復号の硬さと、ビットコミットスキームや(量子通信を用いた)斜め転送プロトコルを含む様々な暗号プリミティブとの間の存在的等価性を示す。 これは(我々が議論しているように)安全な暗号の存在を物理的に正当化するためのものであると見なすことができる。 このような関係は、他の高エネルギー物理現象にも見られると推測する。

We propose to study equivalence relations between phenomena in high-energy physics and the existence of standard cryptographic primitives, and show the first example where such an equivalence holds. A small number of prior works showed that high-energy phenomena can be explained by cryptographic hardness. Examples include using the existence of one-way functions to explain the hardness of decoding black-hole Hawking radiation (Harlow and Hayden 2013, Aaronson 2016), and using pseudorandom quantum states to explain the hardness of computing AdS/CFT dictionary (Bouland, Fefferman and Vazirani, 2020). In this work we show, for the former example of black-hole radiation decoding, that it also implies the existence of secure quantum cryptography. In fact, we show an existential equivalence between the hardness of black-hole radiation decoding and a variety of cryptographic primitives, including bit-commitment schemes and oblivious transfer protocols (using quantum communication). This can be viewed (with proper disclaimers, as we discuss) as providing a physical justification for the existence of secure cryptography. We conjecture that such connections may be found in other high-energy physics phenomena.
翻訳日:2023-01-19 19:31:43 公開日:2022-11-10
# 完全量子縮退パラメトリック増幅器によるスピンスクイーズの発生

Generation of spin squeezing via a fully quantum degenerate parametric amplifier ( http://arxiv.org/abs/2211.05490v1 )

ライセンス: Link先を確認
Yang Liu, Jie Song, Wei Qin, Ye-Hong Chen, Yan Xia(参考訳) スピンスクイージングは、高精度なメソロジーを実現するための最も魅力的な方法の1つである。 本稿では,完全量子縮退パラメトリック増幅器を用いて,原子アンサンブル内でスピンスクイーズを生成するプロトコルを提案する。 ポンプキャビティを駆動することなくスクイーズするスピンの発生特性について考察する。 数値シミュレーションの結果, 生成したスピンスクイーズ強度は最大であり, 2軸ツイストリング(tat)モデルを用いた場合と同等であることが判明した。 さらに,実験パラメータを導入することで,プロトコルが実験的に実現可能であることを実証する。 そこで,提案プロトコルは光子-スピン結合系におけるスピンスクイーズを実現するための有望な手法を提供する。

Spin squeezing is one of the most attractive methods for realizing high-precision metrology. In this paper, we propose a protocol for generating spin squeezing in an atomic ensemble via a fully quantum degenerate parametric amplifier. We discuss the properties of generating spin squeezing with and without driving the pump cavity. Numerical simulation results show that the generated spin squeezing strength is sizable, and is able to be comparable to that obtained using a two-axis twisting (TAT) model. Moreover, we demonstrate that the protocol is experimentally feasible by introducing the corresponding experimental parameters. Therefore, the proposed protocol provides a promising approach to realize spin squeezing in photon-spin coupling systems.
翻訳日:2023-01-19 19:31:19 公開日:2022-11-10
# 単一光子状態の高次元時間モード復号のためのマルチ出力量子パルスゲートの実現

Realization of a multi-output quantum pulse gate for decoding high-dimensional temporal modes of single-photon states ( http://arxiv.org/abs/2211.05693v1 )

ライセンス: Link先を確認
Laura Serino, Jano Gil-Lopez, Michael Stefszky, Raimund Ricken, Christof Eigner, Benjamin Brecht, Christine Silberhorn(参考訳) 光子の時間モード(TM)は、量子情報に対する魅力的な高次元符号化基盤を提供する。 TM状態を生成する技術は確立されているが、単一光子TMの高次元復号化は未解決の課題である。 本研究では, 単光子の5次元TMと平均忠実度0.96$\pm$0.01のデマルチプレキシングを計測トモグラフィーにより実験的に実証した。 これは、Multi-output quantum pulse gate (mQPG) と呼ばれる新しいデバイスを用いて実現される。 5次元 MUB の集合から任意のベースで動作し,高次元量子鍵分布の受信機として好適な mQPG に基づく完全復号器の証明を示す。 さらに,0.98$\pm$ 0.02で資源効率の良い状態トモグラフィを行い,mqpgの高品質動作を確認した。

Temporal modes (TMs) of photons provide an appealing high-dimensional encoding basis for quantum information. While techniques to generate TM states have been established, high-dimensional decoding of single-photon TMs remains an open challenge. In this work, we experimentally demonstrate demultiplexing of five-dimensional TMs of single photons with an average fidelity of 0.96 $\pm$ 0.01, characterized via measurement tomography. This is achieved using a newly developed device, the multi-output quantum pulse gate (mQPG). We demonstrate a proof-of-principle complete decoder based on the mQPG that operates on any basis from a set of 6 five-dimensional MUBs and is therefore suitable as a receiver for high-dimensional quantum key distribution. Furthermore, we confirm the high-quality operation of the mQPG by performing resource-efficient state tomography with an average fidelity of 0.98 $\pm$ 0.02.
翻訳日:2023-01-19 19:24:58 公開日:2022-11-10
# マヨラナ対称表現を応用した$n$レベル量子システムにおけるバーグマン不変量と弱値の議論の幾何学的解釈

Geometrical interpretation of the argument of Bargmann invariants and weak values in $N$-level quantum systems applying the Majorana symmetric representation ( http://arxiv.org/abs/2211.05692v1 )

ライセンス: Link先を確認
Lorena B Ferraz, Dominique L Lambert and Yves Caudano(参考訳) 本稿では,一般可観測群の弱値の議論を考察し,ブロッホ球面上のこの議論に幾何学的記述を与えることに成功した。 この目的を達成するためにマヨラナ対称表現を適用する。 一般可観測器の弱値は、有効射影器の弱値に比例する:それは初期状態に対する可観測器の正規化適用から生じ、実数に比例する定数を持つ。 N$レベルの系の純粋状態におけるプロジェクターの弱値の議論は、複素射影空間 $(\text{CP}^{N-1})$ のシンプレクティック領域に対応する。 ここでは、マヨラナ表現を用いて、一般可観測体の弱値の議論をブロッホ球面上のN-1$固角の和として記述し、両方の研究をマージすることを示した。 これら2つのアプローチは、2つの幾何学的記述を提供する: 1つは$\text{CP}^{N-1}$で、もう1つはブロッホ球面上の、元の空間$(\text{CP}^{N-1})$から問題を写像した後、Majorana表現を用いて。 これらの結果は三階バーグマン不変量の引数にも適用でき、任意の高階不変量の引数として最も基本的な順序は三階バーグマン不変量の引数の和として表現できる。 最後に、そのモジュラリティが無限大に向かって発散するとき、一般スピン1作用素の弱値の議論に焦点をあてる。 この分岐は実験において非常に有用であるシグナルを増幅する。

In this paper, we study the argument of weak values of general observables, succeeding to give a geometric description to this argument on the Bloch sphere. We apply the Majorana symmetric representation to reach this goal. The weak value of a general observable is proportional to the weak value of an effective projector: it arises from the normalized application of the observable over the initial state, with a constant of proportionality that is real. The argument of the weak value of a projector on a pure state of an $N$-level system corresponds to a symplectic area in the complex projective space $(\text{CP}^{N-1})$, which can be represented geometrically with a sum of $N-1$ solid angles on the Bloch sphere using the Majorana stellar representation. Here, we show that the argument of the weak value of a general observable can be described, using Majorana representation, as the sum of $N-1$ solid angles on the Bloch sphere, merging both studies. These two approaches provide two geometrical descriptions, a first one in $\text{CP}^{N-1}$ and a second one on the Bloch sphere, after mapping the problem from the original space $(\text{CP}^{N-1})$ by making use of the Majorana representation. These results can also be applied to the argument of the third-order Bargmann invariant, the most fundamental order as the argument of any higher order invariant can be expressed as a sum of the argument of third-order Bargmann invariants. Finally, we focus on the argument of the weak value of a general spin-1 operator when its modulus diverges towards infinity. This divergence amplifies signals with great usefulness in experiments.
翻訳日:2023-01-19 19:24:44 公開日:2022-11-10
# 臨界現象に対する連続的類似性変換:簡易軸反強磁性XXZモデル

Continuous similarity transformation for critical phenomena: easy-axis antiferromagnetic XXZ model ( http://arxiv.org/abs/2211.05689v1 )

ライセンス: Link先を確認
Matthias R. Walther, Dag-Bj\"orn Hering, G\"otz S. Uhrig, Kai P. Schmidt(参考訳) 直交格子上の自在軸反強磁性XXZ-モデルに対して連続類似性変換(CSTs)を適用する。 CSTフロー方程式は運動量空間においてスケーリング次元$d$によって切り離され、$d\le 2$に対するすべての貢献が考慮される。 得られたクォートマグノン保存有効ハミルトニアンは 0-, 1-, 2-マグノンセクターで解析される。 このようにして、ギャップドイジングモデルからギャップレスハイゼンベルクモデルに至るまでの異方性に対して、基底状態エネルギー、1つのマグノン分散とそのギャップと2つのマグノン境界状態の定量的記述が得られる。 我々は、ギャップ閉鎖の臨界特性と1マグノン・ロートン・ミニナムの進化について論じる。 2マグノン境界状態の励起エネルギーを計算し、その2マグノン連続体への減衰を逆参加比で決定する。

We apply continuous similarity transformations (CSTs) to the easy-axis antiferromagnetic XXZ-model on the square lattice. The CST flow equations are truncated in momentum space by the scaling dimension $d$ so that all contributions with $d\le 2$ are taken into account. The resulting quartic magnon-conserving effective Hamiltonian is analyzed in the zero-, one-, and two-magnon sector. In this way, a quantitative description of the ground-state energy, the one-magnon dispersion and its gap as well as of two-magnon bound states is gained for anisotropies ranging from the gapped Ising model to the gapless Heisenberg model. We discuss the critical properties of the gap closing as well as the evolution of the one-magnon roton mininum. The excitation energies of two-magnon bound states are calculated and their decay into the two-magnon continuum is determined via the inverse participation ratio.
翻訳日:2023-01-19 19:24:09 公開日:2022-11-10
# 離散変調による連続可変量子鍵分布の確率振幅整形

Probabilistic amplitude shaping for continuous-variable quantum key distribution with discrete modulation ( http://arxiv.org/abs/2211.05688v1 )

ライセンス: Link先を確認
Michele N. Notarnicola, Stefano Olivares, Enrico Forestieri, Luca Pot\`i, Marco Secondini(参考訳) 最大情報転送を実現するために、連続可変量子鍵分布(CV-QKD)プロトコルで送信されるサンプルは、連続ガウス分布から引き出す必要がある。 実際、実践的な実装では、送信機は有限(パワー)のダイナミクスを持ち、ガウスサンプリングは近似できるだけである。 これは、量子プロトコルを小さなパワーで動作させる必要がある。 本稿では,有限個のシンボル集合の適度な確率的振幅整形により,平均的なパワーを増加させるのに最適なチャネル容量を近似できることを示す。 CV-QKDの枠組みにおけるこのアプローチの実現可能性について検討し、確率的振幅整形を補助する離散二次振幅変調を用いたプロトコルを提案し、理想的な条件下で完全なセキュリティ解析を行う。

To achieve the maximum information transfer and face a possible eavesdropper, the samples transmitted in continuous-variable quantum key distribution (CV-QKD) protocols are to be drawn from a continuous Gaussian distribution. As a matter of fact, in practical implementations the transmitter has a finite (power) dynamics and the Gaussian sampling can be only approximated. This requires the quantum protocols to operate at small powers. In this paper, we show that a suitable probabilistic amplitude shaping of a finite set of symbols allows to approximate at will the optimal channel capacity also for increasing average powers. We investigate the feasibility of this approach in the framework of CV-QKD, propose a protocol employing discrete quadrature amplitude modulation assisted with probabilistic amplitude shaping, and we perform the complete security analysis in ideal conditions.
翻訳日:2023-01-19 19:23:51 公開日:2022-11-10
# マイクロ波量子レーダにおける量子アドバンテージの実証

Demonstration of Quantum Advantage in Microwave Quantum Radar ( http://arxiv.org/abs/2211.05684v1 )

ライセンス: Link先を確認
R\'eouven Assouly, R\'emy Dassonneville, Th\'eau Peronnin, Audrey Bienfait, Benjamin Huard(参考訳) 量子エンタングルメントは、コンピューティング、センシング、暗号といったいくつかの技術の性能を向上させることができるが、ノイズや損失に対する感度によって広く使われている。 興味深いことに、絡み合いが破壊されても、いくつかのタスクは古典的な戦略よりもQ$のスピードアップによって定義された量子的優位性を示す。 有名な例として量子レーダーがあり、ノイズの多い環境におけるターゲットの存在の検出を強化している。 すべての古典的な戦略を打ち負かすために、ロイドは、反射プローブと再結合して測定できるアイドラーと当初絡み合ったプローブを使用することを提案した。 いかなる量子優位性も観測するには、プローブとアイドラーの合同測定を通して量子相関を利用する必要がある。 このような量子照明プロトコルの光周波数での実証の成功に加えて、従来のレーダーに近いマイクロ波レーダーの提案が多くの関心を集めている。 しかし、現在のマイクロ波実装では、プローブとアイドラーは常に独立に測定されるため、量子的な利点は示されていない。 本研究では、超伝導回路を用いた測定を行い、マイクロ波レーダにq>1$の量子長所を示す。 アイドラーの保存はマイクロ波損失の量子長所への影響を緩和し、最初の絡み合った状態の純度が次の限界として現れる。 この実験は希釈冷凍機内で実行される原理実証であるが、量子優位性が観測できるパラメータの限られた範囲や、非常に低いプローブとアイドラー温度の要求など、量子レーダーを実装する上で固有の困難を示す。

While quantum entanglement can enhance the performance of several technologies such as computing, sensing and cryptography, its widespread use is hindered by its sensitivity to noise and losses. Interestingly, even when entanglement has been destroyed, some tasks still exhibit a quantum advantage $Q$, defined by a $Q$-time speedup, over any classical strategies. A prominent example is the quantum radar, which enhances the detection of the presence of a target in noisy surroundings. To beat all classical strategies, Lloyd proposed to use a probe initially entangled with an idler that can be recombined and measured with the reflected probe. Observing any quantum advantage requires exploiting the quantum correlations through a joint measurement of the probe and the idler. In addition to successful demonstrations of such quantum illumination protocols at optical frequencies, the proposal of a microwave radar, closer to conventional radars, gathered a lot of interest. However, current microwave implementations have not demonstrated any quantum advantage as probe and idler were always measured independently. In this work, we implement such a measurement using a superconducting circuit and demonstrate a quantum advantage $Q>1$ for microwave radar. Storing the idler mitigates the detrimental impact of microwave loss on the quantum advantage, and the purity of the initial entangled state emerges as the next limit. While the experiment is a proof-of-principle performed inside a dilution refrigerator, it exhibits some of the inherent difficulties in implementing quantum radars such as the limited range of parameters where a quantum advantage can be observed or the requirement for very low probe and idler temperatures.
翻訳日:2023-01-19 19:23:37 公開日:2022-11-10
# 時間依存非エルミート理論におけるすべてのpt-レジスターにおける実エネルギーとベリー相

Real energies and Berry phases in all PT-regimes in time-dependent non-Hermitian theories ( http://arxiv.org/abs/2211.05683v1 )

ライセンス: Link先を確認
Andreas Fring, Takanobu Taira and Rebecca Tenney(参考訳) 我々は、右を共役左固有状態にマップする非エルミートエネルギー作用素の時間依存反線型対称性作用素の存在が、瞬時エネルギーの現実を保証することを実証する。 この性質は 3 つの $\cal{PT}$-regimes を通して成り立つが、これは時間に依存しないシナリオにおいて $\cal{PT}$-symmetric regime と呼ばれるもので、例外点と自然に壊れた $\cal{PT}$-regime が成り立つ。 また、ハミルトニアンではなく、エネルギー作用素の瞬時固有状態という観点で波動関数の拡張からなる修正された断熱近似を提案し、それが常に実ベリー相に繋がることを示した。 時間依存非エルミートスピンモデルに対する2つの明示的な例を用いて、一般提案の作業について説明する。

We demonstrate that the existence of a time-dependent antilinear symmetry operator of the non-Hermitian energy operator that maps its right to its conjugate left eigenstates guarantees the reality of the instantaneous energies. This property holds throughout all three $\cal{PT}$-regimes, these are what in the time-independent scenario are referred to as the $\cal{PT}$-symmetric regime, the exceptional point as well as the spontaneously broken $\cal{PT}$-regime. We also propose a modified adiabatic approximation consisting of an expansion of the wavefunctions in terms the instantaneous eigenstates of the energy operator, rather than of those of the Hamiltonian, that will always lead to real Berry phases. We illustrate the working of our general proposals with two explicit examples for a time-dependent non-Hermitian spin model.
翻訳日:2023-01-19 19:23:09 公開日:2022-11-10
# パースペクティブ量子実在論

Perspectival Quantum Realism ( http://arxiv.org/abs/2211.05674v1 )

ライセンス: Link先を確認
Dennis Dieks(参考訳) 量子前物理学の理論は、一般に物理系とその性質を表すものとして見なされている。 量子力学の標準形式は、より問題のあるケースである: ここでは、解釈上の問題は、現実主義的な見解の持続性に疑問を呈している。 したがって、qbistやquantum pragmatistsは、量子力学は物理システムを表すものとしてではなく、そのようなシステムについての信念を更新するエージェント中心のツールだと考えている。 異なるエージェントは異なる信念を持ち、異なる量子状態を割り当てるかもしれないという考え方の一部であり、パーセルでもある。 その結果は、物理世界のユニークな表現ではなく、エージェント中心の視点の集合である。 本稿では、QB主義と量子プラグマティズムによって特定される問題は、物理世界を表す理想を捨てる必要はないと論じる。 qbistやプラグマティストが採用しているのと同じパズル解決戦略を、 \emph{perspectival quantum realism} を採用することで活用することができる。 このperspectivalism(量子力学のリレーショナル解釈に近い)によれば、オブジェクトは物理的に定義された異なる視点に関して同じくらい客観的な性質を持っているかもしれない。 このような局部的・非局所的な2つの選択肢について論じ,それをWignerの友人やEPRのシナリオに適用する。 最後に、量子perspectivalism と最近提案された \emph{fragmentalism} の哲学的立場を結びつける。

The theories of pre-quantum physics are standardly seen as representing physical systems and their properties. Quantum mechanics in its standard form is a more problematic case: here, interpretational problems have led to doubts about the tenability of realist views. Thus, QBists and Quantum Pragmatists maintain that quantum mechanics should not be thought of as representing physical systems, but rather as an agent-centered tool for updating beliefs about such systems. It is part and parcel of such views that different agents may have different beliefs and may assign different quantum states. What results is a collection of agent-centered perspectives rather than a unique representation of the physical world. In this paper we argue that the problems identified by QBism and Quantum Pragmatism do not necessitate abandoning the ideal of representing the physical world. We can avail ourselves of the same puzzle-solving strategies as employed by QBists and pragmatists by adopting a \emph{perspectival quantum realism}. According to this perspectivalism (close to the relational interpretation of quantum mechanics) objects may possess different, but equally objective properties with respect to different physically defined perspectives. We discuss two options for such a perspectivalism, a local and a nonlocal one, and apply them to Wigner's friend and EPR scenarios. Finally, we connect quantum perspectivalism to the recently proposed philosophical position of \emph{fragmentalism}.
翻訳日:2023-01-19 19:22:54 公開日:2022-11-10
# 自己随伴作用素のギャップレス純粋点スペクトルの安定性

Stability of the gapless pure point spectrum of self-adjoint operators ( http://arxiv.org/abs/2211.05670v1 )

ライセンス: Link先を確認
Paolo Facchi and Marilena Ligab\`o(参考訳) 分離可能ヒルベルト空間上の自己随伴作用素 $T$ を、有限点の累積を持つ純粋点と単純スペクトルとみなす。 明示的な条件は、$t$ の固有値と、$t+v$ のスペクトルの性質の全体安定性を保証する有界摂動 $v$ に記述される。

We consider a self-adjoint operator $T$ on a separable Hilbert space, with pure-point and simple spectrum with accumulations at finite points. Explicit conditions are stated on the eigenvalues of $T$ and on the bounded perturbation $V$ ensuring the global stability of the spectral nature of $T+V$.
翻訳日:2023-01-19 19:22:29 公開日:2022-11-10
# 機械学習による連続時間量子ウォークハミルトンのマルチパラメータ推定

Multiparameter estimation of continuous-time Quantum Walk Hamiltonians through Machine Learning ( http://arxiv.org/abs/2211.05626v1 )

ライセンス: Link先を確認
Ilaria Gianani, Claudia Benedetti(参考訳) 量子ウォークを定義するハミルトンパラメータのキャラクタリゼーションは、量子通信から計算まで、様々なタスクを実行する際に最も重要なものである。 量子ウォークの物理的実装を扱う際には、パラメータ自体が直接アクセスできない場合があるため、他の観測値を利用する別の推定方法を見つける必要がある。 本稿では,与えられた進化時間に実験確率を付与したディープニューラルネットワークモデルを用いて,n$-neighbour相互作用を持つ直線グラフ上の連続時間量子ウォークを特徴付けるハミルトンパラメータのマルチパラメータ推定を行う。 その結果を推定理論から導出される境界と比較し,2パラメータまたは3パラメータの推定を行う場合,ニューラルネットワークがほぼ最適な推定器として機能することを見出した。

The characterization of the Hamiltonian parameters defining a quantum walk is of paramount importance when performing a variety of tasks, from quantum communication to computation. When dealing with physical implementations of quantum walks, the parameters themselves may not be directly accessible, thus it is necessary to find alternative estimation strategies exploiting other observables. Here, we perform the multiparameter estimation of the Hamiltonian parameters characterizing a continuous-time quantum walk over a line graph with $n$-neighbour interactions using a deep neural network model fed with experimental probabilities at a given evolution time. We compare our results with the bounds derived from estimation theory and find that the neural network acts as a nearly optimal estimator both when the estimation of two or three parameters is performed.
翻訳日:2023-01-19 19:22:23 公開日:2022-11-10
# 量子コンピュータ上のスタウト・スミアリング

Stout Smearing on a Quantum Computer ( http://arxiv.org/abs/2211.05607v1 )

ライセンス: Link先を確認
Erik J. Gustafson(参考訳) 格子場理論におけるゲージ場配置のスメア化は相関関数から高エネルギーモードを抑制することで格子シミュレーションの結果を改善する。 量子シミュレーションでは、時間発展演算子がトロタライズのような近似された場合、高速度エネルギー固有状態が導入された。 改善されたトロッター製品の公式はエラーを減らすために存在するが、リソースコストに関する正確さのリターンは減少している。 したがって、改良されたトロッター式よりも少ない資源を持つアルゴリズムが望ましい。 本研究では、量子スミアリングの表現非依存法を開発し、離散非アーベルゲージ理論の高エネルギーモードへの結合を$D_4$で減少させることを示す。

Smearing of gauge-field configurations in lattice field theory improves the results of lattice simulations by suppressing high energy modes from correlation functions. In quantum simulations, high kinetic energy eigenstates are introduced when the time evolution operator is approximated such as Trotterization. While improved Trotter product formulae exist to reduce the errors, they have diminishing accuracy returns with respect to resource costs. Therefore having an algorithm that has fewer resources than an improved Trotter formula is desirable. In this work I develop a representation agnostic method for quantum smearing and show that it reduces the coupling to high energy modes in the discrete nonabelian gauge theory $D_4$
翻訳日:2023-01-19 19:22:08 公開日:2022-11-10
# x-cube floquet コード

The X-Cube Floquet Code ( http://arxiv.org/abs/2211.05784v1 )

ライセンス: Link先を確認
Zhehao Zhang, David Aasen, Sagar Vijay(参考訳) X-Cube モデルの結合層構造に着想を得て,量子誤り訂正符号 X-Cube Floquet を導入する。 X-Cube Floquet符号は3次元格子上に定義されており、$xy$、$yz$、$xz$方向の2次元の層を交差させることで構築され、層を結合する2量子測定の周期列で構成されている。 1つのFloquetサイクルの中で、コード空間はX-Cubeフラクトンオーダーと絡み合った2次元トーリック符号の層とを切り替える。 エンコードされた論理量子ビットのダイナミクスは解析され、新しいコードはゼロでないエラーしきい値を持つと主張する。 我々は、X-Cubeモデルのハミルトン的新しい実現法を提供し、より一般的には、X-Cube Floquet 符号を定義する測度列に関連する位相図を探索する。

Inspired by the coupled-layer construction of the X-Cube model, we introduce the X-Cube Floquet code, a dynamical quantum error-correcting code where the number of encoded logical qubits grows with system size. The X-Cube Floquet code is defined on a three-dimensional lattice, built from intersecting two-dimensional layers in the $xy$, $yz$, and $xz$ directions, and consists of a periodic sequence of two-qubit measurements which couple the layers together. Within a single Floquet cycle, the codespace switches between that of the X-Cube fracton order and layers of entangled, two-dimensional toric codes. The encoded logical qubits' dynamics are analyzed, and we argue that the new code has a non-zero error threshold. We provide a new Hamiltonian realization of the X-Cube model and, more generally, explore the phase diagram related to the sequence of measurements that define the X-Cube Floquet code.
翻訳日:2023-01-19 19:15:22 公開日:2022-11-10
# 仮想粒子の量子状態

The Quantum State of a Virtual Particle ( http://arxiv.org/abs/2211.05782v1 )

ライセンス: Link先を確認
Gon\c{c}alo M. Quinta(参考訳) 仮想フェルミオンは観測不能であるにもかかわらず、ある条件下で運動量空間内の量子状態によって記述できることを示す。 このような状態は、量子ビットが物理的に粒子タイプとスピンに結びついている2-qubit混合状態と見なすことができる。 混合状態は、交叉状態の分離可能な組合せであり、その交叉状態は交叉運動量ノルムに比例することを示す。 最後に、この状態は常に熱であることを示す。 これらの発見は、量子場理論、量子情報、量子熱力学の新たな関係を示している。

We show that a virtual fermion, despite being unobservable, can be described by a quantum state in momentum space under certain conditions. We prove that such a state can be regarded as a 2-qubit mixed state, where the qubits are physically associated to particle type and spin. We show that the mixed state is a separable combination of entangled pure states, whose entanglement is proportional to the transverse momentum norm. Lastly, we show that this state is always thermal. These findings represent a new connection between quantum field theory, quantum information and quantum thermodynamics.
翻訳日:2023-01-19 19:15:04 公開日:2022-11-10
# ベッセルゼータ関数

The Bessel zeta function ( http://arxiv.org/abs/2211.05765v1 )

ライセンス: Link先を確認
M. G. Naber, B. M. Bruck, and S. E. Costello(参考訳) ベッセルゼータ関数の2つの表現について検討した。 不完全表現は輪郭積分を用いて構成され、ホーキンスによる積分表現は2つの無限級数を生成するために完全に評価(解析的に継続)される。 この新しい表現は引数の整数値で評価され、既知の結果(値、傾き、極構造)と一致する結果を生成する。 驚くべきことに、研究された2つの表現は、同様の係数を持つが、わずかに異なる機能形式を持つ。 リーマンゼータ函数の表現は、ベッセル函数の次数が1/2になるようにすることで得られる。

Two representations of the Bessel zeta function are investigated. An incomplete representation is constructed using contour integration and an integral representation due to Hawkins is fully evaluated (analytically continued) to produce two infinite series. This new representation, evaluated at integer values of the argument, produces results that are consistent with known results (values, slope, and pole structure). Not surprisingly, the two representations studied are found to have similar coefficients but a slightly different functional form. A representation of the Riemann zeta function is obtained by allowing the order of the Bessel function to go to 1/2.
翻訳日:2023-01-19 19:14:56 公開日:2022-11-10
# 空洞内のキュービットをクローズする

Cloaking a qubit in a cavity ( http://arxiv.org/abs/2211.05758v1 )

ライセンス: Link先を確認
Crist\'obal Lled\'o, R\'emy Dassonneville, Adrien Moulinas, Joachim Cohen, Ross Shillito, Audrey Bienfait, Benjamin Huard, Alexandre Blais(参考訳) キャビティ量子電磁力学(qed)は、光と物質の間の相互作用を強化するために真空電磁場のモード構造を設計するためにキャビティを用いる。 これらのアイデアを固体系に爆発させることで、QEDは量子光学のリッチな物理学を探求し、量子計算のプラットフォームとして貴重なツールとして登場した。 ここでは、光子集団からキュービットを制御的に分離し、効果的に空洞からクビットを詰まらせることにより、駆動キャビティ内の光-物質相互作用を更なる工学的手法を提案する。 これは、空洞磁場に破壊的に干渉するように調整された外音でキュービットを駆動することで実現され、真空状態にあるように見える空洞と相互作用する。 本実験では,ac-starkシフトのキャンセルと測定による遅延の解消,およびqubit読み出しの高速化にqubitクローキングを活用できることを実証する。

Cavity quantum electrodynamics (QED) uses a cavity to engineer the mode structure of the vacuum electromagnetic field such as to enhance the interaction between light and matter. Exploiting these ideas in solid-state systems has lead to circuit QED which has emerged as a valuable tool to explore the rich physics of quantum optics and as a platform for quantum computation. Here we introduce a simple approach to further engineer the light-matter interaction in a driven cavity by controllably decoupling a qubit from the cavity's photon population, effectively cloaking the qubit from the cavity. This is realized by driving the qubit with an external tone tailored to destructively interfere with the cavity field, leaving the qubit to interact with a cavity which appears to be in the vacuum state. Our experiment demonstrates how qubit cloaking can be exploited to cancel ac-Stark shift and measurement-induced dephasing, and to accelerate qubit readout.
翻訳日:2023-01-19 19:14:45 公開日:2022-11-10
# 半定値プログラミングによる量子鍵分布率

Quantum key distribution rates from semidefinite programming ( http://arxiv.org/abs/2211.05725v1 )

ライセンス: Link先を確認
Mateus Ara\'ujo, Marcus Huber, Miguel Navascu\'es, Matej Pivoluska, Armin Tavakoli(参考訳) 量子鍵分布(QKD)プロトコルにおける鍵レートの計算は、長年の課題である。 分析方法は、高度に対称な測定基準を持つ少数のプロトコルに限られる。 数値的手法は任意の測定ベースを扱うことができるが、フォン・ノイマンのエントロピーにゆるい下界を与えるミンエントロピーを使うか、あるいは厄介な専用アルゴリズムに依存する。 デバイス独立の場合において鍵レートの計算に使用される条件付きフォン・ノイマンエントロピーに収束する最近発見された半定値プログラミング(SDP)階層に基づいて,特徴化デバイスの場合の秘密鍵レートに収束するSDP階層を導入する。 結果として得られるアルゴリズムは効率的で、実装が容易で、使いやすい。 キーレートの既知の境界を復元し,従来は難解であったケースまで高次元QKDプロトコルを拡張した。 また、実験データを再分析して、完全な統計を考慮すれば、キーレートがどの程度向上するかを示すためにも使用しています。

Computing the key rate in quantum key distribution (QKD) protocols is a long standing challenge. Analytical methods are limited to a handful of protocols with highly symmetric measurement bases. Numerical methods can handle arbitrary measurement bases, but either use the min-entropy, which gives a loose lower bound to the von Neumann entropy, or rely on cumbersome dedicated algorithms. Based on a recently discovered semidefinite programming (SDP) hierarchy converging to the conditional von Neumann entropy, used for computing the key rates in the device independent case, we introduce an SDP hierarchy that converges to the secret key rate in the case of characterised devices. The resulting algorithm is efficient, easy to implement and easy to use. We illustrate its performance by recovering known bounds on the key rate and extending high-dimensional QKD protocols to previously intractable cases. We also use it to reanalyse experimental data to demonstrate how higher key rates can be achieved when the full statistics are taken into account.
翻訳日:2023-01-19 19:13:39 公開日:2022-11-10
# bosonic coding: 導入とユースケース

Bosonic coding: introduction and use cases ( http://arxiv.org/abs/2211.05714v1 )

ライセンス: Link先を確認
Victor V. Albert(参考訳) ボソニックまたは連続変数符号化は、堅牢な量子情報処理と電磁信号や機械的モードとの通信に関する分野である。 私はbosonic quantum memoriesをレビューし、bosonic stabilizerまたはbosonic fock-state codesとして特徴づけた。 次に、ボソニックエンコーディングの様々な応用を列挙し、そのうち4つはボソニック系の内在的な無限次元性によるノーゴー定理を回避している。

Bosonic or continuous-variable coding is a field concerned with robust quantum information processing and communication with electromagnetic signals or mechanical modes. I review bosonic quantum memories, characterizing them as either bosonic stabilizer or bosonic Fock-state codes. I then enumerate various applications of bosonic encodings, four of which circumvent no-go theorems due to the intrinsic infinite-dimensionality of bosonic systems.
翻訳日:2023-01-19 19:13:20 公開日:2022-11-10
# 固体量子エミッタで駆動される高速薄膜ニオブ酸リチウム量子プロセッサ

High-speed thin-film lithium niobate quantum processor driven by a solid-state quantum emitter ( http://arxiv.org/abs/2211.05703v1 )

ライセンス: Link先を確認
Patrik I. Sund, Emma Lomonte, Stefano Paesani, Ying Wang, Jacques Carolan, Nikolai Bart, Andreas D. Wieck, Arne Ludwig, Leonardo Midolo, Wolfram H. P. Pernice, Peter Lodahl, Francesco Lenzini(参考訳) スケーラブルなフォトニック量子コンピューティングアーキテクチャは、フォトニック処理デバイスに厳しい要件を課す。 低損失な高速再構成可能な回路とほぼ決定論的資源状態発生器の必要性は、最も困難な要件である。 ここでは, 薄膜ニオブリチウムを基盤とする集積型フォトニックプラットフォームを開発し, ナノフォトニック導波路中の量子ドットに基づく固相単一光子源と結合する。 生成した光子は、数GHzの速度でプログラム可能な低損失回路で処理される。 4モード汎用フォトニック回路のオンチップ量子干渉、光子非多重化、再プログラム性など、高速回路を用いた様々な鍵フォトニック量子情報処理機能を実現する。 これらの結果は、集積フォトニクスと固体決定性光子源を融合することで、拡張性のあるフォトニック量子技術への将来性を示す。

Scalable photonic quantum computing architectures pose stringent requirements on photonic processing devices. The need for low-loss high-speed reconfigurable circuits and near-deterministic resource state generators are some of the most challenging requirements. Here we develop an integrated photonic platform based on thin-film lithium niobate and interface it with deterministic solid-state single-photon sources based on quantum dots in nanophotonic waveguides. The generated photons are processed with low-loss circuits programmable at speeds of several GHz. We realize a variety of key photonic quantum information processing functionalities with the high-speed circuits, including on-chip quantum interference, photon demultiplexing, and reprogrammability of a four-mode universal photonic circuit. These results show a promising path forward for scalable photonic quantum technologies by merging integrated photonics with solid-state deterministic photon sources in a heterogeneous approach to scaling up.
翻訳日:2023-01-19 19:13:10 公開日:2022-11-10
# 強結合における開量子系の有効ハミルトン理論

Effective Hamiltonian theory of open quantum systems at strong coupling ( http://arxiv.org/abs/2211.05701v1 )

ライセンス: Link先を確認
Nicholas Anto-Sztrikacs, Ahsan Nazir, Dvira Segal(参考訳) 反応座標ポラロン変換(RCPT)フレームワークを用いて,非平衡開量子系を周囲との強い結合で処理する実効ハミルトニアンモデルを生成する。 我々のアプローチは、ハミルトニアンの2つの正確な変換と、その制御された切断に基づくもので、環境との結合が弱まった新しいハミルトニアンによって終わる。 この新しい有効ハミルトニアンは、パラメーターがシステム・バスカップリングによって構成されている以外、最初のハミルトニアンをミラーする。 RCPTアプローチのパワーとエレガンスさは、その一般化と数学的単純さに起因し、解析的な作業を可能にし、それによって開量子系現象に対する強い系-バス結合効果の影響を深く理解する。 この研究で疑問視された例としては、ナノスケールでの量子熱化、電荷およびエネルギー輸送の標準モデル、吸収冷凍機や熱電発電機などの量子熱力学機械の性能境界、多体散逸スピン鎖の平衡および非平衡挙動などがある。

We present the reaction-coordinate polaron-transform (RCPT) framework for generating effective Hamiltonian models to treat nonequilibrium open quantum systems at strong coupling with their surroundings. Our approach, which is based on two exact transformations of the Hamiltonian followed by its controlled truncation, ends with a new Hamiltonian with a weakened coupling to the environment. This new effective Hamiltonian mirrors the initial one, except that its parameters are dressed by the system-bath couplings. The power and elegance of the RCPT approach lie in its generality and in its mathematical simplicity, allowing for analytic work and thus profound understanding of the impact of strong system-bath coupling effects on open quantum system phenomena. Examples interrogated in this work include canonical models for quantum thermalization, charge and energy transport at the nanoscale, performance bounds of quantum thermodynamical machines such as absorption refrigerators and thermoelectric generators, as well as the equilibrium and nonequilibrium behavior of many-body dissipative spin chains.
翻訳日:2023-01-19 19:12:55 公開日:2022-11-10
# グラフ表現学習とリンク予測を用いたホルダ勧告

Holder Recommendations using Graph Representation Learning & Link Prediction ( http://arxiv.org/abs/2212.09624v1 )

ライセンス: Link先を確認
Rachna Saxena, Abhijeet Kumar, Mridul Mishra(参考訳) ファンドやETFといった金融商品のレコメンデーションは、市場シナリオの変化や、金融保有者の考え方やその哲学の把握が困難であるため、投資分野において困難である可能性がある。 現行の手法では、特定の商品分類とリターン、手数料、カテゴリーなどの属性に基づいて、保有者の投資行動を完全に捉えない投資家に類似した商品を提案する。 その他の報告では、施設所有者のイデオロギーを主観的に分析している。 本稿では、取引履歴、資産フロー、製品固有の属性を用いて、金融商品の保有者空間にリードレコメンデーションシステムを構築するための包括的データ駆動フレームワークを提案する。 このシステムは、すべての投資取引を考慮して、株主の関心を暗黙的に仮定し、投資予測や投資行動のような保有者の投資プロファイルやペルソナを検出するメタ情報を収集する。 本稿では,多種多様な属性を用いた金融保有者と資金の2部グラフ表現を用いたフレームワークのホルダレコメンデーション要素に着目し,さらにグラフレコメンデーションモデルを用いて表現の学習を行い,リンク予測モデルを用いて今後の評価を行う。 提案手法の性能はベースラインモデル,すなわちTop-k(50,100,200)レコメンデーションにおけるメトリックヒットに対するコンテンツベースフィルタリング手法と比較される。 その結果,提案したグラフMLソリューションは,前向きバイアスの絶対42%,22%,14%,絶対18%,19%,および18%で,トップkレコメンデーションのヒット率(50,100,200)を上回った。

Lead recommendations for financial products such as funds or ETF is potentially challenging in investment space due to changing market scenarios, and difficulty in capturing financial holder's mindset and their philosophy. Current methods surface leads based on certain product categorization and attributes like returns, fees, category etc. to suggest similar product to investors which may not capture the holder's investment behavior holistically. Other reported works does subjective analysis of institutional holder's ideology. This paper proposes a comprehensive data driven framework for developing a lead recommendations system in holder's space for financial products like funds by using transactional history, asset flows and product specific attributes. The system assumes holder's interest implicitly by considering all investment transactions made and collects possible meta information to detect holder's investment profile/persona like investment anticipation and investment behavior. This paper focusses on holder recommendation component of framework which employs a bi-partite graph representation of financial holders and funds using variety of attributes and further employs GraphSage model for learning representations followed by link prediction model for ranking recommendation for future period. The performance of the proposed approach is compared with baseline model i.e., content-based filtering approach on metric hits at Top-k (50, 100, 200) recommendations. We found that the proposed graph ML solution outperform baseline by absolute 42%, 22% and 14% with a look ahead bias and by absolute 18%, 19% and 18% on completely unseen holders in terms of hit rate for top-k recommendations: 50, 100 and 200 respectively.
翻訳日:2023-01-19 19:07:38 公開日:2022-11-10
# WEKAをベースとした5カ国フランス語の重要特徴と分類

WEKA-Based: Key Features and Classifier for French of Five Countries ( http://arxiv.org/abs/2212.08132v1 )

ライセンス: Link先を確認
Zeqian Li, Keyu Qiu, Chenxu Jiao, Wen Zhu, Haoran Tang(参考訳) 本稿では,異なる方言を適切に区別するフランス語方言認識システムについて述べる。 モナコ、フランス語を話すベルギー、フランス語を話すスイス、フランス語を話すカナダ、フランスという5つの地域からなるコーパス。 コーパスの内容は、食事、飲酒、睡眠、生活の4つのテーマと関連しており、大衆生活と密接に関連している。 実験結果は,機械学習のための多くのフィルタと分類器を含む,ピソン符号化前処理器とWaikato Environment for Knowledge Analysis (WEKA)データ解析ツールの処理により得られた。

This paper describes a French dialect recognition system that will appropriately distinguish between different regional French dialects. A corpus of five regions - Monaco, French-speaking, Belgium, French-speaking Switzerland, French-speaking Canada and France, which is targeted forconstruction by the Sketch Engine. The content of the corpus is related to the four themes of eating, drinking, sleeping and living, which are closely linked to popular life. The experimental results were obtained through the processing of a python coded pre-processor and Waikato Environment for Knowledge Analysis (WEKA) data analytic tool which contains many filters and classifiers for machine learning.
翻訳日:2023-01-19 19:07:05 公開日:2022-11-10
# 教育ツールとしての封筒理論

The envelope theory as a pedagogical tool ( http://arxiv.org/abs/2211.06306v1 )

ライセンス: Link先を確認
Claude Semay, Maud Balcaen(参考訳) エンベロープ理論は時間独立なschr\"odinger様方程式(固有値と固有ベクトル)を解くための信頼性と実装の容易な方法である。 計算コストは粒子の数から独立しているため、多くの体系を解くのに主に有用である。 その単純さから、この方法は教育用ツールとしても使用できる。 これは1次元のソフトクーロンポテンシャル$-k/\sqrt{x^2+d^2}$に対して、バイアス距離$d$で特徴付けられる。 このような相互作用は、2つの電荷が2つの異なる1次元領域(量子線)で分離される電子-ホール境界対の研究に使用される。

The envelope theory is a reliable and easy to implement method to solve time independent Schr\"odinger-like equations (eigenvalues and eigenvectors). It is mainly useful to solve many-body systems since the computational cost is independent from the number of particles. Due to its simplicity, this method can also be used as a pedagogical tool. This is shown here for the soft-Coulomb potential $-k/\sqrt{x^2+d^2}$ in one dimension, characterised by a bias distance $d$. Such interaction is used for the study of excitons, electron-hole bound pairs where the two charges are kept separated in two different one-dimensional regions (quantum wires).
翻訳日:2023-01-19 19:06:51 公開日:2022-11-10
# 二重坑井における不純物による2次元断片化多体状態の動的形成

Dynamical formation of two-fold fragmented many-body state induced by an impurity in a double-well ( http://arxiv.org/abs/2211.05848v1 )

ライセンス: Link先を確認
Jie Chen, Simeon I. Mistakidis, Peter Schmelcher(参考訳) 一次元二重井戸ポテンシャルに閉じ込められたボゾン環境に浸漬された単一不純物の相関量子クエンチダイナミクスを解明する。 時間発展多体波動関数の構造に特に重点を置いているのは、係数がマクロ的に占有される構成の数を直接定量化するシュミット分解に依存することである。 非相互作用型ボソニック浴と弱いポストクエンチ不純物-バス相互作用については、不純物のバンド内励起過程に関連する2次元の断片化多体状態の動的形成を観察し、これら2種間の相分離(クラスター化)として表わす。 ポストクエンチ不純物-バス結合強度の増加は、不純物が追加のバンド間励起ダイナミクスを行うため、2重分断の破壊につながる。 対照的に、弱い相互作用のある浴は、浴粒子の励起を抑制するため、システムは弱分裂多体状態となる。 本研究では,マルチウェルトラップにおける分割多体状態の動的生成と特定の絡み合った不純物状態の設計のために,バンド内およびバンド間不純物励起の相互作用を明らかにした。

We unravel the correlated quantum quench dynamics of a single impurity immersed in a bosonic environment confined in an one-dimensional double-well potential. A particular emphasis is placed on the structure of the time-evolved many-body wave function by relying on a Schmidt decomposition whose coefficients directly quantify the number of configurations that are macroscopically populated. For a non-interacting bosonic bath and weak postquench impurity-bath interactions, we observe the dynamical formation of a two-fold fragmented many-body state which is related to intra-band excitation processes of the impurity and manifests as a two-body phase separation (clustering) between the two species for repulsive (attractive) interactions. Increasing the postquench impurity-bath coupling strength leads to the destruction of the two-fold fragmentation since the impurity undergoes additional inter-band excitation dynamics. By contrast, a weakly interacting bath suppresses excitations of the bath particles and consequently the system attains a weakly fragmented many-body state. Our results explicate the interplay of intra- and inter-band impurity excitations for the dynamical generation of fragmented many-body states in multi-well traps and for designing specific entangled impurity states.
翻訳日:2023-01-19 19:06:37 公開日:2022-11-10
# ハードコード制約付き自由ジョブショップスケジューリング

Free Job-Shop Scheduling With Hardcoded Constraints ( http://arxiv.org/abs/2211.05822v1 )

ライセンス: Link先を確認
Gereon Ko{\ss}mann and Lennart Binkowski and Ren\'e Schwonnek(参考訳) 制約付き最適化問題を変分量子アルゴリズムにハードコーディングすることは、しばしば難しい課題である。 本研究では,古典問題の対称性を厳格に活用することにより達成される自由ジョブショップ問題(fjsp)のクラスに対する解法を提案する。 密接な関係を持つ旅行セールスマン問題(TSP)の制約をミキサーハミルトンにハードコーディングするための確立されたアプローチは、HadfieldらのQuantum Alternating Operator Ansatz (QAOA)によって最近与えられた。 サブクラスとして TSP を含む FJSP に対して、同様に構築されたミキサーの所望の特性は、純粋に古典的なオブジェクトに直接リンク可能であることを示す。 また、これらの問題に対してQAOAライクなミキサーを構築するための一般的な方法についても概説する。 さらに,基礎となる群構造をより自然に組み込む新しい変分量子アルゴリズムを提案し,具体的な数値例を示す。 我々のアルゴリズムはQAOAと異なり、上記の全ての実現可能なソリューションに到達するのに必要なパラメータの量を制限している:$J$ジョブが分散されている場合、少なくとも$J {(J - 1)}^{2} / {2}$パラメータが必要である。

Hardcoding constrained optimization problems into a variational quantum algorithm often turns out to be a challenging task. In this work we provide a solution for the class of free job-shop problems (FJSP), which we achieve by rigorously employing the symmetries of the classical problem. An established approach for hardcoding the constraints of the closely related traveling salesman problem (TSP) into mixer Hamiltonians was recently given by Hadfield et al.'s Quantum Alternating Operator Ansatz (QAOA). For FJSP, which contains TSP as a subclass, we show that desired properties of similarly constructed mixers can be directly linked to a purely classical object: the group of feasibility-preserving bit value permutations. We also outline a generic way to construct QAOA-like-mixers for these problems. We further propose a new variational quantum algorithm that incorporates the underlying group structure more naturally, and provide a concrete numerical example. Unlike the QAOA, our algorithm allows bounding the amount of parameters necessary to reach every feasible solution from above: If $J$ jobs are to be distributed, we need at most $J {(J - 1)}^{2} / {2}$ parameters.
翻訳日:2023-01-19 19:06:14 公開日:2022-11-10
# 赤外光子による2経路系のデコヒーレンス

Decoherence of a 2-Path System by Infrared Photons ( http://arxiv.org/abs/2211.05813v1 )

ライセンス: Link先を確認
Colby DeLisle and P.C.E. Stamp(参考訳) 我々は、干渉計を通過する荷電粒子の光子放出によって生じるデコヒーレンスを計算し、デコヒーレンス速度は電磁場によってどれだけの「どの経路」量子情報を得るかの定量的指標を与える。 我々は、鉛およびサブリードの軟質光子の量子情報内容を分離し、粒子の経路の終端に関する情報から完全に抽出できることを示す。 赤外線ドレッシングが適切に組み込まれた場合、先頭の軟質光子はデコヒーレンスに寄与せず、量子情報も持たない。 サブリーディング軟光子は有限のソーパス情報を持ち、デコヒーレンスへのサブリーディング貢献は干渉計の大きさのみに依存する非常に単純で時間に依存しない形式を取る。

We calculate the decoherence caused by photon emission for a charged particle travelling through an interferometer; the decoherence rate gives a quantitative measure of how much "which-path" quantum information is gained by the electromagnetic field. We isolate the quantum information content of both leading and sub-leading soft photons, and show that it can be extracted entirely from information about the endpoints of the particle's paths. When infrared dressing is properly incorporated, the leading order soft photons give no contribution to decoherence, and carry no quantum information. The sub-leading soft photons carry finite which-path information, and the sub-leading contribution to decoherence takes an extremely simple, time-independent form depending only on the size of the interferometer.
翻訳日:2023-01-19 19:05:20 公開日:2022-11-10
# 三角ポテンシャルに対するゼータ関数

The Zeta Function for the Triangular Potential ( http://arxiv.org/abs/2211.05808v1 )

ライセンス: Link先を確認
M. G. Naber(参考訳) 三角ポテンシャルを持つschr\"odinger方程式のゼータ関数について検討した。 ゼータ関数の値は、ワイエルシュトラス分解定理と輪郭積分による解析的継続の両方を用いて計算される。 その結果、2つのメソッドのドメインが重なり合うような一貫性があることが判明した。 解析的継続は、ゼロのゼータ関数の値と負の整数を計算し、極構造(および剰余値)を探索し、原点の傾斜値を計算するために用いられる。 これらの結果は、関連するハミルトニアンのトレースと行列式の計算に使用される。

The zeta functions for the Schr\"odinger equation with a triangular potential are investigated. Values of the zeta functions are computed using both the Weierstrass factorization theorem and analytic continuation via contour integration. The results were found to be consistent where the domains of the two methods overlap. Analytic continuation is used to compute values of the zeta functions at zero and the negative integers, explore the pole structure (and residue values), as well as the value of the slopes at the origin. Those results are used for the computation of the trace and determinant of the associated Hamiltonians.
翻訳日:2023-01-19 19:04:54 公開日:2022-11-10
# 2次元における多体フォック空間ダイナミクスの観察

Observation of many-body Fock space dynamics in two dimensions ( http://arxiv.org/abs/2211.05803v1 )

ライセンス: Link先を確認
Yunyan Yao, Liang Xiang, Zexian Guo, Zehang Bao, Yong-Feng Yang, Zixuan Song, Haohai Shi, Xuhao Zhu, Feitong Jin, Jiachen Chen, Shibo Xu, Zitian Zhu, Fanhao Shen, Ning Wang, Chuanyu Zhang, Yaozu Wu, Yiren Zou, Pengfei Zhang, Hekang Li, Zhen Wang, Chao Song, Chen Cheng, Rubem Mondaini, H. Wang, J. Q. You, Shi-Yao Zhu, Lei Ying, and Qiujiang Guo(参考訳) 量子多体シミュレーションは、基礎物理学を理解し、量子情報アプリケーションと接続する簡単な方法を提供する。 しかし、ヒルベルト空間の大きさが指数関数的に増大する中で、実空間における少数体プローブの特性は、高次元における量子臨界挙動や多体局在(MBL)といった問題に対処するには不十分であることが多い。 ここでは、超伝導量子プロセッサに新しいパラダイムを実験的に導入し、Fock空間の視点から、多体系を多体状態の複雑なFock空間ネットワーク上の非伝統的なアンダーソンモデルにマッピングする、そのような解明的な質問を探索する。 フォック空間に伝播する波束と統計エルゴードアンサンブルの出現を観察することにより,熱化,局在化,スカーリングといった代表的多体力学を特徴付ける新たな画像を明らかにする。 さらに、不規則に拡張されたウェーブパケット幅の量子臨界状態を観察し、最大ウェーブパケット変動から臨界点を導出し、有限サイズのシステムにおける2次元MBL遷移を支援する。 我々の研究は、フォック空間における多体物理学の新しい視点を明らかにし、臨界性や次元性といった論争的なMBLの側面に対する実践的応用を実証する。 さらに、プロトコル全体が普遍的でスケーラブルであり、将来の大きな量子デバイスで議論を呼んでいる多体問題を最終的に解決する方法でもある。

Quantum many-body simulation provides a straightforward way to understand fundamental physics and connect with quantum information applications. However, suffering from exponentially growing Hilbert space size, characterization in terms of few-body probes in real space is often insufficient to tackle challenging problems such as quantum critical behavior and many-body localization (MBL) in higher dimensions. Here, we experimentally employ a new paradigm on a superconducting quantum processor, exploring such elusive questions from a Fock space view: mapping the many-body system onto an unconventional Anderson model on a complex Fock space network of many-body states. By observing the wave packet propagating in Fock space and the emergence of a statistical ergodic ensemble, we reveal a fresh picture for characterizing representative many-body dynamics: thermalization, localization, and scarring. In addition, we observe a quantum critical regime of anomalously enhanced wave packet width and deduce a critical point from the maximum wave packet fluctuations, which lend support for the two-dimensional MBL transition in finite-sized systems. Our work unveils a new perspective of exploring many-body physics in Fock space, demonstrating its practical applications on contentious MBL aspects such as criticality and dimensionality. Moreover, the entire protocol is universal and scalable, paving the way to finally solve a broader range of controversial many-body problems on future larger quantum devices.
翻訳日:2023-01-19 19:04:43 公開日:2022-11-10
# 非対向特異点を有するブレイド保護トポロジカルバンド構造

Braid Protected Topological Band Structures with Unpaired Exceptional Points ( http://arxiv.org/abs/2211.05788v1 )

ライセンス: Link先を確認
J. Lukas K. K\"onig, Kang Yang, Jan Carl Budich and Emil J. Bergholtz(参考訳) 位相的に安定な非ペア付き例外点 (eps) の存在を実証し, 単純非エルミート的(nh)タイト結合モデルを構築した。 フェルミオンは安定な節点の位相電荷を反ドートで補償する必要性を2倍にしながらも、エルミート半金属の領域における我々の発見の直接の対応を除外し、複雑なエネルギー準位の非可換ブレイドが非ペアリングなepをいかに安定化させるかを導出する。 この知見に基づき、最小の3バンドモデルのブリルアンゾーンにおいて、非アベル単極として表される単一の非ペアリングepの存在を明らかにした。 この3階の縮退は、いかなる局所摂動でも完全には達成できない。 代わりに、ブリルアンゾーンの非等価な大円を移動した後、ペアの消滅によってのみギャップを空けるより単純な(二階の)退化に分けることができる。 以上の結果から,3つ以上の複雑なエネルギーレベルを介するブレイド群の非アベリア表現によるトポロジカル分類の不完全性が示唆された。

We demonstrate the existence of topologically stable unpaired exceptional points (EPs), and construct simple non-Hermitian (NH) tight-binding models exemplifying such remarkable nodal phases. While Fermion doubling, i.e. the necessity of compensating the topological charge of a stable nodal point by an anti-dote, rules out a direct counterpart of our findings in the realm of Hermitian semimetals, here we derive how non-commuting braids of complex energy levels may stabilize unpaired EPs. Drawing on this insight, we reveal the occurrence of a single, unpaired EP, manifested as a non-Abelian monopole in the Brillouin zone of a minimal three-band model. This third-order degeneracy cannot be fully gapped by any local perturbation. Instead, it may split into simpler (second-order) degeneracies that can only gap out by pairwise annihilation after having moved around inequivalent large circles of the Brillouin zone. Our results imply the incompleteness of a topological classification based on winding numbers, due to non-Abelian representations of the braid group intertwining three or more complex energy levels.
翻訳日:2023-01-19 19:04:16 公開日:2022-11-10
# 安価・平均コスト平均フィールドゲームにおける学習

Learning in Discounted-cost and Average-cost Mean-field Games ( http://arxiv.org/abs/1912.13309v3 )

ライセンス: Link先を確認
Berkay Anahtarc{\i}, Can Deha Kar{\i}ks{\i}z, and Naci Saldi(参考訳) 非線形確率状態ダイナミクスを持つ離散時間平均場ゲームにおけるnash平衡の学習を平均値と割引値の両方のコストで検討する。 この目的のために、平均場平衡作用素を導入し、その固定点は平均場平衡(すなわち、無限の人口制限における平衡)である。 まず、この演算子が縮約であることを証明し、MFE演算子をランダムに近似して近似平均場平衡を計算する学習アルゴリズムを提案する。 さらに, MFE演算子の収縮特性を用いて, 提案した学習アルゴリズムの誤差解析を行う。 次に,学習平均場平衡が有限エージェントゲームに対する近似ナッシュ均衡を構成することを示す。

We consider learning approximate Nash equilibria for discrete-time mean-field games with nonlinear stochastic state dynamics subject to both average and discounted costs. To this end, we introduce a mean-field equilibrium (MFE) operator, whose fixed point is a mean-field equilibrium (i.e. equilibrium in the infinite population limit). We first prove that this operator is a contraction, and propose a learning algorithm to compute an approximate mean-field equilibrium by approximating the MFE operator with a random one. Moreover, using the contraction property of the MFE operator, we establish the error analysis of the proposed learning algorithm. We then show that the learned mean-field equilibrium constitutes an approximate Nash equilibrium for finite-agent games.
翻訳日:2023-01-16 21:38:31 公開日:2022-11-10
# 正規化平均場ゲームにおけるq学習

Q-Learning in Regularized Mean-field Games ( http://arxiv.org/abs/2003.12151v3 )

ライセンス: Link先を確認
Berkay Anahtarci, Can Deha Kariksiz, Naci Saldi(参考訳) 本稿では,無限水平割引報酬関数の下で,正規化された平均場ゲームを導入し,学習する。 古典的平均場ゲームモデルにおいて、一段報酬関数に強凹型正規化関数を付加することにより正規化を導入する。 本稿では,この正規化平均場ゲームにq-learningを適用した値反復学習アルゴリズムを提案する。 正規化の用語は、強化学習アルゴリズムをシステムコンポーネントに対してより堅牢にする。 さらに,正規化項がない場合に必要となるシステムコンポーネントに制約付き凸性仮定を課すことなく,学習アルゴリズムの誤り解析を確立することができる。

In this paper, we introduce a regularized mean-field game and study learning of this game under an infinite-horizon discounted reward function. Regularization is introduced by adding a strongly concave regularization function to the one-stage reward function in the classical mean-field game model. We establish a value iteration based learning algorithm to this regularized mean-field game using fitted Q-learning. The regularization term in general makes reinforcement learning algorithm more robust to the system components. Moreover, it enables us to establish error analysis of the learning algorithm without imposing restrictive convexity assumptions on the system components, which are needed in the absence of a regularization term.
翻訳日:2022-12-20 09:47:33 公開日:2022-11-10
# 感染ホットスポットの存在下での接触追跡・検査・封入措置の効果の定量化

Quantifying the Effects of Contact Tracing, Testing, and Containment Measures in the Presence of Infection Hotspots ( http://arxiv.org/abs/2004.07641v6 )

ライセンス: Link先を確認
Lars Lorch, Heiner Kremer, William Trouleau, Stratis Tsirtsis, Aron Szanto, Bernhard Sch\"olkopf, and Manuel Gomez-Rodriguez(参考訳) 複数の証拠は、一人が他の多くの人に感染するホットスポットが、新型コロナウイルスの感染動態において重要な役割を果たすことを強く示唆している。 しかし、既存の疫学モデルのほとんどは、個人が訪れた場所を明示的に表現したり、個々の移動パターンの関数として病気の伝染を特徴づけたりすることで、この側面を捉えていない。 本研究では,個人が接触して感染するサイトへの訪問を具体的に表現する,時間的ポイントプロセスモデリングフレームワークを提案する。 我々のモデルでは、自然に感染した個体によって引き起こされる感染の数が過分散する。 効率的なサンプリングアルゴリズムを用いて, ベイズ最適化と縦型ケースデータを用いて, 訪問場所および世帯内における感染個体の感染率を推定する方法を示す。 スイスのベルンにある、きめ細かな人口統計データとサイトロケーションを用いたシミュレーションは、我々のフレームワークの柔軟性を示しています。 他の都市や地域の調査や分析を容易にするため,我々はフレームワークのオープンソース実装をリリースする。

Multiple lines of evidence strongly suggest that infection hotspots, where a single individual infects many others, play a key role in the transmission dynamics of COVID-19. However, most of the existing epidemiological models fail to capture this aspect by neither representing the sites visited by individuals explicitly nor characterizing disease transmission as a function of individual mobility patterns. In this work, we introduce a temporal point process modeling framework that specifically represents visits to the sites where individuals get in contact and infect each other. Under our model, the number of infections caused by an infectious individual naturally emerges to be overdispersed. Using an efficient sampling algorithm, we demonstrate how to estimate the transmission rate of infectious individuals at the sites they visit and in their households using Bayesian optimization and longitudinal case data. Simulations using fine-grained and publicly available demographic data and site locations from Bern, Switzerland showcase the flexibility of our framework. To facilitate research and analyses of other cities and regions, we release an open-source implementation of our framework.
翻訳日:2022-12-13 03:32:36 公開日:2022-11-10
# マイクロ共振器の逆設計を支援する機械学習

Machine Learning Assisted Inverse Design of Microresonators ( http://arxiv.org/abs/2212.03243v1 )

ライセンス: Link先を確認
Arghadeep Pal, Alekhya Ghosh, Shuangyou Zhang, Toby Bi, Pascal De\v{l}Haye(参考訳) 望まれる光学特性を持つマイクロ共振器の高需要は、ジオメトリ、モード構造、非線形性、分散性を最適化する様々な技術をもたらした。 応用によっては、これらの共振器の分散は光学的非線形性に反し、キャビティ内光動力学に影響を及ぼす。 本稿では,分散プロファイルからマイクロ共振器の形状を決定するツールとして,機械学習(ml)アルゴリズムの使用例を示す。 460サンプルのトレーニングデータセットを有限要素シミュレーションにより生成し, 統合窒化ケイ素マイクロ共振器を用いて実験的に検証した。 2つのMLアルゴリズムと適切なハイパーパラメータチューニングを比較し、その中でRandom Forest(RF)が最良の結果をもたらす。 シミュレーションデータの平均誤差は15%以下である。

The high demand for fabricating microresonators with desired optical properties has led to various techniques to optimize geometries, mode structures, nonlinearities and dispersion. Depending on applications, the dispersion in such resonators counters their optical nonlinearities and influences the intracavity optical dynamics. In this paper, we demonstrate the use of a machine learning (ML) algorithm as a tool to determine the geometry of microresonators from their dispersion profiles. The training dataset with ~460 samples is generated by finite element simulations and the model is experimentally verified using integrated silicon nitride microresonators. Two ML algorithms are compared along with suitable hyperparameter tuning, out of which Random Forest (RF) yields the best results. The average error on the simulated data is well below 15%.
翻訳日:2022-12-11 13:07:52 公開日:2022-11-10
# ポートフォリオ選択問題を解決するメタヒューリスティックアプローチ

Metaheuristic Approach to Solve Portfolio Selection Problem ( http://arxiv.org/abs/2211.17193v1 )

ライセンス: Link先を確認
Taylan Kabbani(参考訳) 本稿では,ポートフォリオ最適化問題を解くために,タブサーチとトークン検索に基づくヒューリスティックな手法が用いられている。 マルコウィッツのセミナル平均分散モデルは、取引手順のダイナミクスをよりよく捉えるために、濃度と量制約を加えて検討されており、モデルはNPハード問題となり、正確な方法では解けない。 3つの異なる地域関係の組み合わせは、タブサーチで検討されている。 さらに, 初期解に対する新しい構成法を提案する。 最後に,提案手法が公開ベンチマークでどのように機能するかを示す。

In this paper, a heuristic method based on TabuSearch and TokenRing Search is being used in order to solve the Portfolio Optimization Problem. The seminal mean-variance model of Markowitz is being considered with the addition of cardinality and quantity constraints to better capture the dynamics of the trading procedure, the model becomes an NP-hard problem that can not be solved using an exact method. The combination of three different neighborhood relations is being explored with Tabu Search. In addition, a new constructive method for the initial solution is proposed. Finally, I show how the proposed techniques perform on public benchmarks
翻訳日:2022-12-04 14:57:16 公開日:2022-11-10
# ファジィ、不決定性、ソフトセット:フロンティアと展望

Fuzziness, Indeterminacy and Soft Sets: Frontiers and Perspectives ( http://arxiv.org/abs/2211.15408v1 )

ライセンス: Link先を確認
Michael Gr. Voskoglou(参考訳) 本論文は,zadeh の fuzziness ana atanassov の直観主義的ファジィ集合から smarandache の不確定性と molodstov のソフト集合への主要なステップにまたがっている。 また, ソフトセットと実区間をツールとして用いて, ファジィ条件下での評価と意思決定を行う2つのハイブリッド手法を提案する。 意思決定方法は、majiやalの以前の方法を改善する。 さらに、数学空間の最も一般的なカテゴリである位相空間の概念をファジィ構造に拡張し、そのような構造の中で極限、連続性コンパクト性、ハウスドルフ空間の基本的な数学的概念を一般化する方法についても述べる。 特にファジィ空間とソフト位相空間が定義され、これらの一般化を説明する例が与えられる。

The present paper comes across the main steps that laid from Zadeh's fuzziness ana Atanassov's intuitionistic fuzzy sets to Smarandache's indeterminacy and to Molodstov's soft sets. Two hybrid methods for assessment and decision making respectively under fuzzy conditions are also presented through suitable examples that use soft sets and real intervals as tools. The decision making method improves an earlier method of Maji et al. Further, it is described how the concept of topological space, the most general category of mathematical spaces, can be extended to fuzzy structures and how to generalize the fundamental mathematical concepts of limit, continuity compactness and Hausdorff space within such kind of structures. In particular, fuzzy and soft topological spaces are defined and examples are given to illustrate these generalizations.
翻訳日:2022-12-04 14:56:55 公開日:2022-11-10
# レイテンシクリティカルNFVアプリケーションユースケースにおけるトポロジ対応SLA管理のためのグラフニューラルネットワークに基づくフレームワーク

A Graph Neural Networks based Framework for Topology-Aware Proactive SLA Management in a Latency Critical NFV Application Use-case ( http://arxiv.org/abs/2212.00714v1 )

ライセンス: Link先を確認
Nikita Jalodia, Mohit Taneja, Alan Davy(参考訳) 5Gと6Gのロールアウトの最近の進歩は、ネットワーク機能仮想化(NFV)によって実現されたフレキシブルでソフトウォーズドな通信ネットワークのパラダイムを通じて、新しいレイテンシクリティカルなアプリケーションが出現した。 電気通信、スマートグリッド、バーチャルリアリティ(VR)、業界 4.0、自動走行車などは、低レイテンシと高信頼性のビジョンによって駆動され、サービスプロバイダとエンドユーザの両方にとって、Quality of Service(QoS)の制約を効果的に橋渡しする大きなギャップがある。 本稿では,gnn(graph neural network)とdrl(deep reinforcement learning)を活用した積極的なsla管理フレームワークを提案し,効率と信頼性のトレードオフのバランスをとることで,遅延クリティカルなサービスの過剰なプロビジョニングに取り組む。 重要な貢献をまとめます 1)複数出力シナリオにおける複数の時間ステップ予測を伴うグラフベース時空間時系列予測モデルを構築し,74.62%の精度向上を実現する。 2)DRLでポリシー管理をスケールするための動的なSLA対応監視を実現するために,ユースケースに対する現実的なSLA定義を活用する。

Recent advancements in the rollout of 5G and 6G have led to the emergence of a new range of latency-critical applications delivered via a Network Function Virtualization (NFV) enabled paradigm of flexible and softwarized communication networks. Evolving verticals like telecommunications, smart grid, virtual reality (VR), industry 4.0, automated vehicles, etc. are driven by the vision of low latency and high reliability, and there is a wide gap to efficiently bridge the Quality of Service (QoS) constraints for both the service providers and the end-user. In this work, we look to tackle the over-provisioning of latency-critical services by proposing a proactive SLA management framework leveraging Graph Neural Networks (GNN) and Deep Reinforcement Learning (DRL) to balance the trade-off between efficiency and reliability. To summarize our key contributions: 1) we compose a graph-based spatio-temporal multivariate time-series forecasting model with multiple time-step predictions in a multi-output scenario, delivering 74.62% improved performance over the established baseline state-of-art model on the use-case; and 2) we leverage realistic SLA definitions for the use-case to achieve a dynamic SLA-aware oversight for scaling policy management with DRL.
翻訳日:2022-12-04 14:56:39 公開日:2022-11-10
# 逆訓練による不確実性定量化を伴うロバストdnnサロゲートモデル

Robust DNN Surrogate Models with Uncertainty Quantification via Adversarial Training ( http://arxiv.org/abs/2211.09954v1 )

ライセンス: Link先を確認
Lixiang Zhang, Jia Li(参考訳) 計算効率のために、サロゲートモデルは物理的または生物学的過程の数学的シミュレータをエミュレートするために使われてきた。 ランダムにサンプリングされた多くの入力点(モンテカルロ法)でシミュレーションを繰り返す場合、高速シミュレーションは不確かさ定量化(uq)を行うのに不可欠である。 場合によっては、UQは代理モデルでのみ実現可能である。 近年,Deep Neural Network (DNN) のサロゲートモデルは,マッチングの難しいエミュレーション精度で人気を博している。 しかし、DNNは入力データが特定の方法で摂動されたときにエラーを起こしやすいことが知られている。 代理モデルの使用シナリオでは、懸念は意図的な攻撃ではなく、入力方向に対するDNNの精度の高感度である。 本稿では,実証的研究と仮説テストを通じて,この問題の深刻度を示す。 さらに, DNNサロゲートモデルのロバスト性を高めるために, 対人訓練の手法を採用する。 実験により,エミュレーション精度を損なうことなく,サロゲートモデルのロバスト性を大幅に向上することを示した。

For computational efficiency, surrogate models have been used to emulate mathematical simulators for physical or biological processes. High-speed simulation is crucial for conducting uncertainty quantification (UQ) when the simulation is repeated over many randomly sampled input points (aka, the Monte Carlo method). In some cases, UQ is only feasible with a surrogate model. Recently, Deep Neural Network (DNN) surrogate models have gained popularity for their hard-to-match emulation accuracy. However, it is well-known that DNN is prone to errors when input data are perturbed in particular ways, the very motivation for adversarial training. In the usage scenario of surrogate models, the concern is less of a deliberate attack but more of the high sensitivity of the DNN's accuracy to input directions, an issue largely ignored by researchers using emulation models. In this paper, we show the severity of this issue through empirical studies and hypothesis testing. Furthermore, we adopt methods in adversarial training to enhance the robustness of DNN surrogate models. Experiments demonstrate that our approaches significantly improve the robustness of the surrogate models without compromising emulation accuracy.
翻訳日:2022-11-27 13:26:47 公開日:2022-11-10
# 教師用凸一般化線形モデルに対する漸近誤差(あるいは, 柴島の模擬公式の証明法)

Asymptotic Errors for Teacher-Student Convex Generalized Linear Models (or : How to Prove Kabashima's Replica Formula) ( http://arxiv.org/abs/2006.06581v6 )

ライセンス: Link先を確認
Cedric Gerbelot, Alia Abbara and Florent Krzakala(参考訳) 近年,教師-学生設定における一般線形推定問題,特に標準正規行列の場合における漸近的再構成性能の研究への関心が高まっている。 本稿では,これらの行列を越え,任意の有界スペクトルを持つ回転不変なデータ行列を持つ凸一般化線形モデルの再構成性能に関する解析式を証明し,適切な仮定のもとに,統計物理学からレプリカ法で導出した予想を厳密に確認する。 この証明は、メッセージパッシングアルゴリズムとそのイテレートの統計的性質を活用して、推定子の漸近的な経験的分布を特徴付けることによって達成される。 十分強い凸問題に対して、2層ベクトル近似メッセージパッシングアルゴリズム(2-MLVAMP)が収束することを示し、そこでは等価な力学系の安定性を確認して収束解析を行い、その結果を得る。 次に、濃度仮定の下では、結果を凸(非強い)問題に拡張するために解析的継続を行うことができることを示す。 本稿では,疎対数回帰や線形支援ベクトル分類器などの主流学習手法の数値例を用いて,中等度シミュレーションと漸近予測との整合性を示す。

There has been a recent surge of interest in the study of asymptotic reconstruction performance in various cases of generalized linear estimation problems in the teacher-student setting, especially for the case of i.i.d standard normal matrices. Here, we go beyond these matrices, and prove an analytical formula for the reconstruction performance of convex generalized linear models with rotationally-invariant data matrices with arbitrary bounded spectrum, rigorously confirming, under suitable assumptions, a conjecture originally derived using the replica method from statistical physics. The proof is achieved by leveraging on message passing algorithms and the statistical properties of their iterates, allowing to characterize the asymptotic empirical distribution of the estimator. For sufficiently strongly convex problems, we show that the two-layer vector approximate message passing algorithm (2-MLVAMP) converges, where the convergence analysis is done by checking the stability of an equivalent dynamical system, which gives the result for such problems. We then show that, under a concentration assumption, an analytical continuation may be carried out to extend the result to convex (non-strongly) problems. We illustrate our claim with numerical examples on mainstream learning methods such as sparse logistic regression and linear support vector classifiers, showing excellent agreement between moderate size simulation and the asymptotic prediction.
翻訳日:2022-11-22 13:39:48 公開日:2022-11-10
# 説明するか、説明しないか:自律走行車のための説明の必要性に関する研究

To Explain or Not to Explain: A Study on the Necessity of Explanations for Autonomous Vehicles ( http://arxiv.org/abs/2006.11684v3 )

ライセンス: Link先を確認
Yuan Shen, Shanduojiao Jiang, Yanlin Chen, Katie Driggs Campbell(参考訳) 自動運転車のような自律システムの文脈で説明可能なAIは、研究者から幅広い関心を集めている。 近年の研究では、自動運転車の動作を説明することは、多くの利点(例えば、信頼と受容の増大)があるが、説明が必要なときや、説明の内容が運転状況によってどのように変化するかはほとんど強調されていない。 そこで本研究では,説明が必要なシナリオと,状況やドライバータイプによる説明の重要度の変化について検討する。 ユーザ実験を通じて、参加者に説明の必要性を評価し、異なるコンテキストにおける自動運転車の信頼度への影響を測定する。 さらに,バークレーディープ・ドライブ・アテンション・データセットを増設した,1103ビデオ・クリップの必要性を1対1で説明する自動運転説明データセットを提案する。 本研究は,運転者の種類と運転シナリオが説明が必要かどうかを判断することを示す。 特に、ニアクラッシュなイベントの必要性には同意する傾向にあるが、通常の運転状況や異常運転状況については異なる意見を持っている。

Explainable AI, in the context of autonomous systems, like self-driving cars, has drawn broad interests from researchers. Recent studies have found that providing explanations for autonomous vehicles' actions has many benefits (e.g., increased trust and acceptance), but put little emphasis on when an explanation is needed and how the content of explanation changes with driving context. In this work, we investigate which scenarios people need explanations and how the critical degree of explanation shifts with situations and driver types. Through a user experiment, we ask participants to evaluate how necessary an explanation is and measure the impact on their trust in self-driving cars in different contexts. Moreover, we present a self-driving explanation dataset with first-person explanations and associated measures of the necessity for 1103 video clips, augmenting the Berkeley Deep Drive Attention dataset. Our research reveals that driver types and driving scenarios dictate whether an explanation is necessary. In particular, people tend to agree on the necessity for near-crash events but hold different opinions on ordinary or anomalous driving situations.
翻訳日:2022-11-18 12:33:59 公開日:2022-11-10
# 深層強化学習アルゴリズムにおける過大評価を克服するいくつかの手法

Some approaches used to overcome overestimation in Deep Reinforcement Learning algorithms ( http://arxiv.org/abs/2006.14167v2 )

ライセンス: Link先を確認
Rafael Stekolshchik(参考訳) 深部強化学習(RL)アルゴリズムの枠組みにより,様々な研究者によって研究されている統計ノイズに関連する諸現象について考察した。 ディープQネットワーク(DQN)、ダブルDQN、ディープ決定性ポリシー勾配(DDPG)、ツイン遅延DDPG(TD3)、ヒルクライミングアルゴリズムについて検討した。 まず,騒音による有害な特性である過大評価について考察する。 次に、探索に使用するノイズに対処します。これは有用なノイズです。 本稿では, HopperBulletEnv や Walker2DBulletEnv などの音素に付随する典型的な PyBullet 環境に対するTD3 の雑音パラメータの設定について論じる。 付録では、ヒルクライミングアルゴリズムに関連して、ノイズに関する別の例(適応雑音の例)が検討されている。

Some phenomena related to statistical noise which have been investigated by various authors under the framework of deep reinforcement learning (RL) algorithms are discussed. The following algorithms are examined: the deep Q-network (DQN), double DQN, deep deterministic policy gradient (DDPG), twin-delayed DDPG (TD3), and hill climbing algorithm. First, we consider overestimation, which is a harmful property resulting from noise. Then we deal with noise used for exploration, this is the useful noise. We discuss setting the noise parameter in the TD3 for typical PyBullet environments associated with articulate bodies such as HopperBulletEnv and Walker2DBulletEnv. In the appendix, in relation to the hill climbing algorithm, another example related to noise is considered - an example of adaptive noise.
翻訳日:2022-11-17 03:04:57 公開日:2022-11-10
# 筋電制御系におけるモータインテントの最適キャラクタリゼーションのための多分解能双極子分解法

Multiresolution Dual-Polynomial Decomposition Approach for Optimized Characterization of Motor Intent in Myoelectric Control Systems ( http://arxiv.org/abs/2211.07378v1 )

ライセンス: Link先を確認
Oluwarotimi Williams Samuel, Mojisola Grace Asogbon, Rami Khushaba, Frank Kulwa, and Guanglin Li(参考訳) 表面筋電図(sEMG)は、特に多機能義肢のような小型のリハビリテーションロボットにおいて、幅広いバイオメディカル応用を持つ最も望まれる生理信号である。 パターン認識(PR)に基づく制御スキームを駆動するためにsEMGが広く使用されているのは、その豊富な運動情報の内容と非侵襲性に起因する。 さらに、seg記録は、信号の固有特性を歪ませる必然的な干渉を伴う非線形および非一様特性を示し、既存の信号処理方法が必要なモータ制御情報を得るのを妨げている。 そこで本研究では,マルチクラスemg信号の適切なデノベーションと再構成のための2重多項補間法(mrdpi)によるマルチレゾリューション分解法を提案する。 内部および公開NinaProデータベースから取得した22個の上肢運動を予め定義したアンプのEMGデータセットを用いて,しきい値推定手法と信号分解レベルの組み合わせで最適MDDPI構成パラメータを構築した。 実験結果から,提案手法は,機能,分類器,データセットにまたがる既存の手法と比較して,すべての指標に対して一貫した,はるかに優れた復号化性能を達成し,多機能補綴器や筋電信号を用いた小型再生ロボットシステムに直感的なEMG-PR制御方式を実用化するための潜在的解決策を提供することができた。

Surface electromyogram (sEMG) is arguably the most sought-after physiological signal with a broad spectrum of biomedical applications, especially in miniaturized rehabilitation robots such as multifunctional prostheses. The widespread use of sEMG to drive pattern recognition (PR)-based control schemes is primarily due to its rich motor information content and non-invasiveness. Moreover, sEMG recordings exhibit non-linear and non-uniformity properties with inevitable interferences that distort intrinsic characteristics of the signal, precluding existing signal processing methods from yielding requisite motor control information. Therefore, we propose a multiresolution decomposition driven by dual-polynomial interpolation (MRDPI) technique for adequate denoising and reconstruction of multi-class EMG signals to guarantee the dual-advantage of enhanced signal quality and motor information preservation. Parameters for optimal MRDPI configuration were constructed across combinations of thresholding estimation schemes and signal resolution levels using EMG datasets of amputees who performed up to 22 predefined upper-limb motions acquired in-house and from the public NinaPro database. Experimental results showed that the proposed method yielded signals that led to consistent and significantly better decoding performance for all metrics compared to existing methods across features, classifiers, and datasets, offering a potential solution for practical deployment of intuitive EMG-PR-based control schemes for multifunctional prostheses and other miniaturized rehabilitation robotic systems that utilize myoelectric signals as control inputs.
翻訳日:2022-11-15 19:37:31 公開日:2022-11-10
# 時系列セグメンテーションと分類を用いたドライバ操作検出と解析

Driver Maneuver Detection and Analysis using Time Series Segmentation and Classification ( http://arxiv.org/abs/2211.06463v1 )

ライセンス: Link先を確認
Armstrong Aboah, Yaw Adu-Gyamfi, Senem Velipasalar Gursoy, Jennifer Merickel, Matt Rizzo, Anuj Sharma(参考訳) 本報告では,車載遠隔測定データから車両の操作を自動的に検出する手法を実装している。 従来,車両操縦検出を分類問題として扱ってきたが,入力テレメトリデータが連続しているため,時系列分割と分類の両方が必要である。 本研究の目的は, 停止・車線維持イベント, 車線変更, 左旋回運動, 水平曲線操作など, 自然主義駆動学習ビデオのフレーム・バイ・フレームアノテーションのエンドツーエンドパイプラインを開発することである。 時系列セグメンテーション問題に対処するために,連続信号データから持続時間と周波数の異なる駆動イベントを抽出できるエネルギ最大化アルゴリズム(ema)を開発した。 過度な適合率と誤報率を減らすため、ヒューリスティックアルゴリズムは停止や車線維持といった高度に変動するパターンのイベントを分類するために用いられた。 セグメンテーション駆動イベントを分類するために、4つの機械学習モデルが実装され、その精度と転送性が複数のデータソースで評価された。 EMAが抽出した事象の期間は、59.30%(左レーン変更)から85.60%(レーン維持)まで、実際の出来事と同等であった。 さらに、1D畳み込みニューラルネットワークモデルの全体的な精度は98.99%、ロングショート長期メモリモデル97.75%、ランダムフォレストモデル97.71%、サポートベクターマシンモデル97.65%であった。 これらのモデルは、異なるデータソース間で一貫性を持つ。 セグメンテーション分類パイプラインの実装は、ドライバ操作検出の精度と、さまざまなデータセットにわたる浅層および深部MLモデルの転送可能性の両方を著しく改善する。

The current paper implements a methodology for automatically detecting vehicle maneuvers from vehicle telemetry data under naturalistic driving settings. Previous approaches have treated vehicle maneuver detection as a classification problem, although both time series segmentation and classification are required since input telemetry data is continuous. Our objective is to develop an end-to-end pipeline for frame-by-frame annotation of naturalistic driving studies videos into various driving events including stop and lane keeping events, lane changes, left-right turning movements, and horizontal curve maneuvers. To address the time series segmentation problem, the study developed an Energy Maximization Algorithm (EMA) capable of extracting driving events of varying durations and frequencies from continuous signal data. To reduce overfitting and false alarm rates, heuristic algorithms were used to classify events with highly variable patterns such as stops and lane-keeping. To classify segmented driving events, four machine learning models were implemented, and their accuracy and transferability were assessed over multiple data sources. The duration of events extracted by EMA were comparable to actual events, with accuracies ranging from 59.30% (left lane change) to 85.60% (lane-keeping). Additionally, the overall accuracy of the 1D-convolutional neural network model was 98.99%, followed by the Long-short-term-memory model at 97.75%, then random forest model at 97.71%, and the support vector machine model at 97.65%. These model accuracies where consistent across different data sources. The study concludes that implementing a segmentation-classification pipeline significantly improves both the accuracy for driver maneuver detection and transferability of shallow and deep ML models across diverse datasets.
翻訳日:2022-11-15 17:58:46 公開日:2022-11-10
# 気候モデルバイアス補正と超解法の対比学習

Contrastive Learning for Climate Model Bias Correction and Super-Resolution ( http://arxiv.org/abs/2211.07555v1 )

ライセンス: Link先を確認
Tristan Ballard, Gopal Erinjippurath(参考訳) 気候モデルは、しばしば局所的な気候リスクを正確に見積もるために、後処理を必要とする。 最も一般的な処理はバイアス補正と空間分解能向上である。 しかし、このために一般的に用いられる統計手法は、多変量空間相関情報を取得できないだけでなく、先進国以外では利用できない豊富な観測データにも依存しており、その可能性を制限することができる。 本稿では,画像スーパーレゾリューション (sr) とコントラスト学習生成型広告ネットワーク (gans) を組み合わせたアプローチを提案する。 我々はNASAの旗艦CMIP6気候モデル製品であるNEX-GDDPに対して性能をベンチマークした。 われわれのモデルでは、NASAの2倍の空間分解能に到達し、日中の降水量と温度の両方において、同等または改善された偏差補正を達成できた。 その結果、現在の気候と前方の気候の忠実度をシミュレーションすることで、洪水、干ばつ、熱波といったより局所的で正確なハザードモデルが可能になる。

Climate models often require post-processing in order to make accurate estimates of local climate risk. The most common post-processing applied is bias-correction and spatial resolution enhancement. However, the statistical methods typically used for this not only are incapable of capturing multivariate spatial correlation information but are also reliant on rich observational data often not available outside of developed countries, limiting their potential. Here we propose an alternative approach to this challenge based on a combination of image super resolution (SR) and contrastive learning generative adversarial networks (GANs). We benchmark performance against NASA's flagship post-processed CMIP6 climate model product, NEX-GDDP. We find that our model successfully reaches a spatial resolution double that of NASA's product while also achieving comparable or improved levels of bias correction in both daily precipitation and temperature. The resulting higher fidelity simulations of present and forward-looking climate can enable more local, accurate models of hazards like flooding, drought, and heatwaves.
翻訳日:2022-11-15 17:22:23 公開日:2022-11-10
# 辞書学習を用いた脳機能ネットワーク接続性からの新しい解釈可能なパターンと識別的特徴

New Interpretable Patterns and Discriminative Features from Brain Functional Network Connectivity Using Dictionary Learning ( http://arxiv.org/abs/2211.07374v1 )

ライセンス: Link先を確認
Fateme Ghayem, Hanlu Yang, Furkan Kantar, Seung-Jun Kim, Vince D. Calhoun, Tulay Adali(参考訳) 多目的機能磁気共鳴画像(fMRI)データの独立成分分析(ICA)は、複数の目的に使用できる完全多変量要約を提供するのに有用であることが証明されている。 icaは、健康管理(hc)と統合失調症(sz)のような様々な精神疾患患者を区別できるパターンを識別することができる。 ICAから得られた時間的機能的ネットワーク接続(tFNC)は、脳ネットワーク間の相互作用を効果的に説明できる。 一方,辞書学習(dl)では,スパーシティを用いて学習可能な基底信号を用いたデータ中の隠れ情報の発見を可能にする。 本稿では, ica と dl を用いて直接解釈可能なパターンの同定を行い, hc と sz 群を識別する新しい手法を提案する。 我々は,358ドルの被験者のマルチオブジェクト静止状態fMRIデータを用いて,ICAの結果から対象特異的tFNC特徴ベクトルを生成する。 次に、tFNCのスパース表現を学習し、学習した原子からの新しい解釈可能なパターンと同様に、新しいスパース特徴セットを導入する。 実験の結果,新しい表現はhc群とsz群をスパース特徴を用いて効果的に分類するだけでなく,統合失調症などの精神疾患の複雑さを理解するのに役立つ学習原子から新たな解釈可能なパターンを識別できることがわかった。

Independent component analysis (ICA) of multi-subject functional magnetic resonance imaging (fMRI) data has proven useful in providing a fully multivariate summary that can be used for multiple purposes. ICA can identify patterns that can discriminate between healthy controls (HC) and patients with various mental disorders such as schizophrenia (Sz). Temporal functional network connectivity (tFNC) obtained from ICA can effectively explain the interactions between brain networks. On the other hand, dictionary learning (DL) enables the discovery of hidden information in data using learnable basis signals through the use of sparsity. In this paper, we present a new method that leverages ICA and DL for the identification of directly interpretable patterns to discriminate between the HC and Sz groups. We use multi-subject resting-state fMRI data from $358$ subjects and form subject-specific tFNC feature vectors from ICA results. Then, we learn sparse representations of the tFNCs and introduce a new set of sparse features as well as new interpretable patterns from the learned atoms. Our experimental results show that the new representation not only leads to effective classification between HC and Sz groups using sparse features, but can also identify new interpretable patterns from the learned atoms that can help understand the complexities of mental diseases such as schizophrenia.
翻訳日:2022-11-15 17:12:03 公開日:2022-11-10
# ノードの位置が聞こえますか?

Can one hear the position of nodes? ( http://arxiv.org/abs/2211.06325v1 )

ライセンス: Link先を確認
Rami Puzis(参考訳) ノード間の波動伝播とネットワークのリンクはスペクトルグラフ理論の基礎を形成する。 それにもかかわらず、ネットワークによって形成された共振室内のノードから発せられる音はよく研究されていない。 個々のノードの振動によって発せられる音は、ネットワーク全体のトポロジーの構造だけでなく、ネットワーク内のノードの位置も反映する。 本稿では,ノードの波形から集中度を推定するために,音声認識ニューラルネットワークを訓練する。 ネットワーク表現学習の進歩に加え、ほとんどの場合、ノードが発する音は可算である。 ネットワークトポロジのオーラル化は、ネットワークビジュアライゼーションと競合する芸術の新たな方向を開く可能性がある。

Wave propagation through nodes and links of a network forms the basis of spectral graph theory. Nevertheless, the sound emitted by nodes within the resonating chamber formed by a network are not well studied. The sound emitted by vibrations of individual nodes reflects the structure of the overall network topology but also the location of the node within the network. In this article, a sound recognition neural network is trained to infer centrality measures from the nodes' wave-forms. In addition to advancing network representation learning, sounds emitted by nodes are plausible in most cases. Auralization of the network topology may open new directions in arts, competing with network visualization.
翻訳日:2022-11-14 17:20:36 公開日:2022-11-10
# MGTCOM:マルチモーダルグラフにおけるコミュニティ検出

MGTCOM: Community Detection in Multimodal Graphs ( http://arxiv.org/abs/2211.06331v1 )

ライセンス: Link先を確認
E. Dmitriev, M. W. Chekol and S. Wang(参考訳) コミュニティ検出は、ネットワーク内で同様のパターンを共有するノードのグループを検出するタスクである。 近年の深層学習の進歩に伴い,グラフ表現学習と深層クラスタリングを利用した手法は,コミュニティ検出において大きな成果を上げている。 しかし、これらの手法はしばしばネットワークの位相に依存する。 (i)ネットワークの異質性、時間性、マルチモダリティなどの重要な特徴を無視している。 そのほか (ii)コミュニティの数は事前には知られておらず、しばしばモデル選択のために残されている。 また、 (iii) マルチモーダルネットワークでは、全てのノードはその特徴において対称であると仮定される。 本稿では,上記の課題を克服する新しいフレームワーク(MGTCOM)を提案する。 (i)-- (iii) MGTCOMは、時間的埋め込みの教師なし学習に新しいサンプリング技術を活用することで、マルチモーダルな特徴学習を通じてコミュニティを識別する。 重要なことは、MGTCOMはネットワーク埋め込み、コミュニティ、およびタンデム内のコミュニティの数を最適化するエンドツーエンドフレームワークである。 その性能を評価するため,複数のマルチモーダルネットワークについて広範な評価を行った。 その結果,本手法は最先端技術と競合し,帰納的推論に優れることがわかった。

Community detection is the task of discovering groups of nodes sharing similar patterns within a network. With recent advancements in deep learning, methods utilizing graph representation learning and deep clustering have shown great results in community detection. However, these methods often rely on the topology of networks (i) ignoring important features such as network heterogeneity, temporality, multimodality, and other possibly relevant features. Besides, (ii) the number of communities is not known a priori and is often left to model selection. In addition, (iii) in multimodal networks all nodes are assumed to be symmetrical in their features; while true for homogeneous networks, most of the real-world networks are heterogeneous where feature availability often varies. In this paper, we propose a novel framework (named MGTCOM) that overcomes the above challenges (i)--(iii). MGTCOM identifies communities through multimodal feature learning by leveraging a new sampling technique for unsupervised learning of temporal embeddings. Importantly, MGTCOM is an end-to-end framework optimizing network embeddings, communities, and the number of communities in tandem. In order to assess its performance, we carried out an extensive evaluation on a number of multimodal networks. We found out that our method is competitive against state-of-the-art and performs well in inductive inference.
翻訳日:2022-11-14 17:17:24 公開日:2022-11-10
# 深部強化学習を用いたTSO-DSO協調渋滞管理のためのロバストN-1セキュアHVグリッドフレキシビリティ推定

Robust N-1 secure HV Grid Flexibility Estimation for TSO-DSO coordinated Congestion Management with Deep Reinforcement Learning ( http://arxiv.org/abs/2211.05855v1 )

ライセンス: Link先を確認
Zhenqi Wang, Sebastian Wende-von Berg, Martin Braun(参考訳) 今日では、高電圧(HV)グリッドにおける分散エネルギー資源(DER)のPQ柔軟性は、TSOグリッドにおけるグリッド混雑管理においてより重要かつ重要な役割を果たす。 本研究は,tso-dsoインタフェースにおけるpq柔軟性(pq領域)を推定するための多段階深層強化学習手法を提案し,メッシュ化hvグリッドで導出するder pqセットポイントを協調して伝送グリッドの柔軟性を提供する方法を提案する。 提案手法では, 定常グリッドの限界, 結果として生じる電圧プロファイルの不確実性に対するロバスト性, および実生活グリッド運用計画に不可欠な熱線負荷に関するN-1セキュリティ基準を考察する。 深層強化学習(drl)をpqフレキシビリティ推定に使用するのは,この種の最初の方法である。 さらに,メッシュグリッドのN-1セキュリティ基準と最適化タスクにおける不確実性に対するロバスト性を考慮したアプローチは,数学的最適電力フロー(OPF)の解を求める際の共通緩和スキーマ以外に,新たな視点を提供する。 最後に、PQ領域の推定における計算効率の大幅な改善が提案手法のハイライトである。

Nowadays, the PQ flexibility from the distributed energy resources (DERs) in the high voltage (HV) grids plays a more critical and significant role in grid congestion management in TSO grids. This work proposed a multi-stage deep reinforcement learning approach to estimate the PQ flexibility (PQ area) at the TSO-DSO interfaces and identifies the DER PQ setpoints for each operating point in a way, that DERs in the meshed HV grid can be coordinated to offer flexibility for the transmission grid. In the estimation process, we consider the steady-state grid limits and the robustness in the resulting voltage profile against uncertainties and the N-1 security criterion regarding thermal line loading, essential for real-life grid operational planning applications. Using deep reinforcement learning (DRL) for PQ flexibility estimation is the first of its kind. Furthermore, our approach of considering N-1 security criterion for meshed grids and robustness against uncertainty directly in the optimization tasks offers a new perspective besides the common relaxation schema in finding a solution with mathematical optimal power flow (OPF). Finally, significant improvements in the computational efficiency in estimation PQ area are the highlights of the proposed method.
翻訳日:2022-11-14 17:08:27 公開日:2022-11-10
# より少ない場合:半監督型ソフトウェア欠陥予測器の"コトレーニング"の価値について

When Less is More: On the Value of "Co-training" for Semi-Supervised Software Defect Predictors ( http://arxiv.org/abs/2211.05920v1 )

ライセンス: Link先を確認
Suvodeep Majumder, Joymallya Chakraborty and Tim Menzies(参考訳) モジュールの欠陥や非欠陥のラベル付けは高価な作業です。 したがって、トレーニングに利用可能なラベル付きデータの量には、制限があることが多い。 半教師付き分類器はトレーニングモデルにはるかに少ないラベルを使用するが、自己ラベル付け、コトレーニング、最大マージン、グラフベースのメソッドなど、数多くの半教師付き手法がある。 欠陥を予測するためにSEでテストされているメソッドはごくわずかであり、それさえも、これらのテストはごく少数のプロジェクトで行われている。 本稿では,55名の半教師付き学習者を対象とし,これを714以上のプロジェクトに適用する。 半教師付き「共同学習方法」は他の手法よりもかなりうまく機能することがわかった。 しかし、コトレーニング手法の特定の選択は、ユーザの特定の目標に基づいて慎重に選択する必要があるため、コトレーニングを慎重に使用する必要がある。 また、一般的なコトレーニング手法である「マルチビュー」では、異なる学習者が異なる列の集合を取得できるが、予測は改善されない(実行時間に過大な加算を加えるのは11時間対1.8時間)。 これらの警告は、これらの"コトレーナー"を使用することで、データのわずか2.5%をラベル付けし、100%のデータを使用するものと競合する予測を行うことができる。 これらの削減がソフトウェア分析の他の領域で見られるかどうかをテストすることは、今後の作業にふさわしいオープン質問である。 現在の研究で使用されたコードとデータセットはすべてhttps://GitHub.com/Suvodeep90/Semi_Supervised_Methodsで公開されている。

Labeling a module defective or non-defective is an expensive task. Hence, there are often limits on how much-labeled data is available for training. Semi-supervised classifiers use far fewer labels for training models, but there are numerous semi-supervised methods, including self-labeling, co-training, maximal-margin, and graph-based methods, to name a few. Only a handful of these methods have been tested in SE for (e.g.) predicting defects and even that, those tests have been on just a handful of projects. This paper takes a wide range of 55 semi-supervised learners and applies these to over 714 projects. We find that semi-supervised "co-training methods" work significantly better than other approaches. However, co-training needs to be used with caution since the specific choice of co-training methods needs to be carefully selected based on a user's specific goals. Also, we warn that a commonly-used co-training method ("multi-view"-- where different learners get different sets of columns) does not improve predictions (while adding too much to the run time costs 11 hours vs. 1.8 hours). Those cautions stated, we find using these "co-trainers," we can label just 2.5% of data, then make predictions that are competitive to those using 100% of the data. It is an open question worthy of future work to test if these reductions can be seen in other areas of software analytics. All the codes used and datasets analyzed during the current study are available in the https://GitHub.com/Suvodeep90/Semi_Supervised_Methods.
翻訳日:2022-11-14 17:07:42 公開日:2022-11-10
# セキュアアグリゲーションは必要ではない:フェデレーション学習におけるプライバシー攻撃とノイズ耐性の緩和

Secure Aggregation Is Not All You Need: Mitigating Privacy Attacks with Noise Tolerance in Federated Learning ( http://arxiv.org/abs/2211.06324v1 )

ライセンス: Link先を確認
John Reuben Gilbert(参考訳) フェデレーション学習(Federated Learning)は、AIモデルを作成しながらデータのプライバシを維持することを目的としたコラボレーション手法である。 フェデレーション学習に対する現在のアプローチは、データのプライバシを保護するためにセキュアな集約プロトコルに大きく依存する傾向がある。 しかしながら、そのようなプロトコルは、フェデレートされた学習プロセス(すなわちサーバー)を編成するエンティティが完全に悪意や不正直ではないと仮定する。 サーバが完全に悪意を持っていれば発生する可能性のあるアグリゲーションの脆弱性を調査し、機密性の高いプライベートデータへのアクセスを試みます。 さらに,このような悪意のあるサーバに対してさらに防御を行い,連合学習環境においてデータを再構築する既知の攻撃に対して有効性を示す方法を提案する。

Federated learning is a collaborative method that aims to preserve data privacy while creating AI models. Current approaches to federated learning tend to rely heavily on secure aggregation protocols to preserve data privacy. However, to some degree, such protocols assume that the entity orchestrating the federated learning process (i.e., the server) is not fully malicious or dishonest. We investigate vulnerabilities to secure aggregation that could arise if the server is fully malicious and attempts to obtain access to private, potentially sensitive data. Furthermore, we provide a method to further defend against such a malicious server, and demonstrate effectiveness against known attacks that reconstruct data in a federated learning setting.
翻訳日:2022-11-14 16:48:20 公開日:2022-11-10
# 音声言語理解のための事前学習型SSL, ASR, LM, SLUモデルの統合に関する研究

A Study on the Integration of Pre-trained SSL, ASR, LM and SLU Models for Spoken Language Understanding ( http://arxiv.org/abs/2211.05869v1 )

ライセンス: Link先を確認
Yifan Peng, Siddhant Arora, Yosuke Higuchi, Yushi Ueda, Sujay Kumar, Karthik Ganesan, Siddharth Dalmia, Xuankai Chang, Shinji Watanabe(参考訳) 音声言語理解(SLU)のための十分なラベル付きデータ収集は高価で時間を要する。 最近の研究は、低リソースシナリオで事前訓練されたモデルを使用することで、有望な結果を得た。 どの(もし)事前トレーニング戦略がSLUベンチマークでパフォーマンスを改善することができるのか? そこで本研究では,4種類の事前学習モデルとそれらの組み合わせをSLUに適用する。 我々は,大量の非ペアデータに事前学習した自己教師付き音声・言語モデル(lm)を用いて,強固な音声・テキスト表現を抽出する。 また、より大きな外部音声認識(ASR)やSLUコーパスで事前訓練した教師付きモデルについても検討する。 我々は、SLU評価(SLUE)のベンチマークで広範囲にわたる実験を行い、自己教師付き事前学習モデルをより強力に観察し、事前訓練されたLMと音声モデルは、それぞれ知覚分析と名前付きエンティティ認識タスクに最も有用である。

Collecting sufficient labeled data for spoken language understanding (SLU) is expensive and time-consuming. Recent studies achieved promising results by using pre-trained models in low-resource scenarios. Inspired by this, we aim to ask: which (if any) pre-training strategies can improve performance across SLU benchmarks? To answer this question, we employ four types of pre-trained models and their combinations for SLU. We leverage self-supervised speech and language models (LM) pre-trained on large quantities of unpaired data to extract strong speech and text representations. We also explore using supervised models pre-trained on larger external automatic speech recognition (ASR) or SLU corpora. We conduct extensive experiments on the SLU Evaluation (SLUE) benchmark and observe self-supervised pre-trained models to be more powerful, with pre-trained LM and speech models being most beneficial for the Sentiment Analysis and Named Entity Recognition task, respectively.
翻訳日:2022-11-14 16:42:26 公開日:2022-11-10
# OneFormer:Universal Image Segmentationをルールする1つのトランスフォーマー

OneFormer: One Transformer to Rule Universal Image Segmentation ( http://arxiv.org/abs/2211.06220v1 )

ライセンス: Link先を確認
Jitesh Jain, Jiachen Li, MangTik Chiu, Ali Hassani, Nikita Orlov, Humphrey Shi(参考訳) ユニバーサルイメージセグメンテーションは新しい概念ではない。 過去数十年でイメージセグメンテーションを統合する試みには、シーン解析、panopticセグメンテーション、そして最近では新しいpanopticアーキテクチャが含まれる。 しかし、そのようなpanopticアーキテクチャは、最高のパフォーマンスを達成するために、セマンティック、インスタンス、panopticセグメンテーションを個別に訓練する必要があるため、画像セグメンテーションを真に統一するものではない。 理想的には、真の普遍的なフレームワークは一度だけ訓練され、3つのイメージセグメンテーションタスクすべてでSOTAのパフォーマンスを達成するべきである。 そこで我々は,マルチタスク・トレイン・オンス設計でセグメンテーションを統一するユニバーサルイメージセグメンテーションフレームワークであるOneFormerを提案する。 まず,1つのマルチタスク訓練プロセスにおいて,各ドメインの基底的真理(セマンティクス,インスタンス,パンオプティカルセグメンテーション)のトレーニングを可能にするタスクコンディショニング合同トレーニング戦略を提案する。 第2に,開発中のタスクのモデルを条件付けするタスクトークンを導入し,マルチタスクトレーニングと推論をサポートするためのモデルタスクダイナミックにします。 第3に,学習中のクエリテキストのコントラストロスを用いたタスク間およびクラス間区別の改善を提案する。 特に、私たちのOneFormerモデルは、ADE20k、CityScapes、COCOの3つのセグメンテーションタスクすべてで、特別なMask2Formerモデルよりも優れています。 新しいConvNeXtとDiNATのバックボーンでは、さらなるパフォーマンス向上が観察できる。 oneformerは、画像セグメンテーションをより普遍的でアクセスしやすいものにするための重要なステップだと考えています。 さらなる研究を支援するため、私たちはhttps://github.com/SHI-Labs/OneFormerでコードとモデルをオープンソース化しました。

Universal Image Segmentation is not a new concept. Past attempts to unify image segmentation in the last decades include scene parsing, panoptic segmentation, and, more recently, new panoptic architectures. However, such panoptic architectures do not truly unify image segmentation because they need to be trained individually on the semantic, instance, or panoptic segmentation to achieve the best performance. Ideally, a truly universal framework should be trained only once and achieve SOTA performance across all three image segmentation tasks. To that end, we propose OneFormer, a universal image segmentation framework that unifies segmentation with a multi-task train-once design. We first propose a task-conditioned joint training strategy that enables training on ground truths of each domain (semantic, instance, and panoptic segmentation) within a single multi-task training process. Secondly, we introduce a task token to condition our model on the task at hand, making our model task-dynamic to support multi-task training and inference. Thirdly, we propose using a query-text contrastive loss during training to establish better inter-task and inter-class distinctions. Notably, our single OneFormer model outperforms specialized Mask2Former models across all three segmentation tasks on ADE20k, CityScapes, and COCO, despite the latter being trained on each of the three tasks individually with three times the resources. With new ConvNeXt and DiNAT backbones, we observe even more performance improvement. We believe OneFormer is a significant step towards making image segmentation more universal and accessible. To support further research, we open-source our code and models at https://github.com/SHI-Labs/OneFormer
翻訳日:2022-11-14 16:31:09 公開日:2022-11-10
# 監視用物体検出システムの性能に及ぼす映像圧縮の影響

Impact of Video Compression on the Performance of Object Detection Systems for Surveillance Applications ( http://arxiv.org/abs/2211.05805v1 )

ライセンス: Link先を確認
Michael O'Byrne, Vibhoothi, Mark Sugrue, and Anil Kokaram(参考訳) 本研究では,H.264ビデオ圧縮とオブジェクト検出ネットワーク(YOLOv5)の性能の関係について検討する。 われわれは50の監視ビデオと注釈付き関心の対象(人、自転車、車両)をキュレートした。 ビデオは、セット {22,32,37,42,47} の定数レート係数(CRF)値を用いて、5つの品質レベルで符号化された。 YOLOv5は圧縮ビデオに適用され、各CRFレベルで検出性能が解析された。 テスト結果は、検出性能が適度な圧縮レベルに強いことを示している。22ではなく37のcrf値を使用することで、検出性能に悪影響を及ぼすことなく、ビットレート/ファイルサイズが著しく減少する。 しかし、特に照明の弱い複雑なシーンや高速移動ターゲットでは、高い圧縮レベルで検出性能が低下する。 最後に、圧縮画像上でのYOLOv5の再トレーニングでは、高圧縮映像に適用した場合、F1スコアが1%向上する。

This study examines the relationship between H.264 video compression and the performance of an object detection network (YOLOv5). We curated a set of 50 surveillance videos and annotated targets of interest (people, bikes, and vehicles). Videos were encoded at 5 quality levels using Constant Rate Factor (CRF) values in the set {22,32,37,42,47}. YOLOv5 was applied to compressed videos and detection performance was analyzed at each CRF level. Test results indicate that the detection performance is generally robust to moderate levels of compression; using a CRF value of 37 instead of 22 leads to significantly reduced bitrates/file sizes without adversely affecting detection performance. However, detection performance degrades appreciably at higher compression levels, especially in complex scenes with poor lighting and fast-moving targets. Finally, retraining YOLOv5 on compressed imagery gives up to a 1% improvement in F1 score when applied to highly compressed footage.
翻訳日:2022-11-14 16:24:27 公開日:2022-11-10
# オープンセット自動目標認識

Open-Set Automatic Target Recognition ( http://arxiv.org/abs/2211.05883v1 )

ライセンス: Link先を確認
Bardia Safaei, Vibashan VS, Celso M. de Melo, Shuowen Hu, and Vishal M. Patel(参考訳) 自動目標認識(Automatic Target Recognition、ATR)は、異なるセンサーから得られたデータに基づいてターゲットを認識しようとするコンピュータビジョンアルゴリズムのカテゴリである。 ATRアルゴリズムは、軍事や監視といった現実世界のシナリオで広く使われている。 既存のATRアルゴリズムは、トレーニングとテストが同じクラス分布を持つ従来のクローズドセット手法向けに開発されている。 したがって、これらのアルゴリズムはトレーニングフェーズで見られない未知のクラスに対して堅牢ではなく、実世界のアプリケーションでの有用性を制限している。 そこで本研究では,atrアルゴリズムのオープンセット認識を可能にするオープンセット自動目標認識フレームワークを提案する。 さらに,推論中に見られる未知のクラスを効果的に取り扱うために,プラグインカテゴリ対応バイナリ分類器(cbc)モジュールを導入する。 提案したCBCモジュールは既存のATRアルゴリズムと容易に統合でき、エンドツーエンドでトレーニングすることができる。 実験の結果,提案手法は DSIAC および CIFAR-10 データセット上で多くのオープンセット手法より優れていることがわかった。 私たちの知る限りでは、これはatrアルゴリズムのオープンセット分類問題に対処する最初の仕事です。 ソースコードはhttps://github.com/bardisafa/open-set-atr。

Automatic Target Recognition (ATR) is a category of computer vision algorithms which attempts to recognize targets on data obtained from different sensors. ATR algorithms are extensively used in real-world scenarios such as military and surveillance applications. Existing ATR algorithms are developed for traditional closed-set methods where training and testing have the same class distribution. Thus, these algorithms have not been robust to unknown classes not seen during the training phase, limiting their utility in real-world applications. To this end, we propose an Open-set Automatic Target Recognition framework where we enable open-set recognition capability for ATR algorithms. In addition, we introduce a plugin Category-aware Binary Classifier (CBC) module to effectively tackle unknown classes seen during inference. The proposed CBC module can be easily integrated with any existing ATR algorithms and can be trained in an end-to-end manner. Experimental results show that the proposed approach outperforms many open-set methods on the DSIAC and CIFAR-10 datasets. To the best of our knowledge, this is the first work to address the open-set classification problem for ATR algorithms. Source code is available at: https://github.com/bardisafa/Open-set-ATR.
翻訳日:2022-11-14 16:24:12 公開日:2022-11-10
# 気候指標:公共の気候政策の自動分析のためのパイプライン

Climate Policy Tracker: Pipeline for automated analysis of public climate policies ( http://arxiv.org/abs/2211.05852v1 )

ライセンス: Link先を確認
Artur \.Z\'o{\l}kowski, Mateusz Krzyzi\'nski, Piotr Wilczy\'nski, Stanis{\l}aw Gizi\'nski, Emilia Wi\'snios, Bartosz Pieli\'nski, Julian Sienkiewicz, Przemys{\l}aw Biecek(参考訳) 気候政策とその発行頻度に関する標準化された政策文書の数は著しく増加している。 文書は、特に政策の専門家、議員、データ分析ツールを利用するためのアクセスやドメインの専門知識が欠けている市民など、手作業による分析には長く、面倒である。 このような状況の潜在的な影響は、市民統治の減少と気候政策への関与、分析コストの全体的な増加、一般市民へのアクセシビリティの低下などである。 本研究は、eu加盟国27カ国が設立した2021年から2030年までの10年間の国民エネルギー・気候変動計画(necps)の自動要約と分析に、潜在ディリクレ割当に基づくパイプラインを用いる。 我々は、特定の問題を記述するための言語である政策フレーミングの分析に焦点をあて、政府が気候政策を策定し、気候目標を達成する方法において不可欠なニュアンスを検出する。 これらの手法は、各国の政策文書の比較分析にトピックモデリングとクラスタリングを利用する。 気候政策の理論やプロセスの開発のために、ユーザフレンドリーな潜在的なアプリケーションに簡単に統合できる。 これにより、気候政策や公共政策研究に対する市民の統治と関与がさらに向上する。

The number of standardized policy documents regarding climate policy and their publication frequency is significantly increasing. The documents are long and tedious for manual analysis, especially for policy experts, lawmakers, and citizens who lack access or domain expertise to utilize data analytics tools. Potential consequences of such a situation include reduced citizen governance and involvement in climate policies and an overall surge in analytics costs, rendering less accessibility for the public. In this work, we use a Latent Dirichlet Allocation-based pipeline for the automatic summarization and analysis of 10-years of national energy and climate plans (NECPs) for the period from 2021 to 2030, established by 27 Member States of the European Union. We focus on analyzing policy framing, the language used to describe specific issues, to detect essential nuances in the way governments frame their climate policies and achieve climate goals. The methods leverage topic modeling and clustering for the comparative analysis of policy documents across different countries. It allows for easier integration in potential user-friendly applications for the development of theories and processes of climate policy. This would further lead to better citizen governance and engagement over climate policies and public policy research.
翻訳日:2022-11-14 16:05:58 公開日:2022-11-10
# CREATIVESUMM:創造的執筆のための自動要約タスク

CREATIVESUMM: Shared Task on Automatic Summarization for Creative Writing ( http://arxiv.org/abs/2211.05886v1 )

ライセンス: Link先を確認
Divyansh Agarwal, Alexander R. Fabbri, Simeng Han, Wojciech Kryscinski, Faisal Ladhak, Bryan Li, Kathleen McKeown, Dragomir Radev, Tianyi Zhang, Sam Wiseman(参考訳) 本稿では,文学テキスト,映画脚本,テレビ脚本など,複数の創作分野における文書の要約作業を紹介する。 これらの創造的な文書を要約するには、複雑な文学的解釈と、様々なプロット展開と物語構造を含むテキストの非自明な時間依存を理解する必要がある。 これは独特な課題であり、テキスト要約システムでは未探索である。 本課題では,本書の要約,映画脚本,プライムタイムテレビ脚本,昼間のソープオペラ脚本を中心に,4つのサブタスクとその対応するデータセットを紹介する。 我々は、タスクのためにこれらのデータセットをキュレートするプロセスと、提案の評価に使用されるメトリクスを詳述する。 COING 2022でのCREATIVESUMMワークショップの一環として、共有タスクには合計18の応募が集まった。 本稿では,各サブタスクに対する提案とベースラインについて論じるとともに,今後のフィールドでの作業の促進に向けた方向性について述べる。

This paper introduces the shared task of summarizing documents in several creative domains, namely literary texts, movie scripts, and television scripts. Summarizing these creative documents requires making complex literary interpretations, as well as understanding non-trivial temporal dependencies in texts containing varied styles of plot development and narrative structure. This poses unique challenges and is yet underexplored for text summarization systems. In this shared task, we introduce four sub-tasks and their corresponding datasets, focusing on summarizing books, movie scripts, primetime television scripts, and daytime soap opera scripts. We detail the process of curating these datasets for the task, as well as the metrics used for the evaluation of the submissions. As part of the CREATIVESUMM workshop at COLING 2022, the shared task attracted 18 submissions in total. We discuss the submissions and the baselines for each sub-task in this paper, along with directions for facilitating future work in the field.
翻訳日:2022-11-14 16:05:39 公開日:2022-11-10
# Melanoma MELCサンプルの細胞レベル解析におけるグラフ表現の利用

Employing Graph Representations for Cell-level Characterization of Melanoma MELC Samples ( http://arxiv.org/abs/2211.05884v1 )

ライセンス: Link先を確認
Luis Carlos Rivera Monroy, Leonhard Rist, Martin Eberhardt, Christian Ostalecki, Andreas Baur, Julio Vera, Katharina Breininger, and Andreas Maier(参考訳) 病理組織像は皮膚疾患の診断と治療に重要である。 このため、コンピュータ支援のアプローチが普及し、セグメンテーションや皮膚障害の分類などのタスクで有望な結果が得られた。 しかし、必須データと十分な高品質のアノテーションを集めることは難しい。 本研究は,Multi-Epitope-Ligand Cartography (MELC) を用いた黒色腫疑似検体を用いたパイプラインについて述べる。 この細胞レベルの組織特性はグラフとして表現され、グラフニューラルネットワークのトレーニングに使用される。 このイメージング技術は,本研究で提案した手法と組み合わせて87%の分類精度を実現し,既存の手法を10%上回っている。

Histopathology imaging is crucial for the diagnosis and treatment of skin diseases. For this reason, computer-assisted approaches have gained popularity and shown promising results in tasks such as segmentation and classification of skin disorders. However, collecting essential data and sufficiently high-quality annotations is a challenge. This work describes a pipeline that uses suspected melanoma samples that have been characterized using Multi-Epitope-Ligand Cartography (MELC). This cellular-level tissue characterisation is then represented as a graph and used to train a graph neural network. This imaging technology, combined with the methodology proposed in this work, achieves a classification accuracy of 87%, outperforming existing approaches by 10%.
翻訳日:2022-11-14 15:48:07 公開日:2022-11-10
# 効率的な最適化と解釈性を有する量子ニューラルネットワーク

A quantum neural network with efficient optimization and interpretability ( http://arxiv.org/abs/2211.05793v1 )

ライセンス: Link先を確認
Pei-Lin Zheng, Jia-Bao Wang and Yi Zhang(参考訳) 機械学習アプリケーションを支える古典的な人工ニューラルネットワークに相当する量子ニューラルネットワークとして、ユニタリベースの量子ニューラルネットワークは量子計算の様々な分野において活発である。 潜在的な可能性にもかかわらず、それらの開発は最適化のコストの上昇と実現の困難によって妨げられている。 本稿では,状態の局所密度やコンディショナルコンダクタンスといった物理特性が出力として機能するフェルミオンモデルを用いて量子ニューラルネットワークを提案し,バックプロパゲーションに匹敵する効率的な最適化を確立する。 古典的機械学習ベンチマークの競合精度に加えて、ファーミオン量子ニューラルネットワークは、高精度かつ前処理なしで量子システム上で機械学習を実行する。 量子的性質はまた、数値シミュレーションや実験的な実現を促進する、より一般的で局所的な接続性を持つネットワークを付与する量子相関(quantum correlations)や、消失する勾配問題に対処する新しい視点など、様々な利点をもたらす。 また、トレーニング力学、決定論理フロー、基準定式化を含む、解釈可能な機械学習のための量子エンタングルメント解析などの量子ツールボックスの応用を実証する。

As the quantum counterparts to the classical artificial neural networks underlying widespread machine-learning applications, unitary-based quantum neural networks are active in various fields of quantum computation. Despite the potential, their developments have been hampered by the elevated cost of optimizations and difficulty in realizations. Here, we propose a quantum neural network in the form of fermion models whose physical properties, such as the local density of states and conditional conductance, serve as outputs, and establish an efficient optimization comparable to back-propagation. In addition to competitive accuracy on challenging classical machine-learning benchmarks, our fermion quantum neural network performs machine learning on quantum systems with high precision and without preprocessing. The quantum nature also brings various other advantages, e.g., quantum correlations entitle networks with more general and local connectivity facilitating numerical simulations and experimental realizations, as well as novel perspectives to address the vanishing gradient problem long plaguing deep networks. We also demonstrate the applications of our quantum toolbox, such as quantum-entanglement analysis, for interpretable machine learning, including training dynamics, decision logic flow, and criteria formulation.
翻訳日:2022-11-14 15:47:54 公開日:2022-11-10
# 仮想世界の創出に向けての歩み

Steps towards prompt-based creation of virtual worlds ( http://arxiv.org/abs/2211.05875v1 )

ライセンス: Link先を確認
Jasmine Roberts, Andrzej Banburski-Fahey, Jaron Lanier(参考訳) コード生成のために訓練された大規模な言語モデルは、仮想世界(仮想世界を作る)の会話に適用できる。 本研究では,プロンプトベースの手法がvrレベルの編集を高速化し,ゲーム開発に留まらずゲームプレイの一部にすることができることを示す。 例えばCodex VR Pongは、生成プロセスを用いて静的コンテンツを生成するだけでなく、3Dオブジェクト間の非自明な相互作用も生成する。 この実証は自然に、生成モデルによって生み出された経験をどのように評価し、ベンチマークするかに関する統合的な議論につながります。 我々は、VRにおけるAI支援共同創造の差し迫った課題について論じる。

Large language models trained for code generation can be applied to speaking virtual worlds into existence (creating virtual worlds). In this work we show that prompt-based methods can both accelerate in-VR level editing, as well as can become part of gameplay rather than just part of game development. As an example, we present Codex VR Pong which shows non-deterministic game mechanics using generative processes to not only create static content but also non-trivial interactions between 3D objects. This demonstration naturally leads to an integral discussion on how one would evaluate and benchmark experiences created by generative models - as there are no qualitative or quantitative metrics that apply in these scenarios. We conclude by discussing impending challenges of AI-assisted co-creation in VR.
翻訳日:2022-11-14 15:47:34 公開日:2022-11-10
# MixUp-MIL:マルチインスタンス学習のための新しいデータ拡張と甲状腺癌の診断に関する研究

MixUp-MIL: Novel Data Augmentation for Multiple Instance Learning and a Study on Thyroid Cancer Diagnosis ( http://arxiv.org/abs/2211.05862v1 )

ライセンス: Link先を確認
Michael Gadermayr, Lukas Koller, Maximilian Tschuchnig, Lea Maria Stangassinger, Christina Kreutzer, Sebastien Couillard-Despres, Gertie Janneke Oostingh, Anton Hittmair(参考訳) 複数のインスタンス学習は、ピクセルレベルやパッチレベルのアノテーションがなければ、スライドイメージベースの診断全体に対して強力なアプローチを示す。 ホールスライド画像の巨大なサイズにもかかわらず、個々のスライドの数はかなり少なく、少数のラベル付きサンプルに繋がる。 トレーニングを改善するために,特徴ベクトルの線形補間(ミックスアップ)という考え方に基づいて,複数インスタンス学習のための異なるデータ拡張戦略を提案し,検討する。 最先端の複数インスタンス学習アーキテクチャと2つの甲状腺癌データセットに基づいて,様々な共通データ拡張戦略を総合的に検討した。 元々のミックスアップアプローチに基づく戦略では精度が低下したが,新しいスライド内補間法を用いることにより,精度が一貫して向上した。

Multiple instance learning exhibits a powerful approach for whole slide image-based diagnosis in the absence of pixel- or patch-level annotations. In spite of the huge size of hole slide images, the number of individual slides is often rather small, leading to a small number of labeled samples. To improve training, we propose and investigate different data augmentation strategies for multiple instance learning based on the idea of linear interpolations of feature vectors (known as MixUp). Based on state-of-the-art multiple instance learning architectures and two thyroid cancer data sets, an exhaustive study is conducted considering a range of common data augmentation strategies. Whereas a strategy based on to the original MixUp approach showed decreases in accuracy, the use of a novel intra-slide interpolation method led to consistent increases in accuracy.
翻訳日:2022-11-14 15:31:01 公開日:2022-11-10
# 意味的一貫性による大規模言語モデルの信頼性の測定

Measuring Reliability of Large Language Models through Semantic Consistency ( http://arxiv.org/abs/2211.05853v1 )

ライセンス: Link先を確認
Harsh Raj, Domenic Rosati, Subhabrata Majumdar(参考訳) 大規模事前学習型言語モデル(PLM)は、多くの自然言語タスクにおいて驚くほどの頻度と性能を示すが、近年の研究により、良好な性能のPLMは、それらへのプロンプトの供給に非常に敏感であることが示されている。 プロンプトが意味的に同一である場合でも、言語モデルは全く異なる答えを与える。 PLMの安全で信頼性の高いデプロイメントを検討する場合、アウトプットを同じ意味のプロンプトの下で一貫性のあるものにし、同じ意図を伝えたいと思っています。 最先端のPLMがこのニーズにどう対処するかを考察する研究もあるが、それらは単一の単語や複数単語の回答の語彙的等式のみの評価に限られており、生成的テキストシーケンスの整合性には対処していない。 テキスト生成環境下でのPLMの一貫性を理解するため,オープンなテキスト出力の比較を可能にする意味的一貫性尺度を開発した。 我々は,この整合性尺度のいくつかのバージョンを実装し,TruthfulQAデータセットにおける質問のパラフレーズ化バージョンにおける多くのPLMの性能評価を行い,提案手法は語彙整合性を具現化した従来の指標よりもかなり整合性があり,出力整合性の人間による評価と高次評価との相関性も見出した。

While large pretrained language models (PLMs) demonstrate incredible fluency and performance on many natural language tasks, recent work has shown that well-performing PLMs are very sensitive to what prompts are feed into them. Even when prompts are semantically identical, language models may give very different answers. When considering safe and trustworthy deployments of PLMs we would like their outputs to be consistent under prompts that mean the same thing or convey the same intent. While some work has looked into how state-of-the-art PLMs address this need, they have been limited to only evaluating lexical equality of single- or multi-word answers and do not address consistency of generative text sequences. In order to understand consistency of PLMs under text generation settings, we develop a measure of semantic consistency that allows the comparison of open-ended text outputs. We implement several versions of this consistency metric to evaluate the performance of a number of PLMs on paraphrased versions of questions in the TruthfulQA dataset, we find that our proposed metrics are considerably more consistent than traditional metrics embodying lexical consistency, and also correlate with human evaluation of output consistency to a higher degree.
翻訳日:2022-11-14 15:28:48 公開日:2022-11-10
# 超広帯域インパルス応答を用いたヒトの試験時間逆方向検出とロバスト性

Test-time adversarial detection and robustness for localizing humans using ultra wide band channel impulse responses ( http://arxiv.org/abs/2211.05854v1 )

ライセンス: Link先を確認
Abhiram Kolli, Muhammad Jehanzeb Mirza, Horst Possegger, Horst Bischof(参考訳) 車のキーレスエントリーシステムは、オペレーターのローカライズにニューラルネットワークを採用している。 テストタイムの敵防衛を使用すれば、敵のサンプルを事前に訓練することなく、敵の攻撃に対して防御することができる。 本稿では,事前学習ニューラルネットワークの局所化中間応答と補助ソフトマックス層の信頼性スコアを定量化することにより,入力逆数サンプルを検出するテスト時間逆数サンプル検出器を提案する。 さらに,ネットワークを堅牢化するために,非定型入力サンプルクリッピングによる非関連特徴の低減を行う。 本手法により, 高速勾配法(FGSM) と基本反復法(BIM) と投影勾配法(PGD) のいずれにおいても, 15 レベルの対向摂動平均性能は55.33%向上する。

Keyless entry systems in cars are adopting neural networks for localizing its operators. Using test-time adversarial defences equip such systems with the ability to defend against adversarial attacks without prior training on adversarial samples. We propose a test-time adversarial example detector which detects the input adversarial example through quantifying the localized intermediate responses of a pre-trained neural network and confidence scores of an auxiliary softmax layer. Furthermore, in order to make the network robust, we extenuate the non-relevant features by non-iterative input sample clipping. Using our approach, mean performance over 15 levels of adversarial perturbations is increased by 55.33% for the fast gradient sign method (FGSM) and 6.3% for both the basic iterative method (BIM) and the projected gradient method (PGD).
翻訳日:2022-11-14 15:28:24 公開日:2022-11-10
# 理解してる? きめ細かいビジュアルコモンセンスのマルチモーダル評価

Understanding ME? Multimodal Evaluation for Fine-grained Visual Commonsense ( http://arxiv.org/abs/2211.05895v1 )

ライセンス: Link先を確認
Zhecan Wang, Haoxuan You, Yicheng He, Wenhao Li, Kai-Wei Chang and Shih-Fu Chang(参考訳) ビジュアルコモンセンス理解には、視覚言語(VL)モデルが画像とテキストだけでなく、記述された視覚シーンの理解を完全に統合し、達成するために相互参照も必要である。 近年,様々な手法が開発され,ビジュアルコモンセンスベンチマークで高い性能を実現している。 しかし、これらのモデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明である。 本研究では,視覚シーン,テキスト,関連知識の理解をテストするために,マルチモーダル評価(me)パイプラインを提案する。 次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。 最後に,(1)意味的に低レベルな情報は高レベルな情報の学習を支援するが,その逆ではない,(2)視覚情報はテキストと比較して一般的に活用されている,という興味深い知見が得られた。

Visual commonsense understanding requires Vision Language (VL) models to not only understand image and text but also cross-reference in-between to fully integrate and achieve comprehension of the visual scene described. Recently, various approaches have been developed and have achieved high performance on visual commonsense benchmarks. However, it is unclear whether the models really understand the visual scene and underlying commonsense knowledge due to limited evaluation data resources. To provide an in-depth analysis, we present a Multimodal Evaluation (ME) pipeline to automatically generate question-answer pairs to test models' understanding of the visual scene, text, and related knowledge. We then take a step further to show that training with the ME data boosts the model's performance in standard VCR evaluation. Lastly, our in-depth analysis and comparison reveal interesting findings: (1) semantically low-level information can assist the learning of high-level information but not the opposite; (2) visual information is generally under utilization compared with text.
翻訳日:2022-11-14 15:21:21 公開日:2022-11-10
# ラベル不確かさの分岐について

On the Ramifications of Human Label Uncertainty ( http://arxiv.org/abs/2211.05871v1 )

ライセンス: Link先を確認
Chen Zhou, Mohit Prabhushankar, Ghassan AlRegib(参考訳) 人間はデータラベリング中に不一致を示します。 この不一致を人間のラベルの不確実性と呼ぶ。 本研究では,ヒトのラベルの不確実性(HLU)について検討する。 既存の不確実性推定アルゴリズムの評価は,HLUの存在下では,既存の不確実性指標やアルゴリズム自体がHLUに対応して制限されていることを示す。 一方,予測的不確実性と一般化可能性に対する不適切な影響を観察する。 そこで本研究では,人為的ラベルを必要とせずに,新たな自然景観統計(NSS)に基づくラベル希釈訓練手法を提案する。 具体的には、まず、画像の統計的正規性によってランク付けされる低知覚品質のサンプルのサブセットを選択する。 次に、このサブセットの各サンプルに別々のラベルを割り当てて、希薄なラベルのトレーニングセットを得る。 実験と分析により,NSSによるラベル希釈によるトレーニングは,HLUによる不適切な影響を緩和することが示された。

Humans exhibit disagreement during data labeling. We term this disagreement as human label uncertainty. In this work, we study the ramifications of human label uncertainty (HLU). Our evaluation of existing uncertainty estimation algorithms, with the presence of HLU, indicates the limitations of existing uncertainty metrics and algorithms themselves in response to HLU. Meanwhile, we observe undue effects in predictive uncertainty and generalizability. To mitigate the undue effects, we introduce a novel natural scene statistics (NSS) based label dilution training scheme without requiring massive human labels. Specifically, we first select a subset of samples with low perceptual quality ranked by statistical regularities of images. We then assign separate labels to each sample in this subset to obtain a training set with diluted labels. Our experiments and analysis demonstrate that training with NSS-based label dilution alleviates the undue effects caused by HLU.
翻訳日:2022-11-14 15:20:22 公開日:2022-11-10
# CRINGE Loss: モデリングしない言語を学ぶ

The CRINGE Loss: Learning what language not to model ( http://arxiv.org/abs/2211.05826v1 )

ライセンス: Link先を確認
Leonard Adolphs, Tianyu Gao, Jing Xu, Kurt Shuster, Sainbayar Sukhbaatar, Jason Weston(参考訳) 標準言語モデルトレーニングでは、金の人間の文書や人間と人間のインタラクションデータを使用し、すべてのトレーニングデータを肯定的な例として扱う。 エビデンスの増加は、非常に大量のポジティブなトレーニングデータであっても、比較的少量のネガティブなデータで軽減できる問題がまだ残っていることを示している。 本研究では,CRINGE損失(ContRastive Iterative Negative GEneration)と呼ばれるデータを用いたトレーニング手法を提案する。 本稿では,安全な生成,矛盾回避,オープンドメイン対話の3つの実験において,このアプローチの有効性を示す。 私たちのモデルは、複数の強力なベースラインを上回り、概念的にはシンプルで、訓練と実装が容易です。

Standard language model training employs gold human documents or human-human interaction data, and treats all training data as positive examples. Growing evidence shows that even with very large amounts of positive training data, issues remain that can be alleviated with relatively small amounts of negative data -- examples of what the model should not do. In this work, we propose a novel procedure to train with such data called the CRINGE loss (ContRastive Iterative Negative GEneration). We show the effectiveness of this approach across three different experiments on the tasks of safe generation, contradiction avoidance, and open-domain dialogue. Our models outperform multiple strong baselines and are conceptually simple, easy to train and implement.
翻訳日:2022-11-14 15:20:08 公開日:2022-11-10
# Casual Conversations v2: アルゴリズムバイアスとロバスト性を測定するための大規模な同意駆動データセットの設計

Casual Conversations v2: Designing a large consent-driven dataset to measure algorithmic bias and robustness ( http://arxiv.org/abs/2211.05809v1 )

ライセンス: Link先を確認
Caner Hazirbas, Yejin Bang, Tiezheng Yu, Parisa Assar, Bilal Porgali, V\'itor Albiero, Stefan Hermanek, Jacqueline Pan, Emily McReynolds, Miranda Bogen, Pascale Fung, Cristian Canton Ferrer(参考訳) 堅牢で公正なAIシステムの開発には、関連する測定の妥当性と正当性を保証するために、包括的なラベルセットを持つデータセットが必要である。 そのため、近年の取り組みは、機密性を含むラベルを慎重に選択した人物関連データセットの収集と、それらの属性をモデルテストや開発に利用するための同意フォームに焦点を当てている。 責任あるデータ収集にはいくつかの段階があり、ユースケースのシナリオを決定すること、サブグループのアルゴリズムバイアスを測定するためにデータが適合するカテゴリ(注釈)を選択すること、そして最も重要なことは、選択されたカテゴリ/サブカテゴリが地域多様性に頑健であり、可能な限り多くのサブグループを包含していることを保証することである。 Metaは、AIアルゴリズムのバイアスと堅牢性(https://ai.facebook.com/blog/shedding-light-on-fairness-in-a-new-data-set)を測定するために、大規模な同意駆動データセットの収集に取り組んでいる。 本稿では,このようなカテゴリの設計とCasual Conversations v2のサブカテゴリについて述べる。

Developing robust and fair AI systems require datasets with comprehensive set of labels that can help ensure the validity and legitimacy of relevant measurements. Recent efforts, therefore, focus on collecting person-related datasets that have carefully selected labels, including sensitive characteristics, and consent forms in place to use those attributes for model testing and development. Responsible data collection involves several stages, including but not limited to determining use-case scenarios, selecting categories (annotations) such that the data are fit for the purpose of measuring algorithmic bias for subgroups and most importantly ensure that the selected categories/subcategories are robust to regional diversities and inclusive of as many subgroups as possible. Meta, in a continuation of our efforts to measure AI algorithmic bias and robustness (https://ai.facebook.com/blog/shedding-light-on-fairness-in-ai-with-a-new-data-set), is working on collecting a large consent-driven dataset with a comprehensive list of categories. This paper describes our proposed design of such categories and subcategories for Casual Conversations v2.
翻訳日:2022-11-14 15:11:12 公開日:2022-11-10
# 逆例を用いたプライバシ・ユーティリティバランス音声復号化

Privacy-Utility Balanced Voice De-Identification Using Adversarial Examples ( http://arxiv.org/abs/2211.05446v1 )

ライセンス: Link先を確認
Meng Chen, Li Lu, Jiadi Yu, Yingying Chen, Zhongjie Ba, Feng Lin, Kui Ren(参考訳) 音声データ公開中のID漏洩の脅威に直面したユーザは、便利な音声サービスを楽しむ際に、プライバシー利用のジレンマに巻き込まれている。 既存の研究では、ユーザの声を非識別するために直接修正またはテキストベースの再合成を用いるが、人間の声の存在において一貫性のない聴力をもたらす。 本稿では,音声サービスのプライバシーと利便性のバランスをとるために,逆行例を用いた音声識別システムを提案する。 知覚可能な歪みを誘導する典型的な付加例の代わりに、現実の部屋のインパルス応答に摂動を変調する新しい畳み込み対逆例を設計する。 そこで本システムでは,非侵入的識別のための音声知覚品質を維持しつつ,ASI(Automatic Speaker Identification)によるユーザ識別の保護が可能であった。 さらに,条件付き変分オートエンコーダを通したコンパクトな話者分布を学習し,多様なターゲット埋め込みをオンデマンドでサンプリングする。 多様なターゲット生成と入力固有の摂動構成を組み合わせることで,適応的非識別化のための任意の識別変換を可能にする。 実験結果から,本システムは4.31dbのメルセプストラム歪みと主観的平均評価スコア4.48と,主観的asisおよび商用システムにおいて98%,79%の非同定を達成できた。

Faced with the threat of identity leakage during voice data publishing, users are engaged in a privacy-utility dilemma when enjoying convenient voice services. Existing studies employ direct modification or text-based re-synthesis to de-identify users' voices, but resulting in inconsistent audibility in the presence of human participants. In this paper, we propose a voice de-identification system, which uses adversarial examples to balance the privacy and utility of voice services. Instead of typical additive examples inducing perceivable distortions, we design a novel convolutional adversarial example that modulates perturbations into real-world room impulse responses. Benefit from this, our system could preserve user identity from exposure by Automatic Speaker Identification (ASI) while remaining the voice perceptual quality for non-intrusive de-identification. Moreover, our system learns a compact speaker distribution through a conditional variational auto-encoder to sample diverse target embeddings on demand. Combining diverse target generation and input-specific perturbation construction, our system enables any-to-any identify transformation for adaptive de-identification. Experimental results show that our system could achieve 98% and 79% successful de-identification on mainstream ASIs and commercial systems with an objective Mel cepstral distortion of 4.31dB and a subjective mean opinion score of 4.48.
翻訳日:2022-11-11 16:30:29 公開日:2022-11-10
# Vis2Mus:制御可能な音楽生成のためのマルチモーダル表現マッピングの探索

Vis2Mus: Exploring Multimodal Representation Mapping for Controllable Music Generation ( http://arxiv.org/abs/2211.05543v1 )

ライセンス: Link先を確認
Runbang Zhang, Yixiao Zhang, Kai Shao, Ying Shan, Gus Xia(参考訳) 本研究では,視覚芸術の領域から音楽の領域への表現マッピングについて検討し,視覚芸術を音楽生成を制御する効果的なハンドルとして活用する。 純粋にデータ駆動のマルチモーダル表現学習におけるほとんどの研究とは異なり、深層音楽表現学習とユーザ学習を組み合わせた分析合成アプローチを採用する。 このようなアプローチにより、大量のペアデータなしで \textit{interpretable} 表現マッピングを発見できる。 特に、視覚から音楽へのマッピングは同変とよく似た性質を持つ。 言い換えると、様々な画像変換、例えば明るさの変更、コントラストの変更、スタイル転送を使用して、音楽領域における対応する変換を制御することができる。 さらに,シンボル音楽生成のための制御可能なインタフェースとしてVis2Musシステムをリリースした。

In this study, we explore the representation mapping from the domain of visual arts to the domain of music, with which we can use visual arts as an effective handle to control music generation. Unlike most studies in multimodal representation learning that are purely data-driven, we adopt an analysis-by-synthesis approach that combines deep music representation learning with user studies. Such an approach enables us to discover \textit{interpretable} representation mapping without a huge amount of paired data. In particular, we discover that visual-to-music mapping has a nice property similar to equivariant. In other words, we can use various image transformations, say, changing brightness, changing contrast, style transfer, to control the corresponding transformations in the music domain. In addition, we released the Vis2Mus system as a controllable interface for symbolic music generation.
翻訳日:2022-11-11 16:30:01 公開日:2022-11-10
# 電池寿命早期予測のためのベイズ階層モデル

Bayesian hierarchical modelling for battery lifetime early prediction ( http://arxiv.org/abs/2211.05697v1 )

ライセンス: Link先を確認
Zihao Zhou, David A. Howey(参考訳) 実世界のシステム管理と実験室による実験設計には,バッテリ健康の正確な予測が不可欠である。 しかし、異なるサイクリング条件から生命予測モデルを構築することは依然として課題である。 サイクル条件と初期製造条件の両方による大きな寿命変動の結果であり、サイクル条件ごとに利用可能な限られた実験資源とともに、データ駆動の寿命予測が困難である。 ここでは,電池寿命予測のための階層的ベイズ線形モデルを提案し,個々のセル特性(製造変動を反映する)と人口全体特性(循環条件が人口平均に与える影響を反映する)を組み合わせる。 個々の特徴は、最初の100サイクルのデータから収集され、寿命の約5~10%である。 このモデルは、根平均二乗誤差3.2日、絶対パーセンテージ誤差8.6%で寿命を予測でき、5倍のクロスバリデーションで測定し、ベースライン(非階層的)モデルを約12-13%上回った。

Accurate prediction of battery health is essential for real-world system management and lab-based experiment design. However, building a life-prediction model from different cycling conditions is still a challenge. Large lifetime variability results from both cycling conditions and initial manufacturing variability, and this -- along with the limited experimental resources usually available for each cycling condition -- makes data-driven lifetime prediction challenging. Here, a hierarchical Bayesian linear model is proposed for battery life prediction, combining both individual cell features (reflecting manufacturing variability) with population-wide features (reflecting the impact of cycling conditions on the population average). The individual features were collected from the first 100 cycles of data, which is around 5-10% of lifetime. The model is able to predict end of life with a root mean square error of 3.2 days and mean absolute percentage error of 8.6%, measured through 5-fold cross-validation, overperforming the baseline (non-hierarchical) model by around 12-13%.
翻訳日:2022-11-11 16:29:48 公開日:2022-11-10
# 改良された一般化のための土壌プロセスの因果モデリング

Causal Modeling of Soil Processes for Improved Generalization ( http://arxiv.org/abs/2211.05675v1 )

ライセンス: Link先を確認
Somya Sharma, Swati Sharma, Andy Neal, Sara Malvar, Eduardo Rodrigues, John Crawford, Emre Kiciman, Ranveer Chandra(参考訳) 土壌有機炭素の測定とモニタリングは農業生産性と重要な環境問題に対処するために重要である。 土壌有機炭素は土壌の栄養を豊かにするだけでなく、貯水力の向上や物理的浸食の抑制といった共利益も持つ。 土壌有機炭素推定における多くの研究にもかかわらず、現在のアプローチは土壌の状態や管理の慣行にわたってうまく一般化していない。 本研究では,土壌プロセス間の因果関係の明示的モデリングにより,予測モデルの分布外一般化性が向上することを示す。 土壌有機炭素推定モデルの比較分析を行い, 因果的発見法を用いて骨格を推定した。 私たちのフレームワークは、テスト平均二乗誤差が81%、テスト平均絶対誤差が52%の平均改善を提供します。

Measuring and monitoring soil organic carbon is critical for agricultural productivity and for addressing critical environmental problems. Soil organic carbon not only enriches nutrition in soil, but also has a gamut of co-benefits such as improving water storage and limiting physical erosion. Despite a litany of work in soil organic carbon estimation, current approaches do not generalize well across soil conditions and management practices. We empirically show that explicit modeling of cause-and-effect relationships among the soil processes improves the out-of-distribution generalizability of prediction models. We provide a comparative analysis of soil organic carbon estimation models where the skeleton is estimated using causal discovery methods. Our framework provide an average improvement of 81% in test mean squared error and 52% in test mean absolute error.
翻訳日:2022-11-11 16:26:29 公開日:2022-11-10
# 自動エンコーダ潜在空間埋め込みによる協調的データ共有のためのプライバシ保存機械学習

Privacy-Preserving Machine Learning for Collaborative Data Sharing via Auto-encoder Latent Space Embeddings ( http://arxiv.org/abs/2211.05717v1 )

ライセンス: Link先を確認
Ana Mar\'ia Quintero-Ossa and Jes\'us Solano and Hern\'an Jarc\'ia and David Zarruk and Alejandro Correa Bahnsen and Carlos Valencia(参考訳) データ共有プロセスにおけるプライバシ保護機械学習は、オリジナルのデータソースを共有する必要なく、機械学習(ML)モデルの協調トレーニングを可能にする、極めて重要なタスクである。 機密データがMLパイプライン全体、すなわちトレーニングと推論フェーズを通してプライベートであることを保証する必要がある場合、特に関連性が高い。 本稿では,自動エンコーダによる表現学習を用いて,プライバシを保存した組込みデータを生成する革新的なフレームワークを提案する。 これにより、組織はデータ表現を共有して、共有予測下流タスクのために複数のデータソースを持つシナリオにおける機械学習モデルのパフォーマンスを向上させることができる。

Privacy-preserving machine learning in data-sharing processes is an ever-critical task that enables collaborative training of Machine Learning (ML) models without the need to share the original data sources. It is especially relevant when an organization must assure that sensitive data remains private throughout the whole ML pipeline, i.e., training and inference phases. This paper presents an innovative framework that uses Representation Learning via autoencoders to generate privacy-preserving embedded data. Thus, organizations can share the data representation to increase machine learning models' performance in scenarios with more than one data source for a shared predictive downstream task.
翻訳日:2022-11-11 16:26:19 公開日:2022-11-10
# 非線形最小二乗に対するランダム化部分空間ガウスニュートン法

A Randomised Subspace Gauss-Newton Method for Nonlinear Least-Squares ( http://arxiv.org/abs/2211.05727v1 )

ライセンス: Link先を確認
Coralia Cartis, Jaroslav Fowkes, Zhen Shao(参考訳) 非線形最小二乗最適化問題の解法としてRandomized Subspace Gauss-Newton(R-SGN)アルゴリズムを提案する。 R-SGNの信頼領域の変種に対して、収束結果の線形大域率を高い確率で示し、決定論的結果と精度耐性の順序を一致させる。 R-SGNのロジスティック回帰およびCUTEstコレクションからの非線形回帰問題に関する予備的な数値結果を示す。

We propose a Randomised Subspace Gauss-Newton (R-SGN) algorithm for solving nonlinear least-squares optimization problems, that uses a sketched Jacobian of the residual in the variable domain and solves a reduced linear least-squares on each iteration. A sublinear global rate of convergence result is presented for a trust-region variant of R-SGN, with high probability, which matches deterministic counterpart results in the order of the accuracy tolerance. Promising preliminary numerical results are presented for R-SGN on logistic regression and on nonlinear regression problems from the CUTEst collection.
翻訳日:2022-11-11 16:26:09 公開日:2022-11-10
# FedLesScan: サーバレスフェデレーション学習におけるストラグラーの緩和

FedLesScan: Mitigating Stragglers in Serverless Federated Learning ( http://arxiv.org/abs/2211.05739v1 )

ライセンス: Link先を確認
Mohamed Elzohairy, Mohak Chadha, Anshul Jindal, Andreas Grafberger, Jianfeng Gu, Michael Gerndt, Osama Abboud(参考訳) Federated Learning(FL)は、トレーニングデータをローカルに保ちながら、分散クライアント間で共有グローバルモデルのトレーニングを可能にする機械学習パラダイムである。 FLのシステム設計に関するこれまでの作業は、常に動作するステートフルなコンポーネントの使用に重点を置いていたが、最近の研究によると、FLシステムのコンポーネントは、サーバレスコンピューティングとファンクション・アズ・ア・サービス技術を使用することで大きな恩恵を受けることができる。 この目的のために、severless flシステムを持つモデルの分散トレーニングは、従来のflシステムよりもリソース効率が高く、安価である。 しかし、サーバーレスFLシステムは依然としてストラグラーの存在、すなわちリソースと統計的不均一性のために遅いクライアントの存在に悩まされている。 flでストラグラーを緩和するためのいくつかの戦略が提案されているが、ほとんどの方法論はサーバーレス環境の特定の特性、すなわちコールドスタート、パフォーマンスのバリエーション、関数インスタンスの一時的なステートレスな性質を考慮しない。 そこで我々は、新しいクラスタリングベースの半非同期トレーニング戦略であるFedLesScanを提案する。 FedLesScanは、クライアントの振る舞いに動的に適応し、システム全体に対するストラグラーの影響を最小限にします。 fedlessと呼ばれるオープンソースのサーバレスflシステムを拡張して、当社の戦略を実装しています。 さらに、第2世代のGoogle Cloud Functionsを使って、4つのデータセットとさまざまなストラグラーの比率で戦略を総合的に評価する。 実験の結果,feedlesscanは他の手法と比較してトレーニング時間とコストを平均8%,20%削減し,クライアントを有効更新率を平均17.75%向上させることで改善した。

Federated Learning (FL) is a machine learning paradigm that enables the training of a shared global model across distributed clients while keeping the training data local. While most prior work on designing systems for FL has focused on using stateful always running components, recent work has shown that components in an FL system can greatly benefit from the usage of serverless computing and Function-as-a-Service technologies. To this end, distributed training of models with severless FL systems can be more resource-efficient and cheaper than conventional FL systems. However, serverless FL systems still suffer from the presence of stragglers, i.e., slow clients due to their resource and statistical heterogeneity. While several strategies have been proposed for mitigating stragglers in FL, most methodologies do not account for the particular characteristics of serverless environments, i.e., cold-starts, performance variations, and the ephemeral stateless nature of the function instances. Towards this, we propose FedLesScan, a novel clustering-based semi-asynchronous training strategy, specifically tailored for serverless FL. FedLesScan dynamically adapts to the behaviour of clients and minimizes the effect of stragglers on the overall system. We implement our strategy by extending an open-source serverless FL system called FedLess. Moreover, we comprehensively evaluate our strategy using the 2nd generation Google Cloud Functions with four datasets and varying percentages of stragglers. Results from our experiments show that compared to other approaches FedLesScan reduces training time and cost by an average of 8% and 20% respectively while utilizing clients better with an average increase in the effective update ratio of 17.75%.
翻訳日:2022-11-11 16:25:56 公開日:2022-11-10
# グラフニューラルネットワークにおける微分プライバシーの不均一なランダム化応答

Heterogeneous Randomized Response for Differential Privacy in Graph Neural Networks ( http://arxiv.org/abs/2211.05766v1 )

ライセンス: Link先を確認
Khang Tran, Phung Lai, NhatHai Phan, Issa Khalil, Yao Ma, Abdallah Khreishah, My Thai, Xintao Wu(参考訳) グラフニューラルネットワーク(GNN)は、グラフデータ内のノード間の特徴とエッジから共同表現を学習する能力から、プライバシ推論攻撃(PIAs)の影響を受けやすい。 GNNのプライバシリークを防止するため,差分プライバシ(DP)保証下でノードの特徴やエッジを保護し,GNNのトレーニングにおいてデータやモデルユーティリティの未使用を伴わない,新たな異種ランダム化応答(HeteroRR)機構を提案する。 私たちの考えは、いくつかの機能やエッジがモデルユーティリティに対して他のものよりも敏感で重要であるため、プライバシ予算を再分配する上で、ノードの機能やエッジの重要性と感度のバランスをとることです。 その結果,既存手法から逸脱したノードの特徴とエッジの両レベルにおいて,より優れたランダム化確率とより厳密なエラー境界が導出され,GNNを訓練するための高データユーティリティの維持が可能となった。 ベンチマークデータセットを用いた広範な理論および実証分析により、ヘテロrrは、ノードの機能とエッジの両方に対して厳格なプライバシー保護の下で、モデルユーティリティの観点から様々なベースラインを著しく上回っていることが示されている。 これにより,DP 保存 GNN において PIA を効果的に保護することができる。

Graph neural networks (GNNs) are susceptible to privacy inference attacks (PIAs), given their ability to learn joint representation from features and edges among nodes in graph data. To prevent privacy leakages in GNNs, we propose a novel heterogeneous randomized response (HeteroRR) mechanism to protect nodes' features and edges against PIAs under differential privacy (DP) guarantees without an undue cost of data and model utility in training GNNs. Our idea is to balance the importance and sensitivity of nodes' features and edges in redistributing the privacy budgets since some features and edges are more sensitive or important to the model utility than others. As a result, we derive significantly better randomization probabilities and tighter error bounds at both levels of nodes' features and edges departing from existing approaches, thus enabling us to maintain high data utility for training GNNs. An extensive theoretical and empirical analysis using benchmark datasets shows that HeteroRR significantly outperforms various baselines in terms of model utility under rigorous privacy protection for both nodes' features and edges. That enables us to defend PIAs in DP-preserving GNNs effectively.
翻訳日:2022-11-11 16:25:27 公開日:2022-11-10
# DrawMon: Concurrent Pictionary Gamesにおける非定型スケッチコンテンツ検出のための分散システム

DrawMon: A Distributed System for Detection of Atypical Sketch Content in Concurrent Pictionary Games ( http://arxiv.org/abs/2211.05429v1 )

ライセンス: Link先を確認
Nikhil Bansal, Kartik Gupta, Kiruthika Kannan, Sivani Pentapati, Ravi Kiran Sarvadevabhatla(参考訳) 人気のあるスケッチベースの推測ゲームであるPictionaryは、制限された通信設定で共有目標協調ゲームプレイを分析する機会を提供する。 しかし、一部のプレイヤーは時折非定型的なスケッチのコンテンツを描く。 このようなコンテンツは、ゲームコンテキストに時々関係するが、時にはルール違反を表現し、ゲーム体験を損なう。 タイムリーかつスケーラブルな方法でこのような状況に対処するために,Prictionaryゲームセッションで同時に発生する非定型スケッチコンテンツを自動的に検出する分散フレームワークDrawMonを導入する。 ゲームセッションデータを収集し,非典型的なスケッチコンテンツに注釈を付けるための,特殊なオンラインインターフェースを構築した。 我々はAtyPictを使って、深層神経非定型コンテンツ検出ネットワークCanvasNetを訓練する。 CanvasNetをDrawMonのコアコンポーネントとして利用しています。 我々は,DrawMonがスケーラブルなモニタリングと非定型スケッチコンテンツ検出に有効であることを示す。 Pictionary以外にも、私たちのコントリビューションは、共有およびインタラクティブなホワイトボードを含む非定型コンテンツ応答システムのカスタマイズのためのデザインガイドとしても機能しています。 コードとデータセットはhttps://drawm0n.github.ioで入手できる。

Pictionary, the popular sketch-based guessing game, provides an opportunity to analyze shared goal cooperative game play in restricted communication settings. However, some players occasionally draw atypical sketch content. While such content is occasionally relevant in the game context, it sometimes represents a rule violation and impairs the game experience. To address such situations in a timely and scalable manner, we introduce DrawMon, a novel distributed framework for automatic detection of atypical sketch content in concurrently occurring Pictionary game sessions. We build specialized online interfaces to collect game session data and annotate atypical sketch content, resulting in AtyPict, the first ever atypical sketch content dataset. We use AtyPict to train CanvasNet, a deep neural atypical content detection network. We utilize CanvasNet as a core component of DrawMon. Our analysis of post deployment game session data indicates DrawMon's effectiveness for scalable monitoring and atypical sketch content detection. Beyond Pictionary, our contributions also serve as a design guide for customized atypical content response systems involving shared and interactive whiteboards. Code and datasets are available at https://drawm0n.github.io.
翻訳日:2022-11-11 16:25:05 公開日:2022-11-10
# PhotoFourier: フォトニックジョイント変換コレレータベースのニューラルネットワーク加速器

PhotoFourier: A Photonic Joint Transform Correlator-Based Neural Network Accelerator ( http://arxiv.org/abs/2211.05276v1 )

ライセンス: Link先を確認
Shurui Li, Hangbo Yang, Chee Wei Wong, Volker J. Sorger, Puneet Gupta(参考訳) ここ数年、低レイテンシと高スループットの畳み込みニューラルネットワーク推論の課題に対処する作業が数多く行われてきた。 集積フォトニクスは低レイテンシの性質のため、ニューラルネットワークを劇的に加速する可能性がある。 JTC(Joint Transform Correlator)の概念と組み合わせて、計算コストのかかる畳み込み関数を(光の飛行時間)ほぼコストなしで瞬時に計算することができる。 この「自由」畳み込み計算は、提案されたPhotoFourier JTCベースのCNNアクセラレータの理論的基礎を提供する。 photofourierは、1dレンズと低コストの光電子変換を含むフーリエドメインにおけるオンチップフォトニックコンピューティングによって生じる無数の課題に対処する。 提案されたPhotoFourierアクセラレータは、最先端のフォトニックニューラルネットワークアクセラレータと比較して28倍以上のエネルギー遅延生成を実現している。

The last few years have seen a lot of work to address the challenge of low-latency and high-throughput convolutional neural network inference. Integrated photonics has the potential to dramatically accelerate neural networks because of its low-latency nature. Combined with the concept of Joint Transform Correlator (JTC), the computationally expensive convolution functions can be computed instantaneously (time of flight of light) with almost no cost. This 'free' convolution computation provides the theoretical basis of the proposed PhotoFourier JTC-based CNN accelerator. PhotoFourier addresses a myriad of challenges posed by on-chip photonic computing in the Fourier domain including 1D lenses and high-cost optoelectronic conversions. The proposed PhotoFourier accelerator achieves more than 28X better energy-delay product compared to state-of-art photonic neural network accelerators.
翻訳日:2022-11-11 16:24:30 公開日:2022-11-10
# GANStrument:ピッチ不変インスタンス条件付き逆計器音合成

GANStrument: Adversarial Instrument Sound Synthesis with Pitch-invariant Instance Conditioning ( http://arxiv.org/abs/2211.05385v1 )

ライセンス: Link先を確認
Gaku Narita, Junichi Shimizu, Taketo Akama(参考訳) 楽器音合成のための生成逆モデルであるGANStrumentを提案する。 入力としてワンショット音が与えられると、対話的な時間内に入力の音色を反映するピッチ楽器音を生成することができる。 インスタンスコンディショニングを利用して、ganstrumentは合成音の忠実性と多様性、および様々な入力に対する一般化能力を達成する。 さらに,ピッチの精度と音色一貫性を著しく向上させるピッチ不変特徴抽出器の逆訓練方式を提案する。 GANStrumentは、生成品質と入力編集性の観点から、インスタンスコンディショニングを使用しない強いベースラインよりも優れていることを示す実験結果を得た。 定性的な例はオンラインで公開されている。

We propose GANStrument, a generative adversarial model for instrument sound synthesis. Given a one-shot sound as input, it is able to generate pitched instrument sounds that reflect the timbre of the input within an interactive time. By exploiting instance conditioning, GANStrument achieves better fidelity and diversity of synthesized sounds and generalization ability to various inputs. In addition, we introduce an adversarial training scheme for a pitch-invariant feature extractor that significantly improves the pitch accuracy and timbre consistency. Experimental results show that GANStrument outperforms strong baselines that do not use instance conditioning in terms of generation quality and input editability. Qualitative examples are available online.
翻訳日:2022-11-11 16:24:16 公開日:2022-11-10
# データ分離性を考慮した分類性能評価尺度

A classification performance evaluation measure considering data separability ( http://arxiv.org/abs/2211.05433v1 )

ライセンス: Link先を確認
Lingyan Xue, Xinyu Zhang, Weidong Jiang and Kai Huo(参考訳) 機械学習とディープラーニングの分類モデルはデータ駆動であり、モデルとデータはそれらの分類性能を共同で決定する。 データ分離性を無視しながら、分類器の精度のみに基づいてモデルの性能を評価するバイアスがある。 時に、モデルは優れた精度を示すが、それは高度に分離可能なデータに対するテストによるものかもしれない。 データ分離性測定に関する現在の研究のほとんどは、サンプルポイント間の距離に基づいて定義されているが、いくつかの状況で失敗することが示されている。 本稿では,データ符号化率に基づく新たな分離可能性尺度,RS(Separability rate of Separability)を提案する。 合成データセットに関する他の4つの距離に基づく尺度と比較し,分離性尺度の補足としての有効性を検証する。 次に,実データから構築したマルチタスクシナリオにおいて,提案手法と認識精度との正の相関を示す。 最後に,データ分離性を考慮した機械学習およびディープラーニングモデルの分類性能評価手法について検討する。

Machine learning and deep learning classification models are data-driven, and the model and the data jointly determine their classification performance. It is biased to evaluate the model's performance only based on the classifier accuracy while ignoring the data separability. Sometimes, the model exhibits excellent accuracy, which might be attributed to its testing on highly separable data. Most of the current studies on data separability measures are defined based on the distance between sample points, but this has been demonstrated to fail in several circumstances. In this paper, we propose a new separability measure--the rate of separability (RS), which is based on the data coding rate. We validate its effectiveness as a supplement to the separability measure by comparing it to four other distance-based measures on synthetic datasets. Then, we demonstrate the positive correlation between the proposed measure and recognition accuracy in a multi-task scenario constructed from a real dataset. Finally, we discuss the methods for evaluating the classification performance of machine learning and deep learning models considering data separability.
翻訳日:2022-11-11 16:24:05 公開日:2022-11-10
# うつ病予測のための機械学習における公平性とバイアス補正:4つの異なる研究集団による結果

Fairness and bias correction in machine learning for depression prediction: results from four different study populations ( http://arxiv.org/abs/2211.05321v1 )

ライセンス: Link先を確認
Vien Ngoc Dang, Anna Cascarano, Rosa H. Mulder, Charlotte Cecil, Maria A. Zuluaga, Jer\'onimo Hern\'andez-Gonz\'alez, Karim Lekadir(参考訳) 精神医療、特に、収集されたデータを通して広がる過小評価された人口には、かなりのレベルのスティグマと不平等が存在する。 適切に説明されていない場合、データから学習した機械学習(ML)モデルは、すでに社会に存在している構造バイアスを強化することができる。 本稿では、異なる国と人口をカバーする4つのケーススタディにおいて、抑うつを予測するために設計されたMLモデルにおけるバイアスの体系的研究について述べる。 標準MLアプローチは定期的にバイアスのある振る舞いを示す。 しかし, 標準緩和技術, および我々のポストホック法は, 不公平バイアスの低減に有効であることを示す。 我々は,実世界における公平性と信頼感を高めた抑うつリスク予測のためのmlモデルを開発するための実践的な推奨を提供する。 うつ病予測のための最高のMLモデルが結果の平等を提供することはない。 これは、モデル選択における公平さの分析と、デバイアス介入の影響に関する透過的な報告の重要性を強調している。

A significant level of stigma and inequality exists in mental healthcare, especially in under-served populations, which spreads through collected data. When not properly accounted for, machine learning (ML) models learned from data can reinforce the structural biases already present in society. Here, we present a systematic study of bias in ML models designed to predict depression in four different case studies covering different countries and populations. We find that standard ML approaches show regularly biased behaviors. However, we show that standard mitigation techniques, and our own post-hoc method, can be effective in reducing the level of unfair bias. We provide practical recommendations to develop ML models for depression risk prediction with increased fairness and trust in the real world. No single best ML model for depression prediction provides equality of outcomes. This emphasizes the importance of analyzing fairness during model selection and transparent reporting about the impact of debiasing interventions.
翻訳日:2022-11-11 16:17:51 公開日:2022-11-10
# モデル並列性通信の最適化について

On Optimizing the Communication of Model Parallelism ( http://arxiv.org/abs/2211.05322v1 )

ライセンス: Link先を確認
Yonghao Zhuang, Hexu Zhao, Lianmin Zheng, Zhuohan Li, Eric P. Xing, Qirong Ho, Joseph E. Gonzalez, Ion Stoica, Hao Zhang(参考訳) 本研究では,大規模モデル並列ディープラーニング(dl)における新しい重要なコミュニケーションパターンについて検討する。 このパターンは、大クラスタ上で大きなモデルをサポートするために、モデル並列性(演算子内と演算子間並列性)の2つのパラダイムが組み合わされたときに現れる。 クロスメッシュ再シャーディングでは、シャードされたテンソルをソースデバイスメッシュから宛先デバイスメッシュに送信する必要がある。 我々は、これを多対多のマルチキャスト通信問題として定式化し、既存のアプローチが、異なるネットワークトポロジやテンソルレイアウトに一般化していないか、あるいは異なるモデルアーキテクチャと並列性戦略によって生じることを示した。 次に,効率的なブロードキャストベース通信システムと"オーバーラップフレンドリー"なパイプラインスケジュールという,クロスメッシュリシャーディングへの2つの貢献を提案する。 マイクロベンチマークでは、システム全体のパフォーマンスは、様々なテンソルとメッシュレイアウトで最大10倍に向上します。 GPT-3とU-Transformerの2つの大規模モデルのエンドツーエンドトレーニングでは,スループットをそれぞれ10%,U-Transformerは50%向上した。

We study a novel and important communication pattern in large-scale model-parallel deep learning (DL), which we call cross-mesh resharding. This pattern emerges when the two paradigms of model parallelism - intra-operator and inter-operator parallelism - are combined to support large models on large clusters. In cross-mesh resharding, a sharded tensor needs to be sent from a source device mesh to a destination device mesh, on which the tensor may be distributed with the same or different layouts. We formalize this as a many-to-many multicast communication problem, and show that existing approaches either are sub-optimal or do not generalize to different network topologies or tensor layouts, which result from different model architectures and parallelism strategies. We then propose two contributions to address cross-mesh resharding: an efficient broadcast-based communication system, and an "overlapping-friendly" pipeline schedule. On microbenchmarks, our overall system outperforms existing ones by up to 10x across various tensor and mesh layouts. On end-to-end training of two large models, GPT-3 and U-Transformer, we improve throughput by 10% and 50%, respectively.
翻訳日:2022-11-11 16:17:36 公開日:2022-11-10
# 制約制御RLを用いたデータセンターのジョブスケジューリング

Job Scheduling in Datacenters using Constraint Controlled RL ( http://arxiv.org/abs/2211.05338v1 )

ライセンス: Link先を確認
Vanamala Venkataswamy(参考訳) 本稿では,グリーンデータセンターにおけるオンラインジョブスケジューリングモデルについて検討する。 グリーンデータセンターでは、資源の可用性は再生可能エネルギーからの電力供給に依存する。 再生可能エネルギーからの断続的な電力供給は、断続的なリソース可用性につながり、ジョブ遅延(および関連するコスト)を引き起こす。 グリーンデータセンタオペレータは、ワークロードと利用可能な電源をインテリジェントに管理して、最大のメリットを抽出する必要があります。 スケジューラの目的は、ジョブ全体の遅延を最小限に抑えつつ、リソースのセットでジョブをスケジュールし、総値(復帰)を最大化することである。 一方、高い仕事価値を達成することと、他方が期待する遅延を低くすることとの間にはトレードオフが存在する。 したがって、高い報酬と低いコストを達成するという目的は反対である。 さらに、データセンターオペレータは、高いシステム利用とジョブ完了を含む、複数の目的を優先することが多い。 総ジョブ値の最大化とジョブ遅延の最小化という対向目標を達成するために,グリーンデータセンタ環境におけるジョブスケジューリング問題に対する深層強化学習において,比例積分導関数(pid)ラグランジアン手法を適用する。 ラグランジアン法は制約付き最適化問題のアルゴリズムとして広く用いられている。 我々は、比例、積分、微分制御を伴うラグランジュ乗算法を学習し、良好な学習ダイナミクスを達成するための制御の観点を採用する。 フィードバック制御は、学習エージェントのコスト条件を定義し、トレーニング中のコスト制限を監視し、安定したパフォーマンスを達成するために学習パラメータを継続的に調整する。 PIDラグランジアン法を用いないスケジューリング方式に比べて性能が向上した。 実験結果は,複数の目的を同時に満たす制約制御強化学習(cocorl)スケジューラの有効性を示す。

This paper studies a model for online job scheduling in green datacenters. In green datacenters, resource availability depends on the power supply from the renewables. Intermittent power supply from renewables leads to intermittent resource availability, inducing job delays (and associated costs). Green datacenter operators must intelligently manage their workloads and available power supply to extract maximum benefits. The scheduler's objective is to schedule jobs on a set of resources to maximize the total value (revenue) while minimizing the overall job delay. A trade-off exists between achieving high job value on the one hand and low expected delays on the other. Hence, the aims of achieving high rewards and low costs are in opposition. In addition, datacenter operators often prioritize multiple objectives, including high system utilization and job completion. To accomplish the opposing goals of maximizing total job value and minimizing job delays, we apply the Proportional-Integral-Derivative (PID) Lagrangian methods in Deep Reinforcement Learning to job scheduling problem in the green datacenter environment. Lagrangian methods are widely used algorithms for constrained optimization problems. We adopt a controls perspective to learn the Lagrange multiplier with proportional, integral, and derivative control, achieving favorable learning dynamics. Feedback control defines cost terms for the learning agent, monitors the cost limits during training, and continuously adjusts the learning parameters to achieve stable performance. Our experiments demonstrate improved performance compared to scheduling policies without the PID Lagrangian methods. Experimental results illustrate the effectiveness of the Constraint Controlled Reinforcement Learning (CoCoRL) scheduler that simultaneously satisfies multiple objectives.
翻訳日:2022-11-11 16:17:14 公開日:2022-11-10
# グラフニューラルネットワークの分散トレーニングに関する総合調査

A Comprehensive Survey on Distributed Training of Graph Neural Networks ( http://arxiv.org/abs/2211.05368v1 )

ライセンス: Link先を確認
Haiyang Lin, Mingyu Yan, Xiaochun Ye, Dongrui Fan, Shirui Pan, Wenguang Chen, Yuan Xie(参考訳) グラフニューラルネットワーク(GNN)は、グラフを学習する上で有効であるために、幅広いアプリケーション分野において強力なアルゴリズムモデルであることが示されている。 gnnトレーニングを大規模かつ成長を続けるグラフにスケールアップするには、最も有望なソリューションは、複数のコンピューティングノードにトレーニングのワークロードを分散する分散トレーニングである。 しかし、分散GNNトレーニングのワークフロー、計算パターン、通信パターン、最適化技術は、まだ未熟である。 本稿では,分散GNNトレーニングにおける各種最適化手法を探索し,分散GNNトレーニングの総合的な調査を行う。 まず、分散GNNトレーニングはワークフローに応じていくつかのカテゴリに分類される。 また,それらの計算パターンと通信パターン,および最近の研究で提案されている最適化手法についても紹介する。 第二に、分散GNNトレーニングのソフトウェアフレームワークとハードウェアプラットフォームもより深く理解するために導入されています。 第3に、分散GNNトレーニングは、分散GNNトレーニングの独自性を強調したディープニューラルネットワークの分散トレーニングと比較される。 最後に、この分野における興味深い問題と機会について論じる。

Graph neural networks (GNNs) have been demonstrated to be a powerful algorithmic model in broad application fields for their effectiveness in learning over graphs. To scale GNN training up for large-scale and ever-growing graphs, the most promising solution is distributed training which distributes the workload of training across multiple computing nodes. However, the workflows, computational patterns, communication patterns, and optimization techniques of distributed GNN training remain preliminarily understood. In this paper, we provide a comprehensive survey of distributed GNN training by investigating various optimization techniques used in distributed GNN training. First, distributed GNN training is classified into several categories according to their workflows. In addition, their computational patterns and communication patterns, as well as the optimization techniques proposed by recent work are introduced. Second, the software frameworks and hardware platforms of distributed GNN training are also introduced for a deeper understanding. Third, distributed GNN training is compared with distributed training of deep neural networks, emphasizing the uniqueness of distributed GNN training. Finally, interesting issues and opportunities in this field are discussed.
翻訳日:2022-11-11 16:16:48 公開日:2022-11-10
# フェデレーションデータの飢餓による自宅の安全確保

Stay Home Safe with Starving Federated Data ( http://arxiv.org/abs/2211.05410v1 )

ライセンス: Link先を確認
Jaechul Roh, Yajun Fang(参考訳) 過去数年間にわたり、敵対的攻撃の分野は、様々なタスクで高い分類能力を達成すると認められた有名なディープニューラルネットワークに対する攻撃成功率の助けを借りて、様々な研究者から多くの注目を集めた。 しかし、実験の大部分は1つのモデルで完了しており、現実の状況では理想的ではないと考えられる。 本稿では,FLATSと呼ばれる,スマートホーム顔認識のための新しい対向訓練手法を紹介し,従来の対向学習実験では見つからない興味深い発見がいくつか見いだされた。 ハイパーパラメータに異なるバリエーションを適用することで、飢えている連合環境を考えると、我々の手法がグローバルモデルを堅牢にすることができることがわかった。 私たちのコードはhttps://github.com/jcroh0508/FLATSで参照できます。

Over the past few years, the field of adversarial attack received numerous attention from various researchers with the help of successful attack success rate against well-known deep neural networks that were acknowledged to achieve high classification ability in various tasks. However, majority of the experiments were completed under a single model, which we believe it may not be an ideal case in a real-life situation. In this paper, we introduce a novel federated adversarial training method for smart home face recognition, named FLATS, where we observed some interesting findings that may not be easily noticed in a traditional adversarial attack to federated learning experiments. By applying different variations to the hyperparameters, we have spotted that our method can make the global model to be robust given a starving federated environment. Our code can be found on https://github.com/jcroh0508/FLATS.
翻訳日:2022-11-11 16:16:33 公開日:2022-11-10
# ギャップ受け入れシナリオにおける人間の行動予測モデルベンチマーク

Benchmark for Models Predicting Human Behavior in Gap Acceptance Scenarios ( http://arxiv.org/abs/2211.05455v1 )

ライセンス: Link先を確認
Julian Frederik Schumann, Jens Kober, Arkady Zgonnikov(参考訳) 自動運転車は現在、交通相互作用における人間の行動の不確実性に起因する、時間非効率な運転スタイルに悩まされている。 より効率的な軌道計画を可能にする正確で信頼性の高い予測モデルにより、自動運転車はそのような相互作用においてより断定的になる。 しかし、そのようなモデルの評価は概して単純化され、予測誤差の非対称的な重要性とテストに使用されるデータセットの不均一性を無視している。 本研究では,車間相互作用をギャップ受容シナリオとして再キャストし,この構造環境におけるモデルの評価を行う。 この目的のために私たちは、任意のモデル、任意のメトリック、および任意のシナリオの評価を容易にするフレームワークを開発します。 そして、このフレームワークを最先端の予測モデルに適用します。

Autonomous vehicles currently suffer from a time-inefficient driving style caused by uncertainty about human behavior in traffic interactions. Accurate and reliable prediction models enabling more efficient trajectory planning could make autonomous vehicles more assertive in such interactions. However, the evaluation of such models is commonly oversimplistic, ignoring the asymmetric importance of prediction errors and the heterogeneity of the datasets used for testing. We examine the potential of recasting interactions between vehicles as gap acceptance scenarios and evaluating models in this structured environment. To that end, we develop a framework facilitating the evaluation of any model, by any metric, and in any scenario. We then apply this framework to state-of-the-art prediction models, which all show themselves to be unreliable in the most safety-critical situations.
翻訳日:2022-11-11 16:16:19 公開日:2022-11-10
# 力学系のための物理形グラフニューラルネットワークの性能の解明

Unravelling the Performance of Physics-informed Graph Neural Networks for Dynamical Systems ( http://arxiv.org/abs/2211.05520v1 )

ライセンス: Link先を確認
Abishek Thangamuthu, Gunjan Kumar, Suresh Bishnoi, Ravinder Bhattoo, N M Anoop Krishnan, Sayan Ranu(参考訳) 近年、グラフニューラルネットワークは、インダクティブの性質がゼロショットの一般化性につながるため、動的システムのシミュレートに多くの注目を集めている。 同様に、ディープラーニングフレームワークにおける物理インフォームドインダクティブバイアスは、物理システムのダイナミクスを学ぶ上で優れたパフォーマンスをもたらすことが示されている。 これら2つのアプローチを結合しようとする文学が増えている。 本稿では,13種類のグラフニューラルネットワーク,すなわち,ハミルトニアンおよびラグランジアングラフニューラルネットワーク,グラフニューラルode,およびそれらの変種の性能を,明示的な制約と異なるアーキテクチャを用いて評価する。 これらのシステムの帰納バイアスとグラフアーキテクチャの類似性と相違を強調する理論的定式化を簡潔に説明する。 これらのモデルは, 春, 振り子, 重力, 3次元変形可能な固体系で評価し, ロールアウト誤差, エネルギーや運動量などの保存量, システムサイズに対する一般化可能性について比較した。 本研究は, 明示的制約や運動エネルギーとポテンシャルエネルギーの疎結合などの付加的な誘導バイアスを有するGNNが, 性能を著しく向上することを示した。 さらに、すべての物理インフォームドGNNは、トレーニングシステムよりも桁違いの大きさのシステムサイズに対してゼロショットの一般化性を示し、大規模な現実的なシステムをシミュレートするための有望な経路を提供する。

Recently, graph neural networks have been gaining a lot of attention to simulate dynamical systems due to their inductive nature leading to zero-shot generalizability. Similarly, physics-informed inductive biases in deep-learning frameworks have been shown to give superior performance in learning the dynamics of physical systems. There is a growing volume of literature that attempts to combine these two approaches. Here, we evaluate the performance of thirteen different graph neural networks, namely, Hamiltonian and Lagrangian graph neural networks, graph neural ODE, and their variants with explicit constraints and different architectures. We briefly explain the theoretical formulation highlighting the similarities and differences in the inductive biases and graph architecture of these systems. We evaluate these models on spring, pendulum, gravitational, and 3D deformable solid systems to compare the performance in terms of rollout error, conserved quantities such as energy and momentum, and generalizability to unseen system sizes. Our study demonstrates that GNNs with additional inductive biases, such as explicit constraints and decoupling of kinetic and potential energies, exhibit significantly enhanced performance. Further, all the physics-informed GNNs exhibit zero-shot generalizability to system sizes an order of magnitude larger than the training system, thus providing a promising route to simulate large-scale realistic systems.
翻訳日:2022-11-11 16:16:07 公開日:2022-11-10
# 深部ニューラルネットワークパラメータのサイドチャネル抽出に関する実践的検討

A Practical Introduction to Side-Channel Extraction of Deep Neural Network Parameters ( http://arxiv.org/abs/2211.05590v1 )

ライセンス: Link先を確認
Raphael Joud, Pierre-Alain Moellic, Simon Pontie, Jean-Baptiste Rigaud(参考訳) モデル抽出は、拡張攻撃面を利用する組み込みディープニューラルネットワークモデルにとって大きな脅威である。 実際、物理的にデバイスにアクセスすることで、敵はサイドチャネルリークを利用してモデル(アーキテクチャや内部パラメータなど)の臨界情報を抽出することができる。 アーキテクチャとパラメータを正確に抽出する忠実度に基づくシナリオ(モデルクローニング)を含む、異なる対向目的が可能である。 この研究は、ハイエンド32ビットマイクロコントローラ(Cortex-M7)に埋め込まれたディープニューラルネットワークのソフトウェア実装に焦点を当て、基本乗算操作から層間へのフィードフォワード接続に至るまで、サイドチャネル解析による忠実度に基づくパラメータ抽出に関するいくつかの課題を明らかにする。 単一精度浮動小数点IEEE-754標準で表されるパラメータの値を正確に抽出するために,Cortex-M7ターゲットからシミュレーションとトレースの両方で評価する反復プロセスを提案する。 私たちの知る限り、この研究はそのようなハイエンド32ビットプラットフォームをターゲットにした最初のものです。 重要なのは、ディープニューラルネットワークモデルを完全に抽出する上での課題、特にバイアスの批判的なケースを挙げ、議論することです。

Model extraction is a major threat for embedded deep neural network models that leverages an extended attack surface. Indeed, by physically accessing a device, an adversary may exploit side-channel leakages to extract critical information of a model (i.e., its architecture or internal parameters). Different adversarial objectives are possible including a fidelity-based scenario where the architecture and parameters are precisely extracted (model cloning). We focus this work on software implementation of deep neural networks embedded in a high-end 32-bit microcontroller (Cortex-M7) and expose several challenges related to fidelity-based parameters extraction through side-channel analysis, from the basic multiplication operation to the feed-forward connection through the layers. To precisely extract the value of parameters represented in the single-precision floating point IEEE-754 standard, we propose an iterative process that is evaluated with both simulations and traces from a Cortex-M7 target. To our knowledge, this work is the first to target such an high-end 32-bit platform. Importantly, we raise and discuss the remaining challenges for the complete extraction of a deep neural network model, more particularly the critical case of biases.
翻訳日:2022-11-11 16:15:43 公開日:2022-11-10
# ICUの滞在期間を完璧に予測する - あまりにも良いので真実ではない

Perfectly predicting ICU length of stay: too good to be true ( http://arxiv.org/abs/2211.05597v1 )

ライセンス: Link先を確認
Sandeep Ramachandra, Gilles Vandewiele, David Vander Mijnsbrugge, Femke Ongenae, and Sofie Van Hoecke(参考訳) alsinglawi et alの論文が最近受け入れられ、scientific reportsに発表された。 本論文は,ICU部門における肺がん患者の長期在留期間(LOS)を,様々な機械学習技術を用いて予測し,長期在留期間(>7日)と短在留期間(7日)を区別することを目的とする。 著者らは, ランダムフォレスト (rf) 分類器で100%の受信者特性曲線 (auroc) 下の領域において, サンプリング技術よりもadasynクラスバランスをとる完全結果が得られると主張している。 しかし,本書の方法論的欠陥がいくつか同定され,その結果が過度に楽観的になり,臨床で使用すれば深刻な結果がもたらされる可能性が示唆された。 また、方法論の報告は不明確であり、写本から重要な詳細が欠落しているため、再生は非常に困難である。 我々は、これらの監視が結果に与える影響を強調し、これらの監視が修正されたときに、より信頼性の高い88.91%のAUROC結果を提供する。

A paper of Alsinglawi et al was recently accepted and published in Scientific Reports. In this paper, the authors aim to predict length of stay (LOS), discretized into either long (> 7 days) or short stays (< 7 days), of lung cancer patients in an ICU department using various machine learning techniques. The authors claim to achieve perfect results with an Area Under the Receiver Operating Characteristic curve (AUROC) of 100% with a Random Forest (RF) classifier with ADASYN class balancing over sampling technique, which if accurate could have significant implications for hospital management. However, we have identified several methodological flaws within the manuscript which cause the results to be overly optimistic and would have serious consequences if used in a clinical practice. Moreover, the reporting of the methodology is unclear and many important details are missing from the manuscript, which makes reproduction extremely difficult. We highlight the effect these oversights have had on the result and provide a more believable result of 88.91% AUROC when these oversights are corrected.
翻訳日:2022-11-11 16:15:23 公開日:2022-11-10
# 大規模SLAMにおけるオンライン確率変動ガウス過程のリアルタイムマッピング

Online Stochastic Variational Gaussian Process Mapping for Large-Scale SLAM in Real Time ( http://arxiv.org/abs/2211.05601v1 )

ライセンス: Link先を確認
Ignacio Torroba, Marco Chella, Aldo Teran, Niklas Rolleberg, John Folkesson(参考訳) 自律型水中車両(AUV)は、科学と工業の両方の応用における水中探査と海底マッピングの標準ツールになりつつある。 潜水能力は、水深によらず、地表の船に近づかない領域に到達し、海底に密着したデータを収集することができる。 しかし、その航法自律性は、その地域とGPS信号の事前マップがない場合に、その世界的位置の致命的な推定値(DR)の正確さによって制限されている。 lblやusblのような水中領域に対して、後者と同等のグローバルローカライズシステムが存在する。 しかし、それらは高価な外部インフラを伴い、AUVまでの距離によって信頼性が低下し、深海調査には適さない。

Autonomous underwater vehicles (AUVs) are becoming standard tools for underwater exploration and seabed mapping in both scientific and industrial applications \cite{graham2022rapid, stenius2022system}. Their capacity to dive untethered allows them to reach areas inaccessible to surface vessels and to collect data more closely to the seafloor, regardless of the water depth. However, their navigation autonomy remains bounded by the accuracy of their dead reckoning (DR) estimate of their global position, severely limited in the absence of a priori maps of the area and GPS signal. Global localization systems equivalent to the later exists for the underwater domain, such as LBL or USBL. However they involve expensive external infrastructure and their reliability decreases with the distance to the AUV, making them unsuitable for deep sea surveys.
翻訳日:2022-11-11 16:15:01 公開日:2022-11-10
# ゼロショットビジュアルコモンセンスの不道徳予測

Zero-shot Visual Commonsense Immorality Prediction ( http://arxiv.org/abs/2211.05521v1 )

ライセンス: Link先を確認
Yujin Jeong, Seongbeom Park, Suhong Moon and Jinkyu Kim(参考訳) 人工知能は現在、さまざまな現実世界のアプリケーションを動かしている。 これらのアプリケーションは有望なパフォーマンスを示しているが、複雑な倫理的問題、すなわちaiアプリケーションが道徳的に振る舞うために倫理を組み込む方法が浮かび上がっている。 道徳的AIシステムへの1つの方法は、人間の社会的行動の模倣と、システムにおけるある種の良い行動を促進することである。 しかし、こうした規範的倫理(特に画像から)を学ぶことは、主にデータ不足とラベル付けの複雑さのために困難である。 本稿では,ゼロショット方式で視覚コモンセンス不道徳性を予測するモデルを提案する。 ETHICSデータセット(テキストとモラルアノテーションのペア)をCLIPベースの画像テキスト共同埋め込みを通じてトレーニングする。 テストフェーズでは、目に見えない画像の不道徳性を予測する。 既存のモラル/不道徳画像データセットを用いてモデルを評価し,人間の直観と一致した公正な予測性能を示す。 さらに,より汎用的で広範囲な不道徳な視覚コンテンツを含むvisual commonsense immorality benchmarkを作成する。 コードとデータセットはhttps://github.com/ku-vai/Zero-shot-Visual-Commonsense-Immorality-Predictionで公開されている。 この論文には、自然に不快なイメージや記述が含まれているかもしれない。

Artificial intelligence is currently powering diverse real-world applications. These applications have shown promising performance, but raise complicated ethical issues, i.e. how to embed ethics to make AI applications behave morally. One way toward moral AI systems is by imitating human prosocial behavior and encouraging some form of good behavior in systems. However, learning such normative ethics (especially from images) is challenging mainly due to a lack of data and labeling complexity. Here, we propose a model that predicts visual commonsense immorality in a zero-shot manner. We train our model with an ETHICS dataset (a pair of text and morality annotation) via a CLIP-based image-text joint embedding. In a testing phase, the immorality of an unseen image is predicted. We evaluate our model with existing moral/immoral image datasets and show fair prediction performance consistent with human intuitions. Further, we create a visual commonsense immorality benchmark with more general and extensive immoral visual contents. Codes and dataset are available at https://github.com/ku-vai/Zero-shot-Visual-Commonsense-Immorality-Prediction. Note that this paper might contain images and descriptions that are offensive in nature.
翻訳日:2022-11-11 16:09:34 公開日:2022-11-10
# 周波数適応型自動眼球検出によるgabor特徴を用いた近赤外・可視光眼球認識

Near-infrared and visible-light periocular recognition with Gabor features using frequency-adaptive automatic eye detection ( http://arxiv.org/abs/2211.05544v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Josef Bigun(参考訳) 近視認識は、制御の少ないシナリオにおいて、顔や虹彩の堅牢性の増大が要求されるため、近年注目を集めている。 本稿では,複雑な対称性フィルタに基づく眼球検出システムを提案する。 また、フィルタの分離性は1次元畳み込みによるより高速な検出を可能にする。 このシステムは、retinotopic sampling gridsとgabor spectrum decompositionに基づくperiocular algorithmへの入力として使用される。 評価フレームワークは、近赤外線と可視センサーの両方で取得された6つのデータベースで構成されている。 実験装置は4つのアイリス整形器で補われ、核融合実験に用いられる。 近赤外データを用いた視線検出システムは非常に高精度であり,1つの可視データベースでは妥当な精度を示す。 眼周囲系では、眼中心の位置決めにおける小さな誤差や入力画像の変化に対して大きな堅牢性を示す。 サンプリンググリッドの密度も精度を犠牲にすることなく低減することができる。 最後に、可視データとのアイリスマッチングの性能の低下にもかかわらず、眼窩系との融合は20%以上の改善をもたらすことができる。 6つのデータベースが手動で注釈付けされ、アノテーションが公開されている。

Periocular recognition has gained attention recently due to demands of increased robustness of face or iris in less controlled scenarios. We present a new system for eye detection based on complex symmetry filters, which has the advantage of not needing training. Also, separability of the filters allows faster detection via one-dimensional convolutions. This system is used as input to a periocular algorithm based on retinotopic sampling grids and Gabor spectrum decomposition. The evaluation framework is composed of six databases acquired both with near-infrared and visible sensors. The experimental setup is complemented with four iris matchers, used for fusion experiments. The eye detection system presented shows very high accuracy with near-infrared data, and a reasonable good accuracy with one visible database. Regarding the periocular system, it exhibits great robustness to small errors in locating the eye centre, as well as to scale changes of the input image. The density of the sampling grid can also be reduced without sacrificing accuracy. Lastly, despite the poorer performance of the iris matchers with visible data, fusion with the periocular system can provide an improvement of more than 20%. The six databases used have been manually annotated, with the annotation made publicly available.
翻訳日:2022-11-11 16:09:08 公開日:2022-11-10
# HIV用胸部CTボリュームにおける半監督感染分画のためのマルチスケール教員ネットワーク

Dual Multi-scale Mean Teacher Network for Semi-supervised Infection Segmentation in Chest CT Volume for COVID-19 ( http://arxiv.org/abs/2211.05548v1 )

ライセンス: Link先を確認
Liansheng Wang, Jiacheng Wang, Lei Zhu, Huazhu Fu, Ping Li, Gary Cheng, Zhipeng Feng, Shuo Li, and Pheng-Ann Heng(参考訳) CTデータから肺感染症を自動的に検出することは、COVID-19と闘う上で重要な役割を果たす。 しかし、aiシステムの開発にはいくつかの課題がある。 1)現在の新型コロナウイルス感染症分離法は,主に3次元連続的な制約を欠く2次元CT画像に頼っている。 2) 既存の3次元ctセグメンテーション法は, 3次元ボリュームの複数レベル受容場サイズを達成できない単一スケール表現に焦点をあてている。 3) 新型コロナウイルスの流行により, 深部モデルの訓練に十分なCT量の注記が困難になる。 これらの問題に対処するために、我々はまずMDA-CNN(Multi-dimensional-attention Convolutional Neural Network)を構築し、入力特徴マップの異なる次元に沿ってマルチスケール情報を集約し、異なるCNN層からの複数の予測を監督する。 第2に、このMDA-CNNを基本ネットワークとして、ラベルのないデータを活用し、マルチスケール情報を探索することにより、CTボリューム上の半教師付きCOVID-19肺感染症セグメンテーションのための新しいデュアルマルチスケール平均教師ネットワーク(DM${^2}$T-Net)に割り当てる。 我々のDM${^2}$T-Netは、学生と教師のネットワークから異なるCNN層の複数の予測を奨励し、ラベルのないデータに対するマルチスケールの一貫性損失を計算し、MDA-CNNの複数の予測からラベル付きデータの教師付き損失に追加する。 第3に、私たちの方法を評価するために、2つのCOVID-19セグメンテーションデータセットを収集します。 実験の結果,我々のネットワークは比較した最先端手法よりも一貫して優れていた。

Automated detecting lung infections from computed tomography (CT) data plays an important role for combating COVID-19. However, there are still some challenges for developing AI system. 1) Most current COVID-19 infection segmentation methods mainly relied on 2D CT images, which lack 3D sequential constraint. 2) Existing 3D CT segmentation methods focus on single-scale representations, which do not achieve the multiple level receptive field sizes on 3D volume. 3) The emergent breaking out of COVID-19 makes it hard to annotate sufficient CT volumes for training deep model. To address these issues, we first build a multiple dimensional-attention convolutional neural network (MDA-CNN) to aggregate multi-scale information along different dimension of input feature maps and impose supervision on multiple predictions from different CNN layers. Second, we assign this MDA-CNN as a basic network into a novel dual multi-scale mean teacher network (DM${^2}$T-Net) for semi-supervised COVID-19 lung infection segmentation on CT volumes by leveraging unlabeled data and exploring the multi-scale information. Our DM${^2}$T-Net encourages multiple predictions at different CNN layers from the student and teacher networks to be consistent for computing a multi-scale consistency loss on unlabeled data, which is then added to the supervised loss on the labeled data from multiple predictions of MDA-CNN. Third, we collect two COVID-19 segmentation datasets to evaluate our method. The experimental results show that our network consistently outperforms the compared state-of-the-art methods.
翻訳日:2022-11-11 16:08:52 公開日:2022-11-10
# SETGen: グループワイド画像登録のためのスケーラブルで効率的なテンプレート生成フレームワーク

SETGen: Scalable and Efficient Template Generation Framework for Groupwise Medical Image Registration ( http://arxiv.org/abs/2211.05622v1 )

ライセンス: Link先を確認
Ziyi He and Albert C. S. Chung(参考訳) テンプレート生成は、被験者のグループを共通の空間に変形させるグループワイド画像登録の重要なステップである。 従来のディープラーニングベースの手法は、高品質なテンプレート画像を生成することができる。 しかし、それらは相当な時間コストや固定グループサイズのような限られたアプリケーションシナリオに悩まされます。 本稿では,入力画像の潜在表現の演算特性を利用した変分オートエンコーダモデルに基づく効率的なグループワイズテンプレート生成フレームワークを提案する。 我々は各入力の潜在ベクトルを取得し、平均ベクトルを用いてデコーダを通してテンプレートを構築する。 したがって、この方法は任意のスケールの群に適用できる。 次に,2つの画像を共有双対ネットワークに供給し,入力と生成されたテンプレート間の距離を比較して,テンプレートが暗黙の中心に近づくように促すシモーム学習手法を提案する。 異なる大きさのグループの3次元脳MRIスキャン実験を行った。 その結果,我々のフレームワークはベースラインと同等の性能,さらに優れたパフォーマンスを実現でき,ランタイムは秒単位に短縮された。

Template generation is a crucial step of groupwise image registration which deforms a group of subjects into a common space. Existing traditional and deep learning-based methods can generate high-quality template images. However, they suffer from substantial time costs or limited application scenarios like fixed group size. In this paper, we propose an efficient groupwise template generative framework based on variational autoencoder models utilizing the arithmetic property of latent representation of input images. We acquire the latent vectors of each input and use the average vector to construct the template through the decoder. Therefore, the method can be applied to groups of any scale. Secondly, we explore a siamese training scheme that feeds two images to the shared-weight twin networks and compares the distances between inputs and the generated template to prompt the template to be close to the implicit center. We conduct experiments on 3D brain MRI scans of groups of different sizes. Results show that our framework can achieve comparable and even better performance to baselines, with runtime decreased to seconds.
翻訳日:2022-11-11 16:08:21 公開日:2022-11-10
# ソーシャルメディアにおけるコミュニケーションの誤情報:特徴,検出,介入,オープンな課題

Combating Health Misinformation in Social Media: Characterization, Detection, Intervention, and Open Issues ( http://arxiv.org/abs/2211.05289v1 )

ライセンス: Link先を確認
Canyu Chen, Haoran Wang, Matthew Shapiro, Yunyu Xiao, Fei Wang, Kai Shu(参考訳) ソーシャルメディアは、市民にとって主要な情報消費源の1つであり、より迅速かつ容易に情報を探し、広めることができる。 しかし、様々なソーシャルメディアプラットフォームが台頭し、オンライン誤報の拡散も可能となった。 特に、医療分野の誤報は、COVID-19インフォデミックなどの社会に大きな影響を与えます。 そのため、ソーシャルメディアにおける健康誤報は、異なる分野の研究者から注目を集める新たな研究方向になりつつある。 他の分野の誤報と比較して、健康上の誤情報の鍵となる違いは、人体や生命に実際の害をもたらす可能性、正常な人を特定するのが困難であること、医学との深いつながりなどである。 また、ソーシャルメディア上での健康誤報は、生成、拡散、消費パラダイムなど多次元のテレビなどの従来のチャンネルとは異なる特徴を持っている。 ソーシャルメディアにおける健康情報と戦うことの重要性と独自性から,この問題に関する学際的研究をさらに促進するために,本調査を実施している。 本稿では,様々な分野におけるオンライン健康情報に関する既存研究の包括的レビューを行う。 さらに,関連文献を3つの観点から体系的に整理し,特徴付け,検出,介入を行う。 最後に,ソーシャルメディア上での健康誤報と戦うためのオープンな課題について深く議論し,多分野研究者に今後の方向性を提供する。

Social media has been one of the main information consumption sources for the public, allowing people to seek and spread information more quickly and easily. However, the rise of various social media platforms also enables the proliferation of online misinformation. In particular, misinformation in the health domain has significant impacts on our society such as the COVID-19 infodemic. Therefore, health misinformation in social media has become an emerging research direction that attracts increasing attention from researchers of different disciplines. Compared to misinformation in other domains, the key differences of health misinformation include the potential of causing actual harm to humans' bodies and even lives, the hardness to identify for normal people, and the deep connection with medical science. In addition, health misinformation on social media has distinct characteristics from conventional channels such as television on multiple dimensions including the generation, dissemination, and consumption paradigms. Because of the uniqueness and importance of combating health misinformation in social media, we conduct this survey to further facilitate interdisciplinary research on this problem. In this survey, we present a comprehensive review of existing research about online health misinformation in different disciplines. Furthermore, we also systematically organize the related literature from three perspectives: characterization, detection, and intervention. Lastly, we conduct a deep discussion on the pressing open issues of combating health misinformation in social media and provide future directions for multidisciplinary researchers.
翻訳日:2022-11-11 16:08:06 公開日:2022-11-10
# 近似モデルのためのベイズスコアキャリブレーション

Bayesian score calibration for approximate models ( http://arxiv.org/abs/2211.05357v1 )

ライセンス: Link先を確認
Joshua J Bon, David J Warne, David J Nott, Christopher Drovandi(参考訳) 科学者は、より現実的な知識を反映する、ますます複雑な力学モデルを開発し続けている。 これらのモデルを用いた統計的推論は、対応する公理関数がしばしば難解であり、モデルシミュレーションは計算上負担または実現不可能であるため、非常に困難である。 幸運なことに、これらの状況の多くでは、代理モデルや近似的近似関数を採用することができる。 ベイズ推論を直接サーロゲート上で行うのは便利であるが、バイアスと不確かさの定量化に繋がる可能性がある。 本稿では, バイアスを低減し, より正確な不確実性定量化を実現するために, 近似後続サンプルを調整する新しい手法を提案する。 我々は、スコアリングルールを最小化する近似後続の変換を最適化することでこれを行う。 我々のアプローチでは、(固定)少数の複雑なモデルシミュレーションしか必要とせず、数値的に安定である。 複雑さが増大するいくつかの例において,新しい手法の優れた性能を示す。

Scientists continue to develop increasingly complex mechanistic models to reflect their knowledge more realistically. Statistical inference using these models can be highly challenging, since the corresponding likelihood function is often intractable, and model simulation may be computationally burdensome or infeasible. Fortunately, in many of these situations, it is possible to adopt a surrogate model or approximate likelihood function. It may be convenient to base Bayesian inference directly on the surrogate, but this can result in bias and poor uncertainty quantification. In this paper we propose a new method for adjusting approximate posterior samples to reduce bias and produce more accurate uncertainty quantification. We do this by optimising a transform of the approximate posterior that minimises a scoring rule. Our approach requires only a (fixed) small number of complex model simulations and is numerically stable. We demonstrate good performance of the new method on several examples of increasing complexity.
翻訳日:2022-11-11 16:07:47 公開日:2022-11-10
# MR画像の弱い制御脳腫瘍セグメンテーションのためのGANに基づく新しいパラダイム

A novel GAN-based paradigm for weakly supervised brain tumor segmentation of MR images ( http://arxiv.org/abs/2211.05269v1 )

ライセンス: Link先を確認
Jay J. Yoo, Khashayar Namdar, Matthias W. Wagner, Liana Nobre, Uri Tabori, Cynthia Hawkins, Birgit B. Ertl-Wagner, Farzad Khalvati(参考訳) 異常を識別するための関心領域(ROI)の分離は、医療画像における主要な問題である。 機械学習(ml)をこの問題に使用する場合、一般的には手作業でアノテートされた地中セグメンテーションが必要となり、放射線科医から膨大な時間とリソースが要求される。 本研究は, 2値画像レベルのラベルをより簡単に取得し, 医用磁気共鳴(MR)画像の異常を地上の真理アノテーションなしで効果的に識別する手法を提案する。 これらのラベルを用いてバイナリ分類器を訓練し、腫瘍を含まない可能性のある領域を示す種を誘導する。 これらの種は、ガン画像から健康な変異体に変換するgan(generative adversarial network)を訓練するために使用され、種子と併用して効果的なセグメントを生成するmlモデルを訓練する。 この方法は、トレーニング、検証、テストコホートのためのMICCAI Brain tumor Segmentation (BraTS) 2020データセット上で、Dice係数の0.7903、0.7868、0.7712を達成するセグメンテーションを生成する。 また,セグメント化をフィルタリングし,より貧弱なセグメント化の小さなサブセットを除去し,高品質セグメント化の大きなサブセットを取得する弱教師付き手法を提案する。 提案したフィルタリングにより,Dice係数は最大0.8374,0.8232,0.8136まで向上する。

Segmentation of regions of interest (ROIs) for identifying abnormalities is a leading problem in medical imaging. Using Machine Learning (ML) for this problem generally requires manually annotated ground-truth segmentations, demanding extensive time and resources from radiologists. This work presents a novel weakly supervised approach that utilizes binary image-level labels, which are much simpler to acquire, to effectively segment anomalies in medical Magnetic Resonance (MR) images without ground truth annotations. We train a binary classifier using these labels and use it to derive seeds indicating regions likely and unlikely to contain tumors. These seeds are used to train a generative adversarial network (GAN) that converts cancerous images to healthy variants, which are then used in conjunction with the seeds to train a ML model that generates effective segmentations. This method produces segmentations that achieve Dice coefficients of 0.7903, 0.7868, and 0.7712 on the MICCAI Brain Tumor Segmentation (BraTS) 2020 dataset for the training, validation, and test cohorts respectively. We also propose a weakly supervised means of filtering the segmentations, removing a small subset of poorer segmentations to acquire a large subset of high quality segmentations. The proposed filtering further improves the Dice coefficients to up to 0.8374, 0.8232, and 0.8136 for training, validation, and test, respectively.
翻訳日:2022-11-11 15:58:20 公開日:2022-11-10
# 変圧器型伝達法を用いた水中音響画像の視覚表現学習

Learning Visual Representation of Underwater Acoustic Imagery Using Transformer-Based Style Transfer Method ( http://arxiv.org/abs/2211.05396v1 )

ライセンス: Link先を確認
Xiaoteng Zhou, Changli Yu, Shihao Yuan, Xin Yuan, Hangchi Yu and Citong Luo(参考訳) 水中自動目標認識 (uatr) は海洋工学において難しい研究課題となっている。 深層学習は、陸地や空中における目標認識の機会をもたらすが、センサ性能と訓練可能なデータの大きさにより、深層学習に基づく水中目標認識技術が遅れている。 本論文は, トランスフォーマー方式の伝達モデルを本体とする水中音響画像の視覚的表現を学習するための枠組みを提案する。 光学画像の低レベルのテクスチャ特徴を水中音響画像の視覚的特徴に置き換え、生の高レベルのセマンティックコンテンツを保存できる。 提案フレームワークは,水中音響目標認識モデルのトレーニングに擬似音響画像データセットを生成するために,リッチな光学画像データセットを完全に使用することができる。 実験では、水中の音響データ源としてデュアル周波数識別ソナー(didson)を選択し、最も一般的な海洋生物であるフィッシュを研究対象とする。 実験の結果,提案手法は高品質で高忠実な擬似音響サンプルを生成し,音響データエンハンスメントの目的を達成し,水中音響光学画像領域転送研究を支援することができた。

Underwater automatic target recognition (UATR) has been a challenging research topic in ocean engineering. Although deep learning brings opportunities for target recognition on land and in the air, underwater target recognition techniques based on deep learning have lagged due to sensor performance and the size of trainable data. This letter proposed a framework for learning the visual representation of underwater acoustic imageries, which takes a transformer-based style transfer model as the main body. It could replace the low-level texture features of optical images with the visual features of underwater acoustic imageries while preserving their raw high-level semantic content. The proposed framework could fully use the rich optical image dataset to generate a pseudo-acoustic image dataset and use it as the initial sample to train the underwater acoustic target recognition model. The experiments select the dual-frequency identification sonar (DIDSON) as the underwater acoustic data source and also take fish, the most common marine creature, as the research subject. Experimental results show that the proposed method could generate high-quality and high-fidelity pseudo-acoustic samples, achieve the purpose of acoustic data enhancement and provide support for the underwater acoustic-optical images domain transfer research.
翻訳日:2022-11-11 15:57:52 公開日:2022-11-10
# U-Netを用いたH&Eの正規化

H&E Stain Normalization using U-Net ( http://arxiv.org/abs/2211.05420v1 )

ライセンス: Link先を確認
Chi-Chen Lee, Po-Tsun Paul Kuo, Chi-Han Peng(参考訳) 改良されたU-Netニューラルネットワークアーキテクチャに基づくヘマトキシリンおよびエオシン(H&E)染色正規化法を提案する。 GAN(Generative Adversarial Network)をベースとした従来のディープラーニング手法とは異なり、教師と学生のアプローチを採用し、訓練されたCycleGANが生成したペアデータセットを使用して、U-Netをトレーニングし、染色正規化タスクを実行する。 実験により,本手法を教師学生モデルに基づく軽量なアプローチであるCycleGANとStainNetの2つの競合手法と比較した。 提案手法はCycleGANに比べて高速で,より高品質な画像処理が可能であることが判明した。 また, ステンドネットと比較した結果, 定量的, 質的にも良好な結果が得られた。

We propose a novel hematoxylin and eosin (H&E) stain normalization method based on a modified U-Net neural network architecture. Unlike previous deep-learning methods that were often based on generative adversarial networks (GANs), we take a teacher-student approach and use paired datasets generated by a trained CycleGAN to train a U-Net to perform the stain normalization task. Through experiments, we compared our method to two recent competing methods, CycleGAN and StainNet, a lightweight approach also based on the teacher-student model. We found that our method is faster and can process larger images with better quality compared to CycleGAN. We also compared to StainNet and found that our method delivered quantitatively and qualitatively better results.
翻訳日:2022-11-11 15:57:33 公開日:2022-11-10
# 虹彩セグメンテーションが認識率に及ぼす影響に関する実験的検討

Experimental analysis regarding the influence of iris segmentation on the recognition rate ( http://arxiv.org/abs/2211.05507v1 )

ライセンス: Link先を確認
Heinz Hofbauer, Fernando Alonso-Fernandez, Josef Bigun, Andreas Uhl(参考訳) 本研究では,虹彩の検出とセグメンテーション,および虹彩生体計測ツールチェーンの全体的な性能への影響について検討する。 著者らは, 土台真実に適合したセグメンテーション精度が, 虹彩生体計測ツールチェーン全体の性能予測に有効かどうかを検討する。 つまり, セグメンテーションの精度が向上すれば,常に全体的なパフォーマンスが向上するのだろうか? さらに,アイリス・バイオメトリック・ツールチェーンの他の部分に対するセグメンテーションパラメータ,瞳孔および辺縁境界および正規化中心(ダウマンのゴムシートモデルに基づく)の影響を体系的に評価する。 著者らは,これらのパラメータの正確な発見が重要であるか,一貫性,すなわちセグメンテーション中のアイリスの同一領域の抽出が全体の性能に与える影響について検討する。

In this study the authors will look at the detection and segmentation of the iris and its influence on the overall performance of the iris-biometric tool chain. The authors will examine whether the segmentation accuracy, based on conformance with a ground truth, can serve as a predictor for the overall performance of the iris-biometric tool chain. That is: If the segmentation accuracy is improved will this always improve the overall performance? Furthermore, the authors will systematically evaluate the influence of segmentation parameters, pupillary and limbic boundary and normalisation centre (based on Daugman's rubbersheet model), on the rest of the iris-biometric tool chain. The authors will investigate if accurately finding these parameters is important and how consistency, that is, extracting the same exact region of the iris during segmenting, influences the overall performance.
翻訳日:2022-11-11 15:57:20 公開日:2022-11-10
# 深層学習モデルを用いた断面CAV群集の協調

Coordinating CAV Swarms at Intersections with a Deep Learning Model ( http://arxiv.org/abs/2211.05297v1 )

ライセンス: Link先を確認
Jiawei Zhang, Shen Li, Li Li(参考訳) 連結された自動走行車(cav)は、交通の安全性と効率を著しく改善する可能性のある特殊な種類のロボットと見なされている。 少数のロボットを用いて実験室で実証された多くのスウォームロボティクス研究とは対照的に、cav研究はロボット群流の協調運転を実現することを目的としている。 しかし、そのようなロボット群流の最適な通過順序を信号のない交差点でも得ることはnp問題である(特に、列挙ベースのアルゴリズムは20-cavシナリオの最適解を見つけるのに数日かかる)。 本稿では,オフライン深層学習とオンライン木探索を組み合わせた協調運転アルゴリズム(AlphaOrder)を提案する。 alphaorderは、解決されたシナリオからポインタネットワークモデルを構築し、新しいシナリオのために瞬時に最適に近い順序を生成する。 さらに,本手法は,複数の自動誘導車両 (AGV) と無人航空機 (UAV) の競合地域におけるプリエンプティブな資源共有を管理するための一般的なアプローチを提供する。

Connected and automated vehicles (CAVs) are viewed as a special kind of robots that have the potential to significantly improve the safety and efficiency of traffic. In contrast to many swarm robotics studies that are demonstrated in labs by employing a small number of robots, CAV studies aims to achieve cooperative driving of unceasing robot swarm flows. However, how to get the optimal passing order of such robot swarm flows even for a signal-free intersection is an NP-hard problem (specifically, enumerating based algorithm takes days to find the optimal solution to a 20-CAV scenario). Here, we introduce a novel cooperative driving algorithm (AlphaOrder) that combines offline deep learning and online tree searching to find a near-optimal passing order in real-time. AlphaOrder builds a pointer network model from solved scenarios and generates near-optimal passing orders instantaneously for new scenarios. Furthermore, our approach provides a general approach to managing preemptive resource sharing between swarm robotics (e.g., scheduling multiple automated guided vehicles (AGVs) and unmanned aerial vehicles (UAVs) at conflicting areas
翻訳日:2022-11-11 15:50:41 公開日:2022-11-10
# RARE:データセンターにおける再生可能エネルギー意識資源管理

RARE: Renewable Energy Aware Resource Management in Datacenters ( http://arxiv.org/abs/2211.05346v1 )

ライセンス: Link先を確認
Vanamala Venkataswamy, Jake Grigsby, Andrew Grimshaw, Yanjun Qi(参考訳) デジタルサービス需要の指数的な増加は、膨大なデータセンターのエネルギー消費と負の環境影響を引き起こす。 エネルギーとデジタルインフラの課題に対する持続可能なソリューションの推進が不可欠である。 いくつかのハイパースケールクラウドプロバイダは、再生可能エネルギーを使用してデータセンターを動かす計画を発表した。 しかし、発電が断続的であるため、電力供給変動に対処するためには、再生可能エネルギーの統合は困難である。 ハンドエンジニアリング ドメイン固有のヒューリスティックスベースのスケジューラは、複雑な動的グリーンデータセンタ環境で特定の目的関数を満たすには、時間がかかり、費用がかかり、ドメインの専門家による広範なチューニングを必要とする。 グリーンデータセンターは、複数の再生可能エネルギー源(風と太陽)を利用するためのスマートシステムとシステムソフトウェアを必要としている。 我々は,データセンタの複雑な動的環境に継続的に適応しながら,効果的なジョブスケジューリングポリシを自動的に学習する深層強化学習(drl)ジョブスケジューラ(renewable energy aware resource management)を提案する。 DRLスケジューラは、異なるワークロードでヒューリスティックなスケジューリングポリシーよりも優れており、再生可能エネルギーからの断続的な電力供給に適応する。 DRLスケジューラシステムの設計パラメータを正しく調整すると性能が向上することを示した。 最後に,drlスケジューラがオフライン学習を用いて既存のヒューリスティックポリシから学び,改善できることを実証する。

The exponential growth in demand for digital services drives massive datacenter energy consumption and negative environmental impacts. Promoting sustainable solutions to pressing energy and digital infrastructure challenges is crucial. Several hyperscale cloud providers have announced plans to power their datacenters using renewable energy. However, integrating renewables to power the datacenters is challenging because the power generation is intermittent, necessitating approaches to tackle power supply variability. Hand engineering domain-specific heuristics-based schedulers to meet specific objective functions in such complex dynamic green datacenter environments is time-consuming, expensive, and requires extensive tuning by domain experts. The green datacenters need smart systems and system software to employ multiple renewable energy sources (wind and solar) by intelligently adapting computing to renewable energy generation. We present RARE (Renewable energy Aware REsource management), a Deep Reinforcement Learning (DRL) job scheduler that automatically learns effective job scheduling policies while continually adapting to datacenters' complex dynamic environment. The resulting DRL scheduler performs better than heuristic scheduling policies with different workloads and adapts to the intermittent power supply from renewables. We demonstrate DRL scheduler system design parameters that, when tuned correctly, produce better performance. Finally, we demonstrate that the DRL scheduler can learn from and improve upon existing heuristic policies using Offline Learning.
翻訳日:2022-11-11 15:50:22 公開日:2022-11-10
# 薬物応答予測のためのハイブリッド量子ニューラルネットワーク

Hybrid quantum neural network for drug response prediction ( http://arxiv.org/abs/2211.05777v1 )

ライセンス: Link先を確認
Asel Sagingalieva, Mohammad Kordzanganeh, Nurbolat Kenbayev, Daria Kosichkina, Tatiana Tomashuk, Alexey Melnikov(参考訳) がんは世界中の死因の1つである。 これは様々な遺伝子変異によって引き起こされ、疾患の全ての事例に固有のものである。 化学療法は非常に深刻な副作用があるため、各患者は個別の治療計画が必要となる。 薬の有効効果を最大化し、副作用を最小化する投与量を見つけることは不可欠である。 ディープニューラルネットワークは、薬物選択を自動化し、改善する。 しかし、トレーニングを行うには多くのデータが必要です。 したがって、少ないデータを必要とする機械学習アプローチが必要である。 ハイブリッド量子ニューラルネットワークは、トレーニングデータの可用性が制限される問題において潜在的に有利であることが示された。 本稿では,8量子ビットと363層からなる畳み込み,グラフ畳み込み,ディープ量子ニューラルネットワークの組み合わせに基づく,薬物応答予測のための新しいハイブリッド量子ニューラルネットワークを提案する。 我々は,がんデータセットにおける薬物感受性の低下について検討し,IC50の薬物効果の予測において,ハイブリッド量子モデルは古典的アナログよりも15%優れていたことを示す。 提案されたハイブリッド量子機械学習モデルは、データ収集が課題であるパーソナライズ医療における問題を解決するために、数千の量子ゲートを持つ深層量子データ効率アルゴリズムへの一歩である。

Cancer is one of the leading causes of death worldwide. It is caused by a variety of genetic mutations, which makes every instance of the disease unique. Since chemotherapy can have extremely severe side effects, each patient requires a personalized treatment plan. Finding the dosages that maximize the beneficial effects of the drugs and minimize their adverse side effects is vital. Deep neural networks automate and improve drug selection. However, they require a lot of data to be trained on. Therefore, there is a need for machine-learning approaches that require less data. Hybrid quantum neural networks were shown to provide a potential advantage in problems where training data availability is limited. We propose a novel hybrid quantum neural network for drug response prediction, based on a combination of convolutional, graph convolutional, and deep quantum neural layers of 8 qubits with 363 layers. We test our model on the reduced Genomics of Drug Sensitivity in Cancer dataset and show that the hybrid quantum model outperforms its classical analog by 15% in predicting IC50 drug effectiveness values. The proposed hybrid quantum machine learning model is a step towards deep quantum data-efficient algorithms with thousands of quantum gates for solving problems in personalized medicine, where data collection is a challenge.
翻訳日:2022-11-11 15:50:00 公開日:2022-11-10
# 対称群上のパワーサム核について

On power sum kernels on symmetric groups ( http://arxiv.org/abs/2211.05650v1 )

ライセンス: Link先を確認
Iskander Azangulov, Viacheslav Borovitskiy, Andrei Smolensky(参考訳) 本稿では、対称群 $\mathrm{S}_n$ 上の「パワー和」核の族と対応するガウス過程を紹介する。 そのような過程は双不変である: 両側からの $\mathrm{S}_n$ の作用は、その有限次元分布を変えない。 パワー和カーネルの値は効率よく計算できることを示すとともに,多項式計算の複雑さを伴うガウス過程の近似サンプリングを可能にする手法を提案する。 これにより、導入されるカーネルファミリと、統計モデリングと機械学習のための各プロセスを使用するために必要なツールを提供する。

In this note, we introduce a family of "power sum" kernels and the corresponding Gaussian processes on symmetric groups $\mathrm{S}_n$. Such processes are bi-invariant: the action of $\mathrm{S}_n$ on itself from both sides does not change their finite-dimensional distributions. We show that the values of power sum kernels can be efficiently calculated, and we also propose a method enabling approximate sampling of the corresponding Gaussian processes with polynomial computational complexity. By doing this we provide the tools that are required to use the introduced family of kernels and the respective processes for statistical modeling and machine learning.
翻訳日:2022-11-11 15:49:41 公開日:2022-11-10
# ランダム化 Kaczmarz 法によるSketched Gaussian Model Linear Discriminant Analysis

Sketched Gaussian Model Linear Discriminant Analysis via the Randomized Kaczmarz Method ( http://arxiv.org/abs/2211.05749v1 )

ライセンス: Link先を確認
Jocelyn T. Chi and Deanna Needell(参考訳) 超大規模データに対する二分級gaussian model linear discriminant analysis (lda) の反復的ランダム化手法であるsketched linear discriminant analysisを提案する。 我々は,最小二乗定式化を活用し,確率的勾配降下の枠組みを動員する。 そこで本研究では,一度に1行のトレーニングデータにのみアクセスしながら,全データLDAに非常に匹敵する性能を有するランダム化分類器を得る。 我々は,新しいデータのスケッチ予測を一定回数のイテレーション内で収束保証する。 これらの保証は、データのガウス的モデリング仮定とスケッチ処理からのアルゴリズム的ランダム性の両方を説明する。 最後に,様々なステップサイズとイテレーション数でパフォーマンスを示す。 我々の数値実験は、スケッチされたLDAが完全なデータ解析には大きすぎる場合、完全なデータLDAに代わる非常に有効な代替手段を提供することを示した。

We present sketched linear discriminant analysis, an iterative randomized approach to binary-class Gaussian model linear discriminant analysis (LDA) for very large data. We harness a least squares formulation and mobilize the stochastic gradient descent framework. Therefore, we obtain a randomized classifier with performance that is very comparable to that of full data LDA while requiring access to only one row of the training data at a time. We present convergence guarantees for the sketched predictions on new data within a fixed number of iterations. These guarantees account for both the Gaussian modeling assumptions on the data and algorithmic randomness from the sketching procedure. Finally, we demonstrate performance with varying step-sizes and numbers of iterations. Our numerical experiments demonstrate that sketched LDA can offer a very viable alternative to full data LDA when the data may be too large for full data analysis.
翻訳日:2022-11-11 15:49:30 公開日:2022-11-10
# Zebra: 効果的な攻撃調査のためのシステムレベルプロヴァンス検索と追跡を深く統合する

Zebra: Deeply Integrating System-Level Provenance Search and Tracking for Efficient Attack Investigation ( http://arxiv.org/abs/2211.05403v1 )

ライセンス: Link先を確認
Xinyu Yang, Haoyuan Liu, Ziyu Wang, Peng Gao(参考訳) システム監査は、システムコールイベントを監視し、高度な攻撃を調査するための重要なアプローチとして登場した。 収集した監査ログに基づいて、攻撃パターンを探索したり、システムイベントの因果関係を追跡して攻撃シーケンスを明らかにする研究が提案されている。 しかし、既存のアプローチでは、攻撃関連部品に焦点が当てられていないため、長距離攻撃シーケンスを明らかにしたり、依存爆発問題に苦しむことはできず、複雑な攻撃を調査するには不十分である。 そこで本研究では,攻撃パターン探索と因果依存性追跡を相乗的に統合したシステムであるzebraを提案する。 Zebraを使用することで、セキュリティアナリストは検索とトラッキングを交互に切り替えて、攻撃に関連する部分の優先順位付けによる依存性の爆発問題を軽減しつつ、攻撃シーケンス全体を明らかにすることができる。 これを実現するために、Zebraは(1)様々な種類の探索・追跡分析を行うための表現的で簡潔なドメイン固有言語Tstl、(2)大量の監査データを効率的に実行するための最適化された言語実行エンジンを提供する。 広範囲にわたる攻撃事例の評価は、時間的攻撃調査を容易にするゼブラの有効性を示している。

System auditing has emerged as a key approach for monitoring system call events and investigating sophisticated attacks. Based on the collected audit logs, research has proposed to search for attack patterns or track the causal dependencies of system events to reveal the attack sequence. However, existing approaches either cannot reveal long-range attack sequences or suffer from the dependency explosion problem due to a lack of focus on attack-relevant parts, and thus are insufficient for investigating complex attacks. To bridge the gap, we propose Zebra, a system that synergistically integrates attack pattern search and causal dependency tracking for efficient attack investigation. With Zebra, security analysts can alternate between search and tracking to reveal the entire attack sequence in a progressive, user-guided manner, while mitigating the dependency explosion problem by prioritizing the attack-relevant parts. To enable this, Zebra provides (1) an expressive and concise domain-specific language, Tstl, for performing various types of search and tracking analyses, and (2) an optimized language execution engine for efficient execution over a big amount of auditing data. Evaluations on a broad set of attack cases demonstrate the effectiveness of Zebra in facilitating a timely attack investigation.
翻訳日:2022-11-11 15:48:54 公開日:2022-11-10
# 70言語上の多言語ASR:トークン化、アーキテクチャ、一般化能力

Massively Multilingual ASR on 70 Languages: Tokenization, Architecture, and Generalization Capabilities ( http://arxiv.org/abs/2211.05756v1 )

ライセンス: Link先を確認
Andros Tjandra, Nayan Singhal, David Zhang, Ozlem Kalinli, Abdelrahman Mohamed, Duc Le, Michael L. Seltzer(参考訳) トレーニングとデプロイメントプロセスの簡素化や、高リソース言語から低リソース言語への積極的なパフォーマンス移行といった理由から、エンドツーエンドの多言語ASRはより魅力的になっています。 しかし、言語数、トータル時間、ユニークなトークンの数をスケールアップするのは簡単な作業ではありません。 本稿では70言語における大規模多言語ASRモデルについて検討する。 我々は,(1)共有組込みと出力,(2)複数組込みと出力モデルという2つのアーキテクチャを検証した。 共有モデル実験では,異なる言語間におけるトークン化戦略の重要性を示す。 後に、最適なトークン化戦略を用いて、複数の埋め込みおよび出力モデルをトレーニングし、その結果をさらに改善します。 我々の多言語 ASR は単言語モデルと比較して平均 WER 改善率 13.9%-15.6% を達成する。 多言語asrは未認識のデータセットとドメインでよく一般化し、ゼロショットと微調整の多言語librispeech (mls) 上で9.5%と7.5% werを達成する。

End-to-end multilingual ASR has become more appealing because of several reasons such as simplifying the training and deployment process and positive performance transfer from high-resource to low-resource languages. However, scaling up the number of languages, total hours, and number of unique tokens is not a trivial task. This paper explores large-scale multilingual ASR models on 70 languages. We inspect two architectures: (1) Shared embedding and output and (2) Multiple embedding and output model. In the shared model experiments, we show the importance of tokenization strategy across different languages. Later, we use our optimal tokenization strategy to train multiple embedding and output model to further improve our result. Our multilingual ASR achieves 13.9%-15.6% average WER relative improvement compared to monolingual models. We show that our multilingual ASR generalizes well on an unseen dataset and domain, achieving 9.5% and 7.5% WER on Multilingual Librispeech (MLS) with zero-shot and finetuning, respectively.
翻訳日:2022-11-11 15:48:32 公開日:2022-11-10
# 流れ・ステレオ・深さの統一推定

Unifying Flow, Stereo and Depth Estimation ( http://arxiv.org/abs/2211.05783v1 )

ライセンス: Link先を確認
Haofei Xu, Jing Zhang, Jianfei Cai, Hamid Rezatofighi, Fisher Yu, Dacheng Tao, Andreas Geiger(参考訳) 本稿では,光学的流れ,修正ステレオマッチング,未修正ステレオ深度推定という3つの動作および3次元知覚タスクの統一的な定式化とモデルを提案する。 特定のタスクごとの以前の特殊なアーキテクチャとは異なり、我々は3つのタスクすべてを統一的な密対応マッチング問題として定式化し、特徴の類似性を直接比較することで単一のモデルで解決できる。 このような定式化は、トランスフォーマー、特にクロスアテンション機構を用いて達成される識別的特徴表現を要求する。 我々は,クロスアテンションによって他画像からの知識を相互に統合できることを実証し,抽出した特徴の質を大幅に向上させることを実証した。 私たちの統一モデルは、モデルアーキテクチャとパラメータがタスク間で共有されるため、自然にクロスタスク転送を可能にします。 Sintelデータセットの統一モデルではRAFTよりも優れており、モデル設計や推論速度の点でよりシンプルで効率的でありながら、10の一般的なフロー、ステレオ、ディープデータセットにおける最新の最先端手法よりも優れ、あるいは好適に、タスク固有の改善ステップを使用する最終モデルです。

We present a unified formulation and model for three motion and 3D perception tasks: optical flow, rectified stereo matching and unrectified stereo depth estimation from posed images. Unlike previous specialized architectures for each specific task, we formulate all three tasks as a unified dense correspondence matching problem, which can be solved with a single model by directly comparing feature similarities. Such a formulation calls for discriminative feature representations, which we achieve using a Transformer, in particular the cross-attention mechanism. We demonstrate that cross-attention enables integration of knowledge from another image via cross-view interactions, which greatly improves the quality of the extracted features. Our unified model naturally enables cross-task transfer since the model architecture and parameters are shared across tasks. We outperform RAFT with our unified model on the challenging Sintel dataset, and our final model that uses a few additional task-specific refinement steps outperforms or compares favorably to recent state-of-the-art methods on 10 popular flow, stereo and depth datasets, while being simpler and more efficient in terms of model design and inference speed.
翻訳日:2022-11-11 15:42:23 公開日:2022-11-10
# agrammatic aphasic sentencesの補完的補完--ニューロ言語学に基づく合成データセットを用いたトランスファーラーニングアプローチ

Assistive Completion of Agrammatic Aphasic Sentences: A Transfer Learning Approach using Neurolinguistics-based Synthetic Dataset ( http://arxiv.org/abs/2211.05557v1 )

ライセンス: Link先を確認
Rohit Misra, Sapna S Mishra and Tapan K. Gandhi(参考訳) 下前頭回損傷(broca's area)は失語症の原因となり、患者は理解できたが、完全な文を形成する能力に欠ける。 この障害はコミュニケーションのギャップを招き、日々の生活に困難をもたらす。 補助装置の使用は、これらの問題を緩和し、患者が効果的にコミュニケーションできるようにするのに役立つ。 しかし、失語症における言語障害の大規模研究が欠如しているため、このような支援技術の研究は比較的限られている。 本研究では,この分野での研究・開発を再開するための2つの貢献について述べる。 まず,失語症患者に関する小規模研究から言語的特徴を抽出し,文法的に正しいデータセットから合成失語音声の大規模データセットを生成するモデルを提案する。 本研究は, 発話の平均長, 名詞/動詞比, および合成データセットの単純/複合文比が, 失語性音声の特徴に対応していることを示す。 さらに,これらの合成データセットを用いて失語症患者に対する補助装置の開発方法を示す。 予め訓練されたt5トランスは、生成されたデータセットを使用して微調整され、失語を入力として5つの修正文を示唆する。 BLEUとコサイン意味類似度スコアを用いてT5モデルの有効性を評価する。 BLEUスコアは0.827/1.00,セマンティック類似度は0.904/1.00であった。 これらの結果は,失語症に関する小規模な研究に基づく合成データセットを有効支援技術開発に活用できるという概念の基盤となる。

Damage to the inferior frontal gyrus (Broca's area) can cause agrammatic aphasia wherein patients, although able to comprehend, lack the ability to form complete sentences. This inability leads to communication gaps which cause difficulties in their daily lives. The usage of assistive devices can help in mitigating these issues and enable the patients to communicate effectively. However, due to lack of large scale studies of linguistic deficits in aphasia, research on such assistive technology is relatively limited. In this work, we present two contributions that aim to re-initiate research and development in this field. Firstly, we propose a model that uses linguistic features from small scale studies on aphasia patients and generates large scale datasets of synthetic aphasic utterances from grammatically correct datasets. We show that the mean length of utterance, the noun/verb ratio, and the simple/complex sentence ratio of our synthetic datasets correspond to the reported features of aphasic speech. Further, we demonstrate how the synthetic datasets may be utilized to develop assistive devices for aphasia patients. The pre-trained T5 transformer is fine-tuned using the generated dataset to suggest 5 corrected sentences given an aphasic utterance as input. We evaluate the efficacy of the T5 model using the BLEU and cosine semantic similarity scores. Affirming results with BLEU score of 0.827/1.00 and semantic similarity of 0.904/1.00 were obtained. These results provide a strong foundation for the concept that a synthetic dataset based on small scale studies on aphasia can be used to develop effective assistive technology.
翻訳日:2022-11-11 15:41:46 公開日:2022-11-10
# オフポリティ強化学習はいつ実現可能か?

When is Realizability Sufficient for Off-Policy Reinforcement Learning? ( http://arxiv.org/abs/2211.05311v1 )

ライセンス: Link先を確認
Andrea Zanette(参考訳) 強化学習のためのモデルフリーアルゴリズムは通常、追加の条件が満たされない限り、関数近似でオフポリシーをうまく操作するためにベルマン完全性と呼ばれる条件を必要とする。 しかし、ベルマン完全性は実現可能性よりもはるかに強い要件であり、実際に保持するには強すぎると考えられている。 本研究では, この構造的仮定を緩和し, 所定の関数クラスにのみ実現可能である場合に, 外部強化学習の統計的複雑さを解析する。 我々は,本質的ベルマン誤差として知られる近似誤差項を含まない,3つの因子の相互作用に依存するオフ・ポリティカル強化学習のための有限サンプル保証を確立する。 最初の2つはよく知られており、それらは関数クラスの計量エントロピーと、オフポリシーを学ぶコストを表す集中可能性係数である。 第3の要素は新しいもので、ベルマン完全性、すなわち選択された関数クラスとベルマン演算子によるイメージの誤調整を計測する。 本質的に、これらの誤差境界は、ベルマン完全性がなくても、オフ・ポリティカル強化学習は統計的に有益であり、好ましくないベルマン完全設定と指数的に下限が強制される最悪のシナリオの間の中間的な状況を特徴付ける。 我々の分析は、時間差アルゴリズムが収束する際の解に直接適用される。

Model-free algorithms for reinforcement learning typically require a condition called Bellman completeness in order to successfully operate off-policy with function approximation, unless additional conditions are met. However, Bellman completeness is a requirement that is much stronger than realizability and that is deemed to be too strong to hold in practice. In this work, we relax this structural assumption and analyze the statistical complexity of off-policy reinforcement learning when only realizability holds for the prescribed function class. We establish finite-sample guarantees for off-policy reinforcement learning that are free of the approximation error term known as inherent Bellman error, and that depend on the interplay of three factors. The first two are well-know: they are the metric entropy of the function class and the concentrability coefficient that represents the cost of learning off-policy. The third factor is new, and it measures the violation of Bellman completeness, namely the mis-alignment between the chosen function class and its image through the Bellman operator. In essence, these error bounds establish that off-policy reinforcement learning remains statistically viable even in absence of Bellman completeness, and characterize the intermediate situation between the favorable Bellman complete setting and the worst-case scenario where exponential lower bounds are in force. Our analysis directly applies to the solution found by temporal difference algorithms when they converge.
翻訳日:2022-11-11 15:41:06 公開日:2022-11-10
# 時空間k-means

Spatiotemporal k-means ( http://arxiv.org/abs/2211.05337v1 )

ライセンス: Link先を確認
Olga Dorabiala, Jennifer Webster, Nathan Kutz, Aleksandr Aravkin(参考訳) 時空間データは、興味のある移動物体の位置を追跡する新しいセンサーとデータ取得技術によって容易に利用できる。 時空間クラスタリングは、人間の監督なしに物体の動きのパターンや傾向を効率的に発見する必要性に対処する。 興味深い応用の1つは移動クラスタの発見である。クラスタは静的なアイデンティティを持つが、その位置と内容は時間とともに変化する可能性がある。 本研究では,時空間データ内の多元的関係を解析できるspatiotemporal k-means (stkm) と呼ばれる2相時空間クラスタリング法を提案する。 STKMのフェーズ1は、移動クラスタ問題を、空間と時間で統一された目的関数の最小化として表している。 オブジェクト間の短期的な関連を出力し、パラメータチューニングを最小限に抑え、後処理なしで動的クラスタセンターを追跡することができる。 フェーズ2は長期的な関連を出力し、各時点において各オブジェクトにクラスタラベルを提供する任意のメソッドに適用することができる。 我々は,最近開発されたベンチマークデータセットのベースライン手法に対してSTKMを評価し,STKMが既存の手法,特に低データ領域よりも優れていることを示す。

Spatiotemporal data is readily available due to emerging sensor and data acquisition technologies that track the positions of moving objects of interest. Spatiotemporal clustering addresses the need to efficiently discover patterns and trends in moving object behavior without human supervision. One application of interest is the discovery of moving clusters, where clusters have a static identity, but their location and content can change over time. We propose a two phase spatiotemporal clustering method called spatiotemporal k-means (STKM) that is able to analyze the multi-scale relationships within spatiotemporal data. Phase 1 of STKM frames the moving cluster problem as the minimization of an objective function unified over space and time. It outputs the short-term associations between objects and is uniquely able to track dynamic cluster centers with minimal parameter tuning and without post-processing. Phase 2 outputs the long-term associations and can be applied to any method that provides a cluster label for each object at every point in time. We evaluate STKM against baseline methods on a recently developed benchmark dataset and show that STKM outperforms existing methods, particularly in the low-data domain, with significant performance improvements demonstrated for common evaluation metrics on the moving cluster problem.
翻訳日:2022-11-11 15:40:44 公開日:2022-11-10
# 代替機能を備えた安全制約付き政策移行

Safety-Constrained Policy Transfer with Successor Features ( http://arxiv.org/abs/2211.05361v1 )

ライセンス: Link先を確認
Zeyu Feng, Bowen Zhang, Jianxin Bi, Harold Soh(参考訳) 本研究は,強化学習における安全な政策伝達の問題に焦点をあてる:我々は,制約のある新しいタスクを学習する際に,既存のポリシーを活用しようとする。 この問題は、人間と相互作用する物理的ロボットのように、相互作用が費用がかかり、制約のないポリシーが望ましくない、あるいは危険な結果をもたらす、安全クリティカルなアプリケーションにとって重要である。 本稿では,安全制約へのポリシーの移転と遵守を可能にするCMDP(Constrained Markov Decision Process)の定式化を提案する。 提案方式は,タスク目標を安全配慮からきれいに分離し,幅広い制約の仕様を許容する。 我々のアプローチは、Lagrangian の定式化による制約付き設定への一般化された政策改善の新たな拡張に依存している。 目的タスクの最適双対変数を推定する双対最適化アルゴリズムを考案し、ソースタスクで学習した後継機能から引き起こされたポリシーの安全な転送を可能にする。 シミュレーションドメインでの我々の実験は、我々のアプローチが効果的であることを示し、安全上の制約を考慮に入れた場合、安全でない状態の訪問を少なくし、代替の最先端の手法よりも優れています。

In this work, we focus on the problem of safe policy transfer in reinforcement learning: we seek to leverage existing policies when learning a new task with specified constraints. This problem is important for safety-critical applications where interactions are costly and unconstrained policies can lead to undesirable or dangerous outcomes, e.g., with physical robots that interact with humans. We propose a Constrained Markov Decision Process (CMDP) formulation that simultaneously enables the transfer of policies and adherence to safety constraints. Our formulation cleanly separates task goals from safety considerations and permits the specification of a wide variety of constraints. Our approach relies on a novel extension of generalized policy improvement to constrained settings via a Lagrangian formulation. We devise a dual optimization algorithm that estimates the optimal dual variable of a target task, thus enabling safe transfer of policies derived from successor features learned on source tasks. Our experiments in simulated domains show that our approach is effective; it visits unsafe states less frequently and outperforms alternative state-of-the-art methods when taking safety constraints into account.
翻訳日:2022-11-11 15:40:25 公開日:2022-11-10
# 分類問題におけるクラス不均衡処理手法の見直し

Review of Methods for Handling Class-Imbalanced in Classification Problems ( http://arxiv.org/abs/2211.05456v1 )

ライセンス: Link先を確認
Satyendra Singh Rawat (Amity University, Gwalior, India), Amit Kumar Mishra (Amity University, Gwalior, India)(参考訳) 歪や不均衡なデータセットを用いた学習分類器は、時として分類問題を引き起こすことがある。 場合によっては、あるクラスはほとんどの例を含むが、他方はより重要なクラスであり、しかしながら、少数の例で表される。 この種のデータを使用することで、慎重に設計された機械学習システムが非効率になる可能性がある。 高いトレーニング忠実度は、クラスの他のすべてのインスタンスに対するバイアスを記述するために使用された用語です。 この問題を解決するための最善のアプローチは、典型的にはマイノリティクラスから得ることである。 本稿は,データレベル,アルゴリズムレベル,ハイブリッド,コストセンシティブな学習,ディープラーニングなど,クラス不均衡による学習問題に対する最も広く利用されている手法について検討する。 分類器の効率と性能は、無数の評価指標を用いて評価する。

Learning classifiers using skewed or imbalanced datasets can occasionally lead to classification issues; this is a serious issue. In some cases, one class contains the majority of examples while the other, which is frequently the more important class, is nevertheless represented by a smaller proportion of examples. Using this kind of data could make many carefully designed machine-learning systems ineffective. High training fidelity was a term used to describe biases vs. all other instances of the class. The best approach to all possible remedies to this issue is typically to gain from the minority class. The article examines the most widely used methods for addressing the problem of learning with a class imbalance, including data-level, algorithm-level, hybrid, cost-sensitive learning, and deep learning, etc. including their advantages and limitations. The efficiency and performance of the classifier are assessed using a myriad of evaluation metrics.
翻訳日:2022-11-11 15:40:06 公開日:2022-11-10
# チェリー仮説:動的ネットワークのためのケーキ上のチェリーの同定

Cherry Hypothesis: Identifying the Cherry on the Cake for Dynamic Networks ( http://arxiv.org/abs/2211.05528v1 )

ライセンス: Link先を確認
Shwai He, Liang Ding, Daize Dong, Boan Liu, Fuqiang Yu, Dacheng Tao(参考訳) 動的ネットワークは、許容可能な計算コストでモデルの表現能力を大幅に向上できるため、広く研究されてきた。 動的ネットワークを実装する一般的なプラクティスは、静的な層を全てのパラメータが動的で入力によって変化する完全に動的な層に変換することである。 近年の研究では、よりダイナミックな層がパフォーマンスの向上に寄与する傾向が実証的に示されている。 しかし、そのような完全にダイナミックな設定 1)冗長なパラメータと高いデプロイメントコストの原因となり、動的ネットワークの適用範囲が幅広いタスクやモデルに制限される可能性がある。 2) 人間の脳が注意喚起タスクを処理しているとき、タスク特異的領域の部分ニューロンのみが入力によって活性化され、残りのニューロンはベースライン状態に留まる、という人間の脳における以前の発見とは矛盾する。 重要なことは、上記の矛盾した発見を理解し、解決する努力はせず、予備的な疑問を残して、計算パラメータを完全に動的にするか、そうでないか? -答えなし。 我々の研究の主な貢献は、動的ネットワークにおける基本的な常識に挑戦することであり、 \textsc{cherry hypothesis} -- \textit{a full dynamic networkには、動的パラメータのサブセットが含まれており、他の動的パラメータを静的なネットワークに変換する場合、元のネットワークのパフォーマンスを維持または超過することができる。 技術的には、冗長な動的パラメータを静的なパラメータに変換するために、脳にインスパイアされた部分動的ネットワーク、すなわちPAD-Netを提案する。 また,従来の完全動的ネットワークにおける冗長性を緩和する動的サブネットと静的サブネットを分割する反復モード分割を設計する。 本仮説と手法は,典型的な動的手法を用いた大規模実験によって包括的に支持されている。

Dynamic networks have been extensively explored as they can considerably improve the model's representation power with acceptable computational cost. The common practice in implementing dynamic networks is to convert given static layers into fully dynamic ones where all parameters are dynamic and vary with the input. Recent studies empirically show the trend that the more dynamic layers contribute to ever-increasing performance. However, such a fully dynamic setting 1) may cause redundant parameters and high deployment costs, limiting the applicability of dynamic networks to a broader range of tasks and models, and more importantly, 2) contradicts the previous discovery in the human brain that \textit{when human brains process an attention-demanding task, only partial neurons in the task-specific areas are activated by the input, while the rest neurons leave in a baseline state.} Critically, there is no effort to understand and resolve the above contradictory finding, leaving the primal question -- to make the computational parameters fully dynamic or not? -- unanswered. The main contributions of our work are challenging the basic commonsense in dynamic networks, and, proposing and validating the \textsc{cherry hypothesis} -- \textit{A fully dynamic network contains a subset of dynamic parameters that when transforming other dynamic parameters into static ones, can maintain or even exceed the performance of the original network.} Technically, we propose a brain-inspired partially dynamic network, namely PAD-Net, to transform the redundant dynamic parameters into static ones. Also, we further design Iterative Mode Partition to partition the dynamic- and static-subnet, which alleviates the redundancy in traditional fully dynamic networks. Our hypothesis and method are comprehensively supported by large-scale experiments with typical advanced dynamic methods.
翻訳日:2022-11-11 15:39:52 公開日:2022-11-10
# その説明はあなたの要求に合いますか。 解説の諸性質の統一的視点

Does the explanation satisfy your needs?: A unified view of properties of explanations ( http://arxiv.org/abs/2211.05667v1 )

ライセンス: Link先を確認
Zixi Chen, Varshini Subhash, Marton Havasi, Weiwei Pan, Finale Doshi-Velez(参考訳) 解釈可能性(Interpretability)は、人間が機械学習(ML)モデルの側面を検証する手段を提供し、タスクを完全に自動化できない状況において、人間とMLのコラボレーションを強化する。 異なる文脈は異なる性質を持つ説明を必要とする。 例えば、早期の心停止警告システムがケア環境に統合される準備ができているかを決定するのに必要な説明の種類は、ローン申請者がアプリケーションを成功させるために必要なアクションを決定するのに必要な説明の種類とは大きく異なります。 残念ながら、説明の性質に関して、標準化の欠如がある:異なる論文は、同じ用語を異なる量を意味するために、異なる用語を同じ量を意味するために使用する。 この標準化された用語の欠如とml説明の性質の分類は、解釈可能な機械学習手法を厳格に比較し、どのような文脈で必要な特性を特定することの両方を妨げます。 本研究では, 解釈可能な機械学習論文で定義された特性を調査し, 実測値に基づいて合成し, これらの性質の異なる定式化間のトレードオフを記述する。 これにより,説明特性のタスクに適した定式化や,解釈可能な機械学習における今後の作業の標準化が,よりインフォームドな選択が可能になる。

Interpretability provides a means for humans to verify aspects of machine learning (ML) models and empower human+ML teaming in situations where the task cannot be fully automated. Different contexts require explanations with different properties. For example, the kind of explanation required to determine if an early cardiac arrest warning system is ready to be integrated into a care setting is very different from the type of explanation required for a loan applicant to help determine the actions they might need to take to make their application successful. Unfortunately, there is a lack of standardization when it comes to properties of explanations: different papers may use the same term to mean different quantities, and different terms to mean the same quantity. This lack of a standardized terminology and categorization of the properties of ML explanations prevents us from both rigorously comparing interpretable machine learning methods and identifying what properties are needed in what contexts. In this work, we survey properties defined in interpretable machine learning papers, synthesize them based on what they actually measure, and describe the trade-offs between different formulations of these properties. In doing so, we enable more informed selection of task-appropriate formulations of explanation properties as well as standardization for future work in interpretable machine learning.
翻訳日:2022-11-11 15:39:21 公開日:2022-11-10
# 産業生産・安全保障分野におけるX線データに関するコンピュータビジョン:調査

Computer Vision on X-ray Data in Industrial Production and Security Applications: A survey ( http://arxiv.org/abs/2211.05565v1 )

ライセンス: Link先を確認
Mehdi Rafiei, Jenni Raitoharju, Alexandros Iosifidis(参考訳) x線イメージング技術は、様々な臓器の内部状態を明らかにするために何十年も臨床研究に使われてきたが、近年では産業、安全保障、地理など他の分野でも広く使われている。 コンピュータビジョンと機械学習技術の最近の進歩により、X線画像の自動処理や、いくつかの機械学習ベースのオブジェクト(異常な)検出、分類、セグメンテーションが、最近X線画像解析に採用されている。 画像処理応用における深層学習の可能性が高いため、ほとんどの研究で使われている。 本調査は,産業用およびセキュリティ用アプリケーションにおけるx線分析にコンピュータビジョンと機械学習を用いた最近の研究を概観し,それらの技術の適用,技術,評価指標,データセット,および公開データセットにおける性能比較について報告する。 また,コンピュータビジョンを用いたX線分析における今後の研究への推奨として,公開研究の欠点を強調した。

X-ray imaging technology has been used for decades in clinical tasks to reveal the internal condition of different organs, and in recent years, it has become more common in other areas such as industry, security, and geography. The recent development of computer vision and machine learning techniques has also made it easier to automatically process X-ray images and several machine learning-based object (anomaly) detection, classification, and segmentation methods have been recently employed in X-ray image analysis. Due to the high potential of deep learning in related image processing applications, it has been used in most of the studies. This survey reviews the recent research on using computer vision and machine learning for X-ray analysis in industrial production and security applications and covers the applications, techniques, evaluation metrics, datasets, and performance comparison of those techniques on publicly available datasets. We also highlight some drawbacks in the published research and give recommendations for future research in computer vision-based X-ray analysis.
翻訳日:2022-11-11 15:33:16 公開日:2022-11-10
# LiDAR3次元物体検出のための双曲コサイン変換器

Hyperbolic Cosine Transformer for LiDAR 3D Object Detection ( http://arxiv.org/abs/2211.05580v1 )

ライセンス: Link先を確認
Jigang Tong, Fanhang Yang, Sen Yang, Enzeng Dong, Shengzhi Du, Xing Wang, Xianlin Yi(参考訳) 近年、Transformerはコンピュータビジョンにおいて大きな成功を収めている。 しかし、3dオブジェクト検出アプリケーションにおいて、空間的および時間的複雑性は、大きな点の数と二次的に増加するため、制約を受ける。 従来のポイントワイズ手法は、時間消費と限られた受容場に苦しめられ、ポイント間の情報を取り込む。 本稿では,LiDAR点雲からの3次元物体検出のための2段階双曲型コサイン変換器(ChTR3D)を提案する。 提案したChTR3Dは、線形計算複雑性におけるコッシュアテンションを適用して、点間の豊富な文脈関係を符号化することで、提案を洗練する。 cosh-attentionモジュールは、アテンション操作の空間と時間の複雑さを低減する。 従来のソフトマックス操作は、非負のrelu活性化と再重み付け機構を持つ双曲コサインベースの操作に置き換えられる。 広く使われているKITTIデータセットの大規模な実験は、バニラの注意と比較して、コッシュの注意が競合性能と推論速度を大幅に改善することを示した。 実験の結果,ポイントレベル特徴を用いた2段階の最先端手法のうち,提案するchtr3dが最速であることがわかった。

Recently, Transformer has achieved great success in computer vision. However, it is constrained because the spatial and temporal complexity grows quadratically with the number of large points in 3D object detection applications. Previous point-wise methods are suffering from time consumption and limited receptive fields to capture information among points. In this paper, we propose a two-stage hyperbolic cosine transformer (ChTR3D) for 3D object detection from LiDAR point clouds. The proposed ChTR3D refines proposals by applying cosh-attention in linear computation complexity to encode rich contextual relationships among points. The cosh-attention module reduces the space and time complexity of the attention operation. The traditional softmax operation is replaced by non-negative ReLU activation and hyperbolic-cosine-based operator with re-weighting mechanism. Extensive experiments on the widely used KITTI dataset demonstrate that, compared with vanilla attention, the cosh-attention significantly improves the inference speed with competitive performance. Experiment results show that, among two-stage state-of-the-art methods using point-level features, the proposed ChTR3D is the fastest one.
翻訳日:2022-11-11 15:32:59 公開日:2022-11-10
# ニュースを見る: 読むことのできるビデオQAモデルへ

Watching the News: Towards VideoQA Models that can Read ( http://arxiv.org/abs/2211.05588v1 )

ライセンス: Link先を確認
Soumya Jahagirdar, Minesh Mathew, Dimosthenis Karatzas, C. V. Jawahar(参考訳) ビデオ質問回答手法は、時間とともにオブジェクトや人物の常識的推論と視覚的認知と相互作用に焦点をあてる。 現在のビデオQAアプローチは、ビデオに存在するテキスト情報を無視する。 代わりに、テキスト情報は行動に相補的であり、推論プロセスに重要な文脈化手段を提供する、と論じる。 そこで本研究では,ビデオ中のテキストの読み書きを必要とする新しいビデオQAタスクを提案する。 この方向性を探るため、我々はニュースビデオに焦点をあて、ビデオ内の視覚とテキストの組み合わせによって提示されるトピックについて、QAシステムに理解と回答を求める。 我々は,世界中の多様なニュースチャンネルから得られる3,000ドル以上のニュースビデオに対して,8600ドル以上のQAペアからなる‘NewsVideoQA’データセットを紹介した。 本稿では,現在のシーンテキストVQAおよびビデオQA手法の限界を実証し,シーンテキスト情報をビデオQA手法に組み込む方法を提案する。

Video Question Answering methods focus on commonsense reasoning and visual cognition of objects or persons and their interactions over time. Current VideoQA approaches ignore the textual information present in the video. Instead, we argue that textual information is complementary to the action and provides essential contextualisation cues to the reasoning process. To this end, we propose a novel VideoQA task that requires reading and understanding the text in the video. To explore this direction, we focus on news videos and require QA systems to comprehend and answer questions about the topics presented by combining visual and textual cues in the video. We introduce the ``NewsVideoQA'' dataset that comprises more than $8,600$ QA pairs on $3,000+$ news videos obtained from diverse news channels from around the world. We demonstrate the limitations of current Scene Text VQA and VideoQA methods and propose ways to incorporate scene text information into VideoQA methods.
翻訳日:2022-11-11 15:32:39 公開日:2022-11-10
# 鏡視下整復術における鏡視下整復術

Normal reconstruction from specularity in the endoscopic setting ( http://arxiv.org/abs/2211.05642v1 )

ライセンス: Link先を確認
Karim Makki and Adrien Bartoli(参考訳) 内視鏡で撮影された平面に対して, 鏡像の眼球は像面上の同心円であり, 像内にネストした楕円体として現れる。 そこで本研究では,これらの楕円体を検出し,平面の正常方向を推定し,シミュレーションデータを用いて正常な再構成法を提案する。 実際には、内視鏡画像で見える解剖学的表面は局所平面である。 本手法は, 湿潤組織に典型的に見られる多数の特異点に対して, 表面の正常度を再構成できることを示す。 腹腔鏡および大腸鏡の所見を報告する。

We show that for a plane imaged by an endoscope the specular isophotes are concentric circles on the scene plane, which appear as nested ellipses in the image. We show that these ellipses can be detected and used to estimate the plane's normal direction, forming a normal reconstruction method, which we validate on simulated data. In practice, the anatomical surfaces visible in endoscopic images are locally planar. We use our method to show that the surface normal can thus be reconstructed for each of the numerous specularities typically visible on moist tissues. We show results on laparoscopic and colonoscopic images.
翻訳日:2022-11-11 15:32:24 公開日:2022-11-10
# AnimeRun:オープンソース3D映画からの2Dアニメーション対応

AnimeRun: 2D Animation Visual Correspondence from Open Source 3D Movies ( http://arxiv.org/abs/2211.05709v1 )

ライセンス: Link先を確認
Li Siyao, Yuhang Li, Bo Li, Chao Dong, Ziwei Liu, Chen Change Loy(参考訳) 既存の2次元漫画の対応データセットは単純なフレーム構成と単調な動きに悩まされており、実際のアニメーションをシミュレートするには不十分である。 本研究では,オープンソース3次元(3D)映画を2Dスタイルのフルシーンに変換することで,複数の被験者の同時移動と対話を含む2次元アニメーション映像対応データセットAnimeRunを提案する。 解析の結果,提案するデータセットは画像合成よりも実際のアニメに近いだけでなく,既存のデータセットよりもリッチで複雑な動きパターンを持つことがわかった。 本データセットでは,既存の光学フローとセグメントマッチング手法を評価し,これらの手法の欠点をアニメーションデータで解析することにより,総合的なベンチマークを確立する。 データ、コード、その他の追加資料はhttps://lisiyao21.github.io/projects/AnimeRun.orgで入手できる。

Existing correspondence datasets for two-dimensional (2D) cartoon suffer from simple frame composition and monotonic movements, making them insufficient to simulate real animations. In this work, we present a new 2D animation visual correspondence dataset, AnimeRun, by converting open source three-dimensional (3D) movies to full scenes in 2D style, including simultaneous moving background and interactions of multiple subjects. Our analyses show that the proposed dataset not only resembles real anime more in image composition, but also possesses richer and more complex motion patterns compared to existing datasets. With this dataset, we establish a comprehensive benchmark by evaluating several existing optical flow and segment matching methods, and analyze shortcomings of these methods on animation data. Data, code and other supplementary materials are available at https://lisiyao21.github.io/projects/AnimeRun.
翻訳日:2022-11-11 15:31:56 公開日:2022-11-10
# ニューラルキャッシングによる高FPSおよび低レイテンシへのニューラルフェイス合成のスケーリング

Scaling Neural Face Synthesis to High FPS and Low Latency by Neural Caching ( http://arxiv.org/abs/2211.05773v1 )

ライセンス: Link先を確認
Frank Yu, Sid Fels, Helge Rhodin(参考訳) 最近のニューラルレンダリングアプローチは画質を大幅に改善し、光リアリズムに近い。 しかし、基盤となるニューラルネットワークは高いランタイムを持ち、低レイテンシで高解像度を必要とするテレプレゼンスとバーチャルリアリティーアプリケーションを除く。 ディープネットワークにおけるレイヤのシーケンシャルな依存性は、最適化を難しくする。 前のフレームから情報をキャッシュすることで依存関係を壊し、暗黙のワープで現在のフレームの処理を高速化します。 浅いネットワークによるワープはレイテンシを低減し、キャッシング操作をさらに並列化してフレームレートを改善することができる。 既存の時間的ニューラルネットワークとは対照的に、表面メッシュの変化を条件づけることで、顔の新たなビューをレンダリングする作業に適している。 テレプレゼンスに必要な3次元ポートレートアバターのビュー依存レンダリングを,確立されたベンチマークシーケンス上でテストした。 Warpingは、レイテンシを70$\%(コモディティGPUでは49.4msから14.9ms)削減し、複数のGPU上でフレームレートをスケールすると同時に、画像品質を1$\%$に削減し、エンドツーエンドのビュー依存の3Dテレカンファレンスアプリケーションの一部として適している。 プロジェクトページはhttps://yu-frank.github.io/lowlatency/。

Recent neural rendering approaches greatly improve image quality, reaching near photorealism. However, the underlying neural networks have high runtime, precluding telepresence and virtual reality applications that require high resolution at low latency. The sequential dependency of layers in deep networks makes their optimization difficult. We break this dependency by caching information from the previous frame to speed up the processing of the current one with an implicit warp. The warping with a shallow network reduces latency and the caching operations can further be parallelized to improve the frame rate. In contrast to existing temporal neural networks, ours is tailored for the task of rendering novel views of faces by conditioning on the change of the underlying surface mesh. We test the approach on view-dependent rendering of 3D portrait avatars, as needed for telepresence, on established benchmark sequences. Warping reduces latency by 70$\%$ (from 49.4ms to 14.9ms on commodity GPUs) and scales frame rates accordingly over multiple GPUs while reducing image quality by only 1$\%$, making it suitable as part of end-to-end view-dependent 3D teleconferencing applications. Our project page can be found at: https://yu-frank.github.io/lowlatency/.
翻訳日:2022-11-11 15:31:42 公開日:2022-11-10
# 細粒化エンティティセグメンテーション

Fine-Grained Entity Segmentation ( http://arxiv.org/abs/2211.05776v1 )

ライセンス: Link先を確認
Lu Qi, Jason Kuen, Weidong Guo, Tiancheng Shen, Jiuxiang Gu, Wenbo Li, Jiaya Jia, Zhe Lin, Ming-Hsuan Yang(参考訳) 密集した画像分割タスク(semantic、panopticなど)では、既存のメソッドが認識できない画像ドメイン、事前定義されたクラス、画像の解像度と品質のバリエーションにうまく一般化できない。 これらの観察に動機づけられ、オープンワールドと高品質の密集したセグメンテーションに重点を置いた、細粒度のエンティティセグメンテーションを探索する大規模なエンティティセグメンテーションデータセットを構築した。 データセットには、さまざまな画像ドメインと解像度にまたがるイメージと、トレーニングとテストのための高品質なマスクアノテーションが含まれている。 本稿では,データセットの高品質かつ解像度の高い性質から,高品質セグメンテーションのためのクロップフォーマーを提案する。 cropformerは、複数の画像からのマスク予測を効果的にアンサンブルできる、最初のクエリベースのトランスフォーマーアーキテクチャである。 CropFormerでは、難易度の高いエンティティセグメンテーションタスクに対して、1.9ドルの大きなAPゲインを達成しています。 データセットとコードはhttp://luqi.info/entityv2.github.io/でリリースされる。

In dense image segmentation tasks (e.g., semantic, panoptic), existing methods can hardly generalize well to unseen image domains, predefined classes, and image resolution & quality variations. Motivated by these observations, we construct a large-scale entity segmentation dataset to explore fine-grained entity segmentation, with a strong focus on open-world and high-quality dense segmentation. The dataset contains images spanning diverse image domains and resolutions, along with high-quality mask annotations for training and testing. Given the high-quality and -resolution nature of the dataset, we propose CropFormer for high-quality segmentation, which can improve mask prediction using high-res image crops that provide more fine-grained image details than the full image. CropFormer is the first query-based Transformer architecture that can effectively ensemble mask predictions from multiple image crops, by learning queries that can associate the same entities across the full image and its crop. With CropFormer, we achieve a significant AP gain of $1.9$ on the challenging fine-grained entity segmentation task. The dataset and code will be released at http://luqi.info/entityv2.github.io/.
翻訳日:2022-11-11 15:31:19 公開日:2022-11-10
# internimage: 変形可能な畳み込みによる大規模ビジョン基盤モデルの検討

InternImage: Exploring Large-Scale Vision Foundation Models with Deformable Convolutions ( http://arxiv.org/abs/2211.05778v1 )

ライセンス: Link先を確認
Wenhai Wang, Jifeng Dai, Zhe Chen, Zhenhang Huang, Zhiqi Li, Xizhou Zhu, Xiaowei Hu, Tong Lu, Lewei Lu, Hongsheng Li, Xiaogang Wang, Yu Qiao(参考訳) 近年の大規模な視覚変換器(ViT)の進歩と比較して、畳み込みニューラルネットワーク(CNN)に基づく大規模モデルはまだ初期段階にある。 この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。 大規模高密度カーネルに焦点を当てた最近のcnnとは異なり、internimage はコア演算子として変形可能な畳み込みを取り、検出やセグメンテーションといった下流タスクに必要な大きな効果的な受容場を持つだけでなく、入力やタスク情報によって条件付けられた適応的な空間集約を持つ。 その結果,従来のcnnの厳密なインダクティブバイアスを低減し,vitsのような大規模データから大規模パラメータを持つ強固で堅牢なパターンを学習することができる。 このモデルの有効性は、ImageNet、COCO、ADE20Kといった挑戦的なベンチマークで証明されている。 なお、InternImage-HはCOCO test-devで65.4 mAPを記録した。 コードはhttps://github.com/OpenGVLab/InternImageで公開される。

Compared to the great progress of large-scale vision transformers (ViTs) in recent years, large-scale models based on convolutional neural networks (CNNs) are still in an early state. This work presents a new large-scale CNN-based foundation model, termed InternImage, which can obtain the gain from increasing parameters and training data like ViTs. Different from the recent CNNs that focus on large dense kernels, InternImage takes deformable convolution as the core operator, so that our model not only has the large effective receptive field required for downstream tasks such as detection and segmentation, but also has the adaptive spatial aggregation conditioned by input and task information. As a result, the proposed InternImage reduces the strict inductive bias of traditional CNNs and makes it possible to learn stronger and more robust patterns with large-scale parameters from massive data like ViTs. The effectiveness of our model is proven on challenging benchmarks including ImageNet, COCO, and ADE20K. It is worth mentioning that InternImage-H achieved the new record 65.4 mAP on COCO test-dev. The code will be released at https://github.com/OpenGVLab/InternImage.
翻訳日:2022-11-11 15:30:59 公開日:2022-11-10
# 現代の画像深層ネットワークにおける変圧器と畳み込み

Demystify Transformers & Convolutions in Modern Image Deep Networks ( http://arxiv.org/abs/2211.05781v1 )

ライセンス: Link先を確認
Jifeng Dai, Min Shi, Weiyun Wang, Sitong Wu, Linjie Xing, Wenhai Wang, Xizhou Zhu, Lewei Lu, Jie Zhou, Xiaogang Wang, Yu Qiao, Xiaowei Hu(参考訳) 近年のvision transformersの成功は、新しい機能変換パラダイムによる一連のビジョンバックボーンに影響を与え、安定したパフォーマンス向上を報告している。 新たな特徴変換設計は、しばしばゲインの源として主張されるが、いくつかのバックボーンは高度な技術技術から恩恵を受ける可能性があるため、重要な特徴変換演算子から真の利益を特定することは困難である。 本稿では,一般のコンボリューションとアテンション演算子の真の利益を特定し,それらを詳細に研究することを目的とする。 これらの特徴変換モジュール(例えば注意や畳み込み)の主な違いは、空間的特徴集約やいわゆる「空間的トークンミキサー」(spatial token mixer、stm)である。 したがって、まず、異なるエンジニアリング技術による不公平な影響を取り除くために統一アーキテクチャを精査し、その後、比較のためにSTMをこのアーキテクチャに適合させる。 上流/下流タスクの様々な実験と帰納バイアスの分析から,工学的手法が性能を著しく向上させることがわかったが,STM間の性能差は依然として残っている。 詳細な分析では、有効受容場や不変性テストなど、異なるSTMの興味深い発見も示されている。 コードとトレーニングされたモデルはhttps://github.com/OpenGVLab/STM-Evaluationで公開される。

Recent success of vision transformers has inspired a series of vision backbones with novel feature transformation paradigms, which report steady performance gain. Although the novel feature transformation designs are often claimed as the source of gain, some backbones may benefit from advanced engineering techniques, which makes it hard to identify the real gain from the key feature transformation operators. In this paper, we aim to identify real gain of popular convolution and attention operators and make an in-depth study of them. We observe that the main difference among these feature transformation modules, e.g., attention or convolution, lies in the way of spatial feature aggregation, or the so-called "spatial token mixer" (STM). Hence, we first elaborate a unified architecture to eliminate the unfair impact of different engineering techniques, and then fit STMs into this architecture for comparison. Based on various experiments on upstream/downstream tasks and the analysis of inductive bias, we find that the engineering techniques boost the performance significantly, but the performance gap still exists among different STMs. The detailed analysis also reveals some interesting findings of different STMs, such as effective receptive fields and invariance tests. The code and trained models will be publicly available at https://github.com/OpenGVLab/STM-Evaluation
翻訳日:2022-11-11 15:30:37 公開日:2022-11-10
# GAPartNet: 汎用および動作可能なパーツによるクロスカテゴリドメイン一般化可能なオブジェクト認識と操作

GAPartNet: Cross-Category Domain-Generalizable Object Perception and Manipulation via Generalizable and Actionable Parts ( http://arxiv.org/abs/2211.05272v1 )

ライセンス: Link先を確認
Haoran Geng, Helin Xu, Chengyang Zhao, Chao Xu, Li Yi, Siyuan Huang, He Wang(参考訳) 汎用的な方法で物体を知覚し操作することは、コンピュータビジョンとロボティクスコミュニティによって積極的に研究されている。 本研究では,GAParts(Generalizable and Actionable Parts)を通じて,そのような一般化可能な認識と操作を学習することを提案する。 9つのgapartクラス(ボタン、ハンドルなど)を特定して定義することで、我々のパートセントリックなアプローチにより、視対象のカテゴリからオブジェクトの知覚と操作スキルを学習し、目に見えないカテゴリに直接一般化できることを示します。 GAPartの定義に従って,1166のオブジェクトと8489のパートインスタンスに対して,リッチな部分レベルのアノテーション(セマンティック,ポーズ)を提供する大規模部分中心対話型データセットGAPartNetを構築した。 GAPartNetに基づいて,部分分割,部分ポーズ推定,部分ベースオブジェクト操作という3つのクロスカテゴリタスクについて検討する。 被写体カテゴリと被写体カテゴリの間の大きな領域ギャップを考慮し、逆学習手法の統合による領域一般化の観点から強力な3次元セグメンテーション手法を提案する。 本手法は,見知らぬカテゴリーによらず,既存の手法を大きなマージンで上回っている。 さらに,パートセグメンテーションとポーズ推定結果を用いてGAPartのポーズ定義を利用して,シミュレーションと実世界の両方において見えない対象カテゴリによく対応できる部分ベースの操作ヒューリスティックを設計する。 データセットとコードがリリースされる。

Perceiving and manipulating objects in a generalizable way has been actively studied by the computer vision and robotics communities, where cross-category generalizable manipulation skills are highly desired yet underexplored. In this work, we propose to learn such generalizable perception and manipulation via Generalizable and Actionable Parts (GAParts). By identifying and defining 9 GAPart classes (e.g. buttons, handles, etc), we show that our part-centric approach allows our method to learn object perception and manipulation skills from seen object categories and directly generalize to unseen categories. Following the GAPart definition, we construct a large-scale part-centric interactive dataset, GAPartNet, where rich, part-level annotations (semantics, poses) are provided for 1166 objects and 8489 part instances. Based on GAPartNet, we investigate three cross-category tasks: part segmentation, part pose estimation, and part-based object manipulation. Given the large domain gaps between seen and unseen object categories, we propose a strong 3D segmentation method from the perspective of domain generalization by integrating adversarial learning techniques. Our method outperforms all existing methods by a large margin, no matter on seen or unseen categories. Furthermore, with part segmentation and pose estimation results, we leverage the GAPart pose definition to design part-based manipulation heuristics that can generalize well to unseen object categories in both simulation and real world. The dataset and code will be released.
翻訳日:2022-11-11 15:25:26 公開日:2022-11-10
# 動的重み付きデコレーション規則化によるクロスビュージオローカライゼーション埋め込みの学習

Learning Cross-view Geo-localization Embeddings via Dynamic Weighted Decorrelation Regularization ( http://arxiv.org/abs/2211.05296v1 )

ライセンス: Link先を確認
Tingyu Wang, Zhedong Zheng, Zunjie Zhu, Yuhan Gao, Yi Yang and Chenggang Yan(参考訳) クロスビュージオローカライゼーションは、ドローンプラットフォームと衛星プラットフォームという2つのプラットフォームから撮影された同じ位置の画像を見つけることを目的としている。 既存の手法は通常、他の埋め込みと機能空間の間の距離を最適化することに集中するが、埋め込み自体の冗長性は無視する。 本稿では,より多様なパターンをマイニングするモチベーションとして,冗長性の低さも重要であると主張する。 この点を検証するために,動的重み付き非相関正規化(dynamic weighted decorrelation regularization, dwdr)という,単純かつ効果的な正規化を導入する。 名前が示すように、dwdrは埋め込み相関係数行列をスパース行列(すなわち、動的重み付き同一性行列)に回帰させる。 動的重みはトレーニング中にまだ相関したチャネルに集中するために適用される。 さらに,異なるプラットフォーム間のサンプルバランスを維持するクロスビュー対称サンプリング戦略を提案する。 提案手法は,3つの大規模ベンチマーク,すなわちUniversity-1652,CVUSA,CVACTで競合する結果を得た。 さらに,64次元の極端に短い特徴など厳しい状況下では,提案手法はベースラインモデルよりも明確なマージンを超越する。

Cross-view geo-localization aims to spot images of the same location shot from two platforms, e.g., the drone platform and the satellite platform. Existing methods usually focus on optimizing the distance between one embedding with others in the feature space, while neglecting the redundancy of the embedding itself. In this paper, we argue that the low redundancy is also of importance, which motivates the model to mine more diverse patterns. To verify this point, we introduce a simple yet effective regularization, i.e., Dynamic Weighted Decorrelation Regularization (DWDR), to explicitly encourage networks to learn independent embedding channels. As the name implies, DWDR regresses the embedding correlation coefficient matrix to a sparse matrix, i.e., the identity matrix, with dynamic weights. The dynamic weights are applied to focus on still correlated channels during training. Besides, we propose a cross-view symmetric sampling strategy, which keeps the example balance between different platforms. Albeit simple, the proposed method has achieved competitive results on three large-scale benchmarks, i.e., University-1652, CVUSA and CVACT. Moreover, under the harsh circumstance, e.g., the extremely short feature of 64 dimensions, the proposed method surpasses the baseline model by a clear margin.
翻訳日:2022-11-11 15:24:58 公開日:2022-11-10
# 主観的空間的注意を用いた事前時間的行動定位

Prior-enhanced Temporal Action Localization using Subject-aware Spatial Attention ( http://arxiv.org/abs/2211.05299v1 )

ライセンス: Link先を確認
Yifan Liu and Youbao Tang and Ning Zhang and Ruei-Sung Lin and Haoqian Wang(参考訳) 時間的アクションローカライゼーション(TAL)は、境界を検出し、長いビデオで各アクションインスタンスのクラスを特定することを目的としている。 現在のアプローチでは、ビデオフレームを均質に扱い、背景や重要なオブジェクトに過度に注意を払う傾向がある。 これにより、アクション境界をローカライズする感度が制限される。 そこで本研究では,RGB入力のみを入力とし,動作対象を先行として組み込むPETAL(Presideed Enhanced temporal Action Localization Method)を提案する。 本提案では,行動対象の情報をプラグアンドプレイ型空間アテンションモジュール (SA-SAM) で活用し,集合的かつ主観的優先表現を生成する。 THUMOS-14とActivityNet-1.3データセットの実験結果は、提案されたPETALが、RGB機能を使用する最先端のアプローチやTHUMOS-14データセットのさらなる光学フロー機能に対して、mAPを2.41%または0.25%向上させるなど、RGB機能のみを使用して、競合性能を達成することを示した。

Temporal action localization (TAL) aims to detect the boundary and identify the class of each action instance in a long untrimmed video. Current approaches treat video frames homogeneously, and tend to give background and key objects excessive attention. This limits their sensitivity to localize action boundaries. To this end, we propose a prior-enhanced temporal action localization method (PETAL), which only takes in RGB input and incorporates action subjects as priors. This proposal leverages action subjects' information with a plug-and-play subject-aware spatial attention module (SA-SAM) to generate an aggregated and subject-prioritized representation. Experimental results on THUMOS-14 and ActivityNet-1.3 datasets demonstrate that the proposed PETAL achieves competitive performance using only RGB features, e.g., boosting mAP by 2.41% or 0.25% over the state-of-the-art approach that uses RGB features or with additional optical flow features on the THUMOS-14 dataset.
翻訳日:2022-11-11 15:24:34 公開日:2022-11-10
# 癌-Net BCa: 合成関連拡散イメージングによる胸部深部放射線像を用いた乳癌病理組織学的完全反応予測

Cancer-Net BCa: Breast Cancer Pathologic Complete Response Prediction using Volumetric Deep Radiomic Features from Synthetic Correlated Diffusion Imaging ( http://arxiv.org/abs/2211.05308v1 )

ライセンス: Link先を確認
Chi-en Amy Tai and Nedim Hodzic and Nic Flanagan and Hayden Gunraj and Alexander Wong(参考訳) 乳がんはカナダとアメリカ合衆国で2番目に多いがんであり、新しい女性のがん症例の25%以上を占める。 近年, 病理的完全反応 (pCR) を呈し, 手術前の乳がん腫瘍の縮小を図り, 腫瘍の手術性化を図っているが, 腫瘍に対する病理学的反応の予測は困難である。 本稿では, 合成相関拡散イメージング (CDI$^s$) と呼ばれる, 新たに導入された磁気共鳴イメージング (MRI) 法を用いて, pCR 予測のために, 学習した体積の深い特徴を活用することの有効性について検討する。 より具体的には、体積畳み込みニューラルネットワークを利用して、前処理コホートから体積深部放射能の特徴を学習し、後処理応答を用いた学習特徴に基づく予測器を構築する。 臨床診断支援のための深層学習の観点からCDI$^s$の有用性を探求する最初の研究として,ACRIN-6698を用いて,金標準画像モダリティを用いた学習者に対するアプローチを評価したところ,提案手法はpCR予測性能を向上し,腫瘍学者が患者の治療推奨を改善する上で有用なツールである可能性が示唆された。 その後、体積的深部放射線機能(がん-ネットbcaと命名する)を活用するこのアプローチは、がん領域におけるcdi$^s$の他の応用にも拡張でき、予測性能をさらに向上させることができる。

Breast cancer is the second most common type of cancer in women in Canada and the United States, representing over 25% of all new female cancer cases. Neoadjuvant chemotherapy treatment has recently risen in usage as it may result in a patient having a pathologic complete response (pCR), and it can shrink inoperable breast cancer tumors prior to surgery so that the tumor becomes operable, but it is difficult to predict a patient's pathologic response to neoadjuvant chemotherapy. In this paper, we investigate the efficacy of leveraging learnt volumetric deep features from a newly introduced magnetic resonance imaging (MRI) modality called synthetic correlated diffusion imaging (CDI$^s$) for the purpose of pCR prediction. More specifically, we leverage a volumetric convolutional neural network to learn volumetric deep radiomic features from a pre-treatment cohort and construct a predictor based on the learnt features using the post-treatment response. As the first study to explore the utility of CDI$^s$ within a deep learning perspective for clinical decision support, we evaluated the proposed approach using the ACRIN-6698 study against those learnt using gold-standard imaging modalities, and found that the proposed approach can provide enhanced pCR prediction performance and thus may be a useful tool to aid oncologists in improving recommendation of treatment of patients. Subsequently, this approach to leverage volumetric deep radiomic features (which we name Cancer-Net BCa) can be further extended to other applications of CDI$^s$ in the cancer domain to further improve prediction performance.
翻訳日:2022-11-11 15:24:13 公開日:2022-11-10
# セマンティックな個別の強化を対比したオンライン連続学習における留意点の修正

Mitigating Forgetting in Online Continual Learning via Contrasting Semantically Distinct Augmentations ( http://arxiv.org/abs/2211.05347v1 )

ライセンス: Link先を確認
Sheng-Feng Yu and Wei-Chen Chiu(参考訳) オンライン連続学習(OCL)は、システムのサイズと計算コストに制限がある制約の下で、非定常データストリームからのモデル学習を、学習した知識を継続的に獲得し、学習した知識を維持することを目的としている。 クラスインクリメンタルなoclシナリオ、すなわち分類のためのoclに特に焦点を絞った最近の進歩は、より一般化された特徴表現を学ぶためのコントラスト学習技法を取り入れ、最先端のパフォーマンスを達成するが、壊滅的な忘れを十分に解決することができない。 本稿では,コントラスト学習を取り入れる戦略を述べるとともに,さらにデータサンプル生成に強い拡張性を利用する意味論的拡張手法を導入するとともに,コントラスト学習機構において,これらのサンプルが本来のクラスと意味的に異なること(分布外サンプルと関連すること)を考慮すれば,忘れることの軽減とモデルの安定性の促進に寄与することを示す。 さらに, 比較学習に加えて, モデル設計に典型的な分類機構と目的(ソフトマックス分類器, クロスエントロピー損失など)が組み込まれ, ラベル情報をより高速に収束・活用するが, 特に新しいクラス(最近学習したクラスに対するモデルバイアス)を好む傾向に対処するためのサンプリング戦略が備えられている。 CIFAR-10, CIFAR-100, Mini-Imagenet データセットの広範な実験を行った結果, 提案手法は各種ベースラインに対して優れた性能を示した。

Online continual learning (OCL) aims to enable model learning from a non-stationary data stream to continuously acquire new knowledge as well as retain the learnt one, under the constraints of having limited system size and computational cost, in which the main challenge comes from the "catastrophic forgetting" issue -- the inability to well remember the learnt knowledge while learning the new ones. With the specific focus on the class-incremental OCL scenario, i.e. OCL for classification, the recent advance incorporates the contrastive learning technique for learning more generalised feature representation to achieve the state-of-the-art performance but is still unable to fully resolve the catastrophic forgetting. In this paper, we follow the strategy of adopting contrastive learning but further introduce the semantically distinct augmentation technique, in which it leverages strong augmentation to generate more data samples, and we show that considering these samples semantically different from their original classes (thus being related to the out-of-distribution samples) in the contrastive learning mechanism contributes to alleviate forgetting and facilitate model stability. Moreover, in addition to contrastive learning, the typical classification mechanism and objective (i.e. softmax classifier and cross-entropy loss) are included in our model design for faster convergence and utilising the label information, but particularly equipped with a sampling strategy to tackle the tendency of favouring the new classes (i.e. model bias towards the recently learnt classes). Upon conducting extensive experiments on CIFAR-10, CIFAR-100, and Mini-Imagenet datasets, our proposed method is shown to achieve superior performance against various baselines.
翻訳日:2022-11-11 15:23:45 公開日:2022-11-10
# 3D-CSL:近距離ビデオ検索のための自己教師型3Dコンテキスト類似性学習

3D-CSL: self-supervised 3D context similarity learning for Near-Duplicate Video Retrieval ( http://arxiv.org/abs/2211.05352v1 )

ライセンス: Link先を確認
Rui Deng, Qian Wu, Yuke Li(参考訳) 本稿では,近重複映像検索(ndvr)のためのコンパクトパイプラインである3d-cslを紹介し,ビデオ類似性学習のための新しい自己教師あり学習戦略について検討する。 従来の手法はフレームから映像空間の特徴を別々に抽出し、フレーム特徴間の時間的相関を学習するための複雑なメカニズムを設計するだけだった。 しかし、時空間依存の一部は失われている。 そこで本研究では,3次元変換器を用いて映像の時間的一様依存性を抽出し,クリップレベルでのマッチングにより効率と効率のバランスが良好であることを示す。 さらに,ネットワーク全体を最適化する2段階の自己教師型類似性学習戦略を提案する。 まず,映像予測タスクによる3次元変圧器の事前学習を行うpredmaeを提案し,さらに,新たな映像特化機能であるshotmixと,新たな三重項損失であるfcs lossを提案する。 fivr-200kおよびcc_web_videoを用いた実験は,クリップレベルのndvrにおける最先端性能を実現する手法の優位性と信頼性を示す。

In this paper, we introduce 3D-CSL, a compact pipeline for Near-Duplicate Video Retrieval (NDVR), and explore a novel self-supervised learning strategy for video similarity learning. Most previous methods only extract video spatial features from frames separately and then design kinds of complex mechanisms to learn the temporal correlations among frame features. However, parts of spatiotemporal dependencies have already been lost. To address this, our 3D-CSL extracts global spatiotemporal dependencies in videos end-to-end with a 3D transformer and find a good balance between efficiency and effectiveness by matching on clip-level. Furthermore, we propose a two-stage self-supervised similarity learning strategy to optimize the entire network. Firstly, we propose PredMAE to pretrain the 3D transformer with video prediction task; Secondly, ShotMix, a novel video-specific augmentation, and FCS loss, a novel triplet loss, are proposed further promote the similarity learning results. The experiments on FIVR-200K and CC_WEB_VIDEO demonstrate the superiority and reliability of our method, which achieves the state-of-the-art performance on clip-level NDVR.
翻訳日:2022-11-11 15:23:14 公開日:2022-11-10
# 運動誘導に基づく高能率非教師なし映像セグメンテーションネットワーク

Efficient Unsupervised Video Object Segmentation Network Based on Motion Guidance ( http://arxiv.org/abs/2211.05364v1 )

ライセンス: Link先を確認
Chao Hu, Liqiang Zhu(参考訳) ディープラーニングに基づく教師なしのビデオオブジェクトセグメンテーションアルゴリズムは、モデルパラメータと計算の問題を抱えており、実際にアルゴリズムの適用を著しく制限している。 本稿では,動き誘導に基づく映像オブジェクトセグメンテーションネットワークを提案し,モデルパラメータ数と計算量を大幅に削減し,映像オブジェクトセグメンテーション性能を向上させる。 このモデルはデュアルストリームネットワーク、モーションガイダンスモジュール、マルチスケールプログレッシブフュージョンモジュールを含む。 具体的には、RGB画像と光フロー推定をデュアルストリームネットワークに入力し、オブジェクトの外観特徴と動作特徴を抽出する。 そして、動き誘導モジュールは、局所的な注意を通して、動き特徴から意味情報を抽出することにより、外観特徴を導き、豊かな意味情報を学ぶ。 最後に、マルチスケールプログレッシブフュージョンモジュールは、デュアルストリームネットワークの各ステージにおける出力特徴を取得する。 深い特徴を浅い特徴に徐々に統合するが、エッジセグメンテーション効果は改善する。 本稿では,3つの標準データセットについて多数の評価を行い,提案手法の性能を実験的に検証した。

Considerable unsupervised video object segmentation algorithms based on deep learning have the problem of substantive model parameters and computation, which significantly limits the application of the algorithm in practice. This paper proposes a video object segmentation network based on motion guidance, considerably reducing the number of model parameters and computation and improving the video object segmentation performance. The model comprises a dual-stream network, motion guidance module, and multi-scale progressive fusion module. Specifically, RGB images and optical flow estimation are fed into dual-stream network to extract object appearance features and motion features. Then, the motion guidance module extracts the semantic information from the motion features through local attention, which guides the appearance features to learn rich semantic information. Finally, the multi-scale progressive fusion module obtains the output features at each stage of the dual-stream network. It gradually integrates the deep features into the shallow ones yet improves the edge segmentation effect. In this paper, numerous evaluations are conducted on three standard datasets, and the experimental results prove the superior performance of the proposed method.
翻訳日:2022-11-11 15:22:50 公開日:2022-11-10
# hsgnet:階層的類似性グラフネットワークによるオブジェクト再同定

HSGNet: Object Re-identification with Hierarchical Similarity Graph Network ( http://arxiv.org/abs/2211.05486v1 )

ライセンス: Link先を確認
Fei Shen, Mengwan Wei, and Junchi Ren(参考訳) オブジェクトの再識別方法は、バックボーンネットワーク、特徴集約、損失関数から構成される。 しかし、ほとんどのバックボーンネットワークは、リッチスケールのバリエーションや識別的特徴表現を扱う特別なメカニズムを欠いている。 本稿では,まず,階層的類似グラフモジュール(hsgm)を設計し,バックボーンと再識別ネットワークの衝突を低減する。 設計されたHSGMは、グローバルローカルとローカルローカルのマッピング関係をマイニングするために、リッチな階層グラフを構築している。 次に,各階層グラフの空間方向とチャネル方向とともに特徴マップを分割する。 HSGMは、それぞれ異なる位置から抽出された空間特徴とチャネル特徴を適用し、ノード間の類似度スコアを利用して、空間類似度グラフとチャネル類似度グラフを構築する。 hsgmの学習過程において,学習可能なパラメータを用いて各位置の重要性を再最適化し,各ノード間の相関性を評価する。 第3に,hsgmをバックボーンネットワークに組み込むことにより,新しい階層的類似性グラフネットワーク(hsgnet)を開発した。 さらに、HSGMは任意の深さのバックボーンネットワークに簡単に埋め込み、オブジェクトの再識別能力を向上させることができる。 最後に、3つの大規模オブジェクトデータセットに対する広範な実験により、提案したHSGNetは最先端のオブジェクト再識別アプローチよりも優れていることが示された。

Object re-identification method is made up of backbone network, feature aggregation, and loss function. However, most backbone networks lack a special mechanism to handle rich scale variations and mine discriminative feature representations. In this paper, we firstly design a hierarchical similarity graph module (HSGM) to reduce the conflict of backbone and re-identification networks. The designed HSGM builds a rich hierarchical graph to mine the mapping relationships between global-local and local-local. Secondly, we divide the feature map along with the spatial and channel directions in each hierarchical graph. The HSGM applies the spatial features and channel features extracted from different locations as nodes, respectively, and utilizes the similarity scores between nodes to construct spatial and channel similarity graphs. During the learning process of HSGM, we utilize a learnable parameter to re-optimize the importance of each position, as well as evaluate the correlation between different nodes. Thirdly, we develop a novel hierarchical similarity graph network (HSGNet) by embedding the HSGM in the backbone network. Furthermore, HSGM can be easily embedded into backbone networks of any depth to improve object re-identification ability. Finally, extensive experiments on three large-scale object datasets demonstrate that the proposed HSGNet is superior to state-of-the-art object re-identification approaches.
翻訳日:2022-11-11 15:22:34 公開日:2022-11-10
# classpruning: dynamic n:m pruningによる画像復元ネットワークの高速化

ClassPruning: Speed Up Image Restoration Networks by Dynamic N:M Pruning ( http://arxiv.org/abs/2211.05488v1 )

ライセンス: Link先を確認
Yang Zhou, Yuda Song, Hui Qian, Xin Du(参考訳) 画像復元タスクは、ディープニューラルネットワークの急速な進歩によって、大幅にパフォーマンスが向上した。 しかし、ほとんどの一般的なディープラーニングモデルは、異なる画像が様々な復元困難を持つことを無視して、静的に推論を行う。 そこで本研究では,様々な機能を有するネットワークを用いて,復元の困難度が異なる画像の処理を行う,classpruningと呼ばれる新しいソリューションパイプラインを提案する。 特に,画像復元の難易度をライトウェイトな分類器を用いて同定し,ベース復元ネットワーク上で動的n:m細粒度構造pruningを行うことで,予測難易度に基づいて,異なる能力を持つスパースサブネットワークをサンプリングすることができる。 さらに,トレーニングの安定化と性能向上のために,新たなトレーニング戦略と2つの損失条件を提案する。 実験によると、ClassPruningはパフォーマンスを維持しながら、既存のメソッドが約40%のFLOPを節約できる。

Image restoration tasks have achieved tremendous performance improvements with the rapid advancement of deep neural networks. However, most prevalent deep learning models perform inference statically, ignoring that different images have varying restoration difficulties and lightly degraded images can be well restored by slimmer subnetworks. To this end, we propose a new solution pipeline dubbed ClassPruning that utilizes networks with different capabilities to process images with varying restoration difficulties. In particular, we use a lightweight classifier to identify the image restoration difficulty, and then the sparse subnetworks with different capabilities can be sampled based on predicted difficulty by performing dynamic N:M fine-grained structured pruning on base restoration networks. We further propose a novel training strategy along with two additional loss terms to stabilize training and improve performance. Experiments demonstrate that ClassPruning can help existing methods save approximately 40% FLOPs while maintaining performance.
翻訳日:2022-11-11 15:22:12 公開日:2022-11-10
# SWTF:ドローンによる活動認識のための低重量時間核融合

SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity Recognition ( http://arxiv.org/abs/2211.05531v1 )

ライセンス: Link先を確認
Santosh Kumar Yadav, Esha Pahwa, Achleshwar Luthra, Kamlesh Tiwari, Hari Mohan Pandey, Peter Corcoran(参考訳) ドローンカメラによる人間活動認識(HAR)はここ数年,コンピュータビジョン研究コミュニティから注目されている。 堅牢で効率的なHARシステムは、ビデオ監視、群衆行動分析、スポーツ分析、人間とコンピュータの相互作用といった分野において重要な役割を果たす。 難しいのは、複雑なポーズ、異なる視点、そしてアクションが行われる環境シナリオを理解することです。 このような複雑さに対処するため,本稿では,疎サンプリングされたビデオフレームを用いてグローバルな重み付き時間融合結果を得る新しいSparse Weighted Temporal Fusion(SWTF)モジュールを提案する。 提案するSWTFは2つのコンポーネントに分けられる。 まず、与えられたフレームの集合をわずかにサンプリングする時間セグメントネットワーク。 第二に、光学フローから派生した特徴マップと生のRGB画像の融合を含む重み付き時間融合である。 続くベースネットワークは、畳み込みニューラルネットワークモジュールと、アクティビティ認識を提供する完全に接続されたレイヤで構成される。 SWTFネットワークは、既存の深層CNNアーキテクチャのプラグインモジュールとして使用することができ、個別の時間ストリームを不要にすることで、時間情報の学習を最適化することができる。 Okutama、MOD20、Drone-Actionという3つの公開ベンチマークデータセットで評価されている。 提案されたモデルは、それぞれのデータセットで72.76%、92.56%、78.86%の精度で、これまでの最先端のパフォーマンスをかなり上回っている。

Drone-camera based human activity recognition (HAR) has received significant attention from the computer vision research community in the past few years. A robust and efficient HAR system has a pivotal role in fields like video surveillance, crowd behavior analysis, sports analysis, and human-computer interaction. What makes it challenging are the complex poses, understanding different viewpoints, and the environmental scenarios where the action is taking place. To address such complexities, in this paper, we propose a novel Sparse Weighted Temporal Fusion (SWTF) module to utilize sparsely sampled video frames for obtaining global weighted temporal fusion outcome. The proposed SWTF is divided into two components. First, a temporal segment network that sparsely samples a given set of frames. Second, weighted temporal fusion, that incorporates a fusion of feature maps derived from optical flow, with raw RGB images. This is followed by base-network, which comprises a convolutional neural network module along with fully connected layers that provide us with activity recognition. The SWTF network can be used as a plug-in module to the existing deep CNN architectures, for optimizing them to learn temporal information by eliminating the need for a separate temporal stream. It has been evaluated on three publicly available benchmark datasets, namely Okutama, MOD20, and Drone-Action. The proposed model has received an accuracy of 72.76%, 92.56%, and 78.86% on the respective datasets thereby surpassing the previous state-of-the-art performances by a significant margin.
翻訳日:2022-11-11 15:21:44 公開日:2022-11-10
# データダイエットに関するbert:グラデーションに基づくpruningによる重要な例を見つける

BERT on a Data Diet: Finding Important Examples by Gradient-Based Pruning ( http://arxiv.org/abs/2211.05610v1 )

ライセンス: Link先を確認
Mohsen Fayyaz, Ehsan Aghazadeh, Ali Modarressi, Mohammad Taher Pilehvar, Yadollah Yaghoobzadeh, Samira Ebrahimi Kahou(参考訳) 現在の事前学習された言語モデルは、最先端のパフォーマンスを達成するために大きなデータセットに依存している。 しかし、過去の研究では、データセットのすべての例がトレーニング中に等しく重要であるわけではないことが示されている。 実際、テストパフォーマンスを維持しながら、トレーニングセットのかなりの一部を試すことができることがある。 標準ビジョンベンチマークに基づいて構築された2つのグラデーションベースの評価指標は、GraNdとその推定バージョンであるEL2Nである。 本研究では,この2つの指標をNLPで初めて採用する。 これらのメトリクスは、少なくとも1回の微調整の後に計算する必要があることを示し、初期の段階では信頼できない。 さらに,grand/el2nスコアが最も高い例のごく一部を刈り取ることで,テスト精度を保っただけでなく,それを超えることができることを示した。 本稿では,GraNdとEL2NをNLPに適用可能な調整および実装選択について述べる。

Current pre-trained language models rely on large datasets for achieving state-of-the-art performance. However, past research has shown that not all examples in a dataset are equally important during training. In fact, it is sometimes possible to prune a considerable fraction of the training set while maintaining the test performance. Established on standard vision benchmarks, two gradient-based scoring metrics for finding important examples are GraNd and its estimated version, EL2N. In this work, we employ these two metrics for the first time in NLP. We demonstrate that these metrics need to be computed after at least one epoch of fine-tuning and they are not reliable in early steps. Furthermore, we show that by pruning a small portion of the examples with the highest GraNd/EL2N scores, we can not only preserve the test accuracy, but also surpass it. This paper details adjustments and implementation choices which enable GraNd and EL2N to be applied to NLP.
翻訳日:2022-11-11 15:15:45 公開日:2022-11-10
# diaasq: 会話的側面に基づく感情分析のベンチマーク

DiaASQ: A Benchmark of Conversational Aspect-based Sentiment Quadruple Analysis ( http://arxiv.org/abs/2211.05705v1 )

ライセンス: Link先を確認
Bobo Li, Hao Fei, Yuhan Wu, Jinsong Zhang, Shengqiong Wu, Jingye Li, Yijiang Liu, Lizi Liao, Tat-Seng Chua, Fei Li and Donghong Ji(参考訳) 近年のアスペクトベース感情分析(ABSA)の急速な発展は、現実社会に大きな可能性を秘めている。 しかし、現在のABSAの作品は、ほとんどの場合、1つのテキストのシナリオに限られており、対話の文脈での研究は未調査のままである。 本研究では,対話におけるターゲット・アスペクト・オピニオン・センタティメントの感情四重項を検出することを目的とした,対話的側面に基づく感情四重項分析,すなわちdiaASQを提案する。 DiaASQは、きめ細かい感情分析と会話的な意見マイニングのギャップを埋める。 大規模で高品質な中国語データセットを手動で構築し、手動翻訳による英語版データセットも取得する。 我々は故意にそのタスクをベンチマークするためのニューラルモデルを提案する。 エンドツーエンドの四重項予測を効果的に実行し、より優れた発話四重項抽出のためにリッチな対話特化特徴表現と談話特徴表現を統合する。 最後に、この新しいタスクのフォローアップ研究を促進するための、いくつかの将来的な取り組みを指摘します。 DiaASQデータはhttps://github.com/unikcc/DiaASQで公開されている。

The rapid development of aspect-based sentiment analysis (ABSA) within recent decades shows great potential for real-world society. The current ABSA works, however, are mostly limited to the scenario of a single text piece, leaving the study in dialogue contexts unexplored. In this work, we introduce a novel task of conversational aspect-based sentiment quadruple analysis, namely DiaASQ, aiming to detect the sentiment quadruple of target-aspect-opinion-sentiment in a dialogue. DiaASQ bridges the gap between fine-grained sentiment analysis and conversational opinion mining. We manually construct a large-scale, high-quality Chinese dataset and also obtain the English version dataset via manual translation. We deliberately propose a neural model to benchmark the task. It advances in effectively performing end-to-end quadruple prediction and manages to incorporate rich dialogue-specific and discourse feature representations for better cross-utterance quadruple extraction. We finally point out several potential future works to facilitate the follow-up research of this new task. The DiaASQ data is open at https://github.com/unikcc/DiaASQ
翻訳日:2022-11-11 15:15:30 公開日:2022-11-10
# nano: 最小限の言語モデル制御のためのループ内人間報酬学習

Nano: Nested Human-in-the-Loop Reward Learning for Few-shot Language Model Control ( http://arxiv.org/abs/2211.05750v1 )

ライセンス: Link先を確認
Xiang Fan, Yiwei Lyu, Paul Pu Liang, Ruslan Salakhutdinov, Louis-Philippe Morency(参考訳) 事前訓練された言語モデルは、言語生成において異常な能力を示した。 しかし、現実のタスクは、バイアスを緩和し、公平性を促進し、パーソナライズを達成するために、生成されたテキストの分配を制御する必要があることが多い。 生成したテキストの分布を制御する既存の技術は、あらかじめ定義されたカテゴリ、分布の比率、あるいは所望の分布に従う既存のコーパスを必要とする、定量化された分布でのみ機能する。 しかし、個人の好みなど多くの重要な分布は不適切である。 本研究では,人間のフィードバックから継続的に学習する数発の学習アルゴリズムであるnanoを提案することで,任意の分布(定量化,非定量化)に従ってテキストを生成する問題に取り組む。 nanoは、以前の作品と比較して、単一のトピック/属性と定量化された分布制御で最先端の結果を得る。 また,nanoは非定量的分布を学習し,パーソナライゼーションを実現し,サンプル効率の高い個人選好の違いを捉えることができることを示した。

Pretrained language models have demonstrated extraordinary capabilities in language generation. However, real-world tasks often require controlling the distribution of generated text in order to mitigate bias, promote fairness, and achieve personalization. Existing techniques for controlling the distribution of generated text only work with quantified distributions, which require pre-defined categories, proportions of the distribution, or an existing corpus following the desired distributions. However, many important distributions, such as personal preferences, are unquantified. In this work, we tackle the problem of generating text following arbitrary distributions (quantified and unquantified) by proposing Nano, a few-shot human-in-the-loop training algorithm that continuously learns from human feedback. Nano achieves state-of-the-art results on single topic/attribute as well as quantified distribution control compared to previous works. We also show that Nano is able to learn unquantified distributions, achieves personalization, and captures differences between different individuals' personal preferences with high sample efficiency.
翻訳日:2022-11-11 15:15:11 公開日:2022-11-10
# メタヒューリスティックな多目的対話認識特徴選択法

A metaheuristic multi-objective interaction-aware feature selection method ( http://arxiv.org/abs/2211.05423v1 )

ライセンス: Link先を確認
Motahare Namakin, Modjtaba Rouhani, Mostafa Sabzekar(参考訳) 多目的特徴選択は、パターン認識の分野で最も重要な問題の1つである。 分類性能を最大化し、選択された特徴の数を最小にすると同時に、前述の2つの目的は通常相反するので、これは困難である。 パレート最適解を得るため、メタヒューリスティック最適化法は多くの研究で広く使われている。 しかし、主な欠点は大規模な探索空間の探索である。 マルチオブジェクトの特徴選択アプローチのもう1つの問題は、機能間の相互作用である。 相関特徴の選択は分類性能に悪影響を及ぼす。 これらの問題に対処するために,いくつかの利点を有する多目的特徴選択手法を提案する。 まず,高度な確率スキームを用いた特徴間の相互作用を考える。 第二に、pareto archived evolution strategy(paes)メソッドに基づいており、単純さやソリューション空間を探索する速度といったいくつかの利点がある。 しかし,我々は,子孫を知的に生成する形で,paesの構造を改善する。 そこで,提案手法は,提案した確率スキームを用いて,より有望な子孫を生成する。 最後に、進化のプロセスを通じて最適な特徴数を見つけるための新しい戦略が備えられている。 実験の結果,実世界の異なるデータセットにおける最先端手法と比較して,最適パレートフロントの探索に有意な改善が見られた。

Multi-objective feature selection is one of the most significant issues in the field of pattern recognition. It is challenging because it maximizes the classification performance and, at the same time, minimizes the number of selected features, and the mentioned two objectives are usually conflicting. To achieve a better Pareto optimal solution, metaheuristic optimization methods are widely used in many studies. However, the main drawback is the exploration of a large search space. Another problem with multi-objective feature selection approaches is the interaction between features. Selecting correlated features has negative effect on classification performance. To tackle these problems, we present a novel multi-objective feature selection method that has several advantages. Firstly, it considers the interaction between features using an advanced probability scheme. Secondly, it is based on the Pareto Archived Evolution Strategy (PAES) method that has several advantages such as simplicity and its speed in exploring the solution space. However, we improve the structure of PAES in such a way that generates the offsprings, intelligently. Thus, the proposed method utilizes the introduced probability scheme to produce more promising offsprings. Finally, it is equipped with a novel strategy that guides it to find the optimum number of features through the process of evolution. The experimental results show a significant improvement in finding the optimal Pareto front compared to state-of-the-art methods on different real-world datasets.
翻訳日:2022-11-11 15:14:42 公開日:2022-11-10
# アスペクトベース感情分析のための構文誘導型ドメイン適応

Syntax-Guided Domain Adaptation for Aspect-based Sentiment Analysis ( http://arxiv.org/abs/2211.05457v1 )

ライセンス: Link先を確認
Anguo Dong, Cuiyun Gao, Yan Jia, Qing Liao, Xuan Wang, Lei Wang, and Jing Xiao(参考訳) アスペクトベース感情分析(absa:aspect-based sentiment analysis)は、レビューテキスト中の意見付きアスペクト用語を抽出し、その感情極性を決定することを目的としている。 細かい分類作業として、アノテーションのコストは非常に高い。 ドメイン適応は、ドメイン間で共通の知識を伝達することによって、新しいドメインにおけるデータ不足問題を緩和するための一般的なソリューションである。 多くのクロスドメインABSA研究は、構造対応学習(SCL)に基づいており、ドメイン間のギャップを狭める補助的なタスクを構築するためにピボット機能を使用している。 しかし、それらのピボットベースの補助タスクは、アスペクト項の知識を伝達するだけで、感情ではなく、既存のモデルの性能を制限することができる。 本研究では,より効果的なクロスドメインABSAのための,SDAM(Syntax-guided Domain Adaptation Model)を提案する。 SDAMは擬似トレーニングインスタンスを構築するために構文構造類似性を利用しており、対象ドメインのアスペクト項は感情極性に明示的に関連している。 さらに、ドメイン不変な特徴をさらに捉えるための構文ベースのbertマスク言語モデルを提案する。 最後に、マルチグラムアスペクトにおける感情の不整合を緩和するため、クロスドメインのEnd2End ABSAに、スパンベースの共同アスペクト項と感情分析モジュールを導入する。 5つのベンチマークデータセットの実験から、私たちのモデルは、クロスドメインのEnd2EndABSAタスクのMicro-F1メトリックに対して、最先端のベースラインを一貫して上回ります。

Aspect-based sentiment analysis (ABSA) aims at extracting opinionated aspect terms in review texts and determining their sentiment polarities, which is widely studied in both academia and industry. As a fine-grained classification task, the annotation cost is extremely high. Domain adaptation is a popular solution to alleviate the data deficiency issue in new domains by transferring common knowledge across domains. Most cross-domain ABSA studies are based on structure correspondence learning (SCL), and use pivot features to construct auxiliary tasks for narrowing down the gap between domains. However, their pivot-based auxiliary tasks can only transfer knowledge of aspect terms but not sentiment, limiting the performance of existing models. In this work, we propose a novel Syntax-guided Domain Adaptation Model, named SDAM, for more effective cross-domain ABSA. SDAM exploits syntactic structure similarities for building pseudo training instances, during which aspect terms of target domain are explicitly related to sentiment polarities. Besides, we propose a syntax-based BERT mask language model for further capturing domain-invariant features. Finally, to alleviate the sentiment inconsistency issue in multi-gram aspect terms, we introduce a span-based joint aspect term and sentiment analysis module into the cross-domain End2End ABSA. Experiments on five benchmark datasets show that our model consistently outperforms the state-of-the-art baselines with respect to Micro-F1 metric for the cross-domain End2End ABSA task.
翻訳日:2022-11-11 15:14:25 公開日:2022-11-10
# Multi-Scenario Bimetric-Balanced IoT Resource Allocation:進化的アプローチ

Multi-Scenario Bimetric-Balanced IoT Resource Allocation: An Evolutionary Approach ( http://arxiv.org/abs/2211.05372v1 )

ライセンス: Link先を確認
Jiashu Wu, Hao Dai, Yang Wang, Zhiying Tu(参考訳) 本稿では,IoTデバイスを時間制約のあるリソース要件を持つスマートサービスのためのリソースとして割り当てる。 BRADという名前のアロケーションメソッドは、Harbin Institute of Technology (HIT-IHC)が展開するインテリジェントヘルスケアシステムなど、リソースの多様さ、可用性、コストといった複数のリソースシナリオの下で動作することができる。 マルチスセナリオの場合、サービス満足度に関連する利益とコストは、共同で最適化され、賢明にバランスをとる。 さらに、IoTデバイスをデジタルオブジェクト(DO)として抽象化して、リソース割り当て時の操作を容易にする。 NP-Hardが問題であり、最適化対象が微分可能でないことを考慮し、モデルオプティマイザとしてGrey Wolf Optimisation (GWO)アルゴリズムを利用する。 具体的には,brad-gwaアルゴリズムを構成する3つの新しいメカニズムを導入することで,gwoの欠陥に対処し,その性能を大幅に向上させる。 現実的なHIT-IHC IoTテストベッド上で総合的な実験を行い、BRAD-GWAの有効性を検証するためにもともとHIT-IHCシステムで用いられたアロケーション手法など、いくつかのアルゴリズムを比較した。 BRAD-GWA は HIT-IHC と GWO のアルゴリズムと比較してそれぞれ 3.14 倍と 29.6% の客観的削減を実現している。

In this paper, we allocate IoT devices as resources for smart services with time-constrained resource requirements. The allocation method named as BRAD can work under multiple resource scenarios with diverse resource richnesses, availabilities and costs, such as the intelligent healthcare system deployed by Harbin Institute of Technology (HIT-IHC). The allocation aims for bimetric-balancing under the multi-scenario case, i.e., the profit and cost associated with service satisfaction are jointly optimised and balanced wisely. Besides, we abstract IoT devices as digital objects (DO) to make them easier to interact with during resource allocation. Considering that the problem is NP-Hard and the optimisation objective is not differentiable, we utilise Grey Wolf Optimisation (GWO) algorithm as the model optimiser. Specifically, we tackle the deficiencies of GWO and significantly improve its performance by introducing three new mechanisms to form the BRAD-GWA algorithm. Comprehensive experiments are conducted on realistic HIT-IHC IoT testbeds and several algorithms are compared, including the allocation method originally used by HIT-IHC system to verify the effectiveness of the BRAD-GWA. The BRAD-GWA achieves a 3.14 times and 29.6% objective reduction compared with the HIT-IHC and the original GWO algorithm, respectively.
翻訳日:2022-11-11 15:14:00 公開日:2022-11-10
# 進化アルゴリズム(movea)によるヒト脳の高分解能経頭蓋電気刺激の多目的最適化

Multi-objective optimization via evolutionary algorithm (MOVEA) for high-definition transcranial electrical stimulation of the human brain ( http://arxiv.org/abs/2211.05658v1 )

ライセンス: Link先を確認
Mo Wang, Kexin Lou, Zeming Liu, Pengfei Wei, Quanying Liu(参考訳) transcranial temporal interferencestimul (ttis) は、実験研究において深部脳構造を刺激するのに有効であると報告されている。 しかし、以前の手法は事前定義されたパラメータに依存し、追加の制約にはあまり適応しないため、ttis戦略を最適化し、脳へのttiの影響をシミュレートするための計算フレームワークはまだ不足している。 本稿では、tTISや経頭蓋交互電流刺激(tACS)を含む様々な刺激技術に対する非凸最適化問題の解法として、進化的アルゴリズム(MOVEA)による多目的最適化(MOVEA)を提案する。 2段構造で電極モンタージュを最適化することにより、MOVEAは追加の制約(例えば、電極の数、回避領域)と互換性を持ち、MOVEAはパレートフロントを得るために加速することができる。 これらのパレートフロントは、異なる要件の下で最適なソリューションのセットで構成されており、強度や焦点など、対立する目的の間のトレードオフ関係を示唆している。 MOVEAに基づいて,異なる深さのターゲットに対する強度,焦点,操作性の観点から,tACSとtTISの総合的な比較を行った。 その結果, tTISは, tTISの運動面積の最大強度は0.42V/m, tACSの0.51V/mと比較的低い値しか得られないが, 目標外における60%の活性化体積を減少させることにより, 焦点性の向上に寄与することが示唆された。 さらに, tACS と tTIS の8名に対して, ANOVA を施行した。 頭部モデルの違いにもかかわらず,tACSは強度が高く,tTISは焦点度が高いことが示唆された。 これらの知見は, tACSとtTISの選択の指針となり, tTISをベースとしたパーソナライズドニューロモディゲーションの可能性が示唆された。 コードはまもなくリリースされる。

Transcranial temporal interference stimulation (tTIS) has been reported to be effective in stimulating deep brain structures in experimental studies. However, a computational framework for optimizing the tTIS strategy and simulating the impact of tTIS on the brain is still lacking, as previous methods rely on predefined parameters and hardly adapt to additional constraints. Here, we propose a general framework, namely multi-objective optimization via evolutionary algorithm (MOVEA), to solve the nonconvex optimization problem for various stimulation techniques, including tTIS and transcranial alternating current stimulation (tACS). By optimizing the electrode montage in a two-stage structure, MOVEA can be compatible with additional constraints (e.g., the number of electrodes, additional avoidance regions), and MOVEA can accelerate to obtain the Pareto fronts. These Pareto fronts consist of a set of optimal solutions under different requirements, suggesting a trade-off relationship between conflicting objectives, such as intensity and focality. Based on MOVEA, we make comprehensive comparisons between tACS and tTIS in terms of intensity, focality and maneuverability for targets of different depths. Our results show that although the tTIS can only obtain a relatively low maximum achievable electric field strength, for example, the maximum intensity of motor area under tTIS is 0.42V /m, while 0.51V /m under tACS, it helps improve the focality by reducing 60% activated volume outside the target. We further perform ANOVA on the stimulation results of eight subjects with tACS and tTIS. Despite the individual differences in head models, our results suggest that tACS has a greater intensity and tTIS has a higher focality. These findings provide guidance on the choice between tACS and tTIS and indicate a great potential in tTIS-based personalized neuromodulation. Code will be released soon.
翻訳日:2022-11-11 15:13:36 公開日:2022-11-10
# FormLM: セマンティックおよび構造情報のモデリングによるオンラインフォーム作成のアイデアの再検討

FormLM: Recommending Creation Ideas for Online Forms by Modelling Semantic and Structural Information ( http://arxiv.org/abs/2211.05284v1 )

ライセンス: Link先を確認
Yijia Shao, Mengyu Zhou, Yifan Zhong, Tao Wu, Hongwei Han, Shi Han, Gideon Huang, Dongmei Zhang(参考訳) オンラインフォームは、人間のデータ収集に広く使われ、マルチビリオン市場を持つ。 多くのソフトウェア製品は、質問や説明が事前定義された構造によって構成される半構造化フォームを作成するためのオンラインサービスを提供する。 しかし、フォームの設計と作成プロセスはいまだに退屈で、専門家の知識が必要です。 フォームデザイナを支援するため,本研究では,オンラインフォーム(フォーム構造情報による事前学習言語モデルの拡張)をモデル化し,フォーム作成のアイデア(質問/オプション推奨やブロックタイプ提案を含む)を推奨する。 モデルのトレーニングと評価のために、我々は62kのオンラインフォームを持つ最初のパブリックオンラインフォームデータセットを収集する。 実験の結果, ROUGE-1 と Macro-F1 では, FormLM は全タスクにおいて汎用言語モデルよりも有意に優れ, 質問応答では 4.71 , ブロック型提案では 10.6 の改善が見られた。

Online forms are widely used to collect data from human and have a multi-billion market. Many software products provide online services for creating semi-structured forms where questions and descriptions are organized by pre-defined structures. However, the design and creation process of forms is still tedious and requires expert knowledge. To assist form designers, in this work we present FormLM to model online forms (by enhancing pre-trained language model with form structural information) and recommend form creation ideas (including question / options recommendations and block type suggestion). For model training and evaluation, we collect the first public online form dataset with 62K online forms. Experiment results show that FormLM significantly outperforms general-purpose language models on all tasks, with an improvement by 4.71 on Question Recommendation and 10.6 on Block Type Suggestion in terms of ROUGE-1 and Macro-F1, respectively.
翻訳日:2022-11-11 15:06:08 公開日:2022-11-10
# 単なるテキストではない! 明示的構文再構成と置換モデルによる燃料ドキュメンテーション-レベル関係抽出

Not Just Plain Text! Fuel Document-Level Relation Extraction with Explicit Syntax Refinement and Subsentence Modeling ( http://arxiv.org/abs/2211.05343v1 )

ライセンス: Link先を確認
Zhichao Duan, Xiuxing Li, Zhenyu Li, Zhuo Wang, Jianyong Wang(参考訳) ドキュメントレベルの関係抽出(DocRE)は、単一のドキュメント内でエンティティ間の意味ラベルを識別することを目的としている。 DocREの大きな課題のひとつは、長いテキストから特定のエンティティペアに関する決定的な詳細を掘り下げることである。 しかし多くの場合、証拠を手動でラベル付けした場合でも、必要な情報を持っているテキストはごくわずかである。 インストラクティブ情報をよりよく捉え,活用するために, expLicit syntAx Refinement and Subsentence mOdeliNg based framework (LARSON)を提案する。 余分な構文情報を導入することで、LARSONは任意の粒度のサブ文をモデル化し、効果的なインストラクティブを表示できる。 さらに,テキスト表現に洗練された構文を取り入れ,larsonの性能をさらに向上させた。 3つのベンチマークデータセット(DocRED、CDR、GDA)の実験結果から、LARSONは既存の手法よりも大幅に優れていることが示された。

Document-level relation extraction (DocRE) aims to identify semantic labels among entities within a single document. One major challenge of DocRE is to dig decisive details regarding a specific entity pair from long text. However, in many cases, only a fraction of text carries required information, even in the manually labeled supporting evidence. To better capture and exploit instructive information, we propose a novel expLicit syntAx Refinement and Subsentence mOdeliNg based framework (LARSON). By introducing extra syntactic information, LARSON can model subsentences of arbitrary granularity and efficiently screen instructive ones. Moreover, we incorporate refined syntax into text representations which further improves the performance of LARSON. Experimental results on three benchmark datasets (DocRED, CDR, and GDA) demonstrate that LARSON significantly outperforms existing methods.
翻訳日:2022-11-11 15:05:49 公開日:2022-11-10
# MSDT: テキストドメインの防御をマスクした言語モデル

MSDT: Masked Language Model Scoring Defense in Text Domain ( http://arxiv.org/abs/2211.05371v1 )

ライセンス: Link先を確認
Jaechul Roh, Minhao Cheng, Yajun Fang(参考訳) 事前学習された言語モデルは、微調整の助けを借りて下流のタスクを処理できるため、様々な自然言語処理(nlp)タスクにおいてかなり高い精度を達成することができる。 様々なウェブサイトから簡単にダウンロードされた言語モデルは、公共のユーザーやいくつかの主要な機関に、彼らの実際の応用に勢いを与える権限を与えた。 しかし、最近は、モデルが悪意のあるユーザによるトリガーインサートされた毒付きデータセットでバックドア攻撃を受けると、非常に脆弱になることが証明された。 攻撃者は被害者のモデルを再配布し、他のユーザーを惹きつけ、トレーニングサンプル内で特定のトリガーが検出された場合、モデルが誤分類される傾向があります。 本稿では,MSDTというテキストバックドア防御手法を新たに導入し,既存の防御アルゴリズムを特定のデータセットで上回る性能を示す。 本手法は,テキスト領域におけるバックドア攻撃に対して効果的かつ構成的に防御できることを示す。 コードはhttps://github.com/jcroh0508/MSDTで入手できる。

Pre-trained language models allowed us to process downstream tasks with the help of fine-tuning, which aids the model to achieve fairly high accuracy in various Natural Language Processing (NLP) tasks. Such easily-downloaded language models from various websites empowered the public users as well as some major institutions to give a momentum to their real-life application. However, it was recently proven that models become extremely vulnerable when they are backdoor attacked with trigger-inserted poisoned datasets by malicious users. The attackers then redistribute the victim models to the public to attract other users to use them, where the models tend to misclassify when certain triggers are detected within the training sample. In this paper, we will introduce a novel improved textual backdoor defense method, named MSDT, that outperforms the current existing defensive algorithms in specific datasets. The experimental results illustrate that our method can be effective and constructive in terms of defending against backdoor attack in text domain. Code is available at https://github.com/jcroh0508/MSDT.
翻訳日:2022-11-11 15:05:29 公開日:2022-11-10
# EvEntS ReaLM:言語モデルによるエンティティステートのイベント推論

EvEntS ReaLM: Event Reasoning of Entity States via Language Models ( http://arxiv.org/abs/2211.05392v1 )

ライセンス: Link先を確認
Evangelia Spiliopoulou, Artidoro Pagnoni, Yonatan Bisk, Eduard Hovy(参考訳) 本稿では,イベントインプレッションのモデルについて検討する。 具体的には、物理的属性の理解をターゲットとして、モデルがエンティティの状態変化を予測する方法です。 名目上は、大規模言語モデル(llm)はオブジェクトの相互作用に関する手続き的知識にさらされていますが、私たちのベンチマークでは、世界について理解できないことが分かっています。 逆に,既存の手法では,不適切なタスクエンコーディングによってLCMの驚くべき能力が誤って表現されることがしばしばあり,適切なモデルプロンプトにより,複数のタスクにまたがって報告されたベースライン結果の性能が劇的に向上することを示した。 特に,提案手法は,未発見の属性(ドメイン外)や限られたデータしか利用できない場合,特に有用であることが示唆された。

This paper investigates models of event implications. Specifically, how well models predict entity state-changes, by targeting their understanding of physical attributes. Nominally, Large Language models (LLM) have been exposed to procedural knowledge about how objects interact, yet our benchmarking shows they fail to reason about the world. Conversely, we also demonstrate that existing approaches often misrepresent the surprising abilities of LLMs via improper task encodings and that proper model prompting can dramatically improve performance of reported baseline results across multiple tasks. In particular, our results indicate that our prompting technique is especially useful for unseen attributes (out-of-domain) or when only limited data is available.
翻訳日:2022-11-11 15:05:10 公開日:2022-11-10
# ADEPT: Debiasing PrompTフレームワーク

ADEPT: A DEbiasing PrompT Framework ( http://arxiv.org/abs/2211.05414v1 )

ライセンス: Link先を確認
Ke Yang, Charles Yu, Yi Fung, Manling Li, Heng Ji(参考訳) いくつかの研究は、微調整が文脈化された単語の埋め込みを損なうアプローチであることを示した。 同様に、意味的意味を持つ離散的なプロンプトは、デバイアスタスクに有効であることが示されている。 トークンレベルでの未修正の数学的表現では、連続的なプロンプトは通常、タスク固有の情報を含む事前訓練された言語モデル(plm)を提供することで離散的なプロンプトを超える。 それにもかかわらず、PLMを個別のプロンプトと比較して、連続的なプロンプトによる迅速なチューニングによってデバイアス化するための取り組みは比較的少ない。 さらに、PLMの元のパラメータを変更するほとんどのデバイアス法では、主要な問題は、PLMのバイアスを減らすだけでなく、PLMが表現能力を失うことがないことを保証する必要があることである。 微調整法は通常、属性語の意味を激しく取り除く傾向があるため、このバランスを維持するのに苦労している。 本稿では,PLMのバイアス除去と表現能力の確保の微妙なバランスを保ちながら,即時チューニングを用いた debias PLMのデバイアス化手法であるADEPTを提案する。 そこで,本稿では,多様体学習に着想を得た新しい学習基準を提案し,それを明示的なデバイアス項で満たし,プロンプトチューニングを最適化する。 さらに, 従来提案されていた属性学習コーパスの信頼性, 品質, 量に関して, 属性の位置, 相対距離を示す属性のより明確なプロトタイプを得るために, 提案した属性学習コーパスの信頼性, 品質, 量に関する実験を行った。 我々は,いくつかの広く認識されているデバイアスベンチマークとダウンストリームタスクについて評価し,plmの表現能力を維持(あるいは改善)しながら,競争力のある結果が得られることを発見した。 さらに, PLMの劣化前後における単語の相関関係を可視化し, 可視効果についていくつかの説明を行う。

Several works have proven that finetuning is an applicable approach for debiasing contextualized word embeddings. Similarly, discrete prompts with semantic meanings have shown to be effective in debiasing tasks. With unfixed mathematical representation at the token level, continuous prompts usually surpass discrete ones at providing a pre-trained language model (PLM) with additional task-specific information. Despite this, relatively few efforts have been made to debias PLMs by prompt tuning with continuous prompts compared to its discrete counterpart. Furthermore, for most debiasing methods that alter a PLM's original parameters, a major problem is the need to not only decrease the bias in the PLM but also to ensure that the PLM does not lose its representation ability. Finetuning methods typically have a hard time maintaining this balance, as they tend to violently remove meanings of attribute words. In this paper, we propose ADEPT, a method to debias PLMs using prompt tuning while maintaining the delicate balance between removing biases and ensuring representation ability. To achieve this, we propose a new training criterion inspired by manifold learning and equip it with an explicit debiasing term to optimize prompt tuning. In addition, we conduct several experiments with regard to the reliability, quality, and quantity of a previously proposed attribute training corpus in order to obtain a clearer prototype of a certain attribute, which indicates the attribute's position and relative distances to other words on the manifold. We evaluate ADEPT on several widely acknowledged debiasing benchmarks and downstream tasks, and find that it achieves competitive results while maintaining (and in some cases even improving) the PLM's representation ability. We further visualize words' correlation before and after debiasing a PLM, and give some possible explanations for the visible effects.
翻訳日:2022-11-11 15:04:56 公開日:2022-11-10
# テキスト分類の人間中心的説明可能性ベンチマークに向けて

Towards Human-Centred Explainability Benchmarks For Text Classification ( http://arxiv.org/abs/2211.05452v1 )

ライセンス: Link先を確認
Viktor Schlegel, Erick Mendez-Guzman and Riza Batista-Navarro(参考訳) テキスト分類のような多くの自然言語処理(nlp)タスクの進歩は、公開ベンチマークによる客観的、再現可能、スケーラブルな評価によって駆動される。 しかし、感情分析や誤情報検出など、テキスト分類器が使用される現実世界のシナリオを常に代表しているとは限らない。 本稿では,この問題を軽減するための2つのポイントを提示する。 まず,テキスト分類器の説明可能性を評価するために,テキスト分類ベンチマークの拡張を提案する。 私たちは、ソーシャルメディア、ゲーミフィケーション、そして人間の判断から説明可能性メトリクスを学ぶことによって、これらのベンチマークを人間中心のアプリケーションで基礎付けることを提案します。

Progress on many Natural Language Processing (NLP) tasks, such as text classification, is driven by objective, reproducible and scalable evaluation via publicly available benchmarks. However, these are not always representative of real-world scenarios where text classifiers are employed, such as sentiment analysis or misinformation detection. In this position paper, we put forward two points that aim to alleviate this problem. First, we propose to extend text classification benchmarks to evaluate the explainability of text classifiers. We review challenges associated with objectively evaluating the capabilities to produce valid explanations which leads us to the second main point: We propose to ground these benchmarks in human-centred applications, for example by using social media, gamification or to learn explainability metrics from human judgements.
翻訳日:2022-11-11 15:04:25 公開日:2022-11-10
# 集約型入力サリエンスを用いたテキスト分類データとモデル理解

Understanding Text Classification Data and Models Using Aggregated Input Salience ( http://arxiv.org/abs/2211.05485v1 )

ライセンス: Link先を確認
Sebastian Ebert, Alice Shoshana Jakobovits, Katja Filippova(参考訳) モデルが間違った理由で正しいと認識することは自明ではなく、モデル開発者による多大な努力を必要とする。 場合によっては、入力の最も重要な部分を強調する入力サリエンス法が問題となる可能性がある。 しかし、多くのデータインスタンスに対するハイライトの精査は退屈で、しばしば実現不可能である。 さらに,サンプルを分離して分析することは,データやモデルの動作における一般的なパターンを明らかにしない。この記事では,これらの問題に対処し,一例の理解からデータセットやモデル全体を理解することを目的としている。 提案手法は,集計されたサリエンスマップに基づく。 この方法論を用いることで、複数の異なるが一般的なモデル開発者のニーズに対処し、問題のあるデータとモデルの振る舞いをいかに特定できるかを示す。

Realizing when a model is right for a wrong reason is not trivial and requires a significant effort by model developers. In some cases, an input salience method, which highlights the most important parts of the input, may reveal problematic reasoning. But scrutinizing highlights over many data instances is tedious and often infeasible. Furthermore, analyzing examples in isolation does not reveal general patterns in the data or in the model's behavior.In this paper we aim to address these issues and go from understanding single examples to understanding entire datasets and models. The methodology we propose is based on aggregated salience maps. Using this methodology we address multiple distinct but common model developer needs by showing how problematic data and model behavior can be identified -- a necessary first step for improving the model.
翻訳日:2022-11-11 15:04:12 公開日:2022-11-10
# MoNET: 対話状態追跡のためのノイズ強化トレーニングによるタックル状態モメンタム

MoNET: Tackle State Momentum via Noise-Enhanced Training for Dialogue State Tracking ( http://arxiv.org/abs/2211.05503v1 )

ライセンス: Link先を確認
Haoning Zhang, Junwei Bao, Haipeng Sun, Youzheng Wu, Wenye Li, Shuguang Cui, Xiaodong He(参考訳) 対話状態追跡(DST)は、対話履歴をスロット値ペアからなる対話状態に変換することを目的としている。 全ての履歴情報を記憶する複合構造情報として、dstモデルによる現在の状態を予測する入力として、最後の順番の対話状態が典型的に採用される。 しかし, このモデルでは, 予測されたスロット値が変化せず, 状態モーメントとして定義される傾向がみられた。 具体的には、モデルが変更が必要なスロット値の更新に苦労し、最後のターンで間違った予測スロット値を修正します。 この目的のために,ノイズ強化トレーニングにより状態運動量に対処するMoNETを提案する。 まず、トレーニングデータの各ターンの前の状態は、スロット値の一部を置き換えることでノイズが発生する。 そして、ノイズの多い前の状態を入力として使用して、現在の状態を予測し、モデルがスロット値を更新して修正する能力を改善する。 さらに、コントラスト的コンテキストマッチングフレームワークは、状態とそれに対応する雑音変動との表現距離を狭め、ノイズ状態の影響を低減し、モデルに対話履歴をよりよく理解させるように設計されている。 MultiWOZデータセットの実験結果は、MoNETが従来のDSTメソッドより優れていることを示している。 アブレーションと解析は、状態運動量軽減と反雑音能力向上におけるmonetの有効性を検証する。

Dialogue state tracking (DST) aims to convert the dialogue history into dialogue states which consist of slot-value pairs. As condensed structural information memorizing all history information, the dialogue state in the last turn is typically adopted as the input for predicting the current state by DST models. However, these models tend to keep the predicted slot values unchanged, which is defined as state momentum in this paper. Specifically, the models struggle to update slot values that need to be changed and correct wrongly predicted slot values in the last turn. To this end, we propose MoNET to tackle state momentum via noise-enhanced training. First, the previous state of each turn in the training data is noised via replacing some of its slot values. Then, the noised previous state is used as the input to learn to predict the current state, improving the model's ability to update and correct slot values. Furthermore, a contrastive context matching framework is designed to narrow the representation distance between a state and its corresponding noised variant, which reduces the impact of noised state and makes the model better understand the dialogue history. Experimental results on MultiWOZ datasets show that MoNET outperforms previous DST methods. Ablations and analysis verify the effectiveness of MoNET in alleviating state momentum and improving anti-noise ability.
翻訳日:2022-11-11 15:03:59 公開日:2022-11-10
# テキストの包括的表記法

An Inclusive Notion of Text ( http://arxiv.org/abs/2211.05604v1 )

ライセンス: Link先を確認
Ilia Kuznetsov, Iryna Gurevych(参考訳) 自然言語処理の研究者は、文章に基づく文法、意味、コミュニケーションのモデルを開発する。 タスクとデータの違いにより、テキストと見なされるものは研究によって大きく異なる。 これらの違いを体系的に捉えるための概念的な枠組みが欠けている。 テキストの概念の明確さは再現可能で一般化可能なNLPにとって不可欠である。 その目的に向けて,テキストデータの生成と変換を議論する共通用語を提案し,NLPモデリングで使用可能な言語的および非言語的要素の2階層分類を導入した。 この分類法を用いて、保守的な言語中心の視点を超えてテキストの概念を拡張する既存の研究を調査する。 我々は,NLPにおけるテキストへの包括的アプローチの鍵となるデシラタと課題を概説し,議論を統合する上で重要な次のステップとして,体系的なコミュニティレベルの報告を提案する。

Natural language processing researchers develop models of grammar, meaning and human communication based on written text. Due to task and data differences, what is considered text can vary substantially across studies. A conceptual framework for systematically capturing these differences is lacking. We argue that clarity on the notion of text is crucial for reproducible and generalizable NLP. Towards that goal, we propose common terminology to discuss the production and transformation of textual data, and introduce a two-tier taxonomy of linguistic and non-linguistic elements that are available in textual sources and can be used in NLP modeling. We apply this taxonomy to survey existing work that extends the notion of text beyond the conservative language-centered view. We outline key desiderata and challenges of the emerging inclusive approach to text in NLP, and suggest systematic community-level reporting as a crucial next step to consolidate the discussion.
翻訳日:2022-11-11 15:03:38 公開日:2022-11-10
# シャープネス認識最小化はシャープネスを最小化するか?

How Does Sharpness-Aware Minimization Minimize Sharpness? ( http://arxiv.org/abs/2211.05729v1 )

ライセンス: Link先を確認
Kaiyue Wen, Tengyu Ma, Zhiyuan Li(参考訳) シャープネス・アウェアの最小化(SAM)は、様々な設定のためのディープニューラルネットワークの一般化を改善するための非常に効果的な正規化手法である。 しかし、SAMの基盤となる作用は、理論的な特性に様々な興味深い近似があるため、いまだ解明されていない。 SAMはモデルのシャープネスの概念をペナルティ化しようとしているが、計算的に効率的な変種を実装しており、さらに3番目のシャープネスの概念は一般化の保証を証明するために使われた。 鋭さという概念の微妙な違いは、確かに明らかに異なる経験結果をもたらす。 本稿では、SAMが基礎となるメカニズムを規則化し、明確化するという正確なシャープネスの概念を厳格に説明する。 また,SAMの元々の動機付けにおける2段階の近似は,局所的な結論が不正確であることを示すが,それらの組み合わせは,フルバッチ勾配を適用した場合に誤って正しい効果を示す。 さらに、SAMの確率的なバージョンは、上述したシャープネスの第三の概念を実際に正則化していることも証明する。 この興味深い現象の背後にある重要なメカニズムは、SAMが適用されるときの勾配とヘッセンの頂点固有ベクトルのアライメントである。

Sharpness-Aware Minimization (SAM) is a highly effective regularization technique for improving the generalization of deep neural networks for various settings. However, the underlying working of SAM remains elusive because of various intriguing approximations in the theoretical characterizations. SAM intends to penalize a notion of sharpness of the model but implements a computationally efficient variant; moreover, a third notion of sharpness was used for proving generalization guarantees. The subtle differences in these notions of sharpness can indeed lead to significantly different empirical results. This paper rigorously nails down the exact sharpness notion that SAM regularizes and clarifies the underlying mechanism. We also show that the two steps of approximations in the original motivation of SAM individually lead to inaccurate local conclusions, but their combination accidentally reveals the correct effect, when full-batch gradients are applied. Furthermore, we also prove that the stochastic version of SAM in fact regularizes the third notion of sharpness mentioned above, which is most likely to be the preferred notion for practical performance. The key mechanism behind this intriguing phenomenon is the alignment between the gradient and the top eigenvector of Hessian when SAM is applied.
翻訳日:2022-11-11 14:57:40 公開日:2022-11-10
# 超不均衡入力データにおけるセマンティックセグメンテーションのための高調波出力不均衡

Harmonizing Output Imbalance for semantic segmentation on extremely-imbalanced input data ( http://arxiv.org/abs/2211.05295v1 )

ライセンス: Link先を確認
Jianye Yi, Xiaopin Zhong, Weixiang Liu, Zongze Wu and Yuanlong Deng(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、画像の各ピクセルにラベルを割り当てる高レベルのコンピュータビジョンタスクである。 背景画素に対するターゲットixelの比率が1:1000未満の極めて不均衡なデータを扱うのは困難である。 このような入力の不均衡は、貧弱なモデルトレーニングの出力不均衡につながる。 This paper considers three issues for extremely-imbalanced data: inspired by the region based loss, an implicit measure for the output imbalance is proposed, and an adaptive algorithm is designed for guiding the output imbalance hyperparameter selection; then it is generalized to distribution based loss for dealing with output imbalance; and finally a compound loss with our adaptive hyperparameter selection alogorithm can keep the consistency of training and inference for harmonizing the output imbalance. 3つの入力不均衡スケールと3つの公開データセットを持つプライベートデータセットに4つの人気のディープアーキテクチャを組み込むことで、提案手法の有効性を実証した。

Semantic segmentation is a high level computer vision task that assigns a label for each pixel of an image. It is challengeful to deal with extremely-imbalanced data in which the ratio of target ixels to background pixels is lower than 1:1000. Such severe input imbalance leads to output imbalance for poor model training. This paper considers three issues for extremely-imbalanced data: inspired by the region based loss, an implicit measure for the output imbalance is proposed, and an adaptive algorithm is designed for guiding the output imbalance hyperparameter selection; then it is generalized to distribution based loss for dealing with output imbalance; and finally a compound loss with our adaptive hyperparameter selection alogorithm can keep the consistency of training and inference for harmonizing the output imbalance. With four popular deep architectures on our private dataset with three input imbalance scales and three public datasets, extensive experiments demonstrate the ompetitive/promising performance of the proposed method.
翻訳日:2022-11-11 14:57:21 公開日:2022-11-10
# 頭頸部癌の予後予測のための放射線誘発深層マルチタスク学習

Radiomics-enhanced Deep Multi-task Learning for Outcome Prediction in Head and Neck Cancer ( http://arxiv.org/abs/2211.05409v1 )

ライセンス: Link先を確認
Mingyuan Meng, Lei Bi, Dagan Feng, and Jinman Kim(参考訳) 早期治療計画のための予後情報を提供するため、頭頸部癌患者にはアウトカム予測が不可欠である。 放射線検査法は医用画像からの成果予測に広く用いられている。 しかし, これらの手法は, 難治性手技による腫瘍領域分割に依存している。 近年,手動セグメンテーションへの依存を取り除くために,エンドツーエンドの結果予測を行うディープラーニング手法が提案されている。 残念ながら、セグメンテーションマスクがなければ、これらの方法は画像全体を入力として、腫瘍領域に集中することが難しくなり、腫瘍領域内の予後情報を完全に活用できない可能性がある。 本研究では,PET/CT画像から結果を予測するための放射能を増強したディープマルチタスク・フレームワークについて,HECKTOR 2022(Head and neCK Tumor segmentation and outcome prediction Challenge)の文脈で提案する。 我々の枠組みでは、最近提案したDeep Multi-task Survival Model (DeepMTS) の強化として放射能を取り入れることが特徴である。 DeepMTSは、患者の生存リスクスコアと腫瘍領域のセグメンテーションマスクを共同で予測することを学ぶ。 予測された腫瘍領域から放射線の特徴を抽出し、最終結果予測のための予測生存リスクスコアと組み合わせ、腫瘍領域の予後情報をさらに活用することができる。 テストセットではCインデックス0.681を達成し,第2位は第1位よりCインデックス0.00068低いリーダボードに配置した。

Outcome prediction is crucial for head and neck cancer patients as it can provide prognostic information for early treatment planning. Radiomics methods have been widely used for outcome prediction from medical images. However, these methods are limited by their reliance on intractable manual segmentation of tumor regions. Recently, deep learning methods have been proposed to perform end-to-end outcome prediction so as to remove the reliance on manual segmentation. Unfortunately, without segmentation masks, these methods will take the whole image as input, such that makes them difficult to focus on tumor regions and potentially unable to fully leverage the prognostic information within the tumor regions. In this study, we propose a radiomics-enhanced deep multi-task framework for outcome prediction from PET/CT images, in the context of HEad and neCK TumOR segmentation and outcome prediction challenge (HECKTOR 2022). In our framework, our novelty is to incorporate radiomics as an enhancement to our recently proposed Deep Multi-task Survival model (DeepMTS). The DeepMTS jointly learns to predict the survival risk scores of patients and the segmentation masks of tumor regions. Radiomics features are extracted from the predicted tumor regions and combined with the predicted survival risk scores for final outcome prediction, through which the prognostic information in tumor regions can be further leveraged. Our method achieved a C-index of 0.681 on the testing set, placing the 2nd on the leaderboard with only 0.00068 lower in C-index than the 1st place.
翻訳日:2022-11-11 14:57:05 公開日:2022-11-10
# 医用画像セグメンテーションにおける不確実性に基づく分布外検出の改善

Improving Uncertainty-based Out-of-Distribution Detection for Medical Image Segmentation ( http://arxiv.org/abs/2211.05421v1 )

ライセンス: Link先を確認
Benjamin Lambert, Florence Forbes, Senan Doyle, Alan Tucholka and Michel Dojat(参考訳) ディープラーニングモデルは、トレーニング中に見られなかった入力画像のバリエーションによって容易に妨げられ、予測不可能な振る舞いをもたらす。 このようなアウト・オブ・ディストリビューション(ood:out-of-distribution)イメージは、アーティファクト、未発見の病理、異なるイメージングプロトコルなど、可能な異常の範囲が極めて広い医療画像解析の文脈において重要な課題である。 本研究では,多発性硬化症病変のセグメンテーションの文脈でOOD入力を検出するための様々な不確実性フレームワークを評価する。 様々な性質と強度のood源14種を含む包括的評価手法を実装した結果,2値セグメンテーションモデルの予測的不確実性に依存する手法では,外部からの入力検出に失敗することが多いことがわかった。 それとは対照的に、解剖学的ラベルと病変のセグメンテーションの学習は、OOD入力を検出する能力を大幅に向上させる。

Deep Learning models are easily disturbed by variations in the input images that were not seen during training, resulting in unpredictable behaviours. Such Out-of-Distribution (OOD) images represent a significant challenge in the context of medical image analysis, where the range of possible abnormalities is extremely wide, including artifacts, unseen pathologies, or different imaging protocols. In this work, we evaluate various uncertainty frameworks to detect OOD inputs in the context of Multiple Sclerosis lesions segmentation. By implementing a comprehensive evaluation scheme including 14 sources of OOD of various nature and strength, we show that methods relying on the predictive uncertainty of binary segmentation models often fails in detecting outlying inputs. On the contrary, learning to segment anatomical labels alongside lesions highly improves the ability to detect OOD inputs.
翻訳日:2022-11-11 14:56:38 公開日:2022-11-10
# サブスペーストレーニングによるロバスト連合学習のためのサーバサイドアグリゲーションの最適化

Optimizing Server-side Aggregation For Robust Federated Learning via Subspace Training ( http://arxiv.org/abs/2211.05554v1 )

ライセンス: Link先を確認
Yueqi Xie, Weizhong Zhang, Renjie Pi, Fangzhao Wu, Qifeng Chen, Xing Xie, Sunghun Kim(参考訳) クライアント間の非IIDデータ分散と中毒攻撃は、現実世界のフェデレーション学習システムにおける2つの大きな課題である。 これら2つは、特定の戦略が開発されて大きな研究の関心を集めているが、既知のソリューションが統一されたフレームワークでそれらに対処することはない。 両者の課題を協調的に克服するため,我々は,サブスペーストレーニング手法を用いて,サーバサイドアグリゲーションプロセスを小さくクリーンなサーバ集約型プロキシデータセット(約100サンプル,約0.2%のデータセット)で最適化する汎用的アプローチであるsmartflを提案する。 具体的には,各ラウンドにおける各クライアントの集約重みを,クライアントモデルに分散した凸内包のグローバルモデルの最適化であるサーバコンパイルプロキシデータを用いて最適化する。 各ラウンドにおいて、サーバ側で最適化されたチューニング可能なパラメータの数は、参加するクライアント数(モデルサイズに依存しない)に等しいため、少量のプロキシデータを使用して、巨大なパラメータを持つグローバルモデルをトレーニングすることができる。 我々はsmartflの収束と一般化能力に関する理論的解析を行う。 SmartFLは、非IIDデータ分散によるフェデレーション学習と、悪意のあるクライアントによるフェデレーション学習の両方において、最先端のパフォーマンスを実現する。 ソースコードはリリースされます。

Non-IID data distribution across clients and poisoning attacks are two main challenges in real-world federated learning systems. While both of them have attracted great research interest with specific strategies developed, no known solution manages to address them in a unified framework. To jointly overcome both challenges, we propose SmartFL, a generic approach that optimizes the server-side aggregation process with a small clean server-collected proxy dataset (e.g., around one hundred samples, 0.2% of the dataset) via a subspace training technique. Specifically, the aggregation weight of each participating client at each round is optimized using the server-collected proxy data, which is essentially the optimization of the global model in the convex hull spanned by client models. Since at each round, the number of tunable parameters optimized on the server side equals the number of participating clients (thus independent of the model size), we are able to train a global model with massive parameters using only a small amount of proxy data. We provide theoretical analyses of the convergence and generalization capacity for SmartFL. Empirically, SmartFL achieves state-of-the-art performance on both federated learning with non-IID data distribution and federated learning with malicious clients. The source code will be released.
翻訳日:2022-11-11 14:56:20 公開日:2022-11-10
# 2次元投影による3次元MRIボリュームからの脳年齢予測

Efficient brain age prediction from 3D MRI volumes using 2D projections ( http://arxiv.org/abs/2211.05762v1 )

ライセンス: Link先を確認
Johan J\"onemo, Muhammad Usman Akbar, Robin K\"ampe, J Paul Hamilton, Anders Eklund(参考訳) 高解像度医療ボリュームで3d cnnを使用することは、特に英国バイオバンクのような10万の被験者をスキャンする大規模データセットにおいて、計算上非常に要求される。 そこで本研究では,脳体積から年齢を推定する場合,2次元投影(軸,矢状,コロナスライス間の平均偏差と標準偏差)に2次元cnnを用いることで妥当な検査精度が得られることを示す。 このアプローチを用いることで、20,324人の被験者による1つのトレーニングエポックは、1つのGPUで40~70秒かかり、小さな3D CNNの約100倍高速になる。 これらの結果は、3d cnnの高価なgpuハードウェアにアクセスできない研究者にとって重要である。

Using 3D CNNs on high resolution medical volumes is very computationally demanding, especially for large datasets like the UK Biobank which aims to scan 100,000 subjects. Here we demonstrate that using 2D CNNs on a few 2D projections (representing mean and standard deviation across axial, sagittal and coronal slices) of the 3D volumes leads to reasonable test accuracy when predicting the age from brain volumes. Using our approach, one training epoch with 20,324 subjects takes 40 - 70 seconds using a single GPU, which is almost 100 times faster compared to a small 3D CNN. These results are important for researchers who do not have access to expensive GPU hardware for 3D CNNs.
翻訳日:2022-11-11 14:55:56 公開日:2022-11-10
# 量子パワーの流れ:理論から実践へ

Quantum Power Flows: From Theory to Practice ( http://arxiv.org/abs/2211.05728v1 )

ライセンス: Link先を確認
Junyu Liu, Han Zheng, Masanori Hanada, Kanav Setia, Dan Wu(参考訳) 気候変動は現代社会の持続可能な発展に最も大きな課題となっている。 低密度の再生可能エネルギーは、現代の高度な計算技術、特に量子コンピューティングが役立つオンライン最適化と制御プロセスを大幅に複雑にする。 本稿では,現状のスマートグリッド問題に対する量子コンピューティングアルゴリズムの適用について論じる。 パワーフロー問題におけるスパース行列逆転に対するハロー・ハシジン・ロイド(HHL)アルゴリズムを用いることにより,ポテンシャル,指数的量子スピードアップを提案する。 しかし、実際の実装は量子回路のノイズ、量子ランダムアクセスメモリ(QRAM)の実現の難しさ、必要な量子回路の深さによって制限されている。 我々は,ハイブリッドフォノン・トランスモンシステムからのQRAM要求や,明示的な実現のためにHHLで使用される明示的なゲートカウントなど,最先端のパワーフローアルゴリズムのハードウェアおよびソフトウェア要件をベンチマークする。 また,変動量子回路によるパワーフローの短期的アルゴリズムを開発し,停止型パワーフローを用いた6量子ビットの実実験を行う。

Climate change is becoming one of the greatest challenges to the sustainable development of modern society. Renewable energies with low density greatly complicate the online optimization and control processes, where modern advanced computational technologies, specifically quantum computing, have significant potential to help. In this paper, we discuss applications of quantum computing algorithms toward state-of-the-art smart grid problems. We suggest potential, exponential quantum speedup by the use of the Harrow-Hassidim-Lloyd (HHL) algorithms for sparse matrix inversions in power-flow problems. However, practical implementations of the algorithm are limited by the noise of quantum circuits, the hardness of realizations of quantum random access memories (QRAM), and the depth of the required quantum circuits. We benchmark the hardware and software requirements from the state-of-the-art power-flow algorithms, including QRAM requirements from hybrid phonon-transmon systems, and explicit gate counting used in HHL for explicit realizations. We also develop near-term algorithms of power flow by variational quantum circuits and implement real experiments for 6 qubits with a truncated version of power flows.
翻訳日:2022-11-11 14:55:31 公開日:2022-11-10
# 閉ループ操作データから因果定常モデルを学ぶための調整公式

Adjustment formulas for learning causal steady-state models from closed-loop operational data ( http://arxiv.org/abs/2211.05613v1 )

ライセンス: Link先を確認
Kristian L{\o}vland, Bjarne Grimstad, Lars Struen Imsland(参考訳) 歴史的運用データから学習された定常モデルは、制御によって導入されたトレーニングデータの相関が考慮されない限り、モデルベースの最適化には適さない。 構造力学因果モデルに関する最近の研究結果を用いて, 閉ループ定常状態データから因果定常状態モデルの推定を可能にする制御共起の調整式を導出した。 この公式は、利用可能なデータが一定の制御法の下で収集されたと仮定する。 コントローラが対処しようとしている障害を推定して考慮し、フィードフォワードとフィードバックコントロールの両方で収集されたデータから学習することができる。

Steady-state models which have been learned from historical operational data may be unfit for model-based optimization unless correlations in the training data which are introduced by control are accounted for. Using recent results from work on structural dynamical causal models, we derive a formula for adjusting for this control confounding, enabling the estimation of a causal steady-state model from closed-loop steady-state data. The formula assumes that the available data have been gathered under some fixed control law. It works by estimating and taking into account the disturbance which the controller is trying to counteract, and enables learning from data gathered under both feedforward and feedback control.
翻訳日:2022-11-11 14:55:14 公開日:2022-11-10
# 知識グラフ埋め込みと言語モデルを用いたバイオメディカルマルチホップ質問応答

Biomedical Multi-hop Question Answering Using Knowledge Graph Embeddings and Language Models ( http://arxiv.org/abs/2211.05351v1 )

ライセンス: Link先を確認
Dattaraj J. Rao, Shraddha S. Mane, Mukta A. Paliwal(参考訳) バイオメディカルナレッジグラフ(英: Biomedical knowledge graph, KG)は、ノードとしての生物学的実体とエッジとしてのそれらの関係からなる異種ネットワークである。 これらの実体と関係は何百万もの研究論文から抽出され、単一の資源に統合される。 バイオメディカル・マルチホップによる知識グラフ(KGQA)の目標は、生物学者や科学者が自然言語で質問することで貴重な洞察を得ることである。 関連する回答は、まず質問を理解して、その答えに到達するノードとリレーションシップの適切なセットについてkgに問い合わせることによって見つけることができる。 この問題をモデル化するために、RoBERTaやBioBERTといった言語モデルを用いて、自然言語の問題からコンテキストを理解する。 KGQAの課題の1つは、KGにリンクがないことである。 知識グラフ埋め込み(KGE)は、ノードとエッジをより密で効率的な方法で符号化することで、この問題を克服するのに役立つ。 本稿では,29種類の遺伝子,化合物,疾患などのデータベースから構築した,生物医学的知識の統合ネットワークであるhetionetという一般向けkgを用いた。 我々は,生物医学的マルチホップ質問応答システムをテストするために,自然言語でマルチホップ質問応答データセットを作成することにより,このkgデータセットを強化し,このデータセットを研究コミュニティに提供する。 この研究の主な貢献は、言語モデルとKG埋め込みを組み合わせた統合システムであり、生物学者が直感的なインタフェースで質問した自由形式の質問に非常に関連性の高い回答を与える。 このデータに基づいて生体医学的マルチホップ質問応答システムをテストする。

Biomedical knowledge graphs (KG) are heterogenous networks consisting of biological entities as nodes and relations between them as edges. These entities and relations are extracted from millions of research papers and unified in a single resource. The goal of biomedical multi-hop question-answering over knowledge graph (KGQA) is to help biologist and scientist to get valuable insights by asking questions in natural language. Relevant answers can be found by first understanding the question and then querying the KG for right set of nodes and relationships to arrive at an answer. To model the question, language models such as RoBERTa and BioBERT are used to understand context from natural language question. One of the challenges in KGQA is missing links in the KG. Knowledge graph embeddings (KGE) help to overcome this problem by encoding nodes and edges in a dense and more efficient way. In this paper, we use a publicly available KG called Hetionet which is an integrative network of biomedical knowledge assembled from 29 different databases of genes, compounds, diseases, and more. We have enriched this KG dataset by creating a multi-hop biomedical question-answering dataset in natural language for testing the biomedical multi-hop question-answering system and this dataset will be made available to the research community. The major contribution of this research is an integrated system that combines language models with KG embeddings to give highly relevant answers to free-form questions asked by biologists in an intuitive interface. Biomedical multi-hop question-answering system is tested on this data and results are highly encouraging.
翻訳日:2022-11-11 14:48:58 公開日:2022-11-10
# アルゴリズムリコースのプライバシーリスクについて

On the Privacy Risks of Algorithmic Recourse ( http://arxiv.org/abs/2211.05427v1 )

ライセンス: Link先を確認
Martin Pawelczyk and Himabindu Lakkaraju and Seth Neel(参考訳) 予測モデルが一連の意思決定に利用されてきているため、影響を受ける個人にアルゴリズム的リコースを提供する技術の開発に重点が置かれている。 このような言動は影響を受ける個人にとって非常に有益であるが、潜在的な敵はこれらの言動を利用してプライバシーを侵害することもできる。 本研究では,対戦相手がリコースを利用して,基礎となるモデルのトレーニングデータに関するプライベート情報を推測できるかどうかを,まず調査する。 そこで本研究では,アルゴリズムを用いた新しいメンバーシップ推論攻撃を提案する。 具体的には、データインスタンスと、最先端のリコースメソッドによって出力される反事実との間の距離を利用して、メンバシップ推論攻撃に関する以前の文献をリコース設定に拡張する。 現実世界と合成データセットによる大規模な実験は、リコースを通じて重大なプライバシー漏洩を示す。 我々の研究は、リコメンデーション手法の普及において重要なリスクとして、意図しないプライバシー漏洩を確立している。

As predictive models are increasingly being employed to make consequential decisions, there is a growing emphasis on developing techniques that can provide algorithmic recourse to affected individuals. While such recourses can be immensely beneficial to affected individuals, potential adversaries could also exploit these recourses to compromise privacy. In this work, we make the first attempt at investigating if and how an adversary can leverage recourses to infer private information about the underlying model's training data. To this end, we propose a series of novel membership inference attacks which leverage algorithmic recourse. More specifically, we extend the prior literature on membership inference attacks to the recourse setting by leveraging the distances between data instances and their corresponding counterfactuals output by state-of-the-art recourse methods. Extensive experimentation with real world and synthetic datasets demonstrates significant privacy leakage through recourses. Our work establishes unintended privacy leakage as an important risk in the widespread adoption of recourse methods.
翻訳日:2022-11-11 14:48:33 公開日:2022-11-10
# IoT連続認証のためのワームアップと伝達知識に基づくフェデレーション学習アプローチ

Warmup and Transfer Knowledge-Based Federated Learning Approach for IoT Continuous Authentication ( http://arxiv.org/abs/2211.05662v1 )

ライセンス: Link先を確認
Mohamad Wazzeh, Hakima Ould-Slimane, Chamseddine Talhi, Azzam Mourad and Mohsen Guizani(参考訳) 継続的行動認証メソッドは、デバイスにアクセスするときに個人がユニークなアイデンティティを検証できるように、ユニークなセキュリティ層を追加します。 モバイルまたはモノのインターネット(IoT)デバイスと対話しながらユーザの動作を監視し、クレデンシャル盗難とセッションハイジャックを無効にすることで、セッションの信頼性を維持することが可能になった。 このような技術は、人工知能と機械学習(ML)のパワーを統合することで実現されている。 文献の多くは、脅威に対するプライベートなユーザデータ露出を前提として、データを外部サーバに送信することで、ユーザのマシンラーニングのトレーニングに重点を置いている。 本稿では,ユーザデータの匿名性を保護し,自身のデータのセキュリティを維持する新しいフェデレーション学習(fl)手法を提案する。 我々は,大幅な精度向上を実現するウォームアップ手法を提案する。 さらに,特徴抽出に基づく伝達学習技術を活用し,モデルの性能を向上させる。 mnist、femnist、cifar-10、umdaa-02-fdの4つのデータセットに基づく広範な実験では、ユーザのプライバシとデータセキュリティを維持しながら、ユーザ認証精度が大幅に向上しています。

Continuous behavioural authentication methods add a unique layer of security by allowing individuals to verify their unique identity when accessing a device. Maintaining session authenticity is now feasible by monitoring users' behaviour while interacting with a mobile or Internet of Things (IoT) device, making credential theft and session hijacking ineffective. Such a technique is made possible by integrating the power of artificial intelligence and Machine Learning (ML). Most of the literature focuses on training machine learning for the user by transmitting their data to an external server, subject to private user data exposure to threats. In this paper, we propose a novel Federated Learning (FL) approach that protects the anonymity of user data and maintains the security of his data. We present a warmup approach that provides a significant accuracy increase. In addition, we leverage the transfer learning technique based on feature extraction to boost the models' performance. Our extensive experiments based on four datasets: MNIST, FEMNIST, CIFAR-10 and UMDAA-02-FD, show a significant increase in user authentication accuracy while maintaining user privacy and data security.
翻訳日:2022-11-11 14:48:17 公開日:2022-11-10
# オンライン契約設計のサンプル複雑さ

The Sample Complexity of Online Contract Design ( http://arxiv.org/abs/2211.05732v1 )

ライセンス: Link先を確認
Banghua Zhu, Stephen Bates, Zhuoran Yang, Yixin Wang, Jiantao Jiao, and Michael I. Jordan(参考訳) 隠れアクションの主エージェント問題をオンライン環境で研究する。 各ラウンドにおいて、プリンシパルは、各結果に基づいてエージェントへの支払いを規定する契約をポストする。 エージェントは自身の効用を最大化する戦略的な行動の選択を行うが、その行動はプリンシパルによって直接観測できない。 校長は結果を観察し、エージェントの行動選択からユーティリティを受け取る。 過去の観察に基づいて、プリンシパルは契約を動的に調整し、実用性を最大化する。 オンライン学習アルゴリズムを導入し、Stackelbergの後悔に対する上限を提供する。 契約空間が $[0,1]^m$ であるとき、スタックルベルクの後悔は、$\widetilde o(\sqrt{m} \cdot t^{1-c/m})$ で上限され、下限は $\omega(t^{1-1/(m+2)})$である。 この結果から,指数-in-m$サンプルは最適に近い契約を学習するのに十分かつ必要であり,オンライン契約設計の難易度に関する未解決問題が解決された。 契約がいくつかの部分集合 $\mathcal{f} \subset [0,1]^m$ に制限されるとき、空間内の球面コードの被覆数に依存し、この内在的次元の観点で後悔を束縛する、内在的次元 $\mathcal{f}$ を定義する。 $\mathcal{F}$ が線型契約の族であるとき、Stackelberg の後悔はちょうど $\Theta(T^{2/3})$ として成長する。 ユーティリティ関数が不連続であるため、コントラクト設計の問題は難しい。 この設定における離散化誤差の境界はオープンな問題である。 本稿では,ユーティリティ関数が連続した方向の限定的なセットを同定し,新しい離散化法を設計し,その誤差を限定する。 このアプローチは、コントラクトとアクション空間に制限を伴わない、最初の上限を許容する。

We study the hidden-action principal-agent problem in an online setting. In each round, the principal posts a contract that specifies the payment to the agent based on each outcome. The agent then makes a strategic choice of action that maximizes her own utility, but the action is not directly observable by the principal. The principal observes the outcome and receives utility from the agent's choice of action. Based on past observations, the principal dynamically adjusts the contracts with the goal of maximizing her utility. We introduce an online learning algorithm and provide an upper bound on its Stackelberg regret. We show that when the contract space is $[0,1]^m$, the Stackelberg regret is upper bounded by $\widetilde O(\sqrt{m} \cdot T^{1-C/m})$, and lower bounded by $\Omega(T^{1-1/(m+2)})$. This result shows that exponential-in-$m$ samples are both sufficient and necessary to learn a near-optimal contract, resolving an open problem on the hardness of online contract design. When contracts are restricted to some subset $\mathcal{F} \subset [0,1]^m$, we define an intrinsic dimension of $\mathcal{F}$ that depends on the covering number of the spherical code in the space and bound the regret in terms of this intrinsic dimension. When $\mathcal{F}$ is the family of linear contracts, the Stackelberg regret grows exactly as $\Theta(T^{2/3})$. The contract design problem is challenging because the utility function is discontinuous. Bounding the discretization error in this setting has been an open problem. In this paper, we identify a limited set of directions in which the utility function is continuous, allowing us to design a new discretization method and bound its error. This approach enables the first upper bound with no restrictions on the contract and action space.
翻訳日:2022-11-11 14:47:55 公開日:2022-11-10
# 低次多項式に対するテンソル分解の平均ケース複雑性

Average-Case Complexity of Tensor Decomposition for Low-Degree Polynomials ( http://arxiv.org/abs/2211.05274v1 )

ライセンス: Link先を確認
Alexander S. Wein(参考訳) n$-dimensional order-3 対称テンソル $t \in (\mathbb{r}^n)^{\otimes 3} が与えられ、これは $r$ ランダムランク-1 項の和であるとする。 ランク-1成分を回収する問題は、r \lesssim n^2$ でも多項式時間アルゴリズムは、r \ll n^{3/2}$でしか知られていない。 同様の「統計計算ギャップ」は、多くの高次元推論タスクで発生し、近年は、統計クエリ(SQ)、総和(SoS)、低次多項式(LDP)といった計算の制限された(より強力な)モデルに対する下界を証明し、これらの問題における明らかな計算硬さを説明する研究が盛んに行われている。 しかしながら、テンソル分解の先行研究は存在せず、その硬さは「種対ヌル」テスト問題によって説明されないことが大きな理由である。 1つの成分が他の成分よりもわずかに大きい(対称性を破る)ランダムオーダー3テンソル分解のモデルを考え、その成分はハイパーキューブから一様に描画される。 テンソル成分の$O(\log n)$-次多項式関数は、$r \ll n^{3/2}$のとき最も大きい成分を正確に推定できるが、$r \gg n^{3/2}$のとき失敗する。 これは、テンソル分解の最もよく知られたアルゴリズムは、少なくとも既知のアプローチによって改善できないことを示す厳密な証拠を与える。 結果の自然な拡張は任意の固定順序 $k \ge 3$ のテンソルに対して成り立ち、この場合 LDP 閾値は $r \sim n^{k/2}$ となる。

Suppose we are given an $n$-dimensional order-3 symmetric tensor $T \in (\mathbb{R}^n)^{\otimes 3}$ that is the sum of $r$ random rank-1 terms. The problem of recovering the rank-1 components is possible in principle when $r \lesssim n^2$ but polynomial-time algorithms are only known in the regime $r \ll n^{3/2}$. Similar "statistical-computational gaps" occur in many high-dimensional inference tasks, and in recent years there has been a flurry of work on explaining the apparent computational hardness in these problems by proving lower bounds against restricted (yet powerful) models of computation such as statistical queries (SQ), sum-of-squares (SoS), and low-degree polynomials (LDP). However, no such prior work exists for tensor decomposition, largely because its hardness does not appear to be explained by a "planted versus null" testing problem. We consider a model for random order-3 tensor decomposition where one component is slightly larger in norm than the rest (to break symmetry), and the components are drawn uniformly from the hypercube. We resolve the computational complexity in the LDP model: $O(\log n)$-degree polynomial functions of the tensor entries can accurately estimate the largest component when $r \ll n^{3/2}$ but fail to do so when $r \gg n^{3/2}$. This provides rigorous evidence suggesting that the best known algorithms for tensor decomposition cannot be improved, at least by known approaches. A natural extension of the result holds for tensors of any fixed order $k \ge 3$, in which case the LDP threshold is $r \sim n^{k/2}$.
翻訳日:2022-11-11 14:47:22 公開日:2022-11-10
# カーネルステインの相違によるモーメントの制御

Controlling Moments with Kernel Stein Discrepancies ( http://arxiv.org/abs/2211.05408v1 )

ライセンス: Link先を確認
Heishiro Kanagawa and Arthur Gretton and Lester Mackey(参考訳) 確率分布の偏差の定量化は、目標分布が難解な正規化定数を持つ密度で定義されるときに困難である。 カーネルのStein差分法(KSD)はこの問題に対処するために提案され、近似MCMCサンプルの診断や非正規化統計モデルの適合性テストなど様々なタスクに応用されている。 本稿では,barp et al. (2019) が提案した ksd の例である拡散核 stein discrepancy (dksd) の収束制御特性について検討する。 我々は、Gorham and Mackey (2017) の結果を拡張し、KSD が有界リプシッツ計量を多項式成長の関数に制御することを示した。 具体的には、dksdが疑似リプシッツ関数のクラス、リプシッツ関数の多項式一般化によって定義される積分確率計量を制御することを証明する。 また、保持すべき特性の再生カーネルについて、実用上十分な条件を提供する。 特に、dksdは適切なカーネルを持つモーメントにおける非収束を検出する。

Quantifying the deviation of a probability distribution is challenging when the target distribution is defined by a density with an intractable normalizing constant. The kernel Stein discrepancy (KSD) was proposed to address this problem and has been applied to various tasks including diagnosing approximate MCMC samplers and goodness-of-fit testing for unnormalized statistical models. This article investigates a convergence control property of the diffusion kernel Stein discrepancy (DKSD), an instance of the KSD proposed by Barp et al. (2019). We extend the result of Gorham and Mackey (2017), which showed that the KSD controls the bounded-Lipschitz metric, to functions of polynomial growth. Specifically, we prove that the DKSD controls the integral probability metric defined by a class of pseudo-Lipschitz functions, a polynomial generalization of Lipschitz functions. We also provide practical sufficient conditions on the reproducing kernel for the stated property to hold. In particular, we show that the DKSD detects non-convergence in moments with an appropriate kernel.
翻訳日:2022-11-11 14:46:46 公開日:2022-11-10
# ノイズのないカスケード化帯域のレグレト境界

Regret Bounds for Noise-Free Cascaded Kernelized Bandits ( http://arxiv.org/abs/2211.05430v1 )

ライセンス: Link先を確認
Zihan Li, Jonathan Scarlett(参考訳) RKHS関数クラスを用いたノイズフリーグレーボックス設定における関数ネットワークの最適化について検討する。 ネットワークの構造が知られている(ただし、それを構成する機能ではない)と仮定し、(1)連鎖:スカラー値関数のカスケード、(2)マルチアウトプット連鎖:ベクトル値関数のカスケード、(3)フィードフォワードネットワーク:スカラー値関数の完全接続フィードフォワードネットワークの3種類の構造について検討する。 本稿では, 累積的後悔に対する理論上界と合わせて, 逐次的上限付きアルゴリズム GPN-UCB を提案する。 Mat\'ern カーネルに対しては、単純後悔の理論的上限とともに非適応サンプリングに基づく手法を提案する。 また, GPN-UCB が連鎖や多出力鎖に概ね最適であることを示す, 単純後悔と累積後悔に対するアルゴリズムに依存しない下界も提供する。

We consider optimizing a function network in the noise-free grey-box setting with RKHS function classes, where the exact intermediate results are observable. We assume that the structure of the network is known (but not the underlying functions comprising it), and we study three types of structures: (1) chain: a cascade of scalar-valued functions, (2) multi-output chain: a cascade of vector-valued functions, and (3) feed-forward network: a fully connected feed-forward network of scalar-valued functions. We propose a sequential upper confidence bound based algorithm GPN-UCB along with a general theoretical upper bound on the cumulative regret. For the Mat\'ern kernel, we additionally propose a non-adaptive sampling based method along with its theoretical upper bound on the simple regret. We also provide algorithm-independent lower bounds on the simple regret and cumulative regret, showing that GPN-UCB is near-optimal for chains and multi-output chains in broad cases of interest.
翻訳日:2022-11-11 14:46:27 公開日:2022-11-10
# 解釈可能な機械学習による負噴流の再構成と解析

Reconstruction and analysis of negatively buoyant jets with interpretable machine learning ( http://arxiv.org/abs/2211.05489v1 )

ライセンス: Link先を確認
Marta Alvir, Luka Grb\v{c}i\'c, Ante Sikirica, Lado Kranj\v{c}evi\'c(参考訳) 本研究では, 脱塩などのプロセスから排水が排出される際に発生する, 負傾斜した浮力噴流を観察した。 有害な影響を最小限に抑え、環境影響を評価するためには、詳細な数値的調査が必要である。 このような効果を最小化するための適切な幾何学と作業条件の選択は、しばしば多数の実験と数値シミュレーションを必要とする。 そのため,機械学習モデルの適用が提案されている。 Support Vector Regression、Artificial Neural Networks、Random Forests、XGBoost、CatBoost、LightGBMなどのモデルがトレーニングされた。 データセットには多数のopenfoamシミュレーションが組み込まれており、過去の研究からの実験データによって検証された。 最高の予測は、平均 R2 0.98 と RMSE 0.28 の人工ニューラルネットワークによって得られた。 傾斜浮力噴流の幾何学的特性に及ぼす機械学習モデルの動作と全てのパラメータの影響を理解するために,shap特徴解釈法を用いた。

In this paper, negatively inclined buoyant jets, which appear during the discharge of wastewater from processes such as desalination, are observed. To minimize harmful effects and assess environmental impact, a detailed numerical investigation is necessary. The selection of appropriate geometry and working conditions for minimizing such effects often requires numerous experiments and numerical simulations. For this reason, the application of machine learning models is proposed. Several models including Support Vector Regression, Artificial Neural Networks, Random Forests, XGBoost, CatBoost and LightGBM were trained. The dataset was built with numerous OpenFOAM simulations, which were validated by experimental data from previous research. The best prediction was obtained by Artificial Neural Network with an average of R2 0.98 and RMSE 0.28. In order to understand the working of the machine learning model and the influence of all parameters on the geometrical characteristics of inclined buoyant jets, the SHAP feature interpretation method was used.
翻訳日:2022-11-11 14:46:08 公開日:2022-11-10
# 非木構造ガウス図形モデルのロバストモデル選択

Robust Model Selection of Non Tree-Structured Gaussian Graphical Models ( http://arxiv.org/abs/2211.05690v1 )

ライセンス: Link先を確認
Abrar Zahin, Rajasekhar Anguluri, Oliver Kosut, Lalitha Sankar, Gautam Dasarathy(参考訳) 変数(またはその部分集合)が独立雑音によって破損した場合、ガウス図形モデルに基づく構造を学習する問題を考察する。 最近の研究の行は、木構造グラフィカルモデルであっても部分的な構造回復が可能であることを証明し、(避けられない)同値クラスまで構造を識別するアルゴリズムを考案している。 木グラフは複数の実世界のシナリオをモデル化できないため,木構造グラフのノイズ下でのモデル選択問題を考える。 同定不能であるが、木構造グラフと同様に、曖昧性は同値類に限定されている。 この制限された曖昧さは、コンピュータとソーシャルネットワーク、タンパク質とタンパク質の相互作用ネットワーク、そして電力ネットワークにおいて有用な有意義なクラスタリング情報を提供するのに役立つ。 さらに,同値クラスを復元するための新しい祖先検定法に基づくアルゴリズムを考案する。 これらの結果を高次元状態におけるアルゴリズムの有限サンプル保証で補完する。

We consider the problem of learning the structure underlying a Gaussian graphical model when the variables (or subsets thereof) are corrupted by independent noise. A recent line of work establishes that even for tree-structured graphical models, only partial structure recovery is possible and goes on to devise algorithms to identify the structure up to an (unavoidable) equivalence class of trees. We extend these results beyond trees and consider the model selection problem under noise for non tree-structured graphs, as tree graphs cannot model several real-world scenarios. Although unidentifiable, we show that, like the tree-structured graphs, the ambiguity is limited to an equivalence class. This limited ambiguity can help provide meaningful clustering information (even with noise), which is helpful in computer and social networks, protein-protein interaction networks, and power networks. Furthermore, we devise an algorithm based on a novel ancestral testing method for recovering the equivalence class. We complement these results with finite sample guarantees for the algorithm in the high-dimensional regime.
翻訳日:2022-11-11 14:45:54 公開日:2022-11-10
# 安全臨界系の適応的リアルタイム探索と最適化

Adaptive Real Time Exploration and Optimization for Safety-Critical Systems ( http://arxiv.org/abs/2211.05495v1 )

ライセンス: Link先を確認
Buse Sibel Korkmaz (1), Mehmet Mercang\"oz (1), Marta Zag\'orowska (2) ((1) Imperial College London, (2) ETH Z\"urich)(参考訳) 安全制約のある環境における不確実性下での意思決定の問題を考える。 多くのビジネスおよび産業アプリケーションは、重要なパフォーマンス指標を改善するために入力を変更するリアルタイム最適化に依存している。 環境特性が不明な場合には,特に安全制約の満足度においてリアルタイム最適化が困難となる。 安全制約を考慮した数学的プログラミング問題としてマルチアームバンディットをキャストし,最適化入力の変化や探索を通じて環境特性を学習するARTEOアルゴリズムを提案する。 ガウス過程を用いて未知の特性の不確かさを定量化し,探索を促進する寄与としてユーティリティ関数に組み込む。 我々は,環境の要求に応じてヒューリスティックを用いて,この貢献の大きさを適応的に制御する。 ガウス過程の正則性仮定に基づいて構築された信頼境界による確率の高いアルゴリズムの安全性を保証する。 既存の安全学習手法と比較して,本アルゴリズムは排他的な探索フェーズを必要とせず,探索点においても最適化目標に従うため,安全クリティカルなシステムに適している。 本手法の安全性と効率を,産業プロセスとオンライン入札最適化ベンチマーク問題という2つの実験で実証する。

We consider the problem of decision-making under uncertainty in an environment with safety constraints. Many business and industrial applications rely on real-time optimization with changing inputs to improve key performance indicators. In the case of unknown environmental characteristics, real-time optimization becomes challenging, particularly for the satisfaction of safety constraints. We propose the ARTEO algorithm, where we cast multi-armed bandits as a mathematical programming problem subject to safety constraints and learn the environmental characteristics through changes in optimization inputs and through exploration. We quantify the uncertainty in unknown characteristics by using Gaussian processes and incorporate it into the utility function as a contribution which drives exploration. We adaptively control the size of this contribution using a heuristic in accordance with the requirements of the environment. We guarantee the safety of our algorithm with a high probability through confidence bounds constructed under the regularity assumptions of Gaussian processes. Compared to existing safe-learning approaches, our algorithm does not require an exclusive exploration phase and follows the optimization goals even in the explored points, which makes it suitable for safety-critical systems. We demonstrate the safety and efficiency of our approach with two experiments: an industrial process and an online bid optimization benchmark problem.
翻訳日:2022-11-11 14:40:04 公開日:2022-11-10
# 確率論的ロバストPAC学習

Probabilistically Robust PAC Learning ( http://arxiv.org/abs/2211.05656v1 )

ライセンス: Link先を確認
VInod Raman, Unique Subedi, Ambuj Tewari(参考訳) 近年、ロビーらは確率的堅牢性の概念を提案しており、高いレベルでは、すべての摂動に対して頑健な分類器を必要とする。 彼らは、最悪のケースのロバスト性の下での適切な学習が \textit{not} 可能であれば、確率的ロバスト性 \textit{is} の下での適切な学習は、サンプルの複雑性が最悪のケースのロバスト性設定よりも指数関数的に小さいことを示している。 これは、確率的堅牢性の下での適切な学習が常に可能であるかどうかという問題を引き起こす。 本稿では、これは \textit{not} の場合であることを示す。 有限なvc次元を持つ仮説クラス $\mathcal{h}$ の例を示す。 しかし、確率的ロバスト性のわずかに \textit{stronger} レベルに対する学習者のアウトプットと最良の仮説を比較すると、適切な学習 \textit{always} が可能であるだけでなく、経験的リスク最小化によって可能であることが分かる。

Recently, Robey et al. propose a notion of probabilistic robustness, which, at a high-level, requires a classifier to be robust to most but not all perturbations. They show that for certain hypothesis classes where proper learning under worst-case robustness is \textit{not} possible, proper learning under probabilistic robustness \textit{is} possible with sample complexity exponentially smaller than in the worst-case robustness setting. This motivates the question of whether proper learning under probabilistic robustness is always possible. In this paper, we show that this is \textit{not} the case. We exhibit examples of hypothesis classes $\mathcal{H}$ with finite VC dimension that are \textit{not} probabilistically robustly PAC learnable with \textit{any} proper learning rule. However, if we compare the output of the learner to the best hypothesis for a slightly \textit{stronger} level of probabilistic robustness, we show that not only is proper learning \textit{always} possible, but it is possible via empirical risk minimization.
翻訳日:2022-11-11 14:39:13 公開日:2022-11-10
# スパルシリティ促進トランス表現による確率的熱安定性予測

Probabilistic thermal stability prediction through sparsity promoting transformer representation ( http://arxiv.org/abs/2211.05698v1 )

ライセンス: Link先を確認
Yevgen Zainchkovskyy, Jesper Ferkinghoff-Borg, Anja Bennett, Thomas Egebjerg, Nikolai Lorenzen, Per Jr. Greisen, S{\o}ren Hauberg, Carsten Stahlhut(参考訳) 事前訓練されたタンパク質言語モデルは、異なるタンパク質工学のタスクに顕著な応用性を示している。 これらの事前訓練されたトランスフォーマーモデルの一般的な用途は、残差位置を横切る平均プールを使用して特徴次元を減らし、生体物理特性の予測や他の機能的挙動の予測のような下流のタスクを行うことである。 本稿では機械学習(ML)による薬物設計への2倍の貢献について述べる。 まず, 既訓練変圧器モデルのペナル化を推進し, 平均絶対誤差0.23Cの単鎖可変フラグメントのより堅牢で正確な融解温度(Tm)の予測を行う。 第2に,確率的枠組みを用いて予測問題をフレーミングする能力を示す。 具体的には、特にMLによる薬物設計の文脈において、確率的枠組みを採用する必要性を主張する。

Pre-trained protein language models have demonstrated significant applicability in different protein engineering task. A general usage of these pre-trained transformer models latent representation is to use a mean pool across residue positions to reduce the feature dimensions to further downstream tasks such as predicting bio-physics properties or other functional behaviours. In this paper we provide a two-fold contribution to machine learning (ML) driven drug design. Firstly, we demonstrate the power of sparsity by promoting penalization of pre-trained transformer models to secure more robust and accurate melting temperature (Tm) prediction of single-chain variable fragments with a mean absolute error of 0.23C. Secondly, we demonstrate the power of framing our prediction problem in a probabilistic framework. Specifically, we advocate for the need of adopting probabilistic frameworks especially in the context of ML driven drug design.
翻訳日:2022-11-11 14:38:46 公開日:2022-11-10
# 骨格表現のためのコントラスト型自己教師付き学習

Contrastive Self-Supervised Learning for Skeleton Representations ( http://arxiv.org/abs/2211.05304v1 )

ライセンス: Link先を確認
Nico Lingg, Miguel Sarabia, Luca Zappella and Barry-John Theobald(参考訳) ヒトの骨格点雲は、他人の行動を自動的に分類し予測するためによく用いられる。 本稿では,スケルトン点雲のセマンティクスをキャプチャする表現を学習するために,コントラッシブな自己教師付き学習手法であるSimCLRを用いる。 この研究は、異なるアルゴリズム決定(拡張、データセット分割、バックボーンアーキテクチャを含む)が学習された骨格表現に与える影響を体系的に評価することに焦点を当てている。 表現を事前訓練するために、既存の6つのデータセットを正規化し、4000万以上のスケルトンフレームを得る。 本研究では,スケルトン復元,運動予測,活動分類という3つの下流課題を用いて,学習表現の質を評価する。 私たちの結果は 1)空間的及び時間的増補を組み合わせること。 2)エンコーダトレーニング用の追加データセットを含む。 3) グラフニューラルネットワークをエンコーダとして使用する。

Human skeleton point clouds are commonly used to automatically classify and predict the behaviour of others. In this paper, we use a contrastive self-supervised learning method, SimCLR, to learn representations that capture the semantics of skeleton point clouds. This work focuses on systematically evaluating the effects that different algorithmic decisions (including augmentations, dataset partitioning and backbone architecture) have on the learned skeleton representations. To pre-train the representations, we normalise six existing datasets to obtain more than 40 million skeleton frames. We evaluate the quality of the learned representations with three downstream tasks: skeleton reconstruction, motion prediction, and activity classification. Our results demonstrate the importance of 1) combining spatial and temporal augmentations, 2) including additional datasets for encoder training, and 3) and using a graph neural network as an encoder.
翻訳日:2022-11-11 14:37:41 公開日:2022-11-10
# 教師なし深層学習に基づく人間の活動認識のためのクラスタリング

Unsupervised Deep Learning-based clustering for Human Activity Recognition ( http://arxiv.org/abs/2211.05483v1 )

ライセンス: Link先を確認
Hamza Amrani, Daniela Micucci, Paolo Napoletano(参考訳) 慣性センサーに基づく日常生活(ADL)の行動認識にディープラーニング技術を適用する際の大きな問題の1つは、ディープラーニングベースのモデルをトレーニングするための適切な大きなラベル付きデータセットがないことである。 人間の活動を認識するためにデータを収集できる慣性センサーを備えたモバイルデバイスが広く普及しているため、大量のデータが利用可能になる。 残念ながら、このデータはラベル付けされていない。 本稿では,多次元慣性信号を自動的にラベル付けするdlベースのクラスタリングアーキテクチャである disc (deep inertial sensory clustering) を提案する。 特に、アーキテクチャはリカレントオートエンコーダとクラスタリング基準を組み合わせることで、ラベルなしのヒューマンアクティビティ関連信号を予測する。 提案アーキテクチャは3つの公開HARデータセットで評価され、よく知られた4つのエンドツーエンドのディープクラスタリングアプローチと比較される。 実験は,ディスクがクラスタリング精度と正規化相互情報指標の両方に有効であることを示す。

One of the main problems in applying deep learning techniques to recognize activities of daily living (ADLs) based on inertial sensors is the lack of appropriately large labelled datasets to train deep learning-based models. A large amount of data would be available due to the wide spread of mobile devices equipped with inertial sensors that can collect data to recognize human activities. Unfortunately, this data is not labelled. The paper proposes DISC (Deep Inertial Sensory Clustering), a DL-based clustering architecture that automatically labels multi-dimensional inertial signals. In particular, the architecture combines a recurrent AutoEncoder and a clustering criterion to predict unlabelled human activities-related signals. The proposed architecture is evaluated on three publicly available HAR datasets and compared with four well-known end-to-end deep clustering approaches. The experiments demonstrate the effectiveness of DISC on both clustering accuracy and normalized mutual information metrics.
翻訳日:2022-11-11 14:37:28 公開日:2022-11-10
# タスク指向対話における領域適応のためのプロンプト学習

Prompt Learning for Domain Adaptation in Task-Oriented Dialogue ( http://arxiv.org/abs/2211.05596v1 )

ライセンス: Link先を確認
Makesh Narsimhan Sreedhar, Christopher Parisien(参考訳) 会話デザイナーは、生産品質のタスク指向対話システムを作成する際に、重要な障害に直面し続けている。 スキーマ開発とデータ収集に関わる複雑さとコストは、そのような設計者にとって大きな障壁であり、自然なユーザーフレンドリーなエクスペリエンスを作成する能力を制限する。 我々は,ユーザ意図の分類を,自然言語を用いた軽量な意味表現である標準形式の生成とみなす。 標準形式は従来の意図分類の方法に代わる有望な手段であることを示す。 凍結した大言語モデルのソフトプロンプトをチューニングすることにより、標準形式はゼロまたは少数ショット設定で新しい、見えない領域に非常によく一般化することを示す。 この方法はサンプル効率も高く、新しいタスク指向の対話ドメインを開発する複雑さと労力を削減します。

Conversation designers continue to face significant obstacles when creating production quality task-oriented dialogue systems. The complexity and cost involved in schema development and data collection is often a major barrier for such designers, limiting their ability to create natural, user-friendly experiences. We frame the classification of user intent as the generation of a canonical form, a lightweight semantic representation using natural language. We show that canonical forms offer a promising alternative to traditional methods for intent classification. By tuning soft prompts for a frozen large language model, we show that canonical forms generalize very well to new, unseen domains in a zero- or few-shot setting. The method is also sample-efficient, reducing the complexity and effort of developing new task-oriented dialogue domains.
翻訳日:2022-11-11 14:30:20 公開日:2022-11-10
# VieCap4H - VLSP 2021: ObjectAoA -- ベトナム画像キャプションの注意を伴うオブジェクト関係変換器の性能向上

VieCap4H - VLSP 2021: ObjectAoA -- Enhancing performance of Object Relation Transformer with Attention on Attention for Vietnamese image captioning ( http://arxiv.org/abs/2211.05405v1 )

ライセンス: Link先を確認
Nghia Hieu Nguyen, Duong T.D. Vo, Minh-Quan Ha(参考訳) 現在、画像キャプションは、視覚情報を理解し、人間の言語を使って画像にこの視覚情報を記述する能力を必要とする、困難なタスクである。 本稿では,注目機構に着目した物体関連トランスアーキテクチャを拡張することにより,トランス方式の画像理解能力を向上させる効率的な手法を提案する。 VieCap4Hデータセットの実験により,提案手法は,VLSPが保持する画像キャプション共有タスクの公開テストとプライベートテストの両方において,元の構造を大幅に上回っていることがわかった。

Image captioning is currently a challenging task that requires the ability to both understand visual information and use human language to describe this visual information in the image. In this paper, we propose an efficient way to improve the image understanding ability of transformer-based method by extending Object Relation Transformer architecture with Attention on Attention mechanism. Experiments on the VieCap4H dataset show that our proposed method significantly outperforms its original structure on both the public test and private test of the Image Captioning shared task held by VLSP.
翻訳日:2022-11-11 14:30:06 公開日:2022-11-10
# UIT-HWDB:ベトナムにおける非拘束手書き画像認識評価のための新しいベンチマーク構築のための転送手法

UIT-HWDB: Using Transferring Method to Construct A Novel Benchmark for Evaluating Unconstrained Handwriting Image Recognition in Vietnamese ( http://arxiv.org/abs/2211.05407v1 )

ライセンス: Link先を確認
Nghia Hieu Nguyen, Duong T.D. Vo, Kiet Van Nguyen(参考訳) 筆跡画像の認識は、多言語にわたる筆跡の多様さと言語的側面の相違により困難である。 ベトナム語では、現代ラテン文字の他に、アクセントと文字の記号と、最先端の手書き認識法に混乱をもたらす文字がある。 さらに、低リソース言語として、ベトナム語で手書き認識を研究するためのデータセットは少ないため、この言語での手書き認識は研究者がアプローチする障壁となる。 最近の研究は,ペンストローク座標を接続して構築したオンライン手書きデータセットの画像を用いてベトナムにおけるオフライン手書き認識手法の評価を行っている。 このアプローチは、簡単でオフラインの手書き画像に不可欠な機能が欠如しているため、認識メソッドの能力を効果的に測定できないことは明らかです。 そこで本稿では,オフライン手書き画像に必要な重要な自然属性を関連付ける手書き画像データセットを構築するための転送手法を提案する。 本手法を用いて,手書き認識手法を効率よく評価するために,複雑で自然な第1の高品質な合成データセットを提供する。 さらに,ベトナムにおける手書き文字認識の課題を解明するために,様々な最先端手法による実験を行った。

Recognizing handwriting images is challenging due to the vast variation in writing style across many people and distinct linguistic aspects of writing languages. In Vietnamese, besides the modern Latin characters, there are accent and letter marks together with characters that draw confusion to state-of-the-art handwriting recognition methods. Moreover, as a low-resource language, there are not many datasets for researching handwriting recognition in Vietnamese, which makes handwriting recognition in this language have a barrier for researchers to approach. Recent works evaluated offline handwriting recognition methods in Vietnamese using images from an online handwriting dataset constructed by connecting pen stroke coordinates without further processing. This approach obviously can not measure the ability of recognition methods effectively, as it is trivial and may be lack of features that are essential in offline handwriting images. Therefore, in this paper, we propose the Transferring method to construct a handwriting image dataset that associates crucial natural attributes required for offline handwriting images. Using our method, we provide a first high-quality synthetic dataset which is complex and natural for efficiently evaluating handwriting recognition methods. In addition, we conduct experiments with various state-of-the-art methods to figure out the challenge to reach the solution for handwriting recognition in Vietnamese.
翻訳日:2022-11-11 14:29:55 公開日:2022-11-10
# インドネシア感情分析のための畳み込みニューラルネットワークと繰り返しニューラルネットワークの組み合わせ

BERT-Based Combination of Convolutional and Recurrent Neural Network for Indonesian Sentiment Analysis ( http://arxiv.org/abs/2211.05273v1 )

ライセンス: Link先を確認
Hendri Murfi, Syamsyuriani, Theresia Gowandi, Gianinna Ardaneswari, Siti Nurrohmah(参考訳) 感情分析は、テキストで押された意見と感情の計算的研究である。 ディープラーニングは、感情分析を含むさまざまなアプリケーションドメインで最先端の技術を現在生成しているモデルである。 多くの研究者が、さまざまなディープラーニングモデルを組み合わせたハイブリッドアプローチを採用しており、モデルパフォーマンスの向上が示されている。 感情分析では、テキストデータの入力はまず数値表現に変換される。 テキスト表現を得るために使われる標準的な方法は、微調整埋め込み法である。 しかし,この手法は文中の各単語の文脈に注意を払わない。 したがって、トランスフォーマ(bert)モデルからの双方向エンコーダ表現を用いて、文中の単語の文脈と位置に基づくテキスト表現を得る。 本研究は、インドネシアの感情分析のためのBERT表現を用いた従来のハイブリッドディープラーニングを拡張した。 シミュレーションにより,全てのハイブリッドアーキテクチャの精度がbert表現により向上することを示す。 BERTベースのLSTM-CNNは、他のBERTベースのハイブリッドアーキテクチャよりも若干精度が良い。

Sentiment analysis is the computational study of opinions and emotions ex-pressed in text. Deep learning is a model that is currently producing state-of-the-art in various application domains, including sentiment analysis. Many researchers are using a hybrid approach that combines different deep learning models and has been shown to improve model performance. In sentiment analysis, input in text data is first converted into a numerical representation. The standard method used to obtain a text representation is the fine-tuned embedding method. However, this method does not pay attention to each word's context in the sentence. Therefore, the Bidirectional Encoder Representation from Transformer (BERT) model is used to obtain text representations based on the context and position of words in sentences. This research extends the previous hybrid deep learning using BERT representation for Indonesian sentiment analysis. Our simulation shows that the BERT representation improves the accuracies of all hybrid architectures. The BERT-based LSTM-CNN also reaches slightly better accuracies than other BERT-based hybrid architectures.
翻訳日:2022-11-11 14:29:31 公開日:2022-11-10
# lert: 言語的動機づけによる事前学習言語モデル

LERT: A Linguistically-motivated Pre-trained Language Model ( http://arxiv.org/abs/2211.05344v1 )

ライセンス: Link先を確認
Yiming Cui, Wanxiang Che, Shijin Wang, Ting Liu(参考訳) プレトレーニング言語モデル(PLM)は自然言語処理分野における代表的な基礎モデルとなっている。 ほとんどのPLMは、マスキング言語モデル(MLM)のような、テキストの表面形態で言語に依存しない事前訓練タスクで訓練されている。 本稿では,より豊かな言語的特徴を持つplmをさらに強力にするために,事前学習した言語モデルの言語的特徴を学ぶための単純かつ効果的な方法を提案する。 本稿では,3種類の言語特徴を訓練した事前学習型言語モデルLERTと,従来のMLM事前学習タスクを言語的にインフォームドされた事前学習(LIP)戦略を用いて提案する。 我々は10の中国語NLUタスクについて広範囲に実験を行い、実験結果からLERTは様々な基準値に対して大きな改善をもたらすことが示された。 さらに,様々な言語学的側面から分析実験を行い,LERTの設計が有効かつ効果的であることを実証した。 リソースはhttps://github.com/ymcui/LERTで入手できる。

Pre-trained Language Model (PLM) has become a representative foundation model in the natural language processing field. Most PLMs are trained with linguistic-agnostic pre-training tasks on the surface form of the text, such as the masked language model (MLM). To further empower the PLMs with richer linguistic features, in this paper, we aim to propose a simple but effective way to learn linguistic features for pre-trained language models. We propose LERT, a pre-trained language model that is trained on three types of linguistic features along with the original MLM pre-training task, using a linguistically-informed pre-training (LIP) strategy. We carried out extensive experiments on ten Chinese NLU tasks, and the experimental results show that LERT could bring significant improvements over various comparable baselines. Furthermore, we also conduct analytical experiments in various linguistic aspects, and the results prove that the design of LERT is valid and effective. Resources are available at https://github.com/ymcui/LERT
翻訳日:2022-11-11 14:29:19 公開日:2022-11-10
# 適応型チェス環境における人間理解可能な概念検出のための強化学習

Reinforcement Learning in an Adaptable Chess Environment for Detecting Human-understandable Concepts ( http://arxiv.org/abs/2211.05500v1 )

ライセンス: Link先を確認
Patrik Hammersborg and Inga Str\"umke(参考訳) 機械学習を使って開発された自律エージェントは、さまざまな制御設定において大きな可能性を秘めている。 ディープニューラルネットワークの形で、自己学習されたエージェントに関連する主な課題は、そのブラックボックスの性質である:人間がディープニューラルネットワークを解釈することは不可能である。 したがって、人間はディープニューラルネットワークベースのエージェントの動作を直接解釈したり、異なるシナリオで頑健さを予測できない。 本研究では,自己学習エージェントが学習の過程で内在する概念を探索する手法を示す。 デモでは,膨大な計算資源や機械学習モデルにアクセスできない研究グループに適した,高速で軽量な環境下でチェスをプレイするエージェントを使用する。

Self-trained autonomous agents developed using machine learning are showing great promise in a variety of control settings, perhaps most remarkably in applications involving autonomous vehicles. The main challenge associated with self-learned agents in the form of deep neural networks, is their black-box nature: it is impossible for humans to interpret deep neural networks. Therefore, humans cannot directly interpret the actions of deep neural network based agents, or foresee their robustness in different scenarios. In this work, we demonstrate a method for probing which concepts self-learning agents internalise in the course of their training. For demonstration, we use a chess playing agent in a fast and light environment developed specifically to be suitable for research groups without access to enormous computational resources or machine learning models.
翻訳日:2022-11-11 14:28:29 公開日:2022-11-10
# alphazeroによるトポロジ最適化による電力系統混雑管理

Power Grid Congestion Management via Topology Optimization with AlphaZero ( http://arxiv.org/abs/2211.05612v1 )

ライセンス: Link先を確認
Matthias Dorfer, Anton R. Fuxj\"ager, Kristian Kozak, Patrick M. Blies, Marcel Wasserer (enliteAI)(参考訳) エネルギーセクターはクリーンな再生可能エネルギー源への移行の急速な変化に直面している。 しかし、風力や太陽エネルギーなどの揮発性で変動する再生可能エネルギーのシェアは、既に電力網の混雑とネットワークセキュリティの懸念が増大している。 グリッド演算子は、これらを世代または需要(再分散、削減、柔軟な負荷)を変更することで緩和する。 残念なことに、化石発生器の再パッチングは過剰なグリッド運用コストとより高い排出量をもたらし、エネルギーセクターの脱炭に直接反対する。 本稿では,非コストで炭素フリーな混雑管理代替手段として,アルファゼロ系グリッドトポロジー最適化エージェントを提案する。 実験評価により,電力系統運用におけるトポロジー最適化の可能性を確認し,必要な再配置量の平均を60%削減し,従来の混雑管理手法との相互運用性を示す。 我々のアプローチはまた、WCCI 2022 Learning to Run a Power Network (L2RPN)コンペで1位にランクインした。 本研究は,実電力網における生産的システムのための技術課題だけでなく,オープンな研究課題の特定と議論を行うものである。

The energy sector is facing rapid changes in the transition towards clean renewable sources. However, the growing share of volatile, fluctuating renewable generation such as wind or solar energy has already led to an increase in power grid congestion and network security concerns. Grid operators mitigate these by modifying either generation or demand (redispatching, curtailment, flexible loads). Unfortunately, redispatching of fossil generators leads to excessive grid operation costs and higher emissions, which is in direct opposition to the decarbonization of the energy sector. In this paper, we propose an AlphaZero-based grid topology optimization agent as a non-costly, carbon-free congestion management alternative. Our experimental evaluation confirms the potential of topology optimization for power grid operation, achieves a reduction of the average amount of required redispatching by 60%, and shows the interoperability with traditional congestion management methods. Our approach also ranked 1st in the WCCI 2022 Learning to Run a Power Network (L2RPN) competition. Based on our findings, we identify and discuss open research problems as well as technical challenges for a productive system on a real power grid.
翻訳日:2022-11-11 14:28:16 公開日:2022-11-10
# DiSC: 特徴の差分スペクトルクラスタリング

DiSC: Differential Spectral Clustering of Features ( http://arxiv.org/abs/2211.05314v1 )

ライセンス: Link先を確認
Ram Dyuthi Sristi, Gal Mishne, Ariel Jaffe(参考訳) 2つの条件を区別する特徴のサブセットを選択することは、幅広い科学領域において重要な課題である。 多くのアプリケーションにおいて、興味ある特徴はデータに類似した影響を持つクラスタを形成する。 このようなクラスタを回復するために、条件を区別する特徴群を検出するデータ駆動型アプローチであるDiSCを開発した。 各条件について、ノードが特徴に対応し、重みがその条件に対するノード間の類似性の関数であるグラフを構築する。 次に、条件特異的特徴グラフと接続性が著しく異なるノードのサブセットを計算するためにスペクトルアプローチを適用する。 理論的には、確率ブロックモデルに基づくおもちゃの例を用いて、我々のアプローチを分析する。 我々は、MNIST、ハイパースペクトルイメージング、シミュレートされたscRNA-seq、タスクfMRIなど、様々なデータセット上でDiSCを評価し、DiSCが競合する手法と比較して、条件をよりよく区別する特徴を明らかにすることを実証した。

Selecting subsets of features that differentiate between two conditions is a key task in a broad range of scientific domains. In many applications, the features of interest form clusters with similar effects on the data at hand. To recover such clusters we develop DiSC, a data-driven approach for detecting groups of features that differentiate between conditions. For each condition, we construct a graph whose nodes correspond to the features and whose weights are functions of the similarity between them for that condition. We then apply a spectral approach to compute subsets of nodes whose connectivity differs significantly between the condition-specific feature graphs. On the theoretical front, we analyze our approach with a toy example based on the stochastic block model. We evaluate DiSC on a variety of datasets, including MNIST, hyperspectral imaging, simulated scRNA-seq and task fMRI, and demonstrate that DiSC uncovers features that better differentiate between conditions compared to competing methods.
翻訳日:2022-11-11 14:28:00 公開日:2022-11-10
# 教師なしコントラスト学習

Unbiased Supervised Contrastive Learning ( http://arxiv.org/abs/2211.05568v1 )

ライセンス: Link先を確認
Carlo Alberto Barbano, Benoit Dufumier, Enzo Tartaglione, Marco Grangetto, Pietro Gori(参考訳) 多くのデータセットは偏りがあり、それは、データセット内でのみターゲットクラスと高い相関を持つが、真の基盤となるデータの分布にはない、分かりやすい特徴を含んでいる。 このため、偏りのないデータから偏りのないモデルを学ぶことは、ここ数年で非常に重要な研究テーマとなっている。 本研究では,バイアスに対して頑健な表現を学習する問題に取り組む。 まず,偏りのあるデータを扱う場合,最近のコントラスト損失(インフォメーション,サッコンなど)がなぜ失敗するのかを明らかにするために,マージンに基づく理論的枠組みを提案する。 それに基づいて,教師付きコントラスト損失(epsilon-supinfonce)の新しい定式化を行い,正のサンプルと負のサンプルとの最小距離をより正確に制御する。 さらに,理論的な枠組みにより,超偏りのあるデータでも有効に機能する新しい偏り正規化損失であるfairklも提案する。 CIFAR10, CIFAR100, ImageNetなどの標準ビジョンデータセットの損失を検証し, Epsilon-SupInfoNCEによるFairKLの劣化能力を評価し, 野におけるバイアスの実例を含む多くのバイアス付きデータセットで最先端のパフォーマンスに到達する。

Many datasets are biased, namely they contain easy-to-learn features that are highly correlated with the target class only in the dataset but not in the true underlying distribution of the data. For this reason, learning unbiased models from biased data has become a very relevant research topic in the last years. In this work, we tackle the problem of learning representations that are robust to biases. We first present a margin-based theoretical framework that allows us to clarify why recent contrastive losses (InfoNCE, SupCon, etc.) can fail when dealing with biased data. Based on that, we derive a novel formulation of the supervised contrastive loss (epsilon-SupInfoNCE), providing more accurate control of the minimal distance between positive and negative samples. Furthermore, thanks to our theoretical framework, we also propose FairKL, a new debiasing regularization loss, that works well even with extremely biased data. We validate the proposed losses on standard vision datasets including CIFAR10, CIFAR100, and ImageNet, and we assess the debiasing capability of FairKL with epsilon-SupInfoNCE, reaching state-of-the-art performance on a number of biased datasets, including real instances of biases in the wild.
翻訳日:2022-11-11 14:22:22 公開日:2022-11-10
# 航空自律性向上のためのスケーラブルなモジュール合成データ生成

Scalable Modular Synthetic Data Generation for Advancing Aerial Autonomy ( http://arxiv.org/abs/2211.05335v1 )

ライセンス: Link先を確認
Mehrnaz Sabet, Praveen Palanisamy, Sakshi Mishra(参考訳) 大規模な都市イノベーションにドローンの利点を活用するには、信頼できる航空自律性が必要である。 自律性向上の大きな障壁のひとつは、機械学習モデルをトレーニングするための大規模な空中データセット収集だ。 ドローンの展開によるコストと時間を要する実世界のデータ収集により、ドローンアプリケーションのトレーニングモデルに合成データを使用することへのシフトが増えている。 しかし、合成データに対する訓練されたポリシーの一般化性を高めるために、Ssim-to-real問題に対処するデータ生成ワークフローにドメインランダム化を組み込むことが重要である。 現在の合成データ生成ツールはドメインのランダム化を欠いているか、手動のワークロードや実際のサンプルに依存しており、様々なリアルなシミュレーションシーンの設定と生成を行っている。 これらの依存関係はデータ生成ワークフローのスケーラビリティを制限する。 したがって、合成データ生成の汎用性とスケーラビリティのバランスには大きな課題がある。 これらのギャップに対処するために、空の自律アプリケーションに適したスケーラブルなデータ生成ワークフローを導入します。 シミュレーションシーンのリアルな構成を多様化しながら生成するために,ドローン軌道のポーズ生成に先立って,アセットのタイプに依存しない分布空間を作成する適応型階層化ドメインランダム化手法を提案する。 我々は高レベルなシーン構造を利用して、資産を有効な構成に自動的に配置し、障害物生成とグローバルパラメータのランダム化を通じて多様性を拡大する。 多様な構成やデータセットを自動生成する手法の有効性を実証し、下流の性能最適化の可能性を示す。 我々の研究は、現実の状況に適応できるトレーニングモデルのベンチマークデータセットの強化に寄与します。

Harnessing the benefits of drones for urban innovation at scale requires reliable aerial autonomy. One major barrier to advancing aerial autonomy has been collecting large-scale aerial datasets for training machine learning models. Due to costly and time-consuming real-world data collection through deploying drones, there has been an increasing shift towards using synthetic data for training models in drone applications. However, to increase generalizability of trained policies on synthetic data, incorporating domain randomization into the data generation workflow for addressing the sim-to-real problem becomes crucial. Current synthetic data generation tools either lack domain randomization or rely heavily on manual workload or real samples for configuring and generating diverse realistic simulation scenes. These dependencies limit scalability of the data generation workflow. Accordingly, there is a major challenge in balancing generalizability and scalability in synthetic data generation. To address these gaps, we introduce a modular scalable data generation workflow tailored to aerial autonomy applications. To generate realistic configurations of simulation scenes while increasing diversity, we present an adaptive layered domain randomization approach that creates a type-agnostic distribution space for assets over the base map of the environments before pose generation for drone trajectory. We leverage high-level scene structures to automatically place assets in valid configurations and then extend the diversity through obstacle generation and global parameter randomization. We demonstrate the effectiveness of our method in automatically generating diverse configurations and datasets and show its potential for downstream performance optimization. Our work contributes to generating enhanced benchmark datasets for training models that can generalize better to real-world situations.
翻訳日:2022-11-11 14:21:32 公開日:2022-11-10
# 高速SNNトレーニングのためのノイズベース新しい戦略

A noise based novel strategy for faster SNN training ( http://arxiv.org/abs/2211.05453v1 )

ライセンス: Link先を確認
Chunming Jiang, Yilei Zhang(参考訳) スパイキングニューラルネットワーク(SNN)は、消費電力の低さと強力なバイオプロファイザビリティによって注目を集めている。 SNNの最適化は難しい課題である。 人工知能ニューラルネットワーク(ANN)-SNN変換とスパイクベースのバックプロパゲーション(BP)の2つの主要な手法には、それぞれ長所と短所がある。 ANN-to-SNN変換では、ANNの精度を近似するために長い推測時間を必要とするため、SNNの利点は減少する。 スパイクベースのBPでは、高精度SNNのトレーニングは通常、ANNの数十倍の計算資源と時間を消費する。 本稿では,2つの手法の利点を組み合わせた新しいSNNトレーニング手法を提案する。 まず、ランダムノイズでニューラルポテンシャル分布を近似し、単一ステップSNNを無作為に多ステップSNNに変換することで、単ステップSNNを訓練する。 ガウス分布ノイズの導入は変換後の精度を大幅に向上させる。 その結果,高い精度を維持しつつ,snsの学習時間と推論時間を大幅に削減できることがわかった。 従来の2つの手法と比較して、トレーニング時間は65%-75%削減でき、推論速度の100倍以上の速さで達成できる。 また、ノイズで強化されたニューロンモデルにより、より生物学的に楽観的であるとも主張する。

Spiking neural networks (SNNs) are receiving increasing attention due to their low power consumption and strong bio-plausibility. Optimization of SNNs is a challenging task. Two main methods, artificial neural network (ANN)-to-SNN conversion and spike-based backpropagation (BP), both have their advantages and limitations. For ANN-to-SNN conversion, it requires a long inference time to approximate the accuracy of ANN, thus diminishing the benefits of SNN. With spike-based BP, training high-precision SNNs typically consumes dozens of times more computational resources and time than their ANN counterparts. In this paper, we propose a novel SNN training approach that combines the benefits of the two methods. We first train a single-step SNN by approximating the neural potential distribution with random noise, then convert the single-step SNN to a multi-step SNN losslessly. The introduction of Gaussian distributed noise leads to a significant gain in accuracy after conversion. The results show that our method considerably reduces the training and inference times of SNNs while maintaining their high accuracy. Compared to the previous two methods, ours can reduce training time by 65%-75% and achieves more than 100 times faster inference speed. We also argue that the neuron model augmented with noise makes it more bio-plausible.
翻訳日:2022-11-11 14:21:05 公開日:2022-11-10
# 可逆確率性を有するニューラルネットワークユニットのロバスト性向上

Improving the Robustness of Neural Multiplication Units with Reversible Stochasticity ( http://arxiv.org/abs/2211.05624v1 )

ライセンス: Link先を確認
Bhumika Mistry, Katayoun Farrahi, Jonathon Hare(参考訳) 多層パーセプトロンは、特定の単純な算術タスクを学ぶのに苦労しています。 算術用神経モジュールは、外挿、解釈可能性、収束速度で古典的アーキテクチャよりも優れているが、訓練範囲に非常に敏感である。 本稿では,ニューラル乗算ユニット(NMU)が,異なる学習範囲を与えられた場合の2つの入力を乗算するほど簡単なタスクを確実に学習できないことを示す。 失敗の原因は、望ましくない最適解への収束を促進する誘導バイアスと入力バイアスに関係している。 確率的 NMU (sNMU) という解は可逆確率性を適用するために提案され、真の解に収束しながらそのようなオプティマを避ける。 経験的に、確率性は、数値的および画像的タスクのための上流ネットワークの学習表現を改善する可能性とともに、ロバスト性が向上することを示した。

Multilayer Perceptrons struggle to learn certain simple arithmetic tasks. Specialist neural modules for arithmetic can outperform classical architectures with gains in extrapolation, interpretability and convergence speeds, but are highly sensitive to the training range. In this paper, we show that Neural Multiplication Units (NMUs) are unable to reliably learn tasks as simple as multiplying two inputs when given different training ranges. Causes of failure are linked to inductive and input biases which encourage convergence to solutions in undesirable optima. A solution, the stochastic NMU (sNMU), is proposed to apply reversible stochasticity, encouraging avoidance of such optima whilst converging to the true solution. Empirically, we show that stochasticity provides improved robustness with the potential to improve learned representations of upstream networks for numerical and image tasks.
翻訳日:2022-11-11 14:20:45 公開日:2022-11-10
# desire backpropagation:spike-timing-dependent plasticityに基づく多層スパイクニューラルネットワークのための軽量学習アルゴリズム

Desire Backpropagation: A Lightweight Training Algorithm for Multi-Layer Spiking Neural Networks based on Spike-Timing-Dependent Plasticity ( http://arxiv.org/abs/2211.05412v1 )

ライセンス: Link先を確認
Daniel Gerlinghoff, Tao Luo, Rick Siow Mong Goh, Weng-Fai Wong(参考訳) エネルギー効率と計算複雑性が重要である場合、スパイキングニューラルネットワーク(SNN)は従来の人工ニューラルネットワークの代替となる。 SNNの大きな利点は、スパイク列車によるバイナリ情報転送である。 しかし、ニューロンモデルは微分不可能であり、従来の勾配に基づくバックプロパゲーションアルゴリズムを直接適用できないため、SNNのトレーニングは困難である。 さらに、spike-timing-dependent plasticity(stdp)は、スパイクベースの学習規則であるが、重みをローカルに更新し、ネットワークの出力エラーを最適化しない。 本稿では、出力誤差からニューロンの所望のスパイク活性を導出する方法であるdesire backpropagationを提案する。 損失関数は各ニューロンに対して局所的に評価される。 STDP重み更新に要求値を組み込むと、大域的エラーの最小化と分類精度の向上につながる。 同時に、stdpのニューロンダイナミクスと計算効率が維持され、スパイクベースの教師付き学習規則となる。 mnist と fashion-mnist を分類するために3層ネットワークを訓練し,それぞれ98.41% と 87.56% の精度を得た。 さらに,従来のニューラルネットワークのバックプロパゲーションよりも,要求のバックプロパゲーションが複雑でないことを示す。

Spiking neural networks (SNN) are a viable alternative to conventional artificial neural networks when energy efficiency and computational complexity are of importance. A major advantage of SNNs is their binary information transfer through spike trains. The training of SNN has, however, been a challenge, since neuron models are non-differentiable and traditional gradient-based backpropagation algorithms cannot be applied directly. Furthermore, spike-timing-dependent plasticity (STDP), albeit being a spike-based learning rule, updates weights locally and does not optimize for the output error of the network. We present desire backpropagation, a method to derive the desired spike activity of neurons from the output error. The loss function can then be evaluated locally for every neuron. Incorporating the desire values into the STDP weight update leads to global error minimization and increasing classification accuracy. At the same time, the neuron dynamics and computational efficiency of STDP are maintained, making it a spike-based supervised learning rule. We trained three-layer networks to classify MNIST and Fashion-MNIST images and reached an accuracy of 98.41% and 87.56%, respectively. Furthermore, we show that desire backpropagation is computationally less complex than backpropagation in traditional neural networks.
翻訳日:2022-11-11 14:20:29 公開日:2022-11-10
# トランスフォーマーは自然言語のフラグメントに推論できるのか?

Can Transformers Reason in Fragments of Natural Language? ( http://arxiv.org/abs/2211.05417v1 )

ライセンス: Link先を確認
Viktor Schlegel, Kamen V. Pavlov, Ian Pratt-Hartmann(参考訳) 自然言語処理(nlp)に対する最先端のディープラーニングベースのアプローチは、自然言語テキストの推論に関わるさまざまな機能を備えている。 本稿では, 満足度問題がますます複雑化する自然言語の制御された断片における形式的正当な推論の検出について, 大規模実証研究を行う。 トランスフォーマーベースの言語モデルはこれらのシナリオでは驚くほどうまく機能するが、より深い分析では、これらのフラグメントの推論を論理的に規定するよりも、データ内の表面的なパターンに過度に適合しているようである。

State-of-the-art deep-learning-based approaches to Natural Language Processing (NLP) are credited with various capabilities that involve reasoning with natural language texts. In this paper we carry out a large-scale empirical study investigating the detection of formally valid inferences in controlled fragments of natural language for which the satisfiability problem becomes increasingly complex. We find that, while transformer-based language models perform surprisingly well in these scenarios, a deeper analysis re-veals that they appear to overfit to superficial patterns in the data rather than acquiring the logical principles governing the reasoning in these fragments.
翻訳日:2022-11-11 14:19:27 公開日:2022-11-10
# 言語モデルのロバスト性および一般化性に及ぼす対人訓練の影響

Impact of Adversarial Training on Robustness and Generalizability of Language Models ( http://arxiv.org/abs/2211.05523v1 )

ライセンス: Link先を確認
Enes Altinisik, Hassan Sajjad, Husrev Taha Sencar, Safa Messaoud, Sanjay Chawla(参考訳) 敵の訓練は敵の攻撃に対する最も効果的な防御として広く認められている。 しかし、敵対的に訓練されたモデルにおける堅牢性と一般化の両立にはトレードオフが伴うことも十分に確立されている。 この研究の目的は、言語モデルにおける敵対的トレーニングのための異なるアプローチを深く比較することである。 具体的には,データの事前学習およびトレーニング時間入力摂動と埋め込み空間摂動がBERT型言語モデルの堅牢性と一般化に及ぼす影響について検討する。 以上の結果から,データの強化や入力空間の摂動によるトレーニングにより,より頑健性が得られることが示唆された。 しかし、埋め込み空間摂動によるトレーニングは一般化を著しく改善する。 学習モデルのニューロンの言語的相関解析により、改良された一般化は「より専門的な」ニューロンによるものであることが明らかになった。 我々の知識を最大限に活用するために、言語モデルの対角訓練における逆例を生成する様々な方法の深い定性的な分析を行うのは、これが初めてである。

Adversarial training is widely acknowledged as the most effective defense against adversarial attacks. However, it is also well established that achieving both robustness and generalization in adversarially trained models involves a trade-off. The goal of this work is to provide an in depth comparison of different approaches for adversarial training in language models. Specifically, we study the effect of pre-training data augmentation as well as training time input perturbations vs. embedding space perturbations on the robustness and generalization of BERT-like language models. Our findings suggest that better robustness can be achieved by pre-training data augmentation or by training with input space perturbation. However, training with embedding space perturbation significantly improves generalization. A linguistic correlation analysis of neurons of the learned models reveal that the improved generalization is due to `more specialized' neurons. To the best of our knowledge, this is the first work to carry out a deep qualitative analysis of different methods of generating adversarial examples in adversarial training of language models.
翻訳日:2022-11-11 14:19:17 公開日:2022-11-10
# ドメイン外インテント検出のためのソフトラベル推定

Estimating Soft Labels for Out-of-Domain Intent Detection ( http://arxiv.org/abs/2211.05561v1 )

ライセンス: Link先を確認
Hao Lang, Yinhe Zheng, Jian Sun, Fei Huang, Luo Si, Yongbin Li(参考訳) Out-of-Domain (OOD)インテント検出は,実際の対話システムにおいて重要である。 OODトレーニングサンプルの欠如を緩和するために、擬似OODサンプルを合成し、これらの擬似サンプルにワンホットOODラベルを直接割り当てることを提案する研究もある。 しかし、これらのシングルホットラベルは、ハード擬似OODサンプルがIn-Domain(IND)インテントと一致する可能性があるため、トレーニングプロセスにノイズをもたらす。 本稿では,OOD検出器のトレーニングにおいて,擬似OODサンプルのソフトラベルを推定できる適応型ソフト擬似ラベル法を提案する。 擬似OODサンプルとINDインテント間の意味的接続を埋め込みグラフを用いてキャプチャする。 さらに、滑らかさの仮定に従い、結果として生じるソフトラベルを生成するためのコトレーニングフレームワーク、すなわち、近接サンプルは類似のラベルを持つ可能性が高い。 3つのベンチマークデータセットの大規模な実験によると、ASoulはOOD検出性能を一貫して改善し、さまざまな競合ベースラインを上回っている。

Out-of-Domain (OOD) intent detection is important for practical dialog systems. To alleviate the issue of lacking OOD training samples, some works propose synthesizing pseudo OOD samples and directly assigning one-hot OOD labels to these pseudo samples. However, these one-hot labels introduce noises to the training process because some hard pseudo OOD samples may coincide with In-Domain (IND) intents. In this paper, we propose an adaptive soft pseudo labeling (ASoul) method that can estimate soft labels for pseudo OOD samples when training OOD detectors. Semantic connections between pseudo OOD samples and IND intents are captured using an embedding graph. A co-training framework is further introduced to produce resulting soft labels following the smoothness assumption, i.e., close samples are likely to have similar labels. Extensive experiments on three benchmark datasets show that ASoul consistently improves the OOD detection performance and outperforms various competitive baselines.
翻訳日:2022-11-11 14:13:43 公開日:2022-11-10
# DisentQA:疑似質問応答によるパラメトリックと文脈知識の両立

DisentQA: Disentangling Parametric and Contextual Knowledge with Counterfactual Question Answering ( http://arxiv.org/abs/2211.05655v1 )

ライセンス: Link先を確認
Ella Neeman, Roee Aharoni, Or Honovich, Leshem Choshen, Idan Szpektor, Omri Abend(参考訳) 質問応答モデルでは,(1)パラメトリック知識 (parametric knowledge) - モデル重みにエンコードされた事実知識 (factual knowledge) ,(2) 文脈知識 (contextual knowledge) - 外部知識 (e.g. wikipedia passage) の2つの「知識 (knowledge)」 へのアクセスが一般的である。 これら2つの知識が絡み合っていることは、生成的QAモデルにとって重要な問題であり、その答えが与えられた非パラメトリックな知識に由来するかどうかは不明である。 この曖昧さは、信頼、解釈可能性、事実性の問題に影響を及ぼす。 本研究では,2つの知識源を乱すためにQAモデルを訓練する新たなパラダイムを提案する。 本研究では,与えられた質問に対する2つの回答を予測するモデルを提案する。1つは与えられた文脈知識に基づくもので,もう1つはパラメトリック知識に基づくものである。 本研究では,2つの知識源間の知識衝突をより堅牢にし,有用な解答を生成することにより,QAモデルの性能を向上させることを示す。

Question answering models commonly have access to two sources of "knowledge" during inference time: (1) parametric knowledge - the factual knowledge encoded in the model weights, and (2) contextual knowledge - external knowledge (e.g., a Wikipedia passage) given to the model to generate a grounded answer. Having these two sources of knowledge entangled together is a core issue for generative QA models as it is unclear whether the answer stems from the given non-parametric knowledge or not. This unclarity has implications on issues of trust, interpretability and factuality. In this work, we propose a new paradigm in which QA models are trained to disentangle the two sources of knowledge. Using counterfactual data augmentation, we introduce a model that predicts two answers for a given question: one based on given contextual knowledge and one based on parametric knowledge. Our experiments on the Natural Questions dataset show that this approach improves the performance of QA models by making them more robust to knowledge conflicts between the two knowledge sources, while generating useful disentangled answers.
翻訳日:2022-11-11 14:13:26 公開日:2022-11-10
# Plutarch's ShadowsにおけるBERT

BERT in Plutarch's Shadows ( http://arxiv.org/abs/2211.05673v1 )

ライセンス: Link先を確認
Ivan P. Yamshchikov and Alexey Tikhonov and Yorgos Pantis and Charlotte Schubert and J\"urgen Jost(参考訳) 古代の学者プルタルコス・オブ・シャエロアネア (Plutarch of Chaeronea, 45-120 CE) の生き残りコーパスには、現在の学者の意見によれば、彼の起源ではなく、匿名の著作家プセド・プルタルコス(Pseudo-Plutarch)によるものである。 中でも特に、古代哲学史において極めて重要な『placita philosophorum』(古代哲学者の引用と意見)がある。 その匿名の著者の身元や同時代の他の作家との関係についてはほとんど分かっていない。 本稿では古代ギリシア語のためのBERT言語モデルを提案する。 このモデルは、これらの文学的、哲学的、歴史的問題に関連するこれまで未知の統計的性質を発見し、この著者の疑問に新たな光を当てることができる。 特に、プラチータ哲学は、他のプシュード・プルータルコスの文献の1つとともに、アレクサンドリアの文脈(2世紀・3世紀)の著者によって書かれたテキストと類似性を示している。

The extensive surviving corpus of the ancient scholar Plutarch of Chaeronea (ca. 45-120 CE) also contains several texts which, according to current scholarly opinion, did not originate with him and are therefore attributed to an anonymous author Pseudo-Plutarch. These include, in particular, the work Placita Philosophorum (Quotations and Opinions of the Ancient Philosophers), which is extremely important for the history of ancient philosophy. Little is known about the identity of that anonymous author and its relation to other authors from the same period. This paper presents a BERT language model for Ancient Greek. The model discovers previously unknown statistical properties relevant to these literary, philosophical, and historical problems and can shed new light on this authorship question. In particular, the Placita Philosophorum, together with one of the other Pseudo-Plutarch texts, shows similarities with the texts written by authors from an Alexandrian context (2nd/3rd century CE).
翻訳日:2022-11-11 14:13:04 公開日:2022-11-10
# 分類としての回帰:課題定式化がニューラルネットワークの特徴に及ぼす影響

Regression as Classification: Influence of Task Formulation on Neural Network Features ( http://arxiv.org/abs/2211.05641v1 )

ライセンス: Link先を確認
Lawrence Stewart (SIERRA), Francis Bach (SIERRA), Quentin Berthet, Jean-Philippe Vert(参考訳) ニューラルネットワークは2乗損失を最小限に抑えるために勾配法を用いて回帰問題を解くことができる。 しかし、実践者はしばしば回帰を分類問題として再編成し、クロスエントロピー損失のトレーニングがより良いパフォーマンスをもたらすことを観察する。 特徴空間上の測度によって完全に特徴付けられる2層ReLUネットワークに着目して、勾配に基づく最適化によって引き起こされる暗黙のバイアスが、上記の現象を部分的に説明できるかを検討する。 回帰定式化は, 1次元データの場合, 分類において, 支持度が大きく異なる尺度が得られるという理論的証拠を提供する。 提案する最適サポートは,ネットワークの入力層で学習した特徴と直接対応している。 これらのサポートの異なる性質は、トレーニング中に正方形損失が発生する可能性のある最適化の困難さに光を当て、この現象を実証する実験結果を示す。

Neural networks can be trained to solve regression problems by using gradient-based methods to minimize the square loss. However, practitioners often prefer to reformulate regression as a classification problem, observing that training on the cross entropy loss results in better performance. By focusing on two-layer ReLU networks, which can be fully characterized by measures over their feature space, we explore how the implicit bias induced by gradient-based optimization could partly explain the above phenomenon. We provide theoretical evidence that the regression formulation yields a measure whose support can differ greatly from that for classification, in the case of one-dimensional data. Our proposed optimal supports correspond directly to the features learned by the input layer of the network. The different nature of these supports sheds light on possible optimization difficulties the square loss could encounter during training, and we present empirical results illustrating this phenomenon.
翻訳日:2022-11-11 14:12:42 公開日:2022-11-10
# プロトタイプの超球モデルによる少数ショット分類

Few-shot Classification with Hypersphere Modeling of Prototypes ( http://arxiv.org/abs/2211.05319v1 )

ライセンス: Link先を確認
Ning Ding, Yulin Chen, Ganqu Cui, Xiaobin Wang, Hai-Tao Zheng, Zhiyuan Liu, Pengjun Xie(参考訳) メトリックベースのメタ学習は、数ショット学習におけるデファクトスタンダードの1つである。 表現学習とメトリクス計算設計で構成されている。 以前の作品はクラス表現を異なる方法で構成しており、平均出力埋め込みから共分散や分布まで様々である。 しかし、空間への埋め込みは表現性に欠け、クラス情報をしっかりと捉えられないが、統計複素モデリングは計量設計に困難をもたらす。 本研究では,数点学習のための幾何学的視点からクラスをモデル化するためにテンソル場(`areas'')を用いる。 本稿では,ハイパースフィア・プロトタイプ (HyperProto) と呼ばれる,ハイパースフィアの中心と半径という2つの学習可能なパラメータセットを持つ動的サイズを持つハイパースフィアでクラス情報を表現する,シンプルで効果的な手法を提案する。 点から領域へ拡大すると、超球面は埋め込みよりも表現力が高い。 さらに,データ点からハイパースフィアの表面までの距離を計算するだけで,統計モデルよりも,ハイパースフィアのプロトタイプを用いた計量ベースの分類を行う方が便利である。 このアイデアに続いて、他の測定基準の下で2種類のプロトタイプも開発する。 NLP と CV の多種多様な学習課題に関する実験と分析を行い,20以上の競争ベースラインとの比較を行った結果,本手法の有効性が示された。

Metric-based meta-learning is one of the de facto standards in few-shot learning. It composes of representation learning and metrics calculation designs. Previous works construct class representations in different ways, varying from mean output embedding to covariance and distributions. However, using embeddings in space lacks expressivity and cannot capture class information robustly, while statistical complex modeling poses difficulty to metric designs. In this work, we use tensor fields (``areas'') to model classes from the geometrical perspective for few-shot learning. We present a simple and effective method, dubbed hypersphere prototypes (HyperProto), where class information is represented by hyperspheres with dynamic sizes with two sets of learnable parameters: the hypersphere's center and the radius. Extending from points to areas, hyperspheres are much more expressive than embeddings. Moreover, it is more convenient to perform metric-based classification with hypersphere prototypes than statistical modeling, as we only need to calculate the distance from a data point to the surface of the hypersphere. Following this idea, we also develop two variants of prototypes under other measurements. Extensive experiments and analysis on few-shot learning tasks across NLP and CV and comparison with 20+ competitive baselines demonstrate the effectiveness of our approach.
翻訳日:2022-11-11 14:12:26 公開日:2022-11-10
# DisPositioNet: セマンティックイメージ操作におけるアンタングルとアイデンティティ

DisPositioNet: Disentangled Pose and Identity in Semantic Image Manipulation ( http://arxiv.org/abs/2211.05499v1 )

ライセンス: Link先を確認
Azade Farshad, Yousef Yeganeh, Helisa Dhamo, Federico Tombari, Nassir Navab(参考訳) シーングラフと呼ばれるシーン内のオブジェクトとその関係のグラフ表現は、グラフのノードまたはエッジを変更してシーンを操作するための精密で識別可能なインターフェースを提供する。 既存の研究は、オブジェクトの配置やポーズを変更するという有望な結果を示しているが、シーン操作はしばしば、オブジェクトの外観やアイデンティティのような視覚的特徴を失う。 本研究では,シーングラフを自己教師型で画像操作するタスクに対して,各オブジェクトに対する不整合表現を学習するモデルであるDisPositioNetを提案する。 我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。 ポーズやアイデンティティなどの特徴の分解によるより現実的な画像の生成に加えて,中間機能における確率的サンプリングを利用して,オブジェクト置換や追加タスクにおいてより多様な画像を生成する。 実験の結果,モデルの潜在多様体における特徴表現のアンタングル化は,2つの公的なベンチマークにおいて,前処理を質的に定量的に上回ることを示した。 プロジェクトページ: https://scenegenie.github.io/dispositionet/

Graph representation of objects and their relations in a scene, known as a scene graph, provides a precise and discernible interface to manipulate a scene by modifying the nodes or the edges in the graph. Although existing works have shown promising results in modifying the placement and pose of objects, scene manipulation often leads to losing some visual characteristics like the appearance or identity of objects. In this work, we propose DisPositioNet, a model that learns a disentangled representation for each object for the task of image manipulation using scene graphs in a self-supervised manner. Our framework enables the disentanglement of the variational latent embeddings as well as the feature representation in the graph. In addition to producing more realistic images due to the decomposition of features like pose and identity, our method takes advantage of the probabilistic sampling in the intermediate features to generate more diverse images in object replacement or addition tasks. The results of our experiments show that disentangling the feature representations in the latent manifold of the model outperforms the previous works qualitatively and quantitatively on two public benchmarks. Project Page: https://scenegenie.github.io/DispositioNet/
翻訳日:2022-11-11 14:11:05 公開日:2022-11-10
# mgiad: あらゆる次元のマルチグリッド。 分解能およびチャネル次元の粗大化による効率性とロバスト性

MGiaD: Multigrid in all dimensions. Efficiency and robustness by coarsening in resolution and channel dimensions ( http://arxiv.org/abs/2211.05525v1 )

ライセンス: Link先を確認
Antonia van Betteray, Matthias Rottmann and Karsten Kahl(参考訳) 画像分類のための最先端のディープニューラルネットワークは、10~1億の学習可能な重量で構成されているため、本質的に過度に適合する傾向にある。 重みカウントの複雑さは、チャネルの数、入力の空間的範囲、ネットワークの層数といった関数と見なすことができる。 畳み込み層を用いるため、重量の複雑さのスケーリングは通常、解像度の次元に関して線形であるが、チャネルの数に関して二次的である。 近年、ディープニューラルネットワークにおけるマルチグリッドインスパイアされたアイデアの利用に関する活発な研究により、適切な重み共有によってかなりの量の重みを節約できる一方、チャネル次元の階層構造は重み複雑性を線形に改善できることが示された。 本研究では,これらマルチグリッドのアイデアを組み合わせることで,すべての次元のマルチグリッド構造を活用して,線形重み複雑性のスケーリングと軽量化を実現する,マルチグリッドにインスパイアされたアーキテクチャの融合フレームワークを導入する。 実験により,この構造的軽量化はオーバーフィッティングを低減し,ネットワークの複雑さを低減した典型的な画像分類ベンチマークにおいて,最先端のResNetアーキテクチャよりも優れた性能を示した。

Current state-of-the-art deep neural networks for image classification are made up of 10 - 100 million learnable weights and are therefore inherently prone to overfitting. The complexity of the weight count can be seen as a function of the number of channels, the spatial extent of the input and the number of layers of the network. Due to the use of convolutional layers the scaling of weight complexity is usually linear with regards to the resolution dimensions, but remains quadratic with respect to the number of channels. Active research in recent years in terms of using multigrid inspired ideas in deep neural networks have shown that on one hand a significant number of weights can be saved by appropriate weight sharing and on the other that a hierarchical structure in the channel dimension can improve the weight complexity to linear. In this work, we combine these multigrid ideas to introduce a joint framework of multigrid inspired architectures, that exploit multigrid structures in all relevant dimensions to achieve linear weight complexity scaling and drastically reduced weight counts. Our experiments show that this structured reduction in weight count is able to reduce overfitting and thus shows improved performance over state-of-the-art ResNet architectures on typical image classification benchmarks at lower network complexity.
翻訳日:2022-11-11 14:10:48 公開日:2022-11-10
# StyleNAT: それぞれのヘッドに新たな視点を与える

StyleNAT: Giving Each Head a New Perspective ( http://arxiv.org/abs/2211.05770v1 )

ライセンス: Link先を確認
Steven Walton, Ali Hassani, Xingqian Xu, Zhangyang Wang, Humphrey Shi(参考訳) 画像生成は長く追求されてきたが困難な課題であり、効率的な生成タスクの実行も同様に困難である。 多くの場合、研究者は"one size fits all"ジェネレータを作成しようとするが、パラメータ空間には劇的に異なるデータセットの差がほとんどない。 本稿では,優れた効率と柔軟性を備えた高品質画像生成を目的とした,新しいトランスフォーマティブベースのフレームワークstylenatを提案する。 我々のモデルの中核となるのは、注意を分割して局所的およびグローバルな情報をキャプチャする、慎重に設計されたフレームワークであり、これは、Neighborhood Attention (NA)を使用して達成される。 異なる頭部が様々な受容領域に注意を払っているため、モデルはこれらの情報をよりうまく組み合わせ、非常に柔軟な方法で、手元にあるデータに適応することができる。 StyleNATはFFHQ-256で2.046で新しいSOTA FIDスコアを獲得し、StyleGAN-XLやHITやStyleSwinなどの変圧器、FFHQ-1024で新しいSOTAのFIDスコアが4.174である。 これらの結果から,ffhq-256はパラメータ数28%,サンプリングスループットは56%改善し,s stylegan-xlと比較すると6.4%改善した。 コードとモデルはhttps://github.com/SHI-Labs/StyleNATでオープンソース化される。

Image generation has been a long sought-after but challenging task, and performing the generation task in an efficient manner is similarly difficult. Often researchers attempt to create a "one size fits all" generator, where there are few differences in the parameter space for drastically different datasets. Herein, we present a new transformer-based framework, dubbed StyleNAT, targeting high-quality image generation with superior efficiency and flexibility. At the core of our model, is a carefully designed framework that partitions attention heads to capture local and global information, which is achieved through using Neighborhood Attention (NA). With different heads able to pay attention to varying receptive fields, the model is able to better combine this information, and adapt, in a highly flexible manner, to the data at hand. StyleNAT attains a new SOTA FID score on FFHQ-256 with 2.046, beating prior arts with convolutional models such as StyleGAN-XL and transformers such as HIT and StyleSwin, and a new transformer SOTA on FFHQ-1024 with an FID score of 4.174. These results show a 6.4% improvement on FFHQ-256 scores when compared to StyleGAN-XL with a 28% reduction in the number of parameters and 56% improvement in sampling throughput. Code and models will be open-sourced at https://github.com/SHI-Labs/StyleNAT .
翻訳日:2022-11-11 14:10:13 公開日:2022-11-10
# 高レベル人工知能の差別化リスクと制御の課題

Examining the Differential Risk from High-level Artificial Intelligence and the Question of Control ( http://arxiv.org/abs/2211.03157v2 )

ライセンス: Link先を確認
Kyle A. Kilian, Christopher J. Ventura, and Mark M. Bailey(参考訳) 人工知能(AI)は21世紀で最も革新的な技術の一つである。 将来のAI能力の範囲と範囲は依然として重要な不確実性であり、タイムラインと潜在的な影響について広く意見が分かれている。 国家やテクノロジー企業はAIシステムの複雑さと自律性に向かって競争しているため、不透明なAI決定プロセスの統合と監視の程度に懸念がある。 これは特に機械学習(ml)のサブ分野において当てはまり、システムは人間の助けなしに目的を最適化することを学ぶ。 オブジェクトは不完全な指定や、予期しないあるいは潜在的に有害な方法で実行される。 システムがパワーと自律性が増すにつれて、突然の能力の上昇が予期せぬパワーダイナミクスの変化や壊滅的な失敗を引き起こす可能性がある。 本研究では,aiリスクをモデル化する階層的複雑システムフレームワークと,代替先物分析のためのテンプレートを提案する。 調査データは、AIの影響と可能性の分類のために、パブリックおよびプライベートセクターのドメインエキスパートから収集された。 その結果、強力なaiエージェントシナリオに対する不確実性が高まり、マルチエージェント環境への信頼が高まり、aiアライメントの失敗や影響調査行動に対する懸念が高まった。

Artificial Intelligence (AI) is one of the most transformative technologies of the 21st century. The extent and scope of future AI capabilities remain a key uncertainty, with widespread disagreement on timelines and potential impacts. As nations and technology companies race toward greater complexity and autonomy in AI systems, there are concerns over the extent of integration and oversight of opaque AI decision processes. This is especially true in the subfield of machine learning (ML), where systems learn to optimize objectives without human assistance. Objectives can be imperfectly specified or executed in an unexpected or potentially harmful way. This becomes more concerning as systems increase in power and autonomy, where an abrupt capability jump could result in unexpected shifts in power dynamics or even catastrophic failures. This study presents a hierarchical complex systems framework to model AI risk and provide a template for alternative futures analysis. Survey data were collected from domain experts in the public and private sectors to classify AI impact and likelihood. The results show increased uncertainty over the powerful AI agent scenario, confidence in multiagent environments, and increased concern over AI alignment failures and influence-seeking behavior.
翻訳日:2022-11-11 14:04:21 公開日:2022-11-10
# カーネルバナッハ空間の再生によるニューラルネットワークの双対性

Duality for Neural Networks through Reproducing Kernel Banach Spaces ( http://arxiv.org/abs/2211.05020v2 )

ライセンス: Link先を確認
Len Spek, Tjeerd Jan Heeringa, Christoph Brune(参考訳) Kernel Hilbert空間(RKHS)の再現は、機械学習の様々な分野で非常に成功したツールである。 近年、ニューラルネットワークの一般化誤差の限界を証明するためにバロン空間が用いられている。 残念ながら、重みの強い非線形結合のため、バロン空間はRKHSでは理解できない。 より一般的な Reproduction Kernel Banach 空間 (RKBS) を用いてこの問題を解くことができることを示す。 この積分 RKBS のクラスは RKHS 空間の無限統一として理解することができる。 RKBS はヒルベルト空間ではないので、自身の双対空間ではない。 しかし、その双対空間は、データとパラメータの役割が交換されるRKBSであり、双対空間における再生特性を含む随伴対のRKBSを形成することを示す。 これにより、プライマル・ディレクティブ最適化の分野全体で使用できるニューラルネットワークのサドルポイント問題を構築することができる。

Reproducing Kernel Hilbert spaces (RKHS) have been a very successful tool in various areas of machine learning. Recently, Barron spaces have been used to prove bounds on the generalisation error for neural networks. Unfortunately, Barron spaces cannot be understood in terms of RKHS due to the strong nonlinear coupling of the weights. We show that this can be solved by using the more general Reproducing Kernel Banach spaces (RKBS). This class of integral RKBS can be understood as an infinite union of RKHS spaces. As the RKBS is not a Hilbert space, it is not its own dual space. However, we show that its dual space is again an RKBS where the roles of the data and parameters are interchanged, forming an adjoint pair of RKBSs including a reproducing property in the dual space. This allows us to construct the saddle point problem for neural networks, which can be used in the whole field of primal-dual optimisation.
翻訳日:2022-11-11 14:03:06 公開日:2022-11-10
# スパースグラフを用いたコミュニティ検出のためのグラフニューラルネットワーク

Graph Neural Networks for Community Detection on Sparse Graphs ( http://arxiv.org/abs/2211.03231v2 )

ライセンス: Link先を確認
Luana Ruiz, Ningyuan Huang, Soledad Villar(参考訳) スペクトル法は、密度グラフにおけるコミュニティ検出のための一貫した推定器を提供する。 しかし、グラフがスペーサーになるにつれてパフォーマンスは悪化する。 本研究では,異なるレベルのグラフを生成可能なランダムグラフモデルについて検討し,グラフニューラルネットワークがスパースグラフのスペクトル法より優れていることを示す。 結果は合成グラフと実グラフの両方で数値的な例で示します。

Spectral methods provide consistent estimators for community detection in dense graphs. However, their performance deteriorates as the graphs become sparser. In this work we consider a random graph model that can produce graphs at different levels of sparsity, and we show that graph neural networks can outperform spectral methods on sparse graphs. We illustrate the results with numerical examples in both synthetic and real graphs.
翻訳日:2022-11-11 14:02:52 公開日:2022-11-10
# 3操作ADMMを用いたフェデレーション学習

Federated Learning Using Three-Operator ADMM ( http://arxiv.org/abs/2211.04152v2 )

ライセンス: Link先を確認
Shashi Kant, Jos\'e Mairton B. da Silva Jr., Gabor Fodor, Bo G\"oransson, Mats Bengtsson, and Carlo Fischione(参考訳) フェデレーション学習(federated learning, fl)は、ユーザ側で生成されたデータの送信を回避する分散機械学習パラダイムの例である。 データは送信されないが、エッジデバイスは、ユーザのデバイスの限られた計算資源のために、限られた通信帯域幅、データの均一性、およびストラグラー効果を扱う必要がある。 このような困難を克服するための顕著なアプローチはFedADMMであり、これは古典的な2演算コンセンサスによる乗算器の交互方向法(ADMM)に基づいている。 FedADMMを含むFLアルゴリズムの一般的な前提は、エッジサーバではなく、ユーザの側でデータを使用してグローバルモデルを学ぶことである。 しかし、エッジ学習では、サーバーはベースステーションの近くにあり、リッチデータセットに直接アクセスすることが期待されている。 本稿では,エッジサーバ上のリッチデータを活用することは,ユーザデータセットのみを利用するよりもずっと有益であると主張する。 具体的には,エッジサーバ上のデータを表す仮想ユーザノードの追加によるflの適用が非効率であることを示す。 我々は、FedADMMを一般化したFedTOP-ADMMを提案し、エッジサーバ上のスムーズなコスト関数を利用して、エッジデバイスと平行なグローバルモデルを学習する3演算ADMM方式の手法に基づく。 数値実験により,FedTOP-ADMMは,エッジサーバ上の仮想ユーザを含むFedADMMに対して,所望のテスト精度に到達するために,通信効率が最大33倍に向上していることが示された。

Federated learning (FL) has emerged as an instance of distributed machine learning paradigm that avoids the transmission of data generated on the users' side. Although data are not transmitted, edge devices have to deal with limited communication bandwidths, data heterogeneity, and straggler effects due to the limited computational resources of users' devices. A prominent approach to overcome such difficulties is FedADMM, which is based on the classical two-operator consensus alternating direction method of multipliers (ADMM). The common assumption of FL algorithms, including FedADMM, is that they learn a global model using data only on the users' side and not on the edge server. However, in edge learning, the server is expected to be near the base station and have direct access to rich datasets. In this paper, we argue that leveraging the rich data on the edge server is much more beneficial than utilizing only user datasets. Specifically, we show that the mere application of FL with an additional virtual user node representing the data on the edge server is inefficient. We propose FedTOP-ADMM, which generalizes FedADMM and is based on a three-operator ADMM-type technique that exploits a smooth cost function on the edge server to learn a global model parallel to the edge devices. Our numerical experiments indicate that FedTOP-ADMM has substantial gain up to 33\% in communication efficiency to reach a desired test accuracy with respect to FedADMM, including a virtual user on the edge server.
翻訳日:2022-11-11 14:02:46 公開日:2022-11-10
# 視覚・言語研究におけるより公平なニューラルモデルのためのデバイアス法:調査

Debiasing Methods for Fairer Neural Models in Vision and Language Research: A Survey ( http://arxiv.org/abs/2211.05617v1 )

ライセンス: Link先を確認
Ot\'avio Parraga, Martin D. More, Christian M. Oliveira, Nathan S. Gavenski, Lucas S. Kupssinsk\"u, Adilson Medronha, Luis V. Moura, Gabriel S. Sim\~oes, Rodrigo C. Barros(参考訳) いくつかのコンピュータビジョンや自然言語処理タスクで最先端の結果に責任があるにもかかわらず、ニューラルネットワークは現在の欠点によって厳しい批判にさらされている。 その1つは、ニューラルネットワークが実際の有用な因果関係ではなく、データ内のバイアスをモデル化する傾向にある相関マシンであることだ。 この問題は、人種、性別、年齢といった側面に影響されるアプリケーション領域で特に深刻である。 モデルが不公平な決定を下すのを防ぐため、AIコミュニティはアルゴリズムのバイアスを修正する努力を集中させており、現在ではAIの公正さとして知られている研究領域を生み出している。 本稿では,視覚と言語研究の文脈において,フェアネス認識ニューラルネットワークの主なデバイアス手法を詳細に概観する。 本稿では,公平性の脱バイアスに関する文献を整理するための新しい分類法を提案し,研究者や実践者にとっての課題,傾向,今後の課題について考察する。

Despite being responsible for state-of-the-art results in several computer vision and natural language processing tasks, neural networks have faced harsh criticism due to some of their current shortcomings. One of them is that neural networks are correlation machines prone to model biases within the data instead of focusing on actual useful causal relationships. This problem is particularly serious in application domains affected by aspects such as race, gender, and age. To prevent models from incurring on unfair decision-making, the AI community has concentrated efforts in correcting algorithmic biases, giving rise to the research area now widely known as fairness in AI. In this survey paper, we provide an in-depth overview of the main debiasing methods for fairness-aware neural networks in the context of vision and language research. We propose a novel taxonomy to better organize the literature on debiasing methods for fairness, and we discuss the current challenges, trends, and important future work directions for the interested researcher and practitioner.
翻訳日:2022-11-11 14:02:22 公開日:2022-11-10
# MMDialog:マルチモーダルオープンドメイン会話に向けた大規模マルチターン対話データセット

MMDialog: A Large-scale Multi-turn Dialogue Dataset Towards Multi-modal Open-domain Conversation ( http://arxiv.org/abs/2211.05719v1 )

ライセンス: Link先を確認
Jiazhan Feng, Qingfeng Sun, Can Xu, Pu Zhao, Yaming Yang, Chongyang Tao, Dongyan Zhao, Qingwei Lin(参考訳) マルチモーダルコンテンツによる応答は、インテリジェントな会話エージェントにとって不可欠な能力であると認識されている。 本稿では,マルチモーダル会話をより容易にするためのMDDialogデータセットを提案する。 MMDialogは1億800万の現実世界の対話と4,184のトピックにわたる1億3300万のユニークな画像で構成されている。 MMDialogには2つの利点がある。 まず,対話数8倍のマルチモーダル会話データセットとして最大である。 第二に、オープンドメインを一般化するための膨大なトピックが含まれている。 このデータセットを用いて対話システムを構築するために,検索シナリオと生成シナリオに基づく2つの応答生成タスクを提案する。 さらに,上述の課題に対する最新技術による2つのベースラインを構築し,実験性能を報告する。 また,マルチモーダル応答を測定するための新しい評価指標MM-Relevanceを提案する。 データセットとスクリプトはhttps://github.com/victorsungo/MMDialog.comで公開しています。

Responding with multi-modal content has been recognized as an essential capability for an intelligent conversational agent. In this paper, we introduce the MMDialog dataset to better facilitate multi-modal conversation. MMDialog is composed of a curated set of 1.08 million real-world dialogues with 1.53 million unique images across 4,184 topics. MMDialog has two main and unique advantages. First, it is the largest multi-modal conversation dataset by the number of dialogues by 8x. Second, it contains massive topics to generalize the open-domain. To build engaging dialogue system with this dataset, we propose and normalize two response producing tasks based on retrieval and generative scenarios. In addition, we build two baselines for above tasks with state-of-the-art techniques and report their experimental performance. We also propose a novel evaluation metric MM-Relevance to measure the multi-modal responses. Our dataset and scripts are available in https://github.com/victorsungo/MMDialog.
翻訳日:2022-11-11 14:02:08 公開日:2022-11-10
# NEON: 抵抗型RAMベースニューラルネットワーク加速器における非線形動作の効率的な支援

NEON: Enabling Efficient Support for Nonlinear Operations in Resistive RAM-based Neural Network Accelerators ( http://arxiv.org/abs/2211.05730v1 )

ライセンス: Link先を確認
Aditya Manglik, Minesh Patel, Haiyu Mao, Behzad Salami, Jisung Park, Lois Orosa, Onur Mutlu(参考訳) Resistive Random-Access Memory(RRAM)は、ほとんどのNNワークロードのバックボーンを形成するMAC操作をネイティブにサポートするRRAMベースのProcessing-in-Memory(PIM)アーキテクチャとして、ニューラルネットワーク(NN)ワークロードの高速化に適している。 残念ながら、トランスフォーマーのようなNNワークロードは、RRAMがネイティブに提供できない非MAC操作(ソフトマックスなど)をサポートする必要がある。 その結果、最先端技術は、MAC以外の操作をサポートするために追加のデジタル論理回路を統合するか、またはMAC以外の操作をCPU/GPUにオフロードする。 本稿では,NNワークロードをRRAMでエンドツーエンドに実行可能にする新しいコンパイラであるNEONを提案する。 NEONの鍵となる考え方は、各非MAC操作を軽量で高精度なニューラルネットワークに変換することである。 非MAC操作を近似するためにニューラルネットワークを利用すると、2つの利点がある。 1)RRAM,すなわち高並列MAC演算の鍵となる強度を利用して,メモリ内の非MAC演算を柔軟かつ効率的に実行することができる。 2) RRAMのマイクロアーキテクチャは,データ移動オーバーヘッドを低減しつつ,追加のディジタル論理回路を不要にすることで単純化することができる。 メモリ内の非MAC操作の高速化により、NEONは理想化されたデジタル論理ベースのRRAMに比べて2.28倍のスピードアップを達成することができる。 トランスフォーメーションに伴うトレードオフを分析し,異なる基板間におけるネオンの利用可能性を示す。

Resistive Random-Access Memory (RRAM) is well-suited to accelerate neural network (NN) workloads as RRAM-based Processing-in-Memory (PIM) architectures natively support highly-parallel multiply-accumulate (MAC) operations that form the backbone of most NN workloads. Unfortunately, NN workloads such as transformers require support for non-MAC operations (e.g., softmax) that RRAM cannot provide natively. Consequently, state-of-the-art works either integrate additional digital logic circuits to support the non-MAC operations or offload the non-MAC operations to CPU/GPU, resulting in significant performance and energy efficiency overheads due to data movement. In this work, we propose NEON, a novel compiler optimization to enable the end-to-end execution of the NN workload in RRAM. The key idea of NEON is to transform each non-MAC operation into a lightweight yet highly-accurate neural network. Utilizing neural networks to approximate the non-MAC operations provides two advantages: 1) We can exploit the key strength of RRAM, i.e., highly-parallel MAC operation, to flexibly and efficiently execute non-MAC operations in memory. 2) We can simplify RRAM's microarchitecture by eliminating the additional digital logic circuits while reducing the data movement overheads. Acceleration of the non-MAC operations in memory enables NEON to achieve a 2.28x speedup compared to an idealized digital logic-based RRAM. We analyze the trade-offs associated with the transformation and demonstrate feasible use cases for NEON across different substrates.
翻訳日:2022-11-11 14:01:54 公開日:2022-11-10
# GREENER:ニュースメディアプロファイリングのためのグラフニューラルネットワーク

GREENER: Graph Neural Networks for News Media Profiling ( http://arxiv.org/abs/2211.05533v1 )

ライセンス: Link先を確認
Panayot Panayotov, Utsav Shukla, Husrev Taha Sencar, Mohamed Nabeel, Preslav Nakov(参考訳) 本稿では,ウェブ上でのニュースメディアのプロファイリングの問題について,その実態と偏見について考察する。 これは、偽情報や「フェイクニュース」検出に関連する重要な問題であるが、個々の記事や個々のクレームを見るよりも、より粗い粒度で問題に対処する。 これは、メディアコンセント全体を事前にプロファイルできるので便利だ。 主にテキスト(例えば、ターゲットのウェブサイトで公開された記事のテキストや、ソーシャルメディアのプロフィールやwikipediaでのテキスト記述など)に焦点を当てた以前の作品とは異なり、ここでは、オーディエンスの重複に基づいて、メディアアウトレット間の類似性をモデル化することに重点を置いています。 これは、ホモフィリーな考慮、すなわち、人々が同様の関心を持つ人々とつながりを持つ傾向によって動機付けられ、我々がメディアに拡張し、同様のタイプのメディアが同様の種類のユーザーによって読まれると仮定する。 特にgreener(graph neural network for news media profiles)を提案する。greener(graph neural network for news media profiles)は、メディア間接続のグラフをオーディエンス重複に基づいて構築し、各メディアをグラフニューラルネットワークで表現するモデルである。 これらの表現は、ニュースメディアの事実と偏見を予測するのに非常に有用であり、2つのデータセットで報告された最先端の結果よりも改善されている。 ニュース記事、Twitter、YouTube、Facebook、Wikipediaから得られた従来の表現を付加すると、予測精度は2つのタスクで2.5-27のマクロF1ポイント向上する。

We study the problem of profiling news media on the Web with respect to their factuality of reporting and bias. This is an important but under-studied problem related to disinformation and "fake news" detection, but it addresses the issue at a coarser granularity compared to looking at an individual article or an individual claim. This is useful as it allows to profile entire media outlets in advance. Unlike previous work, which has focused primarily on text (e.g.,~on the text of the articles published by the target website, or on the textual description in their social media profiles or in Wikipedia), here our main focus is on modeling the similarity between media outlets based on the overlap of their audience. This is motivated by homophily considerations, i.e.,~the tendency of people to have connections to people with similar interests, which we extend to media, hypothesizing that similar types of media would be read by similar kinds of users. In particular, we propose GREENER (GRaph nEural nEtwork for News mEdia pRofiling), a model that builds a graph of inter-media connections based on their audience overlap, and then uses graph neural networks to represent each medium. We find that such representations are quite useful for predicting the factuality and the bias of news media outlets, yielding improvements over state-of-the-art results reported on two datasets. When augmented with conventionally used representations obtained from news articles, Twitter, YouTube, Facebook, and Wikipedia, prediction accuracy is found to improve by 2.5-27 macro-F1 points for the two tasks.
翻訳日:2022-11-11 14:01:26 公開日:2022-11-10
# トランスファーラーニングによるグローバル作物マップを目指して

Towards Global Crop Maps with Transfer Learning ( http://arxiv.org/abs/2211.04755v2 )

ライセンス: Link先を確認
Hyun-Woo Jo, Alkiviadis Koukos, Vasileios Sitokonstantinou, Woo-Kyun Lee and Charalampos Kontoes(参考訳) 世界人口の継続的な増加と気候変動が作物生産に与える影響は、食料セクターに大きな影響を及ぼすと予想されている。 この文脈では、証拠に基づく意思決定のために作物のタイムリーで大規模で正確なマッピングが必要である。 この方向に向けた重要なイネーブルは、高時空間解像度とグローバルカバレッジの巨大なリモートセンシングデータを自由に提供する新しい衛星ミッションである。 過去10年間、この大規模な地球観測の急増により、深層学習はリモートセンシングと作物マッピングの文献を支配してきた。 それにもかかわらず、ディープラーニングモデルは大量の注釈付きデータを必要とする。 この問題を解決するために、移動学習法は利用可能なアノテーションを利用して、他の地域、作物の種類、年次検査のための作物マッピングを可能にする。 本研究では,sentinel-1 vh時系列を用いた韓国における水稲検出のための深層学習モデルを開発した。 次にモデルを微調整する 一 フランス及びスペインにおける水田水稲の検出及び検出 二 オランダにおける大麦の検出 さらに,付加的な入力特徴(Sentinel-1 VV)を組み込むために,事前訓練した重量の修正を提案する。 本手法は,同じ作物の異なる地域での移動において優れた性能を示し,異なる地域での移動において,より有望な結果を示す。

The continuous increase in global population and the impact of climate change on crop production are expected to affect the food sector significantly. In this context, there is need for timely, large-scale and precise mapping of crops for evidence-based decision making. A key enabler towards this direction are new satellite missions that freely offer big remote sensing data of high spatio-temporal resolution and global coverage. During the previous decade and because of this surge of big Earth observations, deep learning methods have dominated the remote sensing and crop mapping literature. Nevertheless, deep learning models require large amounts of annotated data that are scarce and hard-to-acquire. To address this problem, transfer learning methods can be used to exploit available annotations and enable crop mapping for other regions, crop types and years of inspection. In this work, we have developed and trained a deep learning model for paddy rice detection in South Korea using Sentinel-1 VH time-series. We then fine-tune the model for i) paddy rice detection in France and Spain and ii) barley detection in the Netherlands. Additionally, we propose a modification in the pre-trained weights in order to incorporate extra input features (Sentinel-1 VV). Our approach shows excellent performance when transferring in different areas for the same crop type and rather promising results when transferring in a different area and crop type.
翻訳日:2022-11-11 13:54:24 公開日:2022-11-10
# 物語を語れない言語モデルと何が間違っているのか?

What is Wrong with Language Models that Can Not Tell a Story? ( http://arxiv.org/abs/2211.05044v2 )

ライセンス: Link先を確認
Ivan P. Yamshchikov and Alexey Tikhonov(参考訳) 本稿では,物語のより深い理解と,より主観的に興味深いテキストの生成の成功は,現代自然言語処理(nlp)の進展を妨げる重要なボトルネックであり,人工知能の分野全体に存在する可能性も示唆する。 ナラティブ処理の作業に使用できる適切なデータセットや評価方法,さらには運用上の概念さえ存在しないことを実証する。

This paper argues that a deeper understanding of narrative and the successful generation of longer subjectively interesting texts is a vital bottleneck that hinders the progress in modern Natural Language Processing (NLP) and may even be in the whole field of Artificial Intelligence. We demonstrate that there are no adequate datasets, evaluation methods, and even operational concepts that could be used to start working on narrative processing.
翻訳日:2022-11-11 13:54:03 公開日:2022-11-10
# シーン記述を生成するv&lモデルにおけるクロスモーダル相互作用の理解

Understanding Cross-modal Interactions in V&L Models that Generate Scene Descriptions ( http://arxiv.org/abs/2211.04971v2 )

ライセンス: Link先を確認
Michele Cafagna, Kees van Deemter, Albert Gatt(参考訳) 画像キャプションモデルは、オブジェクト中心の方法でイメージを記述する傾向があり、可視オブジェクトを強調する。 しかし、画像記述はオブジェクトから抽象化され、描写されたシーンのタイプを記述することもできる。 本稿では,(1)オブジェクト中心とシーン記述を組み合わせた新しいデータセットを用いて,映像をシーンレベルでキャプションする,最先端のビジョン・アンド・ランゲージモデル VinVL の可能性を検討する。 2) 微調整の効果の詳細な分析を通して,(3) シーン内のオブジェクトレベルの概念を識別する能力を失うことなく,少量のキュレートデータでシーン記述を生成することができることを示す。 本稿では,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。

Image captioning models tend to describe images in an object-centric way, emphasising visible objects. But image descriptions can also abstract away from objects and describe the type of scene depicted. In this paper, we explore the potential of a state-of-the-art Vision and Language model, VinVL, to caption images at the scene level using (1) a novel dataset which pairs images with both object-centric and scene descriptions. Through (2) an in-depth analysis of the effect of the fine-tuning, we show (3) that a small amount of curated data suffices to generate scene descriptions without losing the capability to identify object-level concepts in the scene; the model acquires a more holistic view of the image compared to when object-centric descriptions are generated. We discuss the parallels between these results and insights from computational and cognitive science research on scene perception.
翻訳日:2022-11-11 13:53:55 公開日:2022-11-10
# ARNet:ノイズのある部分ラベル学習のための自動リファインメントネットワーク

ARNet: Automatic Refinement Network for Noisy Partial Label Learning ( http://arxiv.org/abs/2211.04774v2 )

ライセンス: Link先を確認
Zheng Lian, Mingyu Xu, Lan Chen, Licai Sun, Bin Liu, Jianhua Tao(参考訳) 部分ラベル学習 (pll) は典型的な弱い教師付き学習であり、各サンプルは候補ラベルのセットに関連付けられる。 PLLの基本的な前提は、基底真実ラベルが候補集合内にある必要があることである。 しかし、この仮定はアノテータの非専門的な判断により満たされず、したがって PLL の実践的適用が制限される。 本稿では,この仮定を緩和し,候補集合に基底ラベルが存在しないような,より一般的な問題である雑音pllに注目する。 この課題に対処するため、我々はさらに「ARNet(Automatic Refinement Network)」と呼ばれる新しいフレームワークを提案する。 本手法は複数ラウンドからなる。 各ラウンドにおいて、ノイズサンプルを2つのキーモジュール、すなわちノイズサンプル検出とラベル補正によって浄化する。 これらのモジュールの性能を保証するため、ウォームアップトレーニングを開始し、適切な修正時期を自動的に選択する。 また,arnetにおける予測誤差をさらに低減するために,データ拡張を利用する。 理論的解析により,本手法がデータセットの雑音レベルを低減し,最終的にベイズ最適分類器を近似できることを示す。 ARNetの有効性を検証するために、複数のベンチマークデータセットで実験を行う。 実験の結果,我々のARNetはノイズの多いPLLにおける既存の最先端アプローチよりも優れていることがわかった。 私たちのコードはもうすぐ公開されるでしょう。

Partial label learning (PLL) is a typical weakly supervised learning, where each sample is associated with a set of candidate labels. The basic assumption of PLL is that the ground-truth label must reside in the candidate set. However, this assumption may not be satisfied due to the unprofessional judgment of the annotators, thus limiting the practical application of PLL. In this paper, we relax this assumption and focus on a more general problem, noisy PLL, where the ground-truth label may not exist in the candidate set. To address this challenging problem, we further propose a novel framework called "Automatic Refinement Network (ARNet)". Our method consists of multiple rounds. In each round, we purify the noisy samples through two key modules, i.e., noisy sample detection and label correction. To guarantee the performance of these modules, we start with warm-up training and automatically select the appropriate correction epoch. Meanwhile, we exploit data augmentation to further reduce prediction errors in ARNet. Through theoretical analysis, we prove that our method is able to reduce the noise level of the dataset and eventually approximate the Bayes optimal classifier. To verify the effectiveness of ARNet, we conduct experiments on multiple benchmark datasets. Experimental results demonstrate that our ARNet is superior to existing state-of-the-art approaches in noisy PLL. Our code will be made public soon.
翻訳日:2022-11-11 13:53:39 公開日:2022-11-10
# グラフに基づくデータ評価とルール推論によるDeep Explainable Learning

Deep Explainable Learning with Graph Based Data Assessing and Rule Reasoning ( http://arxiv.org/abs/2211.04693v2 )

ライセンス: Link先を確認
Yuanlong Li, Gaopan Huang, Min Zhou, Chuan Fu, Honglin Qiao, Yan He(参考訳) 説明可能な分類器の学習は、しばしば低い精度のモデルや巨大なルールセットで終わるが、深層モデルの学習は、通常、大規模にノイズの多いデータを扱うことができるが、その結果を説明するのが難しく、一般化が弱い。 このギャップを緩和するために,ノイズハンドリングにおける深いモデルの利点と,エキスパートルールに基づく解釈可能性を組み合わせた,エンドツーエンドの深い説明可能な学習手法を提案する。 具体的には,各観測結果の相関関係をグラフとしてモデル化した深部データ評価モデルを学習し,その出力を重要データの特徴抽出に用いることを提案する。 主要な機能は、トレーニング可能なパラメータを持つノイズの多いエキスパートルールに従って構築されたルールネットワークに入力される。 これらのモデルが相関しているため、ルール分類損失を利用してルール学習モデルとデータ評価モデルを同時に最適化するエンドツーエンドのトレーニングフレームワークを提案する。 ルールベースの計算は微分不可能であるため、ルール学習モデルからデータ評価モデルへの勾配情報を運ぶための勾配リンク探索モジュールを提案する。 提案手法は産業生産システムにおいて,適切な深層アンサンブルベースラインと比較して高い予測精度,より高い一般化安定性,より優れた解釈性を示すとともに,純粋なルールベースアプローチよりもはるかに優れた適合力を示す。

Learning an explainable classifier often results in low accuracy model or ends up with a huge rule set, while learning a deep model is usually more capable of handling noisy data at scale, but with the cost of hard to explain the result and weak at generalization. To mitigate this gap, we propose an end-to-end deep explainable learning approach that combines the advantage of deep model in noise handling and expert rule-based interpretability. Specifically, we propose to learn a deep data assessing model which models the data as a graph to represent the correlations among different observations, whose output will be used to extract key data features. The key features are then fed into a rule network constructed following predefined noisy expert rules with trainable parameters. As these models are correlated, we propose an end-to-end training framework, utilizing the rule classification loss to optimize the rule learning model and data assessing model at the same time. As the rule-based computation is none-differentiable, we propose a gradient linking search module to carry the gradient information from the rule learning model to the data assessing model. The proposed method is tested in an industry production system, showing comparable prediction accuracy, much higher generalization stability and better interpretability when compared with a decent deep ensemble baseline, and shows much better fitting power than pure rule-based approach.
翻訳日:2022-11-11 13:53:16 公開日:2022-11-10
# MEVID: ビデオパーソン再識別のためのアイデンティティ付きマルチビュー拡張ビデオ

MEVID: Multi-view Extended Videos with Identities for Video Person Re-Identification ( http://arxiv.org/abs/2211.04656v2 )

ライセンス: Link先を確認
Daniel Davila, Dawei Du, Bryon Lewis, Christopher Funk, Joseph Van Pelt, Roderick Collins, Kellie Corona, Matt Brown, Scott McCloskey, Anthony Hoogs, Brian Clipp(参考訳) 本稿では,大規模ビデオパーソン再識別(ReID)のためのMulti-view Extended Videos with Identities(MEVID)データセットを提案する。 私たちの知る限り、MEVIDは最も有望なビデオ人物ReIDデータセットであり、73日間の窓で9つのユニークな日付の屋内および屋外環境、様々なカメラ視点、そして実体的な衣服の変化にまたがる。 具体的には,大規模 meva パーソン・アクティビティ・データセット の 33 台のカメラ・ビュー で見た,8,092 個のトラックレット,約 590 フレームの平均長の 598 個の衣装を身に着けた 158 人の身元を分類した。 他のデータセットには、よりユニークなアイデンティティがあるが、MEVIDでは、CCVIDの4つの服/アイデンティティ対2の服/アイデンティティ、MTAの5つのシミュレーションされたロケーションの6つに対して33の視点、LS-VIDの1000万フレーム対300万といった、個々の情報の豊富なセットを強調している。 MEVAビデオデータセットをベースとして、人口統計学的にアメリカ大陸にバランスのとれたデータを継承する。 アノテーション処理を高速化するために,オブジェクト検出,ポーズ推定,人物ReID,多対象追跡のための最先端のリアルタイムモデルを組み合わせた半自動アノテーションフレームワークとGUIを開発した。 我々は,MEVID問題に対するいくつかの最先端手法を評価し,その堅牢性を,衣装,規模,背景位置の変化の観点から総合的に定量化する。 MEVIDの現実的でユニークな側面を定量的に分析したところ、ビデオパーソンのReIDには大きな課題が残っており、今後の研究にとって重要な方向性を示している。

In this paper, we present the Multi-view Extended Videos with Identities (MEVID) dataset for large-scale, video person re-identification (ReID) in the wild. To our knowledge, MEVID represents the most-varied video person ReID dataset, spanning an extensive indoor and outdoor environment across nine unique dates in a 73-day window, various camera viewpoints, and entity clothing changes. Specifically, we label the identities of 158 unique people wearing 598 outfits taken from 8, 092 tracklets, average length of about 590 frames, seen in 33 camera views from the very large-scale MEVA person activities dataset. While other datasets have more unique identities, MEVID emphasizes a richer set of information about each individual, such as: 4 outfits/identity vs. 2 outfits/identity in CCVID, 33 viewpoints across 17 locations vs. 6 in 5 simulated locations for MTA, and 10 million frames vs. 3 million for LS-VID. Being based on the MEVA video dataset, we also inherit data that is intentionally demographically balanced to the continental United States. To accelerate the annotation process, we developed a semi-automatic annotation framework and GUI that combines state-of-the-art real-time models for object detection, pose estimation, person ReID, and multi-object tracking. We evaluate several state-of-the-art methods on MEVID challenge problems and comprehensively quantify their robustness in terms of changes of outfit, scale, and background location. Our quantitative analysis on the realistic, unique aspects of MEVID shows that there are significant remaining challenges in video person ReID and indicates important directions for future research.
翻訳日:2022-11-11 13:52:36 公開日:2022-11-10
# マクロ経済学とファイナンスのための強化ベイズニューラルネットワーク

Enhanced Bayesian Neural Networks for Macroeconomics and Finance ( http://arxiv.org/abs/2211.04752v2 )

ライセンス: Link先を確認
Niko Hauzenberger, Florian Huber, Karin Klieber, Massimiliano Marcellino(参考訳) 我々は、(おそらく大きな)マクロ経済・金融変数の一般的な非線形性と時間変動をモデル化できるベイズニューラルネットワーク(BNN)を開発した。 方法論的な観点から、高密度またはスパースなデータセットに適用可能なネットワークの一般的な仕様化を可能にし、様々な活性化関数、おそらく非常に多くのニューロン、エラー項に対する確率的ボラティリティ(SV)を組み合わせた。 計算の観点からは,提案する一般bnnの高速かつ効率的な推定アルゴリズムを開発した。 実証的な観点からは、シミュレーションデータと共通のマクロ・ファイナンシャル・アプリケーションの両方を用いて、特に対象変数の断面分布や時系列分布の尾部での観測において、bnnが実用的な利用が可能であることを示す。

We develop Bayesian neural networks (BNNs) that permit to model generic nonlinearities and time variation for (possibly large sets of) macroeconomic and financial variables. From a methodological point of view, we allow for a general specification of networks that can be applied to either dense or sparse datasets, and combines various activation functions, a possibly very large number of neurons, and stochastic volatility (SV) for the error term. From a computational point of view, we develop fast and efficient estimation algorithms for the general BNNs we introduce. From an empirical point of view, we show both with simulated data and with a set of common macro and financial applications that our BNNs can be of practical use, particularly so for observations in the tails of the cross-sectional or time series distributions of the target variables.
翻訳日:2022-11-11 13:52:00 公開日:2022-11-10