このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221214となっている論文です。

PDF登録状況(公開日: 20221214)

TitleAuthorsAbstract論文公表日・翻訳日
# 連続変数資源の漸近状態変換

Asymptotic state transformations of continuous variable resources ( http://arxiv.org/abs/2010.00044v3 )

ライセンス: Link先を確認
Giovanni Ferrari, Ludovico Lami, Thomas Theurer, Martin B. Plenio(参考訳) 連続変数量子資源理論における漸近状態変換の研究を行う。 特に, 半連続性の低いモノトンと強い過敏性を示すモノトンは, これらの条件下での漸近変換速度の拘束に有効であることを示す。 これにより漸近連続性は不要となり、無限次元系では従来の意味では定義できない。 我々は、(I)光非古典性の資源理論、(II)絡み合い、(III)量子熱力学の3つの応用を考察する。 ii)と(iii)の場合、使用されるモノトンはそれぞれ(無限次元)スクワッシュされた絡み合いと自由エネルギーである。 実例(I)では、非古典性の相対エントロピーを測り、半連続的かつ強加法的であることを示す。 我々の主要な技術的貢献の1つであり、これらの結果を確立するための重要なツールは、非古典性の相対エントロピーを測定するための便利な変分表現です。 この手法は, 線形光学素子下で達成可能なものを含む漸近変換速度の計算可能な上限を与える。 また,非古典性の相対エントロピーの測定値が任意の物理的有意味な状態上に有界であること,また,fock対角状態など,いくつかの興味のある状態のクラスに対して容易に計算可能であることを保証した。 本研究の結論は,猫状態の操作とノイズの多いFock状態の浄化の問題に適用することである。

We study asymptotic state transformations in continuous variable quantum resource theories. In particular, we prove that monotones displaying lower semicontinuity and strong superadditivity can be used to bound asymptotic transformation rates in these settings. This removes the need for asymptotic continuity, which cannot be defined in the traditional sense for infinite-dimensional systems. We consider three applications, to the resource theories of (I) optical nonclassicality, (II) entanglement, and (III) quantum thermodynamics. In cases (II) and (III), the employed monotones are the (infinite-dimensional) squashed entanglement and the free energy, respectively. For case (I), we consider the measured relative entropy of nonclassicality and prove it to be lower semicontinuous and strongly superadditive. One of our main technical contributions, and a key tool to establish these results, is a handy variational expression for the measured relative entropy of nonclassicality. Our technique then yields computable upper bounds on asymptotic transformation rates, including those achievable under linear optical elements. We also prove a number of results which guarantee that the measured relative entropy of nonclassicality is bounded on any physically meaningful state and easily computable for some classes of states of interest, e.g., Fock diagonal states. We conclude by applying our findings to the problem of cat state manipulation and noisy Fock state purification.
翻訳日:2023-04-30 14:11:31 公開日:2022-12-14
# 位相量子鎖の厳密な相関

Exact correlations in topological quantum chains ( http://arxiv.org/abs/2105.13359v2 )

ライセンス: Link先を確認
Nick G. Jones, Ruben Verresen(参考訳) 自由フェルミオン系は正確には解くことができると考えられるが、位相的弦相関や絡み合い測度のような非局所的な量に対する閉表現は一般に認めない。 位相的フェルミオンワイヤ(BDI と AIII のクラス)の特定のクラスにおいて、そのような量の閉表現を導出する。 この結果は一般化クラスタモデルと呼ばれるスピン鎖にも適用できる。 While there is a bijection between general models in these classes and Laurent polynomials, restricting to polynomials with degenerate zeros leads to a plethora of exact results: (1) we derive closed expressions for the string correlation functions -- the order parameters for the topological phases in these classes; (2) we obtain an exact formula for the characteristic polynomial of the correlation matrix, giving insight into ground state entanglement; (3) the latter implies that the ground state can be described by a matrix product state (MPS) with a finite bond dimension in the thermodynamic limit -- an independent and explicit construction for the BDI class is given in a concurrent work (Jones, Bibo, Jobst, Pollmann, Smith, Verresen, Phys. Rev. 3 033265 (2021)); (4) 整数位相不変量を持つ BDI モデルに対して、転送行列のすべての非ゼロ固有値は、上記の多項式の零点と逆零点の積として識別される。 これらのクラスの一般的なモデルは、我々が分析するモデルの限界を取り、その結果をさらに応用することで得られる。 我々の知る限りでは、これらの結果はデイの公式とゴロデツキーの公式の多体量子物理学へのトエプリッツ行列式の最初の応用である。

Although free-fermion systems are considered exactly solvable, they generically do not admit closed expressions for nonlocal quantities such as topological string correlations or entanglement measures. We derive closed expressions for such quantities for a dense subclass of certain classes of topological fermionic wires (classes BDI and AIII). Our results also apply to spin chains called generalised cluster models. While there is a bijection between general models in these classes and Laurent polynomials, restricting to polynomials with degenerate zeros leads to a plethora of exact results: (1) we derive closed expressions for the string correlation functions -- the order parameters for the topological phases in these classes; (2) we obtain an exact formula for the characteristic polynomial of the correlation matrix, giving insight into ground state entanglement; (3) the latter implies that the ground state can be described by a matrix product state (MPS) with a finite bond dimension in the thermodynamic limit -- an independent and explicit construction for the BDI class is given in a concurrent work (Jones, Bibo, Jobst, Pollmann, Smith, Verresen, Phys. Rev. Res. 3 033265 (2021)); (4) for BDI models with even integer topological invariant, all non-zero eigenvalues of the transfer matrix are identified as products of zeros and inverse zeros of the aforementioned polynomial. General models in these classes can be obtained by taking limits of the models we analyse, giving a further application of our results. To the best of our knowledge, these results constitute the first application of Day's formula and Gorodetsky's formula for Toeplitz determinants to many-body quantum physics.
翻訳日:2023-03-29 09:07:53 公開日:2022-12-14
# 非同期並列多目的進化アルゴリズムにおける評価時間バイアスの影響を低減する周波数ベース親選択法

A Frequency-based Parent Selection for Reducing the Effect of Evaluation Time Bias in Asynchronous Parallel Multi-objective Evolutionary Algorithms ( http://arxiv.org/abs/2107.12053v2 )

ライセンス: Link先を確認
Tomohiro Harada(参考訳) 並列進化アルゴリズム(PEAs)は並列計算を利用して進化アルゴリズムの実行時間を短縮するために研究されている。 非同期PEA(英: asynchronous PEA)は、計算ノードのアイドリング時間なしで解の評価が完了した直後に新しい解を生成することにより計算効率を向上させるPEAのスキームである。 しかし apea はより短い評価時間で解に対してより多くの検索機会を与えるため、解の評価時間バイアスは検索性能に悪影響を及ぼす。 そこで本研究では,APEAにおける評価時間バイアスの影響を低減するための親選択手法を提案する。 提案手法は, 解の探索頻度を考慮し, 親解を選択し, 評価時間バイアスによらず, 集団の探索進捗が一様になるようにする。 本稿では,評価時間バイアスをシミュレートする多目的最適化問題の実験を行う。 実験では、よく知られた多目的進化アルゴリズムnsga-iiiを用いて、従来の同期/同期並列化法と比較した。 実験結果から,提案手法は並列NSGA-IIIの計算時間を削減しつつ,評価時間バイアスの効果を低減することができることがわかった。

Parallel evolutionary algorithms (PEAs) have been studied for reducing the execution time of evolutionary algorithms by utilizing parallel computing. An asynchronous PEA (APEA) is a scheme of PEAs that increases computational efficiency by generating a new solution immediately after a solution evaluation completes without the idling time of computing nodes. However, because APEA gives more search opportunities to solutions with shorter evaluation times, the evaluation time bias of solutions negatively affects the search performance. To overcome this drawback, this paper proposes a new parent selection method to reduce the effect of evaluation time bias in APEAs. The proposed method considers the search frequency of solutions and selects the parent solutions so that the search progress in the population is uniform regardless of the evaluation time bias. This paper conducts experiments on multi-objective optimization problems that simulate the evaluation time bias. The experiments use NSGA-III, a well-known multi-objective evolutionary algorithm, and compare the proposed method with the conventional synchronous/asynchronous parallelization. The experimental results reveal that the proposed method can reduce the effect of the evaluation time bias while reducing the computing time of the parallel NSGA-III.
翻訳日:2023-03-20 21:39:07 公開日:2022-12-14
# 境界絡み状態の比較力学的研究

Comparative Dynamical Study of a Bound Entangled State ( http://arxiv.org/abs/2110.08046v3 )

ライセンス: Link先を確認
Suprabhat Sinha(参考訳) バウンドエンタングル状態はノイズのエンタングルメントを持ち、蒸留は非常に難しいが、バウンドエンタングル状態の有用性は異なる応用で表現されている。 この記事では、Bennettらによって提案された有界絡み合った状態の1つに対する開量子系の比較力学的研究を示す。 本研究は, ハイゼンベルク, bi-linear bi-quadratic, dzyaloshinskii-moriya (dm) 相互作用の影響下で行った。 研究中、補助クトリットは選択された2つのクトリットバウンドエンタングル状態のクトリットの1つと異なる相互作用を通じて相互作用する。 計算可能なクロスノーム・アライメント(CCNR)基準は状態の有界絡みの検出に使われ、負性は自由絡みの測定に応用されている。 この3倍の研究から、補助クォートリットは相互作用において重要な役割を果たすが、クォートリットの確率振幅は開量子系に影響を及ぼさないことが観察された。 さらに、Dzyaloshinskii-Moriya(DM)相互作用は、すべての相互作用の中で選択された有界絡み状態の活性化に優れることがわかった。

The bound entangled state carries noisy entanglement and it is very hard to distill but the usefulness of bound entangled states has been depicted in different applications. This article represents a comparative dynamical study of an open quantum system for one of the bound entangled states proposed by Bennett et al. The study is conducted under the influence of Heisenberg, bi-linear bi-quadratic and Dzyaloshinskii-Moriya (DM) interaction. During the study, an auxiliary qutrit interacts with one of the qutrits of the selected two qutrit bound entangled state through different interactions. The computable cross-norm or realignment (CCNR) criterion has been used to detect the bound entanglement of the state and the negativity has been applied to measure the free entanglement. From this three-fold study it is observed that, although the auxiliary qutrit plays a significant role during the interaction, the probability amplitude of the qutrit does not affect the open quantum system. Further, it is found that the Dzyaloshinskii-Moriya (DM) interaction performs better to activate the chosen bound entangled state among all the interactions.
翻訳日:2023-03-11 12:01:47 公開日:2022-12-14
# 非線形重力波中の量子シグネチャ

Quantum signatures in nonlinear gravitational waves ( http://arxiv.org/abs/2111.01779v4 )

ライセンス: Link先を確認
Thiago Guerreiro, Francesco Coradeschi, Antonia Micol Frassino, Jennifer Rittenhouse West, Enrico Junior Schioppa(参考訳) 重力の効果的な量子場理論は、非正規化性にもかかわらず、古典的な一般相対性理論を超えて予測することができる。 重力波天文学の時代に入ると、古典的な重力から外れた測定可能な量子予測が古典的な電磁力学では説明できない量子光学効果に類似しているかどうかが重要かつタイムリーな疑問である。 本研究では,量子光学のツールを用いて重力波中の量子シグネチャを調べる。 シュイーズドコヒーレント重力波は、ポアソニアン重力の統計量を示すことができ、干渉計によって測定された信号を増強または抑制することができる。 さらに、ガウス重力波量子状態は、重力波の1つのコピーと相互作用する光学場のアンサンブルから再構成することができ、古典的な一般相対性理論を超えて重力の量子的特徴を検出することができる。

The effective quantum field theory description of gravity, despite its non-renormalizability, allows for predictions beyond classical general relativity. As we enter the age of gravitational wave astronomy, an important and timely question is whether measurable quantum predictions that depart from classical gravity, analogous to quantum optics effects which cannot be explained by classical electrodynamics, can be found. In this work, we investigate quantum signatures in gravitational waves using tools from quantum optics. Squeezed-coherent gravitational waves, which can exhibit sub-Poissonian graviton statistics, can enhance or suppress the signal measured by an interferometer, a characteristic effect of quantum squeezing. Moreover, we show that Gaussian gravitational wave quantum states can be reconstructed from measurements over an ensemble of optical fields interacting with a single copy of the gravitational wave, thus opening the possibility of detecting quantum features of gravity beyond classical general relativity.
翻訳日:2023-03-09 08:39:27 公開日:2022-12-14
# 量子イジング鎖におけるエンタングルメント転移:同じリンドブラディアンの異なるアンラベリングの比較

Entanglement transitions in the quantum Ising chain: A comparison between different unravelings of the same Lindbladian ( http://arxiv.org/abs/2111.11300v4 )

ライセンス: Link先を確認
Giulia Piccitto and Angelo Russomanno and Davide Rossini(参考訳) 量子イジング鎖の絡み合いのダイナミクスを,リンドブラッドマスター方程式形式における散逸を強調することで研究する。 状態のガウス形式を保ち、大きなシステムサイズに対処することができる2つの非レーブリングを考える。 第1のアンレーブリングは量子状態拡散ダイナミクスを生じさせ、第2のものはガウス性を保存するのに好適な量子ジャンプ進化の特定の形態を記述する。 最初のケースでは、エリアローから対数ローの絡み合いスケーリングへのクロスオーバーを見つけ、関連するフェーズ図を描きます。 2つ目のケースでは対数法則のスケーリングしか見つからず、同じリンドブラッド方程式の異なる解の異なる絡み合い挙動について言及する。 最後に、これらの結果と非エルミートハミルトン進化の予測を比較し、矛盾する結果を見出す。

We study the dynamics of entanglement in the quantum Ising chain with dephasing dissipation in a Lindblad master equation form. We consider two unravelings which preserve the Gaussian form of the state, allowing to address large system sizes. The first unraveling gives rise to a quantum-state-diffusion dynamics, while the second one describes a specific form of quantum-jump evolution, suitably constructed to preserve Gaussianity. In the first case we find a crossover from area-law to logarithm-law entanglement scaling and draw the related phase diagram. In the second case we only find logarithm-law scaling, remarking the different entanglement behavior for different unravelings of the same Lindblad equation. Finally, we compare these outcomes with the predictions of a non-Hermitian Hamiltonian evolution, finding conflicting results.
翻訳日:2023-03-07 04:20:55 公開日:2022-12-14
# 平衡量子リンクモデルにおける量子場理論の極限化

Achieving the quantum field theory limit in far-from-equilibrium quantum link models ( http://arxiv.org/abs/2112.04501v3 )

ライセンス: Link先を確認
Jad C. Halimeh, Maarten Van Damme, Torsten V. Zache, Debasish Banerjee, Philipp Hauke(参考訳) 量子合成物質のセットアップにおけるゲージ理論の実現は、凝縮物質や高エネルギー物理学における有能なエキゾチック現象の発見の可能性と、量子情報や科学技術への潜在的な応用をもたらす。 このような実現に向けた目覚ましい努力から、格子ゲージ理論の量子リンクモデル正規化に関する根本的な疑問は、ゲージ理論の量子場理論の極限をいかに忠実に捉えるかである。 最近の研究(zache, van damme, halimeh, hauke, banerjee, at https://journals.aps.org/prd/abstract/10.1103/physrevd.106.l091502)では、解析的導出、正確な対角化、無限行列積状態計算により、1+1$d$\mathrm{u}(1) の低エネルギー物理学が既に小さなリンクスピン長$s$で量子場理論の限界に近づくことが示されている。 ここでは、この極限へのアプローチは、熱力学の極限で直接働く無限行列積状態におけるロシミト回帰率とキラル凝縮の数値シミュレーションで示されているように、格子ゲージ理論の遠方平衡クエンチ力学にも寄与することを示す。 半整数スピン長と整数スピン長の間に異なる挙動を示す平衡の発見と同様、強い電場結合の条件下では、半整数スピン量子リンクモデルと整数スピン量子リンクモデルとでは、ロシミト戻り率の臨界性が根本的に異なることが分かる。 さらに, 量子リンク格子ゲージ理論の最先端の有限サイズ超コールド原子およびnisqデバイス実装は, 平衡状態から遠い状態においても, 量子場理論の限界をシミュレートする可能性を秘めている。

Realizations of gauge theories in setups of quantum synthetic matter open up the possibility of probing salient exotic phenomena in condensed matter and high-energy physics, along with potential applications in quantum information and science technologies. In light of the impressive ongoing efforts to achieve such realizations, a fundamental question regarding quantum link model regularizations of lattice gauge theories is how faithfully they capture the quantum field theory limit of gauge theories. Recent work [Zache, Van Damme, Halimeh, Hauke, and Banerjee, at https://journals.aps.org/prd/abstract/10.1103/PhysRevD.106.L091502 has shown through analytic derivations, exact diagonalization, and infinite matrix product state calculations that the low-energy physics of $1+1$D $\mathrm{U}(1)$ quantum link models approaches the quantum field theory limit already at small link spin length $S$. Here, we show that the approach to this limit also lends itself to the far-from-equilibrium quench dynamics of lattice gauge theories, as demonstrated by our numerical simulations of the Loschmidt return rate and the chiral condensate in infinite matrix product states, which work directly in the thermodynamic limit. Similar to our findings in equilibrium that show a distinct behavior between half-integer and integer link spin lengths, we find that criticality emerging in the Loschmidt return rate is fundamentally different between half-integer and integer spin quantum link models in the regime of strong electric-field coupling. Our results further affirm that state-of-the-art finite-size ultracold-atom and NISQ-device implementations of quantum link lattice gauge theories have the real potential to simulate their quantum field theory limit even in the far-from-equilibrium regime.
翻訳日:2023-03-05 02:54:44 公開日:2022-12-14
# 量子相転移後における破れた対称性状態の重ね合わせによって誘起されるコヒーレント多体振動

Coherent Many-Body Oscillations Induced by a Superposition of Broken Symmetry States in the Wake of a Quantum Phase Transition ( http://arxiv.org/abs/2201.12540v2 )

ライセンス: Link先を確認
Jacek Dziarmaga, Marek M. Rams, and Wojciech H. Zurek(参考訳) 量子相転移の臨界領域を通るクエンチは、古典的位相的欠陥の類似物である位相的欠陥が乗じた後遷移状態を引き起こすと広く受け入れられている。 しかし、クエンチ後の状態が、異なる数と欠陥の場所を持つ異なる破壊対称性の空白の「it重ね合わせ」であるという非常に非古典的事実の結果は、ほとんど解明されていない。 このような重ね合わせによって引き起こされるコヒーレントな量子振動は、対称性の破れに関わる観測値と相補する。 これらの振動はキブル・ズレーク力学スケーリング則をクエンチ速度で満たし、システムのギャップを中心に瞬時振動周波数が設定される。 異なる破壊対称性状態の重ね合わせの明らかな基本的重要性に加えて、量子コヒーレント振動はユニタリティの検証や量子シミュレータの実験的実装の不完全性の試験に使うことができる。

It is now widely accepted that quenches through the critical region of quantum phase transitions result in post-transition states populated with topological defects -- analogs of the classical topological defects. However, consequences of the very non-classical fact that the state after a quench is a {\it superposition} of distinct, broken-symmetry vacua with different numbers and locations of defects have remained largely unexplored. We identify coherent quantum oscillations induced by such superpositions in observables complementary to the one involved in symmetry breaking. These oscillations satisfy Kibble-Zurek dynamical scaling laws with the quench rate, with an instantaneous oscillation frequency set primarily by the gap of the system. In addition to the obvious fundamental significance of a superposition of different broken symmetry states, quantum coherent oscillations can be used to verify unitarity and test for imperfections of the experimental implementations of quantum simulators.
翻訳日:2023-02-27 09:00:30 公開日:2022-12-14
# リバースエンジニアリング教育における分析調査

A Reverse Engineering Education Needs Analysis Survey ( http://arxiv.org/abs/2212.07531v1 )

ライセンス: Link先を確認
Charles R. Barone IV, Robert Serafin, Ilya Shavrov, Ibrahim Baggili, Aisha Ali-Gombe, Golden G. Richard III, Andrew Case(参考訳) 本稿では,Reverse Engineering (RE)におけるニーズ分析調査の結果について述べる。 デジタル法医学におけるリバースエンジニアの必要性は、マルウェア分析がより複雑になるにつれて増え続けている。 この調査は、サイバーセキュリティ産業で使用されるツール、REを教える方法、REに関連する教育資源を調べるために作成された。 59名 (n=93) の回答を得た。 参加者はオプションであるため、すべての調査質問に回答しなかった。 その結果、24/71 (33.8%) の回答の大多数は強く同意し、22/71 (30.99%) の回答は、リソースが不足していることにいくらか同意した。 さらに、17/72 (23.61%) の回答の大多数は、彼らは強く反対し、27/72 (37.5%) は、卒業生が十分なRE知識を持って大学を去るという声明に異を唱えている。 適切な再選候補が不足しているかどうかを問うと、33/71 (46.48%) の回答は強く一致し、20/71 (28.17%) はいくらか同意した。 ツールが処分された結果であるかどうかを判断するために、最も人気のある2つのREツールに関する一連の質問も行われた。

This paper presents the results of a needs analysis survey for Reverse Engineering (RE). The need for reverse engineers in digital forensics, continues to grow as malware analysis becomes more complicated. The survey was created to investigate tools used in the cybersecurity industry, the methods for teaching RE and educational resources related to RE. Ninety-three (n=93) people responded to our 58 question survey. Participants did not respond to all survey questions as they were optional. The data showed that the majority of 24/71 (33.8%) responses either strongly agreed and 22/71 (30.99%) of responses somewhat agreed that there is a shortage in RE resources. Furthermore, a majority of 17/72 (23.61%) responses indicated that they strongly disagree and that 27/72 (37.5%) somewhat disagree to the statement that graduates are leaving college with adequate RE knowledge. When asked if there is a shortage of adequate RE candidates, the majority of 33/71 (46.48%) responses strongly agreed and 20/71 (28.17%) somewhat agreed. In order to determine if this was a result of the tools at their disposal, a series of questions in regards to the two most popular RE tools were also asked.
翻訳日:2023-02-19 13:01:47 公開日:2022-12-14
# ウクライナ関連文書と偽情報のエンゲージメント・テーマ・因果関係の比較分析

Comparative Analysis of Engagement, Themes, and Causality of Ukraine-Related Debunks and Disinformation ( http://arxiv.org/abs/2212.07457v1 )

ライセンス: Link先を確認
Iknoor Singh, Kalina Bontcheva, Xingyi Song, Carolina Scarton(参考訳) 本稿では,ウクライナ関連偽情報の拡散を定量的に比較し,まず再ツイート,返信,お気に入りについて検討した。 次に,Granger因果性試験,インパルス応答解析,および予測誤差分散分解を用いて双方向のポストホック解析を行い,デバンクの拡散がウクライナ関連情報の減少に正の影響を及ぼすことを示した。 最後に,ウクライナ関連偽情報における支配的テーマとその時空間分布について検討する。 デバンクに関しては、すでに他の言語でファクトチェックされているクレームの約18%がデバンクしていることも確認しています。 後者の発見は、ファクトチェッカー間のより良いコラボレーションの機会を強調しており、翻訳、引用、およびオンラインでの早期出版を通じて、お互いの利益を享受し、増幅することができる。

This paper compares quantitatively the spread of Ukraine-related disinformation and its corresponding debunks, first by considering re-tweets, replies, and favourites, which demonstrate that despite platform efforts Ukraine-related disinformation is still spreading wider than its debunks. Next, bidirectional post-hoc analysis is carried out using Granger causality tests, impulse response analysis and forecast error variance decomposition, which demonstrate that the spread of debunks has a positive impact on reducing Ukraine-related disinformation eventually, albeit not instantly. Lastly, the paper investigates the dominant themes in Ukraine-related disinformation and their spatiotemporal distribution. With respect to debunks, we also establish that around 18% of fact-checks are debunking claims which have already been fact-checked in another language. The latter finding highlights an opportunity for better collaboration between fact-checkers, so they can benefit from and amplify each other's debunks through translation, citation, and early publication online.
翻訳日:2023-02-19 13:01:26 公開日:2022-12-14
# 中国高等専門学校におけるコンピュータ応用技術の改革と実践 -江西工業大学を例として-

Reform and Practice of Computer Application Technology Major Construction and Development in Higher Vocational Colleges in China -- Taking Jiangxi Vocational College of Applied Technology as An Example ( http://arxiv.org/abs/2212.07080v1 )

ライセンス: Link先を確認
Yufei Xie, Yue Liu, Fan Zou(参考訳) This study takes the development path of computer application technology specialty construction in Higher Vocational Colleges under the background of high-level higher vocational schools and specialty construction plan with Chinese characteristics (double high plan) as the main research object, and puts forward the core concept of computer application technology specialty construction and development in Higher Vocational Colleges in China through the practice of computer application technology specialty construction and development reform in recent years The main measures and construction objectives provide specific experience and solutions for deepening the reform of computer application technology specialty in higher vocational colleges.

This study takes the development path of computer application technology specialty construction in Higher Vocational Colleges under the background of high-level higher vocational schools and specialty construction plan with Chinese characteristics (double high plan) as the main research object, and puts forward the core concept of computer application technology specialty construction and development in Higher Vocational Colleges in China through the practice of computer application technology specialty construction and development reform in recent years The main measures and construction objectives provide specific experience and solutions for deepening the reform of computer application technology specialty in higher vocational colleges.
翻訳日:2023-02-19 13:01:10 公開日:2022-12-14
# OpenStreetMapデータをダウンストリームアプリケーションのためのロードネットワークに変換する

Converting OpenStreetMap Data to Road Networks for Downstream Applications ( http://arxiv.org/abs/2211.12996v2 )

ライセンス: Link先を確認
Md Kaisar Ahmed(参考訳) 下流アプリケーションのための道路網にOpenStreetMapデータを変換する方法を検討する。 OpenStreetMapのデータには異なるフォーマットがある。 拡張可能なマークアップ言語(XML)がその1つです。 OSMデータはノード、方法、関係から構成される。 我々は, osm xml データを処理し, メンフィス地域の街路地図を取得するためのノード情報と方法を抽出する。 このマップをさまざまな下流アプリケーションで使用できます。

We study how to convert OpenStreetMap data to road networks for downstream applications. OpenStreetMap data has different formats. Extensible Markup Language (XML) is one of them. OSM data consist of nodes, ways, and relations. We process OSM XML data to extract the information of nodes and ways to obtain the map of streets of the Memphis area. We can use this map for different downstream applications.
翻訳日:2023-02-19 12:36:09 公開日:2022-12-14
# m\'exicoの公共調達契約における腐敗を識別する機械学習モデル

A machine learning model to identify corruption in M\'exico's public procurement contracts ( http://arxiv.org/abs/2211.01478v2 )

ライセンス: Link先を確認
Andr\'es Aldana, Andrea Falc\'on-Cort\'es and Hern\'an Larralde(参考訳) 政府の腐敗のコストと影響は、国の経済成長を損なうことから市民の健康と安全に影響を与えることまで様々である。 政府依存と民間企業との公共契約は、公共調達と呼ばれ、腐敗した慣行の機会の豊かな土地であり、世界中でかなりの金銭的損失を生んでいる。 したがって、政府と民間セクター間の腐敗活動の特定と抑止が最重要である。 しかし、いくつかの要因により、公共調達の汚職は特定と追跡が困難であり、悪質な行為に気づかれていない。 本稿では,M\'exico の公共調達データにおける破壊的契約を識別し,予測するために,超森林と呼ばれるランダム森林分類器のアンサンブルに基づく機械学習モデルを提案する。 この手法の結果はデータセットで評価された破損や非破損の契約の大部分を正確に検出する。 さらに,このモデルで考慮すべき最も重要な予測要因は,個々の契約の特徴よりも,買い手とサプライヤの関係が関係していることが判明した。 また、ここで提案する手法は、他国のデータで訓練できるほど一般的である。 全体として、我々の研究は、公開調達契約の汚職を特定し、予測し、分析するための意思決定プロセスに役立つツールを提示します。

The costs and impacts of government corruption range from impairing a country's economic growth to affecting its citizens' well-being and safety. Public contracting between government dependencies and private sector instances, referred to as public procurement, is a fertile land of opportunity for corrupt practices, generating substantial monetary losses worldwide. Thus, identifying and deterring corrupt activities between the government and the private sector is paramount. However, due to several factors, corruption in public procurement is challenging to identify and track, leading to corrupt practices going unnoticed. This paper proposes a machine learning model based on an ensemble of random forest classifiers, which we call hyper-forest, to identify and predict corrupt contracts in M\'exico's public procurement data. This method's results correctly detect most of the corrupt and non-corrupt contracts evaluated in the dataset. Furthermore, we found that the most critical predictors considered in the model are those related to the relationship between buyers and suppliers rather than those related to features of individual contracts. Also, the method proposed here is general enough to be trained with data from other countries. Overall, our work presents a tool that can help in the decision-making process to identify, predict and analyze corruption in public procurement contracts.
翻訳日:2023-02-19 12:13:56 公開日:2022-12-14
# スマートエネルギーシステムにおけるAI説明可能性とガバナンス

AI Explainability and Governance in Smart Energy Systems: A Review ( http://arxiv.org/abs/2211.00069v2 )

ライセンス: Link先を確認
Roba Alsaigh, Rashid Mehmood, Iyad Katib(参考訳) 従来の電力網は長年、運用上の信頼性、不安定性、柔軟性、非効率性に悩まされてきた。 スマートグリッド(またはスマートエネルギーシステム)は、新興技術、再生可能エネルギー源、その他のトレンドでエネルギーセクターを変革し続けている。 人工知能(ai)は、スマートエネルギーシステムに適用され、このセクターで大規模で複雑なデータを処理し、スマートでタイムリーな意思決定を行う。 しかし、AIの説明可能性や統治性がないことは、エネルギーセクターにおけるAIの急速な取り込みを妨げる利害関係者にとって大きな関心事である。 本稿では,スマートエネルギーシステムにおけるAI説明可能性とガバナンスについて概説する。 我々は、Scopusデータベースから3,568の関連論文を収集し、エネルギーにおけるAIガバナンスの15のパラメータやテーマを自動的に発見し、150以上の論文をレビューし、研究の時間的進歩を提供することで、研究の展望を精査する。 パラメータやテーマを発見するための方法論は、データ駆動型ディープラーニングベースのビッグデータ分析アプローチである“ディープジャーナリズム(deep journalism)”に基づいています。 その結果、エネルギーシステムにおけるai説明可能性の研究は分断され、いくつかのai特性とエネルギーシステムの問題に焦点を当てていることがわかった。 本稿では、エネルギー分野におけるAIガバナンスの知識を深め、エネルギー分野におけるAIの展望を理解し、エネルギーシステムのより良い設計、運用、活用、リスク管理を実現するために、政府、産業、学術、エネルギー調達者、その他の利害関係者を支援することが期待されている。

Traditional electrical power grids have long suffered from operational unreliability, instability, inflexibility, and inefficiency. Smart grids (or smart energy systems) continue to transform the energy sector with emerging technologies, renewable energy sources, and other trends. Artificial intelligence (AI) is being applied to smart energy systems to process massive and complex data in this sector and make smart and timely decisions. However, the lack of explainability and governability of AI is a major concern for stakeholders hindering a fast uptake of AI in the energy sector. This paper provides a review of AI explainability and governance in smart energy systems. We collect 3,568 relevant papers from the Scopus database, automatically discover 15 parameters or themes for AI governance in energy and elaborate the research landscape by reviewing over 150 papers and providing temporal progressions of the research. The methodology for discovering parameters or themes is based on "deep journalism", our data-driven deep learning-based big data analytics approach to automatically discover and analyse cross-sectional multi-perspective information to enable better decision-making and develop better instruments for governance. The findings show that research on AI explainability in energy systems is segmented and narrowly focussed on a few AI traits and energy system problems. This paper deepens our knowledge of AI governance in energy and is expected to help governments, industry, academics, energy prosumers, and other stakeholders to understand the landscape of AI in the energy sector, leading to better design, operations, utilisation, and risk management of energy systems.
翻訳日:2023-02-19 12:11:00 公開日:2022-12-14
# 連続可変量子消去チャネルを用いた情報伝送

Information transmission with continuous variable quantum erasure channels ( http://arxiv.org/abs/2205.09711v2 )

ライセンス: Link先を確認
Changchun Zhong, Changhun Oh, Liang Jiang(参考訳) 量子容量(quantum capacity)は、与えられた量子チャネルの長所として、チャネルの量子情報伝達能力の上限である。 異なる種類のチャネルを同定し、対応する量子容量を評価し、キャパシティ適応型符号化方式を見つけることが、量子通信理論の主要な課題である。 離散変数の量子チャネルは様々な誤差モデルに大きく関与するが、連続変数チャネルの誤差モデルは無限次元の問題によりあまり研究されていない。 本稿では,一般連続変数量子消去チャネルについて検討する。 連続変数系の有効部分空間を定義することにより、連続変数ランダム符号化モデルを求める。 次に、脱結合理論の枠組みにおける連続変数消去チャネルの量子容量を導出する。 本論文の議論は、連続変数設定における量子消去チャネルのギャップを埋め、他のタイプの連続変数量子チャネルの理解に光を当てるものである。

Quantum capacity, as the key figure of merit for a given quantum channel, upper bounds the channel's ability in transmitting quantum information. Identifying different type of channels, evaluating the corresponding quantum capacity and finding the capacity-approaching coding scheme are the major tasks in quantum communication theory. Quantum channel in discrete variables has been discussed enormously involving various error models, while error model in the continuous variable channel has been less studied due to the infinite dimensional problem. In this paper, we investigate a general continuous variable quantum erasure channel. By defining an effective subspace of the continuous variable system, we find a continuous variable random coding model. We then derive the quantum capacity of the continuous variable erasure channel in the framework of decoupling theory. The discussion in this paper fills the gap of quantum erasure channel in continuous variable settings and sheds light on the understanding of other type of continuous variable quantum channels.
翻訳日:2023-02-12 15:45:38 公開日:2022-12-14
# 非エルミート固有状態の絡み合いエントロピーとジニブレアンサンブル

Entanglement Entropy of Non-Hermitian Eigenstates and the Ginibre Ensemble ( http://arxiv.org/abs/2206.12438v2 )

ライセンス: Link先を確認
Giorgio Cipolloni, Jonah Kudler-Flam(参考訳) エンタングルメントエントロピーは、量子多体系の普遍的な特徴を特徴づける強力なツールである。 量子カオスエルミート系では、典型的な固有状態は、非常に小さなゆらぎを持つ最大エンタングルメントに近い。 ここでは、非エルミート多体量子カオスを示すハミルトニアンに対して、典型的な固有状態の絡み合いエントロピーが大幅に抑制されていることを示す。 エントロピーは十分大きな系に対してヒルベルト空間次元と共には成長せず、ゆらぎは等次である。 我々は、複素平面における無限の支持と強いエネルギー依存を持つ新しい絡み合いスペクトルを導出する。 我々は,非エルミート的 Sachdev-Ye-Kitaev (nSYK) モデルで見いだされる普遍性の証拠と類似の挙動を示す。

Entanglement entropy is a powerful tool in characterizing universal features in quantum many-body systems. In quantum chaotic Hermitian systems, typical eigenstates have near maximal entanglement with very small fluctuations. Here, we show that for Hamiltonians displaying non-Hermitian many-body quantum chaos, modeled by the Ginibre ensemble, the entanglement entropy of typical eigenstates is greatly suppressed. The entropy does not grow with the Hilbert space dimension for sufficiently large systems and the fluctuations are of equal order. We derive the novel entanglement spectrum that has infinite support in the complex plane and strong energy dependence. We provide evidence of universality and similar behavior is found in the non-Hermitian Sachdev-Ye-Kitaev (nSYK) model, indicating the general applicability of the Ginibre ensemble to dissipative many-body quantum chaos.
翻訳日:2023-02-08 04:20:03 公開日:2022-12-14
# 積分変換と$\mathcal{PT}$-symmetric Hamiltonian

Integral Transforms and $\mathcal{PT}$-symmetric Hamiltonians ( http://arxiv.org/abs/2207.02759v5 )

ライセンス: Link先を確認
M. W. AlMasri, M. R. B. Wahiddin(参考訳) 積分変換は微分方程式の計算を単純化するツールとして用いられる。 本研究では、$\mathcal{PT}$-symmetric Hamiltonian の文脈における積分変換を体系的に研究する。 まず、指数フーリエ変換された $\mathcal{pt}$-symmetric hamiltonian の閉解析公式を得た。 セガル・バルグマン変換を用いて、フーリエ変換が元のハミルトニアンの固有関数に与える影響を調べる。 さらに、ハミルトニアン作用素が複素ヒルベルト空間の行列ではなく、解析的位相空間座標とバーグマン空間における偏微分によって記述される非エルミートスピン鎖の正則表現についてコメントする。 非エルミート的な$XX$スピン鎖に比例して、量子マスター方程式を数値的に解くことで、結合定数を弱いものから強いものにすることで、動的から静的なシステムに反転できることを示した。 最後に、スワンソン・ハミルトニアンを解き、その振る舞いを積分変換の下で議論する。

Integral transforms can be used as a tool to simplify the computations of differential equations. In this work, we systematically study integral transforms in the context of $\mathcal{PT}$-symmetric Hamiltonians . First, we obtained a closed analytical formula for the exponential Fourier transformed $\mathcal{PT}$-symmetric Hamiltonians. Using Segal-Bargmann transform, we investigate the effect of the Fourier transform on the eigenfunctions of the original Hamiltonian. Moreover, we comment on the holomorphic representation of non-Hermitian spin chains in which the Hamiltonian operator is written in terms of analytical phase-space coordinates and their partial derivatives in the Bargmann space rather than matrices in the complex Hilbert space. Specifying to non-Hermitian $XX$ spin chain, we prove by numerically solving the quantum master equation its ability to flip from dynamical to static system by running the coupling constant from weak to strong. Finally, we solve the Swanson Hamiltonian and discuss its behavior under integral transforms.
翻訳日:2023-02-06 09:40:15 公開日:2022-12-14
# Koopman-von Neumann 力学のアイゼンハートリフト

Eisenhart lift of Koopman-von Neumann mechanics ( http://arxiv.org/abs/2207.05073v2 )

ライセンス: Link先を確認
Abhijit Sen, Bikram Keshari Parida, Shailesh Dhasmana, Zurab K. Silagadze(参考訳) アイゼンハートリフトは非相対論的および相対論的物理学の間の魅力的な関係を確立し、非相対論的ニュートン力学の時空幾何学的理解を提供する。 しかし、まだほとんど知られていないのは、古典力学のヒルベルト空間表現(koopman-von neumann mechanicsとも呼ばれる)が存在して、古典力学に量子力学と同じ数学的構造を与えようとしているという事実である。 本稿ではアイゼンハートツールキットを用いてクープマン・フォン・ニューマン(KvN)力学を測地する。 次に、KvN力学の幾何学的ビューを用いて、KvN力学の文脈において調和振動子、線形ポテンシャル、自由粒子に関連する変換を求める。

The Eisenhart lift establishes a fascinating connection between non-relativistic and relativistic physics, providing a space-time geometric understanding of non-relativistic Newtonian mechanics. What is still little known, however, is the fact that there is a Hilbert space representation of classical mechanics (also called Koopman-von Neumann mechanics) that attempts to give classical mechanics the same mathematical structure that quantum mechanics has. In this article, we geometrize the Koopman-von Newmann (KvN) mechanics using the Eisenhart toolkit. We then use a geometric view of KvN mechanics to find transformations that relate the harmonic oscillator, linear potential, and free particle in the context of KvN mechanics.
翻訳日:2023-02-05 12:13:50 公開日:2022-12-14
# 波動関数の崩壊に対するL\'evyモデル

L\'evy Models for Collapse of the Wave Function ( http://arxiv.org/abs/2207.12241v3 )

ライセンス: Link先を確認
Dorje C. Brody and Lane P. Hughston(参考訳) 近年,量子力学における状態還元のための確率モデルの開発が盛んに進んでいる。 そのようなモデルでは、波動関数の崩壊は、シュリンガー方程式を一般化する非線形確率微分方程式によって支配される物理過程である。 本稿では,schr\"odinger方程式のエネルギーに基づく確率的拡張について考察する。 この領域におけるヒッヘルトの研究の多くは、量子状態の確率力学を駆動する過程がブラウン運動であるようなモデルに関係している。 ここでブラウンの枠組みは、ノイズ処理がl\'evy型であり、定常かつ独立なインクリメントを許容するより広い種類のモデルに拡張される。 このようなモデルの性質はブラウン還元モデルと異なる。 特に、L\'evyモデルでは、デコヒーレンス率はエネルギー全体のスケールに依存する。 したがって、l\'evy還元モデルでは、エネルギー準位ギャップが小さい場合でも、マクロ量子系は自発的に固有状態へと崩壊する。

Recently there has been much progress in the development of stochastic models for state reduction in quantum mechanics. In such models, the collapse of the wave function is a physical process, governed by a nonlinear stochastic differential equation that generalizes the Schr\"odinger equation. The present paper considers energy-based stochastic extensions of the Schr\"odinger equation. Most of the work carried out hitherto in this area has been concerned with models where the process driving the stochastic dynamics of the quantum state is Brownian motion. Here, the Brownian framework is broadened to a wider class of models where the noise process is of the L\'evy type, admitting stationary and independent increments. The properties of such models are different from those of Brownian reduction models. In particular, for L\'evy models the decoherence rate depends on the overall scale of the energy. Thus, in L\'evy reduction models, a macroscopic quantum system will spontaneously collapse to an eigenstate even if the energy level gaps are small.
翻訳日:2023-02-03 19:37:22 公開日:2022-12-14
# 漁業情報でコヒーレンスを定量化する

Quantifying coherence in terms of Fisher information ( http://arxiv.org/abs/2207.14746v2 )

ライセンス: Link先を確認
Deng-hui Yu and Chang-shui Yu(参考訳) 量子メトロロジーでは、パラメータ推定精度は量子フィッシャー情報によって制限される。 本稿では,ポスト選択非単体パラメトリゼーションプロセスを直接考慮し,(量子)フィッシャー情報のコヒーレンス対策を提案する。 このコヒーレンス尺度は、コヒーレンスとパラメータ推定精度の正確な接続による明らかな操作意味を示す。 また,コヒーレンス測度とユニタリパラメトリゼーション対象の量子フィッシャー情報との区別についても検討した。 解析コヒーレンス測度はキュービット状態に対して与えられる。

In quantum metrology, the parameter estimation accuracy is bounded by quantum Fisher information. In this paper, we present coherence measures in terms of (quantum) Fisher information by directly considering the post-selective non-unitary parametrization process. This coherence measure demonstrates the apparent operational meaning by the exact connection between coherence and parameter estimation accuracy. We also discuss the distinction between our coherence measure and the quantum Fisher information subject to unitary parametrization. The analytic coherence measure is given for qubit states.
翻訳日:2023-02-03 02:16:33 公開日:2022-12-14
# ボソニック量子不純物の有限周波応答の解明

Revealing the finite-frequency response of a bosonic quantum impurity ( http://arxiv.org/abs/2208.03053v3 )

ライセンス: Link先を確認
S\'ebastien L\'eger, Th\'eo S\'epulcre, Dorian Fraudet, Olivier Buisson, C\'ecile Naud, Wiebke Hasch-Guichard, Serge Florens, Izak Snyman, Denis M. Basko, and Nicolas Roch(参考訳) 量子不純物は凝縮物質物理学においてユビキタスであり、多体問題の最も取り除かれた実現である。 有限周波応答を測定することで励起スペクトルや力学特性などの重要な特性にアクセスできるが、ナノ電子量子ドットの研究が20年以上続いたにもかかわらず、この目標は解明されていない。 非常に強い結合と大きな測定帯域の実験的制約を同時に満たさなければならない。 我々はcqedツールを用いてこの問題を回避し,非自明なボソニック不純物問題である境界正弦模型の量子シミュレータを構築した。 我々は,この系の有限周波数線形応答の完全マップ化に成功した。 その反応性部分は、非摂動計算と一致する境界における非線形性の強い再正規化を証明している。 散逸部分は多光子変換による劇的な多体拡大を示す。 実験結果は, 微視的キャリブレーションモデルに基づく再仮定図式計算と定量的に一致した。 さらに、多体量子回路をモデル化するためのより高度な理論ツールを要求するダイアグラム計算が崩壊する状態へとデバイスを押し込む。 cQEDプラットフォームが普遍的なスケーリング法に到達するための技術的制限についても批判的に検討する。 この研究は、量子臨界点近傍における量子絡み合いの定量化や、非自明な多体問題の動的性質へのアクセスなど、未来のエキサイティングな視点を開く。

Quantum impurities are ubiquitous in condensed matter physics and constitute the most stripped-down realization of many-body problems. While measuring their finite-frequency response could give access to key characteristics such as excitations spectra or dynamical properties, this goal has remained elusive despite over two decades of studies in nanoelectronic quantum dots. Conflicting experimental constraints of very strong coupling and large measurement bandwidths must be met simultaneously. We get around this problem using cQED tools, and build a precisely characterized quantum simulator of the boundary sine-Gordon model, a non-trivial bosonic impurity problem. We succeeded to fully map out the finite frequency linear response of this system. Its reactive part evidences a strong renormalisation of the nonlinearity at the boundary in agreement with non-perturbative calculations. Its dissipative part reveals a dramatic many-body broadening caused by multi-photon conversion. The experimental results are matched quantitatively to a resummed diagrammatic calculation based on a microscopically calibrated model. Furthermore, we push the device into a regime where diagrammatic calculations break down, which calls for more advanced theoretical tools to model many-body quantum circuits. We also critically examine the technological limitations of cQED platforms to reach universal scaling laws. This work opens exciting perspectives for the future such as quantifying quantum entanglement in the vicinity of a quantum critical point or accessing the dynamical properties of non-trivial many-body problems.
翻訳日:2023-02-02 04:55:36 公開日:2022-12-14
# 駆動型超低温原子の自己組織化による多粒子交絡状態の生成

Generating multiparticle entangled states by self-organization of driven ultracold atoms ( http://arxiv.org/abs/2208.10111v2 )

ライセンス: Link先を確認
Ivor Kre\v{s}i\'c, Gordon R. M. Robb, Gian-Luca Oppo, Thorsten Ackemann(参考訳) 外部駆動下での非線形自己組織化により,超低温原子運動の自由度を多粒子エンタングルディッケ様状態へ誘導する手法について検討した。 非線形多体モデルの2つの例について検討した。 最初のモデルでは、外部駆動は時間的に振動する磁場であり、原子間散乱による自己組織化に繋がる。 2つ目のモデルでは、ドライブはポンプレーザーであり、リングキャビティ内の光子原子散乱によって自己組織化される。 原子運動の多粒子絡み合い状態の高効率生成を実証し,モデルの将来的な実験実現について考察する。 量子技術応用における原子運動の自己組織化の可能性を強調した。

We study a methodology for guiding the dynamical evolution of ultracold atomic motional degrees of freedom towards multiparticle entangled Dicke-like states, via nonlinear self-organization under external driving. Two examples of nonlinear many-body models are investigated. In the first model the external drive is a temporally oscillating magnetic field, leading to self-organization by interatomic scattering. In the second model the drive is a pump laser, leading to self-organization by photon-atom scattering in a ring cavity. We demonstrate highly efficient generation of multiparticle entangled states of atomic motion and discuss prospective experimental realizations of the models. Our results highlight the potential for using self-organization of atomic motion in quantum technological applications.
翻訳日:2023-01-30 05:10:50 公開日:2022-12-14
# 文脈性濃度に基づく高次元量子テクスチュアリティの実験的検討

Experimental test of high-dimensional quantum contextuality based on contextuality concentration ( http://arxiv.org/abs/2209.02808v2 )

ライセンス: Link先を確認
Zheng-Hao Liu, Hui-Xian Meng, Zhen-Peng Xu, Jie Zhou, Jing-Ling Chen, Jin-Shi Xu, Chuan-Feng Li, Guang-Can Guo, and Ad\'an Cabello(参考訳) 文脈性は量子理論の特徴的な特徴であり、量子計算の基本的な資源である。 しかし、既存の高次元システムにおける文脈性は実験に必要な強固さを欠いている。 ここでは、システムの次元に応じて最大量子違反が増大する非文脈不等式族を同定することにより、この問題に対処する。 一見すると、この文脈性は極端に多部的なベル非局所性の単一系バージョンである。 興味深いのは、単一系バージョンは同じ文脈性を達成するが、低次元のヒルベルト空間を使うことである。 すなわち、次元ごとの文脈性が増加すると、文脈性は「集中する」。 本研究は,次元7の単一システムにおいて,文脈性の実験的観察を行い,その有用性を示す。 量子イデアル測定のシーケンスを全光学的設定における破壊的測定と再現とをシミュレートすることにより、特定された最も単純な非文脈的不等式に対する68.7の標準偏差を報告した。 本研究では,高次元文脈性,クリフォード代数との関係,量子計算におけるその役割について検討する。

Contextuality is a distinctive feature of quantum theory and a fundamental resource for quantum computation. However, existing examples of contextuality in high-dimensional systems lack the necessary robustness required in experiments. Here we address this problem by identifying a family of noncontextuality inequalities whose maximum quantum violation grows with the dimension of the system. At first glance, this contextuality is the single-system version of an extreme form of multipartite Bell nonlocality. What is interesting is that the single-system version achieves the same degree of contextuality but using a Hilbert space of lower dimension. That is, contextuality "concentrates" as the degree of contextuality per dimension increases. We demonstrate the usefulness of this result by showing the experimental observation of contextuality in a single system of dimension seven. By simulating sequences of quantum ideal measurements with destructive measurements and repreparation in an all-optical setup, we report a violation of 68.7 standard deviations of the simplest of the noncontextuality inequalities identified. Our results advance the investigation of high-dimensional contextuality, its connection to the Clifford algebra, and its role in quantum computation.
翻訳日:2023-01-27 18:13:19 公開日:2022-12-14
# 非エルミート皮膚効果エッジ

Non-Hermitian skin effect edge ( http://arxiv.org/abs/2209.12534v2 )

ライセンス: Link先を確認
Qi-Bo Zeng(参考訳) 非エルミート皮膚効果(Non-Hermitian skin effect, NHSE)は、過去数年間に非エルミート系で集中的に研究された特異な現象である。 本研究では, NHSEのエネルギー依存性を, 1次元格子における最近傍のホッピング以上の非相反性を導入することによって論じる。 NHSEの方向は、オープンバウンダリ条件(OBC)の下で系の固有エネルギーがいくつかの臨界エネルギーを網羅するにつれて逆転する。 このような現象を特徴付けるために,obcスペクトルの格子の反対側に局在する固有状態を分離する非エルミート皮膚効果エッジの概念を導入する。 その結果, 周期境界条件 (pbc) におけるスペクトルの自己干渉により皮膚効果エッジが決定され, pbcスペクトルの巻き数が交差するときに符号が変化する。 さらに、自己切断がシステムパラメータをチューニングして単一の点にマージされると、NHSEエッジは消滅する。 我々は,非エルミート系におけるNHSEと非相互ホッピングの複雑な相互作用を明らかにする。

Non-Hermitian skin effect (NHSE) is a unique phenomenon studied intensively in non-Hermitian systems during the past few years. In this work, we discuss the energy dependence of NHSE by introducing nonreciprocity beyond the nearest-neighboring hopping in the one-dimensional lattices. The direction of NHSE reverses as the eigenenergy of the system under open boundary conditions (OBCs) sweeps across some critical energies. To characterize such a phenomenon, we introduce the concept of non-Hermitian skin effect edges, which separate the eigenstates localized at opposite ends of the lattice in the OBC spectrum. We find the skin effect edges are determined by the self-intersections in the spectrum under periodic boundary conditions (PBCs), which are topological as the winding number of the PBC spectrum changes sign when crossing them. Moreover, the NHSE edges will disappear when the self-intersections merge into a single point by tuning the system parameters. Our work reveals the intricate interplay between NHSE and nonreciprocal hopping in non-Hermitian systems.
翻訳日:2023-01-25 03:11:57 公開日:2022-12-14
# 条件スペクトルをもつ双正則グラフ上の二部歩行の周期性

Periodicity of bipartite walk on biregular graphs with conditional spectra ( http://arxiv.org/abs/2211.02752v3 )

ライセンス: Link先を確認
Qiuting Chen(参考訳) 本稿では,2部歩行と呼ばれる離散量子ウォークのクラスについて検討する。 これには有名なグロバーズウォークも含まれる。 任意の離散量子ウォークは、基底グラフの弧または辺でインデックスされたユニタリ行列$U$の力によって与えられる。 ウォークが周期的であるのは、ある正の整数$k$に対して$U^k=I$である。 クボタはグローバーの歩行の周期性の特徴を、少なくとも5つの固有値を持つ正規二部グラフ上で定義されるときに与えた。 双正則グラフ $g$ が 2 以上の次数を持つ代数整数の固有値を持つとき、そのスペクトルの観点からは、二成分の周期性が$g$ を超えることを特徴付ける。 正規グラフ上のグローバーの歩行の周期性を評価するために二部歩行の周期性結果を適用する。

In this paper we study a class of discrete quantum walks, known as bipartite walks. These include the well-known Grover's walks. Any discrete quantum walk is given by the powers of a unitary matrix $U$ indexed by arcs or edges of the underlying graph. The walk is periodic if $U^k=I$ for some positive integer $k$. Kubota has given a characterization of periodicity of Grover's walk when the walk is defined on a regular bipartite graph with at most five eigenvalues. We extend Kubota's results--if a biregular graph $G$ has eigenvalues whose squares are algebraic integers with degree at most two, we characterize periodicity of the bipartite walk over $G$ in terms of its spectrum. We apply periodicity results of bipartite walks to get a characterization of periodicity of Grover's walk on regular graphs.
翻訳日:2023-01-20 08:49:19 公開日:2022-12-14
# 永続ホモロジーを用いた量子カオスの解法

Unravelling quantum chaos using persistent homology ( http://arxiv.org/abs/2211.15100v2 )

ライセンス: Link先を確認
Harvey Cao, Daniel Leykam, Dimitris G. Angelakis(参考訳) トポロジカルデータ分析は、複雑なデータセットから有用なトポロジカル情報を抽出する強力なフレームワークである。 近年の研究では、古典散逸系の動的解析に、動的アトラクタの再構成を可能にするトポロジー保存埋め込み法を応用し、そのトポロジーがカオス的振る舞いの同定に利用できることを示した。 オープン量子系も同様に非自明なダイナミクスを示すことができるが、既存の分類と量子化のツールキットはまだ限られており、特に実験的な応用に向いている。 本研究では,古典的アプローチから着想を得た量子力学を特徴付けるトポロジカルパイプラインを提案する。このパイプラインは,主方程式の単一量子軌道アンラベリングを用いて「量子アトラクタ」のアナログを構築し,永続ホモロジーを用いてトポロジーを抽出する。 本手法を周期的に変調されたkerr非線形キャビティに適用し,システムの限られた測定値を用いて正則相とカオス相のパラメータレジームを判別する。

Topological data analysis is a powerful framework for extracting useful topological information from complex datasets. Recent work has shown its application for the dynamical analysis of classical dissipative systems through a topology-preserving embedding method that allows reconstructing dynamical attractors, the topologies of which can be used to identify chaotic behaviour. Open quantum systems can similarly exhibit non-trivial dynamics, but the existing toolkit for classification and quantification are still limited, particularly for experimental applications. In this work, we present a topological pipeline for characterizing quantum dynamics, which draws inspiration from the classical approach by using single quantum trajectory unravelings of the master equation to construct analogue 'quantum attractors' and extracting their topology using persistent homology. We apply the method to a periodically modulated Kerr-nonlinear cavity to discriminate parameter regimes of regular and chaotic phase using limited measurements of the system.
翻訳日:2023-01-17 15:19:19 公開日:2022-12-14
# 多体リンドブレディアンの対称性分類:10方向とそれ以上

Symmetry Classification of Many-Body Lindbladians: Tenfold Way and Beyond ( http://arxiv.org/abs/2212.00474v2 )

ライセンス: Link先を確認
Lucas S\'a, Pedro Ribeiro, and Toma\v{z} Prosen(参考訳) マルコフ環境に結合した一般(相互作用)開量子系を記述する多体リンドブラッド超作用素の系統対称性分類を行う。 本分類は,多体リンドブラジアンの反ユニタリ対称性とユニタリ畳み込みの挙動に基づく。 We find that Hermiticity preservation reduces the number of symmetry classes, while trace preservation and complete positivity do not, and that the set of admissible classes depends on the presence of additional unitary symmetries: in their absence or in symmetry sectors containing steady states, many-body Lindbladians belong to one of ten non-Hermitian symmetry classes; if however, there are additional symmetries and we consider non-steady-state sectors, they belong to a different set of 19 classes. どちらの場合でも、クラマーの退化を伴うクラスは含まない。 注目すべきことに、我々の分類は、マルコフ的でない、そしてトラス的でない開量子力学の場合の直接的な一般化を認めている。 抽象分類は完全に一般であるが、これを一般(長距離、相互作用、空間的に不均一)スピン-1/2$鎖に適用する。 定常セクターにおけるリンドブラディアンの10つのクラス全てにおいて、デファス、スピン注入、吸収、非コヒーレントホッピングといった標準的な物理過程を記述した例を明示的に構築し、実用的な物理応用に対する我々の分類の関連性を説明する。 最後に,各クラスの例が一意なランダム行列相関を示すことを示す。 すべての対称性を完全解くために、バルク複素間隔比と固有ベクトル対の重なりを対称性演算によって組み合わせて解析する。 さらに、実および虚数軸に制約されたレベルや原点に近いレベルの統計は、リンドブラディアン PT 対称性の自発的な破れのために普遍的でないことが分かる。

We perform a systematic symmetry classification of many-body Lindblad superoperators describing general (interacting) open quantum systems coupled to a Markovian environment. Our classification is based on the behavior of the many-body Lindbladian under antiunitary symmetries and unitary involutions. We find that Hermiticity preservation reduces the number of symmetry classes, while trace preservation and complete positivity do not, and that the set of admissible classes depends on the presence of additional unitary symmetries: in their absence or in symmetry sectors containing steady states, many-body Lindbladians belong to one of ten non-Hermitian symmetry classes; if however, there are additional symmetries and we consider non-steady-state sectors, they belong to a different set of 19 classes. In both cases, it does not include classes with Kramer's degeneracy. Remarkably, our classification admits a straightforward generalization to the case of non-Markovian, and even non-trace-preserving, open quantum dynamics. While the abstract classification is completely general, we then apply it to general (long-range, interacting, spatially inhomogeneous) spin-$1/2$ chains. We explicitly build examples in all ten classes of Lindbladians in steady-state sectors, describing standard physical processes such as dephasing, spin injection and absorption, and incoherent hopping, thus illustrating the relevance of our classification for practical physics applications. Finally, we show that the examples in each class display unique random-matrix correlations. To fully resolve all symmetries, we employ the combined analysis of bulk complex spacing ratios and the overlap of eigenvector pairs related by symmetry operations. We further find that statistics of levels constrained onto the real and imaginary axes or close to the origin are not universal due to spontaneous breaking of Lindbladian PT symmetry.
翻訳日:2023-01-09 22:28:58 公開日:2022-12-14
# 19量子ビット幅2d近接量子ビットアレイの量子計算

Quantum computation on a 19-qubit wide 2d nearest neighbour qubit array ( http://arxiv.org/abs/2212.01550v2 )

ライセンス: Link先を確認
Alexis T.E. Shaw, Michael J. Bremner, Alexandru Paler, Daniel Herr, Simon J. Devitt(参考訳) 本稿では,1次元に制約された量子ビット格子の幅と,スケーラブルでフォールトトレラントな量子計算のための物理しきい値の関係について検討する。 固定幅の小さなアレイの従来の低しきい値を回避するために,曲面符号を用いた最小レベルの誤りバイアスを意図的に設計する。 次に,このバイアスを高いエンコーディングレベルで処理し,このバイアスを生かした格子サージサージサーフェスコードバスや,バイアスドサーフェスコードキュービットから偏りのないエラーを含む論理キュービットを生成する繰り返しコードを用いて,このバイアスに対処する。 任意に低いエラー率は、Steane[[7,1,3]]コードや[[15,7,3]]CSSコードなど、他のコードとさらに結合することで実現できる。 これにより、量子ビット幅が19キュービットしかない正方形量子ビット格子上のスケーラブルな固定幅量子コンピューティングアーキテクチャが可能となり、エラーレートは8.0\times 10^{-4}$である。 これは、ケイ素の量子ドットやヒ素のガリウムなど、微細な量子ビットピッチを持つシステムのエンジニアリング上の問題を緩和する可能性がある。

In this paper, we explore the relationship between the width of a qubit lattice constrained in one dimension and physical thresholds for scalable, fault-tolerant quantum computation. To circumvent the traditionally low thresholds of small fixed-width arrays, we deliberately engineer an error bias at the lowest level of encoding using the surface code. We then address this engineered bias at a higher level of encoding using a lattice-surgery surface code bus that exploits this bias, or a repetition code to make logical qubits with unbiased errors out of biased surface code qubits. Arbitrarily low error rates can then be reached by further concatenating with other codes, such as Steane [[7,1,3]] code and the [[15,7,3]] CSS code. This enables a scalable fixed-width quantum computing architecture on a square qubit lattice that is only 19 qubits wide, given physical qubits with an error rate of $8.0\times 10^{-4}$. This potentially eases engineering issues in systems with fine qubit pitches, such as quantum dots in silicon or gallium arsenide.
翻訳日:2023-01-09 19:35:34 公開日:2022-12-14
# 連続変数予測のための量子古典ハイブリッドニューラルネットワーク

Quantum classical hybrid neural networks for continuous variable prediction ( http://arxiv.org/abs/2212.04209v3 )

ライセンス: Link先を確認
Prateek Jain, Alberto Garcia Garcia(参考訳) この10年以内に、量子コンピュータは処理能力で従来のコンピュータを上回っ、さまざまなビジネス分野に破壊的な影響を与えると予測されている。 金融セクターは、短期と長期の両方で量子コンピューティングの恩恵を受ける最初の分野の1つになると予測されている。 本研究では,Hybrid Quantum Neural Networkを用いて連続変数予測のための量子機械学習手法を提案する。

Within this decade, quantum computers are predicted to outperform conventional computers in terms of processing power and have a disruptive effect on a variety of business sectors. It is predicted that the financial sector would be one of the first to benefit from quantum computing both in the short and long terms. In this research work we use Hybrid Quantum Neural networks to present a quantum machine learning approach for Continuous variable prediction.
翻訳日:2023-01-09 18:15:41 公開日:2022-12-14
# アンダーソン絶縁体と相互作用する移動不純物のスローダイナミクス

Slow dynamics of a mobile impurity interacting with an Anderson insulator ( http://arxiv.org/abs/2212.07107v1 )

ライセンス: Link先を確認
Piotr Sierant, Titas Chanda, Maciej Lewenstein, Jakub Zakrzewski(参考訳) 本研究では,アンダーソン局在粒子の浴槽に浸漬した単一移動不純物のダイナミクスを調べ,比較的強い障害と相互作用の制御に焦点をあてる。 この体制では、システムのダイナミクスは特に遅く、短時間で多体局在が発生することを示唆している。 長い時間スケールを考えると、後者は過渡的効果であり、最終的には不純物は拡散的に拡散し、アンダーソン絶縁体の漸進的非局在化を引き起こす。 スローダイナミクスが考慮される場合のシステムの現象学は、不純物の平均平方変位の平均拡散成長、アンダーソン絶縁体の密度相関関数のパワーロー減衰、および系のエントロピーのパワーロー成長を含む。 システム内の障害が十分に強い準周期ポテンシャルに置き換わる際にも、同様のスローダイナミクスの体制が観察される。

We investigate dynamics of a single mobile impurity immersed in a bath of Anderson localized particles and focus on the regime of relatively strong disorder and interactions. In that regime, the dynamics of the system is particularly slow, suggesting, at short times, an occurrence of many-body localization. Considering longer time scales, we show that the latter is a transient effect and that, eventually, the impurity spreads sub-diffusively and induces a gradual delocalization of the Anderson insulator. The phenomenology of the system in the considered regime of slow dynamics includes a sub-diffusive growth of mean square displacement of the impurity, power-law decay of density correlation functions of the Anderson insulator and a power-law growth of entanglement entropy in the system. We observe a similar regime of slow dynamics also when the disorder in the system is replaced by a sufficiently strong quasi-periodic potential.
翻訳日:2023-01-09 16:28:33 公開日:2022-12-14
# 衛星銀河からの超薄暗黒物質の量子トンネル

Quantum Tunneling of Ultralight Dark Matter Out of Satellite Galaxies ( http://arxiv.org/abs/2212.07386v1 )

ライセンス: Link先を確認
Mark P. Hertzberg, Abraham Loeb(参考訳) 超軽いスカラー(アキション)ダークマターの概念は理論的に魅力的であり、冷たいダークマターの小さな問題のいくつかを解決する可能性がある。 この研究では、ホストハローの潮流重力力による小星衛星のスカラー場のトンネルを慎重に解析する。 潮流の力は球対称とは程遠いため、ハロ中心から小星への軸に沿ってトンネルし、直交面に閉じ込める。 波動関数を球面項と高調波に分解し、角度を積分し、残射Schr\"odinger-Poisson系を数値的に解く。 少なくとも宇宙の時代には、フォルナックス小星ハローの核が生き残るように要求することで、ダークマター粒子の質量は 2 {\displaystyle 2,\times 10^{-22}\,\mbox{eV}\lesssim m\lesssim 6\times 10^{-22}\,$eV となる。 興味深いことに、もし別の非常に低い密度のハロが見られたら、超軽量スカラーをコア提案として完全に除外する。 さらに、非凝縮粒子はよりシャープな下界を強いる可能性が高い。 また、残余衛星が半径関数としてどのように分布するかも決定する。

The idea of ultralight scalar (axion) dark matter is theoretically appealing and may resolve some small-scale problems of cold dark matter; so it deserves careful attention. In this work we carefully analyze tunneling of the scalar field in dwarf satellites due to the tidal gravitational force from the host halo. The tidal force is far from spherically symmetric; causing tunneling along the axis from the halo center to the dwarf, while confining in the orthogonal plane. We decompose the wave function into a spherical term plus higher harmonics, integrate out angles, and then numerically solve a residual radial Schr\"odinger-Poisson system. By demanding that the core of the Fornax dwarf halo can survive for at least the age of the universe places a bound on the dark matter particle mass $2\times 10^{-22}\,\mbox{eV}\lesssim m\lesssim 6\times 10^{-22}\,$eV. Interestingly, we show that if another very low density halo is seen, then it rules out the ultralight scalar as core proposal completely. Furthermore, the non-condensed particles likely impose an even sharper lower bound. We also determine how the residual satellites could be distributed as a function of radius.
翻訳日:2023-01-09 16:28:17 公開日:2022-12-14
# エンタングルメントエントロピーは、非単位量子ウォークのクラスにおけるPT対称性と位相位相を区別する

Entanglement entropy distinguishes PT-symmetry and topological phases in a class of non-unitary quantum walks ( http://arxiv.org/abs/2212.07453v1 )

ライセンス: Link先を確認
Gene M. M. Itable and Francis N. C. Paraan(参考訳) 非単位量子ウォークにおけるコインとウォーカーの自由度の間のハイブリッド絡み合いエントロピーを計算する。 このモデルは共役パリティと時間反転対称性またはpt対称性を持ち、この対称性が固有状態によって崩壊しないときに位相位相相をサポートする。 長い時間における漸近解析により、量子ウォークは利得と損失機構が存在する場合でも、無傷対称性相におけるハイブリッド絡み合いを無期限に維持できることが分かる。 しかし、ゲインロス強度が大きすぎると、モデルのPT対称性は自発的に壊れ、絡み合いは消える。 したがって、絡み合いエントロピーは、この非ユニタリ力学系においてpt対称性および位相相図を構築するための有効でロバストなパラメータである。

We calculate the hybrid entanglement entropy between coin and walker degrees of freedom in a non-unitary quantum walk. The model possesses a joint parity and time-reversal symmetry or PT-symmetry and supports topological phases when this symmetry is unbroken by its eigenstates. An asymptotic analysis at long times reveals that the quantum walk can indefinitely sustain hybrid entanglement in the unbroken symmetry phase even when gain and loss mechanisms are present. However, when the gain-loss strength is too large, the PT-symmetry of the model is spontaneously broken and entanglement vanishes. The entanglement entropy is therefore an effective and robust parameter for constructing PT-symmetry and topological phase diagrams in this non-unitary dynamical system.
翻訳日:2023-01-09 16:21:41 公開日:2022-12-14
# 障害の存在下での位相相と長距離相互作用

Topological phases in the presence of disorder and longer-range interactions ( http://arxiv.org/abs/2212.07454v1 )

ライセンス: Link先を確認
Gianluca Francica, Edoardo Maria Tiburzi, Luca Dell'Anna(参考訳) 1次元超伝導体の相図に及ぼす乱れとカップリング範囲の組合せ効果について検討した。 ホッピングとペアリングという用語が多くのサイトを兼ねる,Kitaev 連鎖の拡張版を考える。 マヨラナゼロモードの存在条件を導出することにより、その範囲とオンサイト障害が、エッジに局在するマヨラナモードの出現によって特徴づけられるトポロジカル位相を大きく向上させることができることを示した。 我々は離散分布と連続性障害分布の両方を考える。 さらに,トポロジカル領域をさらに拡大する可能性がある相関障害の役割について考察する。 最後に、純粋に長距離な状態と障害の存在下では、エッジモードの空間的崩壊は代数的あるいは指数的であり、最終的には障害がないような局所化長が変化する。

We study the combined effects of disorder and range of the couplings on the phase diagram of one-dimensional topological superconductors. We consider an extended version of the Kitaev chain where hopping and pairing terms couple many sites. Deriving the conditions for the existence of Majorana zero modes, we show that either the range and the on-site disorder can greatly enhance the topological phases characterized by the appearance of one or many Majorana modes localized at the edges. We consider both a discrete and a continuous disorder distribution. Moreover we discuss the role of correlated disorder which might further widen the topological regions. Finally we show that in the purely long-range regime and in the presence of disorder, the spatial decay of the edge modes remains either algebraic or exponential, with eventually a modified localization length, as in the absence of disorder.
翻訳日:2023-01-09 16:21:28 公開日:2022-12-14
# 長距離ハミルトニアンの時空間的クエンチ

Spatiotemporal Quenches in Long-Range Hamiltonians ( http://arxiv.org/abs/2212.07499v1 )

ライセンス: Link先を確認
Simon Bernier and Kartiek Agarwal(参考訳) 時空間クエンチはローレンツ不変量による低エネルギーな記述を創発する臨界ハミルトニアンの基底状態を作成するのに効率的である。 近接する近接相互作用を持つ臨界逆場イジングモデルは、例えば、相対論的低エネルギー分散を持つ自由フェルミオンに写像する。 しかし、ニュートラル・リドバーグ原子に基づく人工量子シミュレータ、あるいは捕捉されたイオンに基づくスピンモデルでは、広い範囲の\alpha$に対して$j(r) \sim 1/r^\alpha$との相互作用の長距離のパワーロー減衰を示す。 本研究では,これらのモデルにおける時空間的クエンチの運命を,数値的な時間依存変分原理を用いて,クエンチ前線の伝播に固定された速度$v$を用いて検討する。 臨界理論が動的臨界指数$z = 1$を持つことを示唆する$\alpha \gtrsim 3$に対して、我々のシミュレーションは、最前線速度$v$が臨界モデルにおける励起の有効速度である$c$に近づくと最適冷却が達成されることを示す。 エネルギー密度は宇宙空間に均等に分布し、顕著なホット領域はクエンチフロントと共重合し、寒冷領域は反伝播励起である。 $\alpha$を下げると、これらの領域の境界が曖昧になる。 例えば、$\alpha < 3$ の場合、ドップラー冷却効果は、値が $z < 1$ の分散 $\omega \sim q^z$ を示唆する臨界モデルに対する再正規化群の結果から期待されるように消滅する。 その代わりに、励起は前部速度としきい値速度との比が最終的にクエンチの断熱性を決定する2つの関連する長さスケールで制御されることを示す。

Spatiotemporal quenches are efficient at preparing ground states of critical Hamiltonians that have emergent low-energy descriptions with Lorentz invariance. The critical transverse field Ising model with nearest neighbor interactions, for instance, maps to free fermions with a relativistic low energy dispersion. However, spin models realized in artificial quantum simulators based on neutral Rydberg atoms, or trapped ions, generically exhibit long range power-law decay of interactions with $J(r) \sim 1/r^\alpha$ for a wide range of $\alpha$. In this work, we study the fate of spatiotemporal quenches in these models with a fixed velocity $v$ for the propagation of the quench front, using the numerical time-dependent variational principle. For $\alpha \gtrsim 3$, where the critical theory is suggested to have a dynamical critical exponent $z = 1$, our simulations show that optimal cooling is achieved when the front velocity $v$ approaches $c$, the effective speed of excitations in the critical model. The energy density is inhomogeneously distributed in space, with prominent hot regions populated by excitations co-propagating with the quench front, and cold regions populated by counter-propagating excitations. Lowering $\alpha$ largely blurs the boundaries between these regions. For $\alpha < 3$, we find that the Doppler cooling effect disappears, as expected from renormalization group results for the critical model which suggest a dispersion $\omega \sim q^z$ with $z < 1$. Instead, we show that excitations are controlled by two relevant length scales whose ratio is related to that of the front velocity to a threshold velocity that ultimately determines the adiabaticity of the quench.
翻訳日:2023-01-09 16:21:13 公開日:2022-12-14
# 分割プロトコルにおける連結相関--ケーススタディとそれ以降

Connected correlations in partitioning protocols: a case study and beyond ( http://arxiv.org/abs/2212.07151v1 )

ライセンス: Link先を確認
Saverio Bocini(参考訳) 不均質な量子クエンチェにおける局所緩和の仮定は、一般化された流体力学(ghd)として知られる流体力学の議論を通じて局所観測可能性の期待値を漸近的に計算することができる。 この研究では、パーティショニングプロトコルの遊び場と非相互作用時間進化を用いてGHDによって記述される観測可能が「ローカルで十分」であるかどうかという問題に対処する。 二次ハミルトニアンの下で進化する任意の状態は、それらの場の1つが根密度の時空依存性の一般化と同一視できるような分離力学場の集合を通して記述できることを示した。 これらの各場の連結スピン相関に対する寄与を独立に研究することにより、観測可能な局所性条件を根密度のみを用いて記述することができる。 これは、ghdのような根密度のみを用いて観測可能物の漸近値を記述することを目的とした流体力学アプローチの妥当性の体系と、ガウス化に必要な局所性条件の両方を示す。

The assumption of local relaxation in inhomogeneous quantum quenches allows to compute asymptotically the expectation value of local observables via hydrodynamic arguments known as generalized hydrodynamics (GHD). In this work we address formally the question of when an observable is ``local enough'' to be described by GHD using the playground of partitioning protocols and non-interacting time evolution. We show that any state evolving under a quadratic Hamiltonian can be described via a set of decoupled dynamical fields such that one of those fields can be identified with a space-time-dependent generalisation of the root density. By studying the contribution to a connected spin correlation of each of those fields independently, we derive the locality conditions under which an observable can be described using the root density only. That shows both the regime of validity for hydrodynamic approaches that aim at describing the asymptotic value of observables in term of the root density only, such as GHD, and the locality conditions necessary for Gaussianification to occur.
翻訳日:2023-01-09 16:11:29 公開日:2022-12-14
# なぜゼロモードが絡み合うエントロピーの分岐を引き起こすのか?

When and why do zero-modes cause a divergence in the entanglement entropy? ( http://arxiv.org/abs/2212.07174v1 )

ライセンス: Link先を確認
Vijay Nenmeli and S. Shankaranarayanan (IIT Bombay)(参考訳) 1次元ボソニック鎖とフェルミオン鎖の文脈における基底ハミルトニアンの基底状態の絡み合いエントロピーと創発的ゼロモードの発散の相関について検討した。 一対の結合ボソニック自由度から始め、ゼロモードが必要であるが、エントロピーのエントロピー分岐には不十分であることを示す。 次に、発散を識別する十分な条件を列挙する。 次に、我々は解析をボソニック鎖に拡張し、エンタングルメントハミルトニアンのゼロモードがエンタングルメントハミルトニアンとは無関係な発散のシグニオンを与えることを示した。 すると、結果をディラック場の離散版であるスタッガー化されたフェルミオンの連鎖に対する1次元フェルミオン格子に一般化する。 ボソニック鎖の詳細な手法はフェルミオン類縁体を持ち、フェルミオン鎖の絡み合いの数値的研究でこれを追従する。 最後に、分解代数の定理に照らして結果について議論する。

We examine the correlations between divergences in ground state entanglement entropy and emergent zero-modes of the underlying Hamiltonian in the context of one-dimensional Bosonic and Fermionic chains. Starting with a pair of coupled Bosonic degrees of freedom, we show that zero modes are necessary, but not sufficient for entanglement entropy divergences. We then list sufficient conditions that identify divergences. Next, we extend our analysis to Bosonic chains, where we demonstrate that zero modes of the entanglement Hamiltonian provide a signature for divergences independent of the entanglement Hamiltonian. We then generalize our results to one-dimensional Fermionic lattices for a chain of staggered Fermions which is a discretized version of the Dirac field. We find that the methods detailed for Bosonic chains have Fermionic analogs and follow this up with a numerical study of the entanglement in the Fermionic chain. Finally, we discuss our results in light of the factorization algebra theorem.
翻訳日:2023-01-09 16:11:09 公開日:2022-12-14
# トーラス上の自由ディラックフェルミオンの絡み合い分解

Entanglement resolution of free Dirac fermions on a torus ( http://arxiv.org/abs/2212.07261v1 )

ライセンス: Link先を確認
Alessandro Foligno, Sara Murciano and Pasquale Calabrese(参考訳) 系が保存電荷を持つとき、密度行列は各対称性セクターに関連する固有空間に分裂し、対称性分解エントロピー(SRE)と呼ばれる与えられた部分空間の絡み合いエントロピーにアクセスすることができる。 ここではまず,有限温度および大きさの系における質量を持たないディラックフェルミオンのsre,すなわちトーラスについて評価する。 そして、ダイラック作用に大規模な項を加え、これを無質量理論の摂動として扱う。 電荷依存のエントロピーは、すべての対称性セクターで前列で等しく分布する。 しかし, 質量とトーラスに沿った境界条件の両方に依存する部分鉛直補正がみられた。 また、2つのサブシステム間の電荷不均衡の観点からフェルミオン負の分解について検討する。 また, この量に対して質量の存在は, 異なる不均衡セクタ間の等分性を変化させることを示した。

Whenever a system possesses a conserved charge, the density matrix splits into eigenspaces associated to the each symmetry sector and we can access the entanglement entropy in a given subspace, known as symmetry resolved entanglement (SRE). Here, we first evaluate the SRE for massless Dirac fermions in a system at finite temperature and size, i.e. on a torus. Then we add a massive term to the Dirac action and we treat it as a perturbation of the massless theory. The charge-dependent entropies turn out to be equally distributed among all the symmetry sectors at leading order. However, we find subleading corrections which depend both on the mass and on the boundary conditions along the torus. We also study the resolution of the fermionic negativity in terms of the charge imbalance between two subsystems. We show that also for this quantity, the presence of the mass alters the equipartition among the different imbalance sectors at subleading order.
翻訳日:2023-01-09 16:10:27 公開日:2022-12-14
# 表面ダイアボリック点を有する非エルミート高次ワイル半金属

Non-Hermitian higher-Order Weyl semimetal with surface diabolic points ( http://arxiv.org/abs/2212.07262v1 )

ライセンス: Link先を確認
Subhajyoti Bid, Gaurab Kumar Dash, and Manisha Thakurathi(参考訳) 非エルミート系における高次トポロジーは、近年、凝縮物質物理学において最も有望で急速に発展している分野の1つである。 エルミート同値系に存在しない多くの異なる相がこれらの系に示される。 本研究では,高次ワイル半金属がNH摂動の影響について検討する。 非エルミート的高次ワイル半金属(NHHOWS)の表面ダイアボリック点を持つ新しいタイプのトポロジカル半金属を同定する。 このようなNHHOWSでは、バルク内の新たな例外点が生成され、消滅し、それによってそれらの数を操作できることを示す。 境界において、これらの例外点は、ダイアボリック点とヒンジ状態を持つ一意な曲面状態を介して接続される。 特定の系パラメータに対して、NHHOWSの表面は2次分散を持つ線形分散を持つディラック相またはルッティンガー相として振る舞うため、ディラック・ラッティンガースイッチングの道が開けられる。 最後に, NH系の標準バルク境界対応を再定義し, トポロジ的不変量を計算するために, 生物直交法を用いる。 得られた量子化生物四角形チャーン数と四重項モーメントはそれぞれ特異な表面とヒンジ状態を位相的に保護する。

Higher-order topology in non-Hermitian (NH) systems has recently become one of the most promising and rapidly developing fields in condensed matter physics. Many distinct phases that were not present in the Hermitian equivalents are shown in these systems. In this work, we examine how higher-order Weyl semimetals are impacted by NH perturbation. We identify a new type of topological semimetal, i.e., non-Hermitian higher-order Weyl semimetal (NHHOWS) with surface diabolic points. We demonstrate that in such an NHHOWS, new exceptional points inside the bulk can be created and annihilated, therefore allowing us to manipulate their number. At the boundary, these exceptional points are connected through unique surface states with diabolic points and hinge states. For specific system parameters, the surface of NHHOWS behaves as a Dirac phase with linear dispersion or a Luttinger phase with a quadratic dispersion, thus paving a way for Dirac-Luttinger switching. Finally, we employ the biorthogonal technique to reinstate the standard bulk boundary correspondence for NH systems and compute the topological invariants. The obtained quantized biorthogonal Chern number and quadruple moment topologically protect the unique surface and hinge states, respectively.
翻訳日:2023-01-09 16:10:11 公開日:2022-12-14
# 周辺自己同型ユニタリ全正写像

Peripherally automorphic unital completely positive maps ( http://arxiv.org/abs/2212.07351v1 )

ライセンス: Link先を確認
B. V. Rajarama Bhat, Samir Kar and Bharat Talwar(参考訳) 我々は、周辺固有ベクトルが生成する空間に拡張されたchoi-effros積が元の積と一致する有限次元$c^*$-代数上のユニタリ完全正(ucp)写像を同定し特徴付ける。 有限次元の一般ucp写像の永続部分および過渡部分への分解を解析した。 単位円に含まれるスペクトルを持つ有限次元$C^*$-代数上のUPP写像は$\ast$-自己同型であることが示されている。

We identify and characterize unital completely positive (UCP) maps on finite dimensional $C^*$-algebras for which the Choi-Effros product extended to the space generated by peripheral eigenvectors matches with the original product. We analyze a decomposition of general UCP maps in finite dimensions into persistent and transient parts. It is shown that UCP maps on finite dimensional $C^*$-algebras with spectrum contained in the unit circle are $\ast$-automorphisms.
翻訳日:2023-01-09 16:09:53 公開日:2022-12-14
# 外自己同型とCPとの距離における合成性

Telling compositeness at a distance with outer automorphisms and CP ( http://arxiv.org/abs/2212.07439v1 )

ライセンス: Link先を確認
Ingolf Bischer, Christian D\"oring, Andreas Trautner(参考訳) 電荷パリティ (cp) および非cp群外自己同型およびそれらの下の群表現の変換挙動について検討した。 我々は、群を全く同じ表現で変換し、外自己同型の下で異なる変換を行う合成状態および基本状態を特定する。 これは、外部自己同型、すなわち明示的な短距離散乱実験を必要とせずに、量子数のみによって基本状態から合成を識別するのに役立つ。 このような区別がどんな条件で可能かについて論じる。 我々は、対称性制約(表現)空間の場合を、フレーバー空間における同一表現の複写の場合と明確に分離し、フレーバー空間における非自明な変換を複合状態に対して実施できる条件を特定する。 複合積状態の次には、非生成物表現における複合状態についても論じる。 総合的な例は有限群 $\Sigma(72)$ と $D_8$ に基づいて与えられる。 この議論は$\mathrm{su}(n)$にも当てはまり、非対称行列を持つ$\mathrm{su}(2n)$外自己同型は異なる外的自己同型に対応するという文献の最近の主張を精査する。 反対称行列を持つ外自己同型変換は、標準的な$\mathbb{Z}_2$ $\mathrm{SU}(N)$の外部自己同型に内自己同型で関連していることを示す。 直接の含意として、複合積状態に対して$\mathrm{su}(n)$ の外部自己同型の下で非自明な変換挙動は生じない。

We investigate charge-parity (CP) and non-CP outer automorphism of groups and the transformation behavior of group representations under them. We identify situations where composite and elementary states that transform in exactly the same representation of the group, transform differently under outer automorphisms. This can be instrumental in discriminating composite from elementary states solely by their quantum numbers with respect to the outer automorphism, i.e. without the need for explicit short distance scattering experiments. We discuss under what conditions such a distinction is unequivocally possible. We cleanly separate the case of symmetry constrained (representation) spaces from the case of multiple copies of identical representations in flavor space, and identify conditions under which non-trivial transformation in flavor space can be enforced for composite states. Next to composite product states, we also discuss composite states in non-product representations. Comprehensive examples are given based on the finite groups $\Sigma(72)$ and $D_8$. The discussion also applies to $\mathrm{SU}(N)$ and we scrutinize recent claims in the literature that $\mathrm{SU}(2N)$ outer automorphism with antisymmetric matrices correspond to distinct outer automorphisms. We show that outer automorphism transformations with antisymmetric matrices are related by an inner automorphism to the standard $\mathbb{Z}_2$ outer automorphism of $\mathrm{SU}(N)$. As a direct implication, no non-trivial transformation behavior can arise for composite product states under the outer automorphism of $\mathrm{SU}(N)$.
翻訳日:2023-01-09 16:09:18 公開日:2022-12-14
# ダブルトランスモンカプラを用いた高周波超伝導量子ビットの高速パラメトリック2量子ゲート

Fast parametric two-qubit gate for highly detuned fixed-frequency superconducting qubits using a double-transmon coupler ( http://arxiv.org/abs/2212.06979v1 )

ライセンス: Link先を確認
Kentaro Kubo and Hayato Goto(参考訳) stc(single-transmon coupler)を介して超伝導量子ビットを結合した高性能2量子ビットゲートが報告されている。 STCにより高度に復調された量子ビットに対する残差$ZZ$結合を減少させるため、そのほとんどは小さな復調を伴う量子ビットに対して実装される。 しかし,周波数群集やクロストークに関しては,高度に変形した量子ビットが望ましい。 本稿では,最近提案されたDouble-transmon coupler (DTC) と呼ばれるチューナブルカプラを用いて,高度に変形した固定周波数キュービットに対する高性能パラメトリックゲートを数値的に示す。 acフラックスパルスを適用して、最大エンタングリングユニバーサルゲート(\sqrt{\rm iSWAP}$)を99.99$\%を超える平均忠実度と約24 nsの短いゲート時間で実行することができる。 この速度は、微調整可能な量子ビットの共振ベースのゲートに匹敵する。 さらに、代わりにdcフラックスパルスを用いることで、平均忠実度99.99$\%$と約18ns以上のゲートを持つCZゲートと呼ばれる別のエンタングリングゲートを達成することができる。 フレキシビリティと実現可能な設定を考えると、近い将来、DTCが高性能な量子コンピュータの実現に寄与することが期待できる。

High-performance two-qubit gates have been reported with superconducting qubits coupled via a single-transmon coupler (STC). Most of them are implemented for qubits with a small detuning since reducing residual $ZZ$ coupling for highly detuned qubits by an STC is challenging. In terms of the frequency crowding and crosstalk, however, highly detuned qubits are desirable. Here, we numerically demonstrate a high-performance parametric gate for highly detuned fixed-frequency qubits using a recently proposed tunable coupler called a double-transmon coupler (DTC). Applying an ac flux pulse, we can perform a maximally entangling universal gate ($\sqrt{\rm iSWAP}$) with an average fidelity over 99.99$\%$ and a short gate time of about 24 ns. This speed is comparable to resonance-based gates for slightly detuned tunable qubits. Moreover, using a dc flux pulse alternatively, we can achieve another kind of entangling gate called a CZ gate with an average fidelity over 99.99$\%$ and a gate time of about 18 ns. Given the frexibility and feasible settings, we can expect that the DTC will contribute to realizing a high-performance quantum computer in the near future.
翻訳日:2023-01-09 16:00:10 公開日:2022-12-14
# ilpモデルに基づく量子アニーリングによる触覚ネットワークリソース割り当ての実現

Tactile Network Resource Allocation enabled by Quantum Annealing based on ILP Modeling ( http://arxiv.org/abs/2212.07854v1 )

ライセンス: Link先を確認
Arthur Witt, Christopher K\"orber, Andreas Kirst\"adter, Thomas Luu(参考訳) 高速な適応と再構成機能を備えたアジャイルネットワークは、高可用性で高品質なサービスの持続可能なプロビジョニングに必要である。 本稿では,量子コンピューティング(QC)と整数線形プログラム(ILP)モデルに基づく短時間ネットワーク制御のための新しい手法フレームワークを提案する。 最後に、実例ネットワークの場合、最先端の量子アニールD-Wave Advantage 5.2によるアプローチの実現可能性について検討し、より大きなネットワークに対するスケーリング推定を提供する。 我々は,最大6ノードのネットワークに対して,quadratic unconstrained binary optimization (qubo) 形式にネットワーク問題を組み込む。 さらに,古典的ILP解法により得られる参照解に近い実現可能な解を求めるアニールパラメータを求める。 12から16のノードを持つ実サイズのネットワークは、少なくとも50000キュービット以上の量子アニール(QA)ハードウェアを必要とすると見積もっている。

Agile networks with fast adaptation and reconfiguration capabilities are required for sustainable provisioning of high-quality services with high availability. We propose a new methodical framework for short-time network control based on quantum computing (QC) and integer linear program (ILP) models, which has the potential of realizing a real-time network automation. Finally, we study the approach's feasibility with the state-of-the-art quantum annealer D-Wave Advantage 5.2 in case of an example network and provide scaling estimations for larger networks. We embed network problems in quadratic unconstrained binary optimization (QUBO) form for networks of up to 6 nodes. We further find annealing parameters that obtain feasible solutions that are close to a reference solution obtained by classical ILP-solver. We estimate, that a real-sized network with 12 to 16 nodes require a quantum annealing (QA) hardware with at least 50000 qubits or more.
翻訳日:2023-01-09 15:35:23 公開日:2022-12-14
# 非線形分散損失を用いた半導体レーザの強度雑音凝縮

Strong intensity noise condensation using nonlinear dispersive loss in semiconductor lasers ( http://arxiv.org/abs/2212.07300v1 )

ライセンス: Link先を確認
Sahil Pontula, Jamison Sloan, Nicholas Rivera, Marin Soljacic(参考訳) フォック状態は、電磁場ハミルトニアンの固有状態であるため、最も基本的な光の量子状態である。 彼らは多数の量子情報プロトコルを満たし、ショットノイズの限界をはるかに回避する感度を大幅に向上した次世代センサーを可能にする。 しかし、現在の技術状態は弱い強度の光と少数の光子フォック状態に限られている。 本稿では,非線形分散損失現象を半導体レーザープラットフォームに適用し,その強非線形性とオンチップフォトニクスとの簡便な統合を応用し,強い強度ノイズを絞り込むレーザを作製し,高感度バイオセンサを用いたオンチップ量子コンピューティングへの道を開くことを提案する。

Fock states are the most fundamental quantum states of light, as they are eigenstates of the electromagnetic field Hamiltonian. They underlie numerous quantum information protocols and could allow next-generation sensors with vastly improved sensitivity far bypassing the shot noise limit. However, the current state of the art is limited to weakly intensity-squeezed light and few-photon Fock states. Here, we propose applying the phenomenon of nonlinear dispersive loss to semiconductor laser platforms, harnessing their strong nonlinearities and convenient integration with on-chip photonics to create lasers with strong intensity noise squeezing, paving the way to applications including enhanced-sensitivity biosensors to on-chip quantum computing.
翻訳日:2023-01-09 15:26:53 公開日:2022-12-14
# 多体量子系におけるRenyiエントロピー成長の境界

Bounds on Renyi entropy growth in many-body quantum systems ( http://arxiv.org/abs/2212.07444v1 )

ライセンス: Link先を確認
Zhengyan Darius Shi(参考訳) ヒルベルト空間次元が有限な一般格子量子多体系の任意の部分系 $A$ に付随する任意の場合 $\alpha$-Renyi entropies $S_{\alpha}(t)$ (Von Neumann entropy は特殊の場合 $\alpha = 1$) の成長に関する厳密な境界を証明している。 完全非局所ハミルトニアンの場合には、瞬間的成長率 $|s'_{\alpha}(t)|$ ($\alpha \neq 1$) は、サブシステムサイズ $|a|$ の関数として$|s'_1(t)|$ よりも指数関数的に大きい。 幾何学的局所性を持つ$d$-次元系では、距離との相互作用の減衰率に依存する$|s'_{\alpha}(t)|$ の境界が証明される。 もし$\alpha = 1$ のとき、バウンドは$w > 2d+1$ ですべてのパワーロー減衰相互作用に対して$|a|$-非依存である。 しかし、$\alpha > 1$ の場合、その境界は、相互作用が有限範囲であるときか、局所ヒルベルト空間次元に依存する数 $c$ に対して $v(r) \sim e^{- c\, r^d}$ よりも早く減衰する場合のみ、$|a|$-非依存である。 類似した引数を用いて、幾何的局所性の有無にかかわらず$k$-localシステム上の有界性も証明する。 この研究の中心的なテーマは、$\alpha$の値が局所性と絡み合いの成長の間の相互作用に強く影響を与えることである。 言い換えると、フォン・ノイマンのエントロピーと$\alpha$-renyiエントロピーは、絡み合いダイナミクスの研究において互いにプロキシと見なすことはできない。 これらの境界を、局所性の異なるハミルトン多様体上の解析的および数値的な結果と比較し、非局所力学の境界をほぼ飽和する具体的な例を見つける。

We prove rigorous bounds on the growth of $\alpha$-Renyi entropies $S_{\alpha}(t)$ (the Von Neumann entropy being the special case $\alpha = 1$) associated with any subsystem $A$ of a general lattice quantum many-body system with finite onsite Hilbert space dimension. For completely non-local Hamiltonians, we show that the instantaneous growth rates $|S'_{\alpha}(t)|$ (with $\alpha \neq 1$) can be exponentially larger than $|S'_1(t)|$ as a function of the subsystem size $|A|$. For $D$-dimensional systems with geometric locality, we prove bounds on $|S'_{\alpha}(t)|$ that depend on the decay rate of interactions with distance. When $\alpha = 1$, the bound is $|A|$-independent for all power-law decaying interactions $V(r) \sim r^{-w}$ with $w > 2D+1$. But for $\alpha > 1$, the bound is $|A|$-independent only when the interactions are finite-range or decay faster than $V(r) \sim e^{- c\, r^D}$ for some $c$ depending on the local Hilbert space dimension. Using similar arguments, we also prove bounds on $k$-local systems with or without geometric locality. A central theme of this work is that the value of $\alpha$ strongly influences the interplay between locality and entanglement growth. In other words, the Von Neumann entropy and the $\alpha$-Renyi entropies cannot be regarded as proxies for each other in studies of entanglement dynamics. We compare these bounds with analytic and numerical results on Hamiltonians with varying degrees of locality and find concrete examples that almost saturate the bound for non-local dynamics.
翻訳日:2023-01-09 15:26:42 公開日:2022-12-14
# 負質量マイクロ波モードを持つ光子圧力

Photon-Pressure with a Negative Mass Microwave Mode ( http://arxiv.org/abs/2212.07461v1 )

ライセンス: Link先を確認
Ines C. Rodrigues, Gary A. Steele, and Daniel Bothner(参考訳) 調和発振器は物理学における最も基本的な概念であり、回路qed、キャビティ光学系、光子圧力系など現在の多くの研究分野の中心である。 超伝導マイクロ波lc回路において有効な負の質量調和振動子モードを設計し、光子圧を介して第2の低周波回路に結合する。 実効性負質量が動的バックアクションの逆転と、負質量発振器の反転エネルギーラグによって自然に説明されるブルー変調ポンプ場による低周波回路のサイドバンド冷却につながることを示す。

Harmonic oscillators belong to the most fundamental concepts in physics and are central to many current research fields such as circuit QED, cavity optomechanics and photon-pressure systems. Here, we engineer an effective negative mass harmonic oscillator mode in a superconducting microwave LC circuit and couple it via photon-pressure to a second low-frequency circuit. We demonstrate that the effective negative mass leads to an inversion of dynamical backaction and to sideband-cooling of the low-frequency circuit by a blue-detuned pump field, naturally explained by the inverted energy ladder of the negative mass oscillator.
翻訳日:2023-01-09 15:25:57 公開日:2022-12-14
# ボソニック作用素がフェルミオン構造とダイナミクスを正確に捉える条件の導出

A derivation of the conditions under which bosonic operators exactly capture fermionic structure and dynamics ( http://arxiv.org/abs/2212.07003v1 )

ライセンス: Link先を確認
Andr\'es Montoya-Castillo and Thomas E. Markland(参考訳) 多体フェルミオン系の力学は、電気化学表面での触媒反応からナノ接合の輸送までの問題において重要であり、量子コンピューティング応用の主ターゲットとなる。 ここでは、フェルミオン作用素がちょうどボソニック作用素に置き換えられる条件の集合を導出し、そこでは、$n$ボディ作用素の正しいダイナミクスを捕捉しながら、動的メソッドの大きなツールボックスに到達可能な問題を表現できる。 重要なことに、この解析は、これらの単純な写像を利用して、輸送と分光を記述するのに不可欠な非平衡および平衡の単時間および多時間相関関数を計算する方法の簡単なガイドを提供する。 これを厳密に解析し,ナノトランスポートの選択モデルにおいて正しいフェルミオンダイナミクスを正しく捉えることが証明された,単純で効果的なカルテジアン写像の適用性を示すために用いる。 共振レベルモデルの正確なシミュレーションにより解析結果について述べる。 我々の研究は、原子核相互作用の原子論的表現が必須となる多くの電子系のダイナミクスをシミュレートするために、ボソニック写像の単純さをいつ活用できるかについての新たな洞察を与えている。

The dynamics of many-body fermionic systems are important in problems ranging from catalytic reactions at electrochemical surfaces, to transport through nanojunctions, and offer a prime target for quantum computing applications. Here we derive the set of conditions under which fermionic operators can be exactly replaced by bosonic operators that render the problem amenable to a large toolbox of dynamical methods while still capturing the correct dynamics of the $n$-body operators. Importantly, our analysis offers a simple guide on how one can exploit these simple maps to calculate nonequilibrium and equilibrium single- and multi-time correlation functions essential in describing transport and spectroscopy. We use this to rigorously analyze and delineate the applicability of simple yet effective Cartesian maps that have been shown to correctly capture the correct fermionic dynamics in select models of nanoscopic transport. We illustrate our analytical results with exact simulations of the resonant level model. Our work provides new insights as to when one can leverage the simplicity of bosonic maps to simulate the dynamics of many-electron systems, especially those where an atomistic representation of nuclear interactions becomes essential.
翻訳日:2023-01-09 15:16:01 公開日:2022-12-14
# 電気回路における一般エネルギー平衡

Generalized energy equipartition in electrical circuits ( http://arxiv.org/abs/2212.07024v1 )

ライセンス: Link先を確認
Aritra Ghosh(参考訳) 本稿では、ジョンソン-ニキスト(熱)雑音を持つ汎用電気回路に対する一般化エネルギー平衡定理を示す。 量子力学的考察から、熱モードはプランクの法則によって決定されるエネルギー分布を持つ。 あるインダクタンスを持つ抵抗回路では、アドミタンスの実部は、フーリエスペクトルの様々な周波数からのシステムの平均エネルギーへの寄与を変調する確率分布関数に比例していることが示されている。 さらに,インダクタと抵抗器で直列に接続されたキャパシタを用いてケース解析を行う。 結果は超統計学、すなわち2つの統計の重ね合わせに似ており、エネルギー表現で再構成することができる。 正しい古典的極限は$\hbar \rightarrow 0$として得られる。

In this brief note, we demonstrate a generalized energy equipartition theorem for a generic electrical circuit with Johnson-Nyquist (thermal) noise. From quantum mechanical considerations, the thermal modes have an energy distribution dictated by Planck's law. For a resistive circuit with some inductance, it is shown that the real part of the admittance is proportional to a probability distribution function which modulates the contributions to the system's mean energy from various frequencies of the Fourier spectrum. Further, we analyze the case with a capacitor connected in series with an inductor and a resistor. The results resemble superstatistics, i.e. a superposition of two statistics and can be reformulated in the energy representation. The correct classical limit is obtained as $\hbar \rightarrow 0$.
翻訳日:2023-01-09 15:15:40 公開日:2022-12-14
# qudit stabilizer codesによるnaranin cft

Narain CFTs from qudit stabilizer codes ( http://arxiv.org/abs/2212.07089v1 )

ライセンス: Link先を確認
Kohki Kawabata, Tatsuma Nishioka and Takuya Okuda(参考訳) 我々は、次元が素数であるqudit(qubitを含む)システムを持つ量子安定化符号からナライン cft の離散部分集合を構成する。 私たちの建設は3つの重要な関係を生かしている。 最初の関係は、クディット安定化符号と古典符号の間の関係である。 2つ目は古典符号とローレンツ格子の間である。 3つ目はローレンツ格子とナライン CFT の間である。 特に、qudit Calderbank-Shor-Steane(CSS)符号を、CSS符号から構築されたqudit stabilityr符号の特別なクラスとNalain符号CFTのアンサンブルとして研究する。 我々は、アンサンブル上の平均分割関数の正確な結果を求め、ホログラフィック双対性に対するそれらの意味について論じる。

We construct a discrete subset of Narain CFTs from quantum stabilizer codes with qudit (including qubit) systems whose dimension is a prime number. Our construction exploits three important relations. The first relation is between qudit stabilizer codes and classical codes. The second is between classical codes and Lorentzian lattices. The third is between Lorentzian lattices and Narain CFTs. In particular, we study qudit Calderbank-Shor-Steane (CSS) codes as a special class of qudit stabilizer codes and the ensembles of the Narain code CFTs constructed from CSS codes. We obtain exact results for the averaged partition functions over the ensembles and discuss their implications for holographic duality.
翻訳日:2023-01-09 15:15:21 公開日:2022-12-14
# ダイヤモンド中の窒素空洞を用いた全光量子センシング

All-Optical Nuclear Quantum Sensing using Nitrogen-Vacancy Centers in Diamond ( http://arxiv.org/abs/2212.07093v1 )

ライセンス: Link先を確認
Beat B\"urgler, Tobias F. Sjolander, Ovidiu Brinza, Alexandre Tallaire, Jocelyn Achard, Patrick Maletinsky(参考訳) 固体スピンは、基礎科学、医学診断、ナビゲーションなどの応用で量子センシングに大きな可能性を示している。 環境条件下での最高の性能を示す量子センシングスキームは、マイクロ波または電波駆動を利用しており、量子センサの小型化、エネルギー効率、非侵襲性に重大な制限を与える。 我々は、コヒーレント量子センシングに対する純粋に光学的アプローチを示すことによって、この制限を克服する。 我々の計画では、ダイヤモンド中の窒素-原子価(NV)中心の$^{15}$N核スピンを検知資源とし、NVの励起状態に近い斜め磁場のNVスピンダイナミクスを利用して、核スピンを光学的に量子重畳状態に励起する。 我々は、単一スピンとスピンアンサンブルの両方で、低周波量子センシングの鍵プロトコルである全光自由誘導減衰測定を実証する。 以上の結果から,高コンパクトな量子センサを用いた磁気計測やジャイロスコープへの応用が期待できる。

Solid state spins have demonstrated significant potential in quantum sensing with applications including fundamental science, medical diagnostics and navigation. The quantum sensing schemes showing best performance under ambient conditions all utilize microwave or radio-frequency driving, which poses a significant limitation for miniaturization, energy-efficiency and non-invasiveness of quantum sensors. We overcome this limitation by demonstrating a purely optical approach to coherent quantum sensing. Our scheme involves the $^{15}$N nuclear spin of the Nitrogen-Vacancy (NV) center in diamond as a sensing resource, and exploits NV spin dynamics in oblique magnetic fields near the NV's excited state level anti-crossing to optically pump the nuclear spin into a quantum superposition state. We demonstrate all-optical free-induction decay measurements - the key protocol for low-frequency quantum sensing - both on single spins and spin ensembles. Our results pave the way for highly compact quantum sensors to be employed for magnetometry or gyroscopy applications in challenging environments.
翻訳日:2023-01-09 15:15:09 公開日:2022-12-14
# 語彙生成逆ネットワークを用いた逆DDOS攻撃の合成

Synthesis of Adversarial DDOS Attacks Using Tabular Generative Adversarial Networks ( http://arxiv.org/abs/2212.14109v1 )

ライセンス: Link先を確認
Abdelmageed Ahmed Hassan, Mohamed Sayed Hussein, Ahmed Shehata AboMoustafa, Sarah Hossam Elmowafy(参考訳) ネットワーク侵入検知システム(英: network intrusion detection system、nid)は、コンピュータネットワークや情報システムを維持するために広く使われているツールやソフトウェアであり、誰かがシステムに侵入しようとすると、悪意のあるトラフィックが侵入することを防ぐ。 これらのシステム上では最善の努力が行われており、これまでに達成された成果は非常に満足できるものだが、攻撃技術が進化し続けるにつれて、新たなタイプの攻撃が目立ち、その1つが、マシンラーニングidを回避し、脆弱なままにすることができるジェネラティブ・アドバーサル・ネットワーク(gan)に基づく攻撃である。 本研究は,GINを用いた実際のDDoS攻撃によって合成された敵攻撃がIDSに与える影響について検討する。 目的は、これらのシステムが合成攻撃に対してどのように反応するかを明らかにすることである。 これらのシステムの脆弱性と弱点をマークし、修正できるようにします。

Network Intrusion Detection Systems (NIDS) are tools or software that are widely used to maintain the computer networks and information systems keeping them secure and preventing malicious traffics from penetrating into them, as they flag when somebody is trying to break into the system. Best effort has been set up on these systems, and the results achieved so far are quite satisfying, however, new types of attacks stand out as the technology of attacks keep evolving, one of these attacks are the attacks based on Generative Adversarial Networks (GAN) that can evade machine learning IDS leaving them vulnerable. This project investigates the impact of the Adversarial Attacks synthesized using real DDoS attacks generated using GANs on the IDS. The objective is to discover how will these systems react towards synthesized attacks. marking the vulnerability and weakness points of these systems so we could fix them.
翻訳日:2023-01-09 14:59:38 公開日:2022-12-14
# 画像診断応用のためのデータ拡張手法の批判的評価

A Critical Appraisal of Data Augmentation Methods for Imaging-Based Medical Diagnosis Applications ( http://arxiv.org/abs/2301.02181v1 )

ライセンス: Link先を確認
Tara M. Pattilachan, Ugur Demir, Elif Keles, Debesh Jha, Derk Klatte, Megan Engels, Sanne Hoogenboom, Candice Bolan, Michael Wallace, Ulas Bagci(参考訳) 現在のデータ拡張技術と変換は、自然画像データセットのサイズと品質を改善するのに適しているが、まだ医療画像に最適化されていない。 我々は, 患者診断, 予測, 治療・外科的評価において, 医療画像の歪みや閉塞が容易に起こり, 偽陽性や陰性が生じるという仮説を立てた。 実験の結果,一般的に使用される強度に基づくデータ拡張はMRIスキャンを歪ませ,テクスチャ情報損失を生じさせ,分類の全体的な性能に悪影響を及ぼすことがわかった。 また,医用画像におけるプラグアンドプレイ方式では,一般的なデータ拡張手法は使用できないこと,手動のチューニングや調整が必要であることも見いだした。

Current data augmentation techniques and transformations are well suited for improving the size and quality of natural image datasets but are not yet optimized for medical imaging. We hypothesize that sub-optimal data augmentations can easily distort or occlude medical images, leading to false positives or negatives during patient diagnosis, prediction, or therapy/surgery evaluation. In our experimental results, we found that utilizing commonly used intensity-based data augmentation distorts the MRI scans and leads to texture information loss, thus negatively affecting the overall performance of classification. Additionally, we observed that commonly used data augmentation methods cannot be used with a plug-and-play approach in medical imaging, and requires manual tuning and adjustment.
翻訳日:2023-01-09 14:59:23 公開日:2022-12-14
# ENGNN: 無線ネットワークにおける無線リソース管理のための汎用エッジ更新型GNNアーキテクチャ

ENGNN: A General Edge-Update Empowered GNN Architecture for Radio Resource Management in Wireless Networks ( http://arxiv.org/abs/2301.00757v1 )

ライセンス: Link先を確認
Yunqi Wang, Yang Li, Qingjiang Shi, Yik-Chung Wu(参考訳) 将来の無線ネットワークにおいて,高いデータレートとユビキタス接続を実現するために,ビームフォーミングと電力割り当てによって無線資源を効率的に管理することが重要な課題である。 残念ながら、一般に適用されている最適化アルゴリズムの反復性は、高い計算複雑性のために低レイテンシ要求を満たすことができない。 リアルタイム実装において、深層学習に基づくアプローチ、特にグラフニューラルネットワーク(GNN)は、置換等分散(PE)特性により、優れたスケーラビリティと一般化性能で実証されている。 しかし、現在のアーキテクチャはノード更新機構のみを備えており、未知の変数がグラフエッジ上でも定義されるような、より一般的な設定へのアプリケーションを禁止している。 このギャップを埋めるために、GNNがノード変数とエッジ変数の両方を扱い、送信機と受信機の両方に関してそのPE特性を証明できるエッジ更新機構を提案する。 典型的な無線資源管理問題に対するシミュレーション結果から,提案手法は最先端手法よりも高い和率で計算時間を大幅に短縮し,基地局数やユーザ数,ノイズのばらつき,干渉レベル,送電予算の差を十分に一般化できることが示された。

In order to achieve high data rate and ubiquitous connectivity in future wireless networks, a key task is to efficiently manage the radio resource by judicious beamforming and power allocation. Unfortunately, the iterative nature of the commonly applied optimization-based algorithms cannot meet the low latency requirements due to the high computational complexity. For real-time implementations, deep learning-based approaches, especially the graph neural networks (GNNs), have been demonstrated with good scalability and generalization performance due to the permutation equivariance (PE) property. However, the current architectures are only equipped with the node-update mechanism, which prohibits the applications to a more general setup, where the unknown variables are also defined on the graph edges. To fill this gap, we propose an edge-update mechanism, which enables GNNs to handle both node and edge variables and prove its PE property with respect to both transmitters and receivers. Simulation results on typical radio resource management problems demonstrate that the proposed method achieves higher sum rate but with much shorter computation time than state-of-the-art methods and generalizes well on different numbers of base stations and users, different noise variances, interference levels, and transmit power budgets.
翻訳日:2023-01-09 14:59:10 公開日:2022-12-14
# 連続動的デカップリングによる原子クトリット上の量子演算を保護する時間依存rabi周波数

Time-dependent Rabi frequencies to protect quantum operations on an atomic qutrit by continuous dynamical decoupling ( http://arxiv.org/abs/2212.07545v1 )

ライセンス: Link先を確認
Adonai Hilario da Silva, Reginaldo de Jesus Napolitano, Felipe Fernandes Fanchini, Bruno Bellomo(参考訳) 本研究では, 外部磁場を環境騒音から連続的に切り離すことにより, 原子クォート上の量子ゲートの作用を保護できるプロシージャに係わる時間依存ラビ周波数の形状について検討する。 いくつかのシミュレーションはランダムに選択されたものを含む量子ゲートモデルの作用を保護すると考えられている。 我々は現在,Rabi周波数の要件を実験的に満たすことができると論じている。 また、キュートリットメモリ状態の保護を含む、あるゲート操作から別のゲートへの遷移についても検討する。 最後に,3要素の置換のパリティを識別できるアルゴリズムの適用について,ノイズから保護する手法を適用した。

We investigate the form required for the time-dependent Rabi frequencies involved in a procedure capable to protect the action of quantum gates on an atomic qutrit by means of external fields continuously decoupling the system from the environmental noise. Several simulations are considered to protect the action of quantum-gate models, including randomly chosen ones. We argue that the requirements for the Rabi frequencies could be nowadays experimentally met. We also investigate the transition from one gate operation to another, including protecting a qutrit memory state. We finally apply our methodology to protect from noise the application of an algorithm capable of distinguishing the parity of permutations of three elements.
翻訳日:2023-01-09 14:41:38 公開日:2022-12-14
# 量子コードの局所確率的復号

Local Probabilistic Decoding of a Quantum Code ( http://arxiv.org/abs/2212.06985v1 )

ライセンス: Link先を確認
T. R. Scruby, K. Nemoto(参考訳) フリップは極端に単純で極端に局所的な古典的デコーダであり、古典的符号の特定のクラスにおいて大きな効果を発揮するために用いられてきた。 量子符号に適用する場合、このデコーダには修正不可能な一定の重み付きエラー(安定化器の半分など)が存在するため、以前の研究ではフリップの修正版を、時には他のデコーダと共に検討している。 これは必ずしも必要とは限らず、立方格子上の3次元トーリック符号のループ様症候群に適用されるとき、フリップのしきい値が存在することを数値的に証明する。 この結果は、このデコーダの最小ウェイトな修正不可能なエラーが、他の修正不可能なエラーよりも(ハミング距離の観点で)修正不能なエラーに近いため、追加ノイズによる変換後のコードサイクルで修正可能であることに起因する。 デコーダにランダム性を導入することで、これらの「訂正不能」な誤りを有限の確率で修正することができ、信念伝播と確率的フリップの組み合わせを用いたデコード戦略では、現象論的ノイズ下では$\sim5.5\%$のしきい値が観測される。 これは、このコードの最もよく知られたしきい値(\sim7.1\%$)に匹敵するものです。これは、信念の伝播と順序付けされた統計デコード(higgott and breuckmann, 2022])を使用して達成されました。これは、ローカルデコーダの$o(n)$ ($o(1)$ when parallelized)ランタイムとは対照的に、$o(n^3)$のランタイムを持つ戦略です。 私たちは、この戦略が他の低密度パリティチェックコードでうまく機能するように一般化されることを期待し、これらの結果が以前見落とされた他のデコーダの調査を早めることを期待しています。

flip is an extremely simple and maximally local classical decoder which has been used to great effect in certain classes of classical codes. When applied to quantum codes there exist constant-weight errors (such as half of a stabiliser) which are uncorrectable for this decoder, so previous studies have considered modified versions of flip, sometimes in conjunction with other decoders. We argue that this may not always be necessary, and present numerical evidence for the existence of a threshold for flip when applied to the looplike syndromes of a three-dimensional toric code on a cubic lattice. This result can be attributed to the fact that the lowest-weight uncorrectable errors for this decoder are closer (in terms of Hamming distance) to correctable errors than to other uncorrectable errors, and so they are likely to become correctable in future code cycles after transformation by additional noise. Introducing randomness into the decoder can allow it to correct these "uncorrectable" errors with finite probability, and for a decoding strategy that uses a combination of belief propagation and probabilistic flip we observe a threshold of $\sim5.5\%$ under phenomenological noise. This is comparable to the best known threshold for this code ($\sim7.1\%$) which was achieved using belief propagation and ordered statistics decoding [Higgott and Breuckmann, 2022], a strategy with a runtime of $O(n^3)$ as opposed to the $O(n)$ ($O(1)$ when parallelised) runtime of our local decoder. We expect that this strategy could be generalised to work well in other low-density parity check codes, and hope that these results will prompt investigation of other previously overlooked decoders.
翻訳日:2023-01-09 14:32:44 公開日:2022-12-14
# 共起三角形による真の多部絡み合い測定

Concurrence triangle induced genuine multipartite entanglement measure ( http://arxiv.org/abs/2212.07067v1 )

ライセンス: Link先を確認
Zhi-Xiang Jin, Yuan-Hong Tao, Yao-Ting Gui, Shao-Ming Fei, Xianqing Li-Jost, Cong-Feng Qiao(参考訳) 一般多粒子状態に対する真の多粒子エンタングルメント(GME)の定量化について検討する。 n$-partite の純粋な状態の絡み合いによって満たされる不等式の集合は、絡み合い分布の制限を利用して導出され、各部分と残りの状態との間の2成分の絡み合いが、残りの状態と他のパートナーの和を超えることができないことを示している。 そして、これらの不等式に対応する一連の三角形、すなわち共起三角形が成立する。 これにより,局所的操作や古典的通信では増加しない等長三角形の幾何平均面積を用いて,真の多部絡み合いの指標を構築することができる。 GME測度は、どの部分が分離可能か、他の部分と絡み合っているか、非真の絡み合っている純粋な状態に対して分類する。 コンベックス屋根構造により混合状態のGME測定を行い, 状態浄化に基づくアプローチにより多粒子混合状態のGMEを検出する証人を示す。 GME対策の有効性を示す詳細な例を挙げる。

We study the quantification of genuine multipartite entanglement (GME) for general multipartite states. A set of inequalities satisfied by the entanglement of $N$-partite pure states is derived by exploiting the restrictions on entanglement distributions, showing that the bipartite entanglement between each part and its remaining ones cannot exceed the sum of the other partners with their remaining ones. Then a series of triangles, named concurrence triangles, are established corresponding to these inequalities. Proper genuine multipartite entanglement measures are thus constructed by using the geometric mean area of these concurrence triangles, which are non-increasing under local operation and classical communication. The GME measures classify which parts are separable or entangled with the rest ones for non genuine entangled pure states. The GME measures for mixed states are given via the convex roof construction, and a witness to detect the GME of multipartite mixed states is presented by an approach based on state purifications. Detailed examples are given to illustrate the effectiveness of our GME measures.
翻訳日:2023-01-09 14:32:08 公開日:2022-12-14
# 任意の素局所次元と自己検定のグラフ状態に対するスケーラブルベル不等式

Scalable Bell inequalities for graph states of arbitrary prime local dimension and self-testing ( http://arxiv.org/abs/2212.07133v1 )

ライセンス: Link先を確認
Rafael Santos, Debashis Saha, Flavio Baccari, Remigiusz Augusiak(参考訳) 古典的な方法で説明できない量子相関の存在であるベル非局所性は、間違いなく量子力学の最も顕著な特徴の1つである。 デバイス非依存のプロトコルにおけるその応用範囲は絶えず拡大している。 関連する量子特徴の多くは、絡み合い検出や量子化を含むベルの不等式違反や、任意の数の粒子の系に適用可能な状態証明から推測できる。 しかし、多体系に対する非局所的相関の完全な特徴付けは計算的に難解な問題である。 たとえ解析を特定の状態のクラスに制限しても、ベルの不等式を与えられた状態によって違反するように調整する一般的な方法は知られていない。 この研究では、任意の素局所次元のグラフ状態によって最大に破られるベル不等式(bell inequality)の一般的な構成を提供する。 これらは多部量子状態の幅広いクラスを形成し、量子エラー補正を含む多くの量子情報に適用できる。 我々は,ベルの不等式をデバイス非依存に応用する上で,その最大量子違反を解析的に決定する。 最後に、これらの不等式は、よく知られた4量子グラフ状態であるAME(4,3)のような多量子グラフ状態の自己検証に利用できることを示す。

Bell nonlocality -- the existence of quantum correlations that cannot be explained by classical means -- is certainly one of the most striking features of quantum mechanics. Its range of applications in device-independent protocols is constantly growing. Many relevant quantum features can be inferred from violations of Bell inequalities, including entanglement detection and quantification, and state certification applicable to systems of arbitrary number of particles. A complete characterisation of nonlocal correlations for many-body systems is, however, a computationally intractable problem. Even if one restricts the analysis to specific classes of states, no general method to tailor Bell inequalities to be violated by a given state is known. In this work we provide a general construction of Bell inequalities that are maximally violated by graph states of any prime local dimension. These form a broad class of multipartite quantum states that have many applications in quantum information, including quantum error correction. We analytically determine their maximal quantum violation, a number of high relevance for device-independent applications of Bell inequalities. Finally, we show that these inequalities can be used for self-testing of multi-qutrit graph states such as the well-known four-qutrit absolutely maximally entangled state AME(4,3).
翻訳日:2023-01-09 14:31:51 公開日:2022-12-14
# 回路切断による量子エラー緩和器としての古典シミュレータ

Classical simulators as quantum error mitigators via circuit cutting ( http://arxiv.org/abs/2212.07335v1 )

ライセンス: Link先を確認
Ji Liu, Alvin Gonzales and Zain H. Saleem(参考訳) 本稿では,回路切断による量子回路の誤りを緩和する誤り軽減フレームワークを提案する。 我々のフレームワークは、様々な量子回路に対して多項式時間で実装できる。 我々の技術は、量子ハードウェア上で実行する必要がある回路を動作させるのに対して、エラー低減回路はシミュレータ上で実行されるように回路を切断することである。 我々は、キュービットによる誤差低減キュービットを実行し、各キュービットの誤差軽減動作と異なる確率を組み合わせ、全回路が誤差軽減されるようにする方法を提供する。 提案手法をVQEハードウェア効率アンサッツに適用し, 推定基底状態エネルギーをノイズフリーシミュレーション結果に非常に近い精度で評価する。

We introduce an error mitigation framework that mitigates errors in a quantum circuit using circuit cutting. Our framework can be implemented in polynomial time for a wide variety of quantum circuits. Our technique involves cutting the circuit in such a way that we run the circuit that needs to be executed on the quantum hardware whereas the error mitigation circuit is run on a simulator. We perform error mitigation qubit by qubit and then provide a way to combine the different probabilities from each of the individual qubit error mitigation runs such that the full circuit is error mitigated. We apply our framework to the VQE hardware-efficient ansatz acheiving estimated ground state energies very close to the noise-free simulation results.
翻訳日:2023-01-09 14:31:33 公開日:2022-12-14
# ニューラルネットワークの量子法と医用画像分類への応用

Quantum Methods for Neural Networks and Application to Medical Image Classification ( http://arxiv.org/abs/2212.07389v1 )

ライセンス: Link先を確認
Jonas Landman, Natansh Mathur, Yun Yvonna Li, Martin Strahm, Skander Kazdaghli, Anupam Prakash, Iordanis Kerenidis(参考訳) 機械学習アプリケーションの性能を高める手段として、量子機械学習技術が提案されている。 本稿では,ニューラルネットワークのための2つの新しい量子法を提案する。 1つ目は、直交行列乗法を実装するためのビルディングブロックとして量子ピラミッド回路に基づく量子直交ニューラルネットワークである。 従来のトレーニングアルゴリズムよりも漸近的にスケールすることが証明された古典的ハードウェアと量子ハードウェアの両方において、新しいアルゴリズムが詳細に記述されている。 第2の方法は量子支援ニューラルネットワークであり、量子コンピュータを用いて古典的ニューラルネットワークの推論とトレーニングのための内部積推定を行う。 次に, 量子ハードウェアの現況を用いて, 医用画像分類タスクに適用する広範な実験を行い, 実際の量子ハードウェアとシミュレータの両方において, 異なる量子手法と古典的手法を比較した。 その結果、量子および古典的ニューラルネットワークは、同じレベルの精度を生成し、より優れた量子ハードウェアの出現を前提に、量子メソッドが視覚的なタスクの解決に有用であることを保証した。

Quantum machine learning techniques have been proposed as a way to potentially enhance performance in machine learning applications. In this paper, we introduce two new quantum methods for neural networks. The first one is a quantum orthogonal neural network, which is based on a quantum pyramidal circuit as the building block for implementing orthogonal matrix multiplication. We provide an efficient way for training such orthogonal neural networks; novel algorithms are detailed for both classical and quantum hardware, where both are proven to scale asymptotically better than previously known training algorithms. The second method is quantum-assisted neural networks, where a quantum computer is used to perform inner product estimation for inference and training of classical neural networks. We then present extensive experiments applied to medical image classification tasks using current state of the art quantum hardware, where we compare different quantum methods with classical ones, on both real quantum hardware and simulators. Our results show that quantum and classical neural networks generates similar level of accuracy, supporting the promise that quantum methods can be useful in solving visual tasks, given the advent of better quantum hardware.
翻訳日:2023-01-09 14:31:24 公開日:2022-12-14
# 実雑音下での捕捉イオン量子誤差補正における絡み合いの観察

Witnessing entanglement in trapped-ion quantum error correction under realistic noise ( http://arxiv.org/abs/2212.07479v1 )

ライセンス: Link先を確認
Andrea Rodriguez-Blanco, Farid Shahandeh, and Alejandro Bermudez(参考訳) 量子エラー補正(QEC)は論理情報を複数の物理量子ビットに符号化することで冗長性を利用する。 QECの現在の実装では、完全でない2量子エンタングルゲートのシーケンスを使用して、情報を冗長にマルチパーティントエンタングル状態に符号化する。 また、エラーシンドロームを抽出するために、パリティチェック読み出し回路を構築するために、一連の2ビットゲートを使用する。 ノイズゲートの場合、両方のステップを完璧に実行することができず、QECの性能を評価するためにエラーモデルを提供する必要がある。 トラップイオンプラットフォームで使用される2量子光シフトゲートの平均ゲート不忠実度を推定するための詳細な顕微鏡誤差モデルを提案する。 我々は, 現象学的によく用いられる誤り率と, ここから導出される微小ゲート不忠実度を結合する, 顕微鏡パラメータによる先行エラー寄与を解析的に導出した。 次に、この現実的な誤差モデルを適用し、QECビルディングブロックとして機能する回路によって生成される多部絡み合いを定量化する。 我々は,より現実的な微視的雑音の影響を探究することにより,絡み合いの目撃者を用いて,最近の研究を補完する。

Quantum Error Correction (QEC) exploits redundancy by encoding logical information into multiple physical qubits. In current implementations of QEC, sequences of non-perfect two-qubit entangling gates are used to codify the information redundantly into multipartite entangled states. Also, to extract the error syndrome, a series of two-qubit gates are used to build parity-check readout circuits. In the case of noisy gates, both steps cannot be performed perfectly, and an error model needs to be provided to assess the performance of QEC. We present a detailed microscopic error model to estimate the average gate infidelity of two-qubit light-shift gates used in trapped-ion platforms. We analytically derive leading-error contributions in terms of microscopic parameters and present effective error models that connect the error rates typically used in phenomenological accounts to the microscopic gate infidelities hereby derived. We then apply this realistic error model to quantify the multipartite entanglement generated by circuits that act as QEC building blocks. We do so by using entanglement witnesses, complementing in this way the recent studies by exploring the effects of a more realistic microscopic noise.
翻訳日:2023-01-09 14:30:53 公開日:2022-12-14
# ランダム化コンパイルによる誤り抑制の概念と条件

Concepts and conditions for error suppression through randomized compiling ( http://arxiv.org/abs/2212.07500v1 )

ライセンス: Link先を確認
Adam Winick, Joel J. Wallman, Dar Dahlen, Ian Hincks, Egor Ospadov, Joseph Emerson(参考訳) ランダムコンパイルは、任意のマルコフ誤差を確率的なパウリノイズに調整することで、量子コンピュータにおけるエラーの影響を低減する。 ここで、ランダム化コンパイルは非マルコフ誤差を局所確率ポーリ雑音に調整し、その限界を検証できることを示す。 解析と数値結果から,ランダム化コンパイルは3つの異なる方法で誤差を変化させることを示した。 まず、サイクル間コヒーレント相関を破壊することにより、ゲートサイクル間のエラーのコヒーレント蓄積(クロストーク効果の除去も困難)を防止する。 第二に、個々のゲートサイクル誤差をパウリノイズに変換する。 最後に、ランダム化コンパイルは、ノイズの多いデバイス固有の可変性を低減する。 我々はこれらの理論予測をIBM Quantum Experienceプラットフォームで確認し、公開デバイス間での大幅なパフォーマンス向上を示す実験データを記述する。 これらの結果は、近・長期の量子情報処理におけるランダムコンパイルの重要性を強調している。

Randomized compiling reduces the effects of errors on quantum computers by tailoring arbitrary Markovian errors into stochastic Pauli noise. Here we prove that randomized compiling also tailors non-Markovian errors into local stochastic Pauli noise and investigate the technique's limitations. We show through analysis and numerical results that randomized compiling alters errors in three distinct helpful ways. First, it prevents the coherent accumulation of errors (including hard to remove crosstalk effects) across gate cycles by destroying intercycle coherent correlations. Second, it converts individual gate cycle errors into Pauli noise. Finally, randomized compiling reduces the variability inherent to noisy devices. We confirm these theoretical predictions with the IBM Quantum Experience platform and describe experimental data that illustrates a drastic performance improvement across public devices. These results cement the importance of randomized compiling in near- and long-term quantum information processing.
翻訳日:2023-01-09 14:30:32 公開日:2022-12-14
# 2粒子量子ヒストリーの絡み合い対策

Entanglement measures for two-particle quantum histories ( http://arxiv.org/abs/2212.07502v1 )

ライセンス: Link先を確認
Danko Georgiev and Eliahu Cohen(参考訳) 量子絡み合い(quantum entanglement)は、古典的に不可能なタスクを量子システムに与える重要なリソースである。 ここでは、ファインマンの総史形式を二部量子系の相互作用に適用し、二部量子ヒストリーの絡み合い尺度を導入する。 ファインマン・プロパゲーター複素係数からなる行列のシュミット分解に基づいて、この行列のシュミット階数が 1 より大きい場合に限り、2部量子ヒストリーが絡み合っていることを示す。 提案手法は, 2成分の量子履歴を構成するために分離可能な基底を用いることの有用性を強調するものであり, 実験により測定された逐次弱値の完全集合からの絡み合いの定量化を可能にする。 次に、ハーディの重なり合う干渉計を用いて絡み合った歴史の古典的でない性質を説明し、なぜ局所的な隠れ変数理論が全ての観測可能な量子結果を正しく再現できないのかを説明する。 我々の理論的結果は、多部量子系の合成テンソル積構造が時間にわたって自然に拡張され、ヒルベルト空間の射影作用素と見なされる量子ヒストリーと標準ヒルベルト空間のチェーン作用素やプロパゲータと見なされる量子ヒストリーの違いを明らかにする。

Quantum entanglement is a key resource, which grants quantum systems the ability to accomplish tasks that are classically impossible. Here, we apply Feynman's sum-over-histories formalism to interacting bipartite quantum systems and introduce entanglement measures for bipartite quantum histories. Based on the Schmidt decomposition of the matrix comprised of the Feynman propagator complex coefficients, we prove that bipartite quantum histories are entangled if and only if the Schmidt rank of this matrix is larger than 1. The proposed approach highlights the utility of using a separable basis for constructing the bipartite quantum histories and allows for quantification of their entanglement from the complete set of experimentally measured sequential weak values. We then illustrate the non-classical nature of entangled histories with the use of Hardy's overlapping interferometers and explain why local hidden variable theories are unable to correctly reproduce all observable quantum outcomes. Our theoretical results elucidate how the composite tensor product structure of multipartite quantum systems is naturally extended across time and clarify the difference between quantum histories viewed as projection operators in the history Hilbert space or viewed as chain operators and propagators in the standard Hilbert space.
翻訳日:2023-01-09 14:30:17 公開日:2022-12-14
# 量子力学計測のためのアクティブラーニング

Active Learning for Quantum Mechanical Measurements ( http://arxiv.org/abs/2212.07513v1 )

ライセンス: Link先を確認
Ruidi Zhu, Ciara Pike-Burke and Florian Mintert(参考訳) 多くの量子力学的量の実験的評価には、局所観測量のような直接測定可能な観測量の推定が必要である。 観測可能量の期待値を推定するために個々の量子系の実験を繰り返す必要があるため、与えられた直接測定可能な観測可能量に割り当てる繰り返し回数が生じる。 このような割り当てを改善するために,能動的学習方式が有効であることが示され,基礎となる量子力学系のサイズに応じて,所望の精度で量を評価するために必要な実験的な繰り返しの減少が増加する。

The experimental evaluation of many quantum mechanical quantities requires the estimation of several directly measurable observables, such as local observables. Due to the necessity to repeat experiments on individual quantum systems in order to estimate expectation values of observables, the question arises how many repetitions to allocate to a given directly measurable observable. We show that an active learning scheme can help to improve such allocations, and the resultant decrease in experimental repetitions required to evaluate a quantity with the desired accuracy increases with the size of the underlying quantum mechanical system.
翻訳日:2023-01-09 14:29:53 公開日:2022-12-14
# 双フィールド量子鍵分布における相関誤差の検出

Detecting correlated errors in twin-field quantum key distribution ( http://arxiv.org/abs/2212.06955v1 )

ライセンス: Link先を確認
B. Panchumarthi, A. Stephens and M. Beck(参考訳) 我々は, 自己整合トモグラフィに関連する手法を用いて, ツインフィールド量子鍵分布(TFQKD)システムにおける相関誤差を検出できることを実験的に実証した。 そこで本研究では,alice と bob がループの反対方向に伝播する弱コヒーレント状態の位相に情報を符号化するfiber-sagnac ループに基づく tfqkd システムを実装した。 これらの状態はループを抜けて干渉し、第三者のチャーリーによって検出され、アリスとボブに測定結果が報告される。 Alice と Bob はそれぞれの状態のみを信頼し、Charlie の測定を信頼せずに相関状態準備と測定誤差を検出することができる。

We experimentally demonstrate that we can detect correlated errors in a twin-field quantum key distribution (TFQKD) system by using a technique that is related to self-consistent tomography. We implement a TFQKD system based on a fiber-Sagnac loop, in which Alice and Bob encode information in the phase of weak coherent states that propagate in opposite directions around the loop. These states interfere as they exit the loop and are detected by a third party, Charlie, who reports the results of their measurements to Alice and Bob. We find that it is possible for Alice and Bob to detect correlated state-preparation and measurement errors while trusting only their own individual states, and without trusting Charlie's measurements.
翻訳日:2023-01-09 14:22:05 公開日:2022-12-14
# 乱れシステムに文脈性を拡張するための不可能性定理

Impossibility Theorem for Extending Contextuality to Disturbing Systems ( http://arxiv.org/abs/2212.06976v1 )

ライセンス: Link先を確認
Alisson Tezzin, Elie Wolfe, Barbara Amaral, Matt Jones(参考訳) 最近、文脈性の定義を混乱のあるシステムに拡張する関心があり、印象的な進歩があった。 1) より多くの情報を測定することは, 文脈システムを非文脈的なものに変えることができない。 2) 従来のポストプロセッシングではコンテキストを生成できない: 与えられたオブザーバブルの関数である新しいオブザーバブルを追加すると、コンテキストに非コンテキストシステムを変更することはできない。 (3) 統計的に独立な2つの非コンテキスト系の合同実現は非コンテキスト的である。 (4) 決定論は文脈性を創出できない: 決定論的な体系は非文脈的であり、非文脈的体系に決定論的な可観測性を加えることは文脈的でない。 また、原則4のより強いバージョンの下で、原則3なしでも同じ結果を証明します。 さらに,バイナリオブザーバブルシステムのみに適用可能なコンテキスト性の制限された拡張についても検討した。 これらの証明に加えて、いくつかの特定の提案を分析し、それらが従う公理のうちどの公理に違反するかを特定する。

Recently there has been interest, and impressive progress, in extending the definition of contextuality to systems with disturbance. We prove here that such an endeavor cannot simultaneously satisfy the following core principles of contextuality: (1) Measuring more information cannot change a contextual system to a noncontextual one. (2) Classical post-processing cannot create contextuality: appending new observables that are functions of given observables cannot change a noncontextual system to a contextual one. (3) The joint realization of two statistically independent noncontextual systems is noncontextual. (4) Determinism cannot create contextuality: Any deterministic system is noncontextual, and adding deterministic observables to a noncontextual system cannot yield a contextual one. We also prove the same result without Principle 3, under the stronger version of Principle 4. Moreover, our results hold for restricted extensions of contextuality that apply only to systems of binary observables. In addition to these proofs, we analyze several particular proposals and identify which of our axioms they obey and which they violate.
翻訳日:2023-01-09 14:21:22 公開日:2022-12-14
# ExReg:多次元回帰器による広帯域光露光補正

ExReg: Wide-range Photo Exposure Correction via a Multi-dimensional Regressor with Attention ( http://arxiv.org/abs/2212.14801v1 )

ライセンス: Link先を確認
Tzu-Hao Chiang, Hao-Chien Hsueh, Ching-Chun Hsiao, and Ching-Chun Huang(参考訳) 光露光補正は広く研究されているが、露光画像と露光画像の同時修正に焦点を当てた研究は少ない。 3つの問題は統一された方法でアンダーおよびオーバー露像の扱いと修正が可能である。 まず、局所適応的な露光調整は、グローバルマッピングを学ぶよりも柔軟である。 第二に、適切な露光値を局所的に決定するのは不適切な問題である。 第3に、同じコンテンツの異なる露出を持つ写真は、一貫した調整結果に到達しない可能性がある。 そこで我々は,多次元回帰プロセスとして露光補正を定式化し,課題に対処する新しい露光補正ネットワークExRegを提案する。 入力画像が与えられた後、コンパクトなマルチ露光生成ネットワークを導入し、次の段階で多次元回帰および露光補正のための異なる露光条件の画像を生成させる。 補助モジュールは、主に提案されているエンコーダ・デコーダ ANP (Attentive Neural Processes) を用いて、最終的な補正画像の回帰を行う。 実験結果から,ExRegは露光問題に対してPSNRの1.3dBでSOTA法より優れることがわかった。 さらに、同じ画像でも様々な露光下では、補正結果はより視覚的に一貫性があり、物理的に正確である。

Photo exposure correction is widely investigated, but fewer studies focus on correcting under and over-exposed images simultaneously. Three issues remain open to handle and correct under and over-exposed images in a unified way. First, a locally-adaptive exposure adjustment may be more flexible instead of learning a global mapping. Second, it is an ill-posed problem to determine the suitable exposure values locally. Third, photos with the same content but different exposures may not reach consistent adjustment results. To this end, we proposed a novel exposure correction network, ExReg, to address the challenges by formulating exposure correction as a multi-dimensional regression process. Given an input image, a compact multi-exposure generation network is introduced to generate images with different exposure conditions for multi-dimensional regression and exposure correction in the next stage. An auxiliary module is designed to predict the region-wise exposure values, guiding the mainly proposed Encoder-Decoder ANP (Attentive Neural Processes) to regress the final corrected image. The experimental results show that ExReg can generate well-exposed results and outperform the SOTA method by 1.3dB in PSNR for extensive exposure problems. In addition, given the same image but under various exposure for testing, the corrected results are more visually consistent and physically accurate.
翻訳日:2023-01-09 13:46:40 公開日:2022-12-14
# 低ビット量子化による効率的な音声表現学習

Efficient Speech Representation Learning with Low-Bit Quantization ( http://arxiv.org/abs/2301.00652v1 )

ライセンス: Link先を確認
Ching-Feng Yeh, Wei-Ning Hsu, Paden Tomasello, Abdelrahman Mohamed(参考訳) 機械学習のためのハードウェアの開発により、新しいモデルはサイズと計算の複雑さの両方を犠牲にされることが多い。 これらのモデルの効率を向上させるために,近年の音声表現学習モデルの量子化手法を適用し,検討する。 量子化手法をSUPERBベンチマークで評価した。 ASRタスクでは、1ビットへのアグレッシブ量子化を行い、86.32%のストレージ削減(4.42 -> 25.23)、88%のランタイム削減(1.00 -> 0.12)とワードエラー率(7.06 -> 15.96)を達成した。 モデル圧縮も目的とするDistillHuBERTと比べ、2ビット構成ではストレージがわずかに小さく(35.84対46.98)、ワードエラー率(12.68対13.37)、より効率的な推定ランタイム(0.15対0.73)が得られた。

With the development of hardware for machine learning, newer models often come at the cost of both increased sizes and computational complexity. In effort to improve the efficiency for these models, we apply and investigate recent quantization techniques on speech representation learning models. The quantization techniques were evaluated on the SUPERB benchmark. On the ASR task, with aggressive quantization to 1 bit, we achieved 86.32% storage reduction (184.42 -> 25.23), 88% estimated runtime reduction (1.00 -> 0.12) with increased word error rate (7.06 -> 15.96). In comparison with DistillHuBERT which also aims for model compression, the 2-bit configuration yielded slightly smaller storage (35.84 vs. 46.98), better word error rate (12.68 vs. 13.37) and more efficient estimated runtime (0.15 vs. 0.73).
翻訳日:2023-01-09 13:46:17 公開日:2022-12-14
# Manifold-Level Augmentationに基づくキャリブレーションフリードライバのDrowsiness分類

Calibration-Free Driver Drowsiness Classification based on Manifold-Level Augmentation ( http://arxiv.org/abs/2212.13887v1 )

ライセンス: Link先を確認
Dong-Young Kim, Dong-Kyun Han, Hye-Bin Shin(参考訳) 眠気は集中力を減少させ、応答時間を増加させ、致命的な交通事故を引き起こす。 運転者の眠気レベルを脳波(EEG)で監視し、行動を取ることで道路事故を防止できる。 脳波信号はドライバーの精神状態を効果的にモニターし、脳のダイナミクスをモニターする。 しかし、脳波信号は被験者によって異なるため、事前に校正が必要である。 不便のため、校正は脳-コンピュータインタフェース(BCI)のアクセシビリティを低下させた。 一般化分類モデルの開発は、ドメインシフト問題を克服する領域一般化と似ている。 特にデータ拡張が頻繁に使用される。 本稿では,マニホールドレベル拡張を用いた運転者の眠気状態分類のためのキャリブレーションフリーフレームワークを提案する。 このフレームワークは、機能を利用することで、ソースドメインの多様性を高める。 一般化性能を改善するために,様々な拡張手法を実験した。 実験結果から,カーネルサイズが小さいより深いモデルでは,一般化性が向上することが判明した。 さらに、多様体レベルでの加法の適用は、顕著な改善をもたらした。 このフレームワークはキャリブレーションフリーBCIの能力を実証した。

Drowsiness reduces concentration and increases response time, which causes fatal road accidents. Monitoring drivers' drowsiness levels by electroencephalogram (EEG) and taking action may prevent road accidents. EEG signals effectively monitor the driver's mental state as they can monitor brain dynamics. However, calibration is required in advance because EEG signals vary between and within subjects. Because of the inconvenience, calibration has reduced the accessibility of the brain-computer interface (BCI). Developing a generalized classification model is similar to domain generalization, which overcomes the domain shift problem. Especially data augmentation is frequently used. This paper proposes a calibration-free framework for driver drowsiness state classification using manifold-level augmentation. This framework increases the diversity of source domains by utilizing features. We experimented with various augmentation methods to improve the generalization performance. Based on the results of the experiments, we found that deeper models with smaller kernel sizes improved generalizability. In addition, applying an augmentation at the manifold-level resulted in an outstanding improvement. The framework demonstrated the capability for calibration-free BCI.
翻訳日:2023-01-01 14:14:44 公開日:2022-12-14
# リンクへの学習によるエンド・ツー・エンド感情のペア抽出

End-to-end Emotion-Cause Pair Extraction via Learning to Link ( http://arxiv.org/abs/2002.10710v4 )

ライセンス: Link先を確認
Haolin Song, Chen Zhang, Qiuchi Li, Dawei Song(参考訳) 感情起因のペア抽出(ECPE)は、感情とその根本原因を文書で共同で調査することを目的とした、創発的な自然言語処理タスクである。 これは、以前の感情原因抽出(ECE)タスクを拡張するが、ECEのように事前に登録された感情節のセットを必要としない。 既存のECPEのアプローチでは、(1)感情と原因の検出、(2)検出された感情と原因のペアリングという2段階の手法が一般的である。 このようなパイプライン法は直感的ではあるが、有効性を妨げうるステージ間のエラー伝搬や、実際の適用を制限する計算コストの2つの重要な問題に悩まされている。 これらの問題に対処するために,エンド・ツー・エンドで同時に感情,原因,感情を抽出できるマルチタスク学習モデルを提案する。 具体的には、ペア抽出をリンク予測タスクとみなし、感情節からリンクを学習して、そのリンクが指向的であることを示す。 感情抽出と原因抽出は補助的なタスクとしてモデルに組み込まれ、ペア抽出をさらに促進する。 実験はECPEベンチマークデータセット上で実施される。 その結果,提案モデルが最先端のアプローチよりも優れていることがわかった。

Emotion-cause pair extraction (ECPE), as an emergent natural language processing task, aims at jointly investigating emotions and their underlying causes in documents. It extends the previous emotion cause extraction (ECE) task, yet without requiring a set of pre-given emotion clauses as in ECE. Existing approaches to ECPE generally adopt a two-stage method, i.e., (1) emotion and cause detection, and then (2) pairing the detected emotions and causes. Such pipeline method, while intuitive, suffers from two critical issues, including error propagation across stages that may hinder the effectiveness, and high computational cost that would limit the practical application of the method. To tackle these issues, we propose a multi-task learning model that can extract emotions, causes and emotion-cause pairs simultaneously in an end-to-end manner. Specifically, our model regards pair extraction as a link prediction task, and learns to link from emotion clauses to cause clauses, i.e., the links are directional. Emotion extraction and cause extraction are incorporated into the model as auxiliary tasks, which further boost the pair extraction. Experiments are conducted on an ECPE benchmarking dataset. The results show that our proposed model outperforms a range of state-of-the-art approaches.
翻訳日:2022-12-28 21:27:40 公開日:2022-12-14
# SPIRiT拡散:SPIRiT駆動Score-based Generative Modeling for Vessel Wall Imaging

SPIRiT-Diffusion: SPIRiT-driven Score-Based Generative Modeling for Vessel Wall imaging ( http://arxiv.org/abs/2212.11274v1 )

ライセンス: Link先を確認
Chentao Cao, Zhuo-Xu Cui, Jing Cheng, Sen Jia, Hairong Zheng, Dong Liang, Yanjie Zhu(参考訳) 拡散モデルは画像生成において最も進んだ手法であり,MRI再建に成功している。 しかし,既存の手法ではMRIデータのマルチコイル取得の特徴を考慮していない。 そこで本研究では,SPIRiT反復再構成アルゴリズムに基づく新しい拡散モデルSPIRiT-Diffusionを提案する。 具体的には、スピリットディフフュージョンはスコアマッチングによりコイルバイコイル画像の事前分布を特徴付け、自己一貫性に基づいてコイル間のk空間冗長なプリエントを特徴付ける。 十分な事前制約を活用し, 頭蓋内および頸動脈内血管壁イメージングデータセットにおいて良好な再構成結果を得た。

Diffusion model is the most advanced method in image generation and has been successfully applied to MRI reconstruction. However, the existing methods do not consider the characteristics of multi-coil acquisition of MRI data. Therefore, we give a new diffusion model, called SPIRiT-Diffusion, based on the SPIRiT iterative reconstruction algorithm. Specifically, SPIRiT-Diffusion characterizes the prior distribution of coil-by-coil images by score matching and characterizes the k-space redundant prior between coils based on self-consistency. With sufficient prior constraint utilized, we achieve superior reconstruction results on the joint Intracranial and Carotid Vessel Wall imaging dataset.
翻訳日:2022-12-25 02:54:32 公開日:2022-12-14
# 協調型人工知能のための階層的枠組み

A Hierarchical Framework for Collaborative Artificial Intelligence ( http://arxiv.org/abs/2212.08659v1 )

ライセンス: Link先を確認
James L. Crowley (LIG, UGA, MIAI@UGA, Grenoble INP ), Jo\"elle L Coutaz (UGA), Jasmin Grosinger, Javier V\'azquez-Salceda (UPC), Cecilio Angulo (UPC), Alberto Sanfeliu (UPC), Luca Iocchi (Sapienza University of Rome), Anthony G. Cohn(参考訳) 協調的インテリジェントシステムのための階層的枠組みを提案する。 このフレームワークは、協力活動の性質と共有すべき情報に基づいて研究課題を整理し、各レベルは下位レベルが提供する能力に基づいて構築する。 各レベルの研究パラダイムについて,古典的工学に基づくアプローチと機械学習に基づく現代的な代替案を記述し,仮想的パーソナルサービスロボットを用いた実例で示す。 我々は,コミュニケーションや理解の共有,説明の役割,コラボレーションの社会的性質など,あらゆるレベルで発生する横断的問題について議論する。 我々は,人間の能力を高め,知能システムとの連携を通じて人や社会を力づける技術がもたらす経済的・社会的影響の可能性について,研究課題の概要と議論をまとめて締めくくる。

We propose a hierarchical framework for collaborative intelligent systems. This framework organizes research challenges based on the nature of the collaborative activity and the information that must be shared, with each level building on capabilities provided by lower levels. We review research paradigms at each level, with a description of classical engineering-based approaches and modern alternatives based on machine learning, illustrated with a running example using a hypothetical personal service robot. We discuss cross-cutting issues that occur at all levels, focusing on the problem of communicating and sharing comprehension, the role of explanation and the social nature of collaboration. We conclude with a summary of research challenges and a discussion of the potential for economic and societal impact provided by technologies that enhance human abilities and empower people and society through collaboration with Intelligent Systems.
翻訳日:2022-12-25 02:53:27 公開日:2022-12-14
# THMA:HDマップアノテーション作成のためのTencent HD Map AIシステム

THMA: Tencent HD Map AI System for Creating HD Map Annotations ( http://arxiv.org/abs/2212.11123v1 )

ライセンス: Link先を確認
Kun Tang, Xu Cao, Zhipeng Cao, Tong Zhou, Erlong Li, Ao Liu, Shengtao Zou, Chang Liu, Shuqi Mei, Elena Sizikova, Chao Zheng(参考訳) 現在、自動運転車の技術はますます成熟している。 高精細度(HD)マップは、レーザーセンサを用いて収集したセンチメートルレベルの地図の一種で、周囲の環境の正確な説明を提供する。 HDマップ生産の重要な課題は、大規模データセットの効率的で高品質な収集とアノテーションである。 高品質の要求のため、HDマップの生産には、地図産業にとって非常に時間がかかり、コストがかかるアノテーションを作成するために、かなりの手作業が必要である。 手動によるアノテーションの負担を軽減するため、HDマップの事前ラベル付けのために多くの人工知能(AI)アルゴリズムが開発された。 しかし、AIアルゴリズムと従来の手動のHDマップ生産パイプラインの間には、精度と堅牢性において大きなギャップがある。 さらに、AIベースのHDマップ自動ラベリングシステムのための大規模アノテートデータセットと高度な機械学習アルゴリズムを構築するには、非常にリソースコストがかかる。 本稿では, Tencent HD Map AI (THMA) システムを紹介し, 数十万kmのスケールでHDマップの生成とラベル付けが可能な, 革新的なエンドツーエンドAIベースのアクティブラーニングHDマップラベルシステムについて述べる。 THMAでは、教師付き、自己教師付き、弱教師付き学習を通じて、巨大なHDマップデータセットから直接AIモデルをトレーニングし、下流のユーザに必要な高い精度と効率を達成する。 THMAはTencent Mapチームによって、下流の企業やユーザにサービスを提供し、1000人以上のラベリングワーカーにサービスを提供し、1日あたり3万キロ以上のHDマップデータを生産している。 Tencent MapのHDマップデータの90%以上がTHMAによって自動的にラベル付けされ、従来のHDマップのラベル付けプロセスが10倍以上加速する。

Nowadays, autonomous vehicle technology is becoming more and more mature. Critical to progress and safety, high-definition (HD) maps, a type of centimeter-level map collected using a laser sensor, provide accurate descriptions of the surrounding environment. The key challenge of HD map production is efficient, high-quality collection and annotation of large-volume datasets. Due to the demand for high quality, HD map production requires significant manual human effort to create annotations, a very time-consuming and costly process for the map industry. In order to reduce manual annotation burdens, many artificial intelligence (AI) algorithms have been developed to pre-label the HD maps. However, there still exists a large gap between AI algorithms and the traditional manual HD map production pipelines in accuracy and robustness. Furthermore, it is also very resource-costly to build large-scale annotated datasets and advanced machine learning algorithms for AI-based HD map automatic labeling systems. In this paper, we introduce the Tencent HD Map AI (THMA) system, an innovative end-to-end, AI-based, active learning HD map labeling system capable of producing and labeling HD maps with a scale of hundreds of thousands of kilometers. In THMA, we train AI models directly from massive HD map datasets via supervised, self-supervised, and weakly supervised learning to achieve high accuracy and efficiency required by downstream users. THMA has been deployed by the Tencent Map team to provide services to downstream companies and users, serving over 1,000 labeling workers and producing more than 30,000 kilometers of HD map data per day at most. More than 90 percent of the HD map data in Tencent Map is labeled automatically by THMA, accelerating the traditional HD map labeling process by more than ten times.
翻訳日:2022-12-25 02:45:17 公開日:2022-12-14
# シチリアにおける極端降雨事象検出のためのマルチモーダル機械学習手法

A Multi-Modal Machine Learning Approach to Detect Extreme Rainfall Events in Sicily ( http://arxiv.org/abs/2212.08102v1 )

ライセンス: Link先を確認
Eleonora Vitanza, Giovanna Maria Dimitri, Chiara Mocenni(参考訳) 2021年、年間平均降水量の半分近くにあたる300mmの雨がカタニア(イタリア、シチリア島)近くで降った。 このような出来事はわずか数時間で発生し、地域の環境、社会、経済、健康システムに劇的な影響をもたらした。 極端な降雨を検知することが、潜在的に劇的な将来のシナリオをリバースできる計画行動にとって重要な前提条件である理由である。 本稿では,機械学習に基づくクラスタリングアルゴリズムであるアフィニティ・プロパゲーションアルゴリズムを,シチリアにおける過度の降雨事象の同定に初めて,我々の知識の最大限に活用した。 これは、2009年から2021年にかけて収集した高周波で大規模なデータセットを使用することで可能となり、RSE(Rainfall Sicily Extreme dataset)と名付けた。 その後、気象指標を用いて結果の検証を行い、シチリア東部で最近起きた異常雨の存在を確認した。 本研究で提案したような、使い易くマルチモーダルなデータサイエンス技術は、気候変動の対比に成功するための政策決定の大幅な改善をもたらす可能性があると考えている。

In 2021 300 mm of rain, nearly half the average annual rainfall, fell near Catania (Sicily island, Italy). Such events took place in just a few hours, with dramatic consequences on the environmental, social, economic, and health systems of the region. This is the reason why, detecting extreme rainfall events is a crucial prerequisite for planning actions able to reverse possibly intensified dramatic future scenarios. In this paper, the Affinity Propagation algorithm, a clustering algorithm grounded on machine learning, was applied, to the best of our knowledge, for the first time, to identify excess rain events in Sicily. This was possible by using a high-frequency, large dataset we collected, ranging from 2009 to 2021 which we named RSE (the Rainfall Sicily Extreme dataset). Weather indicators were then been employed to validate the results, thus confirming the presence of recent anomalous rainfall events in eastern Sicily. We believe that easy-to-use and multi-modal data science techniques, such as the one proposed in this study, could give rise to significant improvements in policy-making for successfully contrasting climate changes.
翻訳日:2022-12-19 16:34:12 公開日:2022-12-14
# シミュレーション支援因果モデルを用いたワクチン割当戦略の評価

Evaluating vaccine allocation strategies using simulation-assisted causal modelling ( http://arxiv.org/abs/2212.08498v1 )

ライセンス: Link先を確認
Armin Keki\'c, Jonas Dehning, Luigi Gresele, Julius von K\"ugelgen, Viola Priesemann, Bernhard Sch\"olkopf(参考訳) パンデミックの早期にはワクチンの入手が制限され、異なる集団の優先順位付けが必要になる。 ワクチンの割り当てを評価することはパンデミック対応の重要な要素である。 本研究は、新型コロナウイルスのパンデミックに対する年齢依存型予防接種戦略を遡及的に評価するモデルを構築した。 そこで本研究では, 分室感染動態シミュレーション, 粗粒化, データ駆動因果モデル, 免疫ウォーニングに関する文献推定を組み合わせた, シミュレーション支援因果モデリング手法を提案する。 我々は,2021年に実施したイスラエルのワクチン接種戦略を,非優先順位化,若年層の優先順位付け,厳格なリスクランクのアプローチといった反事実戦略と比較した。 また, 高齢者におけるワクチン接種の増加が重症症例の予防に最も有効であるのに対し, 中高年者に対するワクチン接種は感染を最も効果的に減少させる。 モジュラー構造のため、われわれのモデルは将来のパンデミックの研究に容易に適応できる。 スペインインフルエンザの特徴を有するパンデミックに対するワクチン配分戦略を検討することで,この柔軟性を実証する。 本手法は, 年齢依存リスクプロファイル, 免疫停止, ワクチン利用率, 拡散率など, 中心的要因の複雑な相互作用下でのワクチン接種戦略を評価するのに有用である。

Early on during a pandemic, vaccine availability is limited, requiring prioritisation of different population groups. Evaluating vaccine allocation is therefore a crucial element of pandemics response. In the present work, we develop a model to retrospectively evaluate age-dependent counterfactual vaccine allocation strategies against the COVID-19 pandemic. To estimate the effect of allocation on the expected severe-case incidence, we employ a simulation-assisted causal modelling approach which combines a compartmental infection-dynamics simulation, a coarse-grained, data-driven causal model and literature estimates for immunity waning. We compare Israel's implemented vaccine allocation strategy in 2021 to counterfactual strategies such as no prioritisation, prioritisation of younger age groups or a strict risk-ranked approach; we find that Israel's implemented strategy was indeed highly effective. We also study the marginal impact of increasing vaccine uptake for a given age group and find that increasing vaccinations in the elderly is most effective at preventing severe cases, whereas additional vaccinations for middle-aged groups reduce infections most effectively. Due to its modular structure, our model can easily be adapted to study future pandemics. We demonstrate this flexibility by investigating vaccine allocation strategies for a pandemic with characteristics of the Spanish Flu. Our approach thus helps evaluate vaccination strategies under the complex interplay of core epidemic factors, including age-dependent risk profiles, immunity waning, vaccine availability and spreading rates.
翻訳日:2022-12-19 16:15:47 公開日:2022-12-14
# ロボットアーム制御のためのハイブリッドパラダイムに基づく脳コンピューターインタフェース

Hybrid Paradigm-based Brain-Computer Interface for Robotic Arm Control ( http://arxiv.org/abs/2212.08122v1 )

ライセンス: Link先を確認
Byeong-Hoo Lee, Jeong-Hyun Cho, and Byung-Hee Kwon(参考訳) 脳コンピュータインタフェース(BCI)は、脳信号を使って外部デバイスと実際の制御なしに通信する。 特に、bciはロボットアームを制御するインタフェースの1つである。 本研究では,ハイブリッドパラダイムを用いた脳波信号によるロボットアーム操作のための知識蒸留に基づくフレームワークを提案する。 教師モデルは、入力データを階層的にデコードし、知識を学生モデルに転送するように設計されている。 この目的のために, 学生モデルトレーニングにソフトラベルと蒸留損失関数を適用した。 実験結果によると,学生モデルは特異なアーキテクチャに基づく手法の中で最高の性能を示した。 階層モデルと知識蒸留を用いて, 簡単なアーキテクチャの性能を向上できることが確認された。 どのような知識が伝わったかは定かではないため、今後の研究においてこの部分を明らかにすることが重要である。

Brain-computer interface (BCI) uses brain signals to communicate with external devices without actual control. Particularly, BCI is one of the interfaces for controlling the robotic arm. In this study, we propose a knowledge distillation-based framework to manipulate robotic arm through hybrid paradigm induced EEG signals for practical use. The teacher model is designed to decode input data hierarchically and transfer knowledge to student model. To this end, soft labels and distillation loss functions are applied to the student model training. According to experimental results, student model achieved the best performance among the singular architecture-based methods. It is confirmed that using hierarchical models and knowledge distillation, the performance of a simple architecture can be improved. Since it is uncertain what knowledge is transferred, it is important to clarify this part in future studies.
翻訳日:2022-12-19 16:14:23 公開日:2022-12-14
# Fairify: ニューラルネットワークの公正性検証

Fairify: Fairness Verification of Neural Networks ( http://arxiv.org/abs/2212.06140v2 )

ライセンス: Link先を確認
Sumon Biswas and Hridesh Rajan(参考訳) 機械学習(ML)ソフトウェアの公正性は、近年、大きな関心事となっている。 テストと公正性の改善に関する最近の研究は、現実世界のソフトウェアへの影響を示しているが、実際に公正性を保証することは、まだ不十分である。 モデルの複雑な意思決定プロセスのため、MLモデルの認証は困難である。 本稿では、ニューラルネットワーク(NN)モデルにおける個々の公正性を検証するためのSMTに基づくFairifyを提案する。 個々人の公平性は、人種、性別、年齢といった保護された属性に関係なく、類似した扱いを受けることを保証します。 NNのグローバルチェックと非線形計算ノードのため、このフェアネス特性の検証は難しい。 我々は,個々の公平性検証を開発者にもたらすための健全なアプローチを提案した。 キーとなる考え方は、入力領域の小さな部分を考慮すると、NN内の多くのニューロンは常に不活性であるということである。 したがって、Fairifyは本番環境でモデルへのホワイトボックスアクセスを活用し、形式解析に基づくプルーニングを適用する。 提案手法は入力分割を採用し,各パーティション毎にNNをプルークし,公平性検証や反例を提供する。 ニューロンの間隔演算と活性化ヒューリスティックを利用して、必要に応じて刈り取りを行う。 4つの異なるソースから収集した25の実世界のニューラルネットワーク上でFairifyを評価し,ベースラインと密接に関連する作業の有効性,スケーラビリティ,パフォーマンスを実証した。 fairifyはまた、nnのドメインとサイズに基づいて設定可能である。 この問題の新規な定式化は,対象とする検証クエリに緩和と反例で答えることができる。

Fairness of machine learning (ML) software has become a major concern in the recent past. Although recent research on testing and improving fairness have demonstrated impact on real-world software, providing fairness guarantee in practice is still lacking. Certification of ML models is challenging because of the complex decision-making process of the models. In this paper, we proposed Fairify, an SMT-based approach to verify individual fairness property in neural network (NN) models. Individual fairness ensures that any two similar individuals get similar treatment irrespective of their protected attributes e.g., race, sex, age. Verifying this fairness property is hard because of the global checking and non-linear computation nodes in NN. We proposed sound approach to make individual fairness verification tractable for the developers. The key idea is that many neurons in the NN always remain inactive when a smaller part of the input domain is considered. So, Fairify leverages whitebox access to the models in production and then apply formal analysis based pruning. Our approach adopts input partitioning and then prunes the NN for each partition to provide fairness certification or counterexample. We leveraged interval arithmetic and activation heuristic of the neurons to perform the pruning as necessary. We evaluated Fairify on 25 real-world neural networks collected from four different sources, and demonstrated the effectiveness, scalability and performance over baseline and closely related work. Fairify is also configurable based on the domain and size of the NN. Our novel formulation of the problem can answer targeted verification queries with relaxations and counterexamples, which have practical implications.
翻訳日:2022-12-18 18:51:51 公開日:2022-12-14
# 人間の顔のディープフェイク画像検出能力のテスト

Testing Human Ability To Detect Deepfake Images of Human Faces ( http://arxiv.org/abs/2212.05056v2 )

ライセンス: Link先を確認
Sergi D. Bray (1), Shane D. Johnson (1), Bennett Kleinberg (2) ((1) University College London, (2) Tilburg University)(参考訳) ディープフェイク(deepfakes)は、現実を虚偽的に表現した計算的な実体である。 画像、ビデオ、オーディオのモダリティを捉え、サイバーセキュリティとサイバーセーフティの様々な側面に対する関心のトピックを含む、システムや社会の多くの領域に脅威を与えることができる。 2020年、学術、警察、政府、民間セクター、および州のセキュリティ機関からAIの専門家をコンサルティングするワークショップは、ディープフェイクを最も深刻なAI脅威としてランク付けした。 これらの専門家は、偽の物質は多くの制御されていない経路を伝播できるため、市民の行動の変化が唯一の効果的な防御であると指摘している。 本研究の目的は,非ディープフェイク画像(FFHQ)から人間の顔の深部像(StyleGAN2:FFHQ)を識別し,検出精度の向上を目的とした簡単な介入の有効性を評価することである。 オンライン調査では、280人の参加者がランダムに4つのグループ(コントロールグループと3つの支援介入)の1つに割り当てられた。 被験者は、50のディープフェイクと50の実際の人間の顔画像からランダムに選択された20の画像を表示された。 参加者は、それぞれのイメージがAI生成されているかどうかを尋ねられ、自信を報告し、それぞれの反応の背後にある推論を記述する。 全体の検出精度は偶然を上回っており、どの介入も改善しなかった。 参加者の回答に対する信頼度は高く,正確さとは無関係であった。 画像ごとに結果を評価すると、被験者は画像のラベル付けが難しくなるが、画像に関わらず同様に高い信頼性を報告している。 したがって、参加者の精度は全体の62%であったが、画像間の精度は85%から30%に相当し、5枚の画像で50%以下であった。 我々は、この脅威に対処するために緊急の対応を呼びかける必要があることを示唆していると解釈する。

Deepfakes are computationally-created entities that falsely represent reality. They can take image, video, and audio modalities, and pose a threat to many areas of systems and societies, comprising a topic of interest to various aspects of cybersecurity and cybersafety. In 2020 a workshop consulting AI experts from academia, policing, government, the private sector, and state security agencies ranked deepfakes as the most serious AI threat. These experts noted that since fake material can propagate through many uncontrolled routes, changes in citizen behaviour may be the only effective defence. This study aims to assess human ability to identify image deepfakes of human faces (StyleGAN2:FFHQ) from nondeepfake images (FFHQ), and to assess the effectiveness of simple interventions intended to improve detection accuracy. Using an online survey, 280 participants were randomly allocated to one of four groups: a control group, and 3 assistance interventions. Each participant was shown a sequence of 20 images randomly selected from a pool of 50 deepfake and 50 real images of human faces. Participants were asked if each image was AI-generated or not, to report their confidence, and to describe the reasoning behind each response. Overall detection accuracy was only just above chance and none of the interventions significantly improved this. Participants' confidence in their answers was high and unrelated to accuracy. Assessing the results on a per-image basis reveals participants consistently found certain images harder to label correctly, but reported similarly high confidence regardless of the image. Thus, although participant accuracy was 62% overall, this accuracy across images ranged quite evenly between 85% and 30%, with an accuracy of below 50% for one in every five images. We interpret the findings as suggesting that there is a need for an urgent call to action to address this threat.
翻訳日:2022-12-18 18:50:11 公開日:2022-12-14
# 物理に基づく境界制約による連続作用素学習の誘導

Guiding continuous operator learning through Physics-based boundary constraints ( http://arxiv.org/abs/2212.07477v1 )

ライセンス: Link先を確認
Nadim Saad, Gaurav Gupta, Shima Alizadeh, Danielle C. Maddix(参考訳) 境界条件 (BCs) は、特定の空間的位置で満たされる部分微分方程式 (PDEs) の解に必要な物理強化制約の重要群である。 これらの制約は重要な物理的意味を持ち、PDE解の存在と特異性を保証する。 PDEを解決しようとする現在のニューラルネットワークベースのアプローチは、モデルがBCGを暗黙的に学習するためのトレーニングデータのみに依存している。 評価中、これらのモデルによるbc満足の保証はない。 本研究では,演算子カーネルに構造的変更を加えることにより,BC がニューラル演算子に満足できるような境界エンテンシング演算子ネットワーク (BOON) を提案する。 我々は,物理ベースのbcs,例えばdirichlet,neumann,およびboonによって得られた解による周期の満足度を示す。 多様な応用を持つ複数のpdesに基づく数値実験は、提案手法がbcsの満足度を保証し、ドメイン全体のより正確な解をもたらすことを示している。 提案手法は, 与えられた演算子モデルに対して, 相対誤差$l^2$ (0.000084 相対誤差$l^2$誤差) で (2x-20x) 改善することを示す。

Boundary conditions (BCs) are important groups of physics-enforced constraints that are necessary for solutions of Partial Differential Equations (PDEs) to satisfy at specific spatial locations. These constraints carry important physical meaning, and guarantee the existence and the uniqueness of the PDE solution. Current neural-network based approaches that aim to solve PDEs rely only on training data to help the model learn BCs implicitly. There is no guarantee of BC satisfaction by these models during evaluation. In this work, we propose Boundary enforcing Operator Network (BOON) that enables the BC satisfaction of neural operators by making structural changes to the operator kernel. We provide our refinement procedure, and demonstrate the satisfaction of physics-based BCs, e.g. Dirichlet, Neumann, and periodic by the solutions obtained by BOON. Numerical experiments based on multiple PDEs with a wide variety of applications indicate that the proposed approach ensures satisfaction of BCs, and leads to more accurate solutions over the entire domain. The proposed correction method exhibits a (2X-20X) improvement over a given operator model in relative $L^2$ error (0.000084 relative $L^2$ error for Burgers' equation).
翻訳日:2022-12-16 18:13:36 公開日:2022-12-14
# 適応型ポリトープによるニューラルネットワーク制御システムの到達可能性自動解析

Automated Reachability Analysis of Neural Network-Controlled Systems via Adaptive Polytopes ( http://arxiv.org/abs/2212.07553v1 )

ライセンス: Link先を確認
Taha Entesari, Mahyar Fazlyab(参考訳) 到達可能な力学系の集合を過度に近似することは、安全性検証と堅牢な制御合成における根本的な問題である。 これらの集合の表現は計算複雑性と近似誤差に影響を与える重要な要素である。 本稿では,適応テンプレートポリトープを用いたニューラルネットワーク力学系の到達可能な集合を近似する新しい手法を提案する。 線形層の特異値分解と活性化関数の形状を用いて、各段階におけるポリトープの幾何学を真の到達可能な集合の幾何学に適応させる。 次に、推定テンプレートによる到達可能な集合の正確なオーバー近似を計算するためのブランチ・アンド・バウンド法を提案する。 本稿では,ニューラルネットワーク制御による線形システムの到達可能性解析における提案手法の有用性について述べる。

Over-approximating the reachable sets of dynamical systems is a fundamental problem in safety verification and robust control synthesis. The representation of these sets is a key factor that affects the computational complexity and the approximation error. In this paper, we develop a new approach for over-approximating the reachable sets of neural network dynamical systems using adaptive template polytopes. We use the singular value decomposition of linear layers along with the shape of the activation functions to adapt the geometry of the polytopes at each time step to the geometry of the true reachable sets. We then propose a branch-and-bound method to compute accurate over-approximations of the reachable sets by the inferred templates. We illustrate the utility of the proposed approach in the reachability analysis of linear systems driven by neural network controllers.
翻訳日:2022-12-16 18:13:16 公開日:2022-12-14
# 推定アルゴリズムの確率を用いたマルチクラス分類

Multiclass classification utilising an estimated algorithmic probability prior ( http://arxiv.org/abs/2212.07426v1 )

ライセンス: Link先を確認
Kamaludin Dingle, Pau Batlle, Houman Owhadi(参考訳) パターン認識と機械学習の手法は、科学、技術、社会に広く応用されている。 したがって、関連する理論のいかなる進歩も大規模な影響をもたらす可能性がある。 本稿では,アルゴリズム情報理論,特にアルゴリズム的確率が,機械学習タスクにどのように役立つかを検討する。 我々は,rna分子の配列から形状へのマップを学習し,異なる可能な形状をクラスとするマルチクラス教師付き分類問題について検討した。 この研究の主な動機は概念実証の例であり、具体的なよく動機づけられた機械学習タスクはアルゴリズム確率の近似によって支援できる。 本手法は, 形状の複雑度からクラス(すなわち形状)確率を直接推定し, ガウス過程学習問題において, 推定確率を先行として用いることに基づく。 当然,大量のトレーニングデータでは,前者は分類精度に有意な影響を与えないが,ごく小さな訓練データでは,前者を用いると分類精度が大幅に向上することを示す。 私たちの知る限り、この研究はアルゴリズムの確率が具体的な実世界の機械学習問題にどのように役立つかを示す最初の1つである。

Methods of pattern recognition and machine learning are applied extensively in science, technology, and society. Hence, any advances in related theory may translate into large-scale impact. Here we explore how algorithmic information theory, especially algorithmic probability, may aid in a machine learning task. We study a multiclass supervised classification problem, namely learning the RNA molecule sequence-to-shape map, where the different possible shapes are taken to be the classes. The primary motivation for this work is a proof of concept example, where a concrete, well-motivated machine learning task can be aided by approximations to algorithmic probability. Our approach is based on directly estimating the class (i.e., shape) probabilities from shape complexities, and using the estimated probabilities as a prior in a Gaussian process learning problem. Naturally, with a large amount of training data, the prior has no significant influence on classification accuracy, but in the very small training data regime, we show that using the prior can substantially improve classification accuracy. To our knowledge, this work is one of the first to demonstrate how algorithmic probability can aid in a concrete, real-world, machine learning problem.
翻訳日:2022-12-16 17:55:39 公開日:2022-12-14
# 高調波(量子)ニューラルネットワーク

Harmonic (Quantum) Neural Networks ( http://arxiv.org/abs/2212.07462v1 )

ライセンス: Link先を確認
Atiyo Ghosh, Antonio A. Gentile, Mario Dagrada, Chul Lee, Seong-hyok Kim, Hyukgeun Cha, Yunjun Choi, Brad Kim, Jeong-il Kye, Vincent E. Elfving(参考訳) 調和函数は自然界において豊富であり、マクスウェル方程式、ナヴィエ・ストークス方程式、熱、波動方程式の極限に現れる。 その結果、調和関数には多くの応用があり、産業プロセスの最適化からロボットの経路計画、ランダムウォークの最初の出口時間の計算まで応用できる。 その普遍性と関連性にもかかわらず、古典的コンピュータ上の機械学習や量子機械学習の生まれたばかりの分野において、機械学習アーキテクチャの文脈で調和関数を表現する効果的な方法を開発する試みはほとんどない。 調和関数に対する帰納的バイアスを課すまたは奨励するアーキテクチャは、データ駆動モデリングと、様々なアプリケーションにおける逆問題の解決を促進する。 古典的ニューラルネットワークでは、帰納バイアスの活用が学習アルゴリズムの性能向上につながることがすでに確立されている。 量子機械学習設定にそのような誘導バイアスを導入することは、まだ初期段階にある。 本研究では、正則複素関数の特性を利用して、単連結領域に対して2次元の正調和(従来型および量子型)ニューラルネットワークを導出する。 次に, 物理型ニューラルネットワークにおける領域分解に触発された手法を用いて, これらを2次元領域に大まかに拡張する方法を示す。 さらに,3次元以上の高調波制約を効果的に課すアーキテクチャとトレーニングプロトコルを提供し,任意の次元におけるダイバージェンスフリーネットワークアーキテクチャについて報告する。 提案手法は, 熱伝達, 静電気, ロボットナビゲーションに応用し, 物理インフォームドニューラルネットワークとの比較を行った。

Harmonic functions are abundant in nature, appearing in limiting cases of Maxwell's, Navier-Stokes equations, the heat and the wave equation. Consequently, there are many applications of harmonic functions, spanning applications from industrial process optimisation to robotic path planning and the calculation of first exit times of random walks. Despite their ubiquity and relevance, there have been few attempts to develop effective means of representing harmonic functions in the context of machine learning architectures, either in machine learning on classical computers, or in the nascent field of quantum machine learning. Architectures which impose or encourage an inductive bias towards harmonic functions would facilitate data-driven modelling and the solution of inverse problems in a range of applications. For classical neural networks, it has already been established how leveraging inductive biases can in general lead to improved performance of learning algorithms. The introduction of such inductive biases within a quantum machine learning setting is instead still in its nascent stages. In this work, we derive exactly-harmonic (conventional- and quantum-) neural networks in two dimensions for simply-connected domains by leveraging the characteristics of holomorphic complex functions. We then demonstrate how these can be approximately extended to multiply-connected two-dimensional domains using techniques inspired by domain decomposition in physics-informed neural networks. We further provide architectures and training protocols to effectively impose approximately harmonic constraints in three dimensions and higher, and as a corollary we report divergence-free network architectures in arbitrary dimensions. Our approaches are demonstrated with applications to heat transfer, electrostatics and robot navigation, with comparisons to physics-informed neural networks included.
翻訳日:2022-12-16 17:55:20 公開日:2022-12-14
# MABSplit:マルチアーマッドバンドを用いた高速森林訓練

MABSplit: Faster Forest Training Using Multi-Armed Bandits ( http://arxiv.org/abs/2212.07473v1 )

ライセンス: Link先を確認
Mo Tiwari, Ryan Kang, Je-Yong Lee, Sebastian Thrun, Chris Piech, Ilan Shomorony, Martin Jinye Zhang(参考訳) ランダムフォレストは現在最も広く使われている機械学習モデルであり、特に解釈可能性を必要とする領域で使われている。 本稿では,ランダムフォレストやその他の木本学習手法の学習を高速化するアルゴリズムを提案する。 我々のアルゴリズムの中核はMABSplitと呼ばれる新しいノード分割サブルーチンであり、決定木を構築する際に効率的に分割点を見つけるために使用される。 提案アルゴリズムは,多武装バンディット文学の手法を利用して,候補分割点間でサンプルと計算能力の割り当て方法を決定する。 我々は、MABSplitが各ノードのサンプリング複雑性を、データポイント数で線形から対数に分割することを理論的に保証する。 いくつかの設定では、mabsplitは一般化性能を低下させることなく、100倍のトレーニング(トレーニング時間の99%削減)につながる。 極端にランダムな森林やランダムなパッチなど、様々な森林ベースの変種でmabsplitを使用する場合も同様のスピードアップを示す。 また,アルゴリズムは分類タスクと回帰タスクの両方で使用できることを示す。 最後に,MABSplitは,計算予算の固定化と特徴量計算において,既存の手法よりも優れていることを示す。 実験結果はすべて、https://github.com/thrungroup/fastforestの1行スクリプトで再現可能です。

Random forests are some of the most widely used machine learning models today, especially in domains that necessitate interpretability. We present an algorithm that accelerates the training of random forests and other popular tree-based learning methods. At the core of our algorithm is a novel node-splitting subroutine, dubbed MABSplit, used to efficiently find split points when constructing decision trees. Our algorithm borrows techniques from the multi-armed bandit literature to judiciously determine how to allocate samples and computational power across candidate split points. We provide theoretical guarantees that MABSplit improves the sample complexity of each node split from linear to logarithmic in the number of data points. In some settings, MABSplit leads to 100x faster training (an 99% reduction in training time) without any decrease in generalization performance. We demonstrate similar speedups when MABSplit is used across a variety of forest-based variants, such as Extremely Random Forests and Random Patches. We also show our algorithm can be used in both classification and regression tasks. Finally, we show that MABSplit outperforms existing methods in generalization performance and feature importance calculations under a fixed computational budget. All of our experimental results are reproducible via a one-line script at https://github.com/ThrunGroup/FastForest.
翻訳日:2022-12-16 17:54:57 公開日:2022-12-14
# SMACv2: 協調型マルチエージェント強化学習のためのベンチマークの改善

SMACv2: An Improved Benchmark for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2212.07489v1 )

ライセンス: Link先を確認
Benjamin Ellis, Skander Moalla, Mikayel Samvelyan, Mingfei Sun, Anuj Mahajan, Jakob N. Foerster and Shimon Whiteson(参考訳) 挑戦的なベンチマークの可用性は、機械学習の最近の進歩において重要な役割を担っている。 協調型マルチエージェント強化学習において、StarCraft Multi-Agent Challenge (SMAC) は分散実行を伴う集中的なトレーニングのための一般的なテストベッドとなっている。 しかし、長年にわたってSMACを改良してきたアルゴリズムは、ほぼ完全な性能を実現した。 本研究では,SMACが複雑な閉ループポリシーを必要とするほど確率的でないことを示す。 特に,時間経過のみに条件付きオープンループポリシが,多くのSMACシナリオに対して非自明な勝利率を達成することを示す。 この制限に対処するため、SMACv2は、シナリオが手続き的に生成され、評価中に未確認設定(同じ分布から)にエージェントが一般化する必要があるベンチマークの新バージョンである。 これらの変更は、ベンチマークがクローズドループポリシーを使用する必要があることを保証する。 我々は、SMACv2の最先端アルゴリズムを評価し、元のベンチマークには存在しない重要な課題を示すことを示す。 分析の結果,SMACv2はSMACの欠陥に対処し,次世代のMARL手法のベンチマークに役立てることができることがわかった。 トレーニングのビデオはhttps://sites.google.com/view/smacv2で閲覧できる。

The availability of challenging benchmarks has played a key role in the recent progress of machine learning. In cooperative multi-agent reinforcement learning, the StarCraft Multi-Agent Challenge (SMAC) has become a popular testbed for centralised training with decentralised execution. However, after years of sustained improvement on SMAC, algorithms now achieve near-perfect performance. In this work, we conduct new analysis demonstrating that SMAC is not sufficiently stochastic to require complex closed-loop policies. In particular, we show that an open-loop policy conditioned only on the timestep can achieve non-trivial win rates for many SMAC scenarios. To address this limitation, we introduce SMACv2, a new version of the benchmark where scenarios are procedurally generated and require agents to generalise to previously unseen settings (from the same distribution) during evaluation. We show that these changes ensure the benchmark requires the use of closed-loop policies. We evaluate state-of-the-art algorithms on SMACv2 and show that it presents significant challenges not present in the original benchmark. Our analysis illustrates that SMACv2 addresses the discovered deficiencies of SMAC and can help benchmark the next generation of MARL methods. Videos of training are available at https://sites.google.com/view/smacv2
翻訳日:2022-12-16 17:54:33 公開日:2022-12-14
# タンパク質熱力学の機械学習による粗粒化ポテンシャル

Machine Learning Coarse-Grained Potentials of Protein Thermodynamics ( http://arxiv.org/abs/2212.07492v1 )

ライセンス: Link先を確認
Maciej Majewski, Adri\`a P\'erez, Philipp Th\"olke, Stefan Doerr, Nicholas E. Charron, Toni Giorgino, Brooke E. Husic, Cecilia Clementi, Frank No\'e and Gianni De Fabritiis(参考訳) タンパク質力学の一般化された理解は未解決の科学的問題であり、その解は重要な生物学的過程を支配する構造-機能関係の解釈に不可欠である。 本稿では, ニューラルネットワークに基づく粗粒分子ポテンシャルを構築し, 統計力学に基礎を置き, この問題にアプローチする。 トレーニングのために,12種類のタンパク質に対して約9msの非偏平全原子分子動力学シミュレーションのユニークなデータセットを構築した。 粗粒モデルは、系の熱力学を保ちながら、ダイナミクスを3桁以上加速することができる。 粗粒度シミュレーションは、全原子系に匹敵するエネルギーを持つアンサンブル内の関連する構造状態を特定する。 さらに, 1つの粗粒化電位が12個のタンパク質全てを結合し, 変異タンパク質の実験的構造的特徴を捉えることができることを示した。 これらの結果は、機械学習がタンパク質の動態をシミュレートし理解するための実現可能なアプローチとなることを示唆している。

A generalized understanding of protein dynamics is an unsolved scientific problem, the solution of which is critical to the interpretation of the structure-function relationships that govern essential biological processes. Here, we approach this problem by constructing coarse-grained molecular potentials based on artificial neural networks and grounded in statistical mechanics. For training, we build a unique dataset of unbiased all-atom molecular dynamics simulations of approximately 9 ms for twelve different proteins with multiple secondary structure arrangements. The coarse-grained models are capable of accelerating the dynamics by more than three orders of magnitude while preserving the thermodynamics of the systems. Coarse-grained simulations identify relevant structural states in the ensemble with comparable energetics to the all-atom systems. Furthermore, we show that a single coarse-grained potential can integrate all twelve proteins and can capture experimental structural features of mutated proteins. These results indicate that machine learning coarse-grained potentials could provide a feasible approach to simulate and understand protein dynamics.
翻訳日:2022-12-16 17:54:14 公開日:2022-12-14
# プライバシーと正確性を保証した分散非凸最適化

Decentralized Nonconvex Optimization with Guaranteed Privacy and Accuracy ( http://arxiv.org/abs/2212.07534v1 )

ライセンス: Link先を確認
Yongqiang Wang, Tamer Basar(参考訳) プライバシ保護と非凸性は、機密データを含む分散最適化と学習における2つの難しい問題である。 2つの問題のそれぞれを別々に扱う最近の進歩にもかかわらず、分散非凸最適化におけるプライバシー保護とサドル/最大回避の両方について理論的に保証された結果は報告されていない。 本稿では,厳密な差分プライバシーとサドル/最大性能の両方を回避できる分散非凸最適化アルゴリズムを提案する。 この新しいアルゴリズムは、永続的な付加雑音を組み込むことで、データサンプル、勾配、中間最適化変数の厳密な微分プライバシーを証明可能な収束性を失うことなく実現し、微分プライバシー設計におけるプライバシーの取引精度のジレンマを回避する。 さらに興味深いことに、このアルゴリズムは局所的な最大点とサドル点への収束を回避して効率よく精度を保証できることが理論的に証明されている。 このアルゴリズムは通信(各イテレーションで1つの変数しか共有しない)と計算(暗号化なし)の両方で効率的であり、したがって高次元最適化パラメータを含む大規模非凸最適化と学習を約束している。 分散推定問題と独立成分分析(ICA)問題の両方に対する数値実験により,提案手法の有効性が確認された。

Privacy protection and nonconvexity are two challenging problems in decentralized optimization and learning involving sensitive data. Despite some recent advances addressing each of the two problems separately, no results have been reported that have theoretical guarantees on both privacy protection and saddle/maximum avoidance in decentralized nonconvex optimization. We propose a new algorithm for decentralized nonconvex optimization that can enable both rigorous differential privacy and saddle/maximum avoiding performance. The new algorithm allows the incorporation of persistent additive noise to enable rigorous differential privacy for data samples, gradients, and intermediate optimization variables without losing provable convergence, and thus circumventing the dilemma of trading accuracy for privacy in differential privacy design. More interestingly, the algorithm is theoretically proven to be able to efficiently { guarantee accuracy by avoiding} convergence to local maxima and saddle points, which has not been reported before in the literature on decentralized nonconvex optimization. The algorithm is efficient in both communication (it only shares one variable in each iteration) and computation (it is encryption-free), and hence is promising for large-scale nonconvex optimization and learning involving high-dimensional optimization parameters. Numerical experiments for both a decentralized estimation problem and an Independent Component Analysis (ICA) problem confirm the effectiveness of the proposed approach.
翻訳日:2022-12-16 17:53:57 公開日:2022-12-14
# 生成構造正規化流れガウス過程の分光データへの応用

Generative structured normalizing flow Gaussian processes applied to spectroscopic data ( http://arxiv.org/abs/2212.07554v1 )

ライセンス: Link先を確認
Natalie Klein, Nishant Panda, Patrick Gasda, Diane Oyen(参考訳) 本研究では,入力を構造化条件正規化フローとガウス過程回帰を用いて構造化高次元出力にマッピングする新しい生成モデルを提案する。 このモデルは、新しいデータで推論を行う際に入出力関係の不確実性を特徴付ける必要性に動機づけられている。 特に、物理科学において、限られた訓練データは、将来の観測されたデータを適切に特徴付けるものではなく、モデルが不確かさを適切に示すことが重要である。 提案モデルでは,構成条件正規化フローはガウス過程による入力と類似した潜在表現を提供し,学習データ入力から自然に増大する正確な精度計算と不確実性を提供する。 火星探査機キュリオシティに搭載されたChemCam装置のレーザ誘起分解分光データに関する方法論を実証した。 chemcamは、レーザーパルスによって誘導されるプラズマ原子放出のスペクトル特性を測定することにより、岩石と土壌の化学組成を回復するように設計された。 本モデルは, 与えられた化学組成に基づいて実測的なスペクトル条件を生成できることを示すとともに, 化学組成の不確実性定量化を新規に行うことができることを示す。 提案手法は,予測の不確かさの定量化が重要となる高次元,複雑な構造を持つ他の科学的領域において有用であると考えられた。

In this work, we propose a novel generative model for mapping inputs to structured, high-dimensional outputs using structured conditional normalizing flows and Gaussian process regression. The model is motivated by the need to characterize uncertainty in the input/output relationship when making inferences on new data. In particular, in the physical sciences, limited training data may not adequately characterize future observed data; it is critical that models adequately indicate uncertainty, particularly when they may be asked to extrapolate. In our proposed model, structured conditional normalizing flows provide parsimonious latent representations that relate to the inputs through a Gaussian process, providing exact likelihood calculations and uncertainty that naturally increases away from the training data inputs. We demonstrate the methodology on laser-induced breakdown spectroscopy data from the ChemCam instrument onboard the Mars rover Curiosity. ChemCam was designed to recover the chemical composition of rock and soil samples by measuring the spectral properties of plasma atomic emissions induced by a laser pulse. We show that our model can generate realistic spectra conditional on a given chemical composition and that we can use the model to perform uncertainty quantification of chemical compositions for new observed spectra. Based on our results, we anticipate that our proposed modeling approach may be useful in other scientific domains with high-dimensional, complex structure where it is important to quantify predictive uncertainty.
翻訳日:2022-12-16 17:53:34 公開日:2022-12-14
# ロボットの強AI生成のためのIntensional First Order Logic

Intensional First Order Logic for Strong-AI Generation of Robots ( http://arxiv.org/abs/2212.07935v1 )

ライセンス: Link先を確認
Zoran Majkic(参考訳) ニューロシンボリックAIは、推論、学習、認知モデリングが可能な強力なAIをサポートするために、それぞれの強みと弱みに補完的な方法で対処する方法で、ニューラルアーキテクチャとシンボルアーキテクチャを統合する。 本稿では,人間とのコミュニケーションに自然言語を活用し,自己参照と抽象言語特性を用いて自身の知識を推論できる,現代ロボットの象徴的アーキテクチャとしてifol(intensional first order logic)を考える。 我々は,ロボット言語の基礎を,その神経アーキテクチャの使用経験から得ることを目的としており,この経験をIFOLのPRP(Properties/Relations/Propositions)理論における非定義言語概念(特に個人・普遍性)のマイニング(センス)と関連付ける。 我々は、特定の自然言語(イタリア語、フランス語など)の構文と、その意味論的論理構造(folと論理接続の仮想述語に基づく)と、ロボットの神経系に基づくfolの公式の複合マイニングを普遍的に表現する概念的prp構造という2つの普遍的言語特性の3つの自然言語レベルを考える。

Neuro-symbolic AI attempts to integrate neural and symbolic architectures in a manner that addresses strengths and weaknesses of each, in a complementary fashion, in order to support robust strong AI capable of reasoning, learning, and cognitive modeling. In this paper we consider the intensional First Order Logic (IFOL) as a symbolic architecture of modern robots, able to use natural languages to communicate with humans and to reason about their own knowledge with self-reference and abstraction language property. We intend to obtain the grounding of robot's language by experience of how it uses its neuronal architectures and hence by associating this experience with the mining (sense) of non-defined language concepts (particulars/individuals and universals) in PRP (Properties/Relations/propositions) theory of IFOL. We consider three natural language levels: The syntax of particular natural language (Italian, French, etc..), and two universal language properties: its semantic logic structure (based on virtual predicates of FOL and logic connectives), and its corresponding conceptual PRP structure which universally represents the composite mining of FOL formulae grounded on the robot's neuro system.
翻訳日:2022-12-16 17:44:17 公開日:2022-12-14
# ブラックボックスジョブショップスケジューリングヒューリスティックスの性能向上のためのモンテカルロ木探索

Monte-Carlo Tree-Search for Leveraging Performance of Blackbox Job-Shop Scheduling Heuristics ( http://arxiv.org/abs/2212.07543v1 )

ライセンス: Link先を確認
Florian Wimmenauer, Mat\'u\v{s} Mihal\'ak, Mark H. M. Winands(参考訳) 製造では、しばしば既製の製造ラインで生産されるが、その基礎となるスケジューリングのヒューリスティックは知的財産のために分かっていない。 ブラックボックスのジョブショップシステムと未知のスケジューリングヒューリスティックを用いて、所定のジョブの順応に対して、ブラックボックスのジョブショップのジョブを、メースパンの最小化を目標としてスケジュールする。 ここでは、ジョブは置換の所定の順序でジョブショップに入る必要があるが、ブラックボックスのヒューリスティックに依存するジョブショップ内で異なる経路を取る可能性がある。 ブラックボックスヒューリスティックのパフォーマンスは、ジョブの順序に依存し、製造業者にとっての自然な問題は、ジョブの最適な順序を見つけることである。 先述したような現実のシナリオに直面して,ジョブのクローズ・トゥ・オプティマイムの順序を求めるモンテカルロ木探索を考案した。 計画シナリオにおける大規模解空間に対処するために,ジョブの抽象化に基づく階層的モンテカルロ木探索(h-mcts)を提案する。 合成問題と実生活問題において、H-MCTSと統合された抽象化は、純粋ヒューリスティックに基づく技術とモンテカルロ探索の変種を著しく上回る。 さらに、H-MCTSの評価基準を変更することで、スケジューリングヒューリスティックが設計したもの(例えば、メースパンの代わりに総完了時間を最小化するなど)よりも、他の最適化目標を達成することができることを示す。 実例においても実験結果が検証され,H-MCTS方式が生産プラントの制御装置に実装されている。

In manufacturing, the production is often done on out-of-the-shelf manufacturing lines, whose underlying scheduling heuristics are not known due to the intellectual property. We consider such a setting with a black-box job-shop system and an unknown scheduling heuristic that, for a given permutation of jobs, schedules the jobs for the black-box job-shop with the goal of minimizing the makespan. Here, the jobs need to enter the job-shop in the given order of the permutation, but may take different paths within the job shop, which depends on the black-box heuristic. The performance of the black-box heuristic depends on the order of the jobs, and the natural problem for the manufacturer is to find an optimum ordering of the jobs. Facing a real-world scenario as described above, we engineer the Monte-Carlo tree-search for finding a close-to-optimum ordering of jobs. To cope with a large solutions-space in planning scenarios, a hierarchical Monte-Carlo tree search (H-MCTS) is proposed based on abstraction of jobs. On synthetic and real-life problems, H-MCTS with integrated abstraction significantly outperforms pure heuristic-based techniques as well as other Monte-Carlo search variants. We furthermore show that, by modifying the evaluation metric in H-MCTS, it is possible to achieve other optimization objectives than what the scheduling heuristics are designed for -- e.g., minimizing the total completion time instead of the makespan. Our experimental observations have been also validated in real-life cases, and our H-MCTS approach has been implemented in a production plant's controller.
翻訳日:2022-12-16 17:37:33 公開日:2022-12-14
# ディープラーニングによる脳腫瘍の完全自動分割に向けて--脳抽出は必要か?

Towards fully automated deep-learning-based brain tumor segmentation: is brain extraction still necessary? ( http://arxiv.org/abs/2212.07497v1 )

ライセンス: Link先を確認
Bruno Machado Pacheco, Guilherme de Souza e Cassia and Danilo Silva(参考訳) 最先端の脳腫瘍セグメンテーションは、マルチモーダルMRIに適用されたディープラーニングモデルに基づいている。 現在、これらのモデルは、登録、補間、脳抽出(BE、頭蓋切断とも呼ばれる)、および専門家による手動補正を含む前処理段階の後に画像に基づいて訓練されている。 しかし、臨床実践では、この最後のステップは退屈で時間がかかり、必ずしも実現可能とは限らないため、腫瘍の分節品質に悪影響を及ぼす可能性がある頭蓋骨引き抜き障害が引き起こされる。 それでも、この影響の程度は、利用可能なさまざまなBEメソッドのどれでも測定されていない。 本研究では,脳腫瘍自動分割パイプラインを提案し,その性能を複数のBE法を用いて評価する。 実験の結果,be法の選択は腫瘍の分画性能の最大15.7%を損なうことが明らかとなった。 さらに,非skullストリップ画像に対する腫瘍セグメンテーションモデルのトレーニングとテストを提案し,beステップをパイプラインから効果的に破棄する。 以上の結果から,本手法は短時間で競争性能が向上することが示された。 現状のパラダイムとは対照的に,非スカルストリップ画像における腫瘍セグメンテーションモデルの訓練は,臨床実習におけるハイパフォーマンスが望まれる場合に最適である。

State-of-the-art brain tumor segmentation is based on deep learning models applied to multi-modal MRIs. Currently, these models are trained on images after a preprocessing stage that involves registration, interpolation, brain extraction (BE, also known as skull-stripping) and manual correction by an expert. However, for clinical practice, this last step is tedious and time-consuming and, therefore, not always feasible, resulting in skull-stripping faults that can negatively impact the tumor segmentation quality. Still, the extent of this impact has never been measured for any of the many different BE methods available. In this work, we propose an automatic brain tumor segmentation pipeline and evaluate its performance with multiple BE methods. Our experiments show that the choice of a BE method can compromise up to 15.7% of the tumor segmentation performance. Moreover, we propose training and testing tumor segmentation models on non-skull-stripped images, effectively discarding the BE step from the pipeline. Our results show that this approach leads to a competitive performance at a fraction of the time. We conclude that, in contrast to the current paradigm, training tumor segmentation models on non-skull-stripped images can be the best option when high performance in clinical practice is desired.
翻訳日:2022-12-16 17:35:51 公開日:2022-12-14
# オンライン有害行動とソーシャルネットワークメッセージ作成スタイルの関係

Relationship Between Online Harmful Behaviors and Social Network Message Writing Style ( http://arxiv.org/abs/2212.07526v1 )

ライセンス: Link先を確認
Talia Sanchez Viera, Richard Khoury(参考訳) 本稿では,個人の執筆スタイルと,オンライン上で有害な行動(サイバーいじめなど)にかかわるリスクとの関係について検討する。 特に,書体における測定可能な違いが,五人格の特徴と暗三人格の特徴をモデルとした異なる性格タイプに関係しているかを検討し,有害な行動に携わるか否かを区別できる。 われわれは、2つのオンラインコミュニティ(TwitterとReddit)から2500人近いユーザーからのメッセージを調査し、通常のユーザーと有害なユーザーの間で、100ツイートから40ツイートまでの書き込みスタイルから大きな人格差を計測し、これらの価値を集約して、有害なコミュニティと有害なコミュニティを区別し、また、どのユーザーが有害な行動に従事するかを予測するスタイル属性を使用する。

In this paper, we explore the relationship between an individual's writing style and the risk that they will engage in online harmful behaviors (such as cyberbullying). In particular, we consider whether measurable differences in writing style relate to different personality types, as modeled by the Big-Five personality traits and the Dark Triad traits, and can differentiate between users who do or do not engage in harmful behaviors. We study messages from nearly 2,500 users from two online communities (Twitter and Reddit) and find that we can measure significant personality differences between regular and harmful users from the writing style of as few as 100 tweets or 40 Reddit posts, aggregate these values to distinguish between healthy and harmful communities, and also use style attributes to predict which users will engage in harmful behaviors.
翻訳日:2022-12-16 17:17:24 公開日:2022-12-14
# RTMDet:リアルタイム物体検出器の設計に関する実証的研究

RTMDet: An Empirical Study of Designing Real-Time Object Detectors ( http://arxiv.org/abs/2212.07784v1 )

ライセンス: Link先を確認
Chengqi Lyu, Wenwei Zhang, Haian Huang, Yue Zhou, Yudong Wang, Yanyi Liu, Shilong Zhang, Kai Chen(参考訳) 本稿では,yolo系列を越え,インスタンスセグメンテーションや回転物体検出などの多数の物体認識タスクで容易に拡張可能な,効率的なリアルタイム物体検出器を設計することを目的とする。 より効率的なモデルアーキテクチャを実現するために,大カーネル深度の畳み込みからなる基本構造ブロックによって構築された背骨と首に互換性のある容量を持つアーキテクチャを探索する。 さらに、動的ラベル割り当てのマッチングコストを計算する際にソフトラベルを導入することで、精度を向上させる。 RTMDetという名前のオブジェクト検出器は、より良いトレーニング技術とともに、現在の主流の産業用検出器よりも優れた、NVIDIA 3090 GPU上の300以上のFPSでCOCO上の52.8%APを達成した。 RTMDetは、様々なアプリケーションシナリオに対して、小/小/大/大/大/大/大/大モデルサイズで最適なパラメータ精度のトレードオフを実現し、リアルタイムインスタンスセグメンテーションと回転オブジェクト検出のための新しい最先端性能を得る。 実験結果によって、多くの物体認識タスクのための汎用的リアルタイム物体検出器の設計に関する新たな洞察が得られることを願っている。 コードとモデルはhttps://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdetでリリースされる。

In this paper, we aim to design an efficient real-time object detector that exceeds the YOLO series and is easily extensible for many object recognition tasks such as instance segmentation and rotated object detection. To obtain a more efficient model architecture, we explore an architecture that has compatible capacities in the backbone and neck, constructed by a basic building block that consists of large-kernel depth-wise convolutions. We further introduce soft labels when calculating matching costs in the dynamic label assignment to improve accuracy. Together with better training techniques, the resulting object detector, named RTMDet, achieves 52.8% AP on COCO with 300+ FPS on an NVIDIA 3090 GPU, outperforming the current mainstream industrial detectors. RTMDet achieves the best parameter-accuracy trade-off with tiny/small/medium/large/extra-large model sizes for various application scenarios, and obtains new state-of-the-art performance on real-time instance segmentation and rotated object detection. We hope the experimental results can provide new insights into designing versatile real-time object detectors for many object recognition tasks. Code and models are released at https://github.com/open-mmlab/mmdetection/tree/3.x/configs/rtmdet.
翻訳日:2022-12-16 17:09:34 公開日:2022-12-14
# 段階的議論のための多値弁論,条件付き論,確率的意味論

Many-valued Argumentation, Conditionals and a Probabilistic Semantics for Gradual Argumentation ( http://arxiv.org/abs/2212.07523v1 )

ライセンス: Link先を確認
Mario Alviano, Laura Giordano, and Daniele Theseider Dupr\'e(参考訳) 本稿では,段階的議論セマンティクスの多値優先解釈を定義するための一般的な手法を提案する。 このアプローチは、優先的な解釈よりも格付けされた(限定的または非実用的)含意の検証を通じて、段階的意味論のクラスに関する議論とブール的組み合わせに対する条件推論を可能にする。 概念の証明として、有限値の場合、重み付き議論グラフの多値議論意味論における条件付き推論のための解集合プログラミングアプローチが提案されている。 また,多値条件セマンティクスに基づく漸進的議論の確率論的意味論を開発し,議論する。

In this paper we propose a general approach to define a many-valued preferential interpretation of gradual argumentation semantics. The approach allows for conditional reasoning over arguments and boolean combination of arguments, with respect to a class of gradual semantics, through the verification of graded (strict or defeasible) implications over a preferential interpretation. As a proof of concept, in the finitely-valued case, an Answer set Programming approach is proposed for conditional reasoning in a many-valued argumentation semantics of weighted argumentation graphs. The paper also develops and discusses a probabilistic semantics for gradual argumentation, which builds on the many-valued conditional semantics.
翻訳日:2022-12-16 16:52:52 公開日:2022-12-14
# SAIF: Sparse Adversarial and Interpretable Attack Framework

SAIF: Sparse Adversarial and Interpretable Attack Framework ( http://arxiv.org/abs/2212.07495v1 )

ライセンス: Link先を確認
Tooba Imtiaz, Morgan Kohler, Jared Miller, Zifeng Wang, Mario Sznaier, Octavia Camps, Jennifer Dy(参考訳) 敵攻撃は入力信号の摂動によってニューラルネットワークの決定能力を妨げる。 例えば、画像に計算された小さな歪みを加えることは、よく訓練された画像分類ネットワークを欺くことができる。 本研究では,Sparse Adversarial and Interpretable Attack Framework (SAIF) と呼ばれる新たな攻撃手法を提案する。 具体的には、少数の画素で低マグニチュードの摂動を含む不可避な攻撃をデザインし、これらのスパース攻撃を利用して分類器の脆弱性を明らかにする。 我々はFrank-Wolfe(条件勾配)アルゴリズムを用いて、O(1/\sqrt{T})$収束で境界等級と空間の攻撃摂動を同時に最適化する。 実験の結果,SAIFは高い認識不能かつ解釈不能な逆数例を計算し,ImageNetデータセット上で最先端のスパース攻撃手法より優れていた。

Adversarial attacks hamper the decision-making ability of neural networks by perturbing the input signal. The addition of calculated small distortion to images, for instance, can deceive a well-trained image classification network. In this work, we propose a novel attack technique called Sparse Adversarial and Interpretable Attack Framework (SAIF). Specifically, we design imperceptible attacks that contain low-magnitude perturbations at a small number of pixels and leverage these sparse attacks to reveal the vulnerability of classifiers. We use the Frank-Wolfe (conditional gradient) algorithm to simultaneously optimize the attack perturbations for bounded magnitude and sparsity with $O(1/\sqrt{T})$ convergence. Empirical results show that SAIF computes highly imperceptible and interpretable adversarial examples, and outperforms state-of-the-art sparse attack methods on the ImageNet dataset.
翻訳日:2022-12-16 16:52:28 公開日:2022-12-14
# 拡散確率モデルが医療画像でGANを破る

Diffusion Probabilistic Models beat GANs on Medical Images ( http://arxiv.org/abs/2212.07501v1 )

ライセンス: Link先を確認
Gustav M\"uller-Franzes, Jan Moritz Niehues, Firas Khader, Soroosh Tayebi Arasteh, Christoph Haarburger, Christiane Kuhl, Tianci Wang, Tianyu Han, Sven Nebelung, Jakob Nikolas Kather, Daniel Truhn(参考訳) ディープラーニングアプリケーションの成功は、基礎となるトレーニングデータの質と規模に大きく依存する。 generative adversarial network (gans) は任意の大きなデータセットを生成することができるが、多様性と忠実性は限られている。 本研究では,医療画像のための条件付き潜伏型DDPMであるMedfusionを提案する。 DDPMモデルとGANモデルを比較し,現在の医療領域における最先端モデルである。 メドフュージョンは訓練され 比較され (i)airogs challengeデータセットからのn=101,442画像に対するstylegan-3 による緑内障の有無による眼底手術 (ii)schexpertデータセットからのn=191,027のプロガンによるcardiomegaly と非cardiomegalyのラジオグラフの生成 3) CRCMSデータセットからのn=19,557画像上のwGANを用いて,マイクロサテライトの安定性を伴わない病理像を生成する。 AIROGS、CRMCS、CheXpertのデータセットでは、MedfusionはGANよりも低い(=ベター)FIDを達成した(11.63対20.43、30.03対49.26、17.28対84.31)。 また,3つのデータセットすべてにおいて,Medfusionでは忠実度(精度)と多様性(リコール)が高かった。 本研究は, DDPMが医用領域における画像合成において, GANsの代替として優れていることを示す。

The success of Deep Learning applications critically depends on the quality and scale of the underlying training data. Generative adversarial networks (GANs) can generate arbitrary large datasets, but diversity and fidelity are limited, which has recently been addressed by denoising diffusion probabilistic models (DDPMs) whose superiority has been demonstrated on natural images. In this study, we propose Medfusion, a conditional latent DDPM for medical images. We compare our DDPM-based model against GAN-based models, which constitute the current state-of-the-art in the medical domain. Medfusion was trained and compared with (i) StyleGan-3 on n=101,442 images from the AIROGS challenge dataset to generate fundoscopies with and without glaucoma, (ii) ProGAN on n=191,027 from the CheXpert dataset to generate radiographs with and without cardiomegaly and (iii) wGAN on n=19,557 images from the CRCMS dataset to generate histopathological images with and without microsatellite stability. In the AIROGS, CRMCS, and CheXpert datasets, Medfusion achieved lower (=better) FID than the GANs (11.63 versus 20.43, 30.03 versus 49.26, and 17.28 versus 84.31). Also, fidelity (precision) and diversity (recall) were higher (=better) for Medfusion in all three datasets. Our study shows that DDPM are a superior alternative to GANs for image synthesis in the medical domain.
翻訳日:2022-12-16 16:52:11 公開日:2022-12-14
# 深層学習による綿畑の空中画像中のプラスチック汚染検出

Plastic Contaminant Detection in Aerial Imagery of Cotton Fields with Deep Learning ( http://arxiv.org/abs/2212.07527v1 )

ライセンス: Link先を確認
Pappu Kumar Yadav, J. Alex Thomasson, Robert G. Hardin, Stephen W. Searcy, Ulisses Braga-Neto, Sorin C. Popescu, Roberto Rodriguez, Daniel E Martin, Juan Enciso, Karem Meza, Emma L. White(参考訳) 道路の脇から運び出され、綿花に絡まったプラスチック製の買い物袋は、収穫前に取り除かなければ綿ジンで終わる。 このような袋は、ジャイニングの過程で問題を引き起こすだけでなく、綿繊維に具現化されて品質と市場価値が低下する可能性がある。 そのため、綿花が収穫される前に袋を検出し、見つけ出し、取り外す必要がある。 綿花畑でこれらの袋を手動で検出し、配置することは、労働集約的で、時間がかかり、コストがかかる。 これらの課題を解決するために, 無人航空機システム (UAS) が取得したRGB (Red, Green, Blue) 画像を用いたプラスチックの買い物袋検出に, YOLOv5 (YOLOv5s, YOLOv5m, YOLOv5l, YOLOv5x) の4変種を応用した。 また, 平均精度 (AP) , 平均精度 (mAP@50) および精度 (mAP@50) において, 可塑性袋の色およびYOLOv5-変異の固定効果モデル試験を行った。 また, ビニール袋の高さが検出精度に及ぼす影響を実証した。 袋の色は4変種すべてに有意な効果 (p < 0.001) を示したが, YOLOv5m (p = 0.10) と YOLOv5x (p = 0.35) は95%信頼度ではAPに有意な影響は認められなかった。 同様に、YOLOv5-型はAP(p = 0.11)と白袋の精度(p = 0.73)に有意な影響を与えなかったが、AP(p = 0.03)とmAP@50(p = 0.01)と推論速度(p < 0.0001)を含む茶色の袋の精度(p = 0.02)に有意な影響を及ぼした。 また, ビニール袋の高さが検出精度に有意な影響(p<0.0001)を示した。 本研究は, 収穫前の綿畑からのビニール袋の除去をスピードアップさせ, 綿繰り機で発生する汚染物質量を減少させるのに有用である。

Plastic shopping bags that get carried away from the side of roads and tangled on cotton plants can end up at cotton gins if not removed before the harvest. Such bags may not only cause problem in the ginning process but might also get embodied in cotton fibers reducing its quality and marketable value. Therefore, it is required to detect, locate, and remove the bags before cotton is harvested. Manually detecting and locating these bags in cotton fields is labor intensive, time-consuming and a costly process. To solve these challenges, we present application of four variants of YOLOv5 (YOLOv5s, YOLOv5m, YOLOv5l and YOLOv5x) for detecting plastic shopping bags using Unmanned Aircraft Systems (UAS)-acquired RGB (Red, Green, and Blue) images. We also show fixed effect model tests of color of plastic bags as well as YOLOv5-variant on average precision (AP), mean average precision (mAP@50) and accuracy. In addition, we also demonstrate the effect of height of plastic bags on the detection accuracy. It was found that color of bags had significant effect (p < 0.001) on accuracy across all the four variants while it did not show any significant effect on the AP with YOLOv5m (p = 0.10) and YOLOv5x (p = 0.35) at 95% confidence level. Similarly, YOLOv5-variant did not show any significant effect on the AP (p = 0.11) and accuracy (p = 0.73) of white bags, but it had significant effects on the AP (p = 0.03) and accuracy (p = 0.02) of brown bags including on the mAP@50 (p = 0.01) and inference speed (p < 0.0001). Additionally, height of plastic bags had significant effect (p < 0.0001) on overall detection accuracy. The findings reported in this paper can be useful in speeding up removal of plastic bags from cotton fields before harvest and thereby reducing the amount of contaminants that end up at cotton gins.
翻訳日:2022-12-16 16:51:35 公開日:2022-12-14
# IMoS:人間-物体インタラクションのためのインテント駆動フルボディモーション合成

IMoS: Intent-Driven Full-Body Motion Synthesis for Human-Object Interactions ( http://arxiv.org/abs/2212.07555v1 )

ライセンス: Link先を確認
Anindita Ghosh, Rishabh Dabral, Vladislav Golyanik, Christian Theobalt, Philipp Slusallek(参考訳) シーン内の仮想キャラクタを、簡単な指示で周囲のオブジェクトとやりとりできるだろうか? このような動作を多種多様なオブジェクトや命令でうまく合成することは可能か? これらの疑問に触発されて,本研究では,仮想人体文字が到達範囲内に3Dオブジェクトを配置した特定の動作を行う場合のフルボディ動作を合成する最初のフレームワークを提案する。 本システムでは,オブジェクトと仮想文字の関連意図を入力テキストで指定し,全身動作の多種多様なシーケンスを出力する。 これは、主に物体をつかむための手や指の動きを合成することに焦点を当てた、全身動作合成法が一般的にオブジェクトの相互作用を考慮しない既存の研究とは対照的である。 一対の分離条件付き変分オートエンコーダ(CVAE)を用いて、自己回帰的に身体部分の動きを学習するインテント駆動フルボディモーションジェネレータを設計し、その目的を達成する。 また、6自由度(6dof)の物体の位置を最適化し、合成された文字の手に収まるようにした。 提案手法を既存の動作合成法と比較し,意図駆動動作合成の課題に対して,新しい,より強固な状態を確立する。 ユーザ・スタディにより,本合成された全身動作は,現在の最先端手法と比較して80%以上のシナリオで参加者にとってより現実的に見えること,また,いくつかの場面において基礎的真理と同等であると考えられた。

Can we make virtual characters in a scene interact with their surrounding objects through simple instructions? Is it possible to synthesize such motion plausibly with a diverse set of objects and instructions? Inspired by these questions, we present the first framework to synthesize the full-body motion of virtual human characters performing specified actions with 3D objects placed within their reach. Our system takes as input textual instructions specifying the objects and the associated intentions of the virtual characters and outputs diverse sequences of full-body motions. This is in contrast to existing work, where full-body action synthesis methods generally do not consider object interactions, and human-object interaction methods focus mainly on synthesizing hand or finger movements for grasping objects. We accomplish our objective by designing an intent-driven full-body motion generator, which uses a pair of decoupled conditional variational autoencoders (CVAE) to learn the motion of the body parts in an autoregressive manner. We also optimize for the positions of the objects with six degrees of freedom (6DoF) such that they plausibly fit within the hands of the synthesized characters. We compare our proposed method with the existing methods of motion synthesis and establish a new and stronger state-of-the-art for the task of intent-driven motion synthesis. Through a user study, we further show that our synthesized full-body motions appear more realistic to the participants in more than 80% of scenarios compared to the current state-of-the-art methods, and are perceived to be as good as the ground truth on several occasions.
翻訳日:2022-12-16 16:35:15 公開日:2022-12-14
# CT再構成のための収束データ駆動正規化法

Convergent Data-driven Regularizations for CT Reconstruction ( http://arxiv.org/abs/2212.07786v1 )

ライセンス: Link先を確認
Samira Kabri, Alexander Auras, Danilo Riccio, Hartmut Bauermeister, Martin Benning, Michael Moeller, Martin Burger(参考訳) 対応する雑音ラドン変換からの画像の再構成は、CT(Computerized tomography)の適用により生じる不測の線形逆問題(英語版)の典型的な例である。 na\"{\i}ve)解は連続的に測定されたデータに依存しないため、連続依存を再確立するには正規化が必要である。 本研究では,データから線形正則化法を学習する上で,単純だが証明可能なアプローチについて検討する。 より具体的には、2つのアプローチを解析する: [1] の拡張において線型作用素の特異値を操作する方法を学ぶ1つの一般線型正規化と、CT再構成に特有のフーリエ領域における1つの調整されたアプローチ。 このような手法が収束正則化手法となること、およびそれらが提供する再構成が訓練されたトレーニングデータよりも典型的にスムーズであることを証明する。 最後に,CT再構成におけるスペクトルとフーリエ法を数値的に比較し,その利点と欠点を考察し,異なる解像度での離散化誤差の影響について検討する。

The reconstruction of images from their corresponding noisy Radon transform is a typical example of an ill-posed linear inverse problem as arising in the application of computerized tomography (CT). As the (na\"{\i}ve) solution does not depend on the measured data continuously, regularization is needed to re-establish a continuous dependence. In this work, we investigate simple, but yet still provably convergent approaches to learning linear regularization methods from data. More specifically, we analyze two approaches: One generic linear regularization that learns how to manipulate the singular values of the linear operator in an extension of [1], and one tailored approach in the Fourier domain that is specific to CT-reconstruction. We prove that such approaches become convergent regularization methods as well as the fact that the reconstructions they provide are typically much smoother than the training data they were trained on. Finally, we compare the spectral as well as the Fourier-based approaches for CT-reconstruction numerically, discuss their advantages and disadvantages and investigate the effect of discretization errors at different resolutions.
翻訳日:2022-12-16 16:33:41 公開日:2022-12-14
# WikipediaとDBpediaを用いた複雑名前付きエンティティ認識と分類階層のための多言語コーパスの構築

Building Multilingual Corpora for a Complex Named Entity Recognition and Classification Hierarchy using Wikipedia and DBpedia ( http://arxiv.org/abs/2212.07429v1 )

ライセンス: Link先を確認
Diego Alves, Gaurish Thakkar, Gabriel Amaral, Tin Kuculo, Marko Tadi\'c(参考訳) NLPの分野ではますます人気が高まり、低リソース言語でのデータセットの需要もそれに続く。 本稿では,従来確立されていたフレームワークに倣って,多言語および階層型並列コーパスであるUNERデータセットを提案する。 我々は、このタイプのデータセットをwikipediaで利用可能な言語で作成するのに必要な開発手順をdbpedia情報と共に詳細に記述する。 3段階の手順はwikipediaの記事からエンティティを抽出し、dbpediaにリンクし、dbpediaクラスのクラスをunerラベルにマップする。 処理後、最終結果で識別されたエンティティの数を大幅に増加させる処理手順が続く。 論文は、得られたデータセットの統計的および質的な分析で結論付ける。

With the ever-growing popularity of the field of NLP, the demand for datasets in low resourced-languages follows suit. Following a previously established framework, in this paper, we present the UNER dataset, a multilingual and hierarchical parallel corpus annotated for named-entities. We describe in detail the developed procedure necessary to create this type of dataset in any language available on Wikipedia with DBpedia information. The three-step procedure extracts entities from Wikipedia articles, links them to DBpedia, and maps the DBpedia sets of classes to the UNER labels. This is followed by a post-processing procedure that significantly increases the number of identified entities in the final results. The paper concludes with a statistical and qualitative analysis of the resulting dataset.
翻訳日:2022-12-16 16:33:22 公開日:2022-12-14
# 健康メッセージ生成のための人工知能:プロンプト工学を用いた理論・方法・実証的研究

Artificial Intelligence for Health Message Generation: Theory, Method, and an Empirical Study Using Prompt Engineering ( http://arxiv.org/abs/2212.07507v1 )

ライセンス: Link先を確認
Sue Lim (1), Ralf Schm\"alzle (1) ((1) Michigan State University)(参考訳) 本研究では、健康意識メッセージを生成するAIシステムの可能性を紹介し、検討する。 妊娠中に重要なビタミンである葉酸がテストケースとして使用された。 素早いエンジニアリングを用いて、認識を高めるのに使えるメッセージを生成し、それを計算と人的評価の手法でリツイートした人間生成メッセージと比較した。 システムは使いやすく、多用され、計算分析により、AIが生成したメッセージは感情、読みやすさ、セマンティックな内容の点で人間生成メッセージと同等であることが判明した。 また、人間による評価の結果、AIが生成したメッセージはメッセージの品質と明瞭度が高いことがわかった。 これらの結果の理論的,実践的,倫理的意味について論じる。

This study introduces and examines the potential of an AI system to generate health awareness messages. The topic of folic acid, a vitamin that is critical during pregnancy, served as a test case. Using prompt engineering, we generated messages that could be used to raise awareness and compared them to retweeted human-generated messages via computational and human evaluation methods. The system was easy to use and prolific, and computational analyses revealed that the AI-generated messages were on par with human-generated ones in terms of sentiment, reading ease, and semantic content. Also, the human evaluation study showed that AI-generated messages ranked higher in message quality and clarity. We discuss the theoretical, practical, and ethical implications of these results.
翻訳日:2022-12-16 16:33:08 公開日:2022-12-14
# 電子健康記録における自然言語処理の活用による健康データ構造決定因子の増強

Leveraging Natural Language Processing to Augment Structured Social Determinants of Health Data in the Electronic Health Record ( http://arxiv.org/abs/2212.07538v1 )

ライセンス: Link先を確認
Kevin Lybarger, Nicholas J Dobbins, Ritche Long, Angad Singh, Patrick Wedgeworth, Ozlem Ozuner, Meliha Yetisgen(参考訳) 目的:sdoh(social determinants of health)は、個人の健康成果や健康システムの相互作用に影響を与える。 医療システムは構造化データと非構造化臨床ノートを通してSDOH情報をキャプチャするが、臨床ノートにはいくつかの重要なSDOHのより包括的な表現が含まれていることが多い。 本研究の目的は、臨床物語からSDOHの構造的意味表現を抽出し、これらの抽出された表現を利用可能な構造化データと組み合わせることで、SDOH情報の獲得を可能にすることである。 資料と方法:我々は,深層学習エンティティと関係抽出アーキテクチャを利用したSDOHのための自然言語処理(NLP)情報抽出モデルを開発した。 電子健康記録(ehr)のケーススタディでは,20万以上の患者と40万のノートからなる大規模既存の臨床データにsdoh抽出器を適用し,抽出した情報を利用可能な構造化データと比較した。 結果: SDOH抽出器は無条件で0.86F1を達成した。 ehrのケーススタディでは、現在のタバコ使用者の19\%、薬物使用者の10\%、ホームレス患者の32\%が、これらのリスク要因の文書のみを臨床物語に含めている。 結論:SDOHによる負の健康影響のリスクがある患者は、SDOHのリスク要因と関連する社会的ニーズを特定できれば、より役に立たない可能性がある。 テキストエンコードされたSDOH情報の構造化意味表現は、既存の構造化を増強し、このより包括的なSDOH表現は、社会的ニーズを特定し、対処する健康システムを支援する。

Objective: Social Determinants of Health (SDOH) influence personal health outcomes and health systems interactions. Health systems capture SDOH information through structured data and unstructured clinical notes; however, clinical notes often contain a more comprehensive representation of several key SDOH. The objective of this work is to assess the SDOH information gain achievable by extracting structured semantic representations of SDOH from the clinical narrative and combining these extracted representations with available structured data. Materials and Methods: We developed a natural language processing (NLP) information extraction model for SDOH that utilizes a deep learning entity and relation extraction architecture. In an electronic health record (EHR) case study, we applied the SDOH extractor to a large existing clinical data set with over 200,000 patients and 400,000 notes and compared the extracted information with available structured data. Results: The SDOH extractor achieved 0.86 F1 on a withheld test set. In the EHR case study, we found 19\% of current tobacco users, 10\% of drug users, and 32\% of homeless patients only include documentation of these risk factors in the clinical narrative. Conclusions: Patients who are at-risk for negative health outcomes due to SDOH may be better served if health systems are able to identify SDOH risk factors and associated social needs. Structured semantic representations of text-encoded SDOH information can augment existing structured, and this more comprehensive SDOH representation can assist health systems in identifying and addressing social needs.
翻訳日:2022-12-16 16:32:51 公開日:2022-12-14
# build-a-bot: インテント認識と質問応答アーキテクチャを用いた会話型ai教育

Build-a-Bot: Teaching Conversational AI Using a Transformer-Based Intent Recognition and Question Answering Architecture ( http://arxiv.org/abs/2212.07542v1 )

ライセンス: Link先を確認
Kate Pearce, Sharifa Alghowinem, Cynthia Breazeal(参考訳) 人工知能(AI)が現代生活の顕著な部分を占めるようになるにつれ、AIリテラシーは技術キャリアだけでなく、すべての市民にとって重要になりつつある。 これまでのAI教育教材の研究は、専門用語の導入とAIのユースケースと倫理に重点を置いていたが、学生が独自の機械学習モデルを作成することによって学ぶことは、ほとんどない。 したがって、興味のある教育者に対して、より適応的で柔軟なプラットフォームでAI教育ツールを充実させる必要がある。 そこで我々は,学生や教師が自身のコース資料に基づいてトランスフォーマーベースのチャットボットを開発するだけでなく,モデル作成プロセスを通じてAIの基礎を学ぶためのオープンソースツール(Build-a-Bot)の開発を提案する。 本論文の主な関心事は,自然言語パイプラインを用いて,自校のカリキュラムに基づいて質問に答えるためにカスタマイズされたモデルを訓練することにより,人工知能の原則を学ぶためのインタフェースの作成である。 モデルは、教科書の章などのインストラクターによって与えられたコンテキストを使用して質問に答え、対話型チャットボット/ボイスエージェントにデプロイされる。 このパイプラインは、学生にデータ収集、データ拡張、意図認識、質問応答を、それぞれのプロセスを通してaiエージェントを作成しながら教える。学生と教師がボットをカスタマイズ能力のないブラックボックスとして使用したり、ボットにai能力がない場合、ほとんどの対話スクリプトはルールベースである。 また,本ツールでは,このパイプラインの各ステップを中学生向けに直感的に行うように設計されている。 さらなる研究は主に、私たちのツールを学校に提供し、学生や教師の評価を求めることである。

As artificial intelligence (AI) becomes a prominent part of modern life, AI literacy is becoming important for all citizens, not just those in technology careers. Previous research in AI education materials has largely focused on the introduction of terminology as well as AI use cases and ethics, but few allow students to learn by creating their own machine learning models. Therefore, there is a need for enriching AI educational tools with more adaptable and flexible platforms for interested educators with any level of technical experience to utilize within their teaching material. As such, we propose the development of an open-source tool (Build-a-Bot) for students and teachers to not only create their own transformer-based chatbots based on their own course material, but also learn the fundamentals of AI through the model creation process. The primary concern of this paper is the creation of an interface for students to learn the principles of artificial intelligence by using a natural language pipeline to train a customized model to answer questions based on their own school curriculums. The model uses contexts given by their instructor, such as chapters of a textbook, to answer questions and is deployed on an interactive chatbot/voice agent. The pipeline teaches students data collection, data augmentation, intent recognition, and question answering by having them work through each of these processes while creating their AI agent, diverging from previous chatbot work where students and teachers use the bots as black-boxes with no abilities for customization or the bots lack AI capabilities, with the majority of dialogue scripts being rule-based. In addition, our tool is designed to make each step of this pipeline intuitive for students at a middle-school level. Further work primarily lies in providing our tool to schools and seeking student and teacher evaluations.
翻訳日:2022-12-16 16:32:21 公開日:2022-12-14
# AIにおける人的価値のプロキシ間の緊張

Tensions Between the Proxies of Human Values in AI ( http://arxiv.org/abs/2212.07508v1 )

ライセンス: Link先を確認
Teresa Datta, Daniel Nissani, Max Cembalest, Akash Khanna, Haley Massa, John P. Dickerson(参考訳) テクノロジーの潜在的有害な影響を緩和することで動機づけられたAIコミュニティは、ある種の説明責任の柱であるプライバシー、公正性、モデルの透明性に関する数学的定義を定式化し、受け入れてきた。 しかし、これらの定義は不完全であり、彼らが推奨する人間の価値観のサイロ化された構成であり、その価値が我々の技術に十分に埋め込まれているというヒントを与えているからである。 一般的な方法の下では、実践者が公平さ、プライバシー、透明性の各柱を孤立または同時に達成しようとすると緊張が生じる。 本稿では,リダイレクトをプッシュする。 AIコミュニティは、技術的な非互換性だけでなく、デプロイメントのコンテキストにおける影響においても、これらの柱の特定の定式化を選択することによるすべての結果を検討する必要がある、と私たちは主張する。 我々は、後者のフレームワークの社会学的研究に向けているが、実際にこれらを実装するためのより広範な取り組みを推し進めている。

Motivated by mitigating potentially harmful impacts of technologies, the AI community has formulated and accepted mathematical definitions for certain pillars of accountability: e.g. privacy, fairness, and model transparency. Yet, we argue this is fundamentally misguided because these definitions are imperfect, siloed constructions of the human values they hope to proxy, while giving the guise that those values are sufficiently embedded in our technologies. Under popularized methods, tensions arise when practitioners attempt to achieve each pillar of fairness, privacy, and transparency in isolation or simultaneously. In this position paper, we push for redirection. We argue that the AI community needs to consider all the consequences of choosing certain formulations of these pillars -- not just the technical incompatibilities, but also the effects within the context of deployment. We point towards sociotechnical research for frameworks for the latter, but push for broader efforts into implementing these in practice.
翻訳日:2022-12-16 16:26:21 公開日:2022-12-14
# コンテキストリッチ処理を用いた分析エンジン:効率的な次世代分析に向けて

Analytical Engines With Context-Rich Processing: Towards Efficient Next-Generation Analytics ( http://arxiv.org/abs/2212.07517v1 )

ライセンス: Link先を確認
Viktor Sanca, Anastasia Ailamaki(参考訳) 現代的なデータパイプラインがさまざまなデータフォーマットを収集、生成、保存し続けていくにつれ、文字列、テキスト、ビデオ、オーディオ、ログといった、従来およびコンテキストに富んだソースから価値を抽出、結合することは、rdbmsに適さない手作業のプロセスになる。 ダークデータをタップすると、ドメインの専門家が洞察を分析して抽出し、それらをデータリポジトリに統合する。 このプロセスには、DBMSの外部、アドホック分析、ETL、エンジニアリングの取り組み、そして準最適パフォーマンスをもたらす処理が含まれる。 MLモデルに基づくAIシステムは分析プロセスを自動化することができるが、文脈に富む回答をさらに生成することが多い。 複数の真理源を用いて、モデルまたは知識基盤の形で訓練すると、興味のあるデータを統合するという問題がさらに悪化する。 コンテキストに富んだ分析を可能にするコンポーネントと協調して最適化された分析エンジンを想定する。 第一に、異なるソースからのデータやモデル応答の結果を事前に浄化できないため、モデル支援類似性操作によるオンラインデータ統合を提案する。 第2に、リレーショナルおよびモデルベース演算子間の全体的パイプラインコストとルールベースの最適化を目指している。 第3に、従来型リレーショナル分析から生成モデル推論まで多種多様なハードウェアと等質なワークロードによって、ジャストインタイムで複雑な分析クエリ要求に適応するシステムを構想する。 ますます複雑な分析問題を解決するためにmlは、従来の分析処理と組み合わせなければならない魅力的なソリューションを提供し、数十年にわたるデータベースコミュニティの研究から、エンドユーザのスケーラビリティとパフォーマンスを損なうことなく得ることができる。

As modern data pipelines continue to collect, produce, and store a variety of data formats, extracting and combining value from traditional and context-rich sources such as strings, text, video, audio, and logs becomes a manual process where such formats are unsuitable for RDBMS. To tap into the dark data, domain experts analyze and extract insights and integrate them into the data repositories. This process can involve out-of-DBMS, ad-hoc analysis, and processing resulting in ETL, engineering effort, and suboptimal performance. While AI systems based on ML models can automate the analysis process, they often further generate context-rich answers. Using multiple sources of truth, for either training the models or in the form of knowledge bases, further exacerbates the problem of consolidating the data of interest. We envision an analytical engine co-optimized with components that enable context-rich analysis. Firstly, as the data from different sources or resulting from model answering cannot be cleaned ahead of time, we propose using online data integration via model-assisted similarity operations. Secondly, we aim for a holistic pipeline cost- and rule-based optimization across relational and model-based operators. Thirdly, with increasingly heterogeneous hardware and equally heterogeneous workloads ranging from traditional relational analytics to generative model inference, we envision a system that just-in-time adapts to the complex analytical query requirements. To solve increasingly complex analytical problems, ML offers attractive solutions that must be combined with traditional analytical processing and benefit from decades of database community research to achieve scalability and performance effortless for the end user.
翻訳日:2022-12-16 16:26:04 公開日:2022-12-14
# 無限指数:生成テキスト・画像モデルにおける情報検索

The Infinite Index: Information Retrieval on Generative Text-To-Image Models ( http://arxiv.org/abs/2212.07476v1 )

ライセンス: Link先を確認
Niklas Deckers, Maik Fr\"obe, Johannes Kiesel, Gianluca Pandolfo, Christopher Schr\"oder, Benno Stein, Martin Potthast(参考訳) テキストと画像のモデルであるStable Diffusionは、最近非常に人気がある。 オープンソースリリースからわずか数週間で、数百万人が画像生成を試している。 これは、生成モデルを"プロンプト"するために所望の画像を簡単に記述するだけで済むため、使いやすさのためである。 ユーザの期待に応える新しいプロンプトのために生成されたイメージを、まれに実行します。 通常、画像を満たすためにはプロンプトの反復的な洗練(「プロンプトエンジニアリング」)が必要である。 新たな視点として,画像プロンプトエンジニアリングをインタラクティブな画像検索として "infinite index" 上で再キャストする。 これにより、プロンプトはクエリに対応し、エンジニアリングにクエリリファインメントを発行する。 選択されたイメージプロンプトペアは、モデルが洗練されたプロンプトのために画像を修正できるため、直接的な関連性フィードバックを可能にする。 これは、サーバ側がステートレスであるのに対して、イニシアチブがユーザ側にある、一方的なインタラクティブ検索の形式です。 広範な文献レビューを踏まえて,これらの並列性を詳細に開発し,そのようなモデルを用いた創造的な探索作業の事例研究に適用する。 無限指数を探索する不確実性は、事実上終わらないことに留意する。 また,生成モデルと対話型生成画像検索に特化した検索モデルに関する今後の研究機会について述べる。 クエリ再構成や関連フィードバックなどのIR技術の応用は、生成モデルを使用する際のワークフローの改善に寄与するが、無限インデックスの概念はIR研究において新たな課題を提起する。

The text-to-image model Stable Diffusion has recently become very popular. Only weeks after its open source release, millions are experimenting with image generation. This is due to its ease of use, since all it takes is a brief description of the desired image to "prompt" the generative model. Rarely do the images generated for a new prompt immediately meet the user's expectations. Usually, an iterative refinement of the prompt ("prompt engineering") is necessary for satisfying images. As a new perspective, we recast image prompt engineering as interactive image retrieval - on an "infinite index". Thereby, a prompt corresponds to a query and prompt engineering to query refinement. Selected image-prompt pairs allow direct relevance feedback, as the model can modify an image for the refined prompt. This is a form of one-sided interactive retrieval, where the initiative is on the user side, whereas the server side remains stateless. In light of an extensive literature review, we develop these parallels in detail and apply the findings to a case study of a creative search task on such a model. We note that the uncertainty in searching an infinite index is virtually never-ending. We also discuss future research opportunities related to retrieval models specialized for generative models and interactive generative image retrieval. The application of IR technology, such as query reformulation and relevance feedback, will contribute to improved workflows when using generative models, while the notion of an infinite index raises new challenges in IR research.
翻訳日:2022-12-16 16:16:48 公開日:2022-12-14
# 視覚・音声・言語のための文脈化目標表現を用いた効率的な自己教師付き学習

Efficient Self-supervised Learning with Contextualized Target Representations for Vision, Speech and Language ( http://arxiv.org/abs/2212.07525v1 )

ライセンス: Link先を確認
Alexei Baevski, Arun Babu, Wei-Ning Hsu, Michael Auli(参考訳) 現在の自己教師付き学習アルゴリズムは、しばしば様相特異的であり、大量の計算リソースを必要とする。 これらの課題に対処するため,複数のモダリティにまたがる学習目標であるData2vecのトレーニング効率を向上する。 マスクされたトークンをエンコードせず、高速畳み込みデコーダを使用し、教師の表現を構築する努力を償却します。 data2vec 2.0は、data2vecで導入された豊富なコンテキスト化されたターゲット表現の恩恵を受ける。 ImageNet-1K画像分類の実験では、Data2vec 2.0は16.4倍の事前学習時間でMasked Autoencodersの精度、Librispeech音声認識では10.6倍の時間でwav2vec 2.0、GLUE自然言語では再訓練されたRoBERTaモデルと半分の時間で一致している。 ImageNet-1K トップ-1 の精度は 86.8 % となり、ViT-L モデルは150エポックで訓練された。

Current self-supervised learning algorithms are often modality-specific and require large amounts of computational resources. To address these issues, we increase the training efficiency of data2vec, a learning objective that generalizes across several modalities. We do not encode masked tokens, use a fast convolutional decoder and amortize the effort to build teacher representations. data2vec 2.0 benefits from the rich contextualized target representations introduced in data2vec which enable a fast self-supervised learner. Experiments on ImageNet-1K image classification show that data2vec 2.0 matches the accuracy of Masked Autoencoders in 16.4x lower pre-training time, on Librispeech speech recognition it performs as well as wav2vec 2.0 in 10.6x less time, and on GLUE natural language understanding it matches a retrained RoBERTa model in half the time. Trading some speed for accuracy results in ImageNet-1K top-1 accuracy of 86.8\% with a ViT-L model trained for 150 epochs.
翻訳日:2022-12-16 16:15:43 公開日:2022-12-14
# 安定の最先端」による閾値ニューロンの学習

Learning threshold neurons via the "edge of stability" ( http://arxiv.org/abs/2212.07469v1 )

ライセンス: Link先を確認
Kwangjun Ahn, S\'ebastien Bubeck, Sinho Chewi, Yin Tat Lee, Felipe Suarez, Yi Zhang(参考訳) ニューラルネットワークトレーニングの既存の分析は、非常に小さな学習率の非現実的な仮定の下で実行されることが多い。 これは、J. Cohen et al. (ICLR 2021) のような実践的な知恵や経験的研究とは対照的であり、これは驚くべき新しい現象(「安定性の端」あるいは「不安定な収束」)と大きな学習率体制における一般化の潜在的利益を示すものである。 しかし、この話題に関する最近の研究が盛り上がっているにもかかわらず、後者の影響はいまだに理解されていない。 本稿では,2層ニューラルネットワークの簡易モデルに対して,勾配勾配勾配の詳細な解析を行うことにより,真の非凸学習力学を学習率で理解する。 これらのモデルでは、安定性現象の端を確実に確立し、ニューラルネットワークが"閾値のような"ニューロン(すなわち、ゼロでない第一層バイアスのニューロン)を学習できないステップサイズの鋭い位相遷移を発見する。 これは、閾値ニューロンが多くのタスクで有用な帰納的バイアスを持つ基本的な構成要素であるため、安定性のエッジが実際より良い一般化につながる可能性がある1つのメカニズムを解明する。

Existing analyses of neural network training often operate under the unrealistic assumption of an extremely small learning rate. This lies in stark contrast to practical wisdom and empirical studies, such as the work of J. Cohen et al. (ICLR 2021), which exhibit startling new phenomena (the "edge of stability" or "unstable convergence") and potential benefits for generalization in the large learning rate regime. Despite a flurry of recent works on this topic, however, the latter effect is still poorly understood. In this paper, we take a step towards understanding genuinely non-convex training dynamics with large learning rates by performing a detailed analysis of gradient descent for simplified models of two-layer neural networks. For these models, we provably establish the edge of stability phenomenon and discover a sharp phase transition for the step size below which the neural network fails to learn "threshold-like" neurons (i.e., neurons with a non-zero first-layer bias). This elucidates one possible mechanism by which the edge of stability can in fact lead to better generalization, as threshold neurons are basic building blocks with useful inductive bias for many tasks.
翻訳日:2022-12-16 16:14:23 公開日:2022-12-14
# 文脈的埋め込みバイアスの教師なし検出とイデオロギーへの応用

Unsupervised Detection of Contextualized Embedding Bias with Application to Ideology ( http://arxiv.org/abs/2212.07547v1 )

ライセンス: Link先を確認
Valentin Hofmann, Janet B. Pierrehumbert, Hinrich Sch\"utze(参考訳) 本論文では,コンテキスト化埋め込みにおけるバイアスを検出する完全教師なし手法を提案する。 この方法は、ソーシャルネットワークによって潜在的にエンコードされる分類情報を利用し、直交正規化、構造化スパーシティ学習、グラフニューラルネットワークを組み合わせて、情報を取り込む埋め込み部分空間を見つける。 具体的な例として、イデオロギー的偏見の現象に着目し、イデオロギー的部分空間の概念を導入し、オンラインディスカッションフォーラムに我々の手法を適用してどのように発見できるかを示し、それを探索する手法を提案する。 我々の実験は、イデオロギー的部分空間が抽象的評価的意味論をエンコードし、ドナルド・トランプ政権下の政治的左派スペクトルの変化を反映していることを示唆している。

We propose a fully unsupervised method to detect bias in contextualized embeddings. The method leverages the assortative information latently encoded by social networks and combines orthogonality regularization, structured sparsity learning, and graph neural networks to find the embedding subspace capturing this information. As a concrete example, we focus on the phenomenon of ideological bias: we introduce the concept of an ideological subspace, show how it can be found by applying our method to online discussion forums, and present techniques to probe it. Our experiments suggest that the ideological subspace encodes abstract evaluative semantics and reflects changes in the political left-right spectrum during the presidency of Donald Trump.
翻訳日:2022-12-16 16:08:29 公開日:2022-12-14
# インタラクティブなコンセプトボトルネックモデル

Interactive Concept Bottleneck Models ( http://arxiv.org/abs/2212.07430v1 )

ライセンス: Link先を確認
Kushal Chauhan, Rishabh Tiwari, Jan Freyberg, Pradeep Shenoy, Krishnamurthy Dvijotham(参考訳) 概念ボトルネックモデル (CBM) (Koh et al. 2020) は、まず、予測タスクに関連する人間の解釈可能な概念のラベルを予測し、次に概念ラベル予測に基づいて最終ラベルを予測する解釈可能なニューラルネットワークである。 我々は,最終的な予測を最大化するために,ラベルを要求すべき概念を選択するインタラクションポリシーを開発する。 最終予測における概念予測の不確実性と概念の影響を組み合わせる単純な方針は,koh et al. (2020) で提案されている静的アプローチや,文献に提案されている能動的特徴獲得手法を上回っている。 対話型CBMは,Caltech-UCSDBirds,CheXpert,OAIデータセット上の競合ベースライン上での5つのインタラクションで,5~10%の精度向上を実現可能であることを示す。

Concept bottleneck models (CBMs) (Koh et al. 2020) are interpretable neural networks that first predict labels for human-interpretable concepts relevant to the prediction task, and then predict the final label based on the concept label predictions.We extend CBMs to interactive prediction settings where the model can query a human collaborator for the label to some concepts. We develop an interaction policy that, at prediction time, chooses which concepts to request a label for so as to maximally improve the final prediction. We demonstrate thata simple policy combining concept prediction uncertainty and influence of the concept on the final prediction achieves strong performance and outperforms a static approach proposed in Koh et al. (2020) as well as active feature acquisition methods proposed in the literature. We show that the interactiveCBM can achieve accuracy gains of 5-10% with only 5 interactions over competitive baselines on the Caltech-UCSDBirds, CheXpert and OAI datasets.
翻訳日:2022-12-16 16:08:15 公開日:2022-12-14
# サポートベクターマシンモデルに対する反事実説明

Counterfactual Explanations for Support Vector Machine Models ( http://arxiv.org/abs/2212.07432v1 )

ライセンス: Link先を確認
Sebastian Salazar, Samuel Denton, Ansaf Salleb-Aouissi(参考訳) 我々は、非現実的な説明を計算し、望ましくないモデル予測を覆す機能の変更を最小限にする問題に取り組む。 本稿では,線形サポートベクトルマシン(svms)モデルに対するこの問題に対する解法を提案する。 さらに、重み付けされたアクションを考慮に入れる方法を導入し、他の機能よりも多くの変更を可能にする。 特に, モデル解釈可能性を高めるために, 反事実的説明を見出す方法を示す。 これらの説明は有効であり、実行可能な機能だけを変更し、データ分散に近く、スパースであり、機能間の相関を考慮に入れている。 我々はこれを混合整数プログラミング最適化問題とみなした。 さらに, 対物的説明の質を評価するための2つの新しいスケール不変コスト関数を導入し, 実際の医療データセットを用いてアプローチの質を評価する。 最後に,保護機能を用いて法定試験に合格するかどうかを予測する支援ベクトルマシンモデルを構築し,そのアルゴリズムを用いて,SVMの固有のバイアスを明らかにする。

We tackle the problem of computing counterfactual explanations -- minimal changes to the features that flip an undesirable model prediction. We propose a solution to this question for linear Support Vector Machine (SVMs) models. Moreover, we introduce a way to account for weighted actions that allow for more changes in certain features than others. In particular, we show how to find counterfactual explanations with the purpose of increasing model interpretability. These explanations are valid, change only actionable features, are close to the data distribution, sparse, and take into account correlations between features. We cast this as a mixed integer programming optimization problem. Additionally, we introduce two novel scale-invariant cost functions for assessing the quality of counterfactual explanations and use them to evaluate the quality of our approach with a real medical dataset. Finally, we build a support vector machine model to predict whether law students will pass the Bar exam using protected features, and used our algorithms to uncover the inherent biases of the SVM.
翻訳日:2022-12-16 16:07:57 公開日:2022-12-14
# 状態抽象化による高次元状態空間へのマージナイズド・インシデンスサンプリングのスケーリング

Scaling Marginalized Importance Sampling to High-Dimensional State-Spaces via State Abstraction ( http://arxiv.org/abs/2212.07486v1 )

ライセンス: Link先を確認
Brahma S. Pavse and Josiah P. Hanna(参考訳) 強化学習(RL)におけるオフ政治評価(OPE)の問題について考察し、その目標は、固定データセットを用いて評価ポリシーの性能を推定することであり、$\pi_e$と異なる1つ以上のポリシーによって収集される$\mathcal{D}$である。 現在のOPEアルゴリズムは、政策分散シフトの下で、例えば、$\pi_e$で発生する特定の状態-作用対の確率が$\mathcal{D}$(Voloshin et al. 2021, Fu et al. 2021)で発生する同じペアの確率とは大きく異なる場合、貧弱なOPE推定を生成する。 本研究では,高次元状態空間を状態抽象文献の概念を用いて低次元状態空間に投影することにより,ope推定器の精度を向上させることを提案する。 具体的には、状態-作用分布補正比を計算し、そのOPE推定値を生成するMISOPEアルゴリズムについて検討する。 元の基底状態空間では、これらの比は高い分散を持ち、高い分散OPEをもたらす可能性がある。 しかし, 低次元抽象状態空間では, 比が低分散 OPE となることが証明された。 次に,データから抽象比率を推定するときに生じる課題を強調し,これらの問題を克服するのに十分な条件を特定し,これらの抽象比率を解くミニマックス最適化問題を提案する。 最後に,困難で高次元な状態空間OPEタスクに対する実験的な評価から,MIS OPE推定器が地上比よりも平均二乗誤差が低く,高パラメータチューニングに頑健であることを示す。

We consider the problem of off-policy evaluation (OPE) in reinforcement learning (RL), where the goal is to estimate the performance of an evaluation policy, $\pi_e$, using a fixed dataset, $\mathcal{D}$, collected by one or more policies that may be different from $\pi_e$. Current OPE algorithms may produce poor OPE estimates under policy distribution shift i.e., when the probability of a particular state-action pair occurring under $\pi_e$ is very different from the probability of that same pair occurring in $\mathcal{D}$ (Voloshin et al. 2021, Fu et al. 2021). In this work, we propose to improve the accuracy of OPE estimators by projecting the high-dimensional state-space into a low-dimensional state-space using concepts from the state abstraction literature. Specifically, we consider marginalized importance sampling (MIS) OPE algorithms which compute state-action distribution correction ratios to produce their OPE estimate. In the original ground state-space, these ratios may have high variance which may lead to high variance OPE. However, we prove that in the lower-dimensional abstract state-space the ratios can have lower variance resulting in lower variance OPE. We then highlight the challenges that arise when estimating the abstract ratios from data, identify sufficient conditions to overcome these issues, and present a minimax optimization problem whose solution yields these abstract ratios. Finally, our empirical evaluation on difficult, high-dimensional state-space OPE tasks shows that the abstract ratios can make MIS OPE estimators achieve lower mean-squared error and more robust to hyperparameter tuning than the ground ratios.
翻訳日:2022-12-16 16:07:41 公開日:2022-12-14
# PulseImpute:Pulsative Physiological Signal Imputationのための新しいベンチマークタスク

PulseImpute: A Novel Benchmark Task for Pulsative Physiological Signal Imputation ( http://arxiv.org/abs/2212.07514v1 )

ライセンス: Link先を確認
Maxwell A. Xu, Alexander Moreno, Supriya Nagesh, V. Burak Aydemir, David W. Wetter, Santosh Kumar, James M. Rehg(参考訳) モバイルヘルス(mhealth)の約束は、ウェアラブルセンサーを使用して、日常生活中に高頻度で参加者の生理状態をモニターし、一時的な健康介入を可能にすることだ。 しかし、大きな課題は頻繁に欠落するデータである。 豊富なインプテーション文献にもかかわらず、既存の技術は多くのmhealthアプリケーションからなる脈動信号に効果がなく、利用可能なデータセットの欠如は進歩を阻害している。 このギャップに対処するPulseImputeは、現実的なmHealth欠失モデル、幅広いベースラインセット、臨床関連下流タスクを含む、最初の大規模パルス信号計算チャレンジである。 我々のベースラインモデルには、脈動信号の構造を利用するために設計された新しいトランスベースアーキテクチャが含まれています。 PulseImputeによって、MLコミュニティがこの重要かつ困難なタスクに取り組むことができることを期待しています。

The promise of Mobile Health (mHealth) is the ability to use wearable sensors to monitor participant physiology at high frequencies during daily life to enable temporally-precise health interventions. However, a major challenge is frequent missing data. Despite a rich imputation literature, existing techniques are ineffective for the pulsative signals which comprise many mHealth applications, and a lack of available datasets has stymied progress. We address this gap with PulseImpute, the first large-scale pulsative signal imputation challenge which includes realistic mHealth missingness models, an extensive set of baselines, and clinically-relevant downstream tasks. Our baseline models include a novel transformer-based architecture designed to exploit the structure of pulsative signals. We hope that PulseImpute will enable the ML community to tackle this significant and challenging task.
翻訳日:2022-12-16 16:07:07 公開日:2022-12-14
# 深層強化学習におけるロバストポリシー最適化

Robust Policy Optimization in Deep Reinforcement Learning ( http://arxiv.org/abs/2212.07536v1 )

ライセンス: Link先を確認
Md Masudur Rahman and Yexiang Xue(参考訳) 政策勾配法は、エージェントが直接累積報酬を最適化する目的の単純さを享受する。 さらに、連続行動領域では、パラメータ化された行動分布の分布は、表現分布のばらつきによる探索の容易な制御を可能にする。 エントロピーは確率的政策を選択することで、政策最適化において重要な役割を担い、最終的には強化学習(RL)の環境をよりよく探索するのに役立つ。 しかし、訓練が進むにつれて確率性はしばしば低下し、政策は探索的になる。 さらに、あるパラメトリック分布はいくつかの環境でのみ機能し、広範なハイパーパラメータチューニングを必要とする。 本稿ではこれらの問題を緩和することを目的とする。 特に,摂動分布を利用したロバストポリシ最適化(rpo)と呼ばれるアルゴリズムを提案する。 我々は,提案手法が高エントロピーな行動を促進することを仮定し,アクション空間をより良く表現する方法を提供する。 仮説を検証するための実証的な証拠も提供します。 我々は,DeepMind Control,OpenAI Gym,Pybullet,IsaacGymの各種連続制御タスクについて評価を行った。 その結果, RPO は訓練開始直後の政策エントロピーを増大させ, 訓練期間を通じて一定の水準のエントロピーを維持していることがわかった。 最終的に、我々のエージェントRPOは、エントロピー正則化、異なる分布、データ拡張など、PPOや他の技術と比較して、一貫してパフォーマンスを改善した。 さらに,いくつかの設定において,本手法は性能に頑健であり,他のベースライン機構は改善せず,さらに性能を悪化させる。

The policy gradient method enjoys the simplicity of the objective where the agent optimizes the cumulative reward directly. Moreover, in the continuous action domain, parameterized distribution of action distribution allows easy control of exploration, resulting from the variance of the representing distribution. Entropy can play an essential role in policy optimization by selecting the stochastic policy, which eventually helps better explore the environment in reinforcement learning (RL). However, the stochasticity often reduces as the training progresses; thus, the policy becomes less exploratory. Additionally, certain parametric distributions might only work for some environments and require extensive hyperparameter tuning. This paper aims to mitigate these issues. In particular, we propose an algorithm called Robust Policy Optimization (RPO), which leverages a perturbed distribution. We hypothesize that our method encourages high-entropy actions and provides a way to represent the action space better. We further provide empirical evidence to verify our hypothesis. We evaluated our methods on various continuous control tasks from DeepMind Control, OpenAI Gym, Pybullet, and IsaacGym. We observed that in many settings, RPO increases the policy entropy early in training and then maintains a certain level of entropy throughout the training period. Eventually, our agent RPO shows consistently improved performance compared to PPO and other techniques: entropy regularization, different distributions, and data augmentation. Furthermore, in several settings, our method stays robust in performance, while other baseline mechanisms fail to improve and even worsen the performance.
翻訳日:2022-12-16 16:06:51 公開日:2022-12-14
# 高次元における最大内積探索の高速化

Faster Maximum Inner Product Search in High Dimensions ( http://arxiv.org/abs/2212.07551v1 )

ライセンス: Link先を確認
Mo Tiwari, Ryan Kang, Je-Yong Lee, Luke Lee, Chris Piech, Sebastian Thrun, Ilan Shomorony, Martin Jinye Zhang(参考訳) 最大内積探索(maximum inner product search, mips)は、レコメンダシステムなど、幅広いアプリケーションに適用可能なため、機械学習文献において一般的な問題である。 しかし、高次元設定では、既存のほとんどのソリューションがデータ次元に合わないため、MIPSクエリは計算コストが高くなる可能性がある。 本研究では,BanditMIPSと呼ばれる高次元のMIPS問題に対する最先端のアルゴリズムを提案する。 BanditMIPSは、マルチアームバンディットからテクニックを借りてMIPS問題をベストアーム識別問題に還元するランダム化アルゴリズムである。 BanditMIPSは、最先端アルゴリズムの複雑さを$O(\sqrt{d})$から$O(\text{log}d)$に還元する。 実世界の高次元データセットでは、BanditMIPSは既存のアプローチの約12倍高速に動作し、同じソリューションを返す。 BanditMIPSはデータの事前処理を必要とせず、実践者が正確性と実行をトレードオフするために使用するハイパーパラメータを含んでいる。 また、データ次元をまたいだ一様サンプリングを用いてさらなる高速化を実現するBanditMIPS-$\alpha$というアルゴリズムの変種を提案する。

Maximum Inner Product Search (MIPS) is a popular problem in the machine learning literature due to its applicability in a wide array of applications, such as recommender systems. In high-dimensional settings, however, MIPS queries can become computationally expensive as most existing solutions do not scale well with data dimensionality. In this work, we present a state-of-the-art algorithm for the MIPS problem in high dimensions, dubbed BanditMIPS. BanditMIPS is a randomized algorithm that borrows techniques from multi-armed bandits to reduce the MIPS problem to a best-arm identification problem. BanditMIPS reduces the complexity of state-of-the-art algorithms from $O(\sqrt{d})$ to $O(\text{log}d)$, where $d$ is the dimension of the problem data vectors. On high-dimensional real-world datasets, BanditMIPS runs approximately 12 times faster than existing approaches and returns the same solution. BanditMIPS requires no preprocessing of the data and includes a hyperparameter that practitioners may use to trade off accuracy and runtime. We also propose a variant of our algorithm, named BanditMIPS-$\alpha$, which employs non-uniform sampling across the data dimensions to provide further speedups.
翻訳日:2022-12-16 16:06:27 公開日:2022-12-14
# Invariant Lipschitz Bandits: A Side Observation Approach

Invariant Lipschitz Bandits: A Side Observation Approach ( http://arxiv.org/abs/2212.07524v1 )

ライセンス: Link先を確認
Nam Phuong Tran, The-Anh Ta, Long Tran-Thanh(参考訳) 対称性は多くの最適化と意思決定の問題に現れ、最適化コミュニティからかなりの注目を集めている。 最適化の成功にもかかわらず、特にバンディット文学において、オンライン最適化設定において対称性の利用は十分に検討されていない。 そこで本論文では、リプシッツ・バンディット・セッティング(Lipschitz bandit setting)という、リプシッツ・バンディットのサブクラスにおいて、報酬関数とアームの集合が変換群の下で保存されるような不変なリプシッツ・バンディット・セッティング(Lipschitz bandit setting)について検討する。 これは、群軌道を用いたサイドオブザーバーを、アームの集合を一様に判別する \texttt{uniformmesh-n} アルゴリズム (\cite{kleinberg2005_uniformmesh}) に統合するものである。 サイドオブザーブレーションアプローチを用いて、群が有限であることを前提に、群の濃度に依存する後悔の上界が改善されたことを証明する。 また、不変リプシッツ・バンディット類(対数因子まで)に対する後悔の下限が一致することも証明する。 我々は、バンディット理論とシーケンシャルな意思決定理論における対称性のさらなる研究に火をつけることを願っている。

Symmetry arises in many optimization and decision-making problems, and has attracted considerable attention from the optimization community: By utilizing the existence of such symmetries, the process of searching for optimal solutions can be improved significantly. Despite its success in (offline) optimization, the utilization of symmetries has not been well examined within the online optimization settings, especially in the bandit literature. As such, in this paper we study the invariant Lipschitz bandit setting, a subclass of the Lipschitz bandits where the reward function and the set of arms are preserved under a group of transformations. We introduce an algorithm named \texttt{UniformMesh-N}, which naturally integrates side observations using group orbits into the \texttt{UniformMesh} algorithm (\cite{Kleinberg2005_UniformMesh}), which uniformly discretizes the set of arms. Using the side-observation approach, we prove an improved regret upper bound, which depends on the cardinality of the group, given that the group is finite. We also prove a matching regret's lower bound for the invariant Lipschitz bandit class (up to logarithmic factors). We hope that our work will ignite further investigation of symmetry in bandit theory and sequential decision-making theory in general.
翻訳日:2022-12-16 16:05:35 公開日:2022-12-14
# 自然言語推論のための言語型多目的事前学習に向けて

Towards Linguistically Informed Multi-Objective Pre-Training for Natural Language Inference ( http://arxiv.org/abs/2212.07428v1 )

ライセンス: Link先を確認
Maren Pielka, Svetlana Schmidt, Lisa Pucknat, Rafet Sifa(参考訳) トランスフォーマの事前学習法を言語的に強化した組み合わせを提案する。 事前学習の目的は、pos-tagging、セマンティック知識グラフに基づくsynset予測、依存構文解析木に基づく親予測である。 提案手法は, 自然言語推論タスクにおいて, 技術状況と比較して, 競合的な結果が得られる。 より小さなモデルでは、インテリジェントな事前学習がより少ないパラメータを補うことができ、より効率的なモデルを構築するのに役立つという事実を強調した。 POSタグとシンセット予測を組み合わせることで、全体的な最高の結果が得られる。

We introduce a linguistically enhanced combination of pre-training methods for transformers. The pre-training objectives include POS-tagging, synset prediction based on semantic knowledge graphs, and parent prediction based on dependency parse trees. Our approach achieves competitive results on the Natural Language Inference task, compared to the state of the art. Specifically for smaller models, the method results in a significant performance boost, emphasizing the fact that intelligent pre-training can make up for fewer parameters and help building more efficient models. Combining POS-tagging and synset prediction yields the overall best results.
翻訳日:2022-12-16 15:58:02 公開日:2022-12-14
# フローレニア:連続細胞オートマトンにおける仮想生物の研究のための大量保存

Flow Lenia: Mass conservation for the study of virtual creatures in continuous cellular automata ( http://arxiv.org/abs/2212.07906v1 )

ライセンス: Link先を確認
Erwan Plantec, Gautier Hamon, Mayalen Etcheverry, Pierre-Yves Oudeyer, Cl\'ement Moulin-Frier and Bert Wang-Chak Chan(参考訳) レニア (Lenia) は、コンウェイの人生ゲーム(英語版)を連続空間、時間、状態に一般化する細胞オートマトン (CA) のファミリーである。 Leniaは、自己組織パターンが多種多様であることから、多くの注目を集めている。 これらのうち、空間的局所化パターン(SLP)は生命に似た人工生物に似ている。 しかし、これらの生物は、レニアパラメータ空間の小さな部分空間にのみ存在し、発見し、先進的な探索アルゴリズムを必要とする。 大量保存制約を加えることで,SLPの出現が促進されるという仮説を立てた。 本稿では,大量保存が可能なフローレニアモデル(Flow Lenia)の拡張を提案する。 複雑な振る舞いを持つSLPの生成における効果を示すいくつかの観察結果を示す。 さらに,フローレニアによってcaの更新ルールのパラメータがcaのダイナミクスにどのように統合され,動的かつローカライズされるかを示す。 これにより、出現する生物の性質を定義する局所的なコヒーレントな更新ルールと、近隣のルールと混合できるマルチ種シミュレーションが可能になる。 これは連続casにおける自己組織型人工生命の形態の本質的進化への道を開くと論じている。

Lenia is a family of cellular automata (CA) generalizing Conway's Game of Life to continuous space, time and states. Lenia has attracted a lot of attention because of the wide diversity of self-organizing patterns it can generate. Among those, some spatially localized patterns (SLPs) resemble life-like artificial creatures. However, those creatures are found in only a small subspace of the Lenia parameter space and are not trivial to discover, necessitating advanced search algorithms. We hypothesize that adding a mass conservation constraint could facilitate the emergence of SLPs. We propose here an extension of the Lenia model, called Flow Lenia, which enables mass conservation. We show a few observations demonstrating its effectiveness in generating SLPs with complex behaviors. Furthermore, we show how Flow Lenia enables the integration of the parameters of the CA update rules within the CA dynamics, making them dynamic and localized. This allows for multi-species simulations, with locally coherent update rules that define properties of the emerging creatures, and that can be mixed with neighbouring rules. We argue that this paves the way for the intrinsic evolution of self-organized artificial life forms within continuous CAs.
翻訳日:2022-12-16 15:48:21 公開日:2022-12-14
# ボリュームヘリカルCT再建のためのプロジェクションドメインセルフスーパービジョン

Projection-Domain Self-Supervision for Volumetric Helical CT Reconstruction ( http://arxiv.org/abs/2212.07431v1 )

ライセンス: Link先を確認
Onni Kosomaa, Samuli Laine, Tero Karras, Miika Aittala, Jaakko Lehtinen(参考訳) 低用量ヘリカルコーンビームctによる3次元再構成のための深層学習法を提案する。 体積を2dスライスではなく直接再構築し、すべての軸に沿った一貫性を保証する。 先行研究を超越した重要なステップとして,3次元参照データや参照再構成手法の出力に頼らずに,ノイズ2次元投影データを用いて投影領域内で自己教師ありでモデルを訓練する。 つまり、データの品質と可用性によって、結果の忠実性が制限されるわけではありません。 本手法は実ヘリカルコーンビーム投影法とファントムシミュレーションを用いて評価する。 再建は従来の方法よりもシャープでノイズが少なく,PSNR定量測定ではいくつかのデシベルが優れている。 実測データに適用した場合,本手法は反復法よりも高速に高品質な結果が得られる。

We propose a deep learning method for three-dimensional reconstruction in low-dose helical cone-beam computed tomography. We reconstruct the volume directly, i.e., not from 2D slices, guaranteeing consistency along all axes. In a crucial step beyond prior work, we train our model in a self-supervised manner in the projection domain using noisy 2D projection data, without relying on 3D reference data or the output of a reference reconstruction method. This means the fidelity of our results is not limited by the quality and availability of such data. We evaluate our method on real helical cone-beam projections and simulated phantoms. Our reconstructions are sharper and less noisy than those of previous methods, and several decibels better in quantitative PSNR measurements. When applied to full-dose data, our method produces high-quality results orders of magnitude faster than iterative techniques.
翻訳日:2022-12-16 15:41:05 公開日:2022-12-14
# 集団テンプレートに基づく脳グラフ拡張によるワンショット学習分類の改善

Population Template-Based Brain Graph Augmentation for Improving One-Shot Learning Classification ( http://arxiv.org/abs/2212.07790v1 )

ライセンス: Link先を確認
Oben \"Ozg\"ur, Arwa Rekik, Islem Rekik(参考訳) 神経疾患の診断に関する医学的データ収集の課題は、サンプル数の少ない学習方法への道を開いた。 このような理由から、単発学習は、分類問題において人間のような学習アプローチをシミュレートすることを提案するため、ディープラーニングの最も困難でトレンドになっている概念の1つのままである。 これまでの研究は、コネクトロミックな脳グラフデータを用いたグラフニューラルネットワーク(GNN)を用いて、より正確な人口の指紋を生成することに重点を置いてきた。 これにより、コネクショナル脳テンプレート(CBT)と呼ばれる集団指紋が、分類タスクで個体群の識別的バイオマーカーの検出を可能にした。 しかし、脳のコネクティビティを表す単一のグラフデータからのデータ拡張の逆問題に取り組んだことは一度もない。 本稿では,二分分類問題に関する指標を改良するために,拡張パイプラインを提案する。 先行研究では,分類問題に対してggan(graph-based generative adversarial network)アーキテクチャを用いて,単一集団テンプレートからの拡張を検討する。 提案手法を,アルツハイマー病 (AD) と遅発性認知障害 (LMCI) との脳コネクトームからなるAD/LMCIデータセット上でベンチマークした。 モデルの一般化性を評価するために,クロスバリデーション戦略を用いてランダムに折りたたみを複数回サンプリングした。 分類の結果は,あるサンプルから生成された拡張データの導入時に精度が向上するだけでなく,他の指標にもよりバランスの取れた結果をもたらす。

The challenges of collecting medical data on neurological disorder diagnosis problems paved the way for learning methods with scarce number of samples. Due to this reason, one-shot learning still remains one of the most challenging and trending concepts of deep learning as it proposes to simulate the human-like learning approach in classification problems. Previous studies have focused on generating more accurate fingerprints of the population using graph neural networks (GNNs) with connectomic brain graph data. Thereby, generated population fingerprints named connectional brain template (CBTs) enabled detecting discriminative bio-markers of the population on classification tasks. However, the reverse problem of data augmentation from single graph data representing brain connectivity has never been tackled before. In this paper, we propose an augmentation pipeline in order to provide improved metrics on our binary classification problem. Divergently from the previous studies, we examine augmentation from a single population template by utilizing graph-based generative adversarial network (gGAN) architecture for a classification problem. We benchmarked our proposed solution on AD/LMCI dataset consisting of brain connectomes with Alzheimer's Disease (AD) and Late Mild Cognitive Impairment (LMCI). In order to evaluate our model's generalizability, we used cross-validation strategy and randomly sampled the folds multiple times. Our results on classification not only provided better accuracy when augmented data generated from one sample is introduced, but yields more balanced results on other metrics as well.
翻訳日:2022-12-16 15:40:20 公開日:2022-12-14
# 多言語翻訳における干渉の原因と治療

Causes and Cures for Interference in Multilingual Translation ( http://arxiv.org/abs/2212.07530v1 )

ライセンス: Link先を確認
Uri Shaham and Maha Elbayad and Vedanuj Goswami and Omer Levy and Shruti Bhosale(参考訳) 多言語機械翻訳モデルは、異なる言語ペア間のシナジーの恩恵を受けるが、干渉も受ける。 干渉を排除しようとする高度な手法が増えているが、干渉を現象として理解することは依然として限られている。 この研究は多言語機械翻訳における干渉に寄与する主な要因を特定する。 系統的な実験により、干渉(またはシナジー)はモデルのサイズ、データサイズ、および全データセット内の各言語ペアの割合によって決定されることがわかった。 モデルが利用可能なトレーニングデータに対して非常に小さい場合,10億未満のパラメータを持つ標準トランスフォーマー構成を用いることで,干渉が軽減され,シナジーが促進されることが観察された。 また,データ内の各言語対の比率を制御するためにサンプリング温度をチューニングすることが,低資源言語対と高資源言語対の干渉量を効果的にバランスさせる上で重要であることを示す。

Multilingual machine translation models can benefit from synergy between different language pairs, but also suffer from interference. While there is a growing number of sophisticated methods that aim to eliminate interference, our understanding of interference as a phenomenon is still limited. This work identifies the main factors that contribute to interference in multilingual machine translation. Through systematic experimentation, we find that interference (or synergy) are primarily determined by model size, data size, and the proportion of each language pair within the total dataset. We observe that substantial interference occurs mainly when the model is very small with respect to the available training data, and that using standard transformer configurations with less than one billion parameters largely alleviates interference and promotes synergy. Moreover, we show that tuning the sampling temperature to control the proportion of each language pair in the data is key to balancing the amount of interference between low and high resource language pairs effectively, and can lead to superior performance overall.
翻訳日:2022-12-16 15:39:33 公開日:2022-12-14
# ReDDIT:テキストからのレグレット検出とドメイン識別

ReDDIT: Regret Detection and Domain Identification from Text ( http://arxiv.org/abs/2212.07549v1 )

ライセンス: Link先を確認
Fazlourrahman Balouchzahi, Sabur Butt, Grigori Sidorov, Alexander Gelbukh(参考訳) 本稿では,ソーシャルメディアプラットフォーム上での後悔とその表現について述べる。 具体的には、Redditテキストの新しいデータセットを、Regret by Action、Regret by Inaction、No Regretの3つのクラスに分類する。 次に、このデータセットを使用して、Redditで後悔を表すために使われる言語を調査し、後悔に最も結びついているテキストのドメインを特定する。 以上の結果から,Reddit利用者は過去の行動,特に関係領域における後悔を表明しがちであることがわかった。 また,GloVe埋め込みを用いたディープラーニングモデルは,すべての実験において他のモデルよりも優れており,後悔領域における単語の意味と文脈を表現する上でのGloVeの有効性が示唆された。 本研究は,ソーシャルメディアにおける後悔の性質と傾向に関する貴重な知見と,オンラインテキストにおける感情言語の分析・理解のための深層学習および単語埋め込みの可能性について述べる。 これらの知見は、自然言語処理アルゴリズムの開発や、感情表現とコミュニケーションを支援するソーシャルメディアプラットフォームの設計に影響を及ぼす。

In this paper, we present a study of regret and its expression on social media platforms. Specifically, we present a novel dataset of Reddit texts that have been classified into three classes: Regret by Action, Regret by Inaction, and No Regret. We then use this dataset to investigate the language used to express regret on Reddit and to identify the domains of text that are most commonly associated with regret. Our findings show that Reddit users are most likely to express regret for past actions, particularly in the domain of relationships. We also found that deep learning models using GloVe embedding outperformed other models in all experiments, indicating the effectiveness of GloVe for representing the meaning and context of words in the domain of regret. Overall, our study provides valuable insights into the nature and prevalence of regret on social media, as well as the potential of deep learning and word embeddings for analyzing and understanding emotional language in online text. These findings have implications for the development of natural language processing algorithms and the design of social media platforms that support emotional expression and communication.
翻訳日:2022-12-16 15:39:17 公開日:2022-12-14
# 鍛造エージェントによる強化学習の一般化

Improving generalization in reinforcement learning through forked agents ( http://arxiv.org/abs/2212.06451v2 )

ライセンス: Link先を確認
Olivier Moulin, Vincent Francois-Lavet and Mark Hoogendoorn(参考訳) エージェントのエコシステムは、あるが限定的な一般化可能性を持つ独自のポリシーを持ち、手続き的に生成された環境全体の一般化を促進するための信頼できるアプローチであることが証明されている。 このようなアプローチでは、エコシステムの範囲外の新しい環境に遭遇する際に、定期的に新しいエージェントがエコシステムに追加される。 適応の速度とエコシステムアプローチの一般的な効果は、新しいエージェントの初期化に大きく依存する。 本稿では,このような初期化のための異なる手法を提案し,その影響について検討する。

An eco-system of agents each having their own policy with some, but limited, generalizability has proven to be a reliable approach to increase generalization across procedurally generated environments. In such an approach, new agents are regularly added to the eco-system when encountering a new environment that is outside of the scope of the eco-system. The speed of adaptation and general effectiveness of the eco-system approach highly depends on the initialization of new agents. In this paper we propose different techniques for such initialization and study their impact.
翻訳日:2022-12-16 13:27:58 公開日:2022-12-14
# 戦略的リトレーニングによる深部ニューラルネットワークのバックドア緩和

Backdoor Mitigation in Deep Neural Networks via Strategic Retraining ( http://arxiv.org/abs/2212.07278v1 )

ライセンス: Link先を確認
Akshay Dhonthi, Ernst Moritz Hahn, Vahid Hashemi(参考訳) ディープニューラルネットワーク(DNN)は、アシストと自動運転においてますます重要になっている。 従来のソフトウェア開発手法では,交通標識の認識などのタスクを合理的に開発することは不可能である。 しかし、DNNには、主にブラックボックスであり、そのため理解とデバッグが難しいという問題がある。 特に問題なのは、バックドアが隠れやすいことだ。 これは、DNNが出力に対して決定的でないプロパティを考えるため、その入力を誤って分類することを意味する。 バックドアは悪意のある攻撃者や不適切な訓練によって導入される。 いずれにしても、自動車分野において、それらの検出と除去は重要であり、それらは潜在的に深刻な影響を伴う安全性違反につながる可能性がある。 本稿では,バックドアを除去する新しい手法を提案する。 我々の手法は意図的かつ意図しないバックドアでも機能する。 バックドアの形状や分布に関する事前の知識も必要ありません。 実験結果から,本手法はいくつかの中規模例において良好な性能を示す。

Deep Neural Networks (DNN) are becoming increasingly more important in assisted and automated driving. Using such entities which are obtained using machine learning is inevitable: tasks such as recognizing traffic signs cannot be developed reasonably using traditional software development methods. DNN however do have the problem that they are mostly black boxes and therefore hard to understand and debug. One particular problem is that they are prone to hidden backdoors. This means that the DNN misclassifies its input, because it considers properties that should not be decisive for the output. Backdoors may either be introduced by malicious attackers or by inappropriate training. In any case, detecting and removing them is important in the automotive area, as they might lead to safety violations with potentially severe consequences. In this paper, we introduce a novel method to remove backdoors. Our method works for both intentional as well as unintentional backdoors. We also do not require prior knowledge about the shape or distribution of backdoors. Experimental evidence shows that our method performs well on several medium-sized examples.
翻訳日:2022-12-15 18:10:51 公開日:2022-12-14
# 自律移動型オンデマンドシステムのためのハイブリッド多エージェント深層強化学習

Hybrid Multi-agent Deep Reinforcement Learning for Autonomous Mobility on Demand Systems ( http://arxiv.org/abs/2212.07313v1 )

ライセンス: Link先を確認
Tobias Enders, James Harrison, Marco Pavone, Maximilian Schiffer(参考訳) 本稿では,自律移動型オンデマンドシステムの利益最大化運用者に対して,積極的な要求割り当てと拒否決定を行うことによる意思決定の逐次問題を考える。 本稿では,マルコフ決定過程としてこの問題を定式化し,マルチエージェント・ソフト・アクタ・クリティックと重み付き2部マッチングの新たな組み合わせを提案する。 これにより、演算子の難解な動作空間を分解するが、それでもグローバルに協調した決定が得られる。 実世界のタクシーデータに基づく実験により,我々の手法は,性能,安定性,計算的トラクタビリティに関して,技術ベンチマークの状態を上回ります。

We consider the sequential decision-making problem of making proactive request assignment and rejection decisions for a profit-maximizing operator of an autonomous mobility on demand system. We formalize this problem as a Markov decision process and propose a novel combination of multi-agent Soft Actor-Critic and weighted bipartite matching to obtain an anticipative control policy. Thereby, we factorize the operator's otherwise intractable action space, but still obtain a globally coordinated decision. Experiments based on real-world taxi data show that our method outperforms state of the art benchmarks with respect to performance, stability, and computational tractability.
翻訳日:2022-12-15 18:10:39 公開日:2022-12-14
# クープマン作用素の不変部分空間の学習-その1:辞書の近似部分空間不変性を示す方法

Learning Invariant Subspaces of Koopman Operators--Part 1: A Methodology for Demonstrating a Dictionary's Approximate Subspace Invariance ( http://arxiv.org/abs/2212.07358v1 )

ライセンス: Link先を確認
Charles A. Johnson, Shara Balakrishnan and Enoch Yeung(参考訳) クープマン作用素は非線形関数を状態として作用する線形力学系として非線形力学をモデル化する。 この非標準状態はしばしばkoopman observableと呼ばれ、通常辞書から引き出された関数の重ね合わせによって近似される。 拡張動的モード分解(extended dynamic mode decomposition)と呼ばれる広く使われているアルゴリズムでは、辞書関数は固定された関数のクラスから引き出される。 近年,深層学習とEDMDを組み合わせることで,Deep Dynamic Mode decomposition (deepDMD)と呼ばれるアルゴリズムで新しい辞書関数を学習している。 学習された表現は(1)正確なモデルと(2)元の非線形システムの次元とよく合致する。 本稿では,deepdmdから得られた学習辞書を分析し,その強力な性能の理論的基礎を考察する。 状態帰納的ロジスティックリフティング(sill)辞書関数を探索し,koopmanオブザーバブルを近似する。 これらの辞書関数の誤り解析は、部分空間近似の性質を満たすことを示し、これは一様有限近似閉包として定義する。 この結果は,クープマン演算子に対する数値近似学習におけるディープニューラルネットワークの成功を説明する仮説を提供する。 本稿では, ヘテロジニアス辞書の部分空間不変性を実証し, ディープDMDと低パラメータヘテロジニアス辞書学習の頭から頭への数値的比較を示す。

Koopman operators model nonlinear dynamics as a linear dynamic system acting on a nonlinear function as the state. This nonstandard state is often called a Koopman observable and is usually approximated numerically by a superposition of functions drawn from a dictionary. In a widely used algorithm, Extended Dynamic Mode Decomposition, the dictionary functions are drawn from a fixed class of functions. Recently, deep learning combined with EDMD has been used to learn novel dictionary functions in an algorithm called deep dynamic mode decomposition (deepDMD). The learned representation both (1) accurately models and (2) scales well with the dimension of the original nonlinear system. In this paper we analyze the learned dictionaries from deepDMD and explore the theoretical basis for their strong performance. We explore State-Inclusive Logistic Lifting (SILL) dictionary functions to approximate Koopman observables. Error analysis of these dictionary functions show they satisfy a property of subspace approximation, which we define as uniform finite approximate closure. Our results provide a hypothesis to explain the success of deep neural networks in learning numerical approximations to Koopman operators. Part 2 of this paper will extend this explanation by demonstrating the subspace invariant of heterogeneous dictionaries and presenting a head-to-head numerical comparison of deepDMD and low-parameter heterogeneous dictionary learning.
翻訳日:2022-12-15 18:10:26 公開日:2022-12-14
# クープマン作用素の学習不変部分空間-その2:近似部分空間不変量に対する不均一辞書混合

Learning Invariant Subspaces of Koopman Operators--Part 2: Heterogeneous Dictionary Mixing to Approximate Subspace Invariance ( http://arxiv.org/abs/2212.07365v1 )

ライセンス: Link先を確認
Charles A. Johnson, Shara Balakrishnan and Enoch Yeung(参考訳) この研究は、データからクープマン作用素の近似辞書表現を学ぶために、パート1で提示されたモデルと概念に基づいている。 この論文の第1部では、コープマン辞書の部分空間不変性について議論する方法論を提示した。 この手法はsill(state-inclusive logistic lifting)ベースで実証された。 これは連結ロジスティック関数で拡張されたアフィン基底である。 SILL辞書の非線形関数は同質であり、クープマン作用素のデータ駆動辞書学習の標準である。 本稿では,非線形関数の異なるクラスから導かれる異種辞書関数の構造的混合が,ディープラーニングに基づくdeepdmdアルゴリズムと同じ精度と次元スケーリングを実現することを見出した。 具体的には、SILL関数と共役ラジアル基底関数(RBF)からなるヘテロジニアス辞書を構築することでこれを具体的に示す。 この混合辞書は、幾何学的解釈可能性を維持しつつ、パラメータの桁数の縮小でディープDMDと同じ精度と次元のスケーリングを実現する。 これらの結果は,高次元非線形学習問題を解くために辞書ベースのkoopmanモデルの有効性を高める。

This work builds on the models and concepts presented in part 1 to learn approximate dictionary representations of Koopman operators from data. Part I of this paper presented a methodology for arguing the subspace invariance of a Koopman dictionary. This methodology was demonstrated on the state-inclusive logistic lifting (SILL) basis. This is an affine basis augmented with conjunctive logistic functions. The SILL dictionary's nonlinear functions are homogeneous, a norm in data-driven dictionary learning of Koopman operators. In this paper, we discover that structured mixing of heterogeneous dictionary functions drawn from different classes of nonlinear functions achieve the same accuracy and dimensional scaling as the deep-learning-based deepDMD algorithm. We specifically show this by building a heterogeneous dictionary comprised of SILL functions and conjunctive radial basis functions (RBFs). This mixed dictionary achieves the same accuracy and dimensional scaling as deepDMD with an order of magnitude reduction in parameters, while maintaining geometric interpretability. These results strengthen the viability of dictionary-based Koopman models to solving high-dimensional nonlinear learning problems.
翻訳日:2022-12-15 18:10:04 公開日:2022-12-14
# ニューラルネットワーク波動関数による有限密度2+1D格子量子電磁力学のシミュレーション

Simulating 2+1D Lattice Quantum Electrodynamics at Finite Density with Neural Flow Wavefunctions ( http://arxiv.org/abs/2212.06835v1 )

ライセンス: Link先を確認
Zhuo Chen, Di Luo, Kaiwen Hu, Bryan K. Clark(参考訳) 本稿では,Gauge-Fermion FlowNetというニューラルフロー波動関数を用いて,有限密度の動的フェルミオンを持つ2+1D格子型量子電磁力学をシミュレートする。 ゲージ場は振幅の離散化フローベース変換をパラメータ化するニューラルネットワークで表現され、フェルミオン符号構造はニューラルネットワークバックフローで表現される。 このアプローチは、トランケーションなしでの$U(1)$自由度を直接表現し、建設によってガウスの法則に従い、任意の平衡時間を避けるサンプルを自動回帰し、符号問題のあるゲージ・フェルミオン系を正確にシミュレートする。 本モデルでは,異なるフェルミオン密度およびホッピング状態における閉じ込め現象と弦破壊現象について検討する。 電荷結晶相から真空相への相転移をゼロ密度で観察し、有限密度での磁気相互作用下での相分離と純電荷侵入阻止効果を観察した。 また,フェルミオンの運動エネルギーとゲージ場の磁気エネルギーとの競合効果による磁気相転移についても検討した。 本手法では,連続的な$u(1)$系と有限切断系との間の相転移の順序について,さらに潜在的な違いを指摘する。 最先端のニューラルネットワークアプローチは、異なるゲージ理論を高次元の動的物質に結合する新しい可能性を開く。

We present a neural flow wavefunction, Gauge-Fermion FlowNet, and use it to simulate 2+1D lattice compact quantum electrodynamics with finite density dynamical fermions. The gauge field is represented by a neural network which parameterizes a discretized flow-based transformation of the amplitude while the fermionic sign structure is represented by a neural net backflow. This approach directly represents the $U(1)$ degree of freedom without any truncation, obeys Guass's law by construction, samples autoregressively avoiding any equilibration time, and variationally simulates Gauge-Fermion systems with sign problems accurately. In this model, we investigate confinement and string breaking phenomena in different fermion density and hopping regimes. We study the phase transition from the charge crystal phase to the vacuum phase at zero density, and observe the phase seperation and the net charge penetration blocking effect under magnetic interaction at finite density. In addition, we investigate a magnetic phase transition due to the competition effect between the kinetic energy of fermions and the magnetic energy of the gauge field. With our method, we further note potential differences on the order of the phase transitions between a continuous $U(1)$ system and one with finite truncation. Our state-of-the-art neural network approach opens up new possibilities to study different gauge theories coupled to dynamical matter in higher dimensions.
翻訳日:2022-12-15 18:09:48 公開日:2022-12-14
# 無線ネットワーク上での非同期フェデレーション学習のためのスケジューリングと集約設計

Scheduling and Aggregation Design for Asynchronous Federated Learning over Wireless Networks ( http://arxiv.org/abs/2212.07356v1 )

ライセンス: Link先を確認
Chung-Hsuan Hu, Zheng Chen, and Erik G. Larsson(参考訳) Federated Learning(FL)は、デバイス上でのトレーニングとサーバベースのアグリゲーションを組み合わせて、分散エージェント間で共通のMLモデルをトレーニングする、コラボレーティブ機械学習(ML)フレームワークである。 本稿では,flシステムにおけるストラグラー問題に取り組むために,周期的アグリゲーションを用いた非同期fl設計を提案する。 無線通信資源の制限を考慮すると,異なるスケジューリングポリシとアグリゲーション設計が収束性能に与える影響について検討する。 集約されたモデル更新のバイアスとばらつきを低減することの重要性から,ユーザデバイスのチャネル品質とトレーニングデータ表現を協調的に考慮したスケジューリングポリシーを提案する。 同期flに提案する最先端手法と比較し,チャネル認識型データインポート型スケジューリングポリシーの有効性をシミュレーションにより検証した。 さらに,「年齢認識」集約重み付け設計は,非同期FL設定における学習性能を著しく向上させることができることを示す。

Federated Learning (FL) is a collaborative machine learning (ML) framework that combines on-device training and server-based aggregation to train a common ML model among distributed agents. In this work, we propose an asynchronous FL design with periodic aggregation to tackle the straggler issue in FL systems. Considering limited wireless communication resources, we investigate the effect of different scheduling policies and aggregation designs on the convergence performance. Driven by the importance of reducing the bias and variance of the aggregated model updates, we propose a scheduling policy that jointly considers the channel quality and training data representation of user devices. The effectiveness of our channel-aware data-importance-based scheduling policy, compared with state-of-the-art methods proposed for synchronous FL, is validated through simulations. Moreover, we show that an "age-aware" aggregation weighting design can significantly improve the learning performance in an asynchronous FL setting.
翻訳日:2022-12-15 18:09:23 公開日:2022-12-14
# 協調型マルチエージェント強化学習のための階層的戦略

Hierarchical Strategies for Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2212.07397v1 )

ライセンス: Link先を確認
Majd Ibrahim, Ammar Fayad(参考訳) 協調的MARL問題の解決には,エージェント動作の適正な戦略化が不可欠である。 この領域において直観的に有益だが珍しい方法の1つは、エージェントの将来の振る舞いと計画を予測することである。 そこで我々は,新たな情報理論目標と軌道予測モデルを組み合わせた2段階階層型アーキテクチャを提案する。 この目的のために我々は,個々の$z_A$とリレーショナル$z_R$という2種類の潜在戦略を,グラフアテンションネットワークモジュールを用いて学習し,インタラクション機能を抽出する潜在ポリシーを導入する。 各エージェントは、そのローカル$q$関数を$z_a$で条件付けすることで、戦略に従って振る舞うことを推奨し、さらに$z_r$で条件づけされた共有$q$関数をエージェントに装備する。 さらに,予測軌道を正確かつ報奨できる2つの正則化器を導入する。 Google Research Football (GRF) および StarCraft (SC) II マイクロマネジメントタスクの実証的な結果から、我々の手法は、我々の知る限り、すべての超硬質SCIIシナリオを解く最初の MARL アルゴリズムであり、GRF フルゲームが 95 % 以上の勝利率で、既存のすべての手法よりも優れていたことが分かる。 メソッドと結果のビデオと簡単な概要は、https://sites.google.com/view/hier-strats-marl/home.comで公開されている。

Adequate strategizing of agents behaviors is essential to solving cooperative MARL problems. One intuitively beneficial yet uncommon method in this domain is predicting agents future behaviors and planning accordingly. Leveraging this point, we propose a two-level hierarchical architecture that combines a novel information-theoretic objective with a trajectory prediction model to learn a strategy. To this end, we introduce a latent policy that learns two types of latent strategies: individual $z_A$, and relational $z_R$ using a modified Graph Attention Network module to extract interaction features. We encourage each agent to behave according to the strategy by conditioning its local $Q$ functions on $z_A$, and we further equip agents with a shared $Q$ function that conditions on $z_R$. Additionally, we introduce two regularizers to allow predicted trajectories to be accurate and rewarding. Empirical results on Google Research Football (GRF) and StarCraft (SC) II micromanagement tasks show that our method establishes a new state of the art being, to the best of our knowledge, the first MARL algorithm to solve all super hard SC II scenarios as well as the GRF full game with a win rate higher than $95\%$, thus outperforming all existing methods. Videos and brief overview of the methods and results are available at: https://sites.google.com/view/hier-strats-marl/home.
翻訳日:2022-12-15 18:05:52 公開日:2022-12-14
# セマンティックスキル模倣によるクロスドメイントランスファー

Cross-Domain Transfer via Semantic Skill Imitation ( http://arxiv.org/abs/2212.07407v1 )

ライセンス: Link先を確認
Karl Pertsch, Ruta Desai, Vikash Kumar, Franziska Meier, Joseph J. Lim, Dhruv Batra, Akshara Rai(参考訳) シミュレーションキッチンにおけるロボットマニピュレータなど,異なる対象領域における強化学習(RL)を促進するために,例えばヒューマンビデオなどのソースドメインからのデモンストレーションを利用する意味模倣手法を提案する。 関節速度のような低レベルな動作を模倣する代わりに、我々の手法は「マイクロ波を開く」や「ストーブを回す」といった意味的なスキルのシーケンスを模倣する。 これにより、実環境(実世界からシミュレートされたキッチン)とエージェントの具体化(例えば、人間による2次元のデモンストレーションをロボットアームに移すことができます。 ドメイン間学習の課題を3つ評価し、ドメイン内の実演を必要とする実演加速RLアプローチの性能に適合する。 シミュレーションされたキッチン環境では,実環境のキッチンから3分以内の人間のビデオデモを用いて,長距離ロボット操作タスクを学習する。 これにより、例えば人間のビデオとして収集されたデモを再利用して、任意のターゲットドメインで学習するロボット学習のスケーリングが可能になる。

We propose an approach for semantic imitation, which uses demonstrations from a source domain, e.g. human videos, to accelerate reinforcement learning (RL) in a different target domain, e.g. a robotic manipulator in a simulated kitchen. Instead of imitating low-level actions like joint velocities, our approach imitates the sequence of demonstrated semantic skills like "opening the microwave" or "turning on the stove". This allows us to transfer demonstrations across environments (e.g. real-world to simulated kitchen) and agent embodiments (e.g. bimanual human demonstration to robotic arm). We evaluate on three challenging cross-domain learning problems and match the performance of demonstration-accelerated RL approaches that require in-domain demonstrations. In a simulated kitchen environment, our approach learns long-horizon robot manipulation tasks, using less than 3 minutes of human video demonstrations from a real-world kitchen. This enables scaling robot learning via the reuse of demonstrations, e.g. collected as human videos, for learning in any number of target domains.
翻訳日:2022-12-15 18:05:25 公開日:2022-12-14
# 3次元ニューロン形態解析

3D Neuron Morphology Analysis ( http://arxiv.org/abs/2212.07044v1 )

ライセンス: Link先を確認
Jiaxiang Jiang, Michael Goebel, Cezar Borba, William Smith, B.S. Manjunath(参考訳) 本稿では,ニューロン形状の正確な表現,細胞内特徴の抽出,ニューロン形状の分類といった課題について考察する。 神経科学研究において、骨格表現はニューロンの形状のコンパクトで抽象的な表現としてしばしば用いられる。 しかし、既存の方法は管状形状にのみ適用可能な「曲線」骨格の取得と分析に限定されている。 本稿では,より汎用的かつ複雑なニューロン形状の3次元ニューロン形態解析法を提案する。 まず,一般的なニューロン形状を表現するためのスケルトンメッシュの概念を紹介し,三次元表面点雲からのメッシュ表現を計算する新しい方法を提案する。 スケルトングラフはスケルトンメッシュから得られ、サブセルの特徴を抽出するために使用される。 最後に、ニューロン分類にスケルトングラフを埋め込むために教師なし学習法を用いる。 広範に実験を行い,神経形態解析のためのロバスト性を示す。

We consider the problem of finding an accurate representation of neuron shapes, extracting sub-cellular features, and classifying neurons based on neuron shapes. In neuroscience research, the skeleton representation is often used as a compact and abstract representation of neuron shapes. However, existing methods are limited to getting and analyzing "curve" skeletons which can only be applied for tubular shapes. This paper presents a 3D neuron morphology analysis method for more general and complex neuron shapes. First, we introduce the concept of skeleton mesh to represent general neuron shapes and propose a novel method for computing mesh representations from 3D surface point clouds. A skeleton graph is then obtained from skeleton mesh and is used to extract sub-cellular features. Finally, an unsupervised learning method is used to embed the skeleton graph for neuron classification. Extensive experiment results are provided and demonstrate the robustness of our method to analyze neuron morphology.
翻訳日:2022-12-15 18:05:08 公開日:2022-12-14
# CLIPSep: 騒々しい未収録ビデオによるテキスト検索音声の分離学習

CLIPSep: Learning Text-queried Sound Separation with Noisy Unlabeled Videos ( http://arxiv.org/abs/2212.07065v1 )

ライセンス: Link先を確認
Hao-Wen Dong, Naoya Takahashi, Yuki Mitsufuji, Julian McAuley, Taylor Berg-Kirkpatrick(参考訳) 近年は、任意の音に対する普遍的な音分離に向けて、言語や音楽のドメイン固有の音分離を超えて進歩している。 ユニバーサルサウンド分離に関する以前の研究は、テキストクエリが与えられたオーディオ混合物からターゲットサウンドを分離することを調査した。 このようなテキスト検索音声分離システムは、任意のターゲット音声を特定するための自然なスケーラブルなインターフェースを提供する。 しかし、教師付きテキストクエリ音声分離システムは、トレーニングに高価なラベル付きオーディオテキストペアを必要とする。 さらに、既存のデータセットに提供される音声は、しばしば制御された環境で記録されるため、ノイズの多い音声に対してかなりの一般化ギャップが生じる。 本研究は,未ラベルデータのみを用いることで,テキストによる普遍的音源分離にアプローチすることを目的とする。 視覚モダリティを橋梁として活用し,所望の音声・テキスト対応を学習することを提案する。 提案するクリップsepモデルは、まず、入力クエリをコントラスト言語イメージプリトレーニング(clip)モデルを用いてクエリベクトルにエンコードし、その後、クエリベクトルを使用して音声分離モデルを条件付けしてターゲット音声を分離する。 モデルはラベルのないビデオから抽出された画像とオーディオのペアに基づいてトレーニングされるが、テスト時にはCLIPモデルによって学習された共同言語と画像の埋め込みのおかげで、ゼロショット設定でテキスト入力でモデルをクエリすることができる。 さらに、野生の動画にはスクリーン外の音や背景ノイズが含まれており、モデルが望む音声とテキストの対応を学習することを妨げている。 そこで本研究では,雑音データに基づく問合せ型音声分離モデルの学習のためのノイズ不変学習手法を提案する。 実験結果から,提案モデルでは,雑音のないビデオのみを用いて,テキストによる普遍的な音声分離を学習し,教師付きモデルと競合する性能を得ることができた。

Recent years have seen progress beyond domain-specific sound separation for speech or music towards universal sound separation for arbitrary sounds. Prior work on universal sound separation has investigated separating a target sound out of an audio mixture given a text query. Such text-queried sound separation systems provide a natural and scalable interface for specifying arbitrary target sounds. However, supervised text-queried sound separation systems require costly labeled audio-text pairs for training. Moreover, the audio provided in existing datasets is often recorded in a controlled environment, causing a considerable generalization gap to noisy audio in the wild. In this work, we aim to approach text-queried universal sound separation by using only unlabeled data. We propose to leverage the visual modality as a bridge to learn the desired audio-textual correspondence. The proposed CLIPSep model first encodes the input query into a query vector using the contrastive language-image pretraining (CLIP) model, and the query vector is then used to condition an audio separation model to separate out the target sound. While the model is trained on image-audio pairs extracted from unlabeled videos, at test time we can instead query the model with text inputs in a zero-shot setting, thanks to the joint language-image embedding learned by the CLIP model. Further, videos in the wild often contain off-screen sounds and background noise that may hinder the model from learning the desired audio-textual correspondence. To address this problem, we further propose an approach called noise invariant training for training a query-based sound separation model on noisy data. Experimental results show that the proposed models successfully learn text-queried universal sound separation using only noisy unlabeled videos, even achieving competitive performance against a supervised model in some settings.
翻訳日:2022-12-15 18:04:56 公開日:2022-12-14
# 人工知能を駆使した現代住宅のデジタル双生児がバーチャルリアリティーでデモ

Artificial intelligence-driven digital twin of a modern house demonstrated in virtual reality ( http://arxiv.org/abs/2212.07102v1 )

ライセンス: Link先を確認
Elias Mohammed Elfarri and Adil Rasheed and Omer San(参考訳) デジタルツインは、リアルタイム予測、最適化、監視、制御、意思決定の改善のためのデータとシミュレータによって実現される物理的資産の仮想表現として定義される。 残念ながら、この用語はあいまいであり、その能力についてはほとんど語っていない。 近年,この問題に対処するために能力レベルの概念が導入された。 その能力に基づいて、デジタル双生児は、独立性、記述性、診断性、予測性、規範性、自律性と呼ばれる、0から5の尺度で分類することができる。 現在、この概念は構築された環境の文脈で紹介されている。 現代住宅をユースケースとして用いることでその概念を実証する。 この家には、家の内部状態に関する時系列データを収集する一連のセンサーが備わっている。 物理モデルとデータ駆動モデルと共に、これらのデータは仮想現実で示される様々な能力レベルでデジタル双子を開発するために使用される。 この研究は、デジタル双生児を開発するための青写真だけでなく、技術を強化するための将来の研究指針も提供した。

A digital twin is defined as a virtual representation of a physical asset enabled through data and simulators for real-time prediction, optimization, monitoring, controlling, and improved decision-making. Unfortunately, the term remains vague and says little about its capability. Recently, the concept of capability level has been introduced to address this issue. Based on its capability, the concept states that a digital twin can be categorized on a scale from zero to five, referred to as standalone, descriptive, diagnostic, predictive, prescriptive, and autonomous, respectively. The current work introduces the concept in the context of the built environment. It demonstrates the concept by using a modern house as a use case. The house is equipped with an array of sensors that collect timeseries data regarding the internal state of the house. Together with physics-based and data-driven models, these data are used to develop digital twins at different capability levels demonstrated in virtual reality. The work, in addition to presenting a blueprint for developing digital twins, also provided future research directions to enhance the technology.
翻訳日:2022-12-15 18:04:26 公開日:2022-12-14
# 時空間マップの直流および交流成分による顔面映像からの血液酸素飽和度推定

Blood Oxygen Saturation Estimation from Facial Video via DC and AC components of Spatio-temporal Map ( http://arxiv.org/abs/2212.07116v1 )

ライセンス: Link先を確認
Yusuke Akamatsu, Yoshifumi Onishi, Hitoshi Imaoka(参考訳) 血液中の酸素濃度の指標である末梢血酸素飽和度(SpO2)は、最も重要な生理的パラメータの1つである。 SpO2は通常、パルスオキシメータを用いて測定されるが、顔や手動ビデオからの非接触SpO2推定方法が近年注目されている。 本稿では,畳み込みニューラルネットワーク(CNN)を用いた顔画像からのSpO2推定手法を提案する。 本手法は,顔映像のrgb信号から抽出した直流(dc)と交流電流(ac)成分を考慮したcnnモデルを構築し,spo2推定の原理において重要である。 具体的には,フィルタ処理を用いた時空間マップから直流および交流成分を抽出し,cnnモデルを訓練し,これらの成分からspo2を予測する。 また,直流および交流成分を畳み込み層から抽出し,時空間マップから直接spo2を予測するエンドツーエンドモデルを提案する。 50名の被験者の顔ビデオとSpO2データを用いた実験により,提案手法は現在のSpO2推定法よりも優れた推定性能が得られることが示された。

Peripheral blood oxygen saturation (SpO2), an indicator of oxygen levels in the blood, is one of the most important physiological parameters. Although SpO2 is usually measured using a pulse oximeter, non-contact SpO2 estimation methods from facial or hand videos have been attracting attention in recent years. In this paper, we propose an SpO2 estimation method from facial videos based on convolutional neural networks (CNN). Our method constructs CNN models that consider the direct current (DC) and alternating current (AC) components extracted from the RGB signals of facial videos, which are important in the principle of SpO2 estimation. Specifically, we extract the DC and AC components from the spatio-temporal map using filtering processes and train CNN models to predict SpO2 from these components. We also propose an end-to-end model that predicts SpO2 directly from the spatio-temporal map by extracting the DC and AC components via convolutional layers. Experiments using facial videos and SpO2 data from 50 subjects demonstrate that the proposed method achieves a better estimation performance than current state-of-the-art SpO2 estimation methods.
翻訳日:2022-12-15 18:04:08 公開日:2022-12-14
# コントラスト最大化フレームワークにおけるイベント崩壊を緩和する高速幾何正規化器

A Fast Geometric Regularizer to Mitigate Event Collapse in the Contrast Maximization Framework ( http://arxiv.org/abs/2212.07350v1 )

ライセンス: Link先を確認
Shintaro Shiba, Yoshimitsu Aoki, Guillermo Gallego(参考訳) イベントカメラは出現する視覚センサーであり、その利点は自律ロボットのような様々な用途に適している。 コントラスト最大化(CMax)は、イベントを用いた動き推定の最先端の精度を提供するが、イベント崩壊と呼ばれる過度な問題に悩まされる。 従来の作業は計算コストがかかるか、過度な適合を緩和できないため、CMaxフレームワークの利点を損なう。 本稿では,イベント崩壊を緩和する幾何学的原理に基づく,新しい計算効率の高い正規化器を提案する。 実験により,提案した正則化器は最先端の精度を達成し,計算複雑性の低減により従来の2倍から4倍の高速化が得られた。 私たちの知る限りでは、私たちのレギュラライザは、実行時に切り換えることなくイベントが崩壊する唯一の有効なソリューションです。 私たちは、イベントカメラの利点を解放する将来のアプリケーションへの扉を開くことを願っています。

Event cameras are emerging vision sensors and their advantages are suitable for various applications such as autonomous robots. Contrast maximization (CMax), which provides state-of-the-art accuracy on motion estimation using events, may suffer from an overfitting problem called event collapse. Prior works are computationally expensive or cannot alleviate the overfitting, which undermines the benefits of the CMax framework. We propose a novel, computationally efficient regularizer based on geometric principles to mitigate event collapse. The experiments show that the proposed regularizer achieves state-of-the-art accuracy results, while its reduced computational complexity makes it two to four times faster than previous approaches. To the best of our knowledge, our regularizer is the only effective solution for event collapse without trading off runtime. We hope our work opens the door for future applications that unlocks the advantages of event cameras.
翻訳日:2022-12-15 18:03:50 公開日:2022-12-14
# aiによるinstagramプロフィールの探索は、採用決定の力になるソフトスキルとパーソナリティ特性を予測する

AI-enabled exploration of Instagram profiles predicts soft skills and personality traits to empower hiring decisions ( http://arxiv.org/abs/2212.07069v1 )

ライセンス: Link先を確認
Mercedeh Harirchian, Fereshteh Amin, Saeed Rouhani, Aref Aligholipour, Vahid Amiri Lord(参考訳) テクノロジー・ジャイアンツやウォール街の会社、あるいは小さなスタートアップとの求人インタビューであるかどうかはどうでもいい。 一方、採用担当者は候補者の正体を知り、専門家候補がどの企業にも適していることを示すソフトスキルを検出したい。 世界中のリクルーターは通常、これらのスキルの最高レベルを持つ従業員を見つけるのに苦労します。 デジタルフットプリントは、候補者のユニークなオンライン活動を提供することによって、このプロセスにおけるリクルーターを支援することができる。 本研究では,16種類のオンデマンドソフトスキルからなる幅広い行動能力が,次のリストや機械学習アルゴリズムを用いた定量的特徴に基づいて,Instagramのプロフィールから自動的に予測できることを初めて示した。 我々はまた、ビッグファイブの性格特性の予測も提供する。 モデルは、オンラインアンケートに回答し、公開プロフィールをクロールできるInstagramユーザー名を提供した400人のイランのボランティアユーザーのサンプルに基づいて構築された。 複数の機械学習アルゴリズムを統一データに適用した。 ディープラーニングモデルは、それぞれ2レベルと3レベルの分類で70%と69%の平均精度を示すことで、ほとんどを上回っている。 ソーシャルメディアのユーザ生成データにAIを適用することで、高いレベルのソフトスキルを持ち、より正確な求職者の評価を行うことが可能である。

It does not matter whether it is a job interview with Tech Giants, Wall Street firms, or a small startup; all candidates want to demonstrate their best selves or even present themselves better than they really are. Meanwhile, recruiters want to know the candidates' authentic selves and detect soft skills that prove an expert candidate would be a great fit in any company. Recruiters worldwide usually struggle to find employees with the highest level of these skills. Digital footprints can assist recruiters in this process by providing candidates' unique set of online activities, while social media delivers one of the largest digital footprints to track people. In this study, for the first time, we show that a wide range of behavioral competencies consisting of 16 in-demand soft skills can be automatically predicted from Instagram profiles based on the following lists and other quantitative features using machine learning algorithms. We also provide predictions on Big Five personality traits. Models were built based on a sample of 400 Iranian volunteer users who answered an online questionnaire and provided their Instagram usernames which allowed us to crawl the public profiles. We applied several machine learning algorithms to the uniformed data. Deep learning models mostly outperformed by demonstrating 70% and 69% average Accuracy in two-level and three-level classifications respectively. Creating a large pool of people with the highest level of soft skills, and making more accurate evaluations of job candidates is possible with the application of AI on social media user-generated data.
翻訳日:2022-12-15 18:03:00 公開日:2022-12-14
# 自律運転における状態空間モデル学習のための粒子ベーススコア推定

Particle-Based Score Estimation for State Space Model Learning in Autonomous Driving ( http://arxiv.org/abs/2212.06968v1 )

ライセンス: Link先を確認
Angad Singh, Omar Makhlouf, Maximilian Igl, Joao Messias, Arnaud Doucet, Shimon Whiteson(参考訳) マルチオブジェクト状態推定は、ロボットが他の動く物体と対話しなければならないロボットアプリケーションにとって、基本的な問題である。 通常、他のオブジェクトの関連する状態機能は直接観測可能ではなく、代わりに観測から推測する必要がある。 粒子フィルタリングは、近似遷移および観測モデルによってそのような推論を行うことができる。 しかし、これらのモデルはしばしば事前の未知であり、観測が遷移と観測ノイズを併せ持つため、パラメータ推定が難しい。 本研究では,粒子法を用いて最大類似パラメータを学習することを検討する。 この問題に対処する最近の手法は、偏りや高分散勾配推定をもたらす非微分再サンプリングステップへの回避策を必要とする粒子フィルタの時間を通じて区別されるのが一般的である。 対照的に、フィッシャーの同一性を利用して、遷移と観測モデルによる段階的微分のみを必要としながら、低分散推定をもたらすスコア関数(対数確率の勾配)の粒子ベースの近似を求める。 本手法を自律走行車(avs)から収集した実データに適用し、既存の技術よりも優れたモデルを学び、訓練でより安定であることを示し、車両の軌道を追跡する効果的なスムース化を実現する。

Multi-object state estimation is a fundamental problem for robotic applications where a robot must interact with other moving objects. Typically, other objects' relevant state features are not directly observable, and must instead be inferred from observations. Particle filtering can perform such inference given approximate transition and observation models. However, these models are often unknown a priori, yielding a difficult parameter estimation problem since observations jointly carry transition and observation noise. In this work, we consider learning maximum-likelihood parameters using particle methods. Recent methods addressing this problem typically differentiate through time in a particle filter, which requires workarounds to the non-differentiable resampling step, that yield biased or high variance gradient estimates. By contrast, we exploit Fisher's identity to obtain a particle-based approximation of the score function (the gradient of the log likelihood) that yields a low variance estimate while only requiring stepwise differentiation through the transition and observation models. We apply our method to real data collected from autonomous vehicles (AVs) and show that it learns better models than existing techniques and is more stable in training, yielding an effective smoother for tracking the trajectories of vehicles around an AV.
翻訳日:2022-12-15 17:56:29 公開日:2022-12-14
# ベースラインからの安全補正:デュアルエージェント強化学習によるロボットのリスク意識政策に向けて

Safety Correction from Baseline: Towards the Risk-aware Policy in Robotics via Dual-agent Reinforcement Learning ( http://arxiv.org/abs/2212.06998v1 )

ライセンス: Link先を確認
Linrui Zhang and Zichen Yan and Li Shen and Shoujie Li and Xueqian Wang and Dacheng Tao(参考訳) リスク対応政策の学習は不可欠だが、非構造的なロボットタスクでは難しい。 安全な強化学習手法は、この問題に取り組む新しい可能性を開く。 しかし、保守的な政策更新により、複雑なサンプル探査環境で十分な探索と望ましい性能を達成することができなくなる。 本稿では,ベースラインとセーフエージェントからなる二重エージェントによる安全強化学習戦略を提案する。 このような分離フレームワークは、rlベースの制御に対して高い柔軟性、データ効率、リスク認識を可能にする。 具体的には、ベースラインエージェントが標準rl設定で報酬を最大化する責任を負う。 したがって、制約のない最適化、探索、搾取の既成の訓練技術と互換性がある。 一方、安全エージェントは、政策改善のための基準エージェントを模倣し、外部RLチューニングを通じて安全制約を満たすことを学習する。 スクラッチからのトレーニングとは対照的に、安全なポリシー修正は、ほぼ最適ポリシーを得るために、はるかに少ない相互作用を必要とする。 デュアルポリシーは、共有リプレイバッファを介して同期的に最適化したり、トレーニング済みモデルや非学習ベースのコントローラを固定ベースラインエージェントとして利用することができる。 実験結果から,本手法は事前知識を必要とせず,かつ,事前訓練した安全でない政策からリスク回避策を導き出すことが可能であることが示唆された。 提案手法は, 安全制約満足度とサンプル効率の両面において, ロボットの移動・操作作業において, 最先端の安全RLアルゴリズムより優れる。

Learning a risk-aware policy is essential but rather challenging in unstructured robotic tasks. Safe reinforcement learning methods open up new possibilities to tackle this problem. However, the conservative policy updates make it intractable to achieve sufficient exploration and desirable performance in complex, sample-expensive environments. In this paper, we propose a dual-agent safe reinforcement learning strategy consisting of a baseline and a safe agent. Such a decoupled framework enables high flexibility, data efficiency and risk-awareness for RL-based control. Concretely, the baseline agent is responsible for maximizing rewards under standard RL settings. Thus, it is compatible with off-the-shelf training techniques of unconstrained optimization, exploration and exploitation. On the other hand, the safe agent mimics the baseline agent for policy improvement and learns to fulfill safety constraints via off-policy RL tuning. In contrast to training from scratch, safe policy correction requires significantly fewer interactions to obtain a near-optimal policy. The dual policies can be optimized synchronously via a shared replay buffer, or leveraging the pre-trained model or the non-learning-based controller as a fixed baseline agent. Experimental results show that our approach can learn feasible skills without prior knowledge as well as deriving risk-averse counterparts from pre-trained unsafe policies. The proposed method outperforms the state-of-the-art safe RL algorithms on difficult robot locomotion and manipulation tasks with respect to both safety constraint satisfaction and sample efficiency.
翻訳日:2022-12-15 17:56:09 公開日:2022-12-14
# ラベルのない統一確率モデルにおけるマルチモーダル車両行動分布の学習と予測

Learning and Predicting Multimodal Vehicle Action Distributions in a Unified Probabilistic Model Without Labels ( http://arxiv.org/abs/2212.07013v1 )

ライセンス: Link先を確認
Charles Richter, Patrick R. Barrag\'an, Sertac Karaman(参考訳) 我々は,個別車両行動の代表的な集合を学習し,特定のシナリオに与えられた各行動の確率を予測する統一確率モデルを提案する。 我々のモデルはまた、シナリオ上で条件付けられた連続軌道上の分布を推定することができ、そのシナリオで実行された場合、それぞれの離散アクションがどのように見えるかを表す。 我々の主な目的は、代表的行動集合を学習することであるが、これらの能力を組み合わせて、副産物として正確なマルチモーダル軌道予測を生成する。 学習した行動表現は意味論的に意味のあるカテゴリ(例えば、"go straight"、"turn left"など)とよく似ているが、我々の手法は完全に自己管理されており、手動で生成されたラベルやカテゴリは使用していない。 本手法は,近年の変分推論と深い教師なしクラスタリングの進歩を基盤とし,決定論的モデル評価に基づく全分布推定を行う。

We present a unified probabilistic model that learns a representative set of discrete vehicle actions and predicts the probability of each action given a particular scenario. Our model also enables us to estimate the distribution over continuous trajectories conditioned on a scenario, representing what each discrete action would look like if executed in that scenario. While our primary objective is to learn representative action sets, these capabilities combine to produce accurate multimodal trajectory predictions as a byproduct. Although our learned action representations closely resemble semantically meaningful categories (e.g., "go straight", "turn left", etc.), our method is entirely self-supervised and does not utilize any manually generated labels or categories. Our method builds upon recent advances in variational inference and deep unsupervised clustering, resulting in full distribution estimates based on deterministic model evaluations.
翻訳日:2022-12-15 17:55:48 公開日:2022-12-14
# ディープニューラルネットワークの不確実性定量化:実証的比較と利用ガイドライン

Uncertainty Quantification for Deep Neural Networks: An Empirical Comparison and Usage Guidelines ( http://arxiv.org/abs/2212.07118v1 )

ライセンス: Link先を確認
Michael Weiss and Paolo Tonella(参考訳) ディープニューラルネットワーク(DNN)は、画像、テキスト、オーディオ/ビデオ信号などの複雑なデータを処理する必要がある大規模ソフトウェアシステムのコンポーネントとして、ますます利用されている。 DNN予測は、いくつかの理由で常に正しいとは考えられず、そのうちの1つは、膨大な入力空間、いくつかの入力データのあいまいさ、および統計的保証しか提供できない学習アルゴリズムの固有の性質である。 したがって、開発者は残留するエラーの確率に対処する必要がある。 障害を起こしやすいコンポーネントを管理するために一般的に採用されるアーキテクチャパターンはスーパーバイザーであり、信頼できない(例えばDNN)コンポーネントによる予測の信頼性を推定し、これらが失敗する可能性があるときに自動的な治癒手順を起動できる追加コンポーネントであり、主要な機能は停止されているにもかかわらず、Deep Learning Based System (DLS)が損傷を起こさないことを保証している。 本稿では、不確実性推定によりスーパーバイザを実装するDLSについて考察する。 不確実性推定に対する主要なアプローチを概観し、その長所と短所について議論した後、監督者が使用する実験的な設定に対処できる特定の経験的評価方法の必要性を動機付け、監督者がdlsを継続させる限り、dnnの正確性が重要となる。 そこで本研究では,不確実性推定に対する代替手法の比較実験を行った。 我々は、不確実性監視に基づく管理者をDLSに組み込むのに役立つ開発者のためのガイドラインを考案した。

Deep Neural Networks (DNN) are increasingly used as components of larger software systems that need to process complex data, such as images, written texts, audio/video signals. DNN predictions cannot be assumed to be always correct for several reasons, among which the huge input space that is dealt with, the ambiguity of some inputs data, as well as the intrinsic properties of learning algorithms, which can provide only statistical warranties. Hence, developers have to cope with some residual error probability. An architectural pattern commonly adopted to manage failure-prone components is the supervisor, an additional component that can estimate the reliability of the predictions made by untrusted (e.g., DNN) components and can activate an automated healing procedure when these are likely to fail, ensuring that the Deep Learning based System (DLS) does not cause damages, despite its main functionality being suspended. In this paper, we consider DLS that implement a supervisor by means of uncertainty estimation. After overviewing the main approaches to uncertainty estimation and discussing their pros and cons, we motivate the need for a specific empirical assessment method that can deal with the experimental setting in which supervisors are used, where the accuracy of the DNN matters only as long as the supervisor lets the DLS continue to operate. Then we present a large empirical study conducted to compare the alternative approaches to uncertainty estimation. We distilled a set of guidelines for developers that are useful to incorporate a supervisor based on uncertainty monitoring into a DLS.
翻訳日:2022-12-15 17:55:31 公開日:2022-12-14
# 温度変動を考慮した時間オフセット同期の最適推定

Approximating Optimal Estimation of Time Offset Synchronization with Temperature Variations ( http://arxiv.org/abs/2212.07138v1 )

ライセンス: Link先を確認
Maurizio Mongelli, Stefano Scanzio(参考訳) 本稿では,非ガウス環境につながる温度変動の存在下での時間オフセット同期の問題に対処する。 この文脈では、正則カルマンフィルタリングは準最適であることが分かる。 マスタとスレーブ間のクロックオフセットの最適推定を近似するために,関数最適化手法を開発した。 この目的に対して、通常のニューラルネットワークトレーニングに基づく数値近似が提供される。 スプライン回帰に基づく他のヒューリスティックも提供される。 広範な性能評価は提案手法の利点を強調しており、クロック同期プロトコルや動作環境に容易に一般化することができる。

The paper addresses the problem of time offset synchronization in the presence of temperature variations, which lead to a non-Gaussian environment. In this context, regular Kalman filtering reveals to be suboptimal. A functional optimization approach is developed in order to approximate optimal estimation of the clock offset between master and slave. A numerical approximation is provided to this aim, based on regular neural network training. Other heuristics are provided as well, based on spline regression. An extensive performance evaluation highlights the benefits of the proposed techniques, which can be easily generalized to several clock synchronization protocols and operating environments.
翻訳日:2022-12-15 17:55:05 公開日:2022-12-14
# 変分ベイズ推論に基づくエンコーダ・デコーダフレームワークによるトラヒックフロー予測

Traffic Flow Prediction via Variational Bayesian Inference-based Encoder-Decoder Framework ( http://arxiv.org/abs/2212.07194v1 )

ライセンス: Link先を確認
Jianlei Kong, Xiaomeng Fan, Xue-Bo Jin, and Min Zuo(参考訳) インテリジェント交通研究のホットスポットである正確な交通流予測は、交通をマスターし、旅行計画を作成するための前提条件である。 交通流の速度は、道路の状態、天候、休日などに影響される可能性がある。 さらに、交通の流れに関する情報を取得するセンサは、照明、収集時間、閉塞などの環境要因によって妨害される。 そのため,現実的な交通システムにおける交通の流れは複雑で,不確実であり,正確な予測が困難である。 本稿では,変分ベイズ推定に基づくディープエンコーダ・デコーダ予測フレームワークを提案する。 ベイズニューラルネットワークは、変分推論とゲートリカレントユニット(GRU)を組み合わせて構築され、エンコーダ・デコーダフレームワークのディープニューラルネットワークユニットとして使用され、トラフィックフローの本質的なダイナミクスをマイニングする。 そして、マルチヘッドアテンション機構に変動推論を導入し、ノイズによる予測精度の低下を回避する。 提案モデルでは,特に長期予測において,広州都市交通流データセットの予測性能が向上している。

Accurate traffic flow prediction, a hotspot for intelligent transportation research, is the prerequisite for mastering traffic and making travel plans. The speed of traffic flow can be affected by roads condition, weather, holidays, etc. Furthermore, the sensors to catch the information about traffic flow will be interfered with by environmental factors such as illumination, collection time, occlusion, etc. Therefore, the traffic flow in the practical transportation system is complicated, uncertain, and challenging to predict accurately. This paper proposes a deep encoder-decoder prediction framework based on variational Bayesian inference. A Bayesian neural network is constructed by combining variational inference with gated recurrent units (GRU) and used as the deep neural network unit of the encoder-decoder framework to mine the intrinsic dynamics of traffic flow. Then, the variational inference is introduced into the multi-head attention mechanism to avoid noise-induced deterioration of prediction accuracy. The proposed model achieves superior prediction performance on the Guangzhou urban traffic flow dataset over the benchmarks, particularly when the long-term prediction.
翻訳日:2022-12-15 17:54:57 公開日:2022-12-14
# FedSkip:フェデレーション・スキップ・アグリゲーションによる統計的不均一性を議論

FedSkip: Combatting Statistical Heterogeneity with Federated Skip Aggregation ( http://arxiv.org/abs/2212.07224v1 )

ライセンス: Link先を確認
Ziqing Fan, Yanfeng Wang, Jiangchao Yao, Lingjuan Lyu, Ya Zhang and Qi Tian(参考訳) ローカルクライアントにおける非独立および同一分布(非IID)データの統計的不均一性は、フェデレート学習の性能を著しく制限する。 FedProx、SCAFFOLD、MOON、FedNova、FedDynといった以前の試みでは、学習バイアスや目的の不整合を校正するために、補助的な用語や更新を再重み付けする必要があった。 しかし,フェデレーション平均化の改善に向けたこれまでの調査に加えて,より異質な条件下でのクライアントモデルの視認性が低下していることも分析から明らかである。 そこで我々はFedSkipと呼ばれるデータ駆動型アプローチを導入し、フェデレーション平均化を定期的にスキップし、ローカルモデルをクロスデバイスに分散することでクライアントの最適化を改善する。 我々は、FedSkipの利点を理論的に分析し、FedSkipがはるかに精度が高く、アグリゲーション効率が良く、通信効率が競合することを示した。 ソースコードはhttps://github.com/mediabrain-sjtu/fedskip。

The statistical heterogeneity of the non-independent and identically distributed (non-IID) data in local clients significantly limits the performance of federated learning. Previous attempts like FedProx, SCAFFOLD, MOON, FedNova and FedDyn resort to an optimization perspective, which requires an auxiliary term or re-weights local updates to calibrate the learning bias or the objective inconsistency. However, in addition to previous explorations for improvement in federated averaging, our analysis shows that another critical bottleneck is the poorer optima of client models in more heterogeneous conditions. We thus introduce a data-driven approach called FedSkip to improve the client optima by periodically skipping federated averaging and scattering local models to the cross devices. We provide theoretical analysis of the possible benefit from FedSkip and conduct extensive experiments on a range of datasets to demonstrate that FedSkip achieves much higher accuracy, better aggregation efficiency and competing communication efficiency. Source code is available at: https://github.com/MediaBrain-SJTU/FedSkip.
翻訳日:2022-12-15 17:54:40 公開日:2022-12-14
# 解析中心と多回帰による切削平面選択

Cutting Plane Selection with Analytic Centers and Multiregression ( http://arxiv.org/abs/2212.07231v1 )

ライセンス: Link先を確認
Mark Turner, Timo Berthold, Mathieu Besan\c{c}on, Thorsten Koch(参考訳) カットプレーンは最先端の混合整数型プログラミング解法の重要な構成要素であり、解法のパフォーマンスに不可欠なカットのサブセットを選択する。 緩和可能な集合の関連部分を分離する程度を定量化することにより、カットの値を評価するための新しい距離ベースの尺度を提案する。 この目的のために、我々は、リニアプログラミング緩和の代替の最適解と同様に、緩和ポリトープまたはその最適面の解析的中心を用いる。 そこで本研究では,本論文で広く普及しているものと比較し,距離尺度の選択が根ノード性能および分枝木全体に与える影響を評価した。 最後に,マルチアウトプット回帰により,分離処理前に容易に利用可能な静的特徴を用いて,各指標の相対的性能を予測する。 解析中心に基づく手法は,探索空間を探索するために必要な分岐ノードの数を大幅に削減し,多回帰手法により各手法をさらに改善できることが示唆された。

Cutting planes are a crucial component of state-of-the-art mixed-integer programming solvers, with the choice of which subset of cuts to add being vital for solver performance. We propose new distance-based measures to qualify the value of a cut by quantifying the extent to which it separates relevant parts of the relaxed feasible set. For this purpose, we use the analytic centers of the relaxation polytope or of its optimal face, as well as alternative optimal solutions of the linear programming relaxation. We assess the impact of the choice of distance measure on root node performance and throughout the whole branch-and-bound tree, comparing our measures against those prevalent in the literature. Finally, by a multi-output regression, we predict the relative performance of each measure, using static features readily available before the separation process. Our results indicate that analytic center-based methods help to significantly reduce the number of branch-and-bound nodes needed to explore the search space and that our multiregression approach can further improve on any individual method.
翻訳日:2022-12-15 17:54:20 公開日:2022-12-14
# ローレンツ群同変オートエンコーダ

Lorentz Group Equivariant Autoencoders ( http://arxiv.org/abs/2212.07347v1 )

ライセンス: Link先を確認
Zichun Hao, Raghav Kansal, Javier Duarte, Nadezda Chernyavskaya(参考訳) 近年、分類、シミュレーション、異常検出といったタスクにおいて、高エネルギー物理学(HEP)における機械学習モデルの開発において重要な研究が行われている。 通常、これらのモデルはコンピュータビジョンや自然言語処理のデータセット用に設計されたもので、HEPデータに適合する帰納的バイアスを必ずしも含まない。 このような帰納バイアスにより、モデルの性能と解釈性が向上し、必要なトレーニングデータの量を削減することができる。 その目的のために、正規時間ローレンツ群 $\mathrm{so}^+(3,1)$ に対して同値なオートエンコーダモデルであるローレンツ群オートエンコーダ (lgae) を開発し、その群の表現の中に潜在空間が存在する。 我々はLHCのジェット機における構造と実験結果を示し、圧縮と再構成と異常検出において非ローレンツ同変グラフニューラルネットワークのベースラインを著しく上回っていることを発見した。 また、そのような同変モデルの利点は、オートエンコーダの潜在空間を分析することで示され、このようなブラックボックス機械学習モデルによって見出される異常の説明可能性に大きな影響を与える可能性がある。

There has been significant work recently in developing machine learning models in high energy physics (HEP), for tasks such as classification, simulation, and anomaly detection. Typically, these models are adapted from those designed for datasets in computer vision or natural language processing without necessarily incorporating inductive biases suited to HEP data, such as respecting its inherent symmetries. Such inductive biases can make the model more performant and interpretable, and reduce the amount of training data needed. To that end, we develop the Lorentz group autoencoder (LGAE), an autoencoder model equivariant with respect to the proper, orthochronous Lorentz group $\mathrm{SO}^+(3,1)$, with a latent space living in the representations of the group. We present our architecture and several experimental results on jets at the LHC and find it significantly outperforms a non-Lorentz-equivariant graph neural network baseline on compression and reconstruction, and anomaly detection. We also demonstrate the advantage of such an equivariant model in analyzing the latent space of the autoencoder, which can have a significant impact on the explainability of anomalies found by such black-box machine learning models.
翻訳日:2022-12-15 17:54:01 公開日:2022-12-14
# ミスマッチサンプルからの多変量スパース信号の再構成

Reconstruction of Multivariate Sparse Signals from Mismatched Samples ( http://arxiv.org/abs/2212.07368v1 )

ライセンス: Link先を確認
Taulant Koka, Michael Muma and Benjam\'in B\'ejar Haro(参考訳) サンプルとそれぞれのチャネルまたはターゲット間の誤った対応は、いくつかの実世界の応用で一般的に発生する。 例えば、自由に動く生物の全脳カルシウムイメージング、複数の標的追跡、複数対人接触のないバイタルサインモニタリングは、ミスマッチしたサンプルチャネルの割り当てによって深刻な影響を受ける可能性がある。 この根本的な問題に体系的に対処するため,サンプルと各チャネルの対応が途絶えた信号再構成問題として機能する。 興味のある信号が過剰に完備な辞書上でスパース表現を許すという仮定の下では、ユニークな信号回復が可能となる。 以上より,この問題は,センシングマトリクスの正確な知識を伴わない構造的無ラベルセンシング問題と同値であることが判明した。 残念ながら、既存のメソッドは回帰器のエラーに対して堅牢ではないし、問題の構造を悪用しない。 そこで本研究では,シャッフルしたスパース信号の再構成のための2段階の頑健な手法を提案する。 提案手法の性能とロバスト性は計算神経科学における全脳カルシウムイメージングの応用で示される。 提案手法は,本研究で検討した信号表現以外のスパース信号表現に一般化することができ,不正確な測定やチャネル割り当てを伴う様々な実世界の問題に適用できる。

Erroneous correspondences between samples and their respective channel or target commonly arise in several real-world applications. For instance, whole-brain calcium imaging of freely moving organisms, multiple target tracking or multi-person contactless vital sign monitoring may be severely affected by mismatched sample-channel assignments. To systematically address this fundamental problem, we pose it as a signal reconstruction problem where we have lost correspondences between the samples and their respective channels. We show that under the assumption that the signals of interest admit a sparse representation over an overcomplete dictionary, unique signal recovery is possible. Our derivations reveal that the problem is equivalent to a structured unlabeled sensing problem without precise knowledge of the sensing matrix. Unfortunately, existing methods are neither robust to errors in the regressors nor do they exploit the structure of the problem. Therefore, we propose a novel robust two-step approach for the reconstruction of shuffled sparse signals. The performance and robustness of the proposed approach is illustrated in an application of whole-brain calcium imaging in computational neuroscience. The proposed framework can be generalized to sparse signal representations other than the ones considered in this work to be applied in a variety of real-world problems with imprecise measurement or channel assignment.
翻訳日:2022-12-15 17:53:38 公開日:2022-12-14
# insar画像のセグメンテーション構築のための完全複素値完全畳み込み多機能融合ネットワーク(fc2mfn)

Fully Complex-valued Fully Convolutional Multi-feature Fusion Network (FC2MFN) for Building Segmentation of InSAR images ( http://arxiv.org/abs/2212.07084v1 )

ライセンス: Link先を確認
Aniruddh Sikdar, Sumanth Udupa, Suresh Sundaram, Narasimhan Sundararajan(参考訳) 高解像度のInSAR画像にセグメンテーションを構築することは、大規模な監視に有用な課題である。 複雑な値の深層学習ネットワークは、実値のSARデータよりも優れているが、位相情報はネットワーク全体に保持されず、情報が失われる。 本稿では,InSAR画像上のセマンティックセマンティックセグメンテーションを構築するための,完全複素数値完全畳み込み多機能融合ネットワーク(FC2MFN)を提案する。 ネットワークはマルチスケールの特徴を学習し、多機能融合を行い、複雑な値の出力を持つ。 複素数値化InSARデータの特異性について,その大きさと位相を考慮した複素数の比較を行った。 これにより、ネットワークはプール層を通じてフェーズ情報を保持できる。 シミュレーションしたInSARデータセットの実験結果から, FC2MFNは, セグメンテーション性能とモデル複雑性の観点から, 他の最先端手法と比較して, より良い結果が得られることが示された。

Building segmentation in high-resolution InSAR images is a challenging task that can be useful for large-scale surveillance. Although complex-valued deep learning networks perform better than their real-valued counterparts for complex-valued SAR data, phase information is not retained throughout the network, which causes a loss of information. This paper proposes a Fully Complex-valued, Fully Convolutional Multi-feature Fusion Network(FC2MFN) for building semantic segmentation on InSAR images using a novel, fully complex-valued learning scheme. The network learns multi-scale features, performs multi-feature fusion, and has a complex-valued output. For the particularity of complex-valued InSAR data, a new complex-valued pooling layer is proposed that compares complex numbers considering their magnitude and phase. This helps the network retain the phase information even through the pooling layer. Experimental results on the simulated InSAR dataset show that FC2MFN achieves better results compared to other state-of-the-art methods in terms of segmentation performance and model complexity.
翻訳日:2022-12-15 17:47:50 公開日:2022-12-14
# マネキンポーズのインタラクティブなスケッチ

Interactive Sketching of Mannequin Poses ( http://arxiv.org/abs/2212.07098v1 )

ライセンス: Link先を確認
Gizem Unlu, Mohamed Sayed, Gabriel Brostow(参考訳) 異なるポーズで人間をスケッチするのは簡単で楽しいことです。 対照的に、3dグラフィック「マネキン」で同じポーズを作るのは比較的退屈です。 しかし、様々な下流アプリケーションには3Dボディポーズが必要である。 2Dスケッチの利便性を保ちつつ,異なるスキルレベルを持つユーザに対して,3Dマネキンを正確に,より高速に表現するための柔軟性を実現する。 対話型システムの中核として, cgマネキンの3次元ポーズをシリンダー・パーソン・スタイルで描く人間のスケッチから推測する機械学習モデルを提案する。 このようなモデルのトレーニングは、アーティストの多様性、対応する地上真理3dポーズのスケッチトレーニングデータの欠如、人間のポーズ空間の高次元のため、難しい。 ベクトルグラフィックスのトレーニングデータを合成する独自のアプローチは、統合ml-アンド-キネマティクスシステムを支える。 本研究では,ユーザインタフェースと密に結合し,定量的比較に加えてユーザスタディを実施することにより,システムの検証を行う。

It can be easy and even fun to sketch humans in different poses. In contrast, creating those same poses on a 3D graphics "mannequin" is comparatively tedious. Yet 3D body poses are necessary for various downstream applications. We seek to preserve the convenience of 2D sketching while giving users of different skill levels the flexibility to accurately and more quickly pose\slash refine a 3D mannequin. At the core of the interactive system, we propose a machine-learning model for inferring the 3D pose of a CG mannequin from sketches of humans drawn in a cylinder-person style. Training such a model is challenging because of artist variability, a lack of sketch training data with corresponding ground truth 3D poses, and the high dimensionality of human pose-space. Our unique approach to synthesizing vector graphics training data underpins our integrated ML-and-kinematics system. We validate the system by tightly coupling it with a user interface, and by performing a user study, in addition to quantitative comparisons.
翻訳日:2022-12-15 17:47:33 公開日:2022-12-14
# M-GenSeg: Annotation-Efficient Supervision を用いたターゲットモード腫瘍分割のためのドメイン適応

M-GenSeg: Domain Adaptation For Target Modality Tumor Segmentation With Annotation-Efficient Supervision ( http://arxiv.org/abs/2212.07276v1 )

ライセンス: Link先を確認
Malo Alefsen de Boisredon d'Assier and Eugene Vorontsov and Samuel Kadoury(参考訳) ディープニューラルネットワークを用いた医用画像の自動セグメンテーションは通常、十分な教師付きトレーニングを必要とする。 しかし、これらのモデルは様々な画像モダリティでうまく一般化できない。 この欠点は、注釈付きデータの可用性の制限によって増幅され、モダリティにまたがる大規模にそのようなメソッドのデプロイを妨げている。 これらの問題に対処するため,我々は非ペア型バイモーダルデータセット上の高精度クロスモダリティ腫瘍分割のための,新しい半教師付き訓練戦略であるm-gensegを提案する。 画像レベルのラベルに基づいて、第1の教師なしの目標は、セグメンテーションタスクを包含する背景から腫瘍を分離することで、健康な翻訳を行うようにモデルに促す。 そこで,画像モダリティ間の変換をモデルに教えることで,ソースモダリティからのターゲット画像の合成を可能にし,ソースモダリティからの画素レベルのアノテーションを活用し,ターゲットモダリティ画像への一般化を強制する。 公開BraTS 2020チャレンジデータセットから4つのコントラストシーケンスからなる脳腫瘍セグメント化データセットの性能評価を行った。 我々は、ソースと無注のターゲットモダリティの両方において、diceスコアの一貫した改善を報告している。 12種類の異なる領域適応実験において、提案モデルは最先端の領域適応ベースラインよりも明確な改善を示し、Diceは目標モダリティ0.15に達する。

Automated medical image segmentation using deep neural networks typically requires substantial supervised training. However, these models fail to generalize well across different imaging modalities. This shortcoming, amplified by the limited availability of annotated data, has been hampering the deployment of such methods at a larger scale across modalities. To address these issues, we propose M-GenSeg, a new semi-supervised training strategy for accurate cross-modality tumor segmentation on unpaired bi-modal datasets. Based on image-level labels, a first unsupervised objective encourages the model to perform diseased to healthy translation by disentangling tumors from the background, which encompasses the segmentation task. Then, teaching the model to translate between image modalities enables the synthesis of target images from a source modality, thus leveraging the pixel-level annotations from the source modality to enforce generalization to the target modality images. We evaluated the performance on a brain tumor segmentation datasets composed of four different contrast sequences from the public BraTS 2020 challenge dataset. We report consistent improvement in Dice scores on both source and unannotated target modalities. On all twelve distinct domain adaptation experiments, the proposed model shows a clear improvement over state-of-the-art domain-adaptive baselines, with absolute Dice gains on the target modality reaching 0.15.
翻訳日:2022-12-15 17:47:18 公開日:2022-12-14
# ConQueR:3Dオブジェクト検出のためのクエリコントラストVoxel-DETR

ConQueR: Query Contrast Voxel-DETR for 3D Object Detection ( http://arxiv.org/abs/2212.07289v1 )

ライセンス: Link先を確認
Benjin Zhu, Zhe Wang, Shaoshuai Shi, Hang Xu, Lanqing Hong, Hongsheng Li(参考訳) DETRベースの3D検出器は、検出パイプラインを単純化し、直接スパース予測を行うことができるが、その性能は、点雲から3D物体を検出するための後処理を伴う密度の高い検出器よりも遅れている。 DETRは通常、GTよりも多くのクエリ(例えばWaymoで300のクエリ対40のオブジェクト)をシーンで採用し、推論中に必然的に多くの偽陽性を発生させる。 本稿では,難解な偽陽性を排除し,より正確かつスペーサーな予測を実現するために,Query Contrast Voxel-DETR (ConQueR) というシンプルで効果的なスパース3D検出器を提案する。 我々は,局所的に類似したクエリを判別するための明示的な監督が欠如していることから,偽陽性が最も重なり合っていることを観察する。 そこで本稿では,全ての未整合クエリ予測に対して,最良整合GTに対してクエリを明示的に拡張するクエリコントラスト機構を提案する。 これは、各GTに対する正および負のGT-クエリ対の構築と、特徴類似性に基づく負のGT-クエリ対に対する正のGT-クエリ対を強化するための対照的な損失によって達成される。 ConQueRはスパースと密度の高い3D検出器のギャップを埋め、最大60%の偽陽性を減少させる。 当社のシングルフレームConQueRは、Waymo Open Datasetバリデーションセット上で、新たな最先端(ソータ)71.6 mAPH/L2を実現しています。

Although DETR-based 3D detectors can simplify the detection pipeline and achieve direct sparse predictions, their performance still lags behind dense detectors with post-processing for 3D object detection from point clouds. DETRs usually adopt a larger number of queries than GTs (e.g., 300 queries v.s. 40 objects in Waymo) in a scene, which inevitably incur many false positives during inference. In this paper, we propose a simple yet effective sparse 3D detector, named Query Contrast Voxel-DETR (ConQueR), to eliminate the challenging false positives, and achieve more accurate and sparser predictions. We observe that most false positives are highly overlapping in local regions, caused by the lack of explicit supervision to discriminate locally similar queries. We thus propose a Query Contrast mechanism to explicitly enhance queries towards their best-matched GTs over all unmatched query predictions. This is achieved by the construction of positive and negative GT-query pairs for each GT, and a contrastive loss to enhance positive GT-query pairs against negative ones based on feature similarities. ConQueR closes the gap of sparse and dense 3D detectors, and reduces up to ~60% false positives. Our single-frame ConQueR achieves new state-of-the-art (sota) 71.6 mAPH/L2 on the challenging Waymo Open Dataset validation set, outperforming previous sota methods (e.g., PV-RCNN++) by over 2.0 mAPH/L2.
翻訳日:2022-12-15 17:46:55 公開日:2022-12-14
# 偽写検出パターンのブラインド検出のための印刷画像チャネルの数学的モデル

Mathematical model of printing-imaging channel for blind detection of fake copy detection patterns ( http://arxiv.org/abs/2212.07326v1 )

ライセンス: Link先を確認
Joakim Tutt, Olga Taran, Roman Chaban, Brian Pulfer, Yury Belousov, Taras Holotyak, Slava Voloshynovskiy(参考訳) 現在、コピー検出パターン(CDP)は、物理的オブジェクト保護のための非常に有望な反偽造技術として現れている。 しかし、強力な攻撃ツールとしての深層学習の出現は、一般的な認証方式がこのような攻撃に対抗して失敗することができないことを示している。 本稿では,CDP認証のための印刷画像チャネルの数学的モデルと,それに基づく新たな検出手法を提案する。 その結果,学習段階において未知の複写偽の深層学習であっても,提案手法に基づいて確実な認証が可能であり,認証中にCDPのデジタル参照のみを使用することができた。

Nowadays, copy detection patterns (CDP) appear as a very promising anti-counterfeiting technology for physical object protection. However, the advent of deep learning as a powerful attacking tool has shown that the general authentication schemes are unable to compete and fail against such attacks. In this paper, we propose a new mathematical model of printing-imaging channel for the authentication of CDP together with a new detection scheme based on it. The results show that even deep learning created copy fakes unknown at the training stage can be reliably authenticated based on the proposed approach and using only digital references of CDP during authentication.
翻訳日:2022-12-15 17:46:22 公開日:2022-12-14
# 製品量子化マスク画像モデリングによる画像圧縮

Image Compression with Product Quantized Masked Image Modeling ( http://arxiv.org/abs/2212.07372v1 )

ライセンス: Link先を確認
Alaaeldin El-Nouby, Matthew J. Muckley, Karen Ullrich, Ivan Laptev, Jakob Verbeek, Herv\'e J\'egou(参考訳) 最近のニューラル圧縮法は、人気のあるhyperpriorフレームワークに基づいている。 Scalar Quantizationに依存しており、非常に強力な圧縮パフォーマンスを提供します。 これは、ベクトル量子化が一般的に用いられる画像生成と表現学習の最近の進歩とは対照的である。 本研究では,画像圧縮のためのベクトル量子化を再考することにより,これらの研究線を近づけることを試みる。 VQ-VAEフレームワーク上に構築し、いくつかの修正を導入する。 まず、バニラベクトル量子化器を積量子化器で置き換える。 ベクトルとスカラー量子化の間の中間解は、より広い速度歪み点の集合を可能にする: 暗黙的に、非常に大きなコードブックを必要とする高品質な量子化器を定義する。 第二に、自己教師付き学習および生成画像モデルにおけるMasked Image Modeling(MIM)の成功に触発され、量子化潜在符号の共依存性をモデル化してエントロピー符号化を改善する条件付きエントロピーモデルを提案する。 結果として得られるPQ-MIMモデルは驚くほど効果的である。 また、知覚的損失(例えば、敵)に最適化された場合、FIDとKIDの指標でHiFiCを上回っている。 最後に、pq-mimは画像生成フレームワークと互換性があるので、さらなるトレーニングや微調整をすることなく、圧縮と生成のハイブリッドモードで動作できることを定性的に示します。 その結果、画像が200バイト、すなわち1ツイート未満に圧縮される、極端な圧縮方式を探求する。

Recent neural compression methods have been based on the popular hyperprior framework. It relies on Scalar Quantization and offers a very strong compression performance. This contrasts from recent advances in image generation and representation learning, where Vector Quantization is more commonly employed. In this work, we attempt to bring these lines of research closer by revisiting vector quantization for image compression. We build upon the VQ-VAE framework and introduce several modifications. First, we replace the vanilla vector quantizer by a product quantizer. This intermediate solution between vector and scalar quantization allows for a much wider set of rate-distortion points: It implicitly defines high-quality quantizers that would otherwise require intractably large codebooks. Second, inspired by the success of Masked Image Modeling (MIM) in the context of self-supervised learning and generative image models, we propose a novel conditional entropy model which improves entropy coding by modelling the co-dependencies of the quantized latent codes. The resulting PQ-MIM model is surprisingly effective: its compression performance on par with recent hyperprior methods. It also outperforms HiFiC in terms of FID and KID metrics when optimized with perceptual losses (e.g. adversarial). Finally, since PQ-MIM is compatible with image generation frameworks, we show qualitatively that it can operate under a hybrid mode between compression and generation, with no further training or finetuning. As a result, we explore the extreme compression regime where an image is compressed into 200 bytes, i.e., less than a tweet.
翻訳日:2022-12-15 17:46:12 公開日:2022-12-14
# 軌道ユーザリンクは想像以上に簡単

Trajectory-User Linking Is Easier Than You Think ( http://arxiv.org/abs/2212.07081v1 )

ライセンス: Link先を確認
Alameen Najjar, Kyle Mede(参考訳) track-user link (tul) は比較的新しいモビリティ分類タスクであり、匿名のトラジェクタが生成したユーザとリンクされる。 パーソナライズされたレコメンデーションから犯罪行為の検出に至るまで、TULは過去5年間で注目されている。 個々のユーザ特有の複雑な時空間的モビリティパターンを抽出する深層表現の学習を中心に研究が行われてきたが、訪問パターンはユーザ間で非常にユニークなものであり、生データに直接適用される単純なヒューリスティックはTULを解くのに十分であることを示す。 より具体的には、トラジェクトリ毎に1つのチェックインが、ユーザのアイデンティティを最大85%まで正確に予測するのに十分であることを示す。 さらに,非パラメトリック分類器を用いることで,TULを100万以上のユーザにスケールアップする。 実世界の4つのデータセット(Brightkite、Foursquare、Gowalla、Weeplaces)に関する大規模な実証分析は、私たちの発見を最先端の結果と比較し、より重要なのは、TULは一般的に信じられているよりも容易である、という私たちの主張を検証することです。

Trajectory-User Linking (TUL) is a relatively new mobility classification task in which anonymous trajectories are linked to the users who generated them. With applications ranging from personalized recommendations to criminal activity detection, TUL has received increasing attention over the past five years. While research has focused mainly on learning deep representations that capture complex spatio-temporal mobility patterns unique to individual users, we demonstrate that visit patterns are highly unique among users and thus simple heuristics applied directly to the raw data are sufficient to solve TUL. More specifically, we demonstrate that a single check-in per trajectory is enough to correctly predict the identity of the user up to 85% of the time. Moreover, by using a non-parametric classifier, we scale up TUL to over 100k users which is an increase over state-of-the-art by three orders of magnitude. Extensive empirical analysis on four real-world datasets (Brightkite, Foursquare, Gowalla and Weeplaces) compares our findings to state-of-the-art results, and more importantly validates our claim that TUL is easier than commonly believed.
翻訳日:2022-12-15 17:38:59 公開日:2022-12-14
# API-Spector: API-to-API仕様推奨エンジン

API-Spector: an API-to-API Specification Recommendation Engine ( http://arxiv.org/abs/2212.07253v1 )

ライセンス: Link先を確認
Sae Young Moon, Fran Silavong, Sean Moran(参考訳) 大規模なプロジェクトのための新しいAPIを設計する場合、開発者はコードベースが持続的に成長できるように、スマートな設計選択をする必要がある。 新しいAPIコンポーネントが適切に設計されていることを保証するため、開発者は既存のAPIコンポーネントから学ぶことができる。 しかし、API設計を比較するための標準化された方法がないため、この学習プロセスは時間がかかり、困難である。 このギャップに対処するため、私たちはAPI-Spectorを開発しました。 API-SpectorはOpenAPI(Web APIを記述するために広く採用されている言語)で記述された関連する仕様コンポーネントを検索する。 API-Spectorは,(1)OpenAPI仕様からキー情報を処理および抽出する新しい手法,(2)高度に技術的に最適化された特徴抽出技術,(3)クエリ仕様が与えられた関連性および高品質なOpenAPI仕様コンポーネントを検索するために複数の信号を組み合わせた新しいログ線形確率モデルなど,いくつかの重要なコントリビューションを提供する。 定量的および定性的なタスクにおいてapi-spectorを評価し,総計91.7%のrecall@1と56.2%のf1を達成し,re recall@1では15.4%,f1では3.2%のベースライン性能を上回った。 全体として、API-SpectorはAPI開発サイクルの初期段階で、公開あるいは内部データベースから関連するOpenAPI仕様コンポーネントを取得できるようにする。 開発者が開発プロセスを加速し、コードの保守性と品質を促進するようにデザインされたapiを提供するためのガイダンスを提供する。

When designing a new API for a large project, developers need to make smart design choices so that their code base can grow sustainably. To ensure that new API components are well designed, developers can learn from existing API components. However, the lack of standardized method for comparing API designs makes this learning process time-consuming and difficult. To address this gap we developed the API-Spector, to the best of our knowledge one of the first API-to-API specification recommendation engines. API-Spector retrieves relevant specification components written in OpenAPI (a widely adopted language used to describe web APIs). API-Spector presents several significant contributions, including: (1) novel methods of processing and extracting key information from OpenAPI specifications, (2) innovative feature extraction techniques that are optimized for the highly technical API specification domain, and (3) a novel log-linear probabilistic model that combines multiple signals to retrieve relevant and high quality OpenAPI specification components given a query specification. We evaluate API-Spector in both quantitative and qualitative tasks and achieve an overall of 91.7% recall@1 and 56.2% F1, which surpasses baseline performance by 15.4% in recall@1 and 3.2% in F1. Overall, API-Spector will allow developers to retrieve relevant OpenAPI specification components from a public or internal database in the early stages of the API development cycle, so that they can learn from existing established examples and potentially identify redundancies in their work. It provides the guidance developers need to accelerate development process and contribute thoughtfully designed APIs that promote code maintainability and quality.
翻訳日:2022-12-15 17:38:36 公開日:2022-12-14
# 深部強化学習に基づく量子制御

Quantum Control based on Deep Reinforcement Learning ( http://arxiv.org/abs/2212.07385v1 )

ライセンス: Link先を確認
Zhikang Wang(参考訳) 本論では,2つの単純だが典型的な制御問題を考察し,一次元二次ポテンシャルあるいは準ポテンシャルにおいて連続的な位置測定の対象となる粒子を冷却・制御するために,深部強化学習を適用する。 この2つの問題に対する強化学習制御の性能と従来の制御戦略を比較し,強化学習が二次ケースの最適制御に匹敵する性能を達成し,最適制御戦略が未知な四次ケースの従来の制御戦略よりも優れていることを示す。 我々の知る限り、連続実空間における量子制御問題に深層強化学習を適用するのはこれが初めてである。 我々の研究は、実空間における確率的量子システムを実空間で効果的に制御するために、深層強化学習を用いることを実証し、また、十分に理解されていない量子システムの新しい制御戦略と特性をAIが発見できることを示し、科学研究の新しい体制を開くことで、これらの問題に対する洞察を得ることができることを示した。

In this thesis, we consider two simple but typical control problems and apply deep reinforcement learning to them, i.e., to cool and control a particle which is subject to continuous position measurement in a one-dimensional quadratic potential or in a quartic potential. We compare the performance of reinforcement learning control and conventional control strategies on the two problems, and show that the reinforcement learning achieves a performance comparable to the optimal control for the quadratic case, and outperforms conventional control strategies for the quartic case for which the optimal control strategy is unknown. To our knowledge, this is the first time deep reinforcement learning is applied to quantum control problems in continuous real space. Our research demonstrates that deep reinforcement learning can be used to control a stochastic quantum system in real space effectively as a measurement-feedback closed-loop controller, and our research also shows the ability of AI to discover new control strategies and properties of the quantum systems that are not well understood, and we can gain insights into these problems by learning from the AI, which opens up a new regime for scientific research.
翻訳日:2022-12-15 17:38:08 公開日:2022-12-14
# 高次元予測回帰のためのLASSOについて

On LASSO for High Dimensional Predictive Regression ( http://arxiv.org/abs/2212.07052v1 )

ライセンス: Link先を確認
Ziwei Mei and Zhentao Shi(参考訳) ポテンシャル予測器の数をサンプルサイズより大きくできる高次元線形予測回帰では,l1ペナライズド回帰法であるlassoを用いて,多数の単位根回帰器が存在する場合のスパース係数を推定する。 LASSOの整合性は、回帰器の交叉積の偏差境界と誤差項と、回帰器のグラム行列の制限固有値の2つの構成要素に依存する。 単位根回帰器が時相依存的非ガウス的革新によって駆動されるような環境では、これらの2つの構成要素の確率的境界を確立する。 この境界は、LASSOの収束速度がよく知られた断面の場合と異なることを意味する。 定常予測器と非定常予測器を混合した実用的な応用では、全ての予測器がスケール標準化された場合、LASSOの漸近保証が保存される。 多くのマクロ経済時系列で失業率を予測する実証的な例では、最初の仕様がマクロ経済分野の専門知識によって導かれるとき、LASSOによって強い性能が提供される。

In a high dimensional linear predictive regression where the number of potential predictors can be larger than the sample size, we consider using LASSO, a popular L1-penalized regression method, to estimate the sparse coefficients when many unit root regressors are present. Consistency of LASSO relies on two building blocks: the deviation bound of the cross product of the regressors and the error term, and the restricted eigenvalue of the Gram matrix of the regressors. In our setting where unit root regressors are driven by temporal dependent non-Gaussian innovations, we establish original probabilistic bounds for these two building blocks. The bounds imply that the rates of convergence of LASSO are different from those in the familiar cross sectional case. In practical applications given a mixture of stationary and nonstationary predictors, asymptotic guarantee of LASSO is preserved if all predictors are scale-standardized. In an empirical example of forecasting the unemployment rate with many macroeconomic time series, strong performance is delivered by LASSO when the initial specification is guided by macroeconomic domain expertise.
翻訳日:2022-12-15 17:37:46 公開日:2022-12-14
# 教師なし音声再構成を用いたディエンタングリング韻律表現

Disentangling Prosody Representations with Unsupervised Speech Reconstruction ( http://arxiv.org/abs/2212.06972v1 )

ライセンス: Link先を確認
Leyuan Qu, Taihao Li, Cornelius Weber, Theresa Pekarek-Rosin, Fuji Ren and Stefan Wermter(参考訳) 人間の発話は、意味内容、話者のアイデンティティ、韻律情報など、様々な要素によって特徴づけられる。 自動音声認識(ASR)と話者検証タスクにおいて,意味内容の表現と話者識別を分離する上で重要な進歩が見られた。 しかし、音色やリズムなどの異なる属性の固有の関連性や、大規模で話者に依存しないASRを実現するための教師なしのトレーニングスキームの必要性から、韻律情報を抽出することは依然としてオープンな研究課題である。 本研究の目的は,教師なしの再構築に基づく音声からの感情的韻律の偏りを解消することである。 具体的には,(1)音声信号をセマンティクスコンテンツの離散単位に変換する単位エンコーダ,(2)話者識別埋め込みを生成する事前学習型話者検証モデル,(3)韻律表現を学習する訓練可能な韻律エンコーダ,の3つの重要な構成要素を特定し,設計,実装し,統合する。 まず, 感情的コーパスのProsody2Vec表現を事前訓練し, 特定のデータセットのモデルを微調整し, 音声感情認識(SER)と感情音声変換(EVC)タスクを実行する。 EVCタスクにおける客観的および主観的評価は、Prosody2Vecが他の感情音声にスムーズに伝達できる一般的な韻律的特徴を効果的に捉えることを示唆している。 さらに,IEMOCAPデータセット上でのSER実験により,Prosody2Vecが学習した韻律特徴が,広く使用されている事前学習モデルの性能に相補的で有益であること,Prosody2Vecと HuBERT表現を組み合わせる際の最先端手法を超越していることが明らかになった。 いくつかのオーディオサンプルは、私たちのデモwebサイトにある。

Human speech can be characterized by different components, including semantic content, speaker identity and prosodic information. Significant progress has been made in disentangling representations for semantic content and speaker identity in Automatic Speech Recognition (ASR) and speaker verification tasks respectively. However, it is still an open challenging research question to extract prosodic information because of the intrinsic association of different attributes, such as timbre and rhythm, and because of the need for unsupervised training schemes to achieve robust large-scale and speaker-independent ASR. The aim of this paper is to address the disentanglement of emotional prosody from speech based on unsupervised reconstruction. Specifically, we identify, design, implement and integrate three crucial components in our proposed speech reconstruction model Prosody2Vec: (1) a unit encoder that transforms speech signals into discrete units for semantic content, (2) a pretrained speaker verification model to generate speaker identity embeddings, and (3) a trainable prosody encoder to learn prosody representations. We first pretrain the Prosody2Vec representations on unlabelled emotional speech corpora, then fine-tune the model on specific datasets to perform Speech Emotion Recognition (SER) and Emotional Voice Conversion (EVC) tasks. Both objective and subjective evaluations on the EVC task suggest that Prosody2Vec effectively captures general prosodic features that can be smoothly transferred to other emotional speech. In addition, our SER experiments on the IEMOCAP dataset reveal that the prosody features learned by Prosody2Vec are complementary and beneficial for the performance of widely used speech pretraining models and surpass the state-of-the-art methods when combining Prosody2Vec with HuBERT representations. Some audio samples can be found on our demo website.
翻訳日:2022-12-15 17:37:27 公開日:2022-12-14
# 衛星画像における対象記述

Object Delineation in Satellite Images ( http://arxiv.org/abs/2212.07020v1 )

ライセンス: Link先を確認
Zhuocheng Shang, Ahmed Eldawy(参考訳) 機械学習は、分類や特徴検出といった問題で衛星データを分析するために広く応用されている。 従来の画像処理アルゴリズムとは異なり、地理空間アプリケーションは検出されたオブジェクトをラスタ形式から地理空間ベクトル形式に変換して解析する必要がある。 このgemは、衛星画像から地理空間オブジェクトを抽出するMLアルゴリズムによってマークされた画素を記述するための単純で軽量なアルゴリズムを提供する。 提案アルゴリズムは正確であり,アプリケーションのニーズに応じて単純化と近似を適用することができる。

Machine learning is being widely applied to analyze satellite data with problems such as classification and feature detection. Unlike traditional image processing algorithms, geospatial applications need to convert the detected objects from a raster form to a geospatial vector form to further analyze it. This gem delivers a simple and light-weight algorithm for delineating the pixels that are marked by ML algorithms to extract geospatial objects from satellite images. The proposed algorithm is exact and users can further apply simplification and approximation based on the application needs.
翻訳日:2022-12-15 17:36:28 公開日:2022-12-14
# 自動変形性膝関節症に対するunsupervised domain Adaptation

Unsupervised Domain Adaptation for Automated Knee Osteoarthritis Phenotype Classification ( http://arxiv.org/abs/2212.07023v1 )

ライセンス: Link先を確認
Junru Zhong, Yongcheng Yao, Donal G. Cahill, Fan Xiao, Siyue Li, Jack Lee, Kevin Ki-Wai Ho, Michael Tim-Yun Ong, James F. Griffith and Weitian Chen(参考訳) 目的: 本研究の目的は, 小データセット(n=50)を用いた自動膝関節症(OA)表現型分類における非教師なし領域適応(UDA)の有用性を実証することであった。 材料と方法: この振り返り調査では, 関節症イニシアチブデータセットから3,166個の3次元3D-echo定常磁気共鳴(MR)画像, 当研究所(2020年と2021年)から50個の3次元ターボ/高速スピンエコーMR画像を収集した。 各患者の膝oaの程度は,mriの変形性膝関節症スコア(moaks)により評価され,その後2種類のoa表現型に変化した。 提案されたUDAパイプラインには a) 自動セグメンテーション及び興味のある領域の切り込みを含む前処理 b) ソースデータセット上の表現型分類器を事前訓練したソース分類器訓練 (c) ターゲットエンコーダへのソースエンコーダの教師なし適応及び対象エンコーダへの適応を含むターゲットエンコーダ適応 (d)ターゲット分類器の検証は,受信器動作特性曲線(AUROC)の領域,感度,特異性,精度で評価された対象分類性能の統計的解析を含む。 さらに、UDAを使わずに分類器を訓練した。 結果: UDAで訓練した標的分類器は, 両膝OA表現型に対するAUROC, 感度, 特異度, 精度を, UDAで訓練した分類器と比較して改善した。 結論:提案するUDAアプローチは,大規模で高品質なソースデータセットをトレーニングに活用することにより,小さなターゲットデータセットに対する自動膝OA表現型分類の性能を向上させる。 結果は,小データセットの分類におけるUDAアプローチの利点を実証した。

Purpose: The aim of this study was to demonstrate the utility of unsupervised domain adaptation (UDA) in automated knee osteoarthritis (OA) phenotype classification using a small dataset (n=50). Materials and Methods: For this retrospective study, we collected 3,166 three-dimensional (3D) double-echo steady-state magnetic resonance (MR) images from the Osteoarthritis Initiative dataset and 50 3D turbo/fast spin-echo MR images from our institute (in 2020 and 2021) as the source and target datasets, respectively. For each patient, the degree of knee OA was initially graded according to the MRI Osteoarthritis Knee Score (MOAKS) before being converted to binary OA phenotype labels. The proposed UDA pipeline included (a) pre-processing, which involved automatic segmentation and region-of-interest cropping; (b) source classifier training, which involved pre-training phenotype classifiers on the source dataset; (c) target encoder adaptation, which involved unsupervised adaption of the source encoder to the target encoder and (d) target classifier validation, which involved statistical analysis of the target classification performance evaluated by the area under the receiver operating characteristic curve (AUROC), sensitivity, specificity and accuracy. Additionally, a classifier was trained without UDA for comparison. Results: The target classifier trained with UDA achieved improved AUROC, sensitivity, specificity and accuracy for both knee OA phenotypes compared with the classifier trained without UDA. Conclusion: The proposed UDA approach improves the performance of automated knee OA phenotype classification for small target datasets by utilising a large, high-quality source dataset for training. The results successfully demonstrated the advantages of the UDA approach in classification on small datasets.
翻訳日:2022-12-15 17:36:19 公開日:2022-12-14
# PD-Quant:予測差分量に基づくポストトレーニング量子化

PD-Quant: Post-Training Quantization based on Prediction Difference Metric ( http://arxiv.org/abs/2212.07048v1 )

ライセンス: Link先を確認
Jiawei Liu, Lin Niu, Zhihang Yuan, Dawei Yang, Xinggang Wang, Wenyu Liu(参考訳) ニューラルネットワーク圧縮手法として、ptq(post-training quantization)は、事前学習されたモデルを低精度データ型を用いて量子化モデルに変換する。 しかし、特に極低ビット設定では、量子化ノイズのために予測精度が低下する。 適切な量子化パラメータ(例えば、スケーリング係数や重みの丸めなど)を決定する方法は、現在直面している主な問題である。 多くの既存手法は、量子化前後の特徴間の距離を最小化することで量子化パラメータを決定する。 この距離を使って量子化パラメータを最適化することは、ローカル情報のみを考慮する。 局所的なメトリクスを最小化する問題を分析し、最適な量子化パラメータが得られないことを示す。 さらに,ptqのキャリブレーションサンプル数が少ないため,量子化モデルでは過剰フィッティングに支障をきたす。 本稿では,その問題を解決するためにPD-Quantを提案する。 pd-quantは、量子化前後のネットワーク予測の差の情報を用いて量子化パラメータを決定する。 オーバーフィッティング問題を緩和するため、PD-QuantはPTQにおけるアクティベーションの分布を調整する。 実験により、PD-Quantは量子化パラメータが向上し、特に低ビット設定において量子化モデルの予測精度が向上することが示された。 例えば、pd-quantはresnet-18の精度を53.08%、regnetx-600mfを40.92%まで押し上げる。 コードはhttps://github.com/hustvl/pd-quantでリリースされる。

As a neural network compression technique, post-training quantization (PTQ) transforms a pre-trained model into a quantized model using a lower-precision data type. However, the prediction accuracy will decrease because of the quantization noise, especially in extremely low-bit settings. How to determine the appropriate quantization parameters (e.g., scaling factors and rounding of weights) is the main problem facing now. Many existing methods determine the quantization parameters by minimizing the distance between features before and after quantization. Using this distance as the metric to optimize the quantization parameters only considers local information. We analyze the problem of minimizing local metrics and indicate that it would not result in optimal quantization parameters. Furthermore, the quantized model suffers from overfitting due to the small number of calibration samples in PTQ. In this paper, we propose PD-Quant to solve the problems. PD-Quant uses the information of differences between network prediction before and after quantization to determine the quantization parameters. To mitigate the overfitting problem, PD-Quant adjusts the distribution of activations in PTQ. Experiments show that PD-Quant leads to better quantization parameters and improves the prediction accuracy of quantized models, especially in low-bit settings. For example, PD-Quant pushes the accuracy of ResNet-18 up to 53.08% and RegNetX-600MF up to 40.92% in weight 2-bit activation 2-bit. The code will be released at https://github.com/hustvl/PD-Quant.
翻訳日:2022-12-15 17:35:47 公開日:2022-12-14
# 量子コンピュータによるディジタル画像の表現と圧縮のための新しい状態接続戦略

A novel state connection strategy for quantum computing to represent and compress digital images ( http://arxiv.org/abs/2212.07079v1 )

ライセンス: Link先を確認
Md Ershadul Haque, Manoranjan Paul, Tanmoy Debnath(参考訳) 量子画像処理は、従来のデータ処理システムに比べて高速なデータ計算とストレージのために多くの注目を集めている。 古典的な画像データを量子ドメインに変換し、状態ラベル作成の複雑さは依然として難しい問題である。 既存の技術は通常、ピクセル値と状態位置を直接接続する。 近年、EFRQI(量子画像のフレキシブルな表現)アプローチでは、ピクセル表現キュービットをToffoliゲートを介して状態位置キュービットに接続し、状態接続を低減する補助量子ビットを使用する。 各ピクセル接続に2倍の toffoli ゲートを使用するため、各ピクセル値の接続には相当数のビットが必要である。 本稿では,同じトフォリゲート接続をリセットゲートとして使用することを繰り返すのではなく,リセットゲートを用いて状態接続を変更することで,必要なビットをさらに削減するSCMFRQI(state connection modified FRQI)アプローチを提案する。 さらに,従来の方法とは異なり,ブロックレベルを用いて画像の圧縮を行い,必要なキュービットの削減を図る。 実験により,提案手法は画像表現と圧縮点の両方の観点から既存手法よりも優れていることを確認した。

Quantum image processing draws a lot of attention due to faster data computation and storage compared to classical data processing systems. Converting classical image data into the quantum domain and state label preparation complexity is still a challenging issue. The existing techniques normally connect the pixel values and the state position directly. Recently, the EFRQI (efficient flexible representation of the quantum image) approach uses an auxiliary qubit that connects the pixel-representing qubits to the state position qubits via Toffoli gates to reduce state connection. Due to the twice use of Toffoli gates for each pixel connection still it requires a significant number of bits to connect each pixel value. In this paper, we propose a new SCMFRQI (state connection modification FRQI) approach for further reducing the required bits by modifying the state connection using a reset gate rather than repeating the use of the same Toffoli gate connection as a reset gate. Moreover, unlike other existing methods, we compress images using block-level for further reduction of required qubits. The experimental results confirm that the proposed method outperforms the existing methods in terms of both image representation and compression points of view.
翻訳日:2022-12-15 17:35:24 公開日:2022-12-14
# 森林分類器と回帰器の簡易化

Simplification of Forest Classifiers and Regressors ( http://arxiv.org/abs/2212.07103v1 )

ライセンス: Link先を確認
Atsuyoshi Nakamura, Kento Sakurada(参考訳) 分類性能を維持しつつ,森林分類器や回帰器の分枝条件をできるだけ多く共有する問題について検討する。 精度低下を防止するための制約として,我々はまず,与えられたすべての特徴ベクトルの決定経路が変化してはならないと考える。 ある特徴の値が与えられた閾値以上である分岐条件において、そのような制約を満たす値の集合を区間として表現することができる。 したがって、問題は、同じ特徴上の分岐条件の集合ごとに全ての制約満足区間を交わす最小集合を求める問題に還元される。 本稿では,この問題を効率的に解くアルゴリズムを用いて,原問題に対するアルゴリズムを提案する。 制約は後に緩和され、与えられた特徴ベクトルの特定の比率の決定経路の変更を許可したり、ある数の非交差制約満足区間を許容することにより分岐条件のさらなる共有を促進する。 また,緩和のためのアルゴリズムも拡張した。 本手法の有効性は,21のデータセット(UCI機械学習レポジトリの13の分類と8の回帰データセット)と4の分類器/回帰器(ランダム林,極ランダム木,AdaBoost,勾配ブースティング)を用いた総合的な実験により実証された。

We study the problem of sharing as many branching conditions of a given forest classifier or regressor as possible while keeping classification performance. As a constraint for preventing from accuracy degradation, we first consider the one that the decision paths of all the given feature vectors must not change. For a branching condition that a value of a certain feature is at most a given threshold, the set of values satisfying such constraint can be represented as an interval. Thus, the problem is reduced to the problem of finding the minimum set intersecting all the constraint-satisfying intervals for each set of branching conditions on the same feature. We propose an algorithm for the original problem using an algorithm solving this problem efficiently. The constraint is relaxed later to promote further sharing of branching conditions by allowing decision path change of a certain ratio of the given feature vectors or allowing a certain number of non-intersected constraint-satisfying intervals. We also extended our algorithm for both the relaxations. The effectiveness of our method is demonstrated through comprehensive experiments using 21 datasets (13 classification and 8 regression datasets in UCI machine learning repository) and 4 classifiers/regressors (random forest, extremely randomized trees, AdaBoost and gradient boosting).
翻訳日:2022-12-15 15:26:02 公開日:2022-12-14
# 指向性直接フィードバックアライメント:ニューラルネットワークの効率的な学習のためのバックプロパゲーションパスの推定

Directional Direct Feedback Alignment: Estimating Backpropagation Paths for Efficient Learning on Neural Processors ( http://arxiv.org/abs/2212.07282v1 )

ライセンス: Link先を確認
Florian Bacho and Dominique Chu(参考訳) エラーバックプロパゲーションアルゴリズム(BP)は、ディープニューラルネットワークをトレーニングするための重要な手法である。 パフォーマンスは高いが、計算、メモリ使用量、エネルギーの面ではリソースが要求される。 これにより、高い処理レートと低いエネルギー消費を必要とするエッジデバイス上でのオンライン学習には適さない。 さらに重要なことは、BPは専用のニューラルプロセッサが提供する並列性と局所特性を生かしていない。 そのため、BPに代わるアルゴリズムが要求されており、ハードウェア上のニューラルネットワークのレイテンシ、メモリ要求、エネルギーフットプリントを改善することができる。 本研究では,前方モードの自動微分を用いてバックプロパゲーションパスを推定し,オンライン形式でフィードバック接続を学習するdirect feedback alignment(dfa)に基づく新しい手法を提案する。 DFAの局所性と並列化特性を生かしながら、いくつかのベンチマークデータセットやアーキテクチャ上での他のフィードバック手法よりもBPに近い性能を実現することを実験的に示す。 さらに,他のフィードバック学習アルゴリズムとは異なり,提案手法は畳み込み層に対する安定した学習を提供する。

The error Backpropagation algorithm (BP) is a key method for training deep neural networks. While performant, it is also resource-demanding in terms of computation, memory usage and energy. This makes it unsuitable for online learning on edge devices that require a high processing rate and low energy consumption. More importantly, BP does not take advantage of the parallelism and local characteristics offered by dedicated neural processors. There is therefore a demand for alternative algorithms to BP that could improve the latency, memory requirements, and energy footprint of neural networks on hardware. In this work, we propose a novel method based on Direct Feedback Alignment (DFA) which uses Forward-Mode Automatic Differentiation to estimate backpropagation paths and learn feedback connections in an online manner. We experimentally show that Directional DFA achieves performances that are closer to BP than other feedback methods on several benchmark datasets and architectures while benefiting from the locality and parallelization characteristics of DFA. Moreover, we show that, unlike other feedback learning algorithms, our method provides stable learning for convolution layers.
翻訳日:2022-12-15 15:25:39 公開日:2022-12-14
# ディリクレメタモデルを用いたポストホック不確実性学習

Post-hoc Uncertainty Learning using a Dirichlet Meta-Model ( http://arxiv.org/abs/2212.07359v1 )

ライセンス: Link先を確認
Maohao Shen, Yuheng Bu, Prasanna Sattigeri, Soumya Ghosh, Subhro Das, Gregory Wornell(参考訳) ニューラルネットワークは、出力ラベル分布を直接使用して不確実性対策を生成する際に、過信である。 既存の手法では、モデル全体をトレーニングして不確実性定量化能力を課し、学習したモデルが精度と不確実性予測を同時に達成できるようにすることで、この問題を主に解決している。 しかし、スクラッチからモデルをトレーニングするのは計算コストが高く、多くの状況では実現できない。 本研究では,より実践的なポストホックな不確実性学習環境について考察し,訓練の第2段階における不確実性定量化課題に焦点をあてる。 本稿では,不確実性定量化能力の優れた事前学習モデルを構築するための新しいベイズメタモデルを提案する。 提案手法は、追加のトレーニングデータを必要としないため、異なる不確実性を定量化し、ドメイン外データ検出、誤分類検出、信頼できるトランスファー学習など、異なるアプリケーション設定に容易に適応できる。 本稿では,複数の画像分類ベンチマークを用いて,メタモデルアプローチの柔軟性と実験性能を実証する。

It is known that neural networks have the problem of being over-confident when directly using the output label distribution to generate uncertainty measures. Existing methods mainly resolve this issue by retraining the entire model to impose the uncertainty quantification capability so that the learned model can achieve desired performance in accuracy and uncertainty prediction simultaneously. However, training the model from scratch is computationally expensive and may not be feasible in many situations. In this work, we consider a more practical post-hoc uncertainty learning setting, where a well-trained base model is given, and we focus on the uncertainty quantification task at the second stage of training. We propose a novel Bayesian meta-model to augment pre-trained models with better uncertainty quantification abilities, which is effective and computationally efficient. Our proposed method requires no additional training data and is flexible enough to quantify different uncertainties and easily adapt to different application settings, including out-of-domain data detection, misclassification detection, and trustworthy transfer learning. We demonstrate our proposed meta-model approach's flexibility and superior empirical performance on these applications over multiple representative image classification benchmarks.
翻訳日:2022-12-15 15:25:22 公開日:2022-12-14
# 確率的エキスパートの混合によるセグメンテーションにおけるマルチモーダルアレタリック不確かさのモデル化

Modeling Multimodal Aleatoric Uncertainty in Segmentation with Mixture of Stochastic Expert ( http://arxiv.org/abs/2212.07328v1 )

ライセンス: Link先を確認
Zhitong Gao, Yucong Chen, Chuyu Zhang, Xuming He(参考訳) 安全クリティカルな応用には,予測セグメンテーションとキャリブレーションの不確かさの獲得が不可欠である。 本研究は,入力画像に曖昧性が存在する場合のセグメンテーションにおけるデータ不連続な不確実性(別名アレエータ的不確実性)の把握に焦点をあてる。 曖昧な画像の分割における高次元出力空間と潜在的多重モードのため、セグメント化の不確実性を予測することは依然として困難である。 この問題に対処するために,各専門家ネットワークがアレーラティック不確実性の異なるモードを推定し,ゲーティングネットワークがそれらのモードにセグメント化されている入力画像の確率を予測する,新しい確率的専門家モデル(MoSE)を提案する。 これにより、効率的な2レベル不確実性表現が得られる。 このモデルを学習するために,MoSE と基底真理アノテーション間の分布距離を直接最小化する Wasserstein-like loss を開発した。 損失は従来のセグメンテーション品質指標を容易に統合でき、制約緩和によって効率的に最適化できる。 LIDC-IDRIデータセットと修正型マルチモーダルCityscapesデータセットの検証を行った。 以上の結果から,本手法はすべての指標において,最先端ないし競争的な性能を達成することを示す。

Equipping predicted segmentation with calibrated uncertainty is essential for safety-critical applications. In this work, we focus on capturing the data-inherent uncertainty (aka aleatoric uncertainty) in segmentation, typically when ambiguities exist in input images. Due to the high-dimensional output space and potential multiple modes in segmenting ambiguous images, it remains challenging to predict well-calibrated uncertainty for segmentation. To tackle this problem, we propose a novel mixture of stochastic experts (MoSE) model, where each expert network estimates a distinct mode of the aleatoric uncertainty and a gating network predicts the probabilities of an input image being segmented in those modes. This yields an efficient two-level uncertainty representation. To learn the model, we develop a Wasserstein-like loss that directly minimizes the distribution distance between the MoSE and ground truth annotations. The loss can easily integrate traditional segmentation quality measures and be efficiently optimized via constraint relaxation. We validate our method on the LIDC-IDRI dataset and a modified multimodal Cityscapes dataset. Results demonstrate that our method achieves the state-of-the-art or competitive performance on all metrics.
翻訳日:2022-12-15 15:22:04 公開日:2022-12-14
# 実世界ビデオ超解像モデルにおけるアーチファクトの緩和

Mitigating Artifacts in Real-World Video Super-Resolution Models ( http://arxiv.org/abs/2212.07339v1 )

ライセンス: Link先を確認
Liangbin Xie, Xintao Wang, Shuwei Shi, Jinjin Gu, Chao Dong, Ying Shan(参考訳) リカレント構造は、隠れた状態を介してフレーム間の時間的依存性をモデル化するビデオスーパーレゾリューションタスクの一般的なフレームワークである。 未知の複雑な劣化を伴う現実世界のシナリオに適用すると、隠れた状態は不快なアーティファクトを含み、復元されたフレームに伝播する傾向がある。 このような状況下では,隠れた状態がよりクリーンな状態に置き換えられると,そのような成果物をほとんど軽減できることを示す。 本報告では,実世界の映像の高解像度化を実現するための隠れ状態注意(HSA)モジュールを提案する。 具体的には、まず様々な安価なフィルタを用いて隠れ状態プールを生成する。 例えば、ガウスのぼかしフィルターはアーティファクトの平滑化のためのものであり、シャープニングフィルタは詳細を強化するためのものである。 隠れた状態プールから少ないアーティファクトを含む新しい隠れた状態を集約するために、入力された特徴と隠れた状態との間の注意を計算する選択的クロスアテンション(sca)モジュールを考案する。 HSAを組み込んだ提案手法であるFastRealVSRは,Real-BasicVSRよりも高性能な2倍の高速化を実現する。 コードはhttps://github.com/TencentARC/FastRealVSRで入手できる。

The recurrent structure is a prevalent framework for the task of video super-resolution, which models the temporal dependency between frames via hidden states. When applied to real-world scenarios with unknown and complex degradations, hidden states tend to contain unpleasant artifacts and propagate them to restored frames. In this circumstance, our analyses show that such artifacts can be largely alleviated when the hidden state is replaced with a cleaner counterpart. Based on the observations, we propose a Hidden State Attention (HSA) module to mitigate artifacts in real-world video super-resolution. Specifically, we first adopt various cheap filters to produce a hidden state pool. For example, Gaussian blur filters are for smoothing artifacts while sharpening filters are for enhancing details. To aggregate a new hidden state that contains fewer artifacts from the hidden state pool, we devise a Selective Cross Attention (SCA) module, in which the attention between input features and each hidden state is calculated. Equipped with HSA, our proposed method, namely FastRealVSR, is able to achieve 2x speedup while obtaining better performance than Real-BasicVSR. Codes will be available at https://github.com/TencentARC/FastRealVSR
翻訳日:2022-12-15 15:21:44 公開日:2022-12-14
# Bi-Noising Diffusion: 再生前の条件付き拡散モデルに向けて

Bi-Noising Diffusion: Towards Conditional Diffusion Models with Generative Restoration Priors ( http://arxiv.org/abs/2212.07352v1 )

ライセンス: Link先を確認
Kangfu Mei, Nithin Gopalakrishnan Nair, Vishal M. Patel(参考訳) 条件拡散確率モデルは自然画像の分布をモデル化することができ、与えられた条件に基づいて多様で現実的なサンプルを生成することができる。 しかし、しばしばその結果は観測可能な色の変化とテクスチャで非現実的である。 この問題は,モデルが学習した確率分布と自然画像の分布の相違に起因すると考えられる。 微妙な条件は、サンプリングタイムステップ毎に徐々にばらつきを拡大する。 そこで本研究では,事前訓練した非条件拡散モデルを用いて,予測サンプルをトレーニングデータ多様体に導入する手法を提案する。 非条件モデルは正則化器として機能し、各サンプリングステップで条件モデルによって導入された発散を低減する。 我々は,超解像,着色,乱流除去,画像劣化作業におけるアプローチの有効性を示す総合的な実験を行った。 本手法により得られた改善は,条件拡散モデルを改善するための一般的なプラグインとして,プリエントを組み込むことができることを示唆している。

Conditional diffusion probabilistic models can model the distribution of natural images and can generate diverse and realistic samples based on given conditions. However, oftentimes their results can be unrealistic with observable color shifts and textures. We believe that this issue results from the divergence between the probabilistic distribution learned by the model and the distribution of natural images. The delicate conditions gradually enlarge the divergence during each sampling timestep. To address this issue, we introduce a new method that brings the predicted samples to the training data manifold using a pretrained unconditional diffusion model. The unconditional model acts as a regularizer and reduces the divergence introduced by the conditional model at each sampling step. We perform comprehensive experiments to demonstrate the effectiveness of our approach on super-resolution, colorization, turbulence removal, and image-deraining tasks. The improvements obtained by our method suggest that the priors can be incorporated as a general plugin for improving conditional diffusion models.
翻訳日:2022-12-15 15:21:24 公開日:2022-12-14
# NoPe-NeRF: プライマリのないニューラルラジアンスフィールドの最適化

NoPe-NeRF: Optimising Neural Radiance Field with No Pose Prior ( http://arxiv.org/abs/2212.07388v1 )

ライセンス: Link先を確認
Wenjing Bian, Zirui Wang, Kejie Li, Jia-Wang Bian, Victor Adrian Prisacariu(参考訳) 事前に計算されたカメラポーズを使わずにニューラルレージアンスフィールド(NeRF)を訓練することは困難である。 この方向の最近の進歩は、前方のシーンでNeRFとカメラのポーズを共同で最適化する可能性を示している。 しかし、これらの手法はなお、ドラマチックなカメラの動きにおいて困難に直面している。 我々は,この難問に未解決の単眼深度を前もって取り組むことで対処する。 これらのプリエントはトレーニング中にスケールパラメータとシフトパラメータを補正し、連続したフレーム間で相対的なポーズを制約することで生成される。 この制約は提案する新しい損失関数を用いて達成される。 実世界の屋内および屋外のシーンにおける実験により,本手法は難易度の高いカメラトラジェクトリを処理し,新しいビューレンダリング品質と推定精度で既存手法より優れることが示された。

Training a Neural Radiance Field (NeRF) without pre-computed camera poses is challenging. Recent advances in this direction demonstrate the possibility of jointly optimising a NeRF and camera poses in forward-facing scenes. However, these methods still face difficulties during dramatic camera movement. We tackle this challenging problem by incorporating undistorted monocular depth priors. These priors are generated by correcting scale and shift parameters during training, with which we are then able to constrain the relative poses between consecutive frames. This constraint is achieved using our proposed novel loss functions. Experiments on real-world indoor and outdoor scenes show that our method can handle challenging camera trajectories and outperforms existing methods in terms of novel view rendering quality and pose estimation accuracy.
翻訳日:2022-12-15 15:21:09 公開日:2022-12-14
# スムースビデオコンポジションに向けて

Towards Smooth Video Composition ( http://arxiv.org/abs/2212.07413v1 )

ライセンス: Link先を確認
Qihang Zhang, Ceyuan Yang, Yujun Shen, Yinghao Xu, and Bolei Zhou(参考訳) ビデオ生成には、時間とともに動的なコンテンツで一貫した永続的なフレームを合成する必要がある。 本研究は,gans(generative adversarial network)を用いて,数フレームから無限フレームまでの任意の長さの映像を合成するための時間関係のモデル化について検討する。 まず,一つの画像生成のためのエイリアスフリーな操作と適切な事前学習知識が,フレームごとの品質を損なうことなくスムーズなフレーム遷移をもたらすことを示す。 第2に、ビデオ理解のために設計された時間シフトモジュール(TSM)を判別器に組み込むことで、より一貫したダイナミクスを合成してジェネレータを前進させる。 第3に,時間的スムーズ性を確保するために,B-Splineに基づく新しい動き表現を開発した。 トレーニングで使用されるフレーム番号を超えることができる。 長時間映像生成のための繰り返しコンテンツの軽減のために,低ランク時間変調も提案されている。 我々は,様々なデータセットに対するアプローチを評価し,ビデオ生成ベースラインよりも大幅に改善した。 コードとモデルはhttps://genforce.github.io/StyleSVで公開されている。

Video generation requires synthesizing consistent and persistent frames with dynamic content over time. This work investigates modeling the temporal relations for composing video with arbitrary length, from a few frames to even infinite, using generative adversarial networks (GANs). First, towards composing adjacent frames, we show that the alias-free operation for single image generation, together with adequately pre-learned knowledge, brings a smooth frame transition without compromising the per-frame quality. Second, by incorporating the temporal shift module (TSM), originally designed for video understanding, into the discriminator, we manage to advance the generator in synthesizing more consistent dynamics. Third, we develop a novel B-Spline based motion representation to ensure temporal smoothness to achieve infinite-length video generation. It can go beyond the frame number used in training. A low-rank temporal modulation is also proposed to alleviate repeating contents for long video generation. We evaluate our approach on various datasets and show substantial improvements over video generation baselines. Code and models will be publicly available at https://genforce.github.io/StyleSV.
翻訳日:2022-12-15 15:20:55 公開日:2022-12-14
# 誤りを意識したB-PINN:ベイズ物理学インフォームドニューラルネットワークの不確かさの定量化

Error-Aware B-PINNs: Improving Uncertainty Quantification in Bayesian Physics-Informed Neural Networks ( http://arxiv.org/abs/2212.06965v1 )

ライセンス: Link先を確認
Olga Graf, Pablo Flores, Pavlos Protopapas, Karim Pichara(参考訳) 微分方程式の解法として,物理情報ニューラルネットワーク (PINN) が普及している。 いくつかの文脈では古典的な数値手法よりも実現可能であるが、PINNは信頼性に欠ける。 その対策は、PINNのコンテキストで現れ始めたばかりのUncertainty Quantification (UQ)で見ることができる。 トレーニングされたPINNが課された微分方程式にどの程度うまく準拠しているかを評価することは、不確実性に取り組む鍵であるが、このタスクには包括的な方法論がない。 本稿では,B-PINNと未知の真の解との相違を考慮したベイズPINN(B-PINN)におけるUQフレームワークを提案する。 線形力学系におけるPINNの誤差境界に関する最近の結果を利用して、線形ODEのクラスにおける予測の不確実性を示す。

Physics-Informed Neural Networks (PINNs) are gaining popularity as a method for solving differential equations. While being more feasible in some contexts than the classical numerical techniques, PINNs still lack credibility. A remedy for that can be found in Uncertainty Quantification (UQ) which is just beginning to emerge in the context of PINNs. Assessing how well the trained PINN complies with imposed differential equation is the key to tackling uncertainty, yet there is lack of comprehensive methodology for this task. We propose a framework for UQ in Bayesian PINNs (B-PINNs) that incorporates the discrepancy between the B-PINN solution and the unknown true solution. We exploit recent results on error bounds for PINNs on linear dynamical systems and demonstrate the predictive uncertainty on a class of linear ODEs.
翻訳日:2022-12-15 15:19:59 公開日:2022-12-14
# MA-GCL:グラフコントラスト学習のためのモデル拡張トリック

MA-GCL: Model Augmentation Tricks for Graph Contrastive Learning ( http://arxiv.org/abs/2212.07035v1 )

ライセンス: Link先を確認
Xumeng Gong, Cheng Yang, Chuan Shi(参考訳) 異なるコントラストビュー間で共有される情報を抽出できるコントラスト学習(cl)は、視覚表現学習の一般的なパラダイムとなっている。 コンピュータビジョンの成功に触発された最近の研究は、グラフコントラスト学習(GCL)と呼ばれるグラフモデリングにCLを導入している。 しかしながら、グラフにおける対比ビューの生成は、ラベルを変更することなくグラフを著しく拡張する方法に関する事前知識が乏しいため、画像よりも難しい。 我々は、gclにおける典型的なデータ拡張技術(例えばエッジドロップ)はノイズをフィルタするのに十分なコントラストビューを生成することができないと主張している。 さらに、従来のGCL手法では2つのビューエンコーダを使用しており、全く同じニューラルアーキテクチャと結びついたパラメータで、拡張ビューの多様性を損なう。 この制限に対処するため、グラフ入力の摂動ではなくビューエンコーダのアーキテクチャを操作することに焦点を当てたモデル拡張GCL(MA-GCL)を提案する。 具体的には,gclの非対称,ランダム,シャッフルという,実装が容易な3つのモデル拡張手法を提案する。 3つのトリックはすべて、典型的なデータ拡張と互換性がある。 実験の結果,MA-GCLは単純なベースモデルに3つのトリックを適用することで,ノード分類ベンチマークの最先端性能を達成できることがわかった。 大規模な研究は、我々のモチベーションとそれぞれのトリックの有効性を検証する。 (コード、データ、付録はhttps://github.com/GXM1141/MA-GCL)。

Contrastive learning (CL), which can extract the information shared between different contrastive views, has become a popular paradigm for vision representation learning. Inspired by the success in computer vision, recent work introduces CL into graph modeling, dubbed as graph contrastive learning (GCL). However, generating contrastive views in graphs is more challenging than that in images, since we have little prior knowledge on how to significantly augment a graph without changing its labels. We argue that typical data augmentation techniques (e.g., edge dropping) in GCL cannot generate diverse enough contrastive views to filter out noises. Moreover, previous GCL methods employ two view encoders with exactly the same neural architecture and tied parameters, which further harms the diversity of augmented views. To address this limitation, we propose a novel paradigm named model augmented GCL (MA-GCL), which will focus on manipulating the architectures of view encoders instead of perturbing graph inputs. Specifically, we present three easy-to-implement model augmentation tricks for GCL, namely asymmetric, random and shuffling, which can respectively help alleviate high- frequency noises, enrich training instances and bring safer augmentations. All three tricks are compatible with typical data augmentations. Experimental results show that MA-GCL can achieve state-of-the-art performance on node classification benchmarks by applying the three tricks on a simple base model. Extensive studies also validate our motivation and the effectiveness of each trick. (Code, data and appendix are available at https://github.com/GXM1141/MA-GCL. )
翻訳日:2022-12-15 15:19:44 公開日:2022-12-14
# グラフニューラルネットワークを説明する必要性と十分性について--下限最適化アプローチ

On the Probability of Necessity and Sufficiency of Explaining Graph Neural Networks: A Lower Bound Optimization Approach ( http://arxiv.org/abs/2212.07056v1 )

ライセンス: Link先を確認
Ruichu Cai, Yuxuan Zhu, Xuexin Chen, Yuan Fang, Min Wu, Jie Qiao, Zhifeng Hao(参考訳) グラフニューラルネットワーク(GNN)の説明可能性は、さまざまなGNNアプリケーションには不可欠だが、依然としてオープンな課題である。 説得力のある説明は必要かつ十分同時に行うべきである。 しかし、既存のGNNの説明アプローチは2つの側面のうち1つだけに焦点を当てている。 最も必要で十分な説明を求めるためには、説明の必要性と十分性を数学的に定量化できるため、PNS(Probability of Necessity and Sufficiency)を適用することができる。 しかしながら、非単調性によるpns獲得の困難さと反事実的推定の難しさは、その利用範囲を制限している。 PNSの非識別性に対処するために、我々は、逆ファクト推定によって最適化できる低域のPNSを利用し、その下限を最適化することで、GNN(NSEG)の必要十分説明を提案する。 具体的には,ランダムな摂動とは異なる特徴の反事実的サンプルを生成するために,近距離近傍マッチングを用いる。 特に、nsegはエッジとノードの機能を組み合わせて説明を生成し、共通エッジ説明が結合説明の特別な場合である。 実験的な研究により、NSEGは一連の最先端手法の中で最も必要で十分な説明を生成するのに優れた性能を発揮することが示された。

Explainability of Graph Neural Networks (GNNs) is critical to various GNN applications but remains an open challenge. A convincing explanation should be both necessary and sufficient simultaneously. However, existing GNN explaining approaches focus on only one of the two aspects, necessity or sufficiency, or a trade-off between the two. To search for the most necessary and sufficient explanation, the Probability of Necessity and Sufficiency (PNS) can be applied since it can mathematically quantify the necessity and sufficiency of an explanation. Nevertheless, the difficulty of obtaining PNS due to non-monotonicity and the challenge of counterfactual estimation limits its wide use. To address the non-identifiability of PNS, we resort to a lower bound of PNS that can be optimized via counterfactual estimation, and propose Necessary and Sufficient Explanation for GNN (NSEG) via optimizing that lower bound. Specifically, we employ nearest neighbor matching to generate counterfactual samples for the features, which is different from the random perturbation. In particular, NSEG combines the edges and node features to generate an explanation, where the common edge explanation is a special case of the combined explanation. Empirical study shows that NSEG achieves excellent performance in generating the most necessary and sufficient explanations among a series of state-of-the-art methods.
翻訳日:2022-12-15 15:19:18 公開日:2022-12-14
# イベントに基づくヨーロ物体検出:前方知覚システムのための概念実証

Event-based YOLO Object Detection: Proof of Concept for Forward Perception System ( http://arxiv.org/abs/2212.07181v1 )

ライセンス: Link先を確認
Waseem Shariff, Muhammad Ali Farooq, Joe Lemley and Peter Corcoran(参考訳) ニューロモルフィックビジョン(英: neuromorphic vision)またはイベントビジョン(英: event vision)は、ピクセルを出力する可視カメラとは対照的に、視野の特定の閾値を超える輝度変化が発生するたびに、イベントビジョンがニューロモルフィックイベントを生成する高度なビジョン技術である。 本研究では,道路側物体検出におけるニューロモルフィック事象データの利用に焦点を当てた。 これは、先進的な車両用アプリケーションのための前方認識システムに使用できる人工知能(AI)ベースのパイプラインを構築するための概念実証である。 その焦点は、イベントカメラを使って高速に前進する知覚に対する推論結果を改善する、効率的な最先端オブジェクト検出ネットワークの構築である。 本稿では、イベントシミュレートされたA2D2データセットを、2つの異なるYOLOv5ネットワーク(小さくて大きなバリエーション)で手動で注釈付けし、トレーニングする。 その堅牢性をさらに評価するために、単一モデルテストとアンサンブルモデルテストを実行する。

Neuromorphic vision or event vision is an advanced vision technology, where in contrast to the visible camera that outputs pixels, the event vision generates neuromorphic events every time there is a brightness change which exceeds a specific threshold in the field of view (FOV). This study focuses on leveraging neuromorphic event data for roadside object detection. This is a proof of concept towards building artificial intelligence (AI) based pipelines which can be used for forward perception systems for advanced vehicular applications. The focus is on building efficient state-of-the-art object detection networks with better inference results for fast-moving forward perception using an event camera. In this article, the event-simulated A2D2 dataset is manually annotated and trained on two different YOLOv5 networks (small and large variants). To further assess its robustness, single model testing and ensemble model testing are carried out.
翻訳日:2022-12-15 15:13:49 公開日:2022-12-14
# VR環境におけるデザインタイムファッション人気予測

Design-time Fashion Popularity Forecasting in VR Environments ( http://arxiv.org/abs/2212.07187v1 )

ライセンス: Link先を確認
Stefanos-Iordanis Papadopoulos, Christos Koutlis, Anastasios Papazoglou-Chalikias, Symeon Papadopoulos, Spiros Nikolopoulos(参考訳) 新しい衣料品のデザインの人気を予測できることは、利益率と未販売在庫の問題を減らし、ファッションと同じくらいのペースでファッション業界で非常に重要である。 そこで本研究では,バーチャルリアリティ・デザイナー・アプリケーション内のファッションデザイナーに対して,インタラクティブで没入型環境において,現在の消費者の嗜好に基づいて作品の微調整を行うための情報提供を行う。 これを実現するためには,(1) 提案手法が創造性を阻害するものではないこと,(2) 衣服の視覚的特徴にのみ依存すること,(2) 新しい衣服は,その将来的な人気を誇示する歴史的資料が欠如していること,(3) ファッションの傾向が概ね動的であること,といった課題に対処する必要がある。 この目的のために,ファッションイメージを微調整したコンピュータビジョンパイプラインを開発し,衣服のカテゴリや属性とともに,関連する視覚的特徴を抽出する。 ファッションカテゴリと属性の階層的関係を自動的に捉えるための階層的ラベル共有(hls)パイプラインを提案する。 さらに,マルチモーダルな擬似自己回帰型ニューラルネットワークであるMuQARを提案し,その特徴と分類的特徴を組み合わせることで,衣服の人気を予測し,自己回帰型ニューラルネットワークが衣服のカテゴリーと属性の人気時系列をモデル化している。 提案されたHLSとMuQARはどちらも、主要なベンチマークデータセットにおける現在の最先端を上回り、画像分類のためのDeepFashion、新しい衣料品販売予測のためのVISUELLEである。

Being able to forecast the popularity of new garment designs is very important in an industry as fast paced as fashion, both in terms of profitability and reducing the problem of unsold inventory. Here, we attempt to address this task in order to provide informative forecasts to fashion designers within a virtual reality designer application that will allow them to fine tune their creations based on current consumer preferences within an interactive and immersive environment. To achieve this we have to deal with the following central challenges: (1) the proposed method should not hinder the creative process and thus it has to rely only on the garment's visual characteristics, (2) the new garment lacks historical data from which to extrapolate their future popularity and (3) fashion trends in general are highly dynamical. To this end, we develop a computer vision pipeline fine tuned on fashion imagery in order to extract relevant visual features along with the category and attributes of the garment. We propose a hierarchical label sharing (HLS) pipeline for automatically capturing hierarchical relations among fashion categories and attributes. Moreover, we propose MuQAR, a Multimodal Quasi-AutoRegressive neural network that forecasts the popularity of new garments by combining their visual features and categorical features while an autoregressive neural network is modelling the popularity time series of the garment's category and attributes. Both the proposed HLS and MuQAR prove capable of surpassing the current state-of-the-art in key benchmark datasets, DeepFashion for image classification and VISUELLE for new garment sales forecasting.
翻訳日:2022-12-15 15:13:28 公開日:2022-12-14
# MAELi -- 大規模LiDAR点雲のためのマスク付きオートエンコーダ

MAELi -- Masked Autoencoder for Large-Scale LiDAR Point Clouds ( http://arxiv.org/abs/2212.07207v1 )

ライセンス: Link先を確認
Georg Krispel, David Schinagl, Christian Fruhwirth-Reisinger, Horst Possegger, Horst Bischof(参考訳) 大規模lidar点雲の固有だがしばしば無視される性質を,効果的な自己教師付き表現学習に活用できることを示す。 この目的のために我々は,最先端オブジェクト検出器をトレーニングするための退屈な3dアノテーションの量を大幅に削減する,高度にデータ効率の高い事前トレーニングバックボーンを設計した。 特に,リコンストラクション中のエンコーダとデコーダの両方において,ライダー点雲のスパーシティを直感的に利用するマスク付きオートエンコーダ(maeli)を提案する。 これにより、より表現力が高く有用な機能となり、自動運転車の3Dオブジェクト検出などの下流認識タスクに直接適用できる。 新しい再構成方式では、マイリは自由空間とオクルード空間を区別し、ライダー固有の球面投影を標的とした新しいマスキング戦略を利用する。 MAELiの可能性を実証するために、我々は、エンドツーエンドで最も広く使われている3Dバックボーンの1つを事前訓練し、複数の3Dオブジェクト検出アーキテクチャにおいて、完全に教師なしの機能の利点を示す。 このような検出器を微調整するためのラベル付きフレームはごくわずかであるので,性能は大幅に向上する。 例えば、$\sim800$のラベル付きフレームを持つMAELiは、Waymo Vehiclesで+10.09APH/LEVEL 2でSECONDモデルを改善する。

We show how the inherent, but often neglected, properties of large-scale LiDAR point clouds can be exploited for effective self-supervised representation learning. To this end, we design a highly data-efficient feature pre-training backbone that significantly reduces the amount of tedious 3D annotations to train state-of-the-art object detectors. In particular, we propose a Masked AutoEncoder (MAELi) that intuitively utilizes the sparsity of the LiDAR point clouds in both, the encoder and the decoder, during reconstruction. This results in more expressive and useful features, directly applicable to downstream perception tasks, such as 3D object detection for autonomous driving. In a novel reconstruction scheme, MAELi distinguishes between free and occluded space and leverages a new masking strategy which targets the LiDAR's inherent spherical projection. To demonstrate the potential of MAELi, we pre-train one of the most widespread 3D backbones, in an end-to-end fashion and show the merit of our fully unsupervised pre-trained features on several 3D object detection architectures. Given only a tiny fraction of labeled frames to fine-tune such detectors, we achieve significant performance improvements. For example, with only $\sim800$ labeled frames, MAELi features improve a SECOND model by +10.09APH/LEVEL 2 on Waymo Vehicles.
翻訳日:2022-12-15 15:12:59 公開日:2022-12-14
# RAGO: 複数回転平均化のためのリカレントグラフ最適化

RAGO: Recurrent Graph Optimizer For Multiple Rotation Averaging ( http://arxiv.org/abs/2212.07211v1 )

ライセンス: Link先を確認
Heng Li, Zhaopeng Cui, Shuaicheng Liu, Ping Tan(参考訳) 本稿では,多重回転平均化(mra)のための深い再帰的回転平均化グラフオプティマイザ(rago)を提案する。 従来の最適化に基づく手法は通常、劣化しうる相対的な測定によって正確な結果が得られない。 近年の学習に基づくアプローチでは、MRAを回帰問題と見なしているが、これらの手法はゲージ自由問題による初期化に敏感である。 これらの問題に対処するために,ゲージ不変コスト関数をエッジ整流戦略で最小化する学習可能な反復グラフオプティマイザを提案する。 グラフオプティマイザは,各ノードの単一回転対象関数を最小化することにより,グローバルカメラ回転を反復的に洗練する。 さらに, 相対回転を反復的に補正し, 現在のカメラの向きや観測された相対回転と一致させる。 さらに,コストグラフの時間的情報を追跡することで,結果を改善するためにゲートリカレントユニットを用いる。 私たちのフレームワークは、実世界のアプリケーション向けにデプロイされた小さなサイズで、ローテーション平均グラフオプティマイザをリアルタイムに学習して最適化するものです。 ragoは、現実世界と合成データセットの従来の、より深いメソッドよりも優れています。 コードはhttps://github.com/sfu-gruvi-3dv/ragoで入手できる。

This paper proposes a deep recurrent Rotation Averaging Graph Optimizer (RAGO) for Multiple Rotation Averaging (MRA). Conventional optimization-based methods usually fail to produce accurate results due to corrupted and noisy relative measurements. Recent learning-based approaches regard MRA as a regression problem, while these methods are sensitive to initialization due to the gauge freedom problem. To handle these problems, we propose a learnable iterative graph optimizer minimizing a gauge-invariant cost function with an edge rectification strategy to mitigate the effect of inaccurate measurements. Our graph optimizer iteratively refines the global camera rotations by minimizing each node's single rotation objective function. Besides, our approach iteratively rectifies relative rotations to make them more consistent with the current camera orientations and observed relative rotations. Furthermore, we employ a gated recurrent unit to improve the result by tracing the temporal information of the cost graph. Our framework is a real-time learning-to-optimize rotation averaging graph optimizer with a tiny size deployed for real-world applications. RAGO outperforms previous traditional and deep methods on real-world and synthetic datasets. The code is available at https://github.com/sfu-gruvi-3dv/RAGO
翻訳日:2022-12-15 15:12:36 公開日:2022-12-14
# HOOD: 衣服ダイナミクスの一般化モデリングのための階層グラフ

HOOD: Hierarchical Graphs for Generalized Modelling of Clothing Dynamics ( http://arxiv.org/abs/2212.07242v1 )

ライセンス: Link先を確認
Artur Grigorev, Bernhard Thomaszewski, Michael J. Black, Otmar Hilliges(参考訳) 本稿では,グラフニューラルネットワーク,マルチレベルメッセージパッシング,教師なしトレーニングを活用し,リアルな衣服の動態をリアルタイムに予測する手法を提案する。 既存のリニア・ブレンド・スキンニング法は特定の衣服に対してトレーニングする必要があるが,本手法は体型に不慣れであり,ゆるやかで自由な衣服にも適用できる。 提案手法は、さらにトポロジーの変化(例えば、ボタンやジッパーのついた衣服)と推論時の材料特性を取り扱う。 そこで,本稿では,局所的なディテールを維持しつつ,ストレッチングモードを効率的に伝搬する階層的メッセージパッシングスキームを提案する。 実験により,本手法は強いベースラインを定量的に上回っており,その結果が最先端手法よりも現実的なものと見なされていることを実証的に示す。

We propose a method that leverages graph neural networks, multi-level message passing, and unsupervised training to enable real-time prediction of realistic clothing dynamics. Whereas existing methods based on linear blend skinning must be trained for specific garments, our method is agnostic to body shape and applies to tight-fitting garments as well as loose, free-flowing clothing. Our method furthermore handles changes in topology (e.g., garments with buttons or zippers) and material properties at inference time. As one key contribution, we propose a hierarchical message-passing scheme that efficiently propagates stiff stretching modes while preserving local detail. We empirically show that our method outperforms strong baselines quantitatively and that its results are perceived as more realistic than state-of-the-art methods.
翻訳日:2022-12-15 15:12:19 公開日:2022-12-14
# PhoMoH:人間の頭部のフォトリアリスティックな3Dモデル

PhoMoH: Implicit Photorealistic 3D Models of Human Heads ( http://arxiv.org/abs/2212.07275v1 )

ライセンス: Link先を確認
Mihai Zanfir, Thiemo Alldieck and Cristian Sminchisescu(参考訳) PhoMoHは, 毛髪, ひげ, 衣服, アクセサリーを含む, 光現実的3次元形状の生成モデルと人間の頭部の外観を構築するニューラルネットワーク手法である。 以前の研究とは対照的に、PhoMoHは神経場を用いて人間の頭部をモデル化し、複雑なトポロジーをサポートする。 ヘッドモデルをゼロから学習する代わりに,既存の表現型ヘッドモデルに新機能を加えることを提案する。 具体的には,中解像度の頭部モデル上に高精細なジオメトリネットワークを,細部,局所的なジオメトリ認識,不連続色場とともに学習する。 提案するアーキテクチャにより,比較的少ないデータからフォトリアリスティックな頭部モデルを学ぶことができる。 学習された生成幾何学と外観ネットワークは個別にサンプリングすることができ、多様で現実的な人間の頭を作ることができる。 大規模な実験は、我々のメソッドを定性的かつ異なるメトリクスで検証する。

We present PhoMoH, a neural network methodology to construct generative models of photorealistic 3D geometry and appearance of human heads including hair, beards, clothing and accessories. In contrast to prior work, PhoMoH models the human head using neural fields, thus supporting complex topology. Instead of learning a head model from scratch, we propose to augment an existing expressive head model with new features. Concretely, we learn a highly detailed geometry network layered on top of a mid-resolution head model together with a detailed, local geometry-aware, and disentangled color field. Our proposed architecture allows us to learn photorealistic human head models from relatively little data. The learned generative geometry and appearance networks can be sampled individually and allow the creation of diverse and realistic human heads. Extensive experiments validate our method qualitatively and across different metrics.
翻訳日:2022-12-15 15:12:02 公開日:2022-12-14
# ContraFeat: セマンティックディスカバリのための深い機能の対比

ContraFeat: Contrasting Deep Features for Semantic Discovery ( http://arxiv.org/abs/2212.07277v1 )

ライセンス: Link先を確認
Xinqi Zhu, Chang Xu, Dacheng Tao(参考訳) StyleGANは、多層中間潜伏変数の特殊設計により、アンタングル型セマンティック制御の強い可能性を示している。 しかし、StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。 本稿では,このプロセスを自動化し,最新の意味発見性能を実現するモデルを提案する。 このモデルは注意力のあるナビゲータモジュールと、深い機能変更と対照的な損失で構成されている。 そこで本研究では,二分法で比較する2つのモデル変種と,学習したプロトタイプ変動パターンで比較する2つのモデル変種を提案する。 提案した損失は,不整合性や直交性を含む所望の意味的構造を暗黙的に明らかにできるという仮定に基づいて,事前訓練された深い特徴で定義される。 さらに、FFHQデータセット上での意味探索手法の性能を定量的に評価する2つの指標を設計し、また、単純なトレーニングプロセスによって非絡み合い表現が導出可能であることを示す。 実験により,本モデルは潜伏層間手動選択を必要とせず,最先端のセマンティック検出結果を得ることができ,これらの検出されたセマンティクスは実世界画像の操作に使用できる。

StyleGAN has shown strong potential for disentangled semantic control, thanks to its special design of multi-layer intermediate latent variables. However, existing semantic discovery methods on StyleGAN rely on manual selection of modified latent layers to obtain satisfactory manipulation results, which is tedious and demanding. In this paper, we propose a model that automates this process and achieves state-of-the-art semantic discovery performance. The model consists of an attention-equipped navigator module and losses contrasting deep-feature changes. We propose two model variants, with one contrasting samples in a binary manner, and another one contrasting samples with learned prototype variation patterns. The proposed losses are defined with pretrained deep features, based on our assumption that the features can implicitly reveal the desired semantic structure including consistency and orthogonality. Additionally, we design two metrics to quantitatively evaluate the performance of semantic discovery methods on FFHQ dataset, and also show that disentangled representations can be derived via a simple training process. Experimentally, our models can obtain state-of-the-art semantic discovery results without relying on latent layer-wise manual selection, and these discovered semantics can be used to manipulate real-world images.
翻訳日:2022-12-15 15:11:46 公開日:2022-12-14
# クラス認識クロスドメイントランスフォーマーによるワンショット領域適応型意味セグメンテーション

One-Shot Domain Adaptive and Generalizable Semantic Segmentation with Class-Aware Cross-Domain Transformers ( http://arxiv.org/abs/2212.07292v1 )

ライセンス: Link先を確認
Rui Gong, Qin Wang, Dengxin Dai, Luc Van Gool(参考訳) 意味セグメンテーションのための教師なしsim-to-realドメイン適応(uda)は、シミュレーションデータで訓練されたモデルの実世界テスト性能を改善することを目的としている。 ロボットビジョンや自動運転など、現実世界のアプリケーションで手動でデータをラベリングするコストを削減できる。 従来のudaは、適応のためのトレーニング中に利用可能なラベルのない実世界のデータサンプルが豊富にあると仮定することが多い。 しかし、収集の困難さやデータの不足のため、そのような仮定は実際には必ずしも成立しない。 そこで本研究では,多数の実データに対するこのニーズを解消し,実データサンプルが1つしか存在しない,一発の教師なしシム・トゥ・リアルドメイン適応(OSUDA)と一般化(OSDG)の問題を探究する。 制限された実データ知識を改善するため、まずシミュレーションデータをワンショット実データでスタイリングすることで擬似対象ドメインを構築する。 さらに,シミュレートされたデータと擬似ターゲットデータの両方から,中間領域のランダム化戦略を備えたクラス認識型クロスドメイントランスフォーマーを用いて,ドメイン間ドメイン間ギャップを緩和し,そのドメイン間ギャップを緩和する手法を提案する。 我々は,OSUDAとOSDGの異なるベンチマークにおけるアプローチの有効性を実証し,GTA上の10.87,9.59,13.05,15.91 mIoU,SynTHIA$\rightarrow$Cityscapes,Fogy Cityscapesをそれぞれ比較した。

Unsupervised sim-to-real domain adaptation (UDA) for semantic segmentation aims to improve the real-world test performance of a model trained on simulated data. It can save the cost of manually labeling data in real-world applications such as robot vision and autonomous driving. Traditional UDA often assumes that there are abundant unlabeled real-world data samples available during training for the adaptation. However, such an assumption does not always hold in practice owing to the collection difficulty and the scarcity of the data. Thus, we aim to relieve this need on a large number of real data, and explore the one-shot unsupervised sim-to-real domain adaptation (OSUDA) and generalization (OSDG) problem, where only one real-world data sample is available. To remedy the limited real data knowledge, we first construct the pseudo-target domain by stylizing the simulated data with the one-shot real data. To mitigate the sim-to-real domain gap on both the style and spatial structure level and facilitate the sim-to-real adaptation, we further propose to use class-aware cross-domain transformers with an intermediate domain randomization strategy to extract the domain-invariant knowledge, from both the simulated and pseudo-target data. We demonstrate the effectiveness of our approach for OSUDA and OSDG on different benchmarks, outperforming the state-of-the-art methods by a large margin, 10.87, 9.59, 13.05 and 15.91 mIoU on GTA, SYNTHIA$\rightarrow$Cityscapes, Foggy Cityscapes, respectively.
翻訳日:2022-12-15 15:11:24 公開日:2022-12-14
# チャイルドパームID : 無接触パームプリント認識

Child PalmID: Contactless Palmprint Recognition ( http://arxiv.org/abs/2212.07299v1 )

ライセンス: Link先を確認
Anil K. Jain, Akash Godbole, Anjoo Bhatnagar and Prem Sewak Sudhish(参考訳) 発展途上国は、それぞれの子どもが必要な予防接種、適切な栄養、適切な薬を服用することを保証するという難しい課題に直面している。 UNICEF、WHO、WFPなどの国際機関は、どの子供が利益を受け、どの子供がそうでないかを判断する革新的な解決策を見つけようとしている。 この問題を解決するために生体認証システムが研究されている。 そこで本研究では,1歳から5歳までの子どもを認識できる市販の非接触型パームプリント認識システムのベースライン精度を確立した。 500人の子どもの1万個のパームの非接触型パームプリント画像のデータベース上で,soma認証精度を90.85%@遠方0.01%,rank-1識別精度99.0%(クローズドセット),fpir=0.01 @fnir=0.3をarmaturaのpalmmobile sdkを用いて確立した。

Developing and least developed countries face the dire challenge of ensuring that each child in their country receives required doses of vaccination, adequate nutrition and proper medication. International agencies such as UNICEF, WHO and WFP, among other organizations, strive to find innovative solutions to determine which child has received the benefits and which have not. Biometric recognition systems have been sought out to help solve this problem. To that end, this report establishes a baseline accuracy of a commercial contactless palmprint recognition system that may be deployed for recognizing children in the age group of one to five years old. On a database of contactless palmprint images of one thousand unique palms from 500 children, we establish SOTA authentication accuracy of 90.85% @ FAR of 0.01%, rank-1 identification accuracy of 99.0% (closed set), and FPIR=0.01 @ FNIR=0.3 for open-set identification using PalmMobile SDK from Armatura.
翻訳日:2022-12-15 15:10:45 公開日:2022-12-14
# trust, but verify: hdマップ変更検出のためのクロスモダリティ融合

Trust, but Verify: Cross-Modality Fusion for HD Map Change Detection ( http://arxiv.org/abs/2212.07312v1 )

ライセンス: Link先を確認
John Lambert, James Hays(参考訳) High-definition (HD) Map Change Detection(HD)は、センサーデータとマップデータが現実の変化のために互いに一致しないタイミングを決定するタスクである。 私たちはこのタスクの最初のデータセットを収集し、Trust, but Verify (TbV)データセットと題して、9ヶ月以上の自動運転車の運用から何千時間ものデータをマイニングします。 鳥の視線と自我視における問題解決のための学習型定式化について述べる。 実地図の変更は稀であり、ベクトルマップは合成操作が容易であるため、シミュレーションデータに頼ってモデルを訓練する。 おそらく驚くことに、そのようなモデルが実世界の分布に一般化できることを示します。 このデータセットは、北米6都市で収集された地図とログで構成されており、これまでに780万枚以上の画像を持つ最大のAVデータセットの1つである。 我々は https://www.argoverse.org/av2.html#mapchange-link で、CC BY-NC-SA 4.0 ライセンスの下で https://github.com/johnwlambert/tbv でコードとモデルを公開しています。

High-definition (HD) map change detection is the task of determining when sensor data and map data are no longer in agreement with one another due to real-world changes. We collect the first dataset for the task, which we entitle the Trust, but Verify (TbV) dataset, by mining thousands of hours of data from over 9 months of autonomous vehicle fleet operations. We present learning-based formulations for solving the problem in the bird's eye view and ego-view. Because real map changes are infrequent and vector maps are easy to synthetically manipulate, we lean on simulated data to train our model. Perhaps surprisingly, we show that such models can generalize to real world distributions. The dataset, consisting of maps and logs collected in six North American cities, is one of the largest AV datasets to date with more than 7.8 million images. We make the data available to the public at https://www.argoverse.org/av2.html#mapchange-link, along with code and models at https://github.com/johnwlambert/tbv under the the CC BY-NC-SA 4.0 license.
翻訳日:2022-12-15 15:10:26 公開日:2022-12-14
# エゴセントリックビデオから3dでオブジェクトをローカライズするビジュアルクエリ

Localizing Objects in 3D from Egocentric Videos with Visual Queries ( http://arxiv.org/abs/2212.06969v1 )

ライセンス: Link先を確認
Jinjie Mai, Abdullah Hamdi, Silvio Giancola, Chen Zhao, Bernard Ghanem(参考訳) 近年のビデオと3D理解の進歩により、両概念を融合させる新しい4次元時空間課題が出現している。 この方向に向かって、Ego4D Episodic Memory Benchmarkは3Dローカライゼーション(VQ3D)を備えたビジュアルクエリのためのタスクを提案した。 エゴセントリックなビデオクリップとクエリオブジェクトを描写したイメージクロップが与えられた場合、クエリフレームのカメラポーズに対して、クエリオブジェクトの中心の3D位置をローカライズすることが目的である。 近年のVQ3Dは,2Dローカライゼーション(VQ2D)を用いた姉妹タスクビジュアルクエリの2Dローカライゼーション結果を3D再構成に引き上げることによって解決されている。 しかし,従来のVQ3D手法からのクエリ(QwP)の少なさは,その全体的な成功率を阻害し,VQ3D課題に取り組むための3Dモデリングのさらなる取り組みの必要性を強調している。 本研究では,エゴセントリックビデオからの2次元オブジェクト検索による3次元マルチビュー形状の絡み合いを改善するパイプラインを定式化した。 我々は、より堅牢なカメラのポーズを推定し、オブジェクトクエリをより成功させ、VQ3Dの性能を大幅に向上させる。 実際、本手法は、ego4dエピソディックメモリベンチマークvq3dにおいて、全体の成功率86.36%でトップ1に達する。 さらに,vq3dに残る課題について,完全な実証的研究を行った。

With the recent advances in video and 3D understanding, novel 4D spatio-temporal challenges fusing both concepts have emerged. Towards this direction, the Ego4D Episodic Memory Benchmark proposed a task for Visual Queries with 3D Localization (VQ3D). Given an egocentric video clip and an image crop depicting a query object, the goal is to localize the 3D position of the center of that query object with respect to the camera pose of a query frame. Current methods tackle the problem of VQ3D by lifting the 2D localization results of the sister task Visual Queries with 2D Localization (VQ2D) into a 3D reconstruction. Yet, we point out that the low number of Queries with Poses (QwP) from previous VQ3D methods severally hinders their overall success rate and highlights the need for further effort in 3D modeling to tackle the VQ3D task. In this work, we formalize a pipeline that better entangles 3D multiview geometry with 2D object retrieval from egocentric videos. We estimate more robust camera poses, leading to more successful object queries and substantially improved VQ3D performance. In practice, our method reaches a top-1 overall success rate of 86.36% on the Ego4D Episodic Memory Benchmark VQ3D, a 10x improvement over the previous state-of-the-art. In addition, we provide a complete empirical study highlighting the remaining challenges in VQ3D.
翻訳日:2022-12-15 15:05:07 公開日:2022-12-14
# ターゲット領域適応のないクロスドメインビデオ異常検出

Cross-Domain Video Anomaly Detection without Target Domain Adaptation ( http://arxiv.org/abs/2212.07010v1 )

ライセンス: Link先を確認
Abhishek Aich, Kuan-Chuan Peng, Amit K. Roy-Chowdhury(参考訳) 多くのクロスドメイン非教師付きビデオ異常検出(VAD)作業は、ソースからターゲットドメインへの適応のために、少なくともタスク関連ターゲットドメイントレーニングデータが利用可能なことを前提としている。 しかし、これは ``out-of-box' が動作するシステムを好むエンドユーザーによる面倒なモデルチューニングを必要とする。 " To address such practical scenarios, we identify a novel target domain (inference-time) VAD task where no target domain training data are available. To this end, we propose a new `Zero-shot Cross-domain Video Anomaly Detection (zxvad)' framework that includes a future-frame prediction generative model setup. Different from prior future-frame prediction models, our model uses a novel Normalcy Classifier module to learn the features of normal event videos by learning how such features are different ``relatively" to features in pseudo-abnormal examples. 新たなUntrained Convolutional Neural Networkベースの異常合成モジュールは、通常のビデオフレームに外部オブジェクトを追加して、余分なトレーニングコストなしで、擬似異常な例を作成する。 新しい相対正規性特徴学習戦略により、zxvadは推論中に適応することなく、新しい対象領域における正規性と異常フレームの区別を一般化し学習する。 共通データセットの評価を通じて、zxvadはタスク関連(VAD)ソーストレーニングデータが利用可能かどうかに関わらず、最先端(SOTA)よりも優れていることを示す。 最後に、zxvadはモデルサイズ、総パラメータ、GPUエネルギー消費、GMACを含む推論時間効率の指標でSOTAメソッドを上回ります。

Most cross-domain unsupervised Video Anomaly Detection (VAD) works assume that at least few task-relevant target domain training data are available for adaptation from the source to the target domain. However, this requires laborious model-tuning by the end-user who may prefer to have a system that works ``out-of-the-box." To address such practical scenarios, we identify a novel target domain (inference-time) VAD task where no target domain training data are available. To this end, we propose a new `Zero-shot Cross-domain Video Anomaly Detection (zxvad)' framework that includes a future-frame prediction generative model setup. Different from prior future-frame prediction models, our model uses a novel Normalcy Classifier module to learn the features of normal event videos by learning how such features are different ``relatively" to features in pseudo-abnormal examples. A novel Untrained Convolutional Neural Network based Anomaly Synthesis module crafts these pseudo-abnormal examples by adding foreign objects in normal video frames with no extra training cost. With our novel relative normalcy feature learning strategy, zxvad generalizes and learns to distinguish between normal and abnormal frames in a new target domain without adaptation during inference. Through evaluations on common datasets, we show that zxvad outperforms the state-of-the-art (SOTA), regardless of whether task-relevant (i.e., VAD) source training data are available or not. Lastly, zxvad also beats the SOTA methods in inference-time efficiency metrics including the model size, total parameters, GPU energy consumption, and GMACs.
翻訳日:2022-12-15 15:04:44 公開日:2022-12-14
# 大規模モデルに対するゼロショット逆ロバストネスの理解

Understanding Zero-Shot Adversarial Robustness for Large-Scale Models ( http://arxiv.org/abs/2212.07016v1 )

ライセンス: Link先を確認
Chengzhi Mao, Scott Geng, Junfeng Yang, Xin Wang, Carl Vondrick(参考訳) CLIPのような事前訓練された大規模視覚言語モデルは、目に見えないタスクに対して強力な一般化を示している。 しかし、認識不能な逆境摂動は、新しいタスクにおけるCLIPの性能を著しく低下させる可能性がある。 本研究では,ゼロショット逆ロバスト性に対する大規模モデル適応の問題を特定し,検討する。 まず,モデル適応における2つの重要な要因(トレーニング損失と適応方法)を特定し,モデルのゼロショット対向ロバスト性に影響を及ぼす。 そこで本研究では,テキスト埋め込みと対角的視覚特徴を,少量のトレーニングデータに対するコントラスト学習と整合させる,テキスト誘導型対向的学習損失を提案する。 このトレーニング損失をモデルファインタニングと視覚的プロンプトチューニングという2つの適応手法に適用する。 テキストの欠如により視覚的なプロンプトチューニングがより効果的であるのに対し、微調整はテキストガイダンスの存在に勝利する。 全体として、私たちのアプローチはCLIPに対するゼロショットの対角性を大幅に改善し、ImageNetと15のゼロショットデータセットを平均31ポイント以上改善しました。 この研究が、大規模モデルのゼロショット対逆ロバスト性を理解することに光を当てることを願っている。

Pretrained large-scale vision-language models like CLIP have exhibited strong generalization over unseen tasks. Yet imperceptible adversarial perturbations can significantly reduce CLIP's performance on new tasks. In this work, we identify and explore the problem of \emph{adapting large-scale models for zero-shot adversarial robustness}. We first identify two key factors during model adaption -- training losses and adaptation methods -- that affect the model's zero-shot adversarial robustness. We then propose a text-guided contrastive adversarial training loss, which aligns the text embeddings and the adversarial visual features with contrastive learning on a small set of training data. We apply this training loss to two adaption methods, model finetuning and visual prompt tuning. We find that visual prompt tuning is more effective in the absence of texts, while finetuning wins in the existence of text guidance. Overall, our approach significantly improves the zero-shot adversarial robustness over CLIP, seeing an average improvement of over 31 points over ImageNet and 15 zero-shot datasets. We hope this work can shed light on understanding the zero-shot adversarial robustness of large-scale models.
翻訳日:2022-12-15 15:04:19 公開日:2022-12-14
# マルチモーダル航空ビューオブジェクト分類のためのマルチモーダルドメインフュージョン

Multi-Modal Domain Fusion for Multi-modal Aerial View Object Classification ( http://arxiv.org/abs/2212.07039v1 )

ライセンス: Link先を確認
Sumanth Udupa, Aniruddh Sikdar, Suresh Sundaram(参考訳) 対象に関する情報が乏しいため,空中画像を用いた物体検出と分類は難しい課題である。 SAR(Synthetic Aperture Radar)画像は、全天候および低照度環境で動作可能なATR(Automatic Target Recognition)システムに使用することができる。 しかし、sar画像には塩とペッパーノイズ(スペックルノイズ)が含まれており、ディープラーニングモデルが有意義な特徴を抽出するのを妨げる。 atrシステムでのみのaircraft view electro-optical(eo)イメージを使用すると、解像度が低く、極端な気象条件でも十分な情報を提供しないため、精度が向上しない可能性がある。 したがって、複数のセンサからの情報を自動目標認識(atr)システムの性能向上に使用できる。 本稿では,各センサの欠点に対処して,EOとSARの両方のセンサ情報を用いて,ATRシステムの性能を効果的に向上する手法について検討する。 マルチモーダル・ドメイン・フュージョン(MDF)ネットワークは、マルチモーダル・データからドメイン不変の特徴を学習し、それを空中ビューオブジェクトを正確に分類するために利用する。 PBVS MAVOC Challengeデータセット[18]において,提案したMDFネットワークは,Track-1において25.3%,Track-2では34.26%の精度でトップ10のパフォーマンスを実現している。

Object detection and classification using aerial images is a challenging task as the information regarding targets are not abundant. Synthetic Aperture Radar(SAR) images can be used for Automatic Target Recognition(ATR) systems as it can operate in all-weather conditions and in low light settings. But, SAR images contain salt and pepper noise(speckle noise) that cause hindrance for the deep learning models to extract meaningful features. Using just aerial view Electro-optical(EO) images for ATR systems may also not result in high accuracy as these images are of low resolution and also do not provide ample information in extreme weather conditions. Therefore, information from multiple sensors can be used to enhance the performance of Automatic Target Recognition(ATR) systems. In this paper, we explore a methodology to use both EO and SAR sensor information to effectively improve the performance of the ATR systems by handling the shortcomings of each of the sensors. A novel Multi-Modal Domain Fusion(MDF) network is proposed to learn the domain invariant features from multi-modal data and use it to accurately classify the aerial view objects. The proposed MDF network achieves top-10 performance in the Track-1 with an accuracy of 25.3 % and top-5 performance in Track-2 with an accuracy of 34.26 % in the test phase on the PBVS MAVOC Challenge dataset [18].
翻訳日:2022-12-15 15:03:58 公開日:2022-12-14
# 弱教師付き局所特徴学習のための共有結合橋

Shared Coupling-bridge for Weakly Supervised Local Feature Learning ( http://arxiv.org/abs/2212.07047v1 )

ライセンス: Link先を確認
Jiayuan Sun, Jiewen Zhu, Luping Ji(参考訳) 局所的特徴抽出は、通常、同時局所化やマッピング、画像マッチング、三次元再構成といった典型的な視覚タスクにおいて重要であると考えられている。 現在、抽出された局所記述子の識別能力、検出されたキーポイントの局所化精度、局所特徴学習の効率など、さらなる改善を必要とするいくつかの欠陥がある。 本稿では,カメラポーズ監視による局所的特徴学習の普及に焦点をあてる。 したがって、弱い教師付き局所特徴量(scfeat)学習のための4つの軽量かつ効果的な改善を含む共有結合橋スキームを提案する。 主に以下を含む。 一 ローカル記述子学習のためのemph{Feature-Fusion-ResUNet Backbone} (F2R-Backbone) 二 説明網及び検出網の疎結合訓練を改善するための共有結合橋の正規化 三 ピーク度測定によるキーポイント検出のための改良された検出ネットワーク 四 特徴検出訓練をさらに最適化するための報酬要因としての基本的な行列誤差 SCFeatの改善が有効であることを示す大規模な実験を行った。 古典的な画像マッチングと視覚的ローカライゼーションにおいて最先端のパフォーマンスを得ることができる。 3D再構築に関しては、競争力のある結果が得られるだろう。 ソースコードはhttps://github.com/sunjiayuanro/scfeat.gitで公開しています。

Sparse local feature extraction is usually believed to be of important significance in typical vision tasks such as simultaneous localization and mapping, image matching and 3D reconstruction. At present, it still has some deficiencies needing further improvement, mainly including the discrimination power of extracted local descriptors, the localization accuracy of detected keypoints, and the efficiency of local feature learning. This paper focuses on promoting the currently popular sparse local feature learning with camera pose supervision. Therefore, it pertinently proposes a Shared Coupling-bridge scheme with four light-weight yet effective improvements for weakly-supervised local feature (SCFeat) learning. It mainly contains: i) the \emph{Feature-Fusion-ResUNet Backbone} (F2R-Backbone) for local descriptors learning, ii) a shared coupling-bridge normalization to improve the decoupling training of description network and detection network, iii) an improved detection network with peakiness measurement to detect keypoints and iv) the fundamental matrix error as a reward factor to further optimize feature detection training. Extensive experiments prove that our SCFeat improvement is effective. It could often obtain a state-of-the-art performance on classic image matching and visual localization. In terms of 3D reconstruction, it could still achieve competitive results. For sharing and communication, our source codes are available at https://github.com/sunjiayuanro/SCFeat.git.
翻訳日:2022-12-15 15:03:34 公開日:2022-12-14
# グループ感情認識のためのデュアルブランチクロスパッチ注意学習

Dual-branch Cross-Patch Attention Learning for Group Affect Recognition ( http://arxiv.org/abs/2212.07055v1 )

ライセンス: Link先を確認
Hongxia Xie, Ming-Xian Lee, Tzu-Jui Chen, Hung-Jen Chen, Hou-I Liu, Hong-Han Shuai, Wen-Huang Cheng(参考訳) グループ・インフルエント(group affect)とは、グループ内の外部刺激によって誘発される主観的な感情のことであり、グループ行動や結果を形成する重要な要素である。 集団的影響を認識するには、感情を誘発できる群集の中で重要な個人と有能な対象を特定する必要がある。 既存の手法の多くは、事前訓練された検出器を用いて顔や物体を検出し、その結果を特定のルールでグループ感情にまとめるために提案されている。 しかし、このような情緒的領域選択機構はヒューリスティックであり、事前訓練された検出器から不完全な顔や物体に影響を受けやすい。 さらに、グループレベルの画像上の顔やオブジェクトは、しばしば文脈的に関連づけられる。 顔やオブジェクトがどう相互作用できるかについては、まだ疑問の余地がある。 本研究では,最重要人物(mip)と呼ばれる心理概念を取り入れた。 群衆の中でもっとも注目すべき顔であり、情緒的な意味を持つ。 本稿では,グローバルイメージとMIPを併用したDual-branch Cross-Patch Attention Transformer (DCAT)を提案する。 具体的には、まず、mipが生成する情報的顔領域と、グローバルコンテキストを別々に学習する。 次に、MIPとグローバルコンテキストの特徴を融合させて相互補完するために、クロスパッチアテンションモジュールを提案する。 パラメータが10倍未満の場合、提案したDCATは、グループ価予測(GAF 3.0とGroupEmoWデータセット)の2つのデータセットで最先端の手法より優れている。 さらに,提案手法を他のグループインフルエンサータスク,グループ凝集に移し,比較結果を示すことができる。

Group affect refers to the subjective emotion that is evoked by an external stimulus in a group, which is an important factor that shapes group behavior and outcomes. Recognizing group affect involves identifying important individuals and salient objects among a crowd that can evoke emotions. Most of the existing methods are proposed to detect faces and objects using pre-trained detectors and summarize the results into group emotions by specific rules. However, such affective region selection mechanisms are heuristic and susceptible to imperfect faces and objects from the pre-trained detectors. Moreover, faces and objects on group-level images are often contextually relevant. There is still an open question about how important faces and objects can be interacted with. In this work, we incorporate the psychological concept called Most Important Person (MIP). It represents the most noteworthy face in the crowd and has an affective semantic meaning. We propose the Dual-branch Cross-Patch Attention Transformer (DCAT) which uses global image and MIP together as inputs. Specifically, we first learn the informative facial regions produced by the MIP and the global context separately. Then, the Cross-Patch Attention module is proposed to fuse the features of MIP and global context together to complement each other. With parameters less than 10x, the proposed DCAT outperforms state-of-the-art methods on two datasets of group valence prediction, GAF 3.0 and GroupEmoW datasets. Moreover, our proposed model can be transferred to another group affect task, group cohesion, and shows comparable results.
翻訳日:2022-12-15 15:03:15 公開日:2022-12-14
# VINet:3次元物体検出のための軽量・スケーラブル・異種協調認識

VINet: Lightweight, Scalable, and Heterogeneous Cooperative Perception for 3D Object Detection ( http://arxiv.org/abs/2212.07060v1 )

ライセンス: Link先を確認
Zhengwei Bai, Guoyuan Wu, Matthew J. Barth, Yongkang Liu, Emrah Akin Sisbot, Kentaro Oguchi(参考訳) 人工知能(AI)の最新の進歩を利用して、コンピュータービジョンコミュニティは、あらゆる種類の知覚タスク、特に物体検出において、前例のない進化を目撃している。 複数の空間分離された知覚ノードに基づき、協調知覚(cp)は自動運転の知覚を著しく前進させる。 しかし, 現行の協調物体検出手法は, システム全体のコストを考慮せずに, エゴ車効率に重点を置いている。 本稿では、スケーラブルで軽量で異種な協調型3Dオブジェクト検出のための統合ディープラーニングベースのCPネットワークであるVINetを紹介する。 VINetは、大規模システムレベルの実装の観点から設計された最初のCPメソッドであり、3つの主要なフェーズに分けられる。 1) データをグローバルなスタイルに準備し,かつ,軽量な協力のために特徴を抽出するグローバル事前処理及び軽量特徴抽出 2)スケーラブルで異質な知覚ノードから特徴を融合する2ストリーム融合 3) 融合した特徴をさらに処理し, 協調検出結果を生成する中央特徴バックボーンと3D検出ヘッド。 CPデータセット取得のための協調認識プラットフォームを設計・開発し,実験中にいくつかのベースラインを比較した。 実験分析の結果,vinetは,システム全体の計算コストの2倍,システム全体の通信コストの12倍という,歩行者や自動車の大幅な改善を達成できることがわかった。

Utilizing the latest advances in Artificial Intelligence (AI), the computer vision community is now witnessing an unprecedented evolution in all kinds of perception tasks, particularly in object detection. Based on multiple spatially separated perception nodes, Cooperative Perception (CP) has emerged to significantly advance the perception of automated driving. However, current cooperative object detection methods mainly focus on ego-vehicle efficiency without considering the practical issues of system-wide costs. In this paper, we introduce VINet, a unified deep learning-based CP network for scalable, lightweight, and heterogeneous cooperative 3D object detection. VINet is the first CP method designed from the standpoint of large-scale system-level implementation and can be divided into three main phases: 1) Global Pre-Processing and Lightweight Feature Extraction which prepare the data into global style and extract features for cooperation in a lightweight manner; 2) Two-Stream Fusion which fuses the features from scalable and heterogeneous perception nodes; and 3) Central Feature Backbone and 3D Detection Head which further process the fused features and generate cooperative detection results. A cooperative perception platform is designed and developed for CP dataset acquisition and several baselines are compared during the experiments. The experimental analysis shows that VINet can achieve remarkable improvements for pedestrians and cars with 2x less system-wide computational costs and 12x less system-wide communicational costs.
翻訳日:2022-12-15 15:02:52 公開日:2022-12-14
# NLIP:ノイズローバスト言語-画像事前学習

NLIP: Noise-robust Language-Image Pre-training ( http://arxiv.org/abs/2212.07086v1 )

ライセンス: Link先を確認
Runhui Huang, Yanxin Long, Jianhua Han, Hang Xu, Xiwen Liang, Chunjing Xu, Xiaodan Liang(参考訳) 大規模なクロスモーダル事前学習パラダイムは、最近、ゼロショット分類、検索、画像キャプションなど、幅広い下流タスクでユビキタスに成功している。 しかし、その成功は、不完全で騒がしい情報(例えば、間違ったコンテンツや無関係なコンテンツ)を自然に含むウェブクローラーデータの規模と品質に大きく依存している。 既存の作業では、データをきれいにするために手動のルールを設計するか、ノイズの影響を減らす補助信号として擬似ターゲットを生成するかのどちらかだ。 本稿では,既存のデータのみをマイニングすることで,ノイズの影響を自動的に軽減するため,ノイズ調和とノイズ補完という2つの手法を用いて,事前学習を安定化する基本手法であるNLIPを提案する。 まず、ノイズハーモニゼーションスキームにおいて、nlipはクロスモーダルトランスフォーマーの記憶効果に従って各ペアのノイズ確率を推定し、次にノイズ適応正規化を採用してクロスモーダルアライメントを異なる次数で調和させる。 第二に、ノイズコンプリートスキームにおいて、nlipは、テキストの欠落しているオブジェクト情報を豊かにするために、概念条件のクロスモーダルデコーダを注入して、検索された視覚概念(すなわち、オブジェクトの名前)を使用してキャプション生成をガイドする。 ノイズハーモナイゼーションとノイズコンプリートスキームを協調的に最適化することで,画像テキスト事前学習における一般的なノイズ効果をより効率的に軽減することができる。 12のゼロショット分類データセット、MSCOCO画像キャプション、ゼロショット画像テキスト検索タスクにおいて、既存のトレーニング済みモデル(例えば、CLIP、FILIP、BLIP)に対して26万データしか使用せず、NLIPの大幅なパフォーマンス向上が示されている。

Large-scale cross-modal pre-training paradigms have recently shown ubiquitous success on a wide range of downstream tasks, e.g., zero-shot classification, retrieval and image captioning. However, their successes highly rely on the scale and quality of web-crawled data that naturally contain incomplete and noisy information (e.g., wrong or irrelevant content). Existing works either design manual rules to clean data or generate pseudo-targets as auxiliary signals for reducing noise impact, which do not explicitly tackle both the incorrect and incomplete challenges simultaneously. In this paper, to automatically mitigate the impact of noise by solely mining over existing data, we propose a principled Noise-robust Language-Image Pre-training framework (NLIP) to stabilize pre-training via two schemes: noise-harmonization and noise-completion. First, in noise-harmonization scheme, NLIP estimates the noise probability of each pair according to the memorization effect of cross-modal transformers, then adopts noise-adaptive regularization to harmonize the cross-modal alignments with varying degrees. Second, in noise-completion scheme, to enrich the missing object information of text, NLIP injects a concept-conditioned cross-modal decoder to obtain semantic-consistent synthetic captions to complete noisy ones, which uses the retrieved visual concepts (i.e., objects' names) for the corresponding image to guide captioning generation. By collaboratively optimizing noise-harmonization and noise-completion schemes, our NLIP can alleviate the common noise effects during image-text pre-training in a more efficient way. Extensive experiments show the significant performance improvements of our NLIP using only 26M data over existing pre-trained models (e.g., CLIP, FILIP and BLIP) on 12 zero-shot classification datasets, MSCOCO image captioning and zero-shot image-text retrieval tasks.
翻訳日:2022-12-15 15:02:29 公開日:2022-12-14
# マルチタスクアシスト補正による不確定な表情認識

Uncertain Facial Expression Recognition via Multi-task Assisted Correction ( http://arxiv.org/abs/2212.07144v1 )

ライセンス: Link先を確認
Yang Liu, Xingming Zhang, Janne Kauttonen, and Guoying Zhao(参考訳) 表情認識のための深層モデルでは,大規模ラベル付きデータを用いた訓練により高い性能を実現する。 しかし、公開データセットにはあいまいな注釈や混乱した感情によって生じる不確定な表情が含まれており、ロバスト性が著しく低下する可能性がある。 先行研究は通常、異なる対応源の観点から不確実性問題を考えることなく、一般的なタスクにおけるバイアス除去法に従う。 本稿では,MTACと呼ばれる不確実な表情認識に対処するためのマルチタスク支援補正手法を提案する。 具体的には、信頼度推定ブロックと重み付け正則化モジュールを用いて、固体試料をハイライトし、バッチ毎に不確かさサンプルを抑圧する。 さらに、データ駆動型AUグラフから意味分布を学習し、個別感情と連続感情の潜伏依存性に基づいてカテゴリー不均衡を緩和する2つの補助的タスク、すなわち、アクション単位検出と価-覚醒測定を導入する。 さらに、特徴レベルの類似性制約によって導かれる再ラベル戦略により、特定された不確定なサンプルのための新しいラベルが生成され、モデル学習が促進される。 提案手法は,既存のフレームワークと柔軟に組み合わせることができる。 RAF-DB、AffectNet、AffWild2データセットの実験は、MTACが合成的および実際の不確実性に直面した際のベースラインを大幅に改善し、最先端の手法よりも優れていることを示した。

Deep models for facial expression recognition achieve high performance by training on large-scale labeled data. However, publicly available datasets contain uncertain facial expressions caused by ambiguous annotations or confusing emotions, which could severely decline the robustness. Previous studies usually follow the bias elimination method in general tasks without considering the uncertainty problem from the perspective of different corresponding sources. In this paper, we propose a novel method of multi-task assisted correction in addressing uncertain facial expression recognition called MTAC. Specifically, a confidence estimation block and a weighted regularization module are applied to highlight solid samples and suppress uncertain samples in every batch. In addition, two auxiliary tasks, i.e., action unit detection and valence-arousal measurement, are introduced to learn semantic distributions from a data-driven AU graph and mitigate category imbalance based on latent dependencies between discrete and continuous emotions, respectively. Moreover, a re-labeling strategy guided by feature-level similarity constraint further generates new labels for identified uncertain samples to promote model learning. The proposed method can flexibly combine with existing frameworks in a fully-supervised or weakly-supervised manner. Experiments on RAF-DB, AffectNet, and AffWild2 datasets demonstrate that the MTAC obtains substantial improvements over baselines when facing synthetic and real uncertainties and outperforms the state-of-the-art methods.
翻訳日:2022-12-15 15:01:49 公開日:2022-12-14
# 視覚知覚のための完全複素値深層学習モデル

Fully complex-valued deep learning model for visual perception ( http://arxiv.org/abs/2212.07146v1 )

ライセンス: Link先を確認
Aniruddh Sikdar, Sumanth Udupa, Suresh Sundaram(参考訳) 複雑なドメインで動作するディープラーニングモデルは、豊かな表現能力のために使用される。 しかし、これらのモデルのほとんどは複素平面の最初の四分数に制限されているか、複素数値データを実領域に投影しているため、情報が失われる。 本稿では, 複素領域で操作することで, 複素値モデル全体の性能が向上することを示す。 新たに提案する複素値損失関数と学習戦略を用いて,完全複素値畳み込みニューラルネットワーク(fc-cnn)を学習するための,新しい複素値学習手法を提案する。 CIFAR-10、SVHN、CIFAR-100でベンチマークされたFC-CNNは、実際の評価値と比較して4-10%上昇し、モデルの複雑さを維持している。 パラメータが少ないため、CIFAR-10とSVHNの最先端の複素数値モデルに匹敵する性能が得られる。 CIFAR-100データセットでは、25%少ないパラメータで最先端のパフォーマンスを達成する。 FC-CNNは訓練効率が向上し、他の全てのモデルよりもはるかに高速に収束する。

Deep learning models operating in the complex domain are used due to their rich representation capacity. However, most of these models are either restricted to the first quadrant of the complex plane or project the complex-valued data into the real domain, causing a loss of information. This paper proposes that operating entirely in the complex domain increases the overall performance of complex-valued models. A novel, fully complex-valued learning scheme is proposed to train a Fully Complex-valued Convolutional Neural Network (FC-CNN) using a newly proposed complex-valued loss function and training strategy. Benchmarked on CIFAR-10, SVHN, and CIFAR-100, FC-CNN has a 4-10% gain compared to its real-valued counterpart, maintaining the model complexity. With fewer parameters, it achieves comparable performance to state-of-the-art complex-valued models on CIFAR-10 and SVHN. For the CIFAR-100 dataset, it achieves state-of-the-art performance with 25% fewer parameters. FC-CNN shows better training efficiency and much faster convergence than all the other models.
翻訳日:2022-12-15 15:01:24 公開日:2022-12-14
# 事前訓練された言語モデルは完全なゼロショット学習者になれる

Pre-trained Language Models can be Fully Zero-Shot Learners ( http://arxiv.org/abs/2212.06950v1 )

ライセンス: Link先を確認
Xuandong Zhao, Siqi Ouyang, Zhiguo Yu, Ming Wu, Lei Li(参考訳) ラベル付きや追加のラベル付きデータなしで、事前訓練されたモデルを多くの言語理解タスクにどのように拡張できるのか? プレトレーニング言語モデル(PLM)は、幅広いNLPタスクに有効である。 しかし、既存のアプローチでは、ダウンストリームラベル付きデータセットを微調整するか、あるいは手動で適切なプロンプトを構築する必要がある。 本稿では,完全ゼロショット言語理解のための非パラメトリックプロンプト PLM (NPPrompt) を提案する。 従来の手法とは異なり、NPPromptは事前訓練された言語モデルのみを使用し、さらなる微調整のためにラベル付きデータや追加の生コーパスを必要としない。 我々はNPPromptを、テキスト分類、テキストエンテインメント、類似したテキスト検索、パラフレーズ処理を含む様々なNLPタスクにおいて、従来の複数ショットおよびゼロショット学習手法と比較して評価した。 実験結果から,NPPromptはテキスト分類の精度が12.8%,GLUEベンチマークの精度が18.9%向上し,これまでで最高の完全ゼロショット法よりも大きなマージンを達成できた。

How can we extend a pre-trained model to many language understanding tasks, without labeled or additional unlabeled data? Pre-trained language models (PLMs) have been effective for a wide range of NLP tasks. However, existing approaches either require fine-tuning on downstream labeled datasets or manually constructing proper prompts. In this paper, we propose nonparametric prompting PLM (NPPrompt) for fully zero-shot language understanding. Unlike previous methods, NPPrompt uses only pre-trained language models and does not require any labeled data or additional raw corpus for further fine-tuning, nor does it rely on humans to construct a comprehensive set of prompt label words. We evaluate NPPrompt against previous major few-shot and zero-shot learning methods on diverse NLP tasks: including text classification, text entailment, similar text retrieval, and paraphrasing. Experimental results demonstrate that our NPPrompt outperforms the previous best fully zero-shot method by big margins, with absolute gains of 12.8% in accuracy on text classification and 18.9% on the GLUE benchmark.
翻訳日:2022-12-15 14:54:36 公開日:2022-12-14
# 言語間感情分析のためのマルチタスク学習

Multi-task Learning for Cross-Lingual Sentiment Analysis ( http://arxiv.org/abs/2212.07160v1 )

ライセンス: Link先を確認
Gaurish Thakkar, Nives Mikelic Preradovic, Marko Tadic(参考訳) 本稿では,ゼロショット学習と少数ショット学習を用いて,ニュース記事の言語間感情分析を行う。 この研究は、クロアチアのニュース記事をスロベニアのデータセットを用いて肯定的、否定的、中立的な感情で分類することを目的としている。 このシステムは、英語、スロベニア語、クロアチア語という3つの言語で訓練された三言語BERTベースのモデルに基づいている。 本稿では2つの言語でデータセットを用いて異なる設定を解析し、感情分類を行うためのシンプルなマルチタスクモデルを提案する。 評価はクロアチア語とスロベニア語のシングルタスクおよびマルチタスク実験において、少数およびゼロショットのシナリオを用いて行われる。

This paper presents a cross-lingual sentiment analysis of news articles using zero-shot and few-shot learning. The study aims to classify the Croatian news articles with positive, negative, and neutral sentiments using the Slovene dataset. The system is based on a trilingual BERT-based model trained in three languages: English, Slovene, Croatian. The paper analyses different setups using datasets in two languages and proposes a simple multi-task model to perform sentiment classification. The evaluation is performed using the few-shot and zero-shot scenarios in single-task and multi-task experiments for Croatian and Slovene.
翻訳日:2022-12-15 14:54:14 公開日:2022-12-14
# ユニバーサル名前付きエンティティ認識英語コーパスの構築と評価

Building and Evaluating Universal Named-Entity Recognition English corpus ( http://arxiv.org/abs/2212.07162v1 )

ライセンス: Link先を確認
Diego Alves, Gaurish Thakkar, Marko Tadi\'c(参考訳) 本稿では、ユニバーサルネーム付きエンティティフレームワークを用いて、自動注釈付きコーパスを生成する。 ウィキペディアのデータとメタデータとDBpedia情報を抽出するワークフローを用いて、説明と評価を行う英語データセットを生成した。 さらに、精度、リコール、およびf1測定の観点からアノテーションを改善するための一連の実験を行った。 最終的なデータセットは利用可能であり、既存のWikipediaとDBpediaを持つ任意の言語に確立されたワークフローを適用することができる。 今後の研究の一環として、アノテーションのプロセスを改善し、他の言語にも拡張するつもりです。

This article presents the application of the Universal Named Entity framework to generate automatically annotated corpora. By using a workflow that extracts Wikipedia data and meta-data and DBpedia information, we generated an English dataset which is described and evaluated. Furthermore, we conducted a set of experiments to improve the annotations in terms of precision, recall, and F1-measure. The final dataset is available and the established workflow can be applied to any language with existing Wikipedia and DBpedia. As part of future research, we intend to continue improving the annotation process and extend it to other languages.
翻訳日:2022-12-15 14:54:08 公開日:2022-12-14
# クロアチアのニュース記事における引用,コリファレンス解決,感情アノテーション--探索的研究

Quotations, Coreference Resolution, and Sentiment Annotations in Croatian News Articles: An Exploratory Study ( http://arxiv.org/abs/2212.07172v1 )

ライセンス: Link先を確認
Jelena Sarajli\'c, Gaurish Thakkar, Diego Alves, Nives Mikelic Preradovi\'c(参考訳) 本稿では,クロアチアにおける音声の直接抽出作業のためのコーパスについて述べる。 本論文はクロアチアのSETimesニュースコーパスにおける引用、共参照解決、感情アノテーションのアノテーションと、英語と比較して言語固有の差異の分析に焦点を当てた。 このことから、これらのアノテーションを実行する際に特に注意を要する現象のリストが導出される。 引用機能を備えた生成されたコーパスは、自然言語処理の分野で複数のタスクに使用できる。

This paper presents a corpus annotated for the task of direct-speech extraction in Croatian. The paper focuses on the annotation of the quotation, co-reference resolution, and sentiment annotation in SETimes news corpus in Croatian and on the analysis of its language-specific differences compared to English. From this, a list of the phenomena that require special attention when performing these annotations is derived. The generated corpus with quotation features annotations can be used for multiple tasks in the field of Natural Language Processing.
翻訳日:2022-12-15 14:53:57 公開日:2022-12-14
# ハイブリッド対話システムにおける否定的スタイル移動の緩和

Mitigating Negative Style Transfer in Hybrid Dialogue System ( http://arxiv.org/abs/2212.07183v1 )

ライセンス: Link先を確認
Shimin Li, Qinyuan Cheng, Linyang Li, Xipeng Qiu(参考訳) 対話システムの機能が進化するにつれて、ユーザ固有の目標を達成し、オープントピックなチトチャットに参加するハイブリッド対話システムが注目を集めている。 既存の研究は、マルチタスク融合技術を利用して両方のタスクを同時に学習するが、ユニークなテキストスタイルの違いによって引き起こされる負の伝達現象を無視する。 したがって、潜在変数モデルに基づく対比学習は、潜在空間における様々なテキストジャンルを分離するために用いられる。 多様なデータセットに対する教師付き自己監督型正負のサンプル構成を考案する。 さらに,分離された潜伏変数に含まれるスタイル情報を活用するために,潜伏変数を更に組み込んだスタイルプレフィックスを用いて,応答の生成を様々なスタイルで制御する。 本研究では,ハイブリッド対話データセットとタスク指向対話データセットを含む3つの対話データセットについて,広範な実験を行った。 実験の結果,本手法は否定的なスタイル転送問題を緩和し,複数の対話データセットにおいて最先端のパフォーマンスを実現することができた。

As the functionality of dialogue systems evolves, hybrid dialogue systems that accomplish user-specific goals and participate in open-topic chitchat with users are attracting growing attention. Existing research learns both tasks concurrently utilizing a multi-task fusion technique but ignores the negative transfer phenomenon induced by the unique textual style differences. Therefore, contrastive learning based on the latent variable model is used to decouple the various textual genres in the latent space. We devise supervised and self-supervised positive and negative sample constructions for diverse datasets. In addition, to capitalize on the style information contained in the decoupled latent variables, we employ a style prefix that incorporates latent variables further to control the generation of responses with varying styles. We performed extensive experiments on three dialogue datasets, including a hybrid dialogue dataset and two task-oriented dialogue datasets. The experimental results demonstrate that our method can mitigate the negative style transfer issue and achieves state-of-the-art performance on multiple dialogue datasets.
翻訳日:2022-12-15 14:53:50 公開日:2022-12-14
# VTCC-NLP at NL4Opt competition subtask 1: An Ensemble Pre-trained Language Model for Named Entity Recognition

VTCC-NLP at NL4Opt competition subtask 1: An Ensemble Pre-trained language models for Named Entity Recognition ( http://arxiv.org/abs/2212.07219v1 )

ライセンス: Link先を確認
Xuan-Dung Doan(参考訳) 本稿では,3種類の事前学習型言語モデル (XLM-R, BART, DeBERTa-V3) を提案する。 我々のモデルはテストセットで92.9%のF1スコアを獲得し、NL4Optコンペティションサブタスク1で5位となった。

We propose a combined three pre-trained language models (XLM-R, BART, and DeBERTa-V3) as an empower of contextualized embedding for named entity recognition. Our model achieves a 92.9% F1 score on the test set and ranks 5th on the leaderboard at NL4Opt competition subtask 1.
翻訳日:2022-12-15 14:53:33 公開日:2022-12-14
# 多言語意味解析のためのバイト・ワードピースレベルモデルの評価

Evaluating Byte and Wordpiece Level Models for Massively Multilingual Semantic Parsing ( http://arxiv.org/abs/2212.07223v1 )

ライセンス: Link先を確認
Massimo Nicosia and Francesco Piccinno(参考訳) トークンフリーアプローチは、一連のワードとスパンレベルタスクにうまく適用されている。 そこで本研究では,MASSIVE多言語意味解析データセットの51言語における単語レベル (ByT5) とワードピースベース (mT5) のシーケンスモデルを比較した。 複数の実験的な設定を調べます (i)ゼロショット。 (二)金の全データ及び (iii)合成データによるゼロショット。 機械翻訳例に対する最先端のラベル投影法を用いることで,全言語からのゴールドデータに基づいてトレーニングされたモデルに対して,正確なマッチング精度の差をわずか5ポイントに削減することができる。 さらに、ByT5の言語間移動に関する洞察を与え、モデルがすべてのパラメータサイズでmT5と比較してどうかを示す。

Token free approaches have been successfully applied to a series of word and span level tasks. In this work, we compare a byte-level (ByT5) and a wordpiece based (mT5) sequence to sequence model on the 51 languages of the MASSIVE multilingual semantic parsing dataset. We examine multiple experimental settings: (i) zero-shot, (ii) full gold data and (iii) zero-shot with synthetic data. By leveraging a state-of-the-art label projection method for machine translated examples, we are able to reduce the gap in exact match accuracy to only 5 points with respect to a model trained on gold data from all the languages. We additionally provide insights on the cross-lingual transfer of ByT5 and show how the model compares with respect to mT5 across all parameter sizes.
翻訳日:2022-12-15 14:53:24 公開日:2022-12-14
# MANTa:ロバストなエンドツーエンド言語モデリングのための効率的なグラディエントベースのトークン化

MANTa: Efficient Gradient-Based Tokenization for Robust End-to-End Language Modeling ( http://arxiv.org/abs/2212.07284v1 )

ライセンス: Link先を確認
Nathan Godey, Roman Castagn\'e, \'Eric de la Clergerie, Beno\^it Sagot(参考訳) 静的サブワードトークン化アルゴリズムは、近年の言語モデリングにおける重要な要素である。 しかし、静的な性質は、モデルの下流のパフォーマンスと堅牢性を低下させる重要な欠陥をもたらす。 本研究では,適応型ニューラルネットワークトークン化モジュールmantaを提案する。 MANTaは言語モデルとエンドツーエンドでトレーニングされた差別化可能なトークンである。 結果として得られるシステムは、バイトレベルのモデルの表現性と、サブワードトークン化を用いて訓練されたモデルの速度との間のトレードオフを提供する。 さらに、トークン化器は、ブロックに配列を明示的に分割するので、非常に説明しやすい。 我々は、異なるドメインの英語データセットと合成ノイズに基づく事前学習モデルの評価を行った。 MANTaは文字摂動やドメイン外データに対する堅牢性を向上させる。 次に、MANTaが一般ドメインGLUEベンチマークで他のモデルと同等に動作することを示す。 最後に、厳密なバイトレベルのモデルよりもかなり高速であることを示す。

Static subword tokenization algorithms have been an essential component of recent works on language modeling. However, their static nature results in important flaws that degrade the models' downstream performance and robustness. In this work, we propose MANTa, a Module for Adaptive Neural TokenizAtion. MANTa is a differentiable tokenizer trained end-to-end with the language model. The resulting system offers a trade-off between the expressiveness of byte-level models and the speed of models trained using subword tokenization. In addition, our tokenizer is highly explainable since it produces an explicit segmentation of sequences into blocks. We evaluate our pre-trained model on several English datasets from different domains as well as on synthetic noise. We find that MANTa improves robustness to character perturbations and out-of-domain data. We then show that MANTa performs comparably to other models on the general-domain GLUE benchmark. Finally, we show that it is considerably faster than strictly byte-level models.
翻訳日:2022-12-15 14:53:11 公開日:2022-12-14
# 時間計画のための効率的なインクリメンタル簡易時間ネットワークデータ構造

An Efficient Incremental Simple Temporal Network Data Structure for Temporal Planning ( http://arxiv.org/abs/2212.07226v1 )

ライセンス: Link先を確認
Andrea Micheli(参考訳) 時間計画問題を解決する一般的な手法は、因果決定を分離し、時間的決定からヒューリスティックな探索を要求し、単純な時間的ネットワーク(stn)解決者に要求することである。 このアーキテクチャでは、相互に関連のある一連のsnsの一貫性を確認する必要があるため、前回の計算を段階的に再利用し、高価なメモリ重複を回避する方法が最重要となる。 本稿では,STNが時間的計画においてどのように使用されるのかを詳述し,このユースケースをサポートするための明確なインターフェースを特定し,時間的・メモリ効率の両面から,このインターフェースを実装する効率的なデータ構造を提案する。 我々のデータ構造は \deltastn と呼ばれ、時間的計画順序に関する他の最先端のアプローチよりも優れていることを示す。

One popular technique to solve temporal planning problems consists in decoupling the causal decisions, demanding them to heuristic search, from temporal decisions, demanding them to a simple temporal network (STN) solver. In this architecture, one needs to check the consistency of a series of STNs that are related one another, therefore having methods to incrementally re-use previous computations and that avoid expensive memory duplication is of paramount importance. In this paper, we describe in detail how STNs are used in temporal planning, we identify a clear interface to support this use-case and we present an efficient data-structure implementing this interface that is both time- and memory-efficient. We show that our data structure, called \deltastn, is superior to other state-of-the-art approaches on temporal planning sequences of problems.
翻訳日:2022-12-15 14:52:58 公開日:2022-12-14
# ECON: 普通の人から服を盗んだ人間

ECON: Explicit Clothed humans Obtained from Normals ( http://arxiv.org/abs/2212.07422v1 )

ライセンス: Link先を確認
Yuliang Xiu, Jinlong Yang, Xu Cao, Dimitrios Tzionas, Michael J. Black(参考訳) アーティストによるスキャンと深い暗黙の関数(IF)の組み合わせにより、画像から詳細な3D人間を作成できるようになった。 しかし、既存の手法は完璧とは程遠い。 ifベースの手法は自由形状の幾何学を復元するが、体幹のない四肢や、目立たないポーズや衣服の形状を縮退させる。 これらのケースのロバスト性を高めるために、既存の研究は表面の再構成を制限するために明示的なパラメトリックボディモデルを用いているが、これは体から逸脱するゆるい衣服のような自由形表面の回復を制限する。 私たちが望むのは、暗黙的および明示的なメソッドの最高のプロパティを組み合わせたメソッドです。 この目的のために,(1)現在のネットワークは,完全な3d表面よりも詳細な2dマップを推定し,(2)パラメトリックモデルは,詳細な表面パッチを縫い合わせるための「カンバス」と見なすことができる。 econは、リアルな顔と指を持ちながら、ゆるやかな服装と挑戦的なポーズでも高い忠実な3d人間を推論する。 これは以前の方法を超えます。 CAPEとRenderPeopleのデータセットを定量的に評価すると、ECONは最先端技術よりも正確であることがわかる。 知覚学的研究は、ECONの認識されたリアリズムが大きなマージンで優れていることも示している。 コードとモデルは研究目的でhttps://xiuyuliang.cn/econで利用可能である。

The combination of artist-curated scans, and deep implicit functions (IF), is enabling the creation of detailed, clothed, 3D humans from images. However, existing methods are far from perfect. IF-based methods recover free-form geometry but produce disembodied limbs or degenerate shapes for unseen poses or clothes. To increase robustness for these cases, existing work uses an explicit parametric body model to constrain surface reconstruction, but this limits the recovery of free-form surfaces such as loose clothing that deviates from the body. What we want is a method that combines the best properties of implicit and explicit methods. To this end, we make two key observations: (1) current networks are better at inferring detailed 2D maps than full-3D surfaces, and (2) a parametric model can be seen as a "canvas" for stitching together detailed surface patches. ECON infers high-fidelity 3D humans even in loose clothes and challenging poses, while having realistic faces and fingers. This goes beyond previous methods. Quantitative, evaluation of the CAPE and Renderpeople datasets shows that ECON is more accurate than the state of the art. Perceptual studies also show that ECON's perceived realism is better by a large margin. Code and models are available for research purposes at https://xiuyuliang.cn/econ
翻訳日:2022-12-15 14:46:53 公開日:2022-12-14
# ブロックチェーンに関するAI倫理: ブロックチェーンセキュリティのためのTwitterデータに関するトピック分析

AI Ethics on Blockchain: Topic Analysis on Twitter Data for Blockchain Security ( http://arxiv.org/abs/2212.06951v1 )

ライセンス: Link先を確認
Yihang Fu, Zesen Zhuang, Luyao Zhang(参考訳) Blockchainは、分散ネットワークを使用してコンピュータシステムをよりセキュアにする権限を与えている。 しかしながら、現在のブロックチェーン設計は、トランザクションオーダの公平性の問題に悩まされている。 鉱夫は、いわゆるmev(miner extractable value)と呼ばれる取引を注文して利益を得ることができる。 既存の研究は、MEVが深刻なセキュリティ問題であると認識し、著名なFlashbotを含む潜在的なソリューションを提案する。 しかし、以前の研究では主にブロックチェーンデータを分析しており、より広範なAI社会におけるMEVの影響を捉えていない可能性がある。 そこで本研究では,MEV上のツイートのトピックを包括的に分析するために自然言語処理(NLP)手法を適用した。 われわれは20000以上のツイートを#MEVと#Flashbotsハッシュタグで収集し、それらのトピックを分析した。 以上の結果から, このツイートは, セキュリティ, 公平性, 情緒的感情, およびMEVに対するソリューションへの欲求など, 倫理的懸念の深いトピックを議論した。 また、ブロックチェーンやソーシャルメディアプラットフォーム上でのMEV活動のコムーブメントを特定します。 私たちの研究は、ブロックチェーンセキュリティ、MEVソリューション、AI倫理のインターフェースにおける文献に貢献します。

Blockchain has empowered computer systems to be more secure using a distributed network. However, the current blockchain design suffers from fairness issues in transaction ordering. Miners are able to reorder transactions to generate profits, the so-called miner extractable value (MEV). Existing research recognizes MEV as a severe security issue and proposes potential solutions, including prominent Flashbots. However, previous studies have mostly analyzed blockchain data, which might not capture the impacts of MEV in a much broader AI society. Thus, in this research, we applied natural language processing (NLP) methods to comprehensively analyze topics in tweets on MEV. We collected more than 20000 tweets with \#MEV and \#Flashbots hashtags and analyzed their topics. Our results show that the tweets discussed profound topics of ethical concern, including security, equity, emotional sentiments, and the desire for solutions to MEV. We also identify the co-movements of MEV activities on blockchain and social media platforms. Our study contributes to the literature at the interface of blockchain security, MEV solutions, and AI ethics.
翻訳日:2022-12-15 14:46:07 公開日:2022-12-14
# システム同定における強化学習

Reinforcement Learning in System Identification ( http://arxiv.org/abs/2212.07123v1 )

ライセンス: Link先を確認
Jose Antonio Martin H., Oscar Fernandez Vicente, Sergio Perez, Anas Belfadil, Cristina Ibanez-Llano, Freddy Jose Perozo Rondon, Jose Javier Valle, Javier Arechalde Pelaz(参考訳) システム同定は、学習フォワードモデル、伝達関数、システムダイナミクスなどとしても知られ、科学と工学の両方において様々な分野において長い伝統がある。 特に、強化学習研究における繰り返しのテーマであり、前進モデルは、現在状態と動作から次の状態へのマッピング関数を学習することにより、マルコフ決定プロセスの状態遷移関数を近似する。 この問題は一般に教師付き学習問題として直接的に定義される。 この一般的なアプローチは、遅延効果、高い非線形性、非定常性、部分的可観測性、そしてより重要なことに、ブートストラップされた予測(過去の予測に基づく予測)を使用する場合のエラーの蓄積など、学習するダイナミクスの固有の複雑さによって、いくつかの困難に直面している。 本稿では,この問題における強化学習の利用について考察する。 我々は,この課題が自然にどのように適合するかを,強化学習問題として説明し,rlがこのような問題を解決する有望な手法であることを実証する実験結果を示す。

System identification, also known as learning forward models, transfer functions, system dynamics, etc., has a long tradition both in science and engineering in different fields. Particularly, it is a recurring theme in Reinforcement Learning research, where forward models approximate the state transition function of a Markov Decision Process by learning a mapping function from current state and action to the next state. This problem is commonly defined as a Supervised Learning problem in a direct way. This common approach faces several difficulties due to the inherent complexities of the dynamics to learn, for example, delayed effects, high non-linearity, non-stationarity, partial observability and, more important, error accumulation when using bootstrapped predictions (predictions based on past predictions), over large time horizons. Here we explore the use of Reinforcement Learning in this problem. We elaborate on why and how this problem fits naturally and sound as a Reinforcement Learning problem, and present some experimental results that demonstrate RL is a promising technique to solve these kind of problems.
翻訳日:2022-12-15 14:45:50 公開日:2022-12-14
# トロイダル座標:格子還元を伴う円座標の相関

Toroidal Coordinates: Decorrelating Circular Coordinates With Lattice Reduction ( http://arxiv.org/abs/2212.07201v1 )

ライセンス: Link先を確認
Luis Scoccola, Hitesh Gakhar, Johnathan Bush, Nikolas Schonsheck, Tatum Rask, Ling Zhou, Jose A. Perea(参考訳) de Silva, Morozov, Vejdemo-Johansson の円座標アルゴリズムはデータセットを入力として、データ内の1ドルの次元の穴を表すコホモロジークラスと組み合わせる。 しかし、いくつかのコホモロジークラスに適用すると、出力円値写像は、選択されたコホモロジークラスが線型独立であっても「幾何相関」することができる。 元の研究で、相関の少ない写像はコホモロジークラスの適当な整数線型結合で得ることができ、検査によって線形結合が選択されることが示されている。 本稿では、リーマン多様体の場合、ディリクレエネルギーから派生した双線型形式であるディリクレ形式に対応する円値写像間の幾何学的相関の形式的概念を特定する。 本稿では,線形独立コホモロジークラスからデータ上に低エネルギートーラス値マップを構築するための体系的手順について述べる。 我々は計算例でその手順を実証する。 本アルゴリズムは,Lenstra--Lenstra--Lov\'aszアルゴリズムの計算数理論に基づくアルゴリズムである。

The circular coordinates algorithm of de Silva, Morozov, and Vejdemo-Johansson takes as input a dataset together with a cohomology class representing a $1$-dimensional hole in the data; the output is a map from the data into the circle that captures this hole, and that is of minimum energy in a suitable sense. However, when applied to several cohomology classes, the output circle-valued maps can be "geometrically correlated" even if the chosen cohomology classes are linearly independent. It is shown in the original work that less correlated maps can be obtained with suitable integer linear combinations of the cohomology classes, with the linear combinations being chosen by inspection. In this paper, we identify a formal notion of geometric correlation between circle-valued maps which, in the Riemannian manifold case, corresponds to the Dirichlet form, a bilinear form derived from the Dirichlet energy. We describe a systematic procedure for constructing low energy torus-valued maps on data, starting from a set of linearly independent cohomology classes. We showcase our procedure with computational examples. Our main algorithm is based on the Lenstra--Lenstra--Lov\'asz algorithm from computational number theory.
翻訳日:2022-12-15 14:45:10 公開日:2022-12-14
# 微調整事前学習画像テキストエンコーダによるゼロショットX線病理分類の改善

Significantly improving zero-shot X-ray pathology classification via fine-tuning pre-trained image-text encoders ( http://arxiv.org/abs/2212.07050v1 )

ライセンス: Link先を確認
Jongseong Jang, Daeun Kyung, Seung Hwan Kim, Honglak Lee, Kyunghoon Bae, Edward Choi(参考訳) 深層ニューラルネットワークは医療画像に基づく病理分類を含む多様な領域でうまく採用されている。 しかしながら、強力なニューラルネットワークをトレーニングする大規模かつ高品質なデータは、認定専門家がラベル付けを行う必要があるため、医療領域ではまれである。 研究者は最近、大規模な汎用ドメインデータで事前訓練されたモデルを活用することで、この問題にいくつかの成功を収めた。 具体的には、コントラストのある画像テキストエンコーダ(例えばCLIP)を胸部X線画像で微調整し、ゼロショットの病理分類を行うためにレポートをペアにした。 しかし、既存の研究では、同じ対照的な学習目標で訓練済みモデルを微調整し、医用画像-レポートペアのマルチラベルの性質を活用できなかった。 本稿では, 文章サンプリングと正のペア損失緩和に基づく新しい微調整戦略を提案し, 学習済みコントラスト画像テキストエンコーダに適用可能な下流ゼロショット病理分類性能を向上させる。 4種類の胸部X線データセットと3種類の事前訓練モデル(平均AUROC増加率5.77%)でゼロショット病理分類性能を継続的に改善した。 特に細調整CLIPは,CheXpertデータセットから5つの顕著な疾患のゼロショット分類において,0.619 vs 0.625 in F1 score, 0.530 vs 0.544 in MCC)に比較して非常に優れていた。

Deep neural networks have been successfully adopted to diverse domains including pathology classification based on medical images. However, large-scale and high-quality data to train powerful neural networks are rare in the medical domain as the labeling must be done by qualified experts. Researchers recently tackled this problem with some success by taking advantage of models pre-trained on large-scale general domain data. Specifically, researchers took contrastive image-text encoders (e.g., CLIP) and fine-tuned it with chest X-ray images and paired reports to perform zero-shot pathology classification, thus completely removing the need for pathology-annotated images to train a classification model. Existing studies, however, fine-tuned the pre-trained model with the same contrastive learning objective, and failed to exploit the multi-labeled nature of medical image-report pairs. In this paper, we propose a new fine-tuning strategy based on sentence sampling and positive-pair loss relaxation for improving the downstream zero-shot pathology classification performance, which can be applied to any pre-trained contrastive image-text encoders. Our method consistently showed dramatically improved zero-shot pathology classification performance on four different chest X-ray datasets and 3 different pre-trained models (5.77% average AUROC increase). In particular, fine-tuning CLIP with our method showed much comparable or marginally outperformed to board-certified radiologists (0.619 vs 0.625 in F1 score and 0.530 vs 0.544 in MCC) in zero-shot classification of five prominent diseases from the CheXpert dataset.
翻訳日:2022-12-15 14:44:50 公開日:2022-12-14
# 網膜イメージングによる全身疾患検出のための説明可能な人工知能

Explainable Artificial Intelligence in Retinal Imaging for the detection of Systemic Diseases ( http://arxiv.org/abs/2212.07058v1 )

ライセンス: Link先を確認
Ayushi Raj Bhatt, Rajkumar Vaghashiya, Meghna Kulkarni, Dr Prakash Kamaraj(参考訳) 説明可能な人工知能(AI)は、糖尿病性網膜症、高血圧性網膜症、その他の主要な全身疾患の背景にある網膜症などの眼疾患をステージグレーディングするための解釈可能な半自動的アプローチである。 この実験は、深層畳み込みニューラルネットワーク(CNN)を直接使用せずに、説明可能な段階的な段階付けプロセスを評価することを目的としている。 現在のCNNベースのディープニューラルネットワークの多くは、網膜障害の診断に使用されているが、その決定を下す基盤を特定できない。 これらの決定の透明性を改善するため,我々は,眼底画像の網膜血管評価を行い,定量的かつ記述的パラメータを導出する,クリニアン・イン・ザ・ループ支援インテリジェントワークフローを提案する。 網膜血管パラメーターは、決定の解釈と説明可能性を改善するためにハイパーパラメータとして機能する。 半自動的方法論は、臨床医からのより多くのインプットと解釈を持つ医療アプリケーションにおけるAIに対する連合的なアプローチを提供することを目的としている。 機械学習パイプラインのベースラインプロセスは、光学ディスクの検出、血管のセグメンテーション、動脈/静脈の識別などの画像処理技術を通じて行われる。

Explainable Artificial Intelligence (AI) in the form of an interpretable and semiautomatic approach to stage grading ocular pathologies such as Diabetic retinopathy, Hypertensive retinopathy, and other retinopathies on the backdrop of major systemic diseases. The experimental study aims to evaluate an explainable staged grading process without using deep Convolutional Neural Networks (CNNs) directly. Many current CNN-based deep neural networks used for diagnosing retinal disorders might have appreciable performance but fail to pinpoint the basis driving their decisions. To improve these decisions' transparency, we have proposed a clinician-in-the-loop assisted intelligent workflow that performs a retinal vascular assessment on the fundus images to derive quantifiable and descriptive parameters. The retinal vessel parameters meta-data serve as hyper-parameters for better interpretation and explainability of decisions. The semiautomatic methodology aims to have a federated approach to AI in healthcare applications with more inputs and interpretations from clinicians. The baseline process involved in the machine learning pipeline through image processing techniques for optic disc detection, vessel segmentation, and arteriole/venule identification.
翻訳日:2022-12-15 14:44:21 公開日:2022-12-14
# 階層的オーバーザエアFedGradNorm

Hierarchical Over-the-Air FedGradNorm ( http://arxiv.org/abs/2212.07414v1 )

ライセンス: Link先を確認
Cemil Vahapoglu and Matin Mortaheb and Sennur Ulukus(参考訳) マルチタスク学習(multi-task learning, mtl)は、複数の関連するタスクを同時に学習するための学習パラダイムである。 mtlは、タスクがクライアント間で分散され、クライアントが単一の共有ネットワークを持つ場合、連合学習(federated learning, pfl)設定に統合することができ、パーソナライズされた連合学習(federated learning, pfl)に繋がる。 学習性能を著しく低下させるクライアント間のフェデレーション設定における統計的不均一性に対処するために,分散動的重み付け手法を用いる。 遠隔パラメータサーバ(PS)とクライアント間の通信を,電力・帯域幅制限下で効率的に行うために,OTA(Over-the-air)アグリゲーションと階層的フェデレーションラーニング(HFL)を利用する。 そこで我々は,HOTA-FedGradNormと呼ばれる動的重み付け戦略を用いた階層的オーバー・ザ・エア(HOTA)PFLを提案する。 本アルゴリズムは, 動的重み選択過程におけるチャネル条件を考察する。 無線通信システムデータセット(RadComDynamic)について実験を行った。 実験結果から,HOTA-FedGradNormによるトレーニング速度は,静的等重み付け方式のアルゴリズムに比べて高速であることがわかった。 さらに、hota-fedgradnormは、動的重み選択過程中にチャネル条件を補償することにより、負のチャネル効果に対するロバスト性を提供する。

Multi-task learning (MTL) is a learning paradigm to learn multiple related tasks simultaneously with a single shared network where each task has a distinct personalized header network for fine-tuning. MTL can be integrated into a federated learning (FL) setting if tasks are distributed across clients and clients have a single shared network, leading to personalized federated learning (PFL). To cope with statistical heterogeneity in the federated setting across clients which can significantly degrade the learning performance, we use a distributed dynamic weighting approach. To perform the communication between the remote parameter server (PS) and the clients efficiently over the noisy channel in a power and bandwidth-limited regime, we utilize over-the-air (OTA) aggregation and hierarchical federated learning (HFL). Thus, we propose hierarchical over-the-air (HOTA) PFL with a dynamic weighting strategy which we call HOTA-FedGradNorm. Our algorithm considers the channel conditions during the dynamic weight selection process. We conduct experiments on a wireless communication system dataset (RadComDynamic). The experimental results demonstrate that the training speed with HOTA-FedGradNorm is faster compared to the algorithms with a naive static equal weighting strategy. In addition, HOTA-FedGradNorm provides robustness against the negative channel effects by compensating for the channel conditions during the dynamic weight selection process.
翻訳日:2022-12-15 14:43:37 公開日:2022-12-14
# シークエンシャルカーネル化独立試験

Sequential Kernelized Independence Testing ( http://arxiv.org/abs/2212.07383v1 )

ライセンス: Link先を確認
Aleksandr Podkopaev, Patrick Bl\"obaum, Shiva Prasad Kasiviswanathan, Aaditya Ramdas(参考訳) 独立性テスト(independent testing)は、データ収集前のサンプルサイズを修正するバッチ設定で広く研究されてきた、基本かつ古典的な統計問題である。 しかし、実践者は事前にサンプルサイズを設定するのではなく、手前の問題の複雑さに適応する手順を好むことが多い。 理想的には、そのような手続きは (a)簡単なタスク(後に難しいタスク)で早期に停止できるので、利用可能なリソースをよりよく利用できます。 b) 偽警報率を制御しつつ, データを継続的に監視し, 新たなデータ収集後の統計的証拠を効率的に活用する。 従来のバッチテストがストリーミングデータ設定用に調整されていないことはよく知られている。データのピーク後の正当な推論は複数のテストの修正を必要とするが、このような修正は一般的に低消費電力になる。 本稿では,ベッティングによるテストの原則に基づいて,このような欠点を克服する逐次的カーネル化独立テスト(skit)を設計する。 我々は,Hilbert-Schmidt独立基準 (HSIC) や制約共分散基準 (COCO) などのカーネル依存対策に着想を得た賭けを用いて,我々の幅広い枠組みを実証する。 重要なことに、我々はフレームワークを、バッチテストが存在しない時間変化の設定以外のものに一般化する。 シミュレーションデータと実データの両方において,我々のアプローチのパワーを実証する。

Independence testing is a fundamental and classical statistical problem that has been extensively studied in the batch setting when one fixes the sample size before collecting data. However, practitioners often prefer procedures that adapt to the complexity of a problem at hand instead of setting sample size in advance. Ideally, such procedures should (a) allow stopping earlier on easy tasks (and later on harder tasks), hence making better use of available resources, and (b) continuously monitor the data and efficiently incorporate statistical evidence after collecting new data, while controlling the false alarm rate. It is well known that classical batch tests are not tailored for streaming data settings, since valid inference after data peeking requires correcting for multiple testing, but such corrections generally result in low power. In this paper, we design sequential kernelized independence tests (SKITs) that overcome such shortcomings based on the principle of testing by betting. We exemplify our broad framework using bets inspired by kernelized dependence measures such as the Hilbert-Schmidt independence criterion (HSIC) and the constrained-covariance criterion (COCO). Importantly, we also generalize the framework to non-i.i.d. time-varying settings, for which there exist no batch tests. We demonstrate the power of our approaches on both simulated and real data.
翻訳日:2022-12-15 14:38:40 公開日:2022-12-14
# 予測不確実性を用いた雑音ラベル下のグループロバスト性向上

Improving group robustness under noisy labels using predictive uncertainty ( http://arxiv.org/abs/2212.07026v1 )

ライセンス: Link先を確認
Dongpin Oh, Dae Lee, Jeunghyun Byun, and Bonggun Shin(参考訳) 標準的な経験的リスク最小化(ERM)は、入力とラベルの間に急激な相関関係があるため、一部の少数派(例えば、土地の水鳥や水鳥)で過小評価される。 いくつかの研究は、高損失サンプルに着目して、最悪のグループ精度を改善した。 この背景にある仮説は、そのような高損失なサンプルは \textit{spurious-cue-free} (SCF) のサンプルである。 しかし、これらの手法は、高損失サンプルも実世界のシナリオでノイズのあるラベルを持つサンプルである可能性があるため、問題となる可能性がある。 この問題を解決するため,ノイズラベル下での最悪のグループ精度を改善するために,モデルの予測不確かさを利用する。 これを動機づけるために,高不確かさサンプルが二項分類問題におけるSCFサンプルであることを理論的に示す。 この理論結果から, 予測不確実性は, ノイズラベル設定におけるSCF試料の同定に有効な指標であることが示唆された。 そこで,提案するエントロピーベースのデバイアス(end)フレームワークでは,ノイズラベルに対して頑健でありながら,モデルがスプリアスキューを学習することを防止する。 ENDフレームワークでは、まず「textit{identification model」をトレーニングし、その予測不確実性を用いてトレーニングセットからSCFサンプルを取得する。 そして、オーバーサンプリングされたscfセットを付加したデータセット上で、別のモデルをトレーニングする。 実験の結果,私たちの END フレームワークは,ノイズラベルとスプリアスキューの両方を考慮した実世界のベンチマークにおいて,他の強力なベースラインよりも優れていることがわかった。

The standard empirical risk minimization (ERM) can underperform on certain minority groups (i.e., waterbirds in lands or landbirds in water) due to the spurious correlation between the input and its label. Several studies have improved the worst-group accuracy by focusing on the high-loss samples. The hypothesis behind this is that such high-loss samples are \textit{spurious-cue-free} (SCF) samples. However, these approaches can be problematic since the high-loss samples may also be samples with noisy labels in the real-world scenarios. To resolve this issue, we utilize the predictive uncertainty of a model to improve the worst-group accuracy under noisy labels. To motivate this, we theoretically show that the high-uncertainty samples are the SCF samples in the binary classification problem. This theoretical result implies that the predictive uncertainty is an adequate indicator to identify SCF samples in a noisy label setting. Motivated from this, we propose a novel ENtropy based Debiasing (END) framework that prevents models from learning the spurious cues while being robust to the noisy labels. In the END framework, we first train the \textit{identification model} to obtain the SCF samples from a training set using its predictive uncertainty. Then, another model is trained on the dataset augmented with an oversampled SCF set. The experimental results show that our END framework outperforms other strong baselines on several real-world benchmarks that consider both the noisy labels and the spurious-cues.
翻訳日:2022-12-15 14:37:23 公開日:2022-12-14
# 深い否定的相関分類

Deep Negative Correlation Classification ( http://arxiv.org/abs/2212.07070v1 )

ライセンス: Link先を確認
Le Zhang, Qibin Hou, Yun Liu, Jia-Wang Bian, Xun Xu, Joey Tianyi Zhou and Ce Zhu(参考訳) アンサンブル学習は、ほぼすべての機械学習アルゴリズムのパフォーマンスを改善するための簡単な方法である。 既存のディープアンサンブルメソッドは、通常、多くの異なるモデルを学習し、それらの予測を集約する。 これは2つの側面から見て最適ではない。 一 総合的な複数のモデルの訓練は、特に深層学習期において、より計算負担を増大させる。 二 相互作用を考慮せずに各ベースモデルを純粋に最適化し、アンサンブルの多様性及び性能向上を制限すること。 本稿では,損失関数を個別の精度にシームレスに分解し,個別モデルとアンサンブルの相関関係を組み合わせることで,精度と多様性のトレードオフを体系的に制御する深部負相関分類(dncc)を提案する。 DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。 最適化された多様性のおかげで、DNCCは共有ネットワークのバックボーンを使用する場合でもうまく機能し、既存のアンサンブルシステムと比較して効率が大幅に向上する。 複数のベンチマークデータセットとネットワーク構造に関する広範囲な実験が提案手法の優位性を示している。

Ensemble learning serves as a straightforward way to improve the performance of almost any machine learning algorithm. Existing deep ensemble methods usually naively train many different models and then aggregate their predictions. This is not optimal in our view from two aspects: i) Naively training multiple models adds much more computational burden, especially in the deep learning era; ii) Purely optimizing each base model without considering their interactions limits the diversity of ensemble and performance gains. We tackle these issues by proposing deep negative correlation classification (DNCC), in which the accuracy and diversity trade-off is systematically controlled by decomposing the loss function seamlessly into individual accuracy and the correlation between individual models and the ensemble. DNCC yields a deep classification ensemble where the individual estimator is both accurate and negatively correlated. Thanks to the optimized diversities, DNCC works well even when utilizing a shared network backbone, which significantly improves its efficiency when compared with most existing ensemble systems. Extensive experiments on multiple benchmark datasets and network structures demonstrate the superiority of the proposed method.
翻訳日:2022-12-15 14:36:57 公開日:2022-12-14
# ドメイン固有の特徴の学習と除去によるドメインの一般化

Domain Generalization by Learning and Removing Domain-specific Features ( http://arxiv.org/abs/2212.07101v1 )

ライセンス: Link先を確認
Yu Ding, Lei Wang, Bin Liang, Shuming Liang, Yang Wang, Fang Chen(参考訳) テストデータセットがトレーニングデータセットとは異なる分布に従うと、ディープニューラルネットワーク(dnn)はドメインシフトに苦しむ。 ドメインの一般化は、目に見えないドメインに一般化できるモデルを学ぶことでこの問題に対処することを目的としている。 本稿では,ドメインの一般化のためのドメイン固有の特徴を明示的に除去することを目的とした新しいアプローチを提案する。 このアプローチに従い,入力画像からドメイン固有の特徴を戦術的に取り除き,ドメイン不変モデルを学ぶlrdg(leading and remove domain-specific features for generalization)という新しいフレームワークを提案する。 具体的には、各ソースドメインのドメイン固有の特徴を効果的に学習するための分類器を設計する。 次に,各入力画像を学習領域固有の特徴を除去した新しい画像空間にマッピングするエンコーダデコーダネットワークを開発する。 エンコーダデコーダネットワークによって出力される画像により、別の分類器は、画像分類を行うためのドメイン不変の特徴を学ぶように設計されている。 広範な実験により,我々のフレームワークは最先端の手法よりも優れた性能を実現していることが示された。

Deep Neural Networks (DNNs) suffer from domain shift when the test dataset follows a distribution different from the training dataset. Domain generalization aims to tackle this issue by learning a model that can generalize to unseen domains. In this paper, we propose a new approach that aims to explicitly remove domain-specific features for domain generalization. Following this approach, we propose a novel framework called Learning and Removing Domain-specific features for Generalization (LRDG) that learns a domain-invariant model by tactically removing domain-specific features from the input images. Specifically, we design a classifier to effectively learn the domain-specific features for each source domain, respectively. We then develop an encoder-decoder network to map each input image into a new image space where the learned domain-specific features are removed. With the images output by the encoder-decoder network, another classifier is designed to learn the domain-invariant features to conduct image classification. Extensive experiments demonstrate that our framework achieves superior performance compared with state-of-the-art methods.
翻訳日:2022-12-15 14:36:35 公開日:2022-12-14
# 軽量コントラストモデルのためのより強固なベースラインの確立

Establishing a stronger baseline for lightweight contrastive models ( http://arxiv.org/abs/2212.07158v1 )

ライセンス: Link先を確認
Wenye Lin, Yifeng Ding, Zhixiong Cao, Hai-tao Zheng(参考訳) 最近の研究では、mobilenet や efficientnet のような特別に設計された効率的なネットワークにおける自己教師付きコントラスト学習の性能低下が報告されている。 この問題に対処する一般的な方法は、事前訓練されたコントラスト教師モデルを導入し、教師が生成した蒸留信号を用いて軽量ネットワークを訓練することである。 しかし、教師モデルが利用できない場合には、事前訓練に時間とリソースがかかります。 本研究では,教師モデルの事前学習を使わずに,軽量コントラストモデルのための強力なベースラインを確立することを目的とする。 特に、効率的なモデルの最適なレシピは、より大きなモデルのレシピと異なり、resnet50と同じトレーニング設定を使うことは、以前の研究と同様に不適切であることを示す。 さらに,肯定的,否定的いずれの視点でもノイズが発生するようなコントラスト学習において共通issu eを観測し,この問題を緩和するために情報損失の平滑化バージョンを提案する。 その結果, mobilenet-v3-largeでは36.3\%から62.3\%に,imagenetでは42.2\%から65.8\%に,resnet50では5\times$のパラメータで精度ギャップを解消した。 私たちの研究が軽量コントラストモデルの利用を促進することを期待しています。

Recent research has reported a performance degradation in self-supervised contrastive learning for specially designed efficient networks, such as MobileNet and EfficientNet. A common practice to address this problem is to introduce a pretrained contrastive teacher model and train the lightweight networks with distillation signals generated by the teacher. However, it is time and resource consuming to pretrain a teacher model when it is not available. In this work, we aim to establish a stronger baseline for lightweight contrastive models without using a pretrained teacher model. Specifically, we show that the optimal recipe for efficient models is different from that of larger models, and using the same training settings as ResNet50, as previous research does, is inappropriate. Additionally, we observe a common issu e in contrastive learning where either the positive or negative views can be noisy, and propose a smoothed version of InfoNCE loss to alleviate this problem. As a result, we successfully improve the linear evaluation results from 36.3\% to 62.3\% for MobileNet-V3-Large and from 42.2\% to 65.8\% for EfficientNet-B0 on ImageNet, closing the accuracy gap to ResNet50 with $5\times$ fewer parameters. We hope our research will facilitate the usage of lightweight contrastive models.
翻訳日:2022-12-15 14:36:06 公開日:2022-12-14
# 世代別ロバスト分類

Generative Robust Classification ( http://arxiv.org/abs/2212.07283v1 )

ライセンス: Link先を確認
Xuwang Yin(参考訳) 敵対的にロバストな判別(すなわちソフトマックス)分類器の訓練はロバスト分類の主要なアプローチである。 本研究では,adversarial training (at) に基づく生成モデルに関する最近の研究に基づいて,非正規化クラス条件密度モデルの学習と生成ロバスト分類を行った。 この結果から, モデル容量が類似した条件下では, テストデータがクリーンであったり, テスト摂動が限られたサイズであったり, 試験摂動サイズがトレーニング摂動サイズを超えた場合に, ベースラインソフトマックスロバスト分類器に匹敵する性能が得られた。 生成分類器は、トレーニングデータにもっとよく似たサンプルや偽物を生成することができ、生成分類器がクラス条件分布をよりよく捉えることができることを示唆する。 重み平均化と組み合わせれば,先進的なデータ拡張技術が有効となる標準的な判別的敵意訓練とは対照的に,より堅牢なアプローチを実現するために,先進的なデータ拡張を適用することは容易である。 その結果,特にクラス数が限られている問題に対して,生成型分類器はロバスト分類に代わる選択肢であることが示唆された。

Training adversarially robust discriminative (i.e., softmax) classifier has been the dominant approach to robust classification. Building on recent work on adversarial training (AT)-based generative models, we investigate using AT to learn unnormalized class-conditional density models and then performing generative robust classification. Our result shows that, under the condition of similar model capacities, the generative robust classifier achieves comparable performance to a baseline softmax robust classifier when the test data is clean or when the test perturbation is of limited size, and much better performance when the test perturbation size exceeds the training perturbation size. The generative classifier is also able to generate samples or counterfactuals that more closely resemble the training data, suggesting that the generative classifier can better capture the class-conditional distributions. In contrast to standard discriminative adversarial training where advanced data augmentation techniques are only effective when combined with weight averaging, we find it straightforward to apply advanced data augmentation to achieve better robustness in our approach. Our result suggests that the generative classifier is a competitive alternative to robust classification, especially for problems with limited number of classes.
翻訳日:2022-12-15 14:35:38 公開日:2022-12-14
# タスクと分布のシフトのための有用な表現の学習

Learning useful representations for shifting tasks and distributions ( http://arxiv.org/abs/2212.07346v1 )

ライセンス: Link先を確認
Jianyu Zhang, L\'eon Bottou(参考訳) 表現を学ぶための支配的なアプローチ(単一のトレーニングディストリビューションに期待されるコストを最適化する副作用として)は、複数のディストリビューションを扱う場合、良いアプローチのままです。 我々の主張では、このようなシナリオは単一の最適化エピソードで得られたシナリオよりも"リッチ"な表現によってよりうまく機能する。 これは、複数のトレーニングエピソードで得られた表現を、同じデータ、モデル、アルゴリズム、ハイパーパラメータを使用して結合するが、ランダムな種が異なるという、明らかにna\"ive ensemblingテクニックで得られた経験的な結果の集合によって支えられている。 これらの独立したネットワークも同様に機能する。 しかし、新しい分布を含む多くのシナリオにおいて、連結された表現は、スクラッチから訓練された同等の大きさのネットワークよりも大幅に優れている。 これは、複数の訓練エピソードで構築された表現が実際には異なることを証明している。 それらの結合は、トレーニング分布下でのトレーニングタスクに関する追加情報はほとんど持たないが、タスクや分布が変化すると、かなり情報的になる。 一方、最適化プロセスには、トレーニング性能を漸進的に改善しない機能を蓄積する理由がないため、単一のトレーニングエピソードがそのような冗長表現をもたらす可能性は低い。

Does the dominant approach to learn representations (as a side effect of optimizing an expected cost for a single training distribution) remain a good approach when we are dealing with multiple distributions. Our thesis is that such scenarios are better served by representations that are "richer" than those obtained with a single optimization episode. This is supported by a collection of empirical results obtained with an apparently na\"ive ensembling technique: concatenating the representations obtained with multiple training episodes using the same data, model, algorithm, and hyper-parameters, but different random seeds. These independently trained networks perform similarly. Yet, in a number of scenarios involving new distributions, the concatenated representation performs substantially better than an equivalently sized network trained from scratch. This proves that the representations constructed by multiple training episodes are in fact different. Although their concatenation carries little additional information about the training task under the training distribution, it becomes substantially more informative when tasks or distributions change. Meanwhile, a single training episode is unlikely to yield such a redundant representation because the optimization process has no reason to accumulate features that do not incrementally improve the training performance.
翻訳日:2022-12-15 14:35:14 公開日:2022-12-14
# スタイルベース3次元GANインバージョンのための自己監督幾何認識エンコーダ

Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion ( http://arxiv.org/abs/2212.07409v1 )

ライセンス: Link先を確認
Yushi Lan, Xuyi Meng, Shuai Yang, Chen Change Loy, Bo Dai(参考訳) styleganは、画像反転と潜在編集による2d顔再構成と意味編集で大きな進歩を遂げた。 2DスタイルGANを3D顔に拡張する研究が進んでいるが、対応する汎用的な3D GANインバージョンフレームワークがいまだに欠落しており、3D顔再構成とセマンティック編集の応用が制限されている。 本稿では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN変換の課題について検討する。 形状とテクスチャの数え切れない構成は、現在のイメージにレンダリングされる可能性がある。 さらに, グローバル潜在コードの容量が限られているため, 3次元モデルに適用した場合, 忠実な形状とテクスチャを同時に保持することはできない。 この問題を解決するために,反転学習を制約する効果的な自己学習方式を考案する。 学習は実世界の2D-3Dトレーニングペアなしで効率的に行われ、3D GANから生成されたプロキシサンプルが生成される。 さらに,粗い形状やテクスチャ情報をキャプチャするグローバル潜在コードとは別に,顔の詳細を忠実に再現するためにピクセルにアライメントした機能を追加したローカルブランチで生成ネットワークを強化した。 さらに,3次元ビュー一貫性編集を行うパイプラインについても検討する。 本手法は, 形状とテクスチャの再現性の両方において, 最先端の逆転法よりも優れることを示す。 コードとデータはリリースされる。

StyleGAN has achieved great progress in 2D face reconstruction and semantic editing via image inversion and latent editing. While studies over extending 2D StyleGAN to 3D faces have emerged, a corresponding generic 3D GAN inversion framework is still missing, limiting the applications of 3D face reconstruction and semantic editing. In this paper, we study the challenging problem of 3D GAN inversion where a latent code is predicted given a single face image to faithfully recover its 3D shapes and detailed textures. The problem is ill-posed: innumerable compositions of shape and texture could be rendered to the current image. Furthermore, with the limited capacity of a global latent code, 2D inversion methods cannot preserve faithful shape and texture at the same time when applied to 3D models. To solve this problem, we devise an effective self-training scheme to constrain the learning of inversion. The learning is done efficiently without any real-world 2D-3D training pairs but proxy samples generated from a 3D GAN. In addition, apart from a global latent code that captures the coarse shape and texture information, we augment the generation network with a local branch, where pixel-aligned features are added to faithfully reconstruct face details. We further consider a new pipeline to perform 3D view-consistent editing. Extensive experiments show that our method outperforms state-of-the-art inversion methods in both shape and texture reconstruction quality. Code and data will be released.
翻訳日:2022-12-15 14:34:54 公開日:2022-12-14
# dialogqae: カスタマサービスチャットログからn対n質問応答ペアを抽出する

DialogQAE: N-to-N Question Answer Pair Extraction from Customer Service Chatlog ( http://arxiv.org/abs/2212.07112v1 )

ライセンス: Link先を確認
Xin Zheng, Tianyu Liu, Haoran Meng, Xu Wang, Yufan Jiang, Mengliang Rao, Binghuai Lin, Zhifang Sui, Yunbo Cao(参考訳) カスタマーサービスチャットログからのQA(Harvesting question-aswer)ペアは、コールドスタートや継続的インテグレーションのシナリオにおいて、カスタマーサービスチャットボットの知識ベースを強化する効果的な方法です。 従来の作業では、顧客サービスチャットログから1対1のQAペアを取得しようとしたが、これは複合QA検索のためのダイアログコンテキストから不完全な発話を統合するのに失敗する。 本稿では,異なる発話間で導出質問と対応する回答を分離できるn-to-n qa抽出タスクを提案する。 5つのカスタマサービスデータセットで良好に機能するエンドツーエンドと2段階のバリエーションを備えた生成的/識別的タグ付けベースのメソッドスイートを導入し,発話およびセッションレベルの評価指標を備えたN-to-N DialogQAEのベンチマークを初めてセットアップした。 抽出されたQAペアを深く掘り下げると、QAペア内と内部の関係が、情報探索、明確化、バージイン、共同作業などの対話構造を分析する指標となることが分かる。 また,提案モデルは異なるドメインや言語に対応でき,実世界の製品対話プラットフォームにおける知識蓄積の作業コストを低減できることを示した。

Harvesting question-answer (QA) pairs from customer service chatlog in the wild is an efficient way to enrich the knowledge base for customer service chatbots in the cold start or continuous integration scenarios. Prior work attempts to obtain 1-to-1 QA pairs from growing customer service chatlog, which fails to integrate the incomplete utterances from the dialog context for composite QA retrieval. In this paper, we propose N-to-N QA extraction task in which the derived questions and corresponding answers might be separated across different utterances. We introduce a suite of generative/discriminative tagging based methods with end-to-end and two-stage variants that perform well on 5 customer service datasets and for the first time setup a benchmark for N-to-N DialogQAE with utterance and session level evaluation metrics. With a deep dive into extracted QA pairs, we find that the relations between and inside the QA pairs can be indicators to analyze the dialogue structure, e.g. information seeking, clarification, barge-in and elaboration. We also show that the proposed models can adapt to different domains and languages, and reduce the labor cost of knowledge accumulation in the real-world product dialogue platform.
翻訳日:2022-12-15 14:28:11 公開日:2022-12-14
# テキスト処理と検索手法の説明可能性:批判的調査

Explainability of Text Processing and Retrieval Methods: A Critical Survey ( http://arxiv.org/abs/2212.07126v1 )

ライセンス: Link先を確認
Sourav Saha, Debapriyo Majumdar, Mandar Mitra(参考訳) ディープラーニングと機械学習に基づくモデルは、テキスト処理と情報検索で非常に人気がある。 しかし、ネットワーク内に存在する非線形構造は、これらのモデルを概ね調査不能にする。 重要な研究分野は、これらのモデルの透明性を高めることに焦点を当てている。 本稿では,自然言語処理と情報検索手法の説明可能性と解釈可能性について概説する。 具体的には、単語埋め込み、シーケンスモデリング、アテンションモジュール、トランスフォーマー、BERT、文書ランキングの説明に応用されたアプローチについて調査する。 結論のセクションは、このトピックに関する今後の研究の方向性を示唆している。

Deep Learning and Machine Learning based models have become extremely popular in text processing and information retrieval. However, the non-linear structures present inside the networks make these models largely inscrutable. A significant body of research has focused on increasing the transparency of these models. This article provides a broad overview of research on the explainability and interpretability of natural language processing and information retrieval methods. More specifically, we survey approaches that have been applied to explain word embeddings, sequence modeling, attention modules, transformers, BERT, and document ranking. The concluding section suggests some possible directions for future research on this topic.
翻訳日:2022-12-15 14:27:42 公開日:2022-12-14
# 階層型強化学習シナリオにおけるエージェントの意思決定

Explaining Agent's Decision-making in a Hierarchical Reinforcement Learning Scenario ( http://arxiv.org/abs/2212.06967v1 )

ライセンス: Link先を確認
Hugo Mu\~noz, Ernesto Portugal, Angel Ayala, Bruno Fernandes, Francisco Cruz(参考訳) 強化学習は行動心理学に基づく機械学習アプローチである。 知識を習得し、環境と対話して新しいタスクを実行することができる学習エージェントに焦点を当てている。 しかし、システムのユーザがエージェントが実行するアクションについて、より多くの情報と信頼性を持つ必要がある重要なコンテキストで強化学習が使用されると、問題が発生する。 この点で、説明可能な強化学習は、機械学習の経験のないユーザがエージェントの振る舞いを理解できるように、その振る舞いを説明するために、その振る舞いをメソッドで訓練するエージェントに提供しようとするものである。 その1つは、エピソディックメモリを用いて各状態-動作ペアの成功確率を計算するためのメモリベースの説明可能な強化学習法である。 本研究では,より複雑な課題を解決するために最初に対処する必要があるサブタスクからなる階層環境において,メモリベースで説明可能な強化学習手法を提案する。 最終目標は、エージェントにグローバルタスクとサブタスクでそのアクションを説明する能力を提供することができるかどうかを検証することである。 その結果,ハイレベルなタスクを持つ階層環境においてメモリベース手法を用いることで,エージェントの振る舞いを説明する基盤として使用する成功確率を計算できることがわかった。

Reinforcement learning is a machine learning approach based on behavioral psychology. It is focused on learning agents that can acquire knowledge and learn to carry out new tasks by interacting with the environment. However, a problem occurs when reinforcement learning is used in critical contexts where the users of the system need to have more information and reliability for the actions executed by an agent. In this regard, explainable reinforcement learning seeks to provide to an agent in training with methods in order to explain its behavior in such a way that users with no experience in machine learning could understand the agent's behavior. One of these is the memory-based explainable reinforcement learning method that is used to compute probabilities of success for each state-action pair using an episodic memory. In this work, we propose to make use of the memory-based explainable reinforcement learning method in a hierarchical environment composed of sub-tasks that need to be first addressed to solve a more complex task. The end goal is to verify if it is possible to provide to the agent the ability to explain its actions in the global task as well as in the sub-tasks. The results obtained showed that it is possible to use the memory-based method in hierarchical environments with high-level tasks and compute the probabilities of success to be used as a basis for explaining the agent's behavior.
翻訳日:2022-12-15 14:26:47 公開日:2022-12-14
# 資源制限強化学習における効率的な探索

Efficient Exploration in Resource-Restricted Reinforcement Learning ( http://arxiv.org/abs/2212.06988v1 )

ライセンス: Link先を確認
Zhihai Wang, Taoxing Pan, Qi Zhou, Jie Wang(参考訳) 実世界の強化学習(RL)の多くの応用において、実行には各エピソードで再生不可能な特定の種類のリソースを消費する必要がある。 典型的な用途としては、限られたエネルギーでロボット制御や、消費可能なアイテムでプレイするビデオゲームがある。 再生不能な資源を持つタスクでは,ソフトアクター評論家などのRL手法がサンプル効率の低下に悩まされていることが観察された。 主な理由は、資源の消費が速くなるため、以後の探査は資源の不足のために厳しく制限されているためである。 この課題に対処するために、先述した問題をリソース制限強化学習として形式化し、リソースを合理的に活用するための新しい資源対応探索ボーナス(RAEB)を提案する。 RAEBの魅力は、不必要な資源消費の試行を著しく減らし、エージェントが目に見えない状態を探索することを効果的に促すことである。 実験により,RAEBは資源制限された強化学習環境における最先端の探査戦略を著しく上回り,サンプルの効率を最大で向上することを示した。

In many real-world applications of reinforcement learning (RL), performing actions requires consuming certain types of resources that are non-replenishable in each episode. Typical applications include robotic control with limited energy and video games with consumable items. In tasks with non-replenishable resources, we observe that popular RL methods such as soft actor critic suffer from poor sample efficiency. The major reason is that, they tend to exhaust resources fast and thus the subsequent exploration is severely restricted due to the absence of resources. To address this challenge, we first formalize the aforementioned problem as a resource-restricted reinforcement learning, and then propose a novel resource-aware exploration bonus (RAEB) to make reasonable usage of resources. An appealing feature of RAEB is that, it can significantly reduce unnecessary resource-consuming trials while effectively encouraging the agent to explore unvisited states. Experiments demonstrate that the proposed RAEB significantly outperforms state-of-the-art exploration strategies in resource-restricted reinforcement learning environments, improving the sample efficiency by up to an order of magnitude.
翻訳日:2022-12-15 14:26:27 公開日:2022-12-14
# フェデレーション学習アルゴリズムの比較解析のためのFLAGSフレームワーク

FLAGS Framework for Comparative Analysis of Federated Learning Algorithms ( http://arxiv.org/abs/2212.07179v1 )

ライセンス: Link先を確認
Ahnaf Hannan Lodhi, Bar{\i}\c{s} Akg\"un, \"Oznur \"Ozkasap(参考訳) フェデレートラーニング(FL)は分散機械学習の重要な選択肢となっている。 当初集中集約に重点を置いていたflの最近の研究は、高度に異質なネットワークエッジに適応するために、より大規模な分散化を強調している。 これらのうち、階層型、デバイスからデバイスへのフェデレーション学習(HFL、D2DFL、GFL)は、基本集合戦略を用いた基礎FLアルゴリズムとみなすことができる。 その後、複数の基本集約スキームを併用したflアルゴリズムが多数提案されている。 しかし、既存の研究はFLアルゴリズムに様々な条件を課し、これらのアルゴリズムの性能を主にフェデレート平均化(FedAvg)に対して評価している。 この研究は、FLのランドスケープを集約し、幅広い操作条件に対する総合的な相互評価を通じて、主要なFLアルゴリズムの客観的解析を提供する。 3つの基本的なFLアルゴリズムに加えて、6つの派生アルゴリズムも解析する。 統一評価を可能にするために、複数のflアルゴリズムの迅速な構成のために、frags: federated learning algorithms simulationというマルチflフレームワークが開発された。 実験の結果,非同期アグリゲーションやストラグラーの存在など,複数の動作条件下での完全分散FLアルゴリズムの精度は同等であることが示唆された。 さらに、分散flはノイズの多い環境でも動作でき、同時にローカル更新率も高い。 しかし,極度に歪んだデータ分布が分散FLに与える影響は,集中的変動よりもはるかに悪い。 その結果、デバイスを単一のFLアルゴリズムに制限する必要はなく、むしろ複数のFLノードがより効率よく動作できることが示唆された。

Federated Learning (FL) has become a key choice for distributed machine learning. Initially focused on centralized aggregation, recent works in FL have emphasized greater decentralization to adapt to the highly heterogeneous network edge. Among these, Hierarchical, Device-to-Device and Gossip Federated Learning (HFL, D2DFL \& GFL respectively) can be considered as foundational FL algorithms employing fundamental aggregation strategies. A number of FL algorithms were subsequently proposed employing multiple fundamental aggregation schemes jointly. Existing research, however, subjects the FL algorithms to varied conditions and gauges the performance of these algorithms mainly against Federated Averaging (FedAvg) only. This work consolidates the FL landscape and offers an objective analysis of the major FL algorithms through a comprehensive cross-evaluation for a wide range of operating conditions. In addition to the three foundational FL algorithms, this work also analyzes six derived algorithms. To enable a uniform assessment, a multi-FL framework named FLAGS: Federated Learning AlGorithms Simulation has been developed for rapid configuration of multiple FL algorithms. Our experiments indicate that fully decentralized FL algorithms achieve comparable accuracy under multiple operating conditions, including asynchronous aggregation and the presence of stragglers. Furthermore, decentralized FL can also operate in noisy environments and with a comparably higher local update rate. However, the impact of extremely skewed data distributions on decentralized FL is much more adverse than on centralized variants. The results indicate that it may not be necessary to restrict the devices to a single FL algorithm; rather, multi-FL nodes may operate with greater efficiency.
翻訳日:2022-12-15 14:26:09 公開日:2022-12-14
# 深部ReLUネットワークにおける最大初期学習率

Maximal Initial Learning Rates in Deep ReLU Networks ( http://arxiv.org/abs/2212.07295v1 )

ライセンス: Link先を確認
Gaurav Iyer, Boris Hanin, David Rolnick(参考訳) ニューラルネットワークのトレーニングには、速度と収束の有効性のトレードオフを含む、適切な学習率を選択する必要がある。 学習率の程度については理論上、実証的な分析がなされているが、ほとんどの先行研究は後期段階のトレーニングのみに焦点を当てている。 本研究では,ランダム初期化ニューラルネットワークの学習に成功し,与えられた閾値精度を(少なくとも)達成できる最大学習率である最大初期学習率$\eta^{\ast}$を導入する。 簡単なアプローチで$\eta^{\ast}$を推定すると、一定の幅の完全接続されたReLUネットワークにおいて、$\eta^{\ast}$はトレーニング後の最大学習率と異なる振る舞いを示す。 具体的には、$\eta^{\ast}$ は$(\text{depth} \times \text{width})$ の値としてよく予測されている。 (i)奥行きに比べてネットワーク幅が十分大きいこと、 (ii)ネットワークの入力層は比較的少ない学習率で訓練される。 さらに、初期化時のネットワークの$\eta^{\ast}$とシャープ性$\lambda_{1}$の関係を解析し、それらは逆関係ではないことを示唆する。 実験結果に合致する$(\text{depth} \times \text{width})$という項で、$\lambda_{1}$ の境界を正式に証明します。

Training a neural network requires choosing a suitable learning rate, involving a trade-off between speed and effectiveness of convergence. While there has been considerable theoretical and empirical analysis of how large the learning rate can be, most prior work focuses only on late-stage training. In this work, we introduce the maximal initial learning rate $\eta^{\ast}$ - the largest learning rate at which a randomly initialized neural network can successfully begin training and achieve (at least) a given threshold accuracy. Using a simple approach to estimate $\eta^{\ast}$, we observe that in constant-width fully-connected ReLU networks, $\eta^{\ast}$ demonstrates different behavior to the maximum learning rate later in training. Specifically, we find that $\eta^{\ast}$ is well predicted as a power of $(\text{depth} \times \text{width})$, provided that (i) the width of the network is sufficiently large compared to the depth, and (ii) the input layer of the network is trained at a relatively small learning rate. We further analyze the relationship between $\eta^{\ast}$ and the sharpness $\lambda_{1}$ of the network at initialization, indicating that they are closely though not inversely related. We formally prove bounds for $\lambda_{1}$ in terms of $(\text{depth} \times \text{width})$ that align with our empirical results.
翻訳日:2022-12-15 14:25:46 公開日:2022-12-14
# 共有プリミティブを用いたベイズデータ融合

Bayesian data fusion with shared priors ( http://arxiv.org/abs/2212.07311v1 )

ライセンス: Link先を確認
Peng Wu, Tales Imbiriba, Victor Elvira, Pau Closas(参考訳) データと知識の統合はデータ融合として知られている。 データが分散形式で利用可能である場合や、異なるセンサーを使用して興味を推測する場合、データ融合が必須となる。 ベイズの設定では、未知量の事前情報は利用可能であり、おそらく分散推定器間で共有される。 現地の推定値が融通された場合、その事前値が説明されない限り、過剰に使用される可能性がある。 本稿では,ベイズデータ融合の文脈における共有プリエントの効果について検討し,協調エージェント数とプリエントの不確かさの関数としての性能を理解するためのフュージョンルールと分析を提供する。 分析結果は、様々な評価と分類問題の実験によって裏付けられる。

The integration of data and knowledge from several sources is known as data fusion. When data is available in a distributed fashion or when different sensors are used to infer a quantity of interest, data fusion becomes essential. In Bayesian settings, a priori information of the unknown quantities is available and, possibly, shared among the distributed estimators. When the local estimates are fused, such prior might be overused unless it is accounted for. This paper explores the effects of shared priors in Bayesian data fusion contexts, providing fusion rules and analysis to understand the performance of such fusion as a function of the number of collaborative agents and the uncertainty of the priors. Analytical results are corroborated through experiments in a variety of estimation and classification problems.
翻訳日:2022-12-15 14:25:22 公開日:2022-12-14
# 人間中心の接地における視覚的コモンセンス理解

Find Someone Who: Visual Commonsense Understanding in Human-Centric Grounding ( http://arxiv.org/abs/2212.06971v1 )

ライセンス: Link先を確認
Haoxuan You, Rui Sun, Zhecan Wang, Kai-Wei Chang, Shih-Fu Chang(参考訳) 複数の人物を含む視覚シーンから、人間は、以前に何が起こったか、その精神的・肉体的状態や意図などに関するコンテキスト記述を与えられた個々の個人を区別することができる。 能力は人間中心の常識知識と推論に大きく依存する。 例えば、画像で「癒しを必要とする人」を識別するように求められた場合、まずは怪我や表情に苦しむことを知り、最後に相手を接地する前に対応する視覚手がかりを見つける必要がある。 我々は、以前に何が起こったのか、その精神的・物理的状態や意図について、モデルが個人をグラウンド化する能力をテストする、新しいコモンセンスタスク、Human-centric Commonsense Groundingを提示する。 さらにベンチマークであるHumanCogという,67kイメージに注釈付けされた130kの共通感覚記述を備えたデータセットも作成しています。 従来の事前学習モデルや非訓練モデルに匹敵する強力なベースラインとしてコンテキストオブジェクト認識手法を設定した。 さらなる分析により、リッチなビジュアル・コモンセンスとマルチモーダル・コモンセンスの強力な統合が不可欠であることが示され、将来の作品に光を当てている。 データとコードはhttps://github.com/hxyou/humancogで入手できる。

From a visual scene containing multiple people, human is able to distinguish each individual given the context descriptions about what happened before, their mental/physical states or intentions, etc. Above ability heavily relies on human-centric commonsense knowledge and reasoning. For example, if asked to identify the "person who needs healing" in an image, we need to first know that they usually have injuries or suffering expressions, then find the corresponding visual clues before finally grounding the person. We present a new commonsense task, Human-centric Commonsense Grounding, that tests the models' ability to ground individuals given the context descriptions about what happened before, and their mental/physical states or intentions. We further create a benchmark, HumanCog, a dataset with 130k grounded commonsensical descriptions annotated on 67k images, covering diverse types of commonsense and visual scenes. We set up a context-object-aware method as a strong baseline that outperforms previous pre-trained and non-pretrained models. Further analysis demonstrates that rich visual commonsense and powerful integration of multi-modal commonsense are essential, which sheds light on future works. Data and code will be available https://github.com/Hxyou/HumanCog.
翻訳日:2022-12-15 14:19:21 公開日:2022-12-14
# 画像キャプションのための相互類似性に基づくカリキュラム学習

Cross-Modal Similarity-Based Curriculum Learning for Image Captioning ( http://arxiv.org/abs/2212.07075v1 )

ライセンス: Link先を確認
Hongkuan Zhang, Saku Sugawara, Akiko Aizawa, Lei Zhou, Ryohei Sasano, Koichi Takeda(参考訳) 画像キャプションモデルは、様々な画像の内容を単語で記述する高レベルな一般化能力を必要とする。 既存のほとんどのアプローチは、学習の困難さの違いを考慮せずに、イメージキャプチャペアをトレーニングにおいて等しく扱う。 いくつかのイメージキャプション手法では, 難易度の高いトレーニングデータを提示するカリキュラム学習手法を導入している。 しかし、それらの難易度測定はドメイン固有の特徴や事前モデルのトレーニングに基づいている。 本稿では,事前学習した視覚言語モデルを用いて計算したクロスモーダル類似性を用いた,画像キャプションの簡易かつ効率的な難易度測定を提案する。 cocoおよびflickr30kデータセットを用いた実験により,提案手法は,ヒューリスティックスや追加のトレーニングコストを必要とせずに,ベースラインに対する優れたパフォーマンスとコンバージェンス速度を実現することが示された。 さらに、難しい例や見えないデータに対するより高いモデル性能は、一般化能力を示す。

Image captioning models require the high-level generalization ability to describe the contents of various images in words. Most existing approaches treat the image-caption pairs equally in their training without considering the differences in their learning difficulties. Several image captioning approaches introduce curriculum learning methods that present training data with increasing levels of difficulty. However, their difficulty measurements are either based on domain-specific features or prior model training. In this paper, we propose a simple yet efficient difficulty measurement for image captioning using cross-modal similarity calculated by a pretrained vision-language model. Experiments on the COCO and Flickr30k datasets show that our proposed approach achieves superior performance and competitive convergence speed to baselines without requiring heuristics or incurring additional training costs. Moreover, the higher model performance on difficult examples and unseen data also demonstrates the generalization ability.
翻訳日:2022-12-15 14:18:59 公開日:2022-12-14
# SMSMix:単語センスの曖昧化のためのセンテンスミックス

SMSMix: Sense-Maintained Sentence Mixup for Word Sense Disambiguation ( http://arxiv.org/abs/2212.07072v1 )

ライセンス: Link先を確認
Hee Suk Yoon, Eunseop Yoon, John Harvill, Sunjae Yoon, Mark Hasegawa-Johnson, Chang D. Yoo(参考訳) word sense disambiguation (wsd) は、文中の単語の正しい意味を離散的な感覚の選択から判断することを目的としたnlpタスクである。 現在のシステムでは、このようなタスクでは前例のないパフォーマンスが達成されているが、トレーニング中の単語感覚の非一様分布は、通常、まれな意味でのシステムのパフォーマンスが低くなる。 この目的のために,学習中の感覚の分布バイアスを減少させるために,これらの最小頻度感覚(lfs)の頻度を増加させるデータ拡張を検討する。 本稿では,対象単語の感覚を維持する新しい単語レベル混合法である感覚維持文混合法(smsmix)を提案する。 smsmixは、2つの文をマスク予測を使ってスムーズにブレンドし、特定の単語の感覚を維持するために、サリエンシースコアによって決定される関連スパンを保持する。 我々の知る限りでは、これは特定の単語の意味を保ちながらNLPにミックスアップを適用する最初の試みである。 広範にわたる実験により,本手法が目標感覚ラベルのトレーニング中に,レアセンスに関する情報を効果的に提供できることが検証された。

Word Sense Disambiguation (WSD) is an NLP task aimed at determining the correct sense of a word in a sentence from discrete sense choices. Although current systems have attained unprecedented performances for such tasks, the nonuniform distribution of word senses during training generally results in systems performing poorly on rare senses. To this end, we consider data augmentation to increase the frequency of these least frequent senses (LFS) to reduce the distributional bias of senses during training. We propose Sense-Maintained Sentence Mixup (SMSMix), a novel word-level mixup method that maintains the sense of a target word. SMSMix smoothly blends two sentences using mask prediction while preserving the relevant span determined by saliency scores to maintain a specific word's sense. To the best of our knowledge, this is the first attempt to apply mixup in NLP while preserving the meaning of a specific word. With extensive experiments, we validate that our augmentation method can effectively give more information about rare senses during training with maintained target sense label.
翻訳日:2022-12-15 14:18:48 公開日:2022-12-14
# 現代美術の世界をArtLMでマッピングする : 美術特化NLPモデル

Towards mapping the contemporary art world with ArtLM: an art-specific NLP model ( http://arxiv.org/abs/2212.07127v1 )

ライセンス: Link先を確認
Qinkai Chen, Mohamed El-Mennaoui, Antoine Fosset, Amine Rebei, Haoyang Cao, Christy E\'oin O'Beirne, Sasha Shevchenko and Mathieu Rosenbaum(参考訳) 美術界におけるデータ量の増加に伴い、コレクターの嗜好に適したアーティストやアートワークの発見が課題となっている。 芸術家に関する文脈情報は現代美術と同じくらい重要になっているので、もはや視覚情報を使うには不十分である。 本稿では,現代美術家同士のつながりを,その伝記に基づいて発見するための汎用的自然言語処理フレームワーク(artlm)を提案する。 このアプローチでは、まず既存の一般英語モデルの事前学習を、大量の未学習アート関連データを用いて継続する。 そして、このトレーニング済みの新しいモデルに、私たちのバイオグラフィーペアデータセットを、アート業界のプロフェッショナルチームによって手動で注釈付けしました。 広範囲な実験により、我々のArtLMは85.6%の精度と84.0%のF1スコアを達成し、他のベースラインモデルより優れていることを示す。 また,ArtLMの出力から構築したアーティストネットワークの可視化と定性解析も提供する。

With an increasing amount of data in the art world, discovering artists and artworks suitable to collectors' tastes becomes a challenge. It is no longer enough to use visual information, as contextual information about the artist has become just as important in contemporary art. In this work, we present a generic Natural Language Processing framework (called ArtLM) to discover the connections among contemporary artists based on their biographies. In this approach, we first continue to pre-train the existing general English language models with a large amount of unlabelled art-related data. We then fine-tune this new pre-trained model with our biography pair dataset manually annotated by a team of professionals in the art industry. With extensive experiments, we demonstrate that our ArtLM achieves 85.6% accuracy and 84.0% F1 score and outperforms other baseline models. We also provide a visualisation and a qualitative analysis of the artist network built from ArtLM's outputs.
翻訳日:2022-12-15 14:18:28 公開日:2022-12-14
# APOLLO: 長期数値推論のための最適化トレーニングアプローチ

APOLLO: An Optimized Training Approach for Long-form Numerical Reasoning ( http://arxiv.org/abs/2212.07249v1 )

ライセンス: Link先を確認
Jiashuo Sun, Hang Zhang, Chen Lin, Yeyun Gong, Jian Guo, Nan Duan(参考訳) 金融分析におけるロングフォームな数値推論は、ある質問に対する正しい答えを計算するための推論プログラムを作成することを目的としている。 以前の研究は、レトリバー-ジェネレータフレームワークに従い、レトリバーはロングフォームドキュメントからキーファクトを選択し、ジェネレータは、検索されたファクトに基づいて推論プログラムを生成する。 しかし、全ての事実を等しく扱うことは、事実と数字の異なる貢献を考慮せずに行う。 一方、プログラムの一貫性は教師付きトレーニングでは無視され、トレーニング精度と多様性が低下した。 これらの問題を解決するため、我々は長文の数値推論フレームワークを改善するためにAPOLLOを提案した。 検索者に対しては,鍵となる数値的事実に対する識別性を高めるために,数値認識型負サンプリング戦略を採用する。 生成元に対しては,プログラム実行結果の一貫性に基づいて,一貫性に基づく強化学習と目標プログラム拡張戦略を設計する。 FinQAとConvFinQAのリーダーボードによる実験結果から,提案手法の有効性を検証し,新しい最先端技術を実現する。

Long-form numerical reasoning in financial analysis aims to generate a reasoning program to calculate the correct answer for a given question. Previous work followed a retriever-generator framework, where the retriever selects key facts from a long-form document, and the generator generates a reasoning program based on retrieved facts. However, they treated all facts equally without considering the different contributions of facts with and without numbers. Meanwhile, the program consistency were ignored under supervised training, resulting in lower training accuracy and diversity. To solve these problems, we proposed APOLLO to improve the long-form numerical reasoning framework. For the retriever, we adopt a number-aware negative sampling strategy to enable the retriever to be more discriminative on key numerical facts. For the generator, we design consistency-based reinforcement learning and target program augmentation strategy based on the consistency of program execution results. Experimental results on the FinQA and ConvFinQA leaderboard verify the effectiveness of our proposed method, achieving the new state-of-the-art.
翻訳日:2022-12-15 14:18:11 公開日:2022-12-14
# 二次元顔提示アタック検出のための新しい能動解

A Novel Active Solution for Two-Dimensional Face Presentation Attack Detection ( http://arxiv.org/abs/2212.06958v1 )

ライセンス: Link先を確認
Matineh Pooshideh(参考訳) アイデンティティ認証は、自分のアイデンティティを検証するプロセスである。 認証にはいくつかの方法があり、バイオメトリック認証が最も重要である。 顔認識は、携帯電話のアンロックや銀行口座へのアクセスなど、さまざまなアプリケーションによる生体認証の一種だ。 しかし、プレゼンテーション攻撃は顔認識にとって最大の脅威となる。 プレゼンテーション・アタック(英: presentation attack)とは、カメラに写真、ビデオ、マスク、メイクアップなどの非ライブ・フェイスを提示する試みである。 プレゼンテーションアタック検出は、真のユーザとプレゼンテーションアタックを識別しようとする対策である。 金融サービス、医療、教育などいくつかの業界では、様々なデバイスで生体認証サービスを使用している。 これは,プレゼンテーションアタック検出が検証ステップとして重要であることを示す。 本稿では,プレゼンテーションアタック検出に関する課題と解決策を一箇所で明らかにするために,最先端の手法について検討する。 異なるプレゼンテーションアタックタイプを特定し,分類し,それらの検出に使用可能な最先端のメソッドを同定する。 我々は,攻撃の種類,評価指標,正確性,データセットに関する最先端の文献を比較し,プレゼンテーションアタック検出に関する研究と業界課題について考察する。 ほとんどのプレゼンテーション攻撃検出アプローチは、広範なデータトレーニングと品質に依存しており、実装が困難である。 本稿では,既存の文献の弱点を克服する効率的な能動的提示攻撃検出手法を提案する。 提案手法はトレーニングデータを必要としないが,cpu軽量であり,低品質な画像を処理可能であり,様々な年齢のユーザを対象にテストを行ってきた。

Identity authentication is the process of verifying one's identity. There are several identity authentication methods, among which biometric authentication is of utmost importance. Facial recognition is a sort of biometric authentication with various applications, such as unlocking mobile phones and accessing bank accounts. However, presentation attacks pose the greatest threat to facial recognition. A presentation attack is an attempt to present a non-live face, such as a photo, video, mask, and makeup, to the camera. Presentation attack detection is a countermeasure that attempts to identify between a genuine user and a presentation attack. Several industries, such as financial services, healthcare, and education, use biometric authentication services on various devices. This illustrates the significance of presentation attack detection as the verification step. In this paper, we study state-of-the-art to cover the challenges and solutions related to presentation attack detection in a single place. We identify and classify different presentation attack types and identify the state-of-the-art methods that could be used to detect each of them. We compare the state-of-the-art literature regarding attack types, evaluation metrics, accuracy, and datasets and discuss research and industry challenges of presentation attack detection. Most presentation attack detection approaches rely on extensive data training and quality, making them difficult to implement. We introduce an efficient active presentation attack detection approach that overcomes weaknesses in the existing literature. The proposed approach does not require training data, is CPU-light, can process low-quality images, has been tested with users of various ages and is shown to be user-friendly and highly robust to 2-dimensional presentation attacks.
翻訳日:2022-12-15 14:17:27 公開日:2022-12-14
# 自動プレート認識のためのワープ平面物体検出ネットワークの改善

Improving Warped Planar Object Detection Network For Automatic License Plate Recognition ( http://arxiv.org/abs/2212.07066v1 )

ライセンス: Link先を確認
Nguyen Dinh Tra, Nguyen Cong Tri, Phan Duy Hung(参考訳) 本稿では,WPOD-Net(Warping Planer Object Detection Network)の改良を目的とした。 機能工学を用いたウォーピングオブジェクト検出ネットワークで解決される問題は何ですか? より具体的には、元のWPOD-Netモデルのライセンスプレートの輪郭を決定するための情報を強化するために、エッジに関する知識を画像に付加することは理にかなっていると考える。 sobelフィルタは実験的に選択され、畳み込みニューラルネットワーク層として機能し、エッジ情報は元のネットワークの古い情報と結合して最終的な埋め込みベクトルを生成する。 提案したモデルは,評価のために収集したデータ集合の原モデルと比較した。 結果は,4次交叉法により評価され,モデルの性能が著しく向上したことを示す。

This paper aims to improve the Warping Planer Object Detection Network (WPOD-Net) using feature engineering to increase accuracy. What problems are solved using the Warping Object Detection Network using feature engineering? More specifically, we think that it makes sense to add knowledge about edges in the image to enhance the information for determining the license plate contour of the original WPOD-Net model. The Sobel filter has been selected experimentally and acts as a Convolutional Neural Network layer, the edge information is combined with the old information of the original network to create the final embedding vector. The proposed model was compared with the original model on a set of data that we collected for evaluation. The results are evaluated through the Quadrilateral Intersection over Union value and demonstrate that the model has a significant improvement in performance.
翻訳日:2022-12-15 14:17:03 公開日:2022-12-14
# 3DHumanGAN:フォトリアリスティックな3D画像生成を目指して

3DHumanGAN: Towards Photo-Realistic 3D-Aware Human Image Generation ( http://arxiv.org/abs/2212.07378v1 )

ライセンス: Link先を確認
Zhuoqian Yang, Shikai Li, Wayne Wu, Bo Dai(参考訳) 3DHumanGAN(3D-Aware Generative Adversarial Network, GAN)は, 視角と体位置の異なる一貫した外観で全身の人間の画像を合成する。 人体の調音構造を合成する上での表現的および計算的課題に対処するために,3次元ポーズマッピングネットワークによって2次元畳み込みバックボーンを変調する新しいジェネレータアーキテクチャを提案する。 3Dポーズマッピングネットワークは、3D人間のメッシュ上に条件付けられたレンダリング可能な暗黙の関数として定式化される。 このデザインにはいくつかのメリットがあります i)2D GANのパワーを利用して写真リアル画像を生成することができる。 二 異なる視角及び特異なポーズの下で一貫した画像を生成すること。 三 モデルは、先行する3D人間の恩恵を受けることができる。 我々のモデルは、手動のアノテーションが不要なWeb画像の集合から逆向きに学習されている。

We present 3DHumanGAN, a 3D-aware generative adversarial network (GAN) that synthesizes images of full-body humans with consistent appearances under different view-angles and body-poses. To tackle the representational and computational challenges in synthesizing the articulated structure of human bodies, we propose a novel generator architecture in which a 2D convolutional backbone is modulated by a 3D pose mapping network. The 3D pose mapping network is formulated as a renderable implicit function conditioned on a posed 3D human mesh. This design has several merits: i) it allows us to harness the power of 2D GANs to generate photo-realistic images; ii) it generates consistent images under varying view-angles and specifiable poses; iii) the model can benefit from the 3D human prior. Our model is adversarially learned from a collection of web images needless of manual annotation.
翻訳日:2022-12-15 14:16:51 公開日:2022-12-14
# BKinD-3D:マルチビュービデオからの自己監督型3Dキーポイント発見

BKinD-3D: Self-Supervised 3D Keypoint Discovery from Multi-View Videos ( http://arxiv.org/abs/2212.07401v1 )

ライセンス: Link先を確認
Jennifer J. Sun, Pierre Karashchuk, Amil Dravid, Serim Ryou, Sonia Fereidooni, John Tuthill, Aggelos Katsaggelos, Bingni W. Brunton, Georgia Gkioxari, Ann Kennedy, Yisong Yue, Pietro Perona(参考訳) 3Dでの動作の定量化は人間や他の動物の行動を研究する上で重要であるが、手動のポーズアノテーションは高価で入手に時間がかかる。 自己教師付きキーポイント発見はアノテーションなしで3Dポーズを推定するための有望な戦略である。 しかし、現在のキーポイント発見アプローチは一般的に単一の2Dビューを処理し、3D空間では動作しない。 2dまたは3dでキーポイントやバウンディングボックスの監督をすることなく、行動エージェントのマルチビュービデオから3dで自己教師付きキーポイント発見を行う新しい手法を提案する。 提案手法は,3次元熱マップを用いたエンコーダデコーダアーキテクチャを用いて,複数の視点の時空間差を再現すると共に,学習対象の3次元骨格の接合長制約も行う。 このようにして、人間やラットの動画を手動で監督することなくキーポイントを発見し、3次元キーポイント発見の可能性を示す。

Quantifying motion in 3D is important for studying the behavior of humans and other animals, but manual pose annotations are expensive and time-consuming to obtain. Self-supervised keypoint discovery is a promising strategy for estimating 3D poses without annotations. However, current keypoint discovery approaches commonly process single 2D views and do not operate in the 3D space. We propose a new method to perform self-supervised keypoint discovery in 3D from multi-view videos of behaving agents, without any keypoint or bounding box supervision in 2D or 3D. Our method uses an encoder-decoder architecture with a 3D volumetric heatmap, trained to reconstruct spatiotemporal differences across multiple views, in addition to joint length constraints on a learned 3D skeleton of the subject. In this way, we discover keypoints without requiring manual supervision in videos of humans and rats, demonstrating the potential of 3D keypoint discovery for studying behavior.
翻訳日:2022-12-15 14:16:36 公開日:2022-12-14
# AsPOS:ディープラーニングアプローチを用いた音声タガーのアサマ部分

AsPOS: Assamese Part of Speech Tagger using Deep Learning Approach ( http://arxiv.org/abs/2212.07043v1 )

ライセンス: Link先を確認
Dhrubajyoti Pathak, Sukumar Nandi, Priyankoo Sarmah(参考訳) 音声(POS)のタグ付けは自然言語処理(NLP)に不可欠である。 これはいくつかのリソース豊富な言語でよく研究されているトピックである。 しかし、歴史的かつ文学的に豊かな多くの言語が存在するにもかかわらず、計算言語資源の開発はまだ初期段階にある。 2500万人以上の人々が話すインドのスケジュール言語であるアッサム語はこのカテゴリーに属する。 本稿では,AssameseのためのDeep Learning (DL)ベースのPOSタグを提示する。 開発過程は2つの段階に分けられる。 第1フェーズでは、いくつかのタギングモデルを訓練するために、事前学習された単語埋め込みが使用される。 これにより、POSタグ処理における単語埋め込みの性能を評価することができる。 第1フェーズの最高パフォーマンスモデルは、他の新しい文のセットに注釈を付けるために使用される。 第2フェーズでは、新しいデータセットを使用してモデルをさらにトレーニングする。 最後に、F1スコアで86.52%のタグ付け精度を得る。 このモデルは、DLベースのAssamese POSタグのさらなる研究のベースラインとして機能する。

Part of Speech (POS) tagging is crucial to Natural Language Processing (NLP). It is a well-studied topic in several resource-rich languages. However, the development of computational linguistic resources is still in its infancy despite the existence of numerous languages that are historically and literary rich. Assamese, an Indian scheduled language, spoken by more than 25 million people, falls under this category. In this paper, we present a Deep Learning (DL)-based POS tagger for Assamese. The development process is divided into two stages. In the first phase, several pre-trained word embeddings are employed to train several tagging models. This allows us to evaluate the performance of the word embeddings in the POS tagging task. The top-performing model from the first phase is employed to annotate another set of new sentences. In the second phase, the model is trained further using the fresh dataset. Finally, we attain a tagging accuracy of 86.52% in F1 score. The model may serve as a baseline for further study on DL-based Assamese POS tagging.
翻訳日:2022-12-15 14:09:47 公開日:2022-12-14
# Pseudo-Pilotシミュレータのための音声・自然言語処理技術

Speech and Natural Language Processing Technologies for Pseudo-Pilot Simulator ( http://arxiv.org/abs/2212.07164v1 )

ライセンス: Link先を確認
Amrutha Prasad, Juan Zuluaga-Gomez, Petr Motlicek, Saeed Sarfjoo, Iuliia Nigmatulina, Karel Vesely(参考訳) 本稿では,atcos(air-traffic controllers)トレーニングの高速化を目的とした,簡易かつ効率的な反復型モジュールシステムについて述べる。 例えば、ATCo訓練中にEUROCONTROLのESCAPE liteシミュレータ(https://www.eurocontrol.int/simulator/escape)に人間のパイロットが必要である。 しかし、このニーズはパイロットとして機能する自動システムによって置き換えることができる。 本稿では,多種多様な人工知能(AI)搭載モジュールを統合することで,擬似パイロットエージェントをATCoトレーニングパイプラインに統合することを目的とする。 このシステムは、atcoが発する音声通信を理解し、その後、パイロットのフレーズを最初の通信に追従する音声プロンプトを生成する。 我々のシステムは、主にオープンソースのAIツールと航空交通制御(ATC)データベースに依存しており、そのシンプルさと再現性を証明する。 1)生音声の入力ストリームを受信・前処理するサブモジュール,(2)音声を一連の単語に変換する自動音声認識(ASR)システム,(3)通信から関連情報を抽出する高レベルATC関連エンティティパーサ,(4)従来抽出した高レベルATCエンティティに基づいて応答を生成する音声シンセサイザーサブモジュールから構成される。 全体として,本システムは,概念実証型擬似パイロットシステムを開発するための道を開くことができる。 そのため、ATCoのトレーニングをスピードアップし、全体のコストを大幅に削減する。

This paper describes a simple yet efficient repetition-based modular system for speeding up air-traffic controllers (ATCos) training. E.g., a human pilot is still required in EUROCONTROL's ESCAPE lite simulator (see https://www.eurocontrol.int/simulator/escape) during ATCo training. However, this need can be substituted by an automatic system that could act as a pilot. In this paper, we aim to develop and integrate a pseudo-pilot agent into the ATCo training pipeline by merging diverse artificial intelligence (AI) powered modules. The system understands the voice communications issued by the ATCo, and, in turn, it generates a spoken prompt that follows the pilot's phraseology to the initial communication. Our system mainly relies on open-source AI tools and air traffic control (ATC) databases, thus, proving its simplicity and ease of replicability. The overall pipeline is composed of the following: (1) a submodule that receives and pre-processes the input stream of raw audio, (2) an automatic speech recognition (ASR) system that transforms audio into a sequence of words; (3) a high-level ATC-related entity parser, which extracts relevant information from the communication, i.e., callsigns and commands, and finally, (4) a speech synthesizer submodule that generates responses based on the high-level ATC entities previously extracted. Overall, we show that this system could pave the way toward developing a real proof-of-concept pseudo-pilot system. Hence, speeding up the training of ATCos while drastically reducing its overall cost.
翻訳日:2022-12-15 14:09:36 公開日:2022-12-14
# コントラスト言語画像学習のための再現可能なスケーリング法則

Reproducible scaling laws for contrastive language-image learning ( http://arxiv.org/abs/2212.07143v1 )

ライセンス: Link先を確認
Mehdi Cherti, Romain Beaumont, Ross Wightman, Mitchell Wortsman, Gabriel Ilharco, Cade Gordon, Christoph Schuhmann, Ludwig Schmidt, Jenia Jitsev(参考訳) ニューラルネットワークのスケールアップは、幅広いタスクで顕著なパフォーマンスを実現している。 さらに、大規模な実験がますます高価になりつつあるため、パフォーマンスはトレーニングセットのサイズ、モデルサイズ、計算の関数として信頼性の高いスケーリング法則に従うことが多い。 しかし、従来のスケーリング法の研究は、主にプライベートデータ \&モデルを使ったり、ユニモーダル言語や視覚学習に重点を置いてきた。 これらの制約に対処するため、コントラッシブ言語イメージ事前学習(CLIP)のスケーリング法を、パブリックLAIONデータセットとオープンソースのOpenCLIPリポジトリを用いて検討する。 我々の大規模な実験では、最大20億のイメージテキストペアでトレーニングされたモデルと、ゼロショット分類、検索、線形探索、エンドツーエンドの微調整を含む複数の下流タスクに対する電力法スケーリングを識別する。 OpenAIモデルとOpenCLIPモデルは、同一のモデルアーキテクチャや類似のトレーニングレシピにもかかわらず、異なるスケーリング挙動を示すため、トレーニング分布がスケーリング法において重要な役割を果たすことがわかった。 当社は評価ワークフローと,最大規模のCLIPモデルを含むすべてのモデルをオープンソースとして公開しています。 この研究を再現するソースコードと指示はhttps://github.com/LAION-AI/scaling-laws-openclipで入手できる。

Scaling up neural networks has led to remarkable performance across a wide range of tasks. Moreover, performance often follows reliable scaling laws as a function of training set size, model size, and compute, which offers valuable guidance as large-scale experiments are becoming increasingly expensive. However, previous work on scaling laws has primarily used private data \& models or focused on uni-modal language or vision learning. To address these limitations, we investigate scaling laws for contrastive language-image pre-training (CLIP) with the public LAION dataset and the open-source OpenCLIP repository. Our large-scale experiments involve models trained on up to two billion image-text pairs and identify power law scaling for multiple downstream tasks including zero-shot classification, retrieval, linear probing, and end-to-end fine-tuning. We find that the training distribution plays a key role in scaling laws as the OpenAI and OpenCLIP models exhibit different scaling behavior despite identical model architectures and similar training recipes. We open-source our evaluation workflow and all models, including the largest public CLIP models, to ensure reproducibility and make scaling laws research more accessible. Source code and instructions to reproduce this study will be available at https://github.com/LAION-AI/scaling-laws-openclip
翻訳日:2022-12-15 14:08:40 公開日:2022-12-14
# 自己再生と自己記述--視覚言語基礎モデルによる政策適応

Self-Play and Self-Describe: Policy Adaptation with Vision-Language Foundation Models ( http://arxiv.org/abs/2212.07398v1 )

ライセンス: Link先を確認
Yuying Ge, Annabella Macaluso, Li Erran Li, Ping Luo, Xiaolong Wang(参考訳) 視覚言語基盤モデルの最近の進歩は、汎用ロボットの構築に大きな進歩をもたらした。 事前訓練されたモデルを使用してシーンと命令を意思決定の入力としてエンコードすることで、命令条件付きポリシーはさまざまなオブジェクトやタスクにわたって一般化することができる。 これは励みになりますが、ほとんどのケースでは、目に見えないタスクや環境によってポリシーは失敗します。 このポリシーを未認識のタスクや環境に適応させるために,自己プレイと自己記述(splayd)で事前学習された基礎モデルを活用するための新しいパラダイムを探求する。 訓練されたポリシーを新しいタスクや新しい環境にデプロイすると、まずランダムに生成された命令でポリシーを自己再生してデモを記録する。 実行が間違っている可能性があるが、事前訓練された基礎モデルを使用して、デモを正確に自己記述(リラベルまたは分類)することができる。 これにより、ポリシーの微調整のための新しいデモインストラクションデータが自動的に提供される。 提案手法は,非対象の一般化,非対象のタスク,非対象の環境,sim-to-real転送に焦点をあて,幅広い実験で評価した。 SPLAYDは,すべてのケースにおいて,ベースラインを大きなマージンで改善することを示す。 プロジェクトページはhttps://geyuying.github.io/splayd/で閲覧できます。

Recent progress on vision-language foundation models have brought significant advancement to building general-purpose robots. By using the pre-trained models to encode the scene and instructions as inputs for decision making, the instruction-conditioned policy can generalize across different objects and tasks. While this is encouraging, the policy still fails in most cases given an unseen task or environment. To adapt the policy to unseen tasks and environments, we explore a new paradigm on leveraging the pre-trained foundation models with Self-PLAY and Self-Describe (SPLAYD). When deploying the trained policy to a new task or a new environment, we first let the policy self-play with randomly generated instructions to record the demonstrations. While the execution could be wrong, we can use the pre-trained foundation models to accurately self-describe (i.e., re-label or classify) the demonstrations. This automatically provides new pairs of demonstration-instruction data for policy fine-tuning. We evaluate our method on a broad range of experiments with the focus on generalization on unseen objects, unseen tasks, unseen environments, and sim-to-real transfer. We show SPLAYD improves baselines by a large margin in all cases. Our project page is available at https://geyuying.github.io/SPLAYD/
翻訳日:2022-12-15 14:08:16 公開日:2022-12-14
# MIST: 英語科学テキストにおけるモーダル動詞機能のための大規模アノテーションリソースとニューラルモデル

MIST: a Large-Scale Annotated Resource and Neural Models for Functions of Modal Verbs in English Scientific Text ( http://arxiv.org/abs/2212.07156v1 )

ライセンス: Link先を確認
Sophie Henning, Nicole Macher, Stefan Gr\"unewald, Annemarie Friedrich(参考訳) モーダル動詞(英: modal verbs、例:can、should、must)は、科学論文において頻繁に発生する動詞である。 関数の復号化は簡単ではなく、しばしばヘッジに使われるが、能力や制限を示すこともある。 それらの意味を理解することは、執筆支援や科学的テキストからの正確な情報抽出など、様々なNLPタスクにおいて重要である。 このジャンルにおけるモーダルの使用に関する研究を促進するために、本研究では、意味、実用的、または修辞的機能に注釈を付けた5つの科学的領域において3737のモーダルインスタンスを含むMISTデータセットを紹介する。 我々は、mist上の一連の競合ニューラルネットワークアーキテクチャを体系的に評価する。 転送実験により、非科学的データを活用することは、MISTの区別をモデル化するための限られた利益であることが明らかになった。 我々のコーパス分析は、科学的コミュニティがモーダル動詞の使用法が異なるという証拠を提供するが、科学的データに基づいて訓練された分類器は、ある程度の科学的領域に一般化する。

Modal verbs (e.g., "can", "should", or "must") occur highly frequently in scientific articles. Decoding their function is not straightforward: they are often used for hedging, but they may also denote abilities and restrictions. Understanding their meaning is important for various NLP tasks such as writing assistance or accurate information extraction from scientific text. To foster research on the usage of modals in this genre, we introduce the MIST (Modals In Scientific Text) dataset, which contains 3737 modal instances in five scientific domains annotated for their semantic, pragmatic, or rhetorical function. We systematically evaluate a set of competitive neural architectures on MIST. Transfer experiments reveal that leveraging non-scientific data is of limited benefit for modeling the distinctions in MIST. Our corpus analysis provides evidence that scientific communities differ in their usage of modal verbs, yet, classifiers trained on scientific data generalize to some extent to unseen scientific domains.
翻訳日:2022-12-15 14:07:41 公開日:2022-12-14
# 言語間要約における翻訳の理解

Understanding Translationese in Cross-Lingual Summarization ( http://arxiv.org/abs/2212.07220v1 )

ライセンス: Link先を確認
Jiaan Wang, Fandong Meng, Tingyi Zhang, Yunlong Liang, Jiarong Xu, Zhixu Li, Jie Zhou(参考訳) ソース言語の文書が与えられた場合、言語間要約(CLS)は、異なるターゲット言語で簡潔な要約を生成することを目的としている。 単言語要約(MS)とは異なり、自然に発生するソース言語文書とターゲット言語要約との組み合わせは稀である。 大規模なclsサンプルを収集するために、既存のデータセットは通常、その作成に翻訳を伴う。 しかし、翻訳されたテキストは元々その言語で書かれたテキスト、すなわち翻訳語と区別される。 CLSに多くの努力が注がれているが、いずれも翻訳の現象に気付いていない。 本稿では、まず、CLSデータセット構築における異なるアプローチが、異なるレベルの翻訳に結びつくことを確認する。 次に,翻訳がclsモデルの評価と性能にどのように影響するかを検討するために体系的な実験をデザインする。 具体的には,(1)文書の翻訳文やテストセットの要約文は,人的判断と自動評価の相違を招きうること,(2)訓練文の翻訳文は実際の場面でのモデル性能を損なうこと,(3)機械翻訳文には翻訳文が伴うが,低リソース言語上で特定の学習戦略の下でCLSシステムを構築するのに非常に有用である。 さらに、データセットやモデル開発を含む今後のCLS研究について提案する。 私たちの研究は、clsにおける翻訳現象を研究者が認識し、将来考慮できることを期待しています。

Given a document in a source language, cross-lingual summarization (CLS) aims at generating a concise summary in a different target language. Unlike monolingual summarization (MS), naturally occurring source-language documents paired with target-language summaries are rare. To collect large-scale CLS samples, existing datasets typically involve translation in their creation. However, the translated text is distinguished from the text originally written in that language, i.e., translationese. Though many efforts have been devoted to CLS, none of them notice the phenomenon of translationese. In this paper, we first confirm that the different approaches to constructing CLS datasets will lead to different degrees of translationese. Then we design systematic experiments to investigate how translationese affects CLS model evaluation and performance when it appears in source documents or target summaries. In detail, we find that (1) the translationese in documents or summaries of test sets might lead to the discrepancy between human judgment and automatic evaluation; (2) the translationese in training sets would harm model performance in the real scene; (3) though machine-translated documents involve translationese, they are very useful for building CLS systems on low-resource languages under specific training strategies. Furthermore, we give suggestions for future CLS research including dataset and model developments. We hope that our work could let researchers notice the phenomenon of translationese in CLS and take it into account in the future.
翻訳日:2022-12-15 14:07:22 公開日:2022-12-14
# 物体検出のためのオブジェクトファブリケーションターゲット攻撃

Object-fabrication Targeted Attack for Object Detection ( http://arxiv.org/abs/2212.06431v2 )

ライセンス: Link先を確認
Xuchong Zhang, Changfeng Sun, Haoliang Han, Hang Wang, Hongbin Sun and Nanning Zheng(参考訳) 近年の研究では、ディープラーニングに基づく物体検出は敵の例に弱いことが示されている。 一般的に、対象検出に対する敵攻撃は、標的攻撃と未目標攻撃を含む。 我々の詳細な調査によると、前者に対する研究は後者よりも比較的少なく、標的攻撃のための既存の手法はすべて同じモード、すなわち検出対象を特定の間違ったラベルとして誤ってラベル付けするために検出器を誤解するオブジェクトミスラベルモードに従う。 しかし、このモードは攻撃成功率、普遍的および一般化性能に制限がある。 本稿では,対象ラベルを指定した追加の偽物を「ファブリケート」するために,検出器を誤認できる新たな対象ファブリケーションターゲット攻撃モードを提案する。 さらに,提案した攻撃モードを実装するために,二重注意に基づく特徴空間攻撃法を設計する。 提案モードと手法の攻撃性能を,FasterRCNNとYOLOv5を用いてMS COCOとBDD100Kデータセットで評価した。 評価結果から,提案した対象ファブリケーション目標攻撃モードとそれに対応する特徴空間攻撃手法は,対象検出に対する従来の目標攻撃と比較して,画像特異的攻撃,普遍的性能,一般化能力の面で著しく改善されていることが示された。 コードは利用可能になる。

Recent researches show that the deep learning based object detection is vulnerable to adversarial examples. Generally, the adversarial attack for object detection contains targeted attack and untargeted attack. According to our detailed investigations, the research on the former is relatively fewer than the latter and all the existing methods for the targeted attack follow the same mode, i.e., the object-mislabeling mode that misleads detectors to mislabel the detected object as a specific wrong label. However, this mode has limited attack success rate, universal and generalization performances. In this paper, we propose a new object-fabrication targeted attack mode which can mislead detectors to `fabricate' extra false objects with specific target labels. Furthermore, we design a dual attention based targeted feature space attack method to implement the proposed targeted attack mode. The attack performances of the proposed mode and method are evaluated on MS COCO and BDD100K datasets using FasterRCNN and YOLOv5. Evaluation results demonstrate that, the proposed object-fabrication targeted attack mode and the corresponding targeted feature space attack method show significant improvements in terms of image-specific attack, universal performance and generalization capability, compared with the previous targeted attack for object detection. Code will be made available.
翻訳日:2022-12-15 11:58:10 公開日:2022-12-14
# 米国退役軍人における自然言語処理(nlp)の健康要因と自殺死亡との関連性

Associations Between Natural Language Processing (NLP) Enriched Social Determinants of Health and Suicide Death among US Veterans ( http://arxiv.org/abs/2212.05546v2 )

ライセンス: Link先を確認
Avijit Mitra, Richeek Pradhan, Rachel D Melamed, Kun Chen, David C Hoaglin, Katherine L Tucker, Joel I Reisman, Zhichao Yang, Weisong Liu, Jack Tsai, and Hong Yu(参考訳) 重要性: 社会的健康決定因子(SDOH)は自殺行為のリスクの増加と関連していることが知られているが、非構造化電子健康記録(EHR)ノートからSDOHを利用した研究はほとんどない。 目的: 構造的および非構造的データを用いて同定された自殺と最近のsdohとの関連性を検討する。 デザイン:ケースコントロールの研究。 設定:US Veterans Health Administration (VHA)のEHRデータ。 参加者: 2010年10月1日から2015年9月30日までに米国のvhaで介護を受けた退役軍人6,122,785人。 暴露: SDOHの発生は最大2年間に及んだが, SDOHの発生は認められなかった。 主な結果と対策: 自殺死亡のケースは、出生年数、入園日、性別、フォローアップ期間の4つのコントロールと一致した。 非構造化音符からSDOHを抽出するNLPシステムを開発した。 構造化データ,非構造化データに対するNLPと組み合わせると,それぞれ7,8,9のSDOHが得られる。 条件付きロジスティック回帰を用いて,調整オッズ比 (aORs) と95%信頼区間 (CIs) を推定した。 結果:8,821人の獣医が23,725,382人のフォローアップ(入所率37.18/100,000人)で自殺した。 うちのコホートは男性(92.23%)と白人(76.99%)が多かった。 6つの共通SDOHは共変量であり、NLP抽出SDOHは平均84.38%を占める。 構造化データとNLPによって測定された全SDOHは、自殺リスクの増加に大きく関連していた。 最大の影響を持つSDOHは法的問題(aOR=2.67、95% CI=2.46-2.89)であり、暴力(aOR=2.26、95% CI=2.11-2.43)が続いた。 NLP抽出および構造化SDOHも自殺と関連していた。 結論と関連性: NLPを抽出したSDOHは常に獣医の自殺リスクの増加と大きく関連しており, 公衆衛生研究におけるNLPの可能性が示唆された。

Importance: Social determinants of health (SDOH) are known to be associated with increased risk of suicidal behaviors, but few studies utilized SDOH from unstructured electronic health record (EHR) notes. Objective: To investigate associations between suicide and recent SDOH, identified using structured and unstructured data. Design: Nested case-control study. Setting: EHR data from the US Veterans Health Administration (VHA). Participants: 6,122,785 Veterans who received care in the US VHA between October 1, 2010, and September 30, 2015. Exposures: Occurrence of SDOH over a maximum span of two years compared with no occurrence of SDOH. Main Outcomes and Measures: Cases of suicide deaths were matched with 4 controls on birth year, cohort entry date, sex, and duration of follow-up. We developed an NLP system to extract SDOH from unstructured notes. Structured data, NLP on unstructured data, and combining them yielded seven, eight and nine SDOH respectively. Adjusted odds ratios (aORs) and 95% confidence intervals (CIs) were estimated using conditional logistic regression. Results: In our cohort, 8,821 Veterans committed suicide during 23,725,382 person-years of follow-up (incidence rate 37.18 /100,000 person-years). Our cohort was mostly male (92.23%) and white (76.99%). Across the six common SDOH as covariates, NLP-extracted SDOH, on average, covered 84.38% of all SDOH occurrences. All SDOH, measured by structured data and NLP, were significantly associated with increased risk of suicide. The SDOH with the largest effects was legal problems (aOR=2.67, 95% CI=2.46-2.89), followed by violence (aOR=2.26, 95% CI=2.11-2.43). NLP-extracted and structured SDOH were also associated with suicide. Conclusions and Relevance: NLP-extracted SDOH were always significantly associated with increased risk of suicide among Veterans, suggesting the potential of NLP in public health studies.
翻訳日:2022-12-15 11:57:48 公開日:2022-12-14
# 事前訓練言語モデルを用いたプロンプトチューニングのための競合ソリューション

Technical Report -- Competition Solution for Prompt Tuning using Pretrained Language Model ( http://arxiv.org/abs/2212.06369v2 )

ライセンス: Link先を確認
Jiang-Long Song and Wu-He Zou and Feng Li and Xiao-Lei Qin(参考訳) 近年、プロンプトチューニングは、特定の下流タスクに対する大規模な事前訓練言語モデルの応用においてホットスポットとなっている。 言語モデル・アズ・ア・サービス (lmaas) に関して、デリバティブフリー最適化 (dfo) を用いたブラックボックスチューニングは、事前訓練されたモデルの実用的なシナリオを拡張し、少数の学習の研究を豊かにする新しいアプローチを提供する。 本稿では,LMaaSのシナリオに基づいたこのコンペティションにおけるソリューションについて述べる。 提案手法は,複数のラベル単語,p0の選択,ロール更新戦略,mlp分類器によるマルチタスク損失など,bbtv2の改良を複数行ない,さらに一般化能力を向上させるためにアンサンブル法を用いた。 また、いくつかの戦略を共有しましたが、最終的な提案では使用していません。 最終的には、snliデータセットと結果への影響、および競合に関する懸念について質問しました。

Prompt tuning recently becomes a hot-spot in the applications of large pretrained language models on specific downstream tasks. Regarding the Language Model as a Service (LMaaS), black-box tuning using derivative-free optimization (DFO) provides a novel approach to expand the practical scenarios of pretrained models and enrich the researches of few-shot learning. In this report, we present our solution in this competition that is based on the LMaaS scenario. Our solution consists of several modifications to BBTv2, including multiple label words, selection of P0, rolling update strategy, multi-task loss from MLP classifier, and finally using the ensemble method to further improve generalization ability. We also shared some strategies that we tried but didn't use in the final submission for further discussion. In the end we raised a question about the SNLI dataset and the impact on the results, as well as our concerns about the competition.
翻訳日:2022-12-15 11:57:13 公開日:2022-12-14
# テキスト型パーソナリティコンピューティングの課題と今後の方向性

On Text-based Personality Computing: Challenges and Future Directions ( http://arxiv.org/abs/2212.06711v2 )

ライセンス: Link先を確認
Qixiang Fang, Anastasia Giachanou, Ayoub Bagheri, Laura Boeschoten, Erik-Jan van Kesteren, Mahdi Shafiee Kamalabad, Daniel L Oberski(参考訳) テキストベースパーソナリティコンピューティング(tpc)はnlpで多くの研究関心を集めている。 本稿では,研究コミュニティの注意を喚起する15の課題について述べる。 これらの課題は、パーソナリティ分類、測定品質、データセット、パフォーマンス評価、モデリング選択、倫理と公平性といったトピックによって整理される。 それぞれの課題に取り組む際には、NLPと社会科学の両方の視点を組み合わせるだけでなく、より有効で信頼性の高いTPC研究への具体的な提案も提供します。

Text-based personality computing (TPC) has gained many research interests in NLP. In this paper, we describe 15 challenges that we consider deserving the attention of the research community. These challenges are organized by the following topics: personality taxonomies, measurement quality, datasets, performance evaluation, modelling choices, as well as ethics and fairness. When addressing each challenge, not only do we combine perspectives from both NLP and social sciences, but also offer concrete suggestions towards more valid and reliable TPC research.
翻訳日:2022-12-15 11:56:56 公開日:2022-12-14
# DAワンド:ニューラルメッシュパラメータ化を用いた歪み認識の選択

DA Wand: Distortion-Aware Selection using Neural Mesh Parameterization ( http://arxiv.org/abs/2212.06344v2 )

ライセンス: Link先を確認
Richard Liu, Noam Aigerman, Vladimir G. Kim, Rana Hanocka(参考訳) 本稿では,メッシュパラメータ化に使用できる点周辺の局所部分領域を学習するためのニューラル手法を提案する。 私たちのフレームワークの動機は、表面のデカリング、テキスト作成、ペイントに使用されるインタラクティブなワークフローにあります。 我々の重要なアイデアは、ニューラルネットワークフレームワーク内で新しい微分可能パラメータ化層として実装された古典的なパラメータ化法の重みとしてセグメンテーション確率を組み込むことである。 我々は,2次元にパラメータ化され,歪みによってペナル化される3次元領域を選択するようにセグメンテーションネットワークを訓練する。 学習の後、ユーザは我々のシステムを使ってメッシュ上の点を対話的に選択し、低歪みパラメータ化を誘導する選択に関する大きな意味のある領域を得ることができる。 私たちのコードとプロジェクトページは現在利用可能です。

We present a neural technique for learning to select a local sub-region around a point which can be used for mesh parameterization. The motivation for our framework is driven by interactive workflows used for decaling, texturing, or painting on surfaces. Our key idea is to incorporate segmentation probabilities as weights of a classical parameterization method, implemented as a novel differentiable parameterization layer within a neural network framework. We train a segmentation network to select 3D regions that are parameterized into 2D and penalized by the resulting distortion, giving rise to segmentations which are distortion-aware. Following training, a user can use our system to interactively select a point on the mesh and obtain a large, meaningful region around the selection which induces a low-distortion parameterization. Our code and project page are currently available.
翻訳日:2022-12-15 11:56:45 公開日:2022-12-14