このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221124となっている論文です。

PDF登録状況(公開日: 20221124)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子暗号に必要な計算硬度について

On the computational hardness needed for quantum cryptography ( http://arxiv.org/abs/2209.04101v2 )

ライセンス: Link先を確認
Zvika Brakerski, Ran Canetti, Luowen Qian(参考訳) 古典的な計算モデルでは、一方通行関数 (OWF) は計算暗号において最小限であることがよく理解されている。 しかし、量子環境では、OWFは必須ではないように見える(Kretschmer 2021, Ananth et al., Morimae and Yamakawa 2022)。 EFI対 -- 効率的にサンプリング可能、統計的に遠いが、(混合された)量子状態の対は計算的に区別できない。 EFIペアと統計的コミットメントスキームの等価性を示すYan (2022) の研究に基づいて、EFIペアは大規模な量子暗号アプリケーションに必要であることを示す。 具体的には、最小限のコミットメントスキーム、曖昧な転送、一般的なセキュアなマルチパーティ計算、および本質的には自明でない言語からの$\mathsf{QCZK}$証明からEFIペアを構築する。 また、任意のefiペアから$\mathsf{qip}$の全ての証明に対して量子計算ゼロ知識(\mathsf{qczk}$)を構築します。 これは、量子暗号の多くにおいて、efiペアは古典的設定においてowfsが演じているものと同様の役割を担っていることを示唆している:それらは記述が簡単であり、本質的であり、プリミティブ間の等価性を示すためのlinchpinとしても機能する。

In the classical model of computation, it is well established that one-way functions (OWF) are minimal for computational cryptography: They are essential for almost any cryptographic application that cannot be realized with respect to computationally unbounded adversaries. In the quantum setting, however, OWFs appear not to be essential (Kretschmer 2021; Ananth et al., Morimae and Yamakawa 2022), and the question of whether such a minimal primitive exists remains open. We consider EFI pairs -- efficiently samplable, statistically far but computationally indistinguishable pairs of (mixed) quantum states. Building on the work of Yan (2022), which shows equivalence between EFI pairs and statistical commitment schemes, we show that EFI pairs are necessary for a large class of quantum-cryptographic applications. Specifically, we construct EFI pairs from minimalistic versions of commitments schemes, oblivious transfer, and general secure multiparty computation, as well as from $\mathsf{QCZK}$ proofs from essentially any non-trivial language. We also construct quantum computational zero knowledge ($\mathsf{QCZK}$) proofs for all of $\mathsf{QIP}$ from any EFI pair. This suggests that, for much of quantum cryptography, EFI pairs play a similar role to that played by OWFs in the classical setting: they are simple to describe, essential, and also serve as a linchpin for demonstrating equivalence between primitives.
翻訳日:2023-01-27 05:33:42 公開日:2022-11-24
# 結合クラスター理論におけるサブシステム自己一貫性

Sub-system self-consistency in coupled cluster theory ( http://arxiv.org/abs/2209.04713v2 )

ライセンス: Link先を確認
Karol Kowalski(参考訳) 本稿では,標準的な単一参照結合クラスタ(CC)エネルギーがそのコピーブック定義に代えて計算可能であることを示す数値的な証拠を提供する。 我々は,多体系の相関サブシステムを記述する実効ハミルトニアンを対角化することにより,CCエネルギーを再構成できることを実証した。 極端な場合には、ccエネルギーは1つの電子からなるサブシステムを記述する効果的なハミルトニアンの対角化によって再現できるという数値的証拠を与える。 これらのCC形式的特性を利用して、システム全体のエネルギーを計算するためのプローブとして使用されるサブシステムの効果的な相互作用を定義するプロトコルを設計し、CC近似アプローチのための新しいタイプの自己整合性を導入することができる。

In this Communication, we provide numerical evidence indicating that the standard single-reference coupled-cluster (CC) energies can be calculated alternatively to its copybook definition. We demonstrate that the CC energies can be reconstructed by diagonalizing the effective Hamiltonians describing correlated sub-systems of the many-body system. In the extreme case, we provide numerical evidence that the CC energy can be reproduced through the diagonalization of the effective Hamiltonian describing sub-system composed of a single electron. These properties of CC formalism can be exploited to design protocols to define effective interactions in sub-systems used as a probe to calculate the energy of the entire system and introduce a new type of self-consistency for approximate CC approaches.
翻訳日:2023-01-27 02:55:04 公開日:2022-11-24
# 絡み合ったシステムの完全記述について(第1報) : 量子相関をシミュレートする隠れ変数とコンテキスト通信コスト

On The Complete Description Of Entangled Systems Part I: Hidden Variables And The Context Communication Cost of Simulating Quantum Correlations ( http://arxiv.org/abs/2209.09590v2 )

ライセンス: Link先を確認
Karl Svozil(参考訳) 量子型確率と相関のいくつかの古典的シミュレーションは、クレーバー・ホーン・シモニー・ホルトの不等式のようなブールの可能な経験条件を破ることができる。 これは測定コンテキストを符号化する単一ビットを通信することで実現できる。

Some forms of classical simulations of quantum type probabilities and correlations are capable of violating Boole's conditions of possible experience, such as the Clauser-Horne-Shimony-Holt inequality, even beyond the Tsirelson bound. This can be achieved by communicating a single bit encoding the measurement context.
翻訳日:2023-01-25 23:28:45 公開日:2022-11-24
# 超流動$^4$Heの顕微鏡像

Microscopic picture of superfluid $^4$He ( http://arxiv.org/abs/2211.02236v2 )

ライセンス: Link先を確認
Yongle Yu, Hailin Luo(参考訳) 超流動ヘリウム4の微視的量子像は、その多体レベルの隠れた性質を明らかにする助けとなる。 遷移点以下では、システムの低層レベルがグループ構造を形成し、各レベルは1つの特定のグループのみに属していることを示す。 スーパーフロー状態又は静的状態において、システムは、その環境とグループ固有の熱平衡を確立し、初期占有群のレベルを熱分散する。 グループ間の移行が禁止されているため、他の未占有レベルのグループも未占有のままである。 超流動速度や熱エネルギー密度などの巨視的観測可能な系の物理量は、占有群の熱分布によって統計的に決定される。 さらに, 超流動の熱エネルギーは, 流速が大きくなるほど熱エネルギーが小さくなるという異常な流れ速度依存性を示す。 この速度依存性は、系の熱運動と流体力学的運動の基本的な結合を示すメカノ・カロリック効果やファウンテン効果など、いくつかの興味深い現象の原因となっている。 ヘリウム4の超流動は,その速度によって大きな熱エネルギーを供給していることを確認するため,逆直観的な自己加熱効果を実験的に観察した。

We illustrate the microscopic quantum picture of superfluid helium-4 with the help of revealing a hidden property of its many-body levels. We show that, below the transition point, the low-lying levels of the system form a grouping structure with each level belonging to one specific group only. In a superflow state or a static state, the system establishes a group-specific thermal equilibrium with its environment and the levels of an initially-occupied group shall be thermally distributed. The other initially-unoccupied groups of levels remain unoccupied, due to the fact that inter-group transitions are prohibited. The macroscopically observable physical quantities of the system, such as superflow velocity and thermal energy density, are determined statistically by the thermal distribution of the occupied group(s). We further show that thermal energy of a superflow has an unusual flow velocity dependence: the larger the velocity is, the smaller the thermal energy. This velocity dependence is responsible for several intriguing phenomena of the system, such as the mechano-caloric effect and the fountain effect, which demonstrate a fundamental coupling between the thermal motion of the system and its hydrodynamic motion. We report an experimental observation of a counter-intuitive self-heating effect of $^4$He superflows, which confirms that a helium-4 superflow carries significant thermal energy depending on its velocity.
翻訳日:2023-01-20 09:12:05 公開日:2022-11-24
# 3つの観測機器の計測不確かさ関係

Measurement uncertainty relation for three observables ( http://arxiv.org/abs/2211.09816v3 )

ライセンス: Link先を確認
Sixia Yu, Ya-Li Mao, Chang Niu, Hu Chen, Zheng-Da Li, and Jingyun Fan(参考訳) 本研究では, 偏りのない3つの量子ビット観測値に対して, 厳密な測定不確実性関係(MUR)を確立する。 三重項MURは、対象可観測物と共同実装可観測物との間の総統計距離で定量化される不確実性は、共同測定条件を反映する不整合度測定によって下界となることを述べる。 我々は三重項MURを飽和させる必要十分条件と対応する最適な測定値を得る。 MURの実験的な試験を容易にするために,最適関節測定の簡単な実装を提案する。 対応する三重項MURが飽和していないとき、いくつかの対称三重項に対して不整合測定の正確な値を解析的に算出する。 我々の研究は、MURにおける量子不整合性の理解を深め、量子情報科学のさらなる応用を促すことを期待する。 本研究は,3つの観測器arxiv:2211.09389におけるハイゼンベルク測定の不確かさ関係を実験的に検証する並列作業に関する完全な理論を提示する。

In this work we establish rigorously a measurement uncertainty relation (MUR) for three unbiased qubit observables, which was previously shown to hold true under some presumptions. The triplet MUR states that the uncertainty, which is quantified by the total statistic distance between the target observables and the jointly implemented observables, is lower bounded by an incompatibility measure that reflects the joint measurement conditions. We derive a necessary and sufficient condition for the triplet MUR to be saturated and the corresponding optimal measurement. To facilitate experimental tests of MURs we propose a straightforward implementation of the optimal joint measurements. The exact values of incompatibility measure are analytically calculated for some symmetric triplets when the corresponding triplet MURs are not saturated. We anticipate that our work may enrich the understanding of quantum incompatibility in terms of MURs and inspire further applications in quantum information science. This work presents a complete theory relevant to a parallel work [Y.-L. Mao, et al., Testing Heisenberg's measurement uncertainty relation of three observables, arXiv:2211.09389] on experimental tests.
翻訳日:2023-01-19 06:31:13 公開日:2022-11-24
# SU($N$)フェルミオン性物質-波の強い反発極限における励起一粒子密度行列

Exact one-particle density matrix for SU($N$) fermionic matter-waves in the strong repulsive limit ( http://arxiv.org/abs/2211.13553v1 )

ライセンス: Link先を確認
Andreas Osterloh, Juan Polo, Wayne J. Chetcuti and Luigi Amico(参考訳) 我々は、実効磁場を受けるリング型ポテンシャルに閉じ込められた反発的n$-component fermionの気体を考える。 大きな反発強度を得るために,2点相関行列と1粒子密度行列を計算するためのBetheアンザッツスキームを提案する。 その結果,有限だが十分多数の粒子のメソスコピックな配置と,数値ではアクセスできないシステムサイズが得られた。 我々は、システムの運動量分布にアクセスし、その相互作用、磁場、成分数に対する特定の依存性を解析する。 冷間原子の文脈では、リングトラップから冷間原子を放出することによって生じる干渉パターンを決定するための相関行列の正確な計算を行う。

We consider a gas of repulsive $N$-component fermions confined in a ring-shaped potential, subject to an effective magnetic field. For large repulsion strengths, we work out a Bethe ansatz scheme to compute the two-point correlation matrix and then the one-particle density matrix. Our results holds in the mesoscopic regime of finite but sufficiently large number of particles and system size that are not accessible by numerics. We access the momentum distribution of the system and analyse its specific dependence of interaction, magnetic field and number of components $N$. In the context of cold atoms, the exact computation of the correlation matrix to determine the interference patterns that are produced by releasing cold atoms from ring traps is carried out.
翻訳日:2023-01-18 23:00:12 公開日:2022-11-24
# アディバティック猫状態のトポロジーダイナミクス

Topological dynamics of adiabatic cat states ( http://arxiv.org/abs/2211.13502v1 )

ライセンス: Link先を確認
Jacquelin Luneau, Beno\^it Dou\c{c}ot, David Carpentier(参考訳) 2つの量子モードに結合した量子ビット位相を考える。 本システムの初期分離状態は, 全般的にアディバティック猫状態へと進化する。 そのような状態は、キュービットがモード間で絡み合っている2つの断熱状態の重ね合わせである。 量子ビットとモードの間のトポロジカルカップリングは、これらの2つの成分の間のエネルギーの分離を引き起こす。

We consider a qubit topologically coupled to two quantum modes. We show that any initial separable state of this system generically evolves into an adiabatic cat state. Such a state is a superposition of two adiabatic states in which the qubit is entangled between the modes. The topological coupling between the qubit and the modes gives rise to the separation in energy between these two components which evolve into states with distinguishable energy content.
翻訳日:2023-01-18 22:59:44 公開日:2022-11-24
# 量子ドットデバイスにおける均一性の電気制御

Electrical control of uniformity in quantum dot devices ( http://arxiv.org/abs/2211.13493v1 )

ライセンス: Link先を確認
Marcel Meyer, Corentin D\'eprez, Timo R. van Abswoude, Dingshan Liu, Chien-An Wang, Saurabh Karwal, Stefan Oosterhout, Franscesco Borsoi, Amir Sammak, Nico W. Hendrickx, Giordano Scappucci, and Menno Veldhorst(参考訳) スケーラブルな量子プロセッサの実装には、高度に均一な量子システムが必要である。 半導体技術に基づく量子ドットスピン量子ビットは、大規模量子コンピューティングにとって有望なプラットフォームであるが、その小さなサイズは、特にローカル環境に敏感である。 本稿では,ゲート電圧特性のヒステリックシフトを用いて,固有電位環境における高均一性を電気的に得る手法を提案する。 数百ミリボルトの量子ドットデバイス上でのピンチオフ電圧のチューニングを、少なくとも数時間は安定であることを示す。 本手法を適用し, 4個の量子ドットに対して, プランジャゲートのピンチオフ電圧を線形配列で均質化し, ピンチオフ電圧の拡散を1桁減らした。 この作業は量子ドットデバイスのチューニングのための新しいツールを提供し、スケーラブルなスピン量子ビットアレイの実装のための新しい視点を提供する。

Highly uniform quantum systems are essential for the practical implementation of scalable quantum processors. While quantum dot spin qubits based on semiconductor technology are a promising platform for large-scale quantum computing, their small size makes them particularly sensitive to their local environment. Here, we present a method to electrically obtain a high degree of uniformity in the intrinsic potential landscape using hysteretic shifts of the gate voltage characteristics. We demonstrate the tuning of pinch-off voltages in quantum dot devices over hundreds of millivolts that then remain stable at least for hours. Applying our method, we homogenize the pinch-off voltages of the plunger gates in a linear array for four quantum dots reducing the spread in pinch-off voltage by one order of magnitude. This work provides a new tool for the tuning of quantum dot devices and offers new perspectives for the implementation of scalable spin qubit arrays.
翻訳日:2023-01-18 22:59:38 公開日:2022-11-24
# ダイヤモンド中の電子核スピン系におけるチャーン数の可制御性

Controllable tunability of a Chern number within the electronic-nuclear spin system in diamond ( http://arxiv.org/abs/2211.13438v1 )

ライセンス: Link先を確認
Junghyun Lee, Keigo Arai, Huiliang Zhang, Mark J. H. Ku, and Ronald L. Walsworth(参考訳) チャーン数は様々な物理系の位相位相相を特徴づけるにつれて勢いを増している。 しかしながら、システムのトポロジーから外部摂動へのレジリエンスは、異なるフェーズ間の遷移を実験的に調査することが困難である。 本研究では,ダイヤモンド中の窒素空孔(nv)中心に関連する電子-核スピン系で合成されたチャーン数を0から3への遷移を示す。 チャーン数は、制御ハミルトニアンパラメータ球面に内包する退化個数によって特徴づけられる。 異なる位相間の位相遷移は、球の半径とオフセットの変化によって表される。 測定されたトポロジカル位相図は数値計算と一致しているだけでなく、相互作用する3ビット系にもマッピング可能であることを示す。 NVシステムはさらに高いチャーン数へのアクセスを可能にし、エキゾチックなトポロジーやトポロジカル量子情報の探索にも応用できる。

Chern numbers are gaining traction as they characterize topological phases in various physical systems. However, the resilience of the system topology to external perturbations makes it challenging to experimentally investigate transitions between different phases. In this study, we demonstrate the transitions of Chern number from 0 to 3, synthesized in an electronic-nuclear spin system associated with the nitrogen-vacancy (NV) centre in diamond. The Chern number is characterized by the number of degeneracies enclosed in a control Hamiltonian parameter sphere. The topological transitions between different phases are depicted by varying the radius and offset of the sphere. We show that the measured topological phase diagram is not only consistent with the numerical calculations but can also be mapped onto an interacting three-qubit system. The NV system may also allow access to even higher Chern numbers, which can be applied to exploring exotic topology or topological quantum information.
翻訳日:2023-01-18 22:59:23 公開日:2022-11-24
# エネルギー保存則下における散乱型の量子測定と演算の限界

Limitations of Quantum Measurements and Operations of Scattering Type under the Energy Conservation Law ( http://arxiv.org/abs/2211.13433v1 )

ライセンス: Link先を確認
Ryota Katsube and Masanao Ozawa and Masahiro Hotta(参考訳) 工学と基礎物理学の両方において量子測定と演算の精度を向上させることが重要である。 しかし、測定とユニタリ演算の達成可能な精度は、一般にウィグナー・アラキ・ヤネーゼの定理(WAY定理)とその一般化に従って保存法則によって制限されていることが知られている。 多くの研究は定理を定量的に拡張したが、その多くは元の定理と同様に角運動量保存則のような加法保存則のみに関係している。 本稿では, 普遍的ではあるが非加法的保存則の一つであるエネルギー保存則の限界について考察する。 本稿では,エネルギー保存則を満たす散乱過程を用いた量子計測の誤差に対する下限を提案する。 制御系ハミルトニアンが、散乱過程を考慮すれば、誤差ゼロの制御ユニタリゲートを実装するために満たさなければならない条件を得る。 また、制御されたユニタリゲートのゲート忠実度の上限と、ターゲットシステムと制御システムの両方が1キュービットである場合のシステムのエネルギー変動との関係を定量的に示す。

It is important to improve the accuracy of quantum measurements and operations both in engineering and fundamental physics. It is known, however, that the achievable accuracy of measurements and unitary operations are generally limited by conservation laws according to the Wigner-Araki-Yanase theorem (WAY theorem) and its generalizations. Although many researches have extended the WAY theorem quantitatively, most of them, as well as the original WAY theorem, concern only additive conservation laws like the angular momentum conservation law. In this paper, we explore the limitation incurred by the energy conservation law, which is universal but is one of the non-additive conservation laws. We present a lower bound for the error of a quantum measurement using a scattering process satisfying the energy conservation law. We obtain conditions that a control system Hamiltonian must fulfill in order to implement a controlled unitary gate with zero error when a scattering process is considered. We also show the quantitative relationship between the upper bound of the gate fidelity of a controlled unitary gate and the energy fluctuation of systems when a target system and a control system are both one qubit.
翻訳日:2023-01-18 22:59:08 公開日:2022-11-24
# 誤差軽減量子回路切断

Error mitigated quantum circuit cutting ( http://arxiv.org/abs/2211.13431v1 )

ライセンス: Link先を確認
Ritajit Majumdar, Christopher J. Wood(参考訳) ゲートと測定ノイズの存在下での量子回路切断問題に対する誤差軽減トモグラフィー法について検討した。 そこで本研究では, トモグラフィー再建術における全カットおよび条件量子ビット計測における読み出し誤差の知識を利用する読み出し誤差緩和条件フラグメントトモグラフィと, 再建に使用する個別条件トモグラフィフラグメントの切り抜きを行うことにより, 回路切断の性能向上を目的とした支配的固有値トランケーション(DEVT)について検討する。 また, リードアウト誤差低減トモグラフィとDVTトモグラフィの両方の性能は, 対称測定誤差の有無で回路切断に匹敵することがわかった。 ゲート誤差について,DEVTを用いて得られた元の回路の確率推定は,測定,脱分極,弱バイアスのパウリノイズモデルに優れるが,振幅減衰やコヒーレント誤差のパフォーマンスは向上せず,高バイアスのパウリノイズに対する性能を大幅に低下させることができることを示す。 devtが有効であった症例では, 断層撮影データの50%以上を条件付き最小2乗型断層撮影法で, 部分的断層撮影法の性能が向上し, また, devt除去の有無にかかわらず線形逆断層撮影では, 部分的データでは不十分な結果が得られた。

We investigate an error mitigated tomographic approach to the quantum circuit cutting problem in the presence of gate and measurement noise. We explore two tomography specific error mitigation techniques; readout error mitigated conditional fragment tomography, which uses knowledge of readout errors on all cut and conditional qubit measurements in the tomography reconstruction procedure; and dominant eigenvalue truncation (DEVT), which aims to improve the performance of circuit cutting by performing truncation of the individual conditional tomography fragments used in the reconstruction. We find that the performance of both readout error mitigated tomography and DEVT tomography are comparable for circuit cutting in the presence of symmetric measurement errors. For gate errors our numerical results show that probability estimates for the original circuit obtained using DEVT outperforms general circuit cutting for measurement, depolarization and weakly biased Pauli noise models, but does not improve performance for amplitude damping and coherent errors, and can greatly decrease performance for highly biased Pauli noise. In cases where DEVT was effective, it as also found to improve performance of partial tomographic reconstruction using at least 50% of the full tomographic data with a conditional least-squares tomographic fitter, while linear inversion tomography with or without DEVT mitigation was found to perform poorly with with partial data.
翻訳日:2023-01-18 22:58:49 公開日:2022-11-24
# マルチタイムプロセスにおけるLeggett-Garg不等式

Leggett-Garg inequalities for multitime processe ( http://arxiv.org/abs/2211.13396v1 )

ライセンス: Link先を確認
Zhiqiang Huang and Xiao-Kan Guo(参考訳) マルチタイムプロセスにおける演算子状態の定式化を用いて,Leggett-Gargの不等式について検討する。 プロセス状態と呼ぶ新しい時間的量子状態が、レゲット・ガーグの不等式とその違反を調査するために導入された。 レゲット・ガーグの不等式が持つべき過程状態の十分条件は、時間条件における無信号条件と一致している。 プロセス状態に関する新たな条件に基づき,プロセス状態の構造を通じてレゲット・ガーグの不等式を破ることに対する環境影響を特徴付ける新しい方法を見出す。

We study some aspects of the Leggett-Garg inequalities by using the operator-state formalism for multitime processes. A new type of temporal quantum state, which we call process states, is introduced to investigate the Leggett-Garg inequalities and their violations. We find the sufficient conditions on process states for the Leggett-Garg inequalities to hold, in line with the no-signaling in time conditions. Based on these new conditions on process states, we find a new way of characterizing the environmental influences on the violation of Leggett-Garg inequalities through the structure of process states.
翻訳日:2023-01-18 22:58:22 公開日:2022-11-24
# 弱い単調性の作用素拡大

An operator extension of weak monotonicity ( http://arxiv.org/abs/2211.13372v1 )

ライセンス: Link先を確認
Ting-Chun Lin, Isaac H. Kim, Min-Hsiu Hsieh(参考訳) S(\rho)$ を密度行列 $\rho$ のフォン・ノイマンエントロピーとする。 弱単調性は$S(\rho_{AB}) - S(\rho_A) + S(\rho_{BC})S(\rho_C)\geq 0$ for any tripartite density matrix $\rho_{ABC}$ であると主張する。 作用素の不等式を証明し、状態$\rho_{ABC}$に対して期待値を取ると、弱単調性不等式に還元される。 この不等式を2つの独立密度行列とそれらのR'enyi- Generalizationを含むものへ一般化する。

Let $S(\rho)$ be the von Neumann entropy of a density matrix $\rho$. Weak monotonicity asserts that $S(\rho_{AB}) - S(\rho_A) + S(\rho_{BC}) - S(\rho_C)\geq 0$ for any tripartite density matrix $\rho_{ABC}$, a fact that is equivalent to the strong subadditivity of entropy. We prove an operator inequality, which, upon taking an expectation value with respect to the state $\rho_{ABC}$, reduces to the weak monotonicity inequality. Generalizations of this inequality to the one involving two independent density matrices, as well as their R\'enyi-generalizations, are also presented.
翻訳日:2023-01-18 22:58:11 公開日:2022-11-24
# ダブルスリット実験をリマスター

Double-slit experiment remastered ( http://arxiv.org/abs/2211.13362v1 )

ライセンス: Link先を確認
Siddhant Das, Dirk-Andr\'e Deckert, Leopold Kellers, Ward Struyve(参考訳) c. kurtsiefer, t. pfau, j. mlynek, nature 386, 150 (1997) で報告された二重スリット実験におけるヘリウム原子の飛行時間の測定をボーム軌道の到達時間と比較した。 これは量子力学の到着時刻計算と単一粒子レベルでの観測の質的な比較としては初めてであり、特に量子理論から飛行時間予測を抽出するコンセンサスがないことを考えると注目に値する。 さらに我々は、スリットの1つが飛行中にシャットダウンされる、挑戦的なダブルスリット実験を探索する。

Time-of-flight measurements of helium atoms in a double-slit experiment reported in [C. Kurtsiefer, T. Pfau, and J. Mlynek, Nature 386, 150 (1997)] are compared with the arrival times of Bohmian trajectories. This is the first qualitative comparison of a quantum mechanical arrival-time calculation with observation at the single-particle level, particularly noteworthy given the absence of a consensus in extracting time-of-flight predictions from quantum theory. We further explore a challenging double-slit experiment in which one of the slits is shut in flight.
翻訳日:2023-01-18 22:57:52 公開日:2022-11-24
# 任意の受動光源側チャネルを用いたBB84デコイ状態プロトコルの同時盗聴

Joint eavesdropping on the BB84 decoy state protocol with an arbitrary passive light-source side channel ( http://arxiv.org/abs/2211.13669v1 )

ライセンス: Link先を確認
Danila V. Babukhin and Denis V. Sych(参考訳) 量子鍵分布(qkd)における受動的光源サイドチャネルは量子信号の識別性を高め、盗聴者に量子信号に関する追加情報を提供する。 従来知られていた受動側チャネルを対象とした明示的な盗聴戦略は,操作の自由度に加えて受動側チャネルを別々に測定することに限定されていた。 ここでは, 操作自由度と一般形態の受動側チャネルの両方において, 関節の盗聴を考慮に入れる方法を示す。 特に,信号フォトン状態の最適位相共変クローニング法を用いて,bb84プロトコルにおいてサイドチャネルを使わずに最も効果的な攻撃を行い,続いてサイドチャネルと操作自由度を共同で測定した。 この攻撃下でのQKDセキュリティを推定するために,有効なエラー手法を開発し,BB84デコイ状態プロトコルの適用性を示す。

Passive light-source side channel in quantum key distribution (QKD) makes the quantum signals more distinguishable thus provides additional information about the quantum signal to an eavesdropper. The explicit eavesdropping strategies aimed at the passive side channel known to date were limited to the separate measurement of the passive side channel in addition to the operational degree of freedom. Here we show how to account for the joint eavesdropping on both operational degree of freedom and the passive side channel of the generic form. In particular, we use the optimal phase-covariant cloning of the signal photon state, which is the most effective attack on the BB84 protocol without side channels, followed by a joint collective measurement of the side channel and the operational degree of freedom. To estimate QKD security under this attack, we develop an effective error method and show its applicability to the BB84 decoy-state protocol.
翻訳日:2023-01-18 22:52:09 公開日:2022-11-24
# 波動関数のherman-klukプロパゲータのサンプリング戦略

Sampling strategies for the Herman-Kluk propagator of the wavefunction ( http://arxiv.org/abs/2211.13666v1 )

ライセンス: Link先を確認
Fabian Kr\"oninger, Caroline Lasser and Ji\v{r}\'i Van\'i\v{c}ek(参考訳) 半古典的なHerman-Klukプロパゲータを用いて量子力学的観測値や時間相関関数を評価する場合、誘導軌道の初期条件は、通常フシミ密度からサンプリングされる。 ここでは、このプロパゲータを用いて波動関数自体を進化させる。 波動関数に適用したherman-klukプロパゲータの初期サンプリングのための2つのグリッドフリー戦略について検討し、高調波および非調和電位で進化した時間依存波動関数を検証する。 特に、初期フシミ密度またはその平方根に基づくモンテカルロ二次方程式を可能な限り、最も自然なサンプリング密度とみなす。 我々は解析的収束誤差の推定を証明し、調和振動子と非調和性の増加を伴うモースポテンシャルの一連の数値実験で検証する。 いずれの場合も、フシミ密度の平方根からのサンプリングは波動関数の高速収束をもたらす。

When the semiclassical Herman-Kluk propagator is used for evaluating quantum-mechanical observables or time-correlation functions, the initial conditions for the guiding trajectories are typically sampled from the Husimi density. Here, we employ this propagator to evolve the wavefunction itself. We investigate two grid-free strategies for the initial sampling of the Herman-Kluk propagator applied to the wavefunction and validate the resulting time-dependent wavefunctions evolved in harmonic and anharmonic potentials. In particular, we consider Monte Carlo quadratures based either on the initial Husimi density or on its square root as possible and most natural sampling densities. We prove analytical convergence error estimates and validate them with numerical experiments on the harmonic oscillator and on a series of Morse potentials with increasing anharmonicity. In all cases, sampling from the square root of Husimi density leads to faster convergence of the wavefunction.
翻訳日:2023-01-18 22:51:55 公開日:2022-11-24
# 帯電超長距離リングバーグトリマー

Charged ultralong-range Rydberg trimers ( http://arxiv.org/abs/2211.13643v1 )

ライセンス: Link先を確認
Daniel Bosworth, Frederic Hummel and Peter Schmelcher(参考訳) 我々は、最近観測された長距離イオン-リドバーグ分子のクラスを2つの状態の族に分けることができ、これは、量子欠陥スプリットRydberg $n$P状態のイオン誘起の混合から生じる、それぞれの電子構造によって特徴づけられる。 どちらの場合においても、これらの二原子分子状態は、Rydberg電子の軌道内にある追加の基底状態原子と結合し、通常の非極性ULRMと似た結合エネルギーを持つ荷電超長距離Rydberg分子(ULRM)を形成することができる。 これを実証するために、単一の基底状態原子とイオンと相互作用するライドバーグ原子を考える。 追加の原子は系の円筒対称性を破り、そうでなければ分離される状態が混合される。 電子構造は, 有限次元の正確な対角化を用いて得られ, マルチ構成時間依存ハートリー法を用いて振動構造を決定する。 電子密度のローブ様構造のため、3つの核の線形および非線形幾何学的な配置を持つ有界トリマーが可能である。 予測されたトリマー結合エネルギーと励起系列は、現在の実験技術で観測できるイオン-リドベルク二量体と十分に異なる。

We show that the recently observed class of long-range ion-Rydberg molecules can be divided into two families of states, which are characterised by their unique electronic structures resulting from the ion-induced admixture of quantum defect-split Rydberg $n$P states with different low-field seeking high-$l$ states. We predict that in both cases these diatomic molecular states can bind additional ground state atoms lying within the orbit of the Rydberg electron, thereby forming charged ultralong-range Rydberg molecules (ULRM) with binding energies similar to that of conventional non-polar ULRM. To demonstrate this, we consider a Rydberg atom interacting with a single ground state atom and an ion. The additional atom breaks the system's cylindrical symmetry, which leads to mixing between states that would otherwise be decoupled. The electronic structure is obtained using exact diagonalisation over a finite basis and the vibrational structure is determined using the Multi-Configuration Time-Dependent Hartree method. Due to the lobe-like structure of the electronic density, bound trimers with both linear and nonlinear geometrical configurations of the three nuclei are possible. The predicted trimer binding energies and excitation series are distinct enough from those of the ion-Rydberg dimer to be observed using current experimental techniques.
翻訳日:2023-01-18 22:51:38 公開日:2022-11-24
# Realigned Hardy's Paradox

Realigned Hardy's Paradox ( http://arxiv.org/abs/2211.13642v1 )

ライセンス: Link先を確認
Shuai Zhao, Qing Zhou, Si-Ran Zhao, Xin-Yu Xu, Wen-Zhao Liu, Li Li, Nai-Le Liu, Qiang Zhang, Jing-Ling Chen, Kai Chen(参考訳) ハーディのパラドックスは、量子力学が局所現実理論によって完全に説明できないことを直接証明するために、全対無の方法を提供する。 しかしながら、不完全な絡み合い源や検出効率の低さのような実験における潜在的な欠陥を考慮すると、オリジナルのハーディのパラドックスは比較的小さなハーディ違反を引き起こし、高価な量子システムによってのみ実現される。 この問題を克服するために、我々はハーディのパラドックスを再構成する。 ハーディのパラドックスの原版と比較すると、ハーディのパラドックスはハーディの違反を劇的に改善することができる。 次に、再構成されたハーディのパラドックスを任意の$n$二コトミック測定に一般化する。 n=2$ と $n=4$ の場合、ハーディのパラドックスはハーディ値 $p(00|a_1b_1)$ をそれぞれ 0.4140$ と $0.7734$ を、ハーディのパラドックスの$0.09$ と比較することができる。 一方、再構成されたハーディのパラドックスの構造は、3つの条件ではなく1つのハーディ条件が存在するという意味でより単純でより堅牢である。 ハーディのパラドックスはより実験的な不完全性を許容し、より魅力的な量子情報応用を刺激することができると予測できる。

Hardy's paradox provides an all-versus-nothing fashion to directly certify that quantum mechanics cannot be completely described by local realistic theory. However, when considering potential imperfections in experiments, like imperfect entanglement source and low detection efficiency, the original Hardy's paradox may induce a rather small Hardy violation and only be realized by expensive quantum systems. To overcome this problem, we propose a realigned Hardy's paradox. Compared with the original version of Hardy's paradox, the realigned Hardy's paradox can dramatically improve the Hardy violation. Then, we generalize the realigned Hardy's paradox to arbitrary even $n$ dichotomic measurements. For $n=2$ and $n=4$ cases, the realigned Hardy's paradox can achieve Hardy values $P(00|A_1B_1)$ approximate $0.4140$ and $0.7734$ respectively compared with $0.09$ of the original Hardy's paradox. Meanwhile, the structure of the realigned Hardy's paradox is simpler and more robust in the sense that there is only one Hardy condition rather than three conditions. One can anticipate that the realigned Hardy's paradox can tolerate more experimental imperfections and stimulate more fascinating quantum information applications.
翻訳日:2023-01-18 22:51:14 公開日:2022-11-24
# 結合マイクロキャビティアレイにおけるマルチパートエンタングルメント生成

Multipartite entanglement generation in coupled microcavity arrays ( http://arxiv.org/abs/2211.13639v1 )

ライセンス: Link先を確認
Marc Bostelmann, Steffen Wilksen, Frederik Lohof, Christopher Gies(参考訳) 光結合型マイクロキャビティにおける量子エミッタを用いたフォトニックアレイを、絡み合い生成のためのプラットフォームとして検討する。 これらは、サイト選択光学励起の可能性を伴って、大きなチューニング性を提供する。 コヒーレントポンプは、真空と絡み合ったターゲット状態の遷移を時間依存的に駆動し、定常状態における絡み合いを生じさせる量子バス工学的手法で行うと考えられている。 本研究では,励起パラメータの決定を,より大きな配列サイズと絡み合い状態の異なるクラスに一般化する数値スキームを示す。 この研究は、量子コンピューティングと量子機械学習における新しい量子フォトニクス応用におけるハードウェアプラットフォームとして結合キャビティアレイを使用するためのステップである。

We consider photonic arrays made from quantum emitters in optically coupled microcavities as a platform for entanglement generation. These offer a large degree of tunability with the possibility of site-selective optical excitation. Coherent pumping is considered to drive transitions between vacuum and entangled target states both in a time-dependent manner, and in a quantum bath engineering approach to create entanglement in the steady-state. We demonstrate a numerical scheme that allows to generalize the determination of excitation parameters to larger array sizes and different classes of entangled states. This study is a step towards using coupled cavity arrays as a hardware platform in novel quantum-photonic applications in quantum computing and quantum machine learning.
翻訳日:2023-01-18 22:50:46 公開日:2022-11-24
# ダークマターの量子状態を測定する

Measuring the Quantum State of Dark Matter ( http://arxiv.org/abs/2211.13602v1 )

ライセンス: Link先を確認
David J. E. Marsh(参考訳) 私は、アクシオンのような超光ボソニック暗黒物質(dm)の探索から得られた時系列が、それがコヒーレントまたは非コヒーレント量子状態であるかどうかを判断するためにどのように用いられるかの簡単な例を示す。 この例は基本的には自明なものですが、明示的な対処が実験的な調査を引き起こすことを願っています。 標準コヒーレント状態では、数密度の振動はコヒーレンス時間、$m$は粒子質量、$v$は銀河のウイルス速度である$\mathcal{o}(1)$ はコヒーレンス時間、$\tau_c=h/m v^2$ で起こる。 一方、DMが不整合であれば、異なるストリームの粒子上でのアンサンブル平均は有効位相平均を与えるので、そのような強い振動は発生しない。 実験が信号を検出すると、コヒーレンス時間に関する時系列解析によってDMのコヒーレントまたは非コヒーレントの性質を決定することができる。 この発見は10^{-17}\text{ eV}\lesssim m\lesssim 10^{-11}\text{ eV}$(1年から100秒間のコヒーレンス時間に対応する)というDM質量に観察的に関係しており、CASPEr、DMRadio、AIONなどの実験で調べることができる。 コヒーレンスもマイクロ波系では高い質量で測定できるかもしれませんが、まだ探索していません。

I demonstrate a simple example of how the time series obtained from searches for ultralight bosonic dark matter (DM), such as the axion, can be used to determine whether it is in a coherent or incoherent quantum state. The example is essentially trivial, but I hope that explicitly addressing it provokes experimental exploration. In the standard coherent state, $\mathcal{O}(1)$ oscillations in the number density occur over the coherence time, $\tau_c=h/m v^2$, where $m$ is the particle mass and $v$ is the galactic virial velocity, leading to a reduction in the constraining power of experiments operating on timescales $T<\tau_c$, due to the unknown global phase. On the other hand if the DM is incoherent then no such strong number oscillations occur, since the ensemble average over particles in different streams gives an effective phase average. If an experiment detects a signal then the coherent or incoherent nature of DM can be determined by time series analysis over the coherence time. This finding is observationally relevant for DM masses, $10^{-17}\text{ eV}\lesssim m\lesssim 10^{-11}\text{ eV}$ (corresponding to coherence times between a year and 100 seconds), and can be explored by experiments including CASPEr, DMRadio, and AION. Coherence may also be measurable at higher masses in the microwave regime, but I have not explored it.
翻訳日:2023-01-18 22:50:35 公開日:2022-11-24
# 超伝導量子ビットにおける電離放射線源の特定

Disentangling the sources of ionizing radiation in superconducting qubits ( http://arxiv.org/abs/2211.13597v1 )

ライセンス: Link先を確認
L. Cardani and I. Colantoni and A. Cruciani and F. De Dominicis and G. D'Imperio and M. Laubenstein and A. Mariani and L. Pagnanini and S. Pirro and C. Tomei and N. Casali and F. Ferroni and D. Frolov and L. Gironi and A. Grassellino and M. Junker and C. Kopas and E. Lachman and C. R. H. McRae and J. Mutus and M. Nastasi and D. P. Pappas and R. Pilipenko and M. Sisti and V. Pettinacci and A. Romanenko and D. Van Zanten and M. Vignati and J. D. Withrow and N. Z. Zhelev(参考訳) 放射能は超伝導量子プロセッサの現実の実装におけるデコヒーレンスと相関誤差の源として最近発見された。 本研究では, 典型的な実験室環境(自然発生放射性同位体により放射されるミューオン, 中性子, ガンマの放射能レベル) と, 最先端超伝導量子ビットの組み立てと運用に最もよく用いられる材料について検討する。 我々は,上記の各ソースから量子ビットチップに放出される衝撃の速度とエネルギー量を予測するために,geant-4に基づくシミュレーションを開発した。 無線環境下での次世代量子ビットの運用に対する緩和策を提案する。

Radioactivity was recently discovered as a source of decoherence and correlated errors for the real-world implementation of superconducting quantum processors. In this work, we measure levels of radioactivity present in a typical laboratory environment (from muons, neutrons, and gamma's emitted by naturally occurring radioactive isotopes) and in the most commonly used materials for the assembly and operation of state-of-the-art superconducting qubits. We develop a GEANT-4 based simulation to predict the rate of impacts and the amount of energy released in a qubit chip from each of the mentioned sources. We finally propose mitigation strategies for the operation of next-generation qubits in a radio-pure environment.
翻訳日:2023-01-18 22:50:01 公開日:2022-11-24
# 小さなアクションのように、アクションの大きな価値には何か問題がありますか?

Are there any problem for large values of the action like there were for small ones ? ( http://arxiv.org/abs/2211.13593v1 )

ライセンス: Link先を確認
Ennio Gozzi(参考訳) 本稿では,数年前に提案された量子化法について述べる。 (314), 2005, 24) は、0 に近い作用の値の系を研究することと同値である。 本稿では, ダークエネルギーやダークマターを誘発する機構として, 動作が非常に大きくなった場合の挙動についても検討する。 驚くべきことに、この状態における振舞いは古典力学のものではなく、もちろん異なる定数を持つ量子力学のものと似ている。

In this paper we show that a method of quantization proposed few years ago (ann.of phys. (314),2005, 24) is equivalent to studying the system for values of the action close to zero. In this paper we also study the behaviour when the action gets very very large which could be the regime where dark energy and dark matter are invoked. Surprisingly the behaviour at this regime is not the one of classical mechanics but it resembles the one of quantum mechanics with of course different constants.
翻訳日:2023-01-18 22:49:33 公開日:2022-11-24
# ゲート配置の異なるランダム回路における純度減衰速度

Purity decay rate in random circuits with different configurations of gates ( http://arxiv.org/abs/2211.13565v1 )

ライセンス: Link先を確認
Ja\v{s} Bensa and Marko \v{Z}nidari\v{c}(参考訳) 直近近傍のランダムな2-サイトユニタリゲートの様々なジオメトリの作用の下で、純度崩壊(二部共役の絡み合いの尺度)を$n$ qubitsの連鎖で研究する。 我々は平均純度進化のマルコフ連鎖記述を使い、さらに還元して多項式次元のみの移動行列を$n$ で得る。 ほとんどの回路では、ブロックウォール構成である例外として、純度は2つの段階で漸近値に崩壊する: 最初の熱力学的に関連づけられた崩壊は、転送行列のスペクトルに必ずしも存在しないような$\sim \lambda_{\mathrm{eff}}^t$ であり、究極の漸近減衰は伝達行列の2番目に大きい固有値$\lambda_2$によって与えられる。 実効率$\lambda_{\mathrm{eff}}$は、二分割境界の位置と応用ゲートの幾何学に依存する。

We study purity decay -- a measure for bipartite entanglement -- in a chain of $n$ qubits under the action of various geometries of nearest-neighbor random 2-site unitary gates. We use a Markov chain description of average purity evolution, using further reduction to obtain a transfer matrix of only polynomial dimension in $n$. In most circuits, an exception being a brickwall configuration, purity decays to its asymptotic value in two stages: the initial thermodynamically relevant decay persisting up to extensive times is $\sim \lambda_{\mathrm{eff}}^t$ , with $\lambda_{\mathrm{eff}}$ not necessarily being in the spectrum of the transfer matrix, while the ultimate asymptotic decay is given by the second largest eigenvalue $\lambda_2$ of the transfer matrix. The effective rate $\lambda_{\mathrm{eff}}$ depends on the location of bipartition boundaries as well on the geometry of applied gates.
翻訳日:2023-01-18 22:49:18 公開日:2022-11-24
# 量子セキュアクラウドを用いたゲノムデータのセキュア二次利用システム

Secure secondary utilization system of genomic data using quantum secure cloud ( http://arxiv.org/abs/2211.16450v1 )

ライセンス: Link先を確認
Mikio Fujiwara, Hiroki Hashimoto, Kazuaki Doi, Mamiko Kujiraoka, Yoshimichi Tanizawa, Yusuke Ishida, Masahide Sasaki, and Masao Nagasaki(参考訳) データ所有者とデータアクセス制御の異なる複数のユーザによるデータのセカンダリ利用による大規模ゲノム解析のための高性能ワンストップシステムを開発した。

We developed a high-performance one-stop system for large-scale genome data analysis with secure secondary use of the data by the data owner and multiple users with different levels of data access control.
翻訳日:2023-01-18 22:41:49 公開日:2022-11-24
# 量子イメージングのための単一光子イベントカメラの特性化

Characterisation of a single photon event camera for quantum imaging ( http://arxiv.org/abs/2211.13788v1 )

ライセンス: Link先を確認
Victor Vidyapin, Yingwen Zhang, Duncan England, and Benjamin Sussman(参考訳) 本稿では,単一光子イベントカメラの1画素当たりの量子効率と時間分解能を量子イメージング応用のために特徴付ける,単純かつ効果的な手法を提案する。 自発パラメトリックダウンコンバージョンによって生成された光子対を用いて,各画素の検出効率と時間分解能を一致測定により抽出する。 本研究では,TPX3CAMを付加画像強調器で評価し,平均効率7.4%,時間分解能7.3nsを測定した。 さらに,この手法は後処理で発生する重要なエラー機構を明らかにする。 我々は、この技術とその要素が、他の量子イメージングシステムの特徴付けに役立つと期待している。

We show a simple yet effective method that can be used to characterize the per pixel quantum efficiency and temporal resolution of a single photon event camera for quantum imaging applications. Utilizing photon pairs generated through spontaneous parametric down-conversion, the detection efficiency of each pixel, and the temporal resolution of the system, are extracted through coincidence measurements. We use this method to evaluate the TPX3CAM, with appended image intensifier, and measure an average efficiency of 7.4% and a temporal resolution of 7.3ns. Furthermore, this technique reveals important error mechanisms that can occur in post-processing. We expect that this technique, and elements therein, will be useful to characterise other quantum imaging systems.
翻訳日:2023-01-18 22:41:43 公開日:2022-11-24
# 欠陥フォノン相互作用による非マルコビアン性

Engineering non-Markovianity from defect-phonon interactions ( http://arxiv.org/abs/2211.13782v1 )

ライセンス: Link先を確認
Francisco J. Gonz\'alez, Diego Tancara, Hossein T. Dinani, Ra\'ul Coto, and Ariel Norambuena(参考訳) 固体デバイスにおける欠陥フォノン相互作用を理解することは、量子プラットフォームに関する現在の知識を改善するために不可欠である。 本研究では, 1次元格子におけるフォノンモードと相互作用する2つのスピン=1/2$粒子からなる欠陥に対する第一原理計算を開発する。 我々は双極子磁気相互作用から始まるボトムアップアプローチに従い、最終的にスペクトル密度関数と欠陥の開力学を記述する時間-局所マスター方程式を導出する。 ベルベースに作用する純粋なデファスメントチャネルによって引き起こされる欠陥・フォノンダイナミクスの非マルコフ的特徴の理論的および数値解析を行う。 最後に、正準速度とコヒーレンスに基づく2つの非マルコフ性の測定を行い、スペクトル密度関数と温度の役割により多くの光を当て、実験的な実現を想定する。

Understanding defect-phonon interactions in solid-state devices is crucial for improving our current knowledge of quantum platforms. In this work, we develop first-principles calculations for a defect composed of two spin-$1/2$ particles that interact with phonon modes in a one-dimensional lattice. We follow a bottom-up approach that begins with a dipolar magnetic interaction to ultimately derive the spectral density function and time-local master equation that describes the open dynamics of the defect. We provide theoretical and numerical analysis for the non-Markovian features of the defect-phonon dynamics induced by a pure dephasing channel acting on the Bell basis. Finally, we analyze two measures of non-Markovianity based on the canonical rates and Coherence, shedding more light on the role of the spectral density function and temperature; and envisioning experimental realizations.
翻訳日:2023-01-18 22:41:33 公開日:2022-11-24
# 最大カット近似のためのモンテカルロ法シミュレーションにおける量子逆学習:QAOAは最適ではない

Quantum Adversarial Learning in Emulation of Monte-Carlo Methods for Max-cut Approximation: QAOA is not optimal ( http://arxiv.org/abs/2211.13767v1 )

ライセンス: Link先を確認
Cem M. Unsal, Lucas T. Brady(参考訳) 短期量子アドバンテージの有力な候補の一つは変分量子アルゴリズムのクラスであるが、これらのアルゴリズムはパラメータの数が増えるにつれて変分パラメータを最適化する古典的な難しさに苦しむ。 したがって、様々なans\"atzeの表現可能性とパワーを理解して、ターゲット状態と分布を生成することが重要である。 この目的のために、変分量子アニーリングと量子近似最適化アルゴリズム(QAOA)にエミュレーションの概念を適用し、等価数のパラメータを持つ変分アニーリングスケジュールによりQAOAが優れていたことを示す。 我々の変分量子アニーリングスケジュールは、同じ物理成分を用いてQAOAと同様の勾配のない方法で最適化できる新しい多項式パラメータ化に基づいている。 ans\atze型の性能を比較するために,モンテカルロ法による統計的概念を開発した。 モンテカルロ法 (Monte-Carlo method) は、計算が難しいターゲット数に近似した確率変数を生成するコンピュータプログラムである。 最もよく知られたモンテカルロ法はモンテカルロ積分(例えば、拡散モンテカルロや経路積分量子モンテカルロ)であるが、QAOA はモンテカルロ法であり、マックスカットのようなNP完全問題に対する優れた解を求める。 これらの統計モンテカルロ概念を量子アルゴリズムに関する理論的枠組みをさらに解明するために応用する。

One of the leading candidates for near-term quantum advantage is the class of Variational Quantum Algorithms, but these algorithms suffer from classical difficulty in optimizing the variational parameters as the number of parameters increases. Therefore, it is important to understand the expressibility and power of various ans\"atze to produce target states and distributions. To this end, we apply notions of emulation to Variational Quantum Annealing and the Quantum Approximate Optimization Algorithm (QAOA) to show that QAOA is outperformed by variational annealing schedules with equivalent numbers of parameters. Our Variational Quantum Annealing schedule is based on a novel polynomial parameterization that can be optimized in a similar gradient-free way as QAOA, using the same physical ingredients. In order to compare the performance of ans\"atze types, we have developed statistical notions of Monte-Carlo methods. Monte-Carlo methods are computer programs that generate random variables that approximate a target number that is computationally hard to calculate exactly. While the most well-known Monte-Carlo method is Monte-Carlo integration (e.g. Diffusion Monte-Carlo or path-integral quantum Monte-Carlo), QAOA is itself a Monte-Carlo method that finds good solutions to NP-complete problems such as Max-cut. We apply these statistical Monte-Carlo notions to further elucidate the theoretical framework around these quantum algorithms.
翻訳日:2023-01-18 22:41:21 公開日:2022-11-24
# マグネメカニクスを回避した動的バックアクション

Dynamical Backaction Evading Magnomechanics ( http://arxiv.org/abs/2211.13766v1 )

ライセンス: Link先を確認
C. A. Potts, Y. Huang, V. A. S. V Bittencourt, S. Viola Kusminskiy, J. P. Davis(参考訳) マグノンと機械振動の相互作用は、機械振動子の周波数や減衰速度などの特性を動的に変化させる。 動的バックアクション(Dynamical backaction)として知られるこの効果は、絡み合い発生や機械的基底状態冷却などの多くの理論的プロトコルの基礎となっている。 しかし、動的バックアクションは特定の用途にも有害である。 本稿では,動的バックアクション効果を完全に回避するキャビティマグノメカニカル計測の実装を示す。 注意深いエンジニアリングにより、ハイブリッドマグノン光子モードへのマグノメカニカル散乱速度は正確に一致し、動的バックアクション減衰を排除できる。 駆動力非依存の機械的線幅の測定により、バックアクション回避が確認される。

The interaction between magnons and mechanical vibrations dynamically modify the properties of the mechanical oscillator, such as its frequency and decay rate. Known as dynamical backaction, this effect is the basis for many theoretical protocols, such as entanglement generation or mechanical ground-state cooling. However, dynamical backaction is also detrimental for specific applications. Here, we demonstrate the implementation of a cavity magnomechanical measurement that fully evades dynamical backaction effects. Through careful engineering, the magnomechanical scattering rate into the hybrid magnon-photon modes can be precisely matched, eliminating dynamical backaction damping. Backaction evasion is confirmed via the measurement of a drive-power-independent mechanical linewidth.
翻訳日:2023-01-18 22:40:54 公開日:2022-11-24
# 変分量子アルゴリズムの暗黙的微分

Implicit differentiation of variational quantum algorithms ( http://arxiv.org/abs/2211.13765v1 )

ライセンス: Link先を確認
Shahnawaz Ahmed, Nathan Killoran, Juan Felipe Carrasquilla \'Alvarez(参考訳) 凝縮物質物理学、量子情報、量子化学において重要な数量、および機械学習アルゴリズムのメタ最適化に必要な数量は、系を特徴づけるパラメータの暗黙的に定義された関数の勾配として表現することができる。 本稿では,変分量子アルゴリズムによる勾配計算における暗黙的微分の活用法を示し,凝縮物質物理学,量子機械学習,量子情報への応用について検討する。 量子アルゴリズムの解として暗黙的に定義される関数、例えば変分的に得られる基底あるいは定常状態は、解の計算方法によらず、暗黙的な微分を用いて自動的に微分することができる。 この概念を、変分量子アルゴリズムによって研究された一般感受性などの凝縮物物理学における物理量の評価に適用する。 さらに,量子機械学習アルゴリズムにおけるハイパーパラメータ最適化と,幾何学的エンタングルメント尺度の勾配に基づく最大化に基づく量子状態の変動構成という,暗黙的微分の2つの応用を開発した。 本研究は,複雑な解析的導出や近似有限差分法を使わずに,変分量子回路を用いて一般に計算できる数種類の勾配計算を結びつけたものである。

Several quantities important in condensed matter physics, quantum information, and quantum chemistry, as well as quantities required in meta-optimization of machine learning algorithms, can be expressed as gradients of implicitly defined functions of the parameters characterizing the system. Here, we show how to leverage implicit differentiation for gradient computation through variational quantum algorithms and explore applications in condensed matter physics, quantum machine learning, and quantum information. A function defined implicitly as the solution of a quantum algorithm, e.g., a variationally obtained ground- or steady-state, can be automatically differentiated using implicit differentiation while being agnostic to how the solution is computed. We apply this notion to the evaluation of physical quantities in condensed matter physics such as generalized susceptibilities studied through a variational quantum algorithm. Moreover, we develop two additional applications of implicit differentiation -- hyperparameter optimization in a quantum machine learning algorithm, and the variational construction of entangled quantum states based on a gradient-based maximization of a geometric measure of entanglement. Our work ties together several types of gradient calculations that can be computed using variational quantum circuits in a general way without relying on tedious analytic derivations, or approximate finite-difference methods.
翻訳日:2023-01-18 22:40:43 公開日:2022-11-24
# シングルトテスト方式の比較

Comparing Singlet Testing Schemes ( http://arxiv.org/abs/2211.13750v1 )

ライセンス: Link先を確認
George Cowperthwaite, Adrian Kent(参考訳) 2ビットのシングルレット状態を共有するかどうかをテストするためのスキームを比較する。 最初の標準的なスキームテストでは、ブラウンシュタイン・ケーブズ(あるいはCHSH)の不等式が、固定有限集合から引き出された局所測定と一重項の量子予測との相関を比較する。 第2のオルタナティブなスキームは、局所的な測定値の相関をテストし、量子予測に対してブロック球面上で$\theta$-separateの値の集合からランダムに引き出す。 各スキームを仮説テストとして定式化し,一重項量子ビットを交換または置換する盗聴者を含む多くの敵対的シナリオでテストパワーを評価する。 ランダム測定'テストは、ほとんどの自然なシナリオで優れていることが分かりました。

We compare schemes for testing whether two parties share a two-qubit singlet state. The first, standard, scheme tests Braunstein-Caves (or CHSH) inequalities, comparing the correlations of local measurements drawn from a fixed finite set against the quantum predictions for a singlet. The second, alternative, scheme tests the correlations of local measurements, drawn randomly from the set of those that are $\theta$-separated on the Bloch sphere, against the quantum predictions. We formulate each scheme as a hypothesis test and then evaluate the test power in a number of adversarial scenarios involving an eavesdropper altering or replacing the singlet qubits. We find the `random measurement' test to be superior in most natural scenarios.
翻訳日:2023-01-18 22:40:23 公開日:2022-11-24
# medusaの道を切り離す -- 量子コンピューティングでキルチェーンに取り組む

Cutting Medusa's Path -- Tackling Kill-Chains with Quantum Computing ( http://arxiv.org/abs/2211.13740v1 )

ライセンス: Link先を確認
Mark Carney(参考訳) 本稿では,量子脆弱性分析の探索に着目する。 攻撃グラフに関連する脆弱性グラフを導入することにより、量子コンピューティングで重要なサイバーセキュリティ問題を解決するための背景理論とその後の方法を提供する。 例えば、QUBOでネットワーク上のさまざまな脆弱性の接続を表現し、量子アニーリングでこれを解決することで、パッチを優先順位付けする。 このようなソリューションは、ネットワーク上のすべてのキルチェーン(セキュリティ妥協へのパス)を削除することが証明される。 その結果, 量子コンピュータの解解時間はほぼ一定であり, 期待される実世界密度の脆弱性グラフに対する古典解時間の指数関数的増加と比較できることがわかった。 そこで本研究では,量子脆弱性解析の新たな例を示す。

This paper embarks upon exploration of quantum vulnerability analysis. By introducing vulnerability graphs, related to attack graphs, this paper provides background theory and a subsequent method for solving significant cybersecurity problems with quantum computing. The example given is to prioritize patches by expressing the connectivity of various vulnerabilities on a network with a QUBO and then solving this with quantum annealing. Such a solution is then proved to remove all kill-chains (paths to security compromise) on a network. The results demonstrate that the quantum computer's solve time is almost constant compared to the exponential increase in classical solve time for vulnerability graphs of expected real world density. As such, this paper presents a novel example of advantageous quantum vulnerability analysis.
翻訳日:2023-01-18 22:40:11 公開日:2022-11-24
# ランダム不変量子状態の絡み合い特性

Entanglement properties of random invariant quantum states ( http://arxiv.org/abs/2211.13722v1 )

ライセンス: Link先を確認
Wei Xie, Weijing Li(参考訳) 大域SU($d$)作用下で不変なランダム多部量子状態の絡み合い特性について検討した。 ランダム状態は SU($d$) の既約表現のテンソルパワーに存在する。 ランダム不変状態と近不変状態の2次R'enyiエンタングルメント測度の高次元での予測と変動を計算し、解析し、ランダム状態が示す測度集中現象を明らかにする。 確率の高い場合、ランダムSU($d$)-不変状態は、個々の系の次元が無限大になるにつれて、任意の二部切断に対して極大に絡み合っていることを示す。 また, ランダム su(2)-不変状態の一般的な絡み合い特性は, 任意に有限な乱れにロバストであることを示した。

Entanglement properties of random multipartite quantum states which are invariant under global SU($d$) action are investigated. The random states live in the tensor power of an irreducible representation of SU($d$). We calculate and analyze the expectation and fluctuation of the second-order R\'enyi entanglement measure of the random invariant and near-invariant states in high dimension, and reveal the phenomenon of concentration of measure the random states exhibit. We show that with high probability a random SU($d$)-invariant state is close to being maximally entangled with respect to any bipartite cut as the dimension of individual system goes to infinity. We also show that this generic entanglement property of random SU(2)-invariant state is robust to arbitrarily finite disturbation.
翻訳日:2023-01-18 22:40:00 公開日:2022-11-24
# エルミート臨界から非エルミート点ガッピング相へ

From Hermitian critical to non-Hermitian point-gapped phases ( http://arxiv.org/abs/2211.13721v1 )

ライセンス: Link先を確認
Carlos Ortega-Taberner and Maria Hermanns(参考訳) 近年、ギャップ化された孤立したシステムの標準パラダイムを超えた位相相への関心が高まっている。 最近の方向の一つは、オープンシステムの効果的な記述として一般的に使用される非エルミート系における位相的特徴を探求することである。 別の方向は、バルクギャップが崩壊する臨界点におけるトポロジーの運命を探求する。 興味深い観察の一つは、どちらの系も非常に異なるが、ある位相的特徴を共有することである。 例えば、両方の系は半整数量子化された巻数を持ち、非常に似た絡み合いスペクトルを持つ。 ここで、この類似性を非エルミートな点ギャップ位相を持つ臨界系における位相不変量の同値性(sublattice symmetry)の存在下で明らかにする。 この対応は、トポロジカル不変量以外の他の特徴に受け継がれ、臨界系についての知識を用いて非エルミート系の理解を深めるのに役立つかもしれない。

Recent years have seen a growing interest in topological phases beyond the standard paradigm of gapped, isolated systems. One recent direction is to explore topological features in non-hermitian systems that are commonly used as effective descriptions of open systems. Another direction explores the fate of topology at critical points, where the bulk gap collapses. One interesting observation is that both systems, though very different, share certain topological features. For instance, both systems can host half-integer quantized winding numbers and have very similar entanglement spectra. Here, we make this similarity explicit by showing the equivalence of topological invariants in critical systems with non-hermitian point-gap phases, in the presence of sublattice symmetry. This correspondence may carry over to other features beyond topological invariants, and may even be helpful to deepen our understanding of non-hermitian systems using our knowledge of critical systems, and vice versa.
翻訳日:2023-01-18 22:39:45 公開日:2022-11-24
# 深層学習による縦隔リンパ節の検出と分節

Mediastinal Lymph Node Detection and Segmentation Using Deep Learning ( http://arxiv.org/abs/2212.11956v1 )

ライセンス: Link先を確認
Al-Akhir Nayan, Boonserm Kijsirikul, Yuji Iwahori(参考訳) 癌ステージングにおけるリンパ節自動区分けと検出が重要である。 臨床的にはCT(Computed tomography)とPET(positron emission tomography)が異常なLNを検出する。 低コントラストと鼻径と形状の多様性にもかかわらず、LNセグメンテーションは難しい課題である。 深層畳み込みニューラルネットワークは、しばしば医療写真でアイテムをセグメンテーションする。 ほとんどの最先端技術は、プールと畳み込みによって画像の解像度を破壊する。 その結果、モデルは不満足な結果をもたらす。 課題を念頭に置いて,両線形補間と全一般化変動(TGV)を用いた縦隔リンパ節の分節と検出のためのアップサンプリング戦略を用いて,確立された深層学習手法UNetを改良した。 修正unetはテクスチャの不連続性を維持し、ノイズ領域を選択し、バックプロパゲーションを通じて適切なバランスポイントを検索し、解像度を再現する。 TCIA、5人の患者、ELCAPの公開データセットからCT画像データを収集し、経験豊富な医療専門家の助けを借りてデータセットを作成した。 UNetはこれらのデータセットを使用してトレーニングされ、3つの異なるデータ組み合わせがテストに使用された。 提案手法を利用して、このモデルは94.8%の精度、91.9%のjaccard、94.1%のリコール、93.1%の精度を達成した。 パフォーマンスは異なるデータセットで測定され、最先端のアプローチと比較された。 ハイブリダイゼーション戦略を持つunet++モデルは、他のモデルよりも優れていた。

Automatic lymph node (LN) segmentation and detection for cancer staging are critical. In clinical practice, computed tomography (CT) and positron emission tomography (PET) imaging detect abnormal LNs. Despite its low contrast and variety in nodal size and form, LN segmentation remains a challenging task. Deep convolutional neural networks frequently segment items in medical photographs. Most state-of-the-art techniques destroy image's resolution through pooling and convolution. As a result, the models provide unsatisfactory results. Keeping the issues in mind, a well-established deep learning technique UNet was modified using bilinear interpolation and total generalized variation (TGV) based upsampling strategy to segment and detect mediastinal lymph nodes. The modified UNet maintains texture discontinuities, selects noisy areas, searches appropriate balance points through backpropagation, and recreates image resolution. Collecting CT image data from TCIA, 5-patients, and ELCAP public dataset, a dataset was prepared with the help of experienced medical experts. The UNet was trained using those datasets, and three different data combinations were utilized for testing. Utilizing the proposed approach, the model achieved 94.8% accuracy, 91.9% Jaccard, 94.1% recall, and 93.1% precision on COMBO_3. The performance was measured on different datasets and compared with state-of-the-art approaches. The UNet++ model with hybridized strategy performed better than others.
翻訳日:2022-12-25 03:19:25 公開日:2022-11-24
# 自然言語処理を用いた歴史的アーティファクトの衣装コア語彙の予測

Using Natural Language Processing to Predict Costume Core Vocabulary of Historical Artifacts ( http://arxiv.org/abs/2212.07931v1 )

ライセンス: Link先を確認
Madhuvanti Muralikrishnan, Amr Hilal, Chreston Miller and Dina Smith-Glaviana(参考訳) 歴史的ドレスアーティファクトは人間の研究にとって貴重な情報源である。 特に、彼らの時代の社会的側面について重要な洞察を与えることができる。 これらの洞察は一般的に衣服の絵やそれに伴う記述から引き出され、通常、コスチュームコア語彙と呼ばれる衣服や衣装を正確に記述した標準化された制御された語彙に格納される。 衣料品が寄進されることも多いため、衣料品の記述から正確な衣料品コアを構築することは困難であり、それに付随する記述は訓練されていない個人に基づいて、アイテムの期間に共通する言語を用いることができる。 本稿では,NLP(Natural Language Processing)を用いて,歴史項目の自由形式のテキスト記述を,コスチュームコアが提供する制御語彙にマッピングする手法を提案する。 限られたデータセットにもかかわらず、Universal Sentence Encoderに基づいてNLPモデルをトレーニングし、Cosume Core語彙のサブセットに対して90%以上の精度でこのマッピングを実行しました。 提案手法,設計選択,アプローチの開発について述べるとともに,着目しない記述に対して衣装コアを予測する可能性を示す。 トレーニングに使用するために、より多くの衣服記述がいまだにキュレートされているため、より高い精度で一般化が期待できる。

Historic dress artifacts are a valuable source for human studies. In particular, they can provide important insights into the social aspects of their corresponding era. These insights are commonly drawn from garment pictures as well as the accompanying descriptions and are usually stored in a standardized and controlled vocabulary that accurately describes garments and costume items, called the Costume Core Vocabulary. Building an accurate Costume Core from garment descriptions can be challenging because the historic garment items are often donated, and the accompanying descriptions can be based on untrained individuals and use a language common to the period of the items. In this paper, we present an approach to use Natural Language Processing (NLP) to map the free-form text descriptions of the historic items to that of the controlled vocabulary provided by the Costume Core. Despite the limited dataset, we were able to train an NLP model based on the Universal Sentence Encoder to perform this mapping with more than 90% test accuracy for a subset of the Costume Core vocabulary. We describe our methodology, design choices, and development of our approach, and show the feasibility of predicting the Costume Core for unseen descriptions. With more garment descriptions still being curated to be used for training, we expect to have higher accuracy for better generalizability.
翻訳日:2022-12-18 18:58:02 公開日:2022-11-24
# 交通シーングラフを用いた関係に基づく動き予測

Relation-based Motion Prediction using Traffic Scene Graphs ( http://arxiv.org/abs/2212.02503v1 )

ライセンス: Link先を確認
Maximilian Zipfl, Felix Hertlein, Achim Rettinger, Steffen Thoma, Lavdim Halilaj, Juergen Luettin, Stefan Schmid, Cory Henson(参考訳) 交通現場の関連情報を表現し,その環境を理解することは,自動運転の成功に不可欠である。 セマンティックリレーション(セマンティックリレーション)を用いた自律走行車周囲のモデリング,すなわち,交通ルールに基づく行動の文脈における交通参加者の関連性について,これまでの研究ではほとんど考慮されていない。 これは、現実世界の交通シーンからこれらの関係を引き出すのが難しいという事実に由来する。 本研究では,アクセラレーションや減速など,交通参加者に関する様々な予測を行うために,交通シーンを空間意味シーングラフの形式でモデル化する。 学習と推論のアプローチでは,グラフニューラルネットワーク(gnns)を用いて,トラヒック参加者間の空間的意味関係に関する明示的な情報を取り込むことで予測結果が向上することを示す。 具体的には、この明示的な情報を活用しないベースラインと比較して、トラフィック参加者の加速度予測を最大12%改善する。 さらに,過去のシーンに関する追加情報を含めることで,73%の改善を達成している。

Representing relevant information of a traffic scene and understanding its environment is crucial for the success of autonomous driving. Modeling the surrounding of an autonomous car using semantic relations, i.e., how different traffic participants relate in the context of traffic rule based behaviors, is hardly been considered in previous work. This stems from the fact that these relations are hard to extract from real-world traffic scenes. In this work, we model traffic scenes in a form of spatial semantic scene graphs for various different predictions about the traffic participants, e.g., acceleration and deceleration. Our learning and inference approach uses Graph Neural Networks (GNNs) and shows that incorporating explicit information about the spatial semantic relations between traffic participants improves the predicdtion results. Specifically, the acceleration prediction of traffic participants is improved by up to 12% compared to the baselines, which do not exploit this explicit information. Furthermore, by including additional information about previous scenes, we achieve 73% improvements.
翻訳日:2022-12-11 13:02:37 公開日:2022-11-24
# データ不足に対する物理誘導深層学習

Physics-guided deep learning for data scarcity ( http://arxiv.org/abs/2211.15664v1 )

ライセンス: Link先を確認
Jinshuai Bai, Laith Alzubaidi, Qingxia Wang, Ellen Kuhl, Mohammed Bennamoun, Yuantong Gu(参考訳) データはディープラーニング(DL)の中核であり、データの質はDLモデルの性能に大きく影響する。 しかし, 構造的リスク推定や診断など, DLの現実的な利用を阻害する重要な障壁となる多くのアプリケーションにおいて, 高品質で良質なデータベースを入手することは困難あるいは不可能である。 物理誘導ディープラーニング(PGDL)は、ニューラルネットワークのトレーニングに物理法則を統合する新しいタイプのDLである。 力学、ファイナンス、医療応用などの物理法則によって制御され、管理されるあらゆるシステムに使用することができる。 物理法則によって提供される追加情報により、PGDLはデータ不足に直面した際の精度と一般化を実現することが示されている。 本稿では, PGDLの詳細を明らかにし, 物理, 工学, 医学など, 様々な応用におけるデータ不足に関するPGDLの構造的概要について述べる。 また、データ不足の観点から現在のPGDLの限界と機会を特定し、PGDLの将来展望を深く論じる。

Data are the core of deep learning (DL), and the quality of data significantly affects the performance of DL models. However, high-quality and well-annotated databases are hard or even impossible to acquire for use in many applications, such as structural risk estimation and medical diagnosis, which is an essential barrier that blocks the applications of DL in real life. Physics-guided deep learning (PGDL) is a novel type of DL that can integrate physics laws to train neural networks. It can be used for any systems that are controlled or governed by physics laws, such as mechanics, finance and medical applications. It has been shown that, with the additional information provided by physics laws, PGDL achieves great accuracy and generalisation when facing data scarcity. In this review, the details of PGDL are elucidated, and a structured overview of PGDL with respect to data scarcity in various applications is presented, including physics, engineering and medical applications. Moreover, the limitations and opportunities for current PGDL in terms of data scarcity are identified, and the future outlook for PGDL is discussed in depth.
翻訳日:2022-12-04 14:16:58 公開日:2022-11-24
# 脳波データ拡張のための目標中心主題伝達フレームワーク

Target-centered Subject Transfer Framework for EEG Data Augmentation ( http://arxiv.org/abs/2212.00723v1 )

ライセンス: Link先を確認
Kang Yin, Byeong-Hoo Lee, Byoung-Hee Kwon, Jeong-Hyun Cho(参考訳) データ拡張手法は脳波信号の復号化のために広く研究されている。 被写体非依存の脳-コンピュータインタフェースシステムでは、ドメイン適応と一般化を用いて、対象対象を拡張として一致するように、音源データ分布をシフトさせる。 しかし、以前の研究はノイズ(例えばノイズの追加やランダムノイズの生成)を導入するか、ターゲットデータを変更するかのいずれかであり、ターゲットデータの分布をうまく表現できず、さらなる分析を妨げている。 本稿では,データ拡張手法としてターゲット中心のオブジェクト転送フレームワークを提案する。 ソースデータのサブセットが最初に構築され、ソース・ターゲット関連性を最大化する。 次に、生成モデルを適用して、データを対象領域に転送する。 提案フレームワークは,ノイズではなく,付加的な実データを追加することで,対象ドメインの説明可能性を高める。 他のデータ拡張手法に比べて優れたパフォーマンスを示す。 今後の研究に有効なツールとしての有効性と堅牢性を検証するため,広範な実験を行った。

Data augmentation approaches are widely explored for the enhancement of decoding electroencephalogram signals. In subject-independent brain-computer interface system, domain adaption and generalization are utilized to shift source subjects' data distribution to match the target subject as an augmentation. However, previous works either introduce noises (e.g., by noise addition or generation with random noises) or modify target data, thus, cannot well depict the target data distribution and hinder further analysis. In this paper, we propose a target-centered subject transfer framework as a data augmentation approach. A subset of source data is first constructed to maximize the source-target relevance. Then, the generative model is applied to transfer the data to target domain. The proposed framework enriches the explainability of target domain by adding extra real data, instead of noises. It shows superior performance compared with other data augmentation methods. Extensive experiments are conducted to verify the effectiveness and robustness of our approach as a prosperous tool for further research.
翻訳日:2022-12-04 14:16:09 公開日:2022-11-24
# DBA:動的バイリニア低ランクアテンションを有する高効率変圧器

DBA: Efficient Transformer with Dynamic Bilinear Low-Rank Attention ( http://arxiv.org/abs/2211.16368v1 )

ライセンス: Link先を確認
Bosheng Qin, Juncheng Li, Siliang Tang, Yueting Zhuang(参考訳) トランスフォーマーの効率を2次から線形に向上するために多くの研究がなされている。 その中でも低ランク法は,投影行列を学習して列長を圧縮することを目的としている。 しかし、射影行列は一度学習すると固定され、同じ位置にあるトークンに対して専用の係数で列長を圧縮する。 このような入力不変射影の採用は、シーケンスの最も有益な部分がシーケンスごとに異なるという事実を無視し、したがって、様々な位置にある最も有用な情報を保存できない。 さらに、従来の効率的なトランスフォーマーは、隠れ状態次元の影響を無視しながら、シーケンス長の影響にのみ焦点をあてる。 以上の問題に対処するため,入力感度の動的プロジェクション行列によってシーケンス長を圧縮し,最先端性能を維持しつつシーケンス長と隠れ状態次元を協調的に最適化し,線形時間と空間の複雑さを実現する動的双線形低ランク注意機構(DBA)を提案する。 具体的には, 入力列によって動的に決定される圧縮行列を用いて, 新たな情報理論の観点から, シーケンス長を非破壊的に圧縮できることを示す。 さらに、ジョンソン-リンデンシュトラウス補題を拡張し、双線型形式の注意を最適化することで、隠れ状態次元を近似できることを示す。 理論的解析により、DBAはクロスアテンション問題における高次関係を捉えるのに熟練していることが示された。 様々なシーケンス長条件のタスクに対する実験により、DBAは、より高速なメモリ消費を抑えながら、様々な強力なベースラインと比較して最先端のパフォーマンスを達成することが示された。

Many studies have been conducted to improve the efficiency of Transformer from quadric to linear. Among them, the low-rank-based methods aim to learn the projection matrices to compress the sequence length. However, the projection matrices are fixed once they have been learned, which compress sequence length with dedicated coefficients for tokens in the same position. Adopting such input-invariant projections ignores the fact that the most informative part of a sequence varies from sequence to sequence, thus failing to preserve the most useful information that lies in varied positions. In addition, previous efficient Transformers only focus on the influence of sequence length while neglecting the effect of hidden state dimension. To address the aforementioned problems, we present an efficient yet effective attention mechanism, namely the Dynamic Bilinear Low-Rank Attention (DBA), which compresses the sequence length by input-sensitive dynamic projection matrices and achieves linear time and space complexity by jointly optimizing the sequence length and hidden state dimension while maintaining state-of-the-art performance. Specifically, we first theoretically demonstrate that the sequence length can be compressed non-destructively from a novel perspective of information theory, with compression matrices dynamically determined by the input sequence. Furthermore, we show that the hidden state dimension can be approximated by extending the Johnson-Lindenstrauss lemma, optimizing the attention in bilinear form. Theoretical analysis shows that DBA is proficient in capturing high-order relations in cross-attention problems. Experiments over tasks with diverse sequence length conditions show that DBA achieves state-of-the-art performance compared with various strong baselines while maintaining less memory consumption with higher speed.
翻訳日:2022-12-04 13:57:37 公開日:2022-11-24
# 機械学習に基づくフィッシングURL検出器の信頼性とロバスト性解析

Reliability and Robustness analysis of Machine Learning based Phishing URL Detectors ( http://arxiv.org/abs/2005.08454v3 )

ライセンス: Link先を確認
Bushra Sabir (University of Adelaide, CREST - The Centre for Research on Engineering Software Technologies, CSIROs Data61) and M. Ali Babar (University of Adelaide, CREST - The Centre for Research on Engineering Software Technologies), Raj Gaire (CSIROs Data61) and Alsharif Abuadbba (CSIROs DATA61)(参考訳) MLPU(ML-based Phishing URL)検出器は、ユーザーや組織がフィッシング攻撃の犠牲者になることを防ぐための、最初の防御レベルとなる。 近年、特定のMLPU検出器に対する敵攻撃が成功し、実用的信頼性と使用法に関する疑問が持ち上がっている研究はほとんどない。 しかしながら、これらのシステムの堅牢性は広く研究されていない。 したがって、これらのシステムのセキュリティ上の脆弱性は、一般に主に、これらのシステムの堅牢性をテストすることを要求する未知のままである。 本稿では,50種類の最先端MLPUモデルの信頼性と堅牢性を検討する手法を提案する。 まず、コスト効率の良いAdversarial URLgenerator URLBUGを提案し、Adversarial URLデータセットを作成しました。 その後,50mlpu(classic ml and deep learning)システムを再現し,ベースライン性能を記録した。 最後に,Adversarial Dataset上でMLPUシステムの検討を行い,ボックスプロットとヒートマップを用いてその堅牢性と信頼性について検討した。 その結果, 生成した逆行URLは有効な構文を持ち, 年間平均11.99ドルで登録可能であることがわかった。 既に登録されている敵urlのうち13\%のうち、63.94\%は悪意のある目的で使われた。 さらに、検討されたMLPUモデルであるMatthew correlation Coefficient (MCC)は、$Adv_\mathrm{data}$に対してテストすると、中央値0.92から0.02に低下し、ベースラインMLPUモデルは現在の形式では信頼できないことを示した。 さらに,これらのシステムのセキュリティ脆弱性を指摘し,信頼性とセキュアなmlpuシステムの設計に向けた今後の方向性を示した。

ML-based Phishing URL (MLPU) detectors serve as the first level of defence to protect users and organisations from being victims of phishing attacks. Lately, few studies have launched successful adversarial attacks against specific MLPU detectors raising questions about their practical reliability and usage. Nevertheless, the robustness of these systems has not been extensively investigated. Therefore, the security vulnerabilities of these systems, in general, remain primarily unknown which calls for testing the robustness of these systems. In this article, we have proposed a methodology to investigate the reliability and robustness of 50 representative state-of-the-art MLPU models. Firstly, we have proposed a cost-effective Adversarial URL generator URLBUG that created an Adversarial URL dataset. Subsequently, we reproduced 50 MLPU (traditional ML and Deep learning) systems and recorded their baseline performance. Lastly, we tested the considered MLPU systems on Adversarial Dataset and analyzed their robustness and reliability using box plots and heat maps. Our results showed that the generated adversarial URLs have valid syntax and can be registered at a median annual price of \$11.99. Out of 13\% of the already registered adversarial URLs, 63.94\% were used for malicious purposes. Moreover, the considered MLPU models Matthew Correlation Coefficient (MCC) dropped from a median 0.92 to 0.02 when tested against $Adv_\mathrm{data}$, indicating that the baseline MLPU models are unreliable in their current form. Further, our findings identified several security vulnerabilities of these systems and provided future directions for researchers to design dependable and secure MLPU systems.
翻訳日:2022-12-02 00:35:23 公開日:2022-11-24
# カオスと乱流のニューラルネットワーク複雑性

Neural Network Complexity of Chaos and Turbulence ( http://arxiv.org/abs/2211.15382v1 )

ライセンス: Link先を確認
Tim Whittaker, Romuald A. Janik, Yaron Oz(参考訳) 本研究では, 猫や犬のカオス流体, ノイズ, 実世界の画像から乱流を識別するネットワーク分類タスクを考慮し, 深層ニューラルネットワークによるカオスと乱流の複雑さについて検討した。 我々はこれらの分類タスクの相対的困難さを分析し、中間段階と最終段階の計算の複雑さを定量化する。 弱圧縮性流体流と同様に非圧縮性の解析を行い、乱流とカオスを区別するためにニューラルネットワークによって識別された特徴の証拠を提供する。

We study the complexity of chaos and turbulence as viewed by deep neural networks by considering network classification tasks of distinguishing turbulent from chaotic fluid flows, noise and real world images of cats or dogs. We analyze the relative difficulty of these classification tasks and quantify the complexity of the computation at the intermediate and final stages. We analyze incompressible as well as weakly compressible fluid flows and provide evidence for the feature identified by the neural network to distinguish turbulence from chaos.
翻訳日:2022-11-29 23:03:21 公開日:2022-11-24
# アクションアングルネットワークによる学習可積分ダイナミクス

Learning Integrable Dynamics with Action-Angle Networks ( http://arxiv.org/abs/2211.15338v1 )

ライセンス: Link先を確認
Ameya Daigavane, Arthur Kosmala, Miles Cranmer, Tess Smidt, Shirley Ho(参考訳) 機械学習は、複雑な物理システムのダイナミクスを効率的にモデル化するために人気が高まっており、冗長な自由度を無視したダイナミクスの効果的なモデルを学ぶ能力を示している。 学習シミュレータは通常、数値積分技術を用いてステップバイステップでシステムの進化を予測する。 しかしながら、予測ステップ毎に推定と統合エラーが蓄積されるため、このようなモデルは長いロールアウトよりも不安定になることが多い。 本稿では,古典力学のアクションアングル座標の概念から着想を得た,学習用物理シミュレータの代替構成を提案する。 本稿では,入力座標から動作角空間への非線形変換を学習するアクション・アングル・ネットワークを提案する。 従来の学習シミュレータとは異なり、アクションアングルネットワークは高階数値積分法を採用しておらず、統合可能な物理システムのダイナミクスをモデル化するのに非常に効率的である。

Machine learning has become increasingly popular for efficiently modelling the dynamics of complex physical systems, demonstrating a capability to learn effective models for dynamics which ignore redundant degrees of freedom. Learned simulators typically predict the evolution of the system in a step-by-step manner with numerical integration techniques. However, such models often suffer from instability over long roll-outs due to the accumulation of both estimation and integration error at each prediction step. Here, we propose an alternative construction for learned physical simulators that are inspired by the concept of action-angle coordinates from classical mechanics for describing integrable systems. We propose Action-Angle Networks, which learn a nonlinear transformation from input coordinates to the action-angle space, where evolution of the system is linear. Unlike traditional learned simulators, Action-Angle Networks do not employ any higher-order numerical integration methods, making them extremely efficient at modelling the dynamics of integrable physical systems.
翻訳日:2022-11-29 20:44:45 公開日:2022-11-24
# 不規則な動きと類似した外観を持つ物体の追跡は困難か? マッチングスペースをバッファリングすることで、より簡単に

Hard to Track Objects with Irregular Motions and Similar Appearances? Make It Easier by Buffering the Matching Space ( http://arxiv.org/abs/2211.14317v1 )

ライセンス: Link先を確認
Fan Yang, Shigeyuki Odashima, Shoichi Masui, Shan Jiang(参考訳) 本稿では,不規則な動きと識別不能な外観を持つ複数の物体を追跡するために,カスケードバッファリングIoU(C-BIoU)トラッカーを提案する。 外観特徴が信頼できず、幾何学的特徴が不規則な動きによって混同される場合、従来の多重物体追跡(mot)法を適用すると不十分な結果が得られる。 この問題に対処するために, c-biou trackerは, 検出とトラックのマッチング空間を拡大するためのバッファを追加し, 不規則な動きの影響を2つの面において緩和する。 さらに、マッチング空間の過剰膨張のリスクを低減するために、まず生存中のトラックと検出を小さなバッファでマッチングし、次に不一致のトラックと検出を大きなバッファでマッチングするカスケードマッチングが用いられる。 その単純さにもかかわらず、我々のC-BIoUトラッカーは驚くほどうまく機能し、不規則な動きと識別不能な外観に焦点を当てたMOTデータセットの最先端の結果を達成する。 さらに,C-BIoUトラッカーはCVPR'22 SoccerNet MOTとECCV'22 MOTComplex DanceTrackの課題において,私たちの2位ソリューションの主要なコンポーネントである。 最後に, アブレーション研究におけるc-biou trackerの限界を分析し, その適用範囲について考察する。

We propose a Cascaded Buffered IoU (C-BIoU) tracker to track multiple objects that have irregular motions and indistinguishable appearances. When appearance features are unreliable and geometric features are confused by irregular motions, applying conventional Multiple Object Tracking (MOT) methods may generate unsatisfactory results. To address this issue, our C-BIoU tracker adds buffers to expand the matching space of detections and tracks, which mitigates the effect of irregular motions in two aspects: one is to directly match identical but non-overlapping detections and tracks in adjacent frames, and the other is to compensate for the motion estimation bias in the matching space. In addition, to reduce the risk of overexpansion of the matching space, cascaded matching is employed: first matching alive tracks and detections with a small buffer, and then matching unmatched tracks and detections with a large buffer. Despite its simplicity, our C-BIoU tracker works surprisingly well and achieves state-of-the-art results on MOT datasets that focus on irregular motions and indistinguishable appearances. Moreover, the C-BIoU tracker is the dominant component for our 2-nd place solution in the CVPR'22 SoccerNet MOT and ECCV'22 MOTComplex DanceTrack challenges. Finally, we analyze the limitation of our C-BIoU tracker in ablation studies and discuss its application scope.
翻訳日:2022-11-29 20:01:05 公開日:2022-11-24
# 行動認識のためのビデオテスト時間適応

Video Test-Time Adaptation for Action Recognition ( http://arxiv.org/abs/2211.15393v1 )

ライセンス: Link先を確認
Wei Lin, Muhammad Jehanzeb Mirza, Mateusz Kozinski, Horst Possegger, Hilde Kuehne, Horst Bischof(参考訳) 動作認識システムは, 分配試験点の評価では最高性能を達成できるが, 予測外の分布変化に対して脆弱である。 しかし、ビデオアクション認識モデルの共通分布シフトに対するテスト時間適応は、今のところ実証されていない。 本稿では,1ステップで1つのビデオサンプルに適応可能な時空間モデルに適したアプローチでこの問題に対処することを提案する。 テストセット統計のオンライン見積もりをトレーニング統計にアライメントする機能分布アライメント技術で構成されている。 また,同じテストビデオサンプルの時間拡張ビューに対する予測整合性も強化した。 3つのベンチマーク動作認識データセットの評価結果から,提案手法はアーキテクチャ非依存であり,アート畳み込みアーキテクチャTANetとビデオスウィントランスフォーマーの両方の性能を大幅に向上させることができることが示された。 提案手法は,単一分布シフトの評価とランダム分布シフトのチャレンジケースの両方において,既存のテスト時間適応手法よりも実質的な性能向上を示す。 コードは \url{https://github.com/wlin-at/ViTTA} で入手できる。

Although action recognition systems can achieve top performance when evaluated on in-distribution test points, they are vulnerable to unanticipated distribution shifts in test data. However, test-time adaptation of video action recognition models against common distribution shifts has so far not been demonstrated. We propose to address this problem with an approach tailored to spatio-temporal models that is capable of adaptation on a single video sample at a step. It consists in a feature distribution alignment technique that aligns online estimates of test set statistics towards the training statistics. We further enforce prediction consistency over temporally augmented views of the same test video sample. Evaluations on three benchmark action recognition datasets show that our proposed technique is architecture-agnostic and able to significantly boost the performance on both, the state of the art convolutional architecture TANet and the Video Swin Transformer. Our proposed method demonstrates a substantial performance gain over existing test-time adaptation approaches in both evaluations of a single distribution shift and the challenging case of random distribution shifts. Code will be available at \url{https://github.com/wlin-at/ViTTA}.
翻訳日:2022-11-29 18:58:52 公開日:2022-11-24
# 対向モデリングにおけるダブルディープq学習

Double Deep Q-Learning in Opponent Modeling ( http://arxiv.org/abs/2211.15384v1 )

ライセンス: Link先を確認
Yangtianze Tao and John Doe(参考訳) 競合するアジェンダを持つ二次エージェントがメソッドを変更するマルチエージェントシステムも、相手モデリングを必要とする。 本研究では,二層深層q-networks (ddqn) を用いた主エージェントと二次エージェントの戦術を,優先順位付けされた経験再生機構を用いてシミュレートする。 そして、対戦相手モデリング設定の下で、様々な対戦相手戦略パターンを特定するためにMixture-of-Expertsアーキテクチャを使用する。 最後に、複数のエージェントで2つの環境でモデルを分析する。 その結果, DDQNよりも, 対戦モデルに基づくMixture-of-Expertsモデルの方が優れた性能を示した。

Multi-agent systems in which secondary agents with conflicting agendas also alter their methods need opponent modeling. In this study, we simulate the main agent's and secondary agents' tactics using Double Deep Q-Networks (DDQN) with a prioritized experience replay mechanism. Then, under the opponent modeling setup, a Mixture-of-Experts architecture is used to identify various opponent strategy patterns. Finally, we analyze our models in two environments with several agents. The findings indicate that the Mixture-of-Experts model, which is based on opponent modeling, performs better than DDQN.
翻訳日:2022-11-29 17:54:47 公開日:2022-11-24
# 韓国CSATにおける英語語彙出現パターンの分析

Analysis on English Vocabulary Appearance Pattern in Korean CSAT ( http://arxiv.org/abs/2211.15426v1 )

ライセンス: Link先を確認
Byunghyun Ban, Jejong Lee, Hyeonmok Hwang(参考訳) 本稿では,テキストマイニングに基づく単語分類法とLSTMに基づく語彙パターン予測手法を提案する。 まず,簡単なテキスト出現頻度分析に基づく事前処理手法について述べる。 この方法はデータスクリーニングツールとして開発されたが、以前の作業よりも4.35 ~ 6.21 倍高い値を示した。 また,語彙出現パターン予測法としてLSTM深層学習法を提案する。 aiは、前の試験のさまざまなサイズのデータウィンドウで回帰を行い、次の試験で単語出現の確率を予測する。 各種データウィンドウ上のAIの予測値は、重み付け和として単一のスコアに処理され、これは、来年の試験における単語の出現確率を表す「AIスコア」と呼ばれる。 提案手法は100スコアの範囲で100%精度を示し,60点以上の区間では予測誤差が1.7%であった。 すべてのソースコードは、著者のgit hubリポジトリから無料で入手できる。 (https://github.com/needleworm/bigdata_voca)

A text-mining-based word class categorization method and LSTM-based vocabulary pattern prediction method are introduced in this paper. A preprocessing method based on simple text appearance frequency analysis is first described. This method was developed as a data screening tool but showed 4.35 ~ 6.21 times higher than previous works. An LSTM deep learning method is also suggested for vocabulary appearance pattern prediction method. AI performs a regression with various size of data window of previous exams to predict the probabilities of word appearance in the next exam. Predicted values of AI over various data windows are processed into a single score as a weighted sum, which we call an "AI-Score", which represents the probability of word appearance in next year's exam. Suggested method showed 100% accuracy at the range 100-score area and showed only 1.7% error of prediction in the section where the scores were over 60 points. All source codes are freely available at the authors' Git Hub repository. (https://github.com/needleworm/bigdata_voca)
翻訳日:2022-11-29 17:36:17 公開日:2022-11-24
# 非造影CTにおける深層学習モデルの有用性 : 神経放射線医との比較

Non-inferiority of Deep Learning Model to Segment Acute Stroke on Non-contrast CT Compared to Neuroradiologists ( http://arxiv.org/abs/2211.15341v1 )

ライセンス: Link先を確認
Sophie Ostmeier, Jeremy J. Heit, Brian Axelrod, Li-Jia Li, Greg Zaharchuk, Benjamin F.J. Verhaaren, Abdelkader Mahammedi, Soren Christensen, and Maarten G. Lansberg(参考訳) 目的: 非コントラストct(non-contrast ct)で急性虚血梗塞を区分する深部学習モデルを開発すること。 対象と方法 この振り返り調査では,多施設DefUSE 3臨床試験に登録された200例の頭部NCCT検査を227例実施した。 経験豊富な3人の神経放射線学者(A,B,C)がそれぞれ独立に急性梗塞を分離した。 データセットはトレーニングと検証のケースで5つにランダムに分割された。 3次元深層畳み込みニューラルネットワーク(CNN)アーキテクチャは、データセットの特性とタスクニーズに最適化された。 モデルへの入力はncctであり、出力はセグメンテーションマスクであった。 モデルはエキスパートaでトレーニングされ、最適化され、結果がボリューム、重なり、距離のメトリクスで評価された。 ベストモデルとエキスパートaの予測されたセグメンテーションは、専門家のbとcと比較され、バイアスと正確さの観点から非インフェリシティをテストするために、一方的なテスト手順でウィルコクソンの符号付きテストが用いられた。 結果: 最高の性能モデルがトレランスのSurface Dice (SDT)5mmの0.68 \pm 0.04に到達した。 この予測は、バイアスと正確さの観点から独立した専門家と比較すると非干渉であった(非干渉境界-0.05, 2ml, 2mm, p < 0.05, n=200)。 結論:NCCTにおける急性虚血性脳梗塞のセグメンテーションでは,1人の神経放射線科医のアノテーションで訓練した3D CNNは,2人の独立した神経放射線科医と比較して非劣性である。

Purpose: To develop a deep learning model to segment the acute ischemic infarct on non-contrast Computed Tomography (NCCT). Materials and Methods In this retrospective study, 227 Head NCCT examinations from 200 patients enrolled in the multicenter DEFUSE 3 trial were included. Three experienced neuroradiologists (experts A, B and C) independently segmented the acute infarct on each study. The dataset was randomly split into 5 folds with training and validation cases. A 3D deep Convolutional Neural Network (CNN) architecture was optimized for the data set properties and task needs. The input to the model was the NCCT and the output was a segmentation mask. The model was trained and optimized on expert A. The outcome was assessed by a set of volume, overlap and distance metrics. The predicted segmentations of the best model and expert A were compared to experts B and C. Then we used a paired Wilcoxon signed-rank test in a one-sided test procedure for all metrics to test for non-inferiority in terms of bias and precision. Results: The best performing model reached a Surface Dice at Tolerance (SDT)5mm of 0.68 \pm 0.04. The predictions were non-inferior when compared to independent experts in terms of bias and precision (paired one-sided test procedure for differences in medians and bootstrapped standard deviations with non-inferior boundaries of -0.05, 2ml, and 2mm, p < 0.05, n=200). Conclusion: For the segmentation of acute ischemic stroke on NCCT, our 3D CNN trained with the annotations of one neuroradiologist is non-inferior when compared to two independent neuroradiologists.
翻訳日:2022-11-29 17:20:43 公開日:2022-11-24
# グラフ表現を用いた交通シーンの自己監視クラスタリング

Self Supervised Clustering of Traffic Scenes using Graph Representations ( http://arxiv.org/abs/2211.15508v1 )

ライセンス: Link先を確認
Maximilian Zipfl, Moritz Jarosch, J. Marius Z\"ollner(参考訳) グラフの類似性を調べることはよく知られた課題だが、グラフをグループ化するのに必須である。 本稿では,手動ラベリングを使わずに自己管理されたトラフィックシーンをクラスタリングするデータ駆動方式を提案する。 トラヒックシーンの一般的なグラフ埋め込みを作成するためにセマンティックシーングラフモデルを利用し、そのグラフをsiameseネットワークを使用して低次元の埋め込み空間にマッピングし、クラスタリングを行う。 新たなアプローチのトレーニングプロセスでは,カーテシアン空間における既存トラフィックシーンを補強し,正の類似性サンプルを生成する。 これにより、グラフの再構築という課題を克服し、同時にトラフィックシーンの類似性を記述する表現を得ることができます。 得られたクラスタが共通の意味的特性を持つことを示すことができる。 アプローチはInterActionデータセットで評価された。

Examining graphs for similarity is a well-known challenge, but one that is mandatory for grouping graphs together. We present a data-driven method to cluster traffic scenes that is self-supervised, i.e. without manual labelling. We leverage the semantic scene graph model to create a generic graph embedding of the traffic scene, which is then mapped to a low-dimensional embedding space using a Siamese network, in which clustering is performed. In the training process of our novel approach, we augment existing traffic scenes in the Cartesian space to generate positive similarity samples. This allows us to overcome the challenge of reconstructing a graph and at the same time obtain a representation to describe the similarity of traffic scenes. We could show, that the resulting clusters possess common semantic characteristics. The approach was evaluated on the INTERACTION dataset.
翻訳日:2022-11-29 17:20:00 公開日:2022-11-24
# 改良OOD一般化のためのショートカット除去

Shortcut Removal for Improved OOD-Generalization ( http://arxiv.org/abs/2211.15510v1 )

ライセンス: Link先を確認
Nicolas M. M\"uller, Jochen Jacobs, Jennifer Williams, Konstantin B\"ottinger(参考訳) 機械学習はデータ駆動の規律であり、学習の成功は基礎となるデータセットの品質に大きく依存する。 しかし、ホールドアウトテストデータでハイパフォーマンスであっても、モデルが意味のあるものを一般化したり学習したりするとは限らないことが明らかになりつつある。 この理由の1つは、機械学習のショートカットの存在、すなわち、予測的ではあるが偶然に問題に結びついていないデータにヒントがあることである。 このようなショートカットを検出するための新しいアプローチと、データセットからそれらを自動的に除去するテクニックを提案する。 逆向きに訓練されたレンズを使用することで、画像中の小さな予測可能な手がかりを検出、除去することができる。 このアプローチは 1)これらのショートカットがない場合,モデル性能が低下することはない。 2)異なる画像データセットからのショートカットを確実に識別し、中和する。 実験では,異なるショートカットが存在する場合,モデル性能の最大93,8%を回復することができる。 最後に、胸部x線からなる医療領域からの実世界のデータセットに適用し、実世界の適用性を阻害するいくつかの種類のショートカットを特定し除去する。 したがって,提案手法が機械学習の現実的な適用性を促進することを期待する。

Machine learning is a data-driven discipline, and learning success is largely dependent on the quality of the underlying data sets. However, it is becoming increasingly clear that even high performance on held-out test data does not necessarily mean that a model generalizes or learns anything meaningful at all. One reason for this is the presence of machine learning shortcuts, i.e., hints in the data that are predictive but accidental and semantically unconnected to the problem. We present a new approach to detect such shortcuts and a technique to automatically remove them from datasets. Using an adversarially trained lens, any small and highly predictive clues in images can be detected and removed. We show that this approach 1) does not cause degradation of model performance in the absence of these shortcuts, and 2) reliably identifies and neutralizes shortcuts from different image datasets. In our experiments, we are able to recover up to 93,8% of model performance in the presence of different shortcuts. Finally, we apply our model to a real-world dataset from the medical domain consisting of chest x-rays and identify and remove several types of shortcuts that are known to hinder real-world applicability. Thus, we hope that our proposed approach fosters real-world applicability of machine learning.
翻訳日:2022-11-29 17:19:47 公開日:2022-11-24
# 低資源音声言語理解のための双方向表現

Bidirectional Representations for Low Resource Spoken Language Understanding ( http://arxiv.org/abs/2211.14320v1 )

ライセンス: Link先を確認
Quentin Meeus, Marie-Francine Moens, Hugo Van hamme(参考訳) ほとんどの音声言語理解システムは、自動音声認識インタフェースと自然言語理解モジュールからなるパイプラインアプローチを使用している。 このアプローチは、連続入力を離散言語記号に変換する際に難しい決定を迫る。 その代わりに、意図予測などの下流タスクに使用できるリッチな双方向符号化で音声を符号化する表現モデルを提案する。 このアプローチでは、表現を学ぶためにマスク付き言語モデリングの目的を用いるため、左右のコンテキストの両方から恩恵を受ける。 提案手法では,複数のデータセットにおいて,符号化前の符号化結果のパフォーマンスが同等のモデルよりも優れており,表現モデルの上位層を微調整することで,学習に限られたラベル付きデータを使用する場合,Fluent Speech Commandデータセット上の技術の現状が向上することを示す。 さらに,音声言語理解モジュールとして,速度とパラメータ数の両方において効率的であるクラスアテンションを提案する。 クラスの注意は、モデルの予測を視覚的に説明するために使用できます。 私たちは英語とオランダ語で実験を行います。

Most spoken language understanding systems use a pipeline approach composed of an automatic speech recognition interface and a natural language understanding module. This approach forces hard decisions when converting continuous inputs into discrete language symbols. Instead, we propose a representation model to encode speech in rich bidirectional encodings that can be used for downstream tasks such as intent prediction. The approach uses a masked language modelling objective to learn the representations, and thus benefits from both the left and right contexts. We show that the performance of the resulting encodings before fine-tuning is better than comparable models on multiple datasets, and that fine-tuning the top layers of the representation model improves the current state of the art on the Fluent Speech Command dataset, also in a low-data regime, when a limited amount of labelled data is used for training. Furthermore, we propose class attention as a spoken language understanding module, efficient both in terms of speed and number of parameters. Class attention can be used to visually explain the predictions of our model, which goes a long way in understanding how the model makes predictions. We perform experiments in English and in Dutch.
翻訳日:2022-11-29 17:17:52 公開日:2022-11-24
# グラフに基づくアクティブリワード学習による一般化可能な空間ゴール表現の探索

Discovering Generalizable Spatial Goal Representations via Graph-based Active Reward Learning ( http://arxiv.org/abs/2211.15339v1 )

ライセンス: Link先を確認
Aviv Netanyahu, Tianmin Shu, Joshua Tenenbaum, Pulkit Agrawal(参考訳) 本稿では,aiエージェントが1つの専門家のデモンストレーションを見て,異なる環境で同じタスクを実行することを学ぶための,オブジェクトの再構成タスクに対するワンショット模倣学習について検討する。 強力な一般化を実現するために、AIエージェントはタスクの空間目標仕様を推論しなければならない。 しかしながら、与えられたデモに適合する複数の目標仕様が存在する場合もあります。 そこで本稿では,目標仕様に適合した空間的目標表現を探索し,未知の環境での一般化を成功させる,報酬学習手法であるグラフベースの等価マッピング(GEM)を提案する。 具体的には、GEMは、条件付き報酬関数による空間目標仕様を表す。 一 物と物との間の重要な空間関係を示すグラフ 二 対応する関係の不変性を示すグラフにおける各辺の状態同値写像 GEMは、逆強化学習とアクティブ報酬学習を組み合わせて、等価写像によって実現されたグラフ構造とドメインランダム化を利用して、報酬関数を効率的に改善する。 模擬オークルと人体を用いた実験を行った。 その結果, GEM は学習目標表現の一般化可能性を大幅に向上させることができることがわかった。

In this work, we consider one-shot imitation learning for object rearrangement tasks, where an AI agent needs to watch a single expert demonstration and learn to perform the same task in different environments. To achieve a strong generalization, the AI agent must infer the spatial goal specification for the task. However, there can be multiple goal specifications that fit the given demonstration. To address this, we propose a reward learning approach, Graph-based Equivalence Mappings (GEM), that can discover spatial goal representations that are aligned with the intended goal specification, enabling successful generalization in unseen environments. Specifically, GEM represents a spatial goal specification by a reward function conditioned on i) a graph indicating important spatial relationships between objects and ii) state equivalence mappings for each edge in the graph indicating invariant properties of the corresponding relationship. GEM combines inverse reinforcement learning and active reward learning to efficiently improve the reward function by utilizing the graph structure and domain randomization enabled by the equivalence mappings. We conducted experiments with simulated oracles and with human subjects. The results show that GEM can drastically improve the generalizability of the learned goal representations over strong baselines.
翻訳日:2022-11-29 17:00:39 公開日:2022-11-24
# 量子マルチドローン強化学習のためのビジュアルシミュレーションソフトウェアデモ

Visual Simulation Software Demonstration for Quantum Multi-Drone Reinforcement Learning ( http://arxiv.org/abs/2211.15375v1 )

ライセンス: Link先を確認
Chanyoung Park, Jae Pyoung Kim, Won Joon Yun, Soyi Jung, and Joongheon Kim(参考訳) 量子コンピューティング(QC)は、光トレーニングパラメータ数と量子ビットによる計算速度によって多くの注目を集めている。 さらに、様々な研究者がQCを使用して量子機械学習(QML)を実現しようとしており、QCを使用して量子マルチエージェント強化学習(QMARL)を実装するための多言語的な取り組みもある。 ニューラルネットワークを用いた既存の古典的マルチエージェント強化学習(MARL)では、パラメータの多さから、非定常性と不確かさが特徴である。 そこで本稿では,QCを利用する自律型マルチドローンシステムを制御する新しいQMARLアルゴリズムのための視覚シミュレーションソフトウェアフレームワークを提案する。 提案するQMARLフレームワークは,従来のMARLよりもトレーニング可能なパラメータが少なく,適切な報酬収束とサービス品質性能を実現する。 さらに、QMARLは既存のMARLアルゴリズムよりも安定したトレーニング結果を示している。 最後に,提案する視覚シミュレーションソフトウェアを用いて,エージェントのトレーニングプロセスと結果を解析する。

Quantum computing (QC) has received a lot of attention according to its light training parameter numbers and computational speeds by qubits. Moreover, various researchers have tried to enable quantum machine learning (QML) using QC, where there are also multifarious efforts to use QC to implement quantum multi-agent reinforcement learning (QMARL). Existing classical multi-agent reinforcement learning (MARL) using neural network features non-stationarity and uncertain properties due to its large number of parameters. Therefore, this paper presents a visual simulation software framework for a novel QMARL algorithm to control autonomous multi-drone systems to take advantage of QC. Our proposed QMARL framework accomplishes reasonable reward convergence and service quality performance with fewer trainable parameters than the classical MARL. Furthermore, QMARL shows more stable training results than existing MARL algorithms. Lastly, our proposed visual simulation software allows us to analyze the agents' training process and results.
翻訳日:2022-11-29 17:00:05 公開日:2022-11-24
# PC-SNN:スパイクニューラルネットワークにおける予測符号化に基づく局所ヘビーンのシナプス塑性を用いた教師付き学習

PC-SNN: Supervised Learning with Local Hebbian Synaptic Plasticity based on Predictive Coding in Spiking Neural Networks ( http://arxiv.org/abs/2211.15386v1 )

ライセンス: Link先を確認
Mengting Lan, Xiaogang Xiong, Zixuan Jiang, Yunjiang Lou(参考訳) 第3世代のニューラルネットワークと見なされ、イベント駆動のSpking Neural Networks(SNN)と生物工学的な局所学習ルールを組み合わせることで、SNNのための低消費電力でニューロモルフィックなハードウェアを構築することを約束している。 しかし、スパイクニューラルネットワークの非線形性と離散性のため、SNNの訓練は依然として困難であり、現在も議論が続いている。 勾配降下から派生したバックプロップは、多層SNNにおいて驚くべき成功を収めた。 それにもかかわらず、比較的高い計算資源を消費しながら、生物学的な可能性に欠けると考えられている。 本稿では,予測符号化理論にインスパイアされた新しい学習アルゴリズムを提案し,局所的なヘビアン可塑性のみを利用して,教師あり学習を完全自律的かつ効果的に行うことができることを示す。 テスト精度はCaltech Face/Motorbikeデータセットの99.25%、ETH-80データセットの84.25%、MNISTデータセットの98.1%、ニューロモルフィックデータセットの98.5%である。 さらに本研究は、神経回路のスパイキングに教師あり学習アルゴリズムがどのように直接実装されているかに関する新たな視点を提供し、神経科学における神経形態学計算に関する新たな洞察を与える。

Deemed as the third generation of neural networks, the event-driven Spiking Neural Networks(SNNs) combined with bio-plausible local learning rules make it promising to build low-power, neuromorphic hardware for SNNs. However, because of the non-linearity and discrete property of spiking neural networks, the training of SNN remains difficult and is still under discussion. Originating from gradient descent, backprop has achieved stunning success in multi-layer SNNs. Nevertheless, it is assumed to lack biological plausibility, while consuming relatively high computational resources. In this paper, we propose a novel learning algorithm inspired by predictive coding theory and show that it can perform supervised learning fully autonomously and successfully as the backprop, utilizing only local Hebbian plasticity. Furthermore, this method achieves a favorable performance compared to the state-of-the-art multi-layer SNNs: test accuracy of 99.25% for the Caltech Face/Motorbike dataset, 84.25% for the ETH-80 dataset, 98.1% for the MNIST dataset and 98.5% for the neuromorphic dataset: N-MNIST. Furthermore, our work provides a new perspective on how supervised learning algorithms are directly implemented in spiking neural circuitry, which may give some new insights into neuromorphological calculation in neuroscience.
翻訳日:2022-11-29 16:43:01 公開日:2022-11-24
# ユーザの視点から見た説明可能な人工知能(XAI)-先行文献の合成と今後の研究への課題

Explainable Artificial Intelligence (XAI) from a user perspective- A synthesis of prior literature and problematizing avenues for future research ( http://arxiv.org/abs/2211.15343v1 )

ライセンス: Link先を確認
AKM Bahalul Haque, A.K.M. Najmul Islam, Patrick Mikalef(参考訳) 体系文学レビュー(SLR)の最終検索は2022年7月15日に行われた。 当初、私たちはScopus and Web of Scienceデータベースから1707のジャーナルとカンファレンスの記事を取り出しました。 対象と除外基準を適用し,SLRに58項目を選定した。 以上の結果から,フォーマット(説明表現形式),完全性(説明情報を含むすべての必要な情報を含むべきである),正確性(説明の正確性に関する情報),通貨(説明は最近の情報を含むべきである)の4次元が得られた。 さらに、説明の自動表現とともに、ユーザーは必要に応じて追加情報を要求することができる。 xai効果の5つの側面: 信頼、透明性、理解可能性、ユーザビリティ、公平性です。 また, 今後の研究課題を研究課題として問題視するために, 選択論文から得られた知識を, 可能な研究経路とともに検討した。 その結果,XAIの包括的枠組みとそのユーザ行動への影響が明らかになった。

The final search query for the Systematic Literature Review (SLR) was conducted on 15th July 2022. Initially, we extracted 1707 journal and conference articles from the Scopus and Web of Science databases. Inclusion and exclusion criteria were then applied, and 58 articles were selected for the SLR. The findings show four dimensions that shape the AI explanation, which are format (explanation representation format), completeness (explanation should contain all required information, including the supplementary information), accuracy (information regarding the accuracy of the explanation), and currency (explanation should contain recent information). Moreover, along with the automatic representation of the explanation, the users can request additional information if needed. We have also found five dimensions of XAI effects: trust, transparency, understandability, usability, and fairness. In addition, we investigated current knowledge from selected articles to problematize future research agendas as research questions along with possible research paths. Consequently, a comprehensive framework of XAI and its possible effects on user behavior has been developed.
翻訳日:2022-11-29 15:57:11 公開日:2022-11-24
# テキストから画像への移動拡散

Shifted Diffusion for Text-to-image Generation ( http://arxiv.org/abs/2211.15388v1 )

ライセンス: Link先を確認
Yufan Zhou, Bingchen Liu, Yizhe Zhu, Xiao Yang, Changyou Chen, Jinhui Xu(参考訳) テキスト・画像生成の新しい手法であるCorgiを提案する。 Corgiは,提案したシフト拡散モデルに基づいて,入力テキストからより優れた画像埋め込み生成を実現する。 dall-e 2 で用いられるベースライン拡散モデルとは異なり、新しい初期化分布と新しい拡散遷移ステップを設計することにより、その拡散過程における事前訓練クリップモデルの事前知識をシームレスにエンコードする。 強力なDALL-E 2ベースラインと比較して,本手法は効率と効率の両面から画像埋め込みを生成するのに優れ,テキスト・画像生成の精度が向上する。 定量的評価と人為的評価の両面から大規模な実験を行い, 従来の手法に比べて高い生成能力を示した。 さらに,本モデルでは,トレーニングデータセット内の画像の一部あるいは全くが関連キャプションを持たないテキスト・ツー・イメージ生成のための,半教師あり言語なしのトレーニングを可能にする。 画像のたった1.7%をキャプションで訓練し,MS-COCOを用いたゼロショットテキスト画像生成において,DALL-E 2に匹敵するFID結果を得た。 Corgiはまた、ダウンストリーム言語なしのテキスト・ツー・イメージ生成タスク上で、さまざまなデータセットにまたがる新たな最先端の結果も達成している。

We present Corgi, a novel method for text-to-image generation. Corgi is based on our proposed shifted diffusion model, which achieves better image embedding generation from input text. Unlike the baseline diffusion model used in DALL-E 2, our method seamlessly encodes prior knowledge of the pre-trained CLIP model in its diffusion process by designing a new initialization distribution and a new transition step of the diffusion. Compared to the strong DALL-E 2 baseline, our method performs better in generating image embedding from the text in terms of both efficiency and effectiveness, resulting in better text-to-image generation. Extensive large-scale experiments are conducted and evaluated in terms of both quantitative measures and human evaluation, indicating a stronger generation ability of our method compared to existing ones. Furthermore, our model enables semi-supervised and language-free training for text-to-image generation, where only part or none of the images in the training dataset have an associated caption. Trained with only 1.7% of the images being captioned, our semi-supervised model obtains FID results comparable to DALL-E 2 on zero-shot text-to-image generation evaluated on MS-COCO. Corgi also achieves new state-of-the-art results across different datasets on downstream language-free text-to-image generation tasks, outperforming the previous method, Lafite, by a large margin.
翻訳日:2022-11-29 14:54:15 公開日:2022-11-24
# airepair:ニューラルネットワークのための修理プラットフォーム

AIREPAIR: A Repair Platform for Neural Networks ( http://arxiv.org/abs/2211.15387v1 )

ライセンス: Link先を確認
Xidan Song, Youcheng Sun, Mustafa A. Mustafa and Lucas Cordeiro(参考訳) 本稿では,ニューラルネットワークの修復プラットフォームであるAIREPAIRを紹介する。 既存のネットワーク修復ツールの統合が特徴である。 AIREPAIRに基づいて、同じモデル上で異なる補修方法を実行できるため、異なる補修手法を公平に比較することができる。 一般的なディープラーニングデータセットとモデルに対して,3つの最先端の修復ツールを用いてAIREPAIRを評価した。 本評価では, 各種補修工法との比較と解析によりAIREPAIRの有用性を確認した。 デモはhttps://youtu.be/ukkw5neewhwで公開されている。

We present AIREPAIR, a platform for repairing neural networks. It features the integration of existing network repair tools. Based on AIREPAIR, one can run different repair methods on the same model, thus enabling the fair comparison of different repair techniques. We evaluate AIREPAIR with three state-of-the-art repair tools on popular deep-learning datasets and models. Our evaluation confirms the utility of AIREPAIR, by comparing and analyzing the results from different repair techniques. A demonstration is available at https://youtu.be/UkKw5neeWhw.
翻訳日:2022-11-29 14:26:34 公開日:2022-11-24
# 物理インフォームドニューラルネットワークを用いたチューリング系の設計

Design of Turing Systems with Physics-Informed Neural Networks ( http://arxiv.org/abs/2211.13464v1 )

ライセンス: Link先を確認
Jordon Kho, Winston Koh, Jian Cheng Wong, Pao-Hsiung Chiu, Chin Chun Ooi(参考訳) 反応拡散(Turing)システムは自然と工学における空間パターンの形成に基本的である。 これらの系は、成分拡散と反応の速度を決定するパラメータを含む非線形偏微分方程式の集合によって制御される。 臨界的に、拡散係数のようなこれらのパラメータは最終パターンのモードとタイプに大きく影響し、それらのパラメータの量的特徴付けと知識は、実世界のシステムのバイオミメティックな設計や理解に役立つ。 しかし,これらのパラメータを推定するために数値法を用いることは困難であり,計算コストも高い。 通常、随伴解法は用いられるが、非常に非線形なシステムでは不安定であることが多い。 あるいは、大量の反復前方シミュレーションが最適なマッチングを見つけるために使用されるが、これは非常に難しい。 近年、偏微分方程式をデータ駆動で発見する手段として物理情報ニューラルネットワークが提案され、様々な応用に成功している。 そこで本研究では, 物理インフォームドニューラルネットワークを用いて, 定常状態における反応拡散系の重要なパラメータを推論し, 科学的な発見や設計を行う。 概念実証の結果,この手法は10\%未満の誤差で異なるパターンモードや型に対するパラメータを推定できることがわかった。 さらに,本手法の確率的性質を利用して,本手法の生体模倣設計における汎用性を強調し,所望のパターンに代えて複数のパラメータを提供する。 そこで本研究では, 物理インフォームドニューラルネットワークを用いた反応拡散系の逆パラメータ推論による科学的発見と設計の促進を実証する。

Reaction-diffusion (Turing) systems are fundamental to the formation of spatial patterns in nature and engineering. These systems are governed by a set of non-linear partial differential equations containing parameters that determine the rate of constituent diffusion and reaction. Critically, these parameters, such as diffusion coefficient, heavily influence the mode and type of the final pattern, and quantitative characterization and knowledge of these parameters can aid in bio-mimetic design or understanding of real-world systems. However, the use of numerical methods to infer these parameters can be difficult and computationally expensive. Typically, adjoint solvers may be used, but they are frequently unstable for very non-linear systems. Alternatively, massive amounts of iterative forward simulations are used to find the best match, but this is extremely effortful. Recently, physics-informed neural networks have been proposed as a means for data-driven discovery of partial differential equations, and have seen success in various applications. Thus, we investigate the use of physics-informed neural networks as a tool to infer key parameters in reaction-diffusion systems in the steady-state for scientific discovery or design. Our proof-of-concept results show that the method is able to infer parameters for different pattern modes and types with errors of less than 10\%. In addition, the stochastic nature of this method can be exploited to provide multiple parameter alternatives to the desired pattern, highlighting the versatility of this method for bio-mimetic design. This work thus demonstrates the utility of physics-informed neural networks for inverse parameter inference of reaction-diffusion systems to enhance scientific discovery and design.
翻訳日:2022-11-28 19:04:03 公開日:2022-11-24
# 休憩を取るための学習: 長期ユーザエンゲージメントの持続可能な最適化

Learning to Take a Break: Sustainable Optimization of Long-Term User Engagement ( http://arxiv.org/abs/2211.13585v1 )

ライセンス: Link先を確認
Eden Saig, Nir Rosenfeld(参考訳) ユーザのエンゲージメントを最適化することは、現代のレコメンデーションシステムにとって重要な目標だが、消費リスクの増大、燃え尽き症候群、中毒性など、ユーザに盲目的に促す。 デジタル幸福を促進するために、ほとんどのプラットフォームはユーザーが定期的に休憩するように促すサービスを提供している。 しかし、これらは手動で設定する必要があるため、ユーザーとシステムの両方に最適ではないかもしれない。 本稿では,個別の分割ポリシーを学習し,長期的なエンゲージメントを最適化する枠組みを提案する。 lotka-volterra dynamicsを使用することで、ユーザを2つのバランスのとれた状態 – ドライブと関心 — に基づいて動作させるようにモデル化します。 次に、効率的な学習アルゴリズムを提供し、理論的保証を提供し、半合成データ上でその性能を実証的に評価する。

Optimizing user engagement is a key goal for modern recommendation systems, but blindly pushing users towards increased consumption risks burn-out, churn, or even addictive habits. To promote digital well-being, most platforms now offer a service that periodically prompts users to take a break. These, however, must be set up manually, and so may be suboptimal for both users and the system. In this paper, we propose a framework for optimizing long-term engagement by learning individualized breaking policies. Using Lotka-Volterra dynamics, we model users as acting based on two balancing latent states: drive, and interest -- which must be conserved. We then give an efficient learning algorithm, provide theoretical guarantees, and empirically evaluate its performance on semi-synthetic data.
翻訳日:2022-11-28 19:03:39 公開日:2022-11-24
# 非ガウス性を用いた因果非巡回グラフプロセスの推定

Estimation of a Causal Directed Acyclic Graph Process using Non-Gaussianity ( http://arxiv.org/abs/2211.13800v1 )

ライセンス: Link先を確認
Aref Einizade, Sepideh Hajipour Sardouie(参考訳) 機械学習とデータマイニングにおける因果関係を発見するための多くのアプローチが提案されているが、その中でも最先端のVAR-LiNGAM(ベクトル自動回帰線形非ガウス非巡回モデル)は、瞬時関係と時差関係の両方を明らかにするための望ましいアプローチである。 しかしながら、最終的な因果グラフを推測するために得られた全てのVAR行列を解析する必要があるため、パラメータの数が増加する。 この問題に対処するために,我々は,モデルパラメータがかなり少なく,グラフ信号処理(gsp)を利用して因果関係を解釈する因果グラフのみを扱うcgp-lingam(causal graph process-lingamの略)を提案する。

Numerous approaches have been proposed to discover causal dependencies in machine learning and data mining; among them, the state-of-the-art VAR-LiNGAM (short for Vector Auto-Regressive Linear Non-Gaussian Acyclic Model) is a desirable approach to reveal both the instantaneous and time-lagged relationships. However, all the obtained VAR matrices need to be analyzed to infer the final causal graph, leading to a rise in the number of parameters. To address this issue, we propose the CGP-LiNGAM (short for Causal Graph Process-LiNGAM), which has significantly fewer model parameters and deals with only one causal graph for interpreting the causal relations by exploiting Graph Signal Processing (GSP).
翻訳日:2022-11-28 19:01:23 公開日:2022-11-24
# 知識ベースニューラル常微分方程式とディープアンサンブルを用いた学習強調非線形モデル予測制御

Learning-enhanced Nonlinear Model Predictive Control using Knowledge-based Neural Ordinary Differential Equations and Deep Ensembles ( http://arxiv.org/abs/2211.13829v1 )

ライセンス: Link先を確認
Kong Yao Chee, M. Ani Hsieh and Nikolai Matni(参考訳) 非線形モデル予測制御(英語版) (MPC) は、状態制約と制御入力制約の両方を満たすフィードバック制御戦略を合成するために使われる柔軟で普及しているフレームワークである。 このフレームワークでは、非線形ダイナミクスモデルによって特徴付けられる一連のダイナミクス制約を課す最適化問題を各時間ステップで解く。 汎用性にもかかわらず、非線形mpcの性能はダイナミクスモデルの精度に依存することが多い。 本研究では,知識に基づくニューラル常微分方程式(KNODE)とディープアンサンブルを用いたディープラーニングツールを用いて,モデルの予測精度を向上させる。 特に、KNODEモデルのアンサンブル(KNODEアンサンブル)を学習し、真のシステム力学の正確な予測を得る。 この学習モデルは、新しい学習強化非線形MPCフレームワークに統合される。 閉ループ系の漸近安定性を保証する十分条件を提供し,これらの条件を実際に実装可能であることを示す。 KNODEアンサンブルはより正確な予測を提供し、2つのケーススタディを用いて提案した非線形MPCフレームワークの有効性と閉ループ性能を示す。

Nonlinear model predictive control (MPC) is a flexible and increasingly popular framework used to synthesize feedback control strategies that can satisfy both state and control input constraints. In this framework, an optimization problem, subjected to a set of dynamics constraints characterized by a nonlinear dynamics model, is solved at each time step. Despite its versatility, the performance of nonlinear MPC often depends on the accuracy of the dynamics model. In this work, we leverage deep learning tools, namely knowledge-based neural ordinary differential equations (KNODE) and deep ensembles, to improve the prediction accuracy of this model. In particular, we learn an ensemble of KNODE models, which we refer to as the KNODE ensemble, to obtain an accurate prediction of the true system dynamics. This learned model is then integrated into a novel learning-enhanced nonlinear MPC framework. We provide sufficient conditions that guarantees asymptotic stability of the closed-loop system and show that these conditions can be implemented in practice. We show that the KNODE ensemble provides more accurate predictions and illustrate the efficacy and closed-loop performance of the proposed nonlinear MPC framework using two case studies.
翻訳日:2022-11-28 19:01:06 公開日:2022-11-24
# 分散データを用いたネットワークセキュリティモデリング

Network Security Modelling with Distributional Data ( http://arxiv.org/abs/2211.13419v1 )

ライセンス: Link先を確認
Subhabrata Majumdar, Ganesh Subramaniam(参考訳) 大規模IPトラフィックにおけるボットネットコマンドと制御(C2)ホストの検出について,機械学習を用いて検討する。 この目的のために、IPトラフィックを監視する業界標準であるNetFlowデータと、従来のNetFlow変数と、NetFlow変数に基づいた分散機能という2つの機能セットを使用したMLモデルを使用します。 NetFlowの機能の静的な要約に加えて、予測モデルにおけるIPレベルの分布の量子化を用いて、IPが既知のボットネットファミリーに属するかどうかを予測する。 これらのモデルは、悪意のある攻撃と特定されたトラフィックトレースを予測する侵入検知システムを開発するために使用される。 結果は、公開されている悪意のあるIPアドレスの既存の否定リストと一致し、ディープパケット検査によって検証される。 提案手法は, 複雑な入力特徴空間をモデル化する手法と組み合わせることで, 訓練されたモデルによる高精度な予測を実現する。

We investigate the detection of botnet command and control (C2) hosts in massive IP traffic using machine learning methods. To this end, we use NetFlow data -- the industry standard for monitoring of IP traffic -- and ML models using two sets of features: conventional NetFlow variables and distributional features based on NetFlow variables. In addition to using static summaries of NetFlow features, we use quantiles of their IP-level distributions as input features in predictive models to predict whether an IP belongs to known botnet families. These models are used to develop intrusion detection systems to predict traffic traces identified with malicious attacks. The results are validated by matching predictions to existing denylists of published malicious IP addresses and deep packet inspection. The usage of our proposed novel distributional features, combined with techniques that enable modelling complex input feature spaces result in highly accurate predictions by our trained models.
翻訳日:2022-11-28 18:52:04 公開日:2022-11-24
# 画像逆問題に対する反復正則化としての深部展開

Deep unfolding as iterative regularization for imaging inverse problems ( http://arxiv.org/abs/2211.13452v1 )

ライセンス: Link先を確認
Zhuo-Xu Cui and Qingyong Zhu and Jing Cheng and Dong Liang(参考訳) 近年,深層ニューラルネットワーク(DNN)の設計を反復的アルゴリズムで導く深層展開法が,逆問題分野において注目されている。 一般的なエンドツーエンドのDNNとは異なり、展開メソッドは解釈性と性能が向上する。 しかし、我々の知る限り、逆問題の解法における精度と安定性は十分に保証できない。 このギャップを埋めるために,学習手順を変更し,展開法が反復正規化法であることを証明した。 より正確には、入力凸ニューラルネットワーク(ICNN)によって逆向きに凸ペナルティ関数を学習し、実データ多様体への距離を特徴付け、この学習ペナルティを用いて近勾配降下アルゴリズムから展開されたDNNを訓練する。 実データ多様体が唯一の実解のみで逆問題解と交差するとする。 展開されたDNNが安定して収束することを証明する。 さらに, 提案手法は, 従来の展開法や従来の正規化法よりも, 再構成品質, 安定性, 収束速度の点で優れていることを示す。

Recently, deep unfolding methods that guide the design of deep neural networks (DNNs) through iterative algorithms have received increasing attention in the field of inverse problems. Unlike general end-to-end DNNs, unfolding methods have better interpretability and performance. However, to our knowledge, their accuracy and stability in solving inverse problems cannot be fully guaranteed. To bridge this gap, we modified the training procedure and proved that the unfolding method is an iterative regularization method. More precisely, we jointly learn a convex penalty function adversarially by an input-convex neural network (ICNN) to characterize the distance to a real data manifold and train a DNN unfolded from the proximal gradient descent algorithm with this learned penalty. Suppose the real data manifold intersects the inverse problem solutions with only the unique real solution. We prove that the unfolded DNN will converge to it stably. Furthermore, we demonstrate with an example of MRI reconstruction that the proposed method outperforms conventional unfolding methods and traditional regularization methods in terms of reconstruction quality, stability and convergence speed.
翻訳日:2022-11-28 18:51:48 公開日:2022-11-24
# GitHubは有害か? 暗号化APIコールシーケンスの自動生成のためのオープンソースプロジェクトの分析

GitHub Considered Harmful? Analyzing Open-Source Projects for the Automatic Generation of Cryptographic API Call Sequences ( http://arxiv.org/abs/2211.13498v1 )

ライセンス: Link先を確認
Catherine Tony, Nicol\'as E. D\'iaz Ferreyra, and Riccardo Scandariato(参考訳) GitHubはコード例のための一般的なデータリポジトリである。 コードを自動生成するAIベースのツールのトレーニングには、継続的に使用されている。 しかし、暗号APIの使用を正しく示すためのツールの有効性は十分に評価されていない。 本稿では,GitHubにおける不正な暗号化API呼び出しシーケンスによる誤用の程度と重大性について検討する。 また、学習ベースのモデルをトレーニングし、正しい暗号化API呼び出しシーケンスを生成するGitHubデータの適合性も分析します。 そのため、GitHubから手動で呼び出しシーケンスを抽出し分析しました。 このデータを用いて、DeepAPIと呼ばれる既存の学習モデルを拡張し、与えられた自然言語(NL)記述のための暗号化API呼び出しシーケンスを生成する2つのセキュリティ固有のモデルを作成します。 この結果から,GitHubなどのデータソースを使用してコードを生成するモデルのトレーニングを行う場合,APIコールシーケンスの誤用を無視する必要はないことが示唆された。

GitHub is a popular data repository for code examples. It is being continuously used to train several AI-based tools to automatically generate code. However, the effectiveness of such tools in correctly demonstrating the usage of cryptographic APIs has not been thoroughly assessed. In this paper, we investigate the extent and severity of misuses, specifically caused by incorrect cryptographic API call sequences in GitHub. We also analyze the suitability of GitHub data to train a learning-based model to generate correct cryptographic API call sequences. For this, we manually extracted and analyzed the call sequences from GitHub. Using this data, we augmented an existing learning-based model called DeepAPI to create two security-specific models that generate cryptographic API call sequences for a given natural language (NL) description. Our results indicate that it is imperative to not neglect the misuses in API call sequences while using data sources like GitHub, to train models that generate code.
翻訳日:2022-11-28 18:51:30 公開日:2022-11-24
# ニューラルHMMを用いた韻律制御型自発性TS

Prosody-controllable spontaneous TTS with neural HMMs ( http://arxiv.org/abs/2211.13533v1 )

ライセンス: Link先を確認
Harm Lameris, Shivam Mehta, Gustav Eje Henter, Joakim Gustafson, \'Eva Sz\'ekely(参考訳) 自発音声には、TS(text-to-speech)のモデル化が興味深い、多くの感情的・実践的機能がある。 しかし, 音節, フィラー, 繰り返し, その他の不一致の存在は, 読み上げ音声よりもテキストや音響の整合性が低いことを意味する。 これは注意に基づくTSでは問題となる。 本稿では,不規則なデータ集合と小さなデータ集合から急速に学習し,自然発話に存在する表現現象の多様性を再現するttsアーキテクチャを提案する。 具体的には,自発音声に対する安定な単調アライメントが可能な既存のニューラルHMMベースのTSシステムを修正し,発話レベルの韻律制御を加えることにより,自発音声コーパスにおける幅広い自然変動を表現することができる。 制御精度を客観的に評価し,主観的聞き取りテストを行い,韻律制御を行わずにシステムと比較する。 中間レベルの韻律制御と生態学的に有効なデータを組み合わせて自然発声現象を再現する能力を示すために,2種類のクレーキー音節を合成するシステムの能力を評価する。 オーディオサンプルはhttps://hfkml.github.io/pc_nhmm_tts/で入手できる。

Spontaneous speech has many affective and pragmatic functions that are interesting and challenging to model in TTS (text-to-speech). However, the presence of reduced articulation, fillers, repetitions, and other disfluencies mean that text and acoustics are less well aligned than in read speech. This is problematic for attention-based TTS. We propose a TTS architecture that is particularly suited for rapidly learning to speak from irregular and small datasets while also reproducing the diversity of expressive phenomena present in spontaneous speech. Specifically, we modify an existing neural HMM-based TTS system, which is capable of stable, monotonic alignments for spontaneous speech, and add utterance-level prosody control, so that the system can represent the wide range of natural variability in a spontaneous speech corpus. We objectively evaluate control accuracy and perform a subjective listening test to compare to a system without prosody control. To exemplify the power of combining mid-level prosody control and ecologically valid data for reproducing intricate spontaneous speech phenomena, we evaluate the system's capability of synthesizing two types of creaky phonation. Audio samples are available at https://hfkml.github.io/pc_nhmm_tts/
翻訳日:2022-11-28 18:51:17 公開日:2022-11-24
# 予測と最適化による機械学習の交わり-理論と応用

The intersection of machine learning with forecasting and optimisation: theory and applications ( http://arxiv.org/abs/2211.13583v1 )

ライセンス: Link先を確認
Mahdi Abolghasemi(参考訳) 予測と最適化は、実際に広く使われている運用研究の2つの主要な分野である。 これらの手法は様々な方法で相互成長に寄与した。 しかし、これら2つの分野の関係性や統合性は十分に解明されていない。 我々はこれらの2つの分野の統合を提唱し、不確実性に対処するために予測と最適化の両方を必要とするいくつかの問題を探求する。 さらに,機械学習と予測・最適化の交点にある方法論について検討し,実世界の問題に対処する。 最後に、この領域で働くことに興味のある人にいくつかの研究指針を提供する。

Forecasting and optimisation are two major fields of operations research that are widely used in practice. These methods have contributed to each other growth in several ways. However, the nature of the relationship between these two fields and integrating them have not been explored or understood enough. We advocate the integration of these two fields and explore several problems that require both forecasting and optimisation to deal with the uncertainties. We further investigate some of the methodologies that lie at the intersection of machine learning with prediction and optimisation to address real-world problems. Finally, we provide several research directions for those interested to work in this domain.
翻訳日:2022-11-28 18:50:56 公開日:2022-11-24
# ab-initio量子化学のための自己アテンションアンサッツ

A Self-Attention Ansatz for Ab-initio Quantum Chemistry ( http://arxiv.org/abs/2211.13672v1 )

ライセンス: Link先を確認
Ingrid von Glehn, James S. Spencer, David Pfau(参考訳) 本稿では,量子化学と物質科学の基本的な方程式である多電子Schr\odinger方程式の近似(あるいはAnsatz)として使用できる,自己注意型ウェーブファンクショントランスフォーマー(Psiformer)を用いたニューラルネットワークアーキテクチャを提案する。 この方程式は第一原理から解くことができ、外部のトレーニングデータを必要としない。 近年、フェルミントやポーリネットのような深層ニューラルネットワークは、これらの第一原理計算の精度を著しく向上させるのに使われているが、電子間の相互作用をゲートする注意深いメカニズムを欠いている。 ここでは、Psiformerが他のニューラルネットワークのドロップイン代替として使用でき、計算の精度が劇的に向上することを示す。 特に大きな分子では、基底状態エネルギーを数十kcal/molで改善することができる。 これは、自己結合ネットワークが電子間の複雑な量子力学的相関を学習できることを示し、より大きな系の化学計算において前例のない精度に達する有望な経路であることを示している。

We present a novel neural network architecture using self-attention, the Wavefunction Transformer (Psiformer), which can be used as an approximation (or Ansatz) for solving the many-electron Schr\"odinger equation, the fundamental equation for quantum chemistry and material science. This equation can be solved from first principles, requiring no external training data. In recent years, deep neural networks like the FermiNet and PauliNet have been used to significantly improve the accuracy of these first-principle calculations, but they lack an attention-like mechanism for gating interactions between electrons. Here we show that the Psiformer can be used as a drop-in replacement for these other neural networks, often dramatically improving the accuracy of the calculations. On larger molecules especially, the ground state energy can be improved by dozens of kcal/mol, a qualitative leap over previous methods. This demonstrates that self-attention networks can learn complex quantum mechanical correlations between electrons, and are a promising route to reaching unprecedented accuracy in chemical calculations on larger systems.
翻訳日:2022-11-28 18:50:48 公開日:2022-11-24
# 安定であるか否かは、それが問題である:逆問題に対するニューラルネットワークを理解する。

To be or not to be stable, that is the question: understanding neural networks for inverse problems ( http://arxiv.org/abs/2211.13692v1 )

ライセンス: Link先を確認
Davide Evangelista, James Nagy, Elena Morotti, Elena Loli Piccolomini(参考訳) 例えば信号や画像処理において発生する線形逆問題の解は、不条件がデータのノイズを増幅するため、難しい問題である。 最近導入されたディープラーニングベースのアルゴリズムは、従来のモデルベースのアプローチを圧倒するが、データ摂動に関して不安定に陥ることが多い。 本稿では,線形逆問題解におけるニューラルネットワークの安定性と精度のトレードオフを理論的に解析する。 さらに,ネットワークトレーニングにおいて,モデルに基づく反復スキームから正規化を継承することにより,精度を維持し,ネットワーク安定性を向上させるための教師付き解と教師なし解を提案する。 画像劣化に関する大規模な数値実験により,雑音に対する逆問題解法における提案ネットワークの理論結果と有効性が確認された。

The solution of linear inverse problems arising, for example, in signal and image processing is a challenging problem, since the ill-conditioning amplifies the noise on the data. Recently introduced deep-learning based algorithms overwhelm the more traditional model-based approaches but they typically suffer from instability with respect to data perturbation. In this paper, we theoretically analyse the trade-off between neural networks stability and accuracy in the solution of linear inverse problems. Moreover, we propose different supervised and unsupervised solutions, to increase network stability by maintaining good accuracy, by inheriting, in the network training, regularization from a model-based iterative scheme. Extensive numerical experiments on image deblurring confirm the theoretical results and the effectiveness of the proposed networks in solving inverse problems with stability with respect to noise.
翻訳日:2022-11-28 18:50:30 公開日:2022-11-24
# データ駆動型物理インフォームドグリーディオートエンコーダシミュレータ

Certified data-driven physics-informed greedy auto-encoder simulator ( http://arxiv.org/abs/2211.13698v1 )

ライセンス: Link先を確認
Xiaolong He, Youngsoo Choi, William D. Fries, Jonathan L. Belof, Jiun-Shyan Chen(参考訳) 高次元非線形力学系のデータ駆動型物理インフォームドグレディ自動エンコーダシミュレータにおいて,パラメータ適応型グレディ遅延宇宙ダイナミクス同定(gLaSDI)フレームワークを開発した。 提案手法では,自動エンコーダとダイナミクス同定モデルを対話的に訓練し,内在的で単純な潜在空間ダイナミクスを探索する。 最適モデル性能のためのパラメータ空間を効果的に探索するために,物理インフォームドエラーインジケータと統合された適応型グリーディサンプリングアルゴリズムを導入し,ハエの最適なトレーニングサンプルを探索し,従来の一様サンプリングよりも優れていた。 さらに, 局所潜在空間力学を有効利用し, 予測可能性の向上を図るため, 効率的なk-アレスト近傍凸補間法を用いる。 数値計算の結果,提案手法は1~5%の相対誤差で111~2,658倍の高速化を実現している。

A parametric adaptive greedy Latent Space Dynamics Identification (gLaSDI) framework is developed for accurate, efficient, and certified data-driven physics-informed greedy auto-encoder simulators of high-dimensional nonlinear dynamical systems. In the proposed framework, an auto-encoder and dynamics identification models are trained interactively to discover intrinsic and simple latent-space dynamics. To effectively explore the parameter space for optimal model performance, an adaptive greedy sampling algorithm integrated with a physics-informed error indicator is introduced to search for optimal training samples on the fly, outperforming the conventional predefined uniform sampling. Further, an efficient k-nearest neighbor convex interpolation scheme is employed to exploit local latent-space dynamics for improved predictability. Numerical results demonstrate that the proposed method achieves 121 to 2,658x speed-up with 1 to 5% relative errors for radial advection and 2D Burgers dynamical problems.
翻訳日:2022-11-28 18:50:17 公開日:2022-11-24
# ネットワークの永続化ダイアグラムの削減アルゴリズム: CoralTDA と PrunIT

Reduction Algorithms for Persistence Diagrams of Networks: CoralTDA and PrunIT ( http://arxiv.org/abs/2211.13708v1 )

ライセンス: Link先を確認
Cuneyt Gurcan Akcora, Murat Kantarcioglu, Yulia R. Gel and Baris Coskunuzer(参考訳) トポロジカルデータ分析(TDA)は、従来の方法ではアクセスできないデータの本質的な特性について、重要かつ補完的な情報を提供する。 しかし、高い計算コストは、特に大規模複雑なネットワーク上の機械学習において、実世界研究におけるtdaの応用を阻害する主要な障害である。 実際、引用、ブロックチェーン、オンラインソーシャルネットワークといった現代のネットワークの多くは数十万の頂点を持ち、既存のTDAメソッドの適用は不可能である。 我々は,この主要なtda制限に対処するために,大規模グラフの正確なパーシステンスダイアグラムを計算するための2つの新しい,驚くほど単純だが効果的なアルゴリズムを開発した。 まず、$(k+1)$-core of a graph $\mathcal{g}$ suffices to compute its $k^{th}$ persistence diagram, $pd_k(\mathcal{g})$。 第2に,グラフに対するプルーニングアルゴリズムを導入し,支配的頂点を取り除いて永続化図を計算する。 大規模ネットワークにおける実験の結果, 計算能力は95%まで向上することがわかった。 開発されたフレームワークは、グラフ理論とtdaの間の最初の橋渡しを提供し、大規模複雑なネットワークの機械学習に応用できる。 実装はhttps://github.com/cakcora/PersistentHomologyWithCoralPrunitで公開しています。

Topological data analysis (TDA) delivers invaluable and complementary information on the intrinsic properties of data inaccessible to conventional methods. However, high computational costs remain the primary roadblock hindering the successful application of TDA in real-world studies, particularly with machine learning on large complex networks. Indeed, most modern networks such as citation, blockchain, and online social networks often have hundreds of thousands of vertices, making the application of existing TDA methods infeasible. We develop two new, remarkably simple but effective algorithms to compute the exact persistence diagrams of large graphs to address this major TDA limitation. First, we prove that $(k+1)$-core of a graph $\mathcal{G}$ suffices to compute its $k^{th}$ persistence diagram, $PD_k(\mathcal{G})$. Second, we introduce a pruning algorithm for graphs to compute their persistence diagrams by removing the dominated vertices. Our experiments on large networks show that our novel approach can achieve computational gains up to 95%. The developed framework provides the first bridge between the graph theory and TDA, with applications in machine learning of large complex networks. Our implementation is available at https://github.com/cakcora/PersistentHomologyWithCoralPrunit
翻訳日:2022-11-28 18:50:00 公開日:2022-11-24
# 大規模臨床脳波のテンソル分解 : 脳生理学の解釈的パターン

Tensor Decomposition of Large-scale Clinical EEGs Reveals Interpretable Patterns of Brain Physiology ( http://arxiv.org/abs/2211.13793v1 )

ライセンス: Link先を確認
Teja Gupta, Neeraj Wagh, Samarth Rawal, Brent Berry, Gregory Worrell, Yogatheesan Varatharajah(参考訳) 脳波検査(EEG)における異常パターンの同定は、いくつかの神経疾患の診断の要点である。 現在の臨床脳波検査のプロセスは専門家による視覚的なレビューに大きく依存している。 専門家レビューのプロセスを強化するために、教師なしアプローチを用いた人口レベルの脳波パターンのマイニングに大きな関心がある。 現在のアプローチは二次元分解(主成分分析や独立成分分析など)や深部表現学習(オートエンコーダ、自己超越など)に依存している。 しかし、ほとんどのアプローチは脳波の自然な多次元構造を利用しず、解釈可能性に欠ける。 本研究では, 正準多進分解を用いたテンソル分解法を提案し, 脳波の自然な多次元構造(時間 x 空間 x 周波数)を保ちながら, 個体群レベルの脳波パターンの並列集合を探索する。 次に,認知障害のさまざまな段階を含む患者のコホートを用いて臨床評価を行った。 以上の結果から, 認知障害の段階(健康と軽度認知障害とアルツハイマー認知症)を, 古典的・深層学習ベースラインに比べて有意に少ない特徴で正確に分類し, 生理学的に有意義な特徴を反映していることが明らかとなった。 人口レベルの脳波テンソルの分解は、より小さな専門的な臨床コホートの研究に役立つ専門家が解釈可能な脳波パターンを回復する。

Identifying abnormal patterns in electroencephalography (EEG) remains the cornerstone of diagnosing several neurological diseases. The current clinical EEG review process relies heavily on expert visual review, which is unscalable and error-prone. In an effort to augment the expert review process, there is a significant interest in mining population-level EEG patterns using unsupervised approaches. Current approaches rely either on two-dimensional decompositions (e.g., principal and independent component analyses) or deep representation learning (e.g., auto-encoders, self-supervision). However, most approaches do not leverage the natural multi-dimensional structure of EEGs and lack interpretability. In this study, we propose a tensor decomposition approach using the canonical polyadic decomposition to discover a parsimonious set of population-level EEG patterns, retaining the natural multi-dimensional structure of EEGs (time x space x frequency). We then validate their clinical value using a cohort of patients including varying stages of cognitive impairment. Our results show that the discovered patterns reflect physiologically meaningful features and accurately classify the stages of cognitive impairment (healthy vs mild cognitive impairment vs Alzheimer's dementia) with substantially fewer features compared to classical and deep learning-based baselines. We conclude that the decomposition of population-level EEG tensors recovers expert-interpretable EEG patterns that can aid in the study of smaller specialized clinical cohorts.
翻訳日:2022-11-28 18:49:25 公開日:2022-11-24
# 画像解析パイプラインによる交通微粒子排出の自動定量化

Automated Quantification of Traffic Particulate Emissions via an Image Analysis Pipeline ( http://arxiv.org/abs/2211.13455v1 )

ライセンス: Link先を確認
Kong Yuan Ho, Chin Seng Lim, Matthena A. Kattar, Bharathi Boppana, Liya Yu, Chin Chun Ooi(参考訳) 交通の排出は世界中の大気汚染、特にシンガポールのような都市化都市に大きな影響を与えることが知られている。 従来,幹線道路沿いの粒子状汚染はピーク時の交通量の増加と強い相関を示すことが示されており,交通排出の減少は健康状態の改善につながると考えられた。 しかし、多くの場合、車両交通の適正な数の取得は手作業であり、非常に困難である。 これにより、例えば、新しい交通規制(例えば、カープール)や計算モデリングなどの介入措置の有効性を理解しようとする場合など、長期にわたって縦断的な監視を行う能力を制限する。 そこで本研究では,交通画像を利用して,他の測定値と容易に統合して様々な研究を容易にすることのできる車両数を求める,統合型機械学習パイプラインを提案し,実装する。 2022年にシンガポールで取得した交通画像のオープンソースデータセットにおいて,本パイプラインの有用性と精度を検証し,得られた車両数と2週間のコロケーション粒子計測データとの比較を行った。 路側粒子放出は、得られた車両数と0.93の相関係数とをよく相関させ、この方法が粒子放出の迅速かつ効果的な相関として有効であることを示す。

Traffic emissions are known to contribute significantly to air pollution around the world, especially in heavily urbanized cities such as Singapore. It has been previously shown that the particulate pollution along major roadways exhibit strong correlation with increased traffic during peak hours, and that reductions in traffic emissions can lead to better health outcomes. However, in many instances, obtaining proper counts of vehicular traffic remains manual and extremely laborious. This then restricts one's ability to carry out longitudinal monitoring for extended periods, for example, when trying to understand the efficacy of intervention measures such as new traffic regulations (e.g. car-pooling) or for computational modelling. Hence, in this study, we propose and implement an integrated machine learning pipeline that utilizes traffic images to obtain vehicular counts that can be easily integrated with other measurements to facilitate various studies. We verify the utility and accuracy of this pipeline on an open-source dataset of traffic images obtained for a location in Singapore and compare the obtained vehicular counts with collocated particulate measurement data obtained over a 2-week period in 2022. The roadside particulate emission is observed to correlate well with obtained vehicular counts with a correlation coefficient of 0.93, indicating that this method can indeed serve as a quick and effective correlate of particulate emissions.
翻訳日:2022-11-28 18:41:53 公開日:2022-11-24
# 時間臨界IoTアプリケーションのためのロバストエッジインテリジェンスを実現するセマンティック通信

Semantic Communication Enabling Robust Edge Intelligence for Time-Critical IoT Applications ( http://arxiv.org/abs/2211.13787v1 )

ライセンス: Link先を確認
Andrea Cavagn, Nan Li, Alexandros Iosifidis, Qi Zhang(参考訳) 本稿では、時間クリティカルなIoTアプリケーションのためのセマンティック通信を用いて、堅牢なエッジインテリジェンスを設計することを目的とする。 画像DCT係数が推定精度に与える影響を系統的に解析し、まず最も有意義なタスクデータを送信し、オフロードのためのチャネル非依存の有効性符号化を提案する。 このスキームは利用可能な全ての通信リソースをうまく活用し、伝送遅延と推論精度のバランスを取ることができる。 次に、畳み込みニューラルネットワーク(CNN)トレーニングのための新しい画像拡張プロセスを実装し、元のCNNモデルをロバストCNNモデルに変換することにより、有効デコーディングを設計する。 提案手法を用いて,Robust MobileNet-v2 と Robust ResNet-50 を生成する。 提案するエッジインテリジェンスフレームワークは,提案する有効性エンコーディングと有効性復号で構成される。 実験の結果,ロバストなcnnモデルを用いたデコードの有効性は,チャネルエラーや通信資源の制限による様々な画像歪みに対して一貫して向上することがわかった。 セマンティクス通信を用いたエッジインテリジェンスフレームワークは、レイテンシとデータレートの制約、特に超厳密な期限と低いデータレート下での従来のアプローチを大きく上回っている。

This paper aims to design robust Edge Intelligence using semantic communication for time-critical IoT applications. We systematically analyze the effect of image DCT coefficients on inference accuracy and propose the channel-agnostic effectiveness encoding for offloading by transmitting the most meaningful task data first. This scheme can well utilize all available communication resource and strike a balance between transmission latency and inference accuracy. Then, we design an effectiveness decoding by implementing a novel image augmentation process for convolutional neural network (CNN) training, through which an original CNN model is transformed into a Robust CNN model. We use the proposed training method to generate Robust MobileNet-v2 and Robust ResNet-50. The proposed Edge Intelligence framework consists of the proposed effectiveness encoding and effectiveness decoding. The experimental results show that the effectiveness decoding using the Robust CNN models perform consistently better under various image distortions caused by channel errors or limited communication resource. The proposed Edge Intelligence framework using semantic communication significantly outperforms the conventional approach under latency and data rate constraints, in particular, under ultra stringent deadlines and low data rate.
翻訳日:2022-11-28 18:41:31 公開日:2022-11-24
# 機械学習におけるデータプロヴァンス推論

Data Provenance Inference in Machine Learning ( http://arxiv.org/abs/2211.13416v1 )

ライセンス: Link先を確認
Mingxue Xu, Xiang-Yang Li(参考訳) 様々な情報の意図しない記憶は、近年、メンバーシップ推論やプロパティ推論など、学術的な注目を集めている。 現在の取り組みには、データセットのオーナシップの推測とユーザ監査が含まれる。 データライフサイクルとMLモデル生産を基盤として,MLトレーニングデータの生成,収集,処理特性を推測するデータプロバンス推論という推論プロセスを提案し,厳格なメタデータを維持することなく,トレーニングデータギャップの配置を支援する。 MLトレーニングでは,データ出典とデータ出典推論タスクを定式的に定義する。 次に,組込み空間の多重インスタンス分類と影学習を組み合わせた新しい推論手法を提案する。 包括的な評価は、さまざまな種類のデータ(ビジネス、郡、映画、ユーザー)を持つ、ブラックボックスとホワイトボックスの設定で言語、ビジュアル、構造化されたデータをカバーする。 著者」がデータ証明である場合、最も正確な推測精度はホワイトボックステキストモデルで98.96%に達する。 実験の結果, 一般に, 推定性能は, 推定のための参照データ量, 深さ, およびアクセス層のパラメータ量と正の相関を示した。 さらに,提案手法がうまく機能するかを説明するために,データプロヴァンス定義のポストホックな統計解析を行う。

Unintended memorization of various information granularity has garnered academic attention in recent years, e.g. membership inference and property inference. How to inversely use this privacy leakage to facilitate real-world applications is a growing direction; the current efforts include dataset ownership inference and user auditing. Standing on the data lifecycle and ML model production, we propose an inference process named Data Provenance Inference, which is to infer the generation, collection or processing property of the ML training data, to assist ML developers in locating the training data gaps without maintaining strenuous metadata. We formularly define the data provenance and the data provenance inference task in ML training. Then we propose a novel inference strategy combining embedded-space multiple instance classification and shadow learning. Comprehensive evaluations cover language, visual and structured data in black-box and white-box settings, with diverse kinds of data provenance (i.e. business, county, movie, user). Our best inference accuracy achieves 98.96% in the white-box text model when "author" is the data provenance. The experimental results indicate that, in general, the inference performance positively correlated with the amount of reference data for inference, the depth and also the amount of the parameter of the accessed layer. Furthermore, we give a post-hoc statistical analysis of the data provenance definition to explain when our proposed method works well.
翻訳日:2022-11-28 18:40:34 公開日:2022-11-24
# クラウド環境におけるプライバシー保護型アウトソースデータモデル

A Privacy-Preserving Outsourced Data Model in Cloud Environment ( http://arxiv.org/abs/2211.13542v1 )

ライセンス: Link先を確認
Rishabh Gupta and Ashutosh Kumar Singh(参考訳) 現在、医療診断、オンライン詐欺検出、eメールスパムフィルタリングなどの機械学習アプリケーションが増えており、クラウドコンピューティングによってサービスが提供されている。 クラウドサービスプロバイダは、さまざまな所有者からデータを収集して、クラウド環境で機械学習システムをトレーニングまたは分類する。 しかし、複数のデータ所有者が第三者が関与するクラウドプラットフォームに完全に依存するわけではない。 したがって、データセキュリティとプライバシ問題は、マシンラーニングツール、特に複数のデータ所有者にとって重要な障害のひとつだ。 さらに、不正なエンティティは、統計入力データを検出し、機械学習モデルのパラメータを推測することができる。 そこで,機械学習の効率を損なうことなくデータのプライバシを保護するプライバシ保存モデルを提案する。 データ所有者のデータを保護するために、epsilon-differential privacyが使われ、フォグノードは提案方式における低帯域幅とレイテンシの問題に対処するために使用される。 ノイズは、データに付加されるエプシロン微分機構によって生成される。 さらに、オーナーデータを保護するために、データ所有者サイトにノイズを注入する。 フォグノードは、データ所有者からノイズ付加されたデータを収集し、ストレージ、計算、分類タスクの目的のためにクラウドプラットフォームに移行します。

Nowadays, more and more machine learning applications, such as medical diagnosis, online fraud detection, email spam filtering, etc., services are provided by cloud computing. The cloud service provider collects the data from the various owners to train or classify the machine learning system in the cloud environment. However, multiple data owners may not entirely rely on the cloud platform that a third party engages. Therefore, data security and privacy problems are among the critical hindrances to using machine learning tools, particularly with multiple data owners. In addition, unauthorized entities can detect the statistical input data and infer the machine learning model parameters. Therefore, a privacy-preserving model is proposed, which protects the privacy of the data without compromising machine learning efficiency. In order to protect the data of data owners, the epsilon-differential privacy is used, and fog nodes are used to address the problem of the lower bandwidth and latency in this proposed scheme. The noise is produced by the epsilon-differential mechanism, which is then added to the data. Moreover, the noise is injected at the data owner site to protect the owners data. Fog nodes collect the noise-added data from the data owners, then shift it to the cloud platform for storage, computation, and performing the classification tasks purposes.
翻訳日:2022-11-28 18:34:50 公開日:2022-11-24
# mlの解釈:単純ではない

ML Interpretability: Simple Isn't Easy ( http://arxiv.org/abs/2211.13617v1 )

ライセンス: Link先を確認
Tim R\"az(参考訳) MLモデルの解釈性は重要であるが、その意味は明らかではない。 これまでのところ、ほとんどの哲学者はニューラルネットワークのようなブラックボックスモデルの解釈可能性の欠如と、これらのモデルをより透過的にすることを目的とした説明可能なAIのような方法について議論してきた。 本稿では,「解釈可能性スペクトル」の他端に着目し,解釈可能性の性質を明らかにすることを目的とする。 いくつかのモデル、線形モデルと決定木が高度に解釈可能である理由や、MARSやGAMといった一般的なモデルがある程度の解釈可能性を維持している理由についても検討する。 解釈可能性の獲得には異質性があるが、特にその場合の解釈性は明確な方法で説明できる。

The interpretability of ML models is important, but it is not clear what it amounts to. So far, most philosophers have discussed the lack of interpretability of black-box models such as neural networks, and methods such as explainable AI that aim to make these models more transparent. The goal of this paper is to clarify the nature of interpretability by focussing on the other end of the 'interpretability spectrum'. The reasons why some models, linear models and decision trees, are highly interpretable will be examined, and also how more general models, MARS and GAM, retain some degree of interpretability. I find that while there is heterogeneity in how we gain interpretability, what interpretability is in particular cases can be explicated in a clear manner.
翻訳日:2022-11-28 18:34:30 公開日:2022-11-24
# 深部グラフ表現学習を用いたエンド・ツー・エンド風車ウェイクモデリング

End-to-end Wind Turbine Wake Modelling with Deep Graph Representation Learning ( http://arxiv.org/abs/2211.13649v1 )

ライセンス: Link先を確認
Siyi Li, Mingrui Zhang, Matthew Piggott(参考訳) 風力タービンのウェイクモデリングは、正確な資源評価、レイアウトの最適化、風力発電所の運用管理において重要な役割を担っている。 本研究では,グラフニューラルネットワークと呼ばれる最先端グラフ表現学習法に基づいて,風車ウェイク表現のためのサロゲートモデルを提案する。 提案したエンドツーエンドディープラーニングモデルは、非構造メッシュ上で直接動作し、高忠実度データに対して検証され、様々な入口条件やタービンヨー角度に対して高精度な3次元流れ場予測を行う能力を示している。 ここで用いられる特定のグラフニューラルネットワークモデルは、目に見えないデータにうまく一般化し、一般的なグラフニューラルネットワークと比較して過度なスムーシングに敏感でないことを示す。 実世界の風力発電所に基づくケーススタディでは,提案手法による大規模発電予測の可能性をさらに実証する。 さらに,提案するグラフニューラルネットワークフレームワークは柔軟かつ高度に汎用的であり,非構造メッシュ上の任意の定常数値流体力学シミュレーションに適用可能である。

Wind turbine wake modelling is of crucial importance to accurate resource assessment, to layout optimisation, and to the operational control of wind farms. This work proposes a surrogate model for the representation of wind turbine wakes based on a state-of-the-art graph representation learning method termed a graph neural network. The proposed end-to-end deep learning model operates directly on unstructured meshes and has been validated against high-fidelity data, demonstrating its ability to rapidly make accurate 3D flow field predictions for various inlet conditions and turbine yaw angles. The specific graph neural network model employed here is shown to generalise well to unseen data and is less sensitive to over-smoothing compared to common graph neural networks. A case study based upon a real world wind farm further demonstrates the capability of the proposed approach to predict farm scale power generation. Moreover, the proposed graph neural network framework is flexible and highly generic and as formulated here can be applied to any steady state computational fluid dynamics simulations on unstructured meshes.
翻訳日:2022-11-28 18:34:17 公開日:2022-11-24
# システムから見たハイパーパラメータチューニングのフェデレーション学習

Federated Learning Hyper-Parameter Tuning from a System Perspective ( http://arxiv.org/abs/2211.13656v1 )

ライセンス: Link先を確認
Huanle Zhang and Lei Fu and Mi Zhang and Pengfei Hu and Xiuzhen Cheng and Prasant Mohapatra and Xin Liu(参考訳) Federated Learning(FL)は、クライアントのデータプライバシを保存する分散モデルトレーニングパラダイムである。 学界と産業の両方から大きな注目を集めている。 FLハイパーパラメータ(例えば、選択されたクライアントの数とトレーニングパスの数)は、計算時間、送信時間、計算負荷、送信負荷の点で、トレーニングのオーバーヘッドに大きな影響を与える。 しかし、FLハイパーパラメーターを手動で選択する現在の実践は、アプリケーションのトレーニングの好みが異なるため、FL実践者に重荷を課している。 本稿では,FLトレーニングにおけるアプリケーションの多様なシステム要件に合わせて自動FLハイパーパラメータチューニングアルゴリズムであるFedTuneを提案する。 FedTuneはFLトレーニング中にFLハイパーパラメータを反復的に調整し、既存のFLシステムに容易に統合できる。 多様なアプリケーションおよびfl集約アルゴリズムのためのフェデチューンを広範囲に評価した結果、フェデチューンは軽量で効果的であり、固定flハイパーパラメータと比較して8.48%-26.75%のシステムオーバーヘッド削減を達成した。 本稿では,ハイパフォーマンスなflトレーニングソリューションの設計を支援する。 FedTuneのソースコードはhttps://github.com/DataSysTech/FedTuneで入手できる。

Federated learning (FL) is a distributed model training paradigm that preserves clients' data privacy. It has gained tremendous attention from both academia and industry. FL hyper-parameters (e.g., the number of selected clients and the number of training passes) significantly affect the training overhead in terms of computation time, transmission time, computation load, and transmission load. However, the current practice of manually selecting FL hyper-parameters imposes a heavy burden on FL practitioners because applications have different training preferences. In this paper, we propose FedTune, an automatic FL hyper-parameter tuning algorithm tailored to applications' diverse system requirements in FL training. FedTune iteratively adjusts FL hyper-parameters during FL training and can be easily integrated into existing FL systems. Through extensive evaluations of FedTune for diverse applications and FL aggregation algorithms, we show that FedTune is lightweight and effective, achieving 8.48%-26.75% system overhead reduction compared to using fixed FL hyper-parameters. This paper assists FL practitioners in designing high-performance FL training solutions. The source code of FedTune is available at https://github.com/DataSysTech/FedTune.
翻訳日:2022-11-28 18:34:01 公開日:2022-11-24
# エッジコンピューティング環境における適応モニタリングのための確率的時系列予測

Probabilistic Time Series Forecasting for Adaptive Monitoring in Edge Computing Environments ( http://arxiv.org/abs/2211.13729v1 )

ライセンス: Link先を確認
Dominik Scheinert, Babak Sistani Zadeh Aghdam, Soeren Becker, Odej Kao, Lauritz Thamsen(参考訳) 計算がネットワークのエッジにシフトするにつれて、自律運転における中間処理ノードなどの重要なインフラストラクチャの監視は、一般的にリソース制約のある環境のため、さらに複雑になる。 監視によるネットワークリンクのリソースオーバーヘッドを低減するため,データ発光装置のフィルタリング手法に従うか,採用した予測モデルに基づいて動的サンプリングを行うかの方法が議論されている。 それでも既存の手法では、デバイスの再設定、追加リソースの利用、採用モデルの高度化の制限といった、エッジデバイスへの適応的な監視が主に求められている。 本稿では,確率的予測を内部的に活用し,サンプリング頻度の文脈適応や制約付きネットワークリソースの緩和に使用できるモデル不確実性を定量化する手法を提案する。 我々は,公開されているストリーミングデータセット上でのモニタリングパイプラインのプロトタイプ実装を評価し,その手法比較において,リソース効率への影響を実証する。

With increasingly more computation being shifted to the edge of the network, monitoring of critical infrastructures, such as intermediate processing nodes in autonomous driving, is further complicated due to the typically resource-constrained environments. In order to reduce the resource overhead on the network link imposed by monitoring, various methods have been discussed that either follow a filtering approach for data-emitting devices or conduct dynamic sampling based on employed prediction models. Still, existing methods are mainly requiring adaptive monitoring on edge devices, which demands device reconfigurations, utilizes additional resources, and limits the sophistication of employed models. In this paper, we propose a sampling-based and cloud-located approach that internally utilizes probabilistic forecasts and hence provides means of quantifying model uncertainties, which can be used for contextualized adaptations of sampling frequencies and consequently relieves constrained network resources. We evaluate our prototype implementation for the monitoring pipeline on a publicly available streaming dataset and demonstrate its positive impact on resource efficiency in a method comparison.
翻訳日:2022-11-28 18:33:44 公開日:2022-11-24
# ストラグラー緩和のための逐次勾配符号化

Sequential Gradient Coding For Straggler Mitigation ( http://arxiv.org/abs/2211.13802v1 )

ライセンス: Link先を確認
M. Nikhil Krishnan, MohammadReza Ebrahimi, Ashish Khisti(参考訳) 分散コンピューティングでは、遅いノード(ストラグラー)は通常ボトルネックとなる。 Tandonらによって導入されたGC(Gradient Coding)は、誤り訂正符号の原理を用いて、ストラグラーの存在下で勾配計算を分散する効率的な手法である。 本稿では,各勾配の処理をラウンド$t$で開始し,ラウンド$(t+t)$で終了するような勾配列$\{g(1),g(2),\ldots,g(j)\}$の分散計算を考える。 ここで$T\geq 0$は遅延パラメータを表す。 GCスキームでは、コーディングは計算ノード間でのみ行われ、結果として$T=0$というソリューションが得られる。 一方、$t>0$を持つことで、時間次元を利用するスキームを設計することができる。 本稿では,GCと比較して性能向上を示す2つの手法を提案する。 最初のスキームでは、GCと未完成タスクの選択的な繰り返しを組み合わせることで、トラグラー緩和の改善を実現しています。 私たちの主な貢献を構成する第2のスキームでは、タスクのサブセットにgcを適用し、残りのタスクを反復します。 次に、過去のストラグラーパターンに基づいて、労働者とラウンドにまたがる2つのタスクのクラスを適応的に多重化する。 理論解析を用いて,第2のスキームが計算負荷を大幅に削減できることを実証する。 実験では、256のワーカノードを含むAWS Lambdaクラスタ上で、並列に複数のニューラルネットワークをトレーニングする実践的な設定について検討した。 提案手法は, 自然に発生する非シミュレートストラグラーの存在下で, ベースラインGC方式よりも16倍のランタイム改善を実現することができることを示す。

In distributed computing, slower nodes (stragglers) usually become a bottleneck. Gradient Coding (GC), introduced by Tandon et al., is an efficient technique that uses principles of error-correcting codes to distribute gradient computation in the presence of stragglers. In this paper, we consider the distributed computation of a sequence of gradients $\{g(1),g(2),\ldots,g(J)\}$, where processing of each gradient $g(t)$ starts in round-$t$ and finishes by round-$(t+T)$. Here $T\geq 0$ denotes a delay parameter. For the GC scheme, coding is only across computing nodes and this results in a solution where $T=0$. On the other hand, having $T>0$ allows for designing schemes which exploit the temporal dimension as well. In this work, we propose two schemes that demonstrate improved performance compared to GC. Our first scheme combines GC with selective repetition of previously unfinished tasks and achieves improved straggler mitigation. In our second scheme, which constitutes our main contribution, we apply GC to a subset of the tasks and repetition for the remainder of the tasks. We then multiplex these two classes of tasks across workers and rounds in an adaptive manner, based on past straggler patterns. Using theoretical analysis, we demonstrate that our second scheme achieves significant reduction in the computational load. In our experiments, we study a practical setting of concurrently training multiple neural networks over an AWS Lambda cluster involving 256 worker nodes, where our framework naturally applies. We demonstrate that the latter scheme can yield a 16\% improvement in runtime over the baseline GC scheme, in the presence of naturally occurring, non-simulated stragglers.
翻訳日:2022-11-28 18:33:27 公開日:2022-11-24
# LaCAM: 高速マルチエージェントパスフィニングのための検索ベースアルゴリズム

LaCAM: Search-Based Algorithm for Quick Multi-Agent Pathfinding ( http://arxiv.org/abs/2211.13432v1 )

ライセンス: Link先を確認
Keisuke Okumura(参考訳) 本稿では,MAPF(LaCAM)の遅延制約付加探索という,マルチエージェントパスフィンディング(MAPF)のための新しい完全アルゴリズムを提案する。 MAPFはグラフ上の複数エージェントの衝突のない経路を見つける問題であり、マルチロボット協調の基礎となっている。 lacamは二段階検索を使って、数百以上のエージェントでも素早く解決策を見つける。 低いレベルでは、エージェントの場所に関する制約を検索する。 高レベルでは、低レベルによって指定された制約に従って、すべてのエージェントの位置のシーケンスを検索する。 我々の徹底的な実験により、LaCAMは、成功率、計画時間、コストの総和のソリューション品質など、様々なシナリオにおいて最先端のMAPFアルゴリズムに匹敵する、あるいは優れることがわかった。

We propose a novel complete algorithm for multi-agent pathfinding (MAPF) called lazy constraints addition search for MAPF (LaCAM). MAPF is a problem of finding collision-free paths for multiple agents on graphs and is the foundation of multi-robot coordination. LaCAM uses a two-level search to find solutions quickly, even with hundreds of agents or more. At the low-level, it searches constraints about agents' locations. At the high-level, it searches a sequence of all agents' locations, following the constraints specified by the low-level. Our exhaustive experiments reveal that LaCAM is comparable to or outperforms state-of-the-art sub-optimal MAPF algorithms in a variety of scenarios, regarding success rate, planning time, and solution quality of sum-of-costs.
翻訳日:2022-11-28 18:24:39 公開日:2022-11-24
# 材料のためのグラフコントラスト学習

Graph Contrastive Learning for Materials ( http://arxiv.org/abs/2211.13408v1 )

ライセンス: Link先を確認
Teddy Koker, Keegan Quigley, Will Spaeth, Nathan C. Frey, Lin Li(参考訳) 最近の研究は、物質特性を効率的に予測し、材料の高スループットスクリーニングを可能にするグラフニューラルネットワークの可能性を示している。 しかし、これらのモデルのトレーニングには、ab initio計算や実験的評価のようなコストのかかる方法で得られる大量のラベル付きデータが必要である。 一連の物質固有の変換を活用することで、結晶グラフニューラルネットワークを用いた表現の合成学習フレームワークであるCrystalCLRを導入する。 新たな損失関数の追加により,我々のフレームワークは,工学的な指紋認証手法と競合する表現を学習することができる。 また、モデルの微調整により、コントラストプリトレーニングは、材料特性の予測のためのグラフニューラルネットワークの性能を向上し、工学的指紋を使用する従来のmlモデルを大幅に上回ることを実証する。 最後に,CrystalCLRは複合クラスでクラスタを形成する物質表現を生成する。

Recent work has shown the potential of graph neural networks to efficiently predict material properties, enabling high-throughput screening of materials. Training these models, however, often requires large quantities of labelled data, obtained via costly methods such as ab initio calculations or experimental evaluation. By leveraging a series of material-specific transformations, we introduce CrystalCLR, a framework for constrastive learning of representations with crystal graph neural networks. With the addition of a novel loss function, our framework is able to learn representations competitive with engineered fingerprinting methods. We also demonstrate that via model finetuning, contrastive pretraining can improve the performance of graph neural networks for prediction of material properties and significantly outperform traditional ML models that use engineered fingerprints. Lastly, we observe that CrystalCLR produces material representations that form clusters by compound class.
翻訳日:2022-11-28 18:23:06 公開日:2022-11-24
# ディープニューラルネットワークにおけるデータセットip使用の追跡

Tracking Dataset IP Use in Deep Neural Networks ( http://arxiv.org/abs/2211.13535v1 )

ライセンス: Link先を確認
Seonhye Park, Alsharif Abuadbba, Shuo Wang, Kristen Moore, Yansong Gao, Hyoungshick Kim, Surya Nepal(参考訳) 高性能ディープニューラルネットワーク(DNN)のトレーニングは通常、大量のデータセットの収集と強力なコンピューティングリソースの使用を必要とする。 したがって、民間の訓練済みDNNの再配布は、モデル所有者に深刻な経済的損失をもたらす可能性がある。 DNNモデルのオーナシップを保護するため、DNNモデルに秘密情報を埋め込んでモデルオーナシップの存在を検証することでDNN透かし方式が提案されている。 しかし、既存のDNN透かし方式では、モデルが透かしで修正されるため、モデルユーティリティを侵害し、透かし除去攻撃に弱い。 あるいは、被害者モデルを変更することなく被疑者モデルと被害者モデルとの類似性を測定するために、DEEPJUDGEと呼ばれる新しいアプローチが導入された。 しかし、DEEPJUDGEは、被疑者のモデルのアーキテクチャが犠牲者のモデルと同じである場合を検出するためにのみ設計される。 本研究では,被疑モデル構築のために被害者のデータが盗まれる新たな攻撃シナリオを防止するため,deeptasterと呼ばれる新しいdnnフィンガープリント技術を提案する。 DEEPTASTERは、疑似モデルのアーキテクチャが被害者のモデルと異なる場合でも、そのようなデータ盗難攻撃を効果的に検出できる。 この目標を達成するために、DEEPTASTERは摂動のあるいくつかの逆画像を生成し、それらをフーリエ周波数領域に変換し、変換された画像を使用して被疑者モデルで使用されるデータセットを識別する。 直感的には、これらの逆画像は特定のデータセット上に構築されたDNNの特徴をキャプチャするために使用できる。 移動学習,プルーニング,ファインチューニング,データ拡張など,3つのモデルアーキテクチャを持つ3つのデータセット上でのDEPTASTERの検出精度を評価した。 全体的なDEPTASTERの精度は94.95%であり、DEPJUDGEが同じ設定で達成した61.11%よりもはるかに優れている。

Training highly performant deep neural networks (DNNs) typically requires the collection of a massive dataset and the use of powerful computing resources. Therefore, unauthorized redistribution of private pre-trained DNNs may cause severe economic loss for model owners. For protecting the ownership of DNN models, DNN watermarking schemes have been proposed by embedding secret information in a DNN model and verifying its presence for model ownership. However, existing DNN watermarking schemes compromise the model utility and are vulnerable to watermark removal attacks because a model is modified with a watermark. Alternatively, a new approach dubbed DEEPJUDGE was introduced to measure the similarity between a suspect model and a victim model without modifying the victim model. However, DEEPJUDGE would only be designed to detect the case where a suspect model's architecture is the same as a victim model's. In this work, we propose a novel DNN fingerprinting technique dubbed DEEPTASTER to prevent a new attack scenario in which a victim's data is stolen to build a suspect model. DEEPTASTER can effectively detect such data theft attacks even when a suspect model's architecture differs from a victim model's. To achieve this goal, DEEPTASTER generates a few adversarial images with perturbations, transforms them into the Fourier frequency domain, and uses the transformed images to identify the dataset used in a suspect model. The intuition is that those adversarial images can be used to capture the characteristics of DNNs built on a specific dataset. We evaluated the detection accuracy of DEEPTASTER on three datasets with three model architectures under various attack scenarios, including transfer learning, pruning, fine-tuning, and data augmentation. Overall, DEEPTASTER achieves a balanced accuracy of 94.95%, which is significantly better than 61.11% achieved by DEEPJUDGE in the same settings.
翻訳日:2022-11-28 18:22:52 公開日:2022-11-24
# 自己監督型MR画像再構成のための反復的データ再構成

Iterative Data Refinement for Self-Supervised MR Image Reconstruction ( http://arxiv.org/abs/2211.13440v1 )

ライセンス: Link先を確認
Xue Liu, Juan Zou, Xiawu Zheng, Cheng Li, Hairong Zheng, Shanshan Wang(参考訳) 磁気共鳴イメージング(MRI)は、様々な疾患の可視化、検出、診断のためのクリニックにおいて重要な技術となっている。 しかし、MRIのボトルネックの1つは、比較的遅いデータ取得プロセスである。 k空間アンサンプと高品質画像再構成に基づく高速mriが広く活用され,近年,深層学習に基づく手法が数多く開発されている。 有望な結果が得られたが、既存の手法のほとんどは、ディープラーニングモデルをトレーニングするために完全にサンプル化された参照データを必要とする。 残念ながら、実世界のアプリケーションでは、完全にサンプリングされたMRIデータは入手が困難である。 そこで本稿では,自己監督型MR画像再構成のためのデータ改質フレームワークを提案する。 具体的には,まず,自己教師法と教師法との性能差の原因を解析し,両者間のトレーニングデータセットにおけるバイアスが1つの大きな要因であることを示す。 そして,このデータバイアスを低減すべく,効果的な自己教師付き学習データ改良手法を考案する。 データリファインメントにより、正確なMRイメージングを促進するために、自己教師付きMR画像再構成フレームワークが開発された。 本手法をin-vivo mriデータセット上で評価する。 実験結果から, 完全にサンプリングされたMRIデータを使わずに, 画像の細部や構造を高加速度で捉える強力な能力を有することが明らかとなった。

Magnetic Resonance Imaging (MRI) has become an important technique in the clinic for the visualization, detection, and diagnosis of various diseases. However, one bottleneck limitation of MRI is the relatively slow data acquisition process. Fast MRI based on k-space undersampling and high-quality image reconstruction has been widely utilized, and many deep learning-based methods have been developed in recent years. Although promising results have been achieved, most existing methods require fully-sampled reference data for training the deep learning models. Unfortunately, fully-sampled MRI data are difficult if not impossible to obtain in real-world applications. To address this issue, we propose a data refinement framework for self-supervised MR image reconstruction. Specifically, we first analyze the reason of the performance gap between self-supervised and supervised methods and identify that the bias in the training datasets between the two is one major factor. Then, we design an effective self-supervised training data refinement method to reduce this data bias. With the data refinement, an enhanced self-supervised MR image reconstruction framework is developed to prompt accurate MR imaging. We evaluate our method on an in-vivo MRI dataset. Experimental results show that without utilizing any fully sampled MRI data, our self-supervised framework possesses strong capabilities in capturing image details and structures at high acceleration factors.
翻訳日:2022-11-28 18:08:10 公開日:2022-11-24
# 一貫性超解法のためのGAN事前学習

GAN Prior based Null-Space Learning for Consistent Super-Resolution ( http://arxiv.org/abs/2211.13524v1 )

ライセンス: Link先を確認
Yinhuai Wang, Yujie Hu, Jiwen Yu, Jian Zhang(参考訳) 一貫性と現実性は、画像超解像の2つの重要な問題である。 GANの先行使用により現実性は劇的に改善されているが、最先端の手法は依然として局所構造や色(例えば、歯と目)に矛盾する。 本稿では,範囲空間部分の固定中にヌル空間成分のみを学習することにより,これらの矛盾を解析的に排除できることを示す。 さらに,超解像タスクのための普遍的範囲ヌル空間分解であるプールベース分解(pd)を簡潔かつ高速かつパラメータフリーで設計する。 PDは最先端のGANプリエントベースSR法に容易に適用でき、現実性を損なうことも、余分なパラメータや計算コストをもたらすこともできない。 さらに,我々のアブレーション研究により,pdはピクセル単位の損失を置換してトレーニングを行い,見当たらないダウンサンプリングや実世界の劣化に直面する際の一般化性能を向上できることが判明した。 実験により、PDの使用は最先端のSR性能を向上し、トレーニングの収束を最大2~10倍に加速することが示された。

Consistency and realness have always been the two critical issues of image super-resolution. While the realness has been dramatically improved with the use of GAN prior, the state-of-the-art methods still suffer inconsistencies in local structures and colors (e.g., tooth and eyes). In this paper, we show that these inconsistencies can be analytically eliminated by learning only the null-space component while fixing the range-space part. Further, we design a pooling-based decomposition (PD), a universal range-null space decomposition for super-resolution tasks, which is concise, fast, and parameter-free. PD can be easily applied to state-of-the-art GAN Prior based SR methods to eliminate their inconsistencies, neither compromising the realness nor bringing extra parameters or computational costs. Besides, our ablation studies reveal that PD can replace pixel-wise losses for training and achieve better generalization performance when facing unseen downsamplings or even real-world degradation. Experiments show that the use of PD refreshes state-of-the-art SR performance and speeds up the convergence of training up to 2~10 times.
翻訳日:2022-11-28 18:07:52 公開日:2022-11-24
# マルチバイオメトリックスにおける品質ベース条件処理:センサの相互運用性への応用

Quality-Based Conditional Processing in Multi-Biometrics: Application to Sensor Interoperability ( http://arxiv.org/abs/2211.13554v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Julian Fierrez, Daniel Ramos, Joaquin Gonzalez-Rodriguez(参考訳) 生体認証技術がますます普及するにつれて、運用システムの一部を新しい設計に置き換えることは一般的である。 新しいベンダーソリューションが組み込まれた場合、登録ユーザを再獲得するコストと不便は、このアプローチを難しくし、多くのアプリケーションが定期的に異なるソースの情報を扱う必要がある。 これらの相互運用性問題は生体認証システムの性能に劇的に影響しうるため、克服する必要がある。 本稿では,2007年のバイオセーフ・マルチモーダル評価キャンペーンにおいて,複数のバイオメトリック・デバイスを用いて生体計測信号を生成する場合の融合アルゴリズムを比較することを目的とした,品質に基づく評価を行う atvs-uam 融合手法について述べる。 生のバイオメトリックスデータによる品質測定は、装置の変更による品質条件の調整を可能にする。 このシステム調整は品質ベースの条件処理と呼ばれる。 提案手法は線形ロジスティック回帰に基づいており、融合スコアは対数様比の傾向にある。 これにより、モダリティ間の低依存を前提として、異なるデバイスからのマッチングスコアの容易かつ効率的な組み合わせが可能になる。 本システムでは,データソース(センサ)に依存した異なるシステムモジュール間の切り替えや,融合時の低品質データチャネルの拒否に品質情報を用いる。 我々は,本手法を正規化スコアよりも規則に基づく融合スキームのセットと比較する。 その結果,提案手法がすべてのルールベース融合スキームを上回っていることがわかった。 また,品質に基づくチャネル拒絶方式では,エラー率の25%の全体的な改善が得られた。

As biometric technology is increasingly deployed, it will be common to replace parts of operational systems with newer designs. The cost and inconvenience of reacquiring enrolled users when a new vendor solution is incorporated makes this approach difficult and many applications will require to deal with information from different sources regularly. These interoperability problems can dramatically affect the performance of biometric systems and thus, they need to be overcome. Here, we describe and evaluate the ATVS-UAM fusion approach submitted to the quality-based evaluation of the 2007 BioSecure Multimodal Evaluation Campaign, whose aim was to compare fusion algorithms when biometric signals were generated using several biometric devices in mismatched conditions. Quality measures from the raw biometric data are available to allow system adjustment to changing quality conditions due to device changes. This system adjustment is referred to as quality-based conditional processing. The proposed fusion approach is based on linear logistic regression, in which fused scores tend to be log-likelihood-ratios. This allows the easy and efficient combination of matching scores from different devices assuming low dependence among modalities. In our system, quality information is used to switch between different system modules depending on the data source (the sensor in our case) and to reject channels with low quality data during the fusion. We compare our fusion approach to a set of rule-based fusion schemes over normalized scores. Results show that the proposed approach outperforms all the rule-based fusion schemes. We also show that with the quality-based channel rejection scheme, an overall improvement of 25% in the equal error rate is obtained.
翻訳日:2022-11-28 18:07:32 公開日:2022-11-24
# 非定常マニピュレーションにおける実時間物理ベース物体追跡

Real-Time Physics-Based Object Pose Tracking during Non-Prehensile Manipulation ( http://arxiv.org/abs/2211.13572v1 )

ライセンス: Link先を確認
Zisong Xu, Rafael Papallas, Mehmet Dogar(参考訳) 本研究では,物体の6次元姿勢を時間とともに追跡する手法を提案する。 オブジェクトの操作中にいつでも、ロボットのジョイントコントロールと、シーンを見ているカメラからのイメージへのアクセスを前提とします。 ロボットのジョイントコントロールを使って、物体の動きを物理ベースの予測します。 そして、この予測とカメラからの観測を組み合わせることで、物体のポーズを可能な限り正確に推定する。 本研究では,制御情報と視覚情報を組み合わせた粒子フィルタリング手法を提案する。 提案手法を2つのベースラインと比較する。 (i)各時間ステップでのイメージベースポーズ推定システムのみの使用、及び (II)計算に高価な物理予測を行わない粒子フィルタであって,物体が一定の速度で動くことを仮定する。 その結果、物理ベースの予測を行うことで計算コストが上がり、より正確な追跡が可能となり、カメラに見えない物体でも物体のポーズを推定できることがわかった。

We propose a method to track the 6D pose of an object over time, while the object is under non-prehensile manipulation by a robot. At any given time during the manipulation of the object, we assume access to the robot joint controls and an image from a camera looking at the scene. We use the robot joint controls to perform a physics-based prediction of how the object might be moving. We then combine this prediction with the observation coming from the camera, to estimate the object pose as accurately as possible. We use a particle filtering approach to combine the control information with the visual information. We compare the proposed method with two baselines: (i) using only an image-based pose estimation system at each time-step, and (ii) a particle filter which does not perform the computationally expensive physics predictions, but assumes the object moves with constant velocity. Our results show that making physics-based predictions is worth the computational cost, resulting in more accurate tracking, and estimating object pose even when the object is not clearly visible to the camera.
翻訳日:2022-11-28 18:07:05 公開日:2022-11-24
# 最適目的推定を用いた知覚指向単一画像超解法

Perception-Oriented Single Image Super-Resolution using Optimal Objective Estimation ( http://arxiv.org/abs/2211.13676v1 )

ライセンス: Link先を確認
Seung Ho Park, Young Su Moon, Nam Ik Cho(参考訳) 知覚的および敵対的損失で訓練されたシングルイメージスーパーレゾリューション(sisr)ネットワークは、l1やl2のような歪み指向損失で訓練されたネットワークと比較して高いコントラスト出力を提供する。 しかし, 画像の局所的な多様な形状を正確に復元するには, 単一の知覚損失を用いることが不十分であり, 望ましくない人工物や不自然な細部が生じることが示されている。 このため, 知覚, 対角, 歪み損失などの様々な損失の組み合わせが試みられているが, 最適な組み合わせを見つけることは困難である。 そこで本稿では,高分解能出力の全体領域において,各領域に最適な目標を適用したSISRフレームワークを提案する。 具体的には、所定の低解像度(LR)入力に対して最適な客観的マップを推定する予測モデルと、対応するSR出力を生成するために対象対象マップを適用する生成モデルとからなる。 生成モデルは,本提案した目的の集合を表す対象軌道上で訓練され,単一のネットワークが,軌道上の複合的な損失に対応する様々なSR結果を学ぶことができる。 予測モデルは、一対のLR画像と、対象軌道から探索された対応する最適目的写像を用いて訓練される。 5つのベンチマーク実験の結果,提案手法はLPIPS, DISTS, PSNR, SSIM測定値において,最先端の認識駆動SR法よりも優れていた。 また,視覚効果は,知覚指向の再構成における手法の優位性を示す。

Single-image super-resolution (SISR) networks trained with perceptual and adversarial losses provide high-contrast outputs compared to those of networks trained with distortion-oriented losses, such as L1 or L2. However, it has been shown that using a single perceptual loss is insufficient for accurately restoring locally varying diverse shapes in images, often generating undesirable artifacts or unnatural details. For this reason, combinations of various losses, such as perceptual, adversarial, and distortion losses, have been attempted, yet it remains challenging to find optimal combinations. Hence, in this paper, we propose a new SISR framework that applies optimal objectives for each region to generate plausible results in overall areas of high-resolution outputs. Specifically, the framework comprises two models: a predictive model that infers an optimal objective map for a given low-resolution (LR) input and a generative model that applies a target objective map to produce the corresponding SR output. The generative model is trained over our proposed objective trajectory representing a set of essential objectives, which enables the single network to learn various SR results corresponding to combined losses on the trajectory. The predictive model is trained using pairs of LR images and corresponding optimal objective maps searched from the objective trajectory. Experimental results on five benchmarks show that the proposed method outperforms state-of-the-art perception-driven SR methods in LPIPS, DISTS, PSNR, and SSIM metrics. The visual results also demonstrate the superiority of our method in perception-oriented reconstruction.
翻訳日:2022-11-28 18:06:49 公開日:2022-11-24
# 偏光フィルタアレイカメラのディープデモサイシング

Deep Demosaicing for Polarimetric Filter Array Cameras ( http://arxiv.org/abs/2211.13732v1 )

ライセンス: Link先を確認
Mara Pistellato, Filippo Bergamasco, Tehreem Fatima and Andrea Torsello(参考訳) 偏光フィルタアレイ(PFA)カメラは、光偏光状態の簡易かつ低コストな解析を可能にする。 このようなフィルタアレイはカラーカメラのバイエルパターンとして機能し、同様の利点と欠点を共有している。 また,PFAの局所的な変動や映像シーンの特徴を考慮し,生画像の復調を行なわなければならない。 隣接ピクセル間のクロストークのような非線形効果は、明示的にモデル化することが難しく、データ駆動学習アプローチの潜在的な利点を示唆する。 しかし、PFAはセンサから取り外すことができないため、トレーニング用の地道偏光状態を取得することは困難である。 本研究では,生のカメラ画像を画素単位のストークスベクトルに直接デモする新しいcnnベースのモデルを提案する。 私たちの貢献は2倍です。 まず,異なるフィルタの局所配置と協調して動作するモザイク畳み込みの系列からなるネットワークアーキテクチャを提案する。 第2に,実世界の学習データを効果的に取得するための,コンシューマLCD画面を用いた新しい手法を提案する。 このプロセスはガンマと外部の照明条件をモニターすることで不変に設計されている。 提案手法をアルゴリズムおよび学習に基づく復調手法と比較し,特に偏光角の点で誤差が一定に低いことを示す。

Polarisation Filter Array (PFA) cameras allow the analysis of light polarisation state in a simple and cost-effective manner. Such filter arrays work as the Bayer pattern for colour cameras, sharing similar advantages and drawbacks. Among the others, the raw image must be demosaiced considering the local variations of the PFA and the characteristics of the imaged scene. Non-linear effects, like the cross-talk among neighbouring pixels, are difficult to explicitly model and suggest the potential advantage of a data-driven learning approach. However, the PFA cannot be removed from the sensor, making it difficult to acquire the ground-truth polarization state for training. In this work we propose a novel CNN-based model which directly demosaics the raw camera image to a per-pixel Stokes vector. Our contribution is twofold. First, we propose a network architecture composed by a sequence of Mosaiced Convolutions operating coherently with the local arrangement of the different filters. Second, we introduce a new method, employing a consumer LCD screen, to effectively acquire real-world data for training. The process is designed to be invariant by monitor gamma and external lighting conditions. We extensively compared our method against algorithmic and learning-based demosaicing techniques, obtaining a consistently lower error especially in terms of polarisation angle.
翻訳日:2022-11-28 18:06:22 公開日:2022-11-24
# エッジコンピューティングにおける分散CNN推論高速化の設計と試作

Design and Prototyping Distributed CNN Inference Acceleration in Edge Computing ( http://arxiv.org/abs/2211.13778v1 )

ライセンス: Link先を確認
hongtian Dong, Nan Li, Alexandros Iosifidis, Qi Zhang(参考訳) ディープラーニングを使用した時間クリティカルなIoTアプリケーションにとって、分散コンピューティングによる推論アクセラレーションは、厳しい期限を満たすための有望なアプローチである。 本稿では,3つのラズベリーPi 4を用いた新しい分散推論加速法HALPの動作プロトタイプを実装した。 HALPはエッジコンピューティングにおけるエッジデバイス(ED)間のシームレスなコラボレーションを設計することで推論を加速する。 セグメント分割に基づくタスク分割比を最適化することにより,協調ed間の通信と計算の並列化を最大化する。 実験の結果,分散推論HALPはVGG-16の1.7倍の推論加速を達成することがわかった。 次に,分散推論と従来のニューラルネットワークモデル圧縮を組み合わせることで,mobilenet-v1の縮小ハイパーパラメータを設定する。 このように、推論をさらに加速することができるが、推測精度損失のコストがかかる。 レイテンシと精度のバランスをとるために,遅延制約の中で最高の精度のモデルを選択するための動的モデル選択を提案する。 分散推論halpを用いたモデル選択により,従来のスタンドアロン計算に比べてサービス信頼性が著しく向上することが示された。

For time-critical IoT applications using deep learning, inference acceleration through distributed computing is a promising approach to meet a stringent deadline. In this paper, we implement a working prototype of a new distributed inference acceleration method HALP using three raspberry Pi 4. HALP accelerates inference by designing a seamless collaboration among edge devices (EDs) in Edge Computing. We maximize the parallelization between communication and computation among the collaborative EDs by optimizing the task partitioning ratio based on the segment-based partitioning. Experimental results show that the distributed inference HALP achieves 1.7x inference acceleration for VGG-16. Then, we combine distributed inference with conventional neural network model compression by setting up different shrinking hyperparameters for MobileNet-V1. In this way, we can further accelerate inference but at the cost of inference accuracy loss. To strike a balance between latency and accuracy, we propose dynamic model selection to select a model which provides the highest accuracy within the latency constraint. It is shown that the model selection with distributed inference HALP can significantly improve service reliability compared to the conventional stand-alone computation.
翻訳日:2022-11-28 18:06:03 公開日:2022-11-24
# 画像上の生成型adversarial networkを用いた異常検出

Detecting Anomalies using Generative Adversarial Networks on Images ( http://arxiv.org/abs/2211.13808v1 )

ライセンス: Link先を確認
Rushikesh Zawar, Krupa Bhayani, Neelanjan Bhowmik, Kamlesh Tiwari and Dhiraj Sangwan(参考訳) 武器や脅威物などの異常の自動検出や、工業生産における故障品の検出は、高い効率と正確性を必要とする重要なコンピュータビジョンタスクである。 異常検出タスクで利用可能なデータのほとんどは、正/正のインスタンスの数が少ないため、不均衡である。 データの不十分な可用性は、異常検出のためのディープニューラルネットワークアーキテクチャのトレーニングを困難にする。 本稿では,異常検出のための新しい生成型逆ネットワーク(gan)モデルを提案する。 通常の(非非正則な)画像を使用して、入力画像が異常/脅威オブジェクトを含むかどうかを検知する正常性について学習する。 提案モデルでは,コンボリューショナル・スキップ接続の密集したエンコーダ・デコーダネットワークを有するジェネレータを用いて,再構成の強化とデータ分布の把握を行う。 遠方の部分においても詳細な特徴の整合性を確認する能力を有する自己注意性強化判別器を用いる。 我々はスペクトル正規化を用いて、GANの安定的で改善されたトレーニングを促進する。 実験は3つのデータセット、viz上で行われる。 CIFAR-10、MVTec AD(産業用)、SIXray(X線バッグセキュリティ用)。 MVTec AD と SIXray のデータセットでは, それぞれ 21% と 4.6% の改善が達成されている。

Automatic detection of anomalies such as weapons or threat objects in baggage security, or detecting impaired items in industrial production is an important computer vision task demanding high efficiency and accuracy. Most of the available data in the anomaly detection task is imbalanced as the number of positive/anomalous instances is sparse. Inadequate availability of the data makes training of a deep neural network architecture for anomaly detection challenging. This paper proposes a novel Generative Adversarial Network (GAN) based model for anomaly detection. It uses normal (non-anomalous) images to learn about the normality based on which it detects if an input image contains an anomalous/threat object. The proposed model uses a generator with an encoder-decoder network having dense convolutional skip connections for enhanced reconstruction and to capture the data distribution. A self-attention augmented discriminator is used having the ability to check the consistency of detailed features even in distant portions. We use spectral normalisation to facilitate stable and improved training of the GAN. Experiments are performed on three datasets, viz. CIFAR-10, MVTec AD (for industrial applications) and SIXray (for X-ray baggage security). On the MVTec AD and SIXray datasets, our model achieves an improvement of upto 21% and 4.6%, respectively
翻訳日:2022-11-28 18:05:46 公開日:2022-11-24
# FedCut: ビザンチンコローダの信頼性検出のためのスペクトル分析フレームワーク

FedCut: A Spectral Analysis Framework for Reliable Detection of Byzantine Colluders ( http://arxiv.org/abs/2211.13389v1 )

ライセンス: Link先を確認
Hanlin Gu, Lixin Fan, Xingxing Tang, Qiang Yang(参考訳) 本稿では、悪質なビザンツ人攻撃者や共謀者の集団によるフェデレート学習におけるセキュリティリスクを抑えるための一般的なスペクトル分析フレームワークを提案する。 提案フレームワークは,Byzantine Colludersのモデル更新とスペクトル解析レンズとの強い一貫性と時間的コヒーレンスを規定し,重み付きグラフのコミュニティ検出問題としてByzantine misbehavioursの検出を定式化する。 修正された正規化グラフカットは、攻撃者を良性参加者から識別するために使用される。 さらに、スペクトルヒューリスティックスを用いて、様々な攻撃に対して検出を堅牢にする。 提案したByzantine colluder resilient method、すなわちFedCutは有界誤差に収束することが保証されている。 様々な環境下での大規模な実験結果は、FedCutの優位性を正当化するものであり、様々な攻撃下での極めて堅牢なモデル性能(MP)を示す。 フェデカットの平均mpの2.1%から16.5%は、ビザンチンのレジリエントな手法より優れていることが示されている。 最悪のモデル性能(MP)に関しては、FedCutはこれらの手法よりも17.6%から69.5%良い。

This paper proposes a general spectral analysis framework that thwarts a security risk in federated Learning caused by groups of malicious Byzantine attackers or colluders, who conspire to upload vicious model updates to severely debase global model performances. The proposed framework delineates the strong consistency and temporal coherence between Byzantine colluders' model updates from a spectral analysis lens, and, formulates the detection of Byzantine misbehaviours as a community detection problem in weighted graphs. The modified normalized graph cut is then utilized to discern attackers from benign participants. Moreover, the Spectral heuristics is adopted to make the detection robust against various attacks. The proposed Byzantine colluder resilient method, i.e., FedCut, is guaranteed to converge with bounded errors. Extensive experimental results under a variety of settings justify the superiority of FedCut, which demonstrates extremely robust model performance (MP) under various attacks. It was shown that FedCut's averaged MP is 2.1% to 16.5% better than that of the state of the art Byzantine-resilient methods. In terms of the worst-case model performance (MP), FedCut is 17.6% to 69.5% better than these methods.
翻訳日:2022-11-28 17:58:24 公開日:2022-11-24
# テーブルの変換: ML評価のためのバイアス付き、不均衡、動的タブラルデータセット

Turning the Tables: Biased, Imbalanced, Dynamic Tabular Datasets for ML Evaluation ( http://arxiv.org/abs/2211.13358v1 )

ライセンス: Link先を確認
S\'ergio Jesus, Jos\'e Pombal, Duarte Alves, Andr\'e Cruz, Pedro Saleiro, Rita P. Ribeiro, Jo\~ao Gama, Pedro Bizarro(参考訳) 現実的なデータセットに対する新しいテクニックの評価は、ML研究の発展と実践者によるより広範な採用において重要な役割を果たす。 近年,コンピュータビジョンやNLPタスクのための非構造化データリソースの公開が著しく増加している。 しかし、多くのハイテイクドメインで広く使われている表形式のデータは、遅れを取っている。 このギャップを埋めるために、私たちは、初めて公開された1つのプライバシー保護、大規模、現実的なテーブル型データセットセットである、銀行口座詐欺(bank account fraud, baf)を紹介します。 このスイートは、匿名化された現実世界の銀行口座の不正検出データセットに最先端の表式データ生成技術を適用して生成された。 この設定には、時間的ダイナミクスや重大なクラス不均衡など、現実世界のアプリケーションで一般的な課題が伴う。 さらに、実践者がMLメソッドのパフォーマンスと公平性の両方をテストできるように、各データセットのBAFには、特定の種類のデータバイアスが含まれている。 本資料では, より現実的で, 完全で, 堅牢なテストベッドを研究コミュニティに提供することを目的として, 新規および既存手法の評価を行う。

Evaluating new techniques on realistic datasets plays a crucial role in the development of ML research and its broader adoption by practitioners. In recent years, there has been a significant increase of publicly available unstructured data resources for computer vision and NLP tasks. However, tabular data -- which is prevalent in many high-stakes domains -- has been lagging behind. To bridge this gap, we present Bank Account Fraud (BAF), the first publicly available 1 privacy-preserving, large-scale, realistic suite of tabular datasets. The suite was generated by applying state-of-the-art tabular data generation techniques on an anonymized,real-world bank account opening fraud detection dataset. This setting carries a set of challenges that are commonplace in real-world applications, including temporal dynamics and significant class imbalance. Additionally, to allow practitioners to stress test both performance and fairness of ML methods, each dataset variant of BAF contains specific types of data bias. With this resource, we aim to provide the research community with a more realistic, complete, and robust test bed to evaluate novel and existing methods.
翻訳日:2022-11-28 17:40:04 公開日:2022-11-24
# MP-GELUベイズニューラルネットワーク:GELU非線形性によるモーメント伝搬

MP-GELU Bayesian Neural Networks: Moment Propagation by GELU Nonlinearity ( http://arxiv.org/abs/2211.13402v1 )

ライセンス: Link先を確認
Yuki Hirayama, Sinya Takamaeda-Yamazaki(参考訳) ベイズニューラルネットワーク(BNN)は不確実性定量化の研究において重要な枠組みである。 推定手法の1つである決定論的変分推論は、モーメント伝搬を利用して予測分布と目的関数を計算する。 残念ながら、モーメントを導出するには、正則線型単位(ReLU)やシグモイド関数のような非線形関数の計算に高価なテイラー展開が必要となる。 したがって、従来の関数よりも高速なモーメント伝搬を実現する新しい非線形関数が必要である。 本稿では,BNNにおける第1モーメントと第2モーメントの高速導出を可能にする,モーメント伝搬・ガウス誤差線形ユニット(MP-GELU)という非線形関数を提案する。 MP-GELUは入力統計に非線形性を適用することでモーメントの解析計算を可能にし、非線形関数に必要な計算コストを削減できる。 回帰タスクの実証実験において,提案したMP-GELUは,ReLUベースのBNNよりも高速な実行で予測精度が高く,不確実性の品質が向上することを示した。

Bayesian neural networks (BNNs) have been an important framework in the study of uncertainty quantification. Deterministic variational inference, one of the inference methods, utilizes moment propagation to compute the predictive distributions and objective functions. Unfortunately, deriving the moments requires computationally expensive Taylor expansion in nonlinear functions, such as a rectified linear unit (ReLU) or a sigmoid function. Therefore, a new nonlinear function that realizes faster moment propagation than conventional functions is required. In this paper, we propose a novel nonlinear function named moment propagating-Gaussian error linear unit (MP-GELU) that enables the fast derivation of first and second moments in BNNs. MP-GELU enables the analytical computation of moments by applying nonlinearity to the input statistics, thereby reducing the computationally expensive calculations required for nonlinear functions. In empirical experiments on regression tasks, we observed that the proposed MP-GELU provides higher prediction accuracy and better quality of uncertainty with faster execution than those of ReLU-based BNNs.
翻訳日:2022-11-28 17:39:47 公開日:2022-11-24
# 専門家の空間的混合

Spatial Mixture-of-Experts ( http://arxiv.org/abs/2211.13491v1 )

ライセンス: Link先を確認
Nikoli Dryden and Torsten Hoefler(参考訳) 多くのデータは、地球上の天気、メッシュ上のシミュレーション、または登録された画像など、空間的な位置に依存している。 しかし、この機能はめったに利用されず、翻訳等、多くのニューラルネットワーク層によってなされる一般的な仮定に違反している。 さらに、局所性を組み込んだ多くの作品では微細な構造を捉えることができない。 そこで本稿では,入力領域における空間構造を学習し,それを利用するために専門家をきめ細かなレベルでルーティングする,疎開層SMOE(Spatial Mixture-of-Experts)について紹介する。 また、自己教師付きルーティング損失や専門家の誤りを抑えるなど、SMoEsを訓練する新しい手法を開発した。 最後に,多くのタスクにおけるsmoesの強い結果を示し,中規模気象予報と処理後の天気予報のための最新結果を新たに設定する。

Many data have an underlying dependence on spatial location; it may be weather on the Earth, a simulation on a mesh, or a registered image. Yet this feature is rarely taken advantage of, and violates common assumptions made by many neural network layers, such as translation equivariance. Further, many works that do incorporate locality fail to capture fine-grained structure. To address this, we introduce the Spatial Mixture-of-Experts (SMoE) layer, a sparsely-gated layer that learns spatial structure in the input domain and routes experts at a fine-grained level to utilize it. We also develop new techniques to train SMoEs, including a self-supervised routing loss and damping expert errors. Finally, we show strong results for SMoEs on numerous tasks, and set new state-of-the-art results for medium-range weather prediction and post-processing ensemble weather forecasts.
翻訳日:2022-11-28 17:39:29 公開日:2022-11-24
# 非対称誤差メトリクスによる予測と最適化の方法

How to predict and optimise with asymmetric error metrics ( http://arxiv.org/abs/2211.13586v1 )

ライセンス: Link先を確認
Mahdi Abolghasemi, Richard Bean(参考訳) 本稿では,ieee計算知能学会の第3の技術的課題を特に参考にして,予測と最適化の問題の概念を検討する。 この大会では、参加者は6つの建物と6つのソーラー施設で建設エネルギーの使用と発電を予測し、1ヶ月かけてクラスとバッテリーをスケジューリングしながらエネルギーコストを最適化する。 過度な予測と過度な予測と非対称な誤差が最適化コストに与える影響を検討する。 予測および最適化フェーズにおける損失関数の異なる性質について検討し、最適化コストを改善するために最終予測を調整することを提案する。 この2つには正の相関関係があるが、最終決定に伴うコストを最適化するためにより適切な損失関数を用いることができる。

In this paper, we examine the concept of the predict and optimise problem with specific reference to the third Technical Challenge of the IEEE Computational Intelligence Society. In this competition, entrants were asked to forecast building energy use and solar generation at six buildings and six solar installations, and then use their forecast to optimize energy cost while scheduling classes and batteries over a month. We examine the possible effect of underforecasting and overforecasting and asymmetric errors on the optimisation cost. We explore the different nature of loss functions for the prediction and optimisation phase and propose to adjust the final forecasts for a better optimisation cost. We report that while there is a positive correlation between these two, more appropriate loss functions can be used to optimise the costs associated with final decisions.
翻訳日:2022-11-28 17:39:15 公開日:2022-11-24
# 半教師付き視点から部分ラベルを用いた学習

Learning with Partial Labels from Semi-supervised Perspective ( http://arxiv.org/abs/2211.13655v1 )

ライセンス: Link先を確認
Ximing Li, Yuanzhi Jiang, Changchun Li, Yiyuan Wang, Jihong Ouyang(参考訳) 部分ラベル学習(Partial Label (PL) learning)は、各トレーニングインスタンスに、候補ラベルのセットをあいまいに装備するが、1つのみが有効である部分ラベル付きデータから学習するタスクを指す。 近年の深層PL学習文献の進歩は、自己学習、コントラスト学習、クラス活性化といった深層学習パラダイムが有望な性能を達成できることを示している。 深層セミスーパーバイド(SS)学習の成功に触発されて,PL学習問題をSS学習問題に転換し,半教師付きパーシャルラベル学習(PLSP)という新たなPL学習手法を提案する。 具体的には,信頼度の高い疑似ラベル付きインスタンスを少数の信頼度の高い予測スコアで選択し,残りのインスタンスを疑似ラベル付きインスタンスとして扱うことにより,まず疑似ラベル付きデータセットを作成する。 次に、疑似ラベル付きインスタンスの教師付き損失と擬似ラベル付きインスタンスのセマンティック一貫性規則化からなるSS学習目標を設計する。 さらに,これらの非候補ラベルに対する補完的正規化を導入し,モデルの予測を可能な限り小さく抑える。 実証実験の結果,PLSPは既存のPLベースライン法,特に高いあいまい度で著しく優れていた。 コード提供: https://github.com/changchunli/plsp。

Partial Label (PL) learning refers to the task of learning from the partially labeled data, where each training instance is ambiguously equipped with a set of candidate labels but only one is valid. Advances in the recent deep PL learning literature have shown that the deep learning paradigms, e.g., self-training, contrastive learning, or class activate values, can achieve promising performance. Inspired by the impressive success of deep Semi-Supervised (SS) learning, we transform the PL learning problem into the SS learning problem, and propose a novel PL learning method, namely Partial Label learning with Semi-supervised Perspective (PLSP). Specifically, we first form the pseudo-labeled dataset by selecting a small number of reliable pseudo-labeled instances with high-confidence prediction scores and treating the remaining instances as pseudo-unlabeled ones. Then we design a SS learning objective, consisting of a supervised loss for pseudo-labeled instances and a semantic consistency regularization for pseudo-unlabeled instances. We further introduce a complementary regularization for those non-candidate labels to constrain the model predictions on them to be as small as possible. Empirical results demonstrate that PLSP significantly outperforms the existing PL baseline methods, especially on high ambiguity levels. Code available: https://github.com/changchunli/PLSP.
翻訳日:2022-11-28 17:39:02 公開日:2022-11-24
# 半教師付きデータセットにおける異常検出の自動選択のためのメタラーニング

Meta-Learning for Automated Selection of Anomaly Detectors for Semi-Supervised Datasets ( http://arxiv.org/abs/2211.13681v1 )

ライセンス: Link先を確認
David Schubert, Pritha Gupta, Marcel Wever(参考訳) 異常検出では、モデルに正常なデータのみに基づいて学習した異常を特定するように誘導する。 一般的には、異常を正しく識別する異常検出器、すなわち、誤ったアラームを多すぎることなく、通常のクラスに属しないデータポイントを見つけることに関心がある。 どの異常検出器が最適かは、手元にあるデータセットに依存するため、調整する必要がある。 異常検出器の品質は、マシューズ相関係数(MCC)のような混乱に基づく指標によって評価することができる。 しかしながら、トレーニング中の通常のデータは半教師付き設定でのみ利用できるため、そのようなメトリクスはアクセスできない。 異常検出のための自動機械学習を容易にするために,正規データのみを用いて計算可能なメトリクスに基づいてmccスコアを予測するメタラーニングを提案する。 最初の有望な結果は、ハイパーボリュームと偽陽性率をメタ機能として考慮して得られる。

In anomaly detection, a prominent task is to induce a model to identify anomalies learned solely based on normal data. Generally, one is interested in finding an anomaly detector that correctly identifies anomalies, i.e., data points that do not belong to the normal class, without raising too many false alarms. Which anomaly detector is best suited depends on the dataset at hand and thus needs to be tailored. The quality of an anomaly detector may be assessed via confusion-based metrics such as the Matthews correlation coefficient (MCC). However, since during training only normal data is available in a semi-supervised setting, such metrics are not accessible. To facilitate automated machine learning for anomaly detectors, we propose to employ meta-learning to predict MCC scores based on metrics that can be computed with normal data only. First promising results can be obtained considering the hypervolume and the false positive rate as meta-features.
翻訳日:2022-11-28 17:38:39 公開日:2022-11-24
# 対面型マルチモーダルヒューマンマシンインタラクション作成のための言語的・計算的要求について

On the Linguistic and Computational Requirements for Creating Face-to-Face Multimodal Human-Machine Interaction ( http://arxiv.org/abs/2211.13804v1 )

ライセンス: Link先を確認
Jo\~ao Ranhel and Cacilda Vilela de Lima(参考訳) 本研究では,人間とアバターの会話を言語的に,組織的に,構造的に分析し,マシンの対面マルチモーダルインターフェース構築に必要なものに着目した。 ヒトとアバタールの相互作用をビデオで記録し,全言語的マイクロアナリシスを行い,マルチモーダルな行動や事象を全て記録した。 統計的推論がデータに適用され、マルチモーダルアクションの発生頻度だけでなく、話者(emitter)とリスナ(recipient)の間でのマルチモーダルイベントの分散状況も理解できるようになった。 また,各モダリティに対するマルチモーダル発生の分布も観測した。 このデータは、対面会話中に二重ループフィードバックが確立されていることを示す。 そこで我々は、会話分析(CA)、認知科学、心の理論(ToM)などの知識を、人間と機械のマルチモーダル相互作用を記述するための知識に組み込むことを提案した。 対面インターフェースはマルチモーダル融合層に追加の制御層を必要とする。 このレイヤでは,会話の流れを整理し,対話に社会的コンテキストを統合するとともに,対話を進めるための「何」と「どのように」に関する計画を立てる必要がある。 CAとToMの洞察をインターフェースシステムに組み込むと、この高いレベルがよく理解されます。

In this study, conversations between humans and avatars are linguistically, organizationally, and structurally analyzed, focusing on what is necessary for creating face-to-face multimodal interfaces for machines. We videorecorded thirty-four human-avatar interactions, performed complete linguistic microanalysis on video excerpts, and marked all the occurrences of multimodal actions and events. Statistical inferences were applied to data, allowing us to comprehend not only how often multimodal actions occur but also how multimodal events are distributed between the speaker (emitter) and the listener (recipient). We also observed the distribution of multimodal occurrences for each modality. The data show evidence that double-loop feedback is established during a face-to-face conversation. This led us to propose that knowledge from Conversation Analysis (CA), cognitive science, and Theory of Mind (ToM), among others, should be incorporated into the ones used for describing human-machine multimodal interactions. Face-to-face interfaces require an additional control layer to the multimodal fusion layer. This layer has to organize the flow of conversation, integrate the social context into the interaction, as well as make plans concerning 'what' and 'how' to progress on the interaction. This higher level is best understood if we incorporate insights from CA and ToM into the interface system.
翻訳日:2022-11-28 17:31:43 公開日:2022-11-24
# saga: 3dメッシュに対するスペクトル逆幾何攻撃

SAGA: Spectral Adversarial Geometric Attack on 3D Meshes ( http://arxiv.org/abs/2211.13775v1 )

ライセンス: Link先を確認
Tomer Stolik, Itai Lang, Shai Avidan(参考訳) 三角形メッシュは最も人気のある3Dデータ表現の1つである。 このように、メッシュ処理のためのディープニューラルネットワークの展開が広く普及し、ますます注目を集めている。 しかし、ニューラルネットワークは敵の攻撃を受けやすいため、慎重に入力を行うとモデルの機能を損なう。 これらの脆弱性を探る必要性は、3Dベースのアプリケーションの開発における基本的な要素である。 近年,セマンティクスレベルでメッシュ攻撃が研究され,分類器を誤認して誤った予測を生じさせている。 それにもかかわらず、メッシュ表面は意味的な意味を超えた複雑な幾何学的属性を持ち、それらの分析にはしばしば形状の幾何学をエンコードし再構成する必要がある。 3次元メッシュオートエンコーダに対する幾何学的対角攻撃のための新しいフレームワークを提案する。 この設定において、逆入力メッシュは、出力時に異なる幾何学形状を再構成させ、オートエンコーダを欺く。 スペクトル領域の清潔な形状を摂動させて悪質な入力を生成する。 本手法は,メッシュのスペクトル分解とメッシュ関連特性を利用して,表面歪みの妥当性を考慮した視覚的信頼性のある結果を得る。 私たちのコードはhttps://github.com/StolikTomer/SAGAで公開されています。

A triangular mesh is one of the most popular 3D data representations. As such, the deployment of deep neural networks for mesh processing is widely spread and is increasingly attracting more attention. However, neural networks are prone to adversarial attacks, where carefully crafted inputs impair the model's functionality. The need to explore these vulnerabilities is a fundamental factor in the future development of 3D-based applications. Recently, mesh attacks were studied on the semantic level, where classifiers are misled to produce wrong predictions. Nevertheless, mesh surfaces possess complex geometric attributes beyond their semantic meaning, and their analysis often includes the need to encode and reconstruct the geometry of the shape. We propose a novel framework for a geometric adversarial attack on a 3D mesh autoencoder. In this setting, an adversarial input mesh deceives the autoencoder by forcing it to reconstruct a different geometric shape at its output. The malicious input is produced by perturbing a clean shape in the spectral domain. Our method leverages the spectral decomposition of the mesh along with additional mesh-related properties to obtain visually credible results that consider the delicacy of surface distortions. Our code is publicly available at https://github.com/StolikTomer/SAGA.
翻訳日:2022-11-28 16:56:19 公開日:2022-11-24
# 振り返り:顔特徴による着替え再確認の改善

ReFace: Improving Clothes-Changing Re-Identification With Face Features ( http://arxiv.org/abs/2211.13807v1 )

ライセンス: Link先を確認
Daniel Arkushin, Bar Cohen, Shmuel Peleg, Ohad Fried(参考訳) 人物再識別(ReID)は長年にわたり活発な研究分野である。 それにもかかわらず、この問題に対処するモデルは、着物や髪型などの外見の変化により、長い時間をかけて同一人物を再識別する作業を行う場合、パフォーマンスが悪くなる傾向にある。 本稿では,既存のreidモデルの外観関連特徴抽出機能を最大限に活用し,顔特徴抽出モデルと組み合わせることで,画像ベースおよびビデオベースのベンチマークで新たな最先端結果を得る新しい手法を提案する。 さらに,本手法を,着替え設定下において複数の興味を持つ人が,未確認ビデオと限られたラベル付きデータから再識別するアプリケーションにどのように利用することができるかを示す。 現在のReIDベンチマークはそのような現実のシナリオを表現していないと主張しており、そのようなアプリケーションの例としてシアタープレイに基づいた新しいデータセット42Streetを公開しています。 提案手法は,事前学習されたモジュールのみを用いながら,トレーニングを行なわずに既存のモデルを上回ることを示す。

Person re-identification (ReID) has been an active research field for many years. Despite that, models addressing this problem tend to perform poorly when the task is to re-identify the same people over a prolonged time, due to appearance changes such as different clothes and hairstyles. In this work, we introduce a new method that takes full advantage of the ability of existing ReID models to extract appearance-related features and combines it with a face feature extraction model to achieve new state-of-the-art results, both on image-based and video-based benchmarks. Moreover, we show how our method could be used for an application in which multiple people of interest, under clothes-changing settings, should be re-identified given an unseen video and a limited amount of labeled data. We claim that current ReID benchmarks do not represent such real-world scenarios, and publish a new dataset, 42Street, based on a theater play as an example of such an application. We show that our proposed method outperforms existing models also on this dataset while using only pre-trained modules and without any further training.
翻訳日:2022-11-28 16:56:03 公開日:2022-11-24
# 長期物体追跡のためのマルチテンプレート時空間ネットワーク

Multi-Template Temporal Siamese Network for Long-Term Object Tracking ( http://arxiv.org/abs/2211.13812v1 )

ライセンス: Link先を確認
Ali Sekhavati and Won-Sook Lee(参考訳) Siamese Networksは、ターゲットがよく特定される限り、その高速かつ高精度なトラッキング能力のために最も人気のあるビジュアルオブジェクト追跡手法の1つである。 しかし、ほとんどのシームズネットワークベースのトラッカーは、第1フレームをオブジェクトの真理として使用し、次のフレームでターゲットの外観が著しく変化すると失敗する。 それらはまた、フレーム内の他の類似のオブジェクトとターゲットを区別する希薄な欠陥を持っている。 両問題を解くための2つの考えを提案する。 最初のアイデアは動的テンプレートの袋を使い、多様な、類似した、そして最近のターゲット機能を含み、多様なターゲットの外観で継続的に更新する。 もう1つのアイデアは、ネットワークがパス履歴を学習し、次のフレームで将来のターゲットの位置を予測できるようにすることだ。 長期追跡データセットUAV20Lにおける最先端性能は、最先端手法HiFTと比較して、成功率を15%(65.4対56.6)大きく向上させることにより達成する。 この論文のicial pythonコードは、公開されている。

Siamese Networks are one of most popular visual object tracking methods for their high speed and high accuracy tracking ability as long as the target is well identified. However, most Siamese Network based trackers use the first frame as the ground truth of an object and fail when target appearance changes significantly in next frames. They also have dif iculty distinguishing the target from similar other objects in the frame. We propose two ideas to solve both problems. The first idea is using a bag of dynamic templates, containing diverse, similar, and recent target features and continuously updating it with diverse target appearances. The other idea is to let a network learn the path history and project a potential future target location in a next frame. This tracker achieves state-of-the-art performance on the long-term tracking dataset UAV20L by improving the success rate by a large margin of 15% (65.4 vs 56.6) compared to the state-of-the-art method, HiFT. The of icial python code of this paper is publicly available.
翻訳日:2022-11-28 16:55:46 公開日:2022-11-24
# スケーラブルタスクインクリメンタル学習のためのニューラルウェイト探索

Neural Weight Search for Scalable Task Incremental Learning ( http://arxiv.org/abs/2211.13823v1 )

ライセンス: Link先を確認
Jian Jiang, Oya Celiktutan(参考訳) タスクインクリメンタル学習は、システムが新しいタスクを学習しながら、以前に学習したタスクのパフォーマンスを維持することを可能にすることを目的としている。 有望なアプローチの1つは、将来のタスクのために個々のネットワークまたはサブネットワークを構築することである。 しかし、新しいタスクの余分な負担を省き、この問題に対処する方法がタスクインクリメンタルな学習においてオープンな問題として残されているため、このことが記憶の増大につながっている。 本稿では,凍結重みの最適組み合わせを探索可能な固定探索空間を設計し,新しいタスクのための新しいモデルをエンドツーエンドに構築し,スケーラブルで制御可能なメモリ成長を実現するニューラルウェイト探索手法を提案する。 Split-CIFAR-100 と CUB-to-Sketches の2つのベンチマークによる大規模な実験により,提案手法は平均推定精度と総メモリコストの両方において最先端の性能を達成することを示した。

Task incremental learning aims to enable a system to maintain its performance on previously learned tasks while learning new tasks, solving the problem of catastrophic forgetting. One promising approach is to build an individual network or sub-network for future tasks. However, this leads to an ever-growing memory due to saving extra weights for new tasks and how to address this issue has remained an open problem in task incremental learning. In this paper, we introduce a novel Neural Weight Search technique that designs a fixed search space where the optimal combinations of frozen weights can be searched to build new models for novel tasks in an end-to-end manner, resulting in scalable and controllable memory growth. Extensive experiments on two benchmarks, i.e., Split-CIFAR-100 and CUB-to-Sketches, show our method achieves state-of-the-art performance with respect to both average inference accuracy and total memory cost.
翻訳日:2022-11-28 16:55:31 公開日:2022-11-24
# 関節セグメンテーションと不連続保存変形性レジストレーション:心血管MRI画像への応用

Joint segmentation and discontinuity-preserving deformable registration: Application to cardiac cine-MR images ( http://arxiv.org/abs/2211.13828v1 )

ライセンス: Link先を確認
Xiang Chen, Yan Xia, Nishant Ravikumar, Alejandro F Frangi(参考訳) 医用画像登録は、画像のペアまたはグループ間の解剖学的対応を確立するための空間的変換の推定を伴う困難なタスクである。 近年,ディープラーニングに基づく画像登録手法が広く研究され,様々なアプリケーションにおいて高速かつ正確な画像登録を可能にすることが実証されている。 しかし、深層学習に基づく登録手法の多くは、変形場が画像領域の至るところで滑らかかつ連続的であると仮定しているが、特に組織/組織境界における不連続性を含む画像の登録においては、必ずしもそうではない。 このようなシナリオでは、滑らかでグローバルに連続した変形場を強制することは、不正確な登録結果をもたらす。 本稿では,この課題に取り組むために,不連続かつ局所的な変形場をグローバルに確保し,より正確かつ現実的な登録結果を得る新しい不連続性保存画像登録手法を提案する。 提案手法は,画像の分割と登録の相補的性質を活かし,画像のジョイントセグメンテーションとペアワイズ登録を可能にする。 ネットワークのセグメンテーション成分にコアテンションブロックを提案し、入力画像の構造的相関を学習し、ネットワークの登録成分には不連続保存登録戦略を用い、組織/組織界面における推定変形場の妥当性を確保する。 本手法は,大規模磁気共鳴画像配列を用いたサブジェクト時空間画像登録の課題を評価し,医用画像登録の最先端技術よりも大幅に改善し,興味のある領域に高品質のセグメンテーションマスクを作製できることを実証する。

Medical image registration is a challenging task involving the estimation of spatial transformations to establish anatomical correspondence between pairs or groups of images. Recently, deep learning-based image registration methods have been widely explored, and demonstrated to enable fast and accurate image registration in a variety of applications. However, most deep learning-based registration methods assume that the deformation fields are smooth and continuous everywhere in the image domain, which is not always true, especially when registering images whose fields of view contain discontinuities at tissue/organ boundaries. In such scenarios, enforcing smooth, globally continuous deformation fields leads to incorrect/implausible registration results. We propose a novel discontinuity-preserving image registration method to tackle this challenge, which ensures globally discontinuous and locally smooth deformation fields, leading to more accurate and realistic registration results. The proposed method leverages the complementary nature of image segmentation and registration and enables joint segmentation and pair-wise registration of images. A co-attention block is proposed in the segmentation component of the network to learn the structural correlations in the input images, while a discontinuity-preserving registration strategy is employed in the registration component of the network to ensure plausibility in the estimated deformation fields at tissue/organ interfaces. We evaluate our method on the task of intra-subject spatio-temporal image registration using large-scale cinematic cardiac magnetic resonance image sequences, and demonstrate that our method achieves significant improvements over the state-of-the-art for medical image registration, and produces high-quality segmentation masks for the regions of interest.
翻訳日:2022-11-28 16:55:13 公開日:2022-11-24
# 部分対象データに基づく技術領域における欠陥のクロスドメイン転送

Cross-domain Transfer of defect features in technical domains based on partial target data ( http://arxiv.org/abs/2211.13662v1 )

ライセンス: Link先を確認
Tobias Schlagenhauf, Tim Scheurenbrand(参考訳) ターゲットドメインデータを逐次追加する現実世界の分類シナリオにおける一般的な課題は、トレーニングフェーズにおけるデータセットの不足である。 したがって、従来のディープラーニングや転校学習分類器は、特に個々のクラスが表現されていない場合や、そもそも過小評価されている場合には適用されない。 しかし、多くの技術領域では、欠陥や不十分な表現が不十分なrejectクラスのみであり、非defectクラスは最初から利用可能であることが多い。 提案手法は,CNNエンコーダをベースとして,そのような条件に対処する。 対照的な学習アプローチに従って、2つのデータセットを使用して修正三重項損失関数をトレーニングする: 非欠陥対象ドメインクラス 1stデータセットに加えて、関連する製造エラーや欠陥など、関連性の高いクラスを含む最先端のラベル付きソースドメインデータセットが使用されるが、異なる製品、材料、外観など、非常に異なるドメインに由来する。 このアプローチは、ソースドメインデータセットから分類特徴を学習すると同時に、ソースとターゲットドメインの違いを単一のトレーニングステップで学習し、関連する機能をターゲットドメインに転送することを目的としている。 分類器は分類機能に敏感になり、高度にドメイン固有のコンテキストに対して堅牢なアーキテクチャとなる。 このアプローチは技術的および非技術的領域でベンチマークされ、合理的な分類結果を示す。 特に、提案するアーキテクチャにより、ドメインの一般化能力と分類結果が改善され、ソースドメインとターゲットドメインの間のより広いドメインシフトが可能になることが示されている。

A common challenge in real world classification scenarios with sequentially appending target domain data is insufficient training datasets during the training phase. Therefore, conventional deep learning and transfer learning classifiers are not applicable especially when individual classes are not represented or are severely underrepresented at the outset. In many technical domains, however, it is only the defect or worn reject classes that are insufficiently represented, while the non-defect class is often available from the beginning. The proposed classification approach addresses such conditions and is based on a CNN encoder. Following a contrastive learning approach, it is trained with a modified triplet loss function using two datasets: Besides the non-defective target domain class 1st dataset, a state-of-the-art labeled source domain dataset that contains highly related classes e.g., a related manufacturing error or wear defect but originates from a highly different domain e.g., different product, material, or appearance = 2nd dataset is utilized. The approach learns the classification features from the source domain dataset while at the same time learning the differences between the source and the target domain in a single training step, aiming to transfer the relevant features to the target domain. The classifier becomes sensitive to the classification features and by architecture robust against the highly domain-specific context. The approach is benchmarked in a technical and a non-technical domain and shows convincing classification results. In particular, it is shown that the domain generalization capabilities and classification results are improved by the proposed architecture, allowing for larger domain shifts between source and target domains.
翻訳日:2022-11-28 16:46:52 公開日:2022-11-24
# 複雑なヒト集合体における微細粒度原子アクションセグメンテーションのための手誘導高分解能特徴強調

Hand Guided High Resolution Feature Enhancement for Fine-Grained Atomic Action Segmentation within Complex Human Assemblies ( http://arxiv.org/abs/2211.13694v1 )

ライセンス: Link先を確認
Matthew Kent Myers, Nick Wright, Stephen McGough, Nicholas Martin(参考訳) 複雑な人間の原子組立動作の急激な時間的および微細な性質のため、伝統的なアクションセグメンテーションアプローチでは、ビデオフレームの空間的(そしてしばしば時間的)ダウンサンプリングが、製造領域内の正確な分類に必要な、重要な空間的および時間的情報を緩くする。 ロボットの協調作業に必要な高解像度映像データ(しばしば製造領域内で収集される)をフル活用し、リアルタイムなアクションセグメンテーションを容易にするために、我々は、新しい手の位置案内機能強化モデルを提案する。 また,学習中のサラウンドサンプリングと推定時のラベルクリーニングを用いて,リアルタイム動作セグメンテーションのための,オフラインで訓練されたアクション認識モデルを,簡易かつ効果的な方法で展開する手法を提案する。 実世界のロボット組立ラインのビデオデータから,24(+バックグラウンド)のアトミックアクションを含む新たなアクションセグメンテーションデータセットについて評価した。 高分解能な手と従来のフレームワイドの特徴の両方を示すことで、微粒な原子行動の分類が向上し、時間的に認識されたラベルのクリア化は、同様のエンコーダ/デコーダ法を超越し、リアルタイムな分類を可能にする。

Due to the rapid temporal and fine-grained nature of complex human assembly atomic actions, traditional action segmentation approaches requiring the spatial (and often temporal) down sampling of video frames often loose vital fine-grained spatial and temporal information required for accurate classification within the manufacturing domain. In order to fully utilise higher resolution video data (often collected within the manufacturing domain) and facilitate real time accurate action segmentation - required for human robot collaboration - we present a novel hand location guided high resolution feature enhanced model. We also propose a simple yet effective method of deploying offline trained action recognition models for real time action segmentation on temporally short fine-grained actions, through the use of surround sampling while training and temporally aware label cleaning at inference. We evaluate our model on a novel action segmentation dataset containing 24 (+background) atomic actions from video data of a real world robotics assembly production line. Showing both high resolution hand features as well as traditional frame wide features improve fine-grained atomic action classification, and that though temporally aware label clearing our model is capable of surpassing similar encoder/decoder methods, while allowing for real time classification.
翻訳日:2022-11-28 16:46:28 公開日:2022-11-24
# CasFusionNet:Dense Feature Fusionによるポイントクラウドセマンティックシーン補完のためのカスケードネットワーク

CasFusionNet: A Cascaded Network for Point Cloud Semantic Scene Completion by Dense Feature Fusion ( http://arxiv.org/abs/2211.13702v1 )

ライセンス: Link先を確認
Jinfeng Xu, Xianzhi Li, Yuan Tang, Qiao Yu, Yixue Hao, Long Hu, Min Chen(参考訳) semantic scene completion (ssc) は、部分的な3dシーンを完了し、その意味を同時に予測することを目的としている。 既存の作品の多くはvoxel表現を採用しており、voxelの解像度が上がるにつれてメモリと計算コストが増大する。 3次元点雲の観点からSSCを解こうとする研究はいくつかあるが、シーン補完とセマンティックセグメンテーションの2つのタスクの相関と相補性を完全には活用していない。 本稿では,高密度機能融合によるポイントクラウドセマンティックシーン補完のための新しいカスケードネットワークCasFusionNetを提案する。 特に私たちは (i)大域完備モジュール(GCM)で、アップサンプリングされて完成したが粗い点集合を生成する。 (ii)GCMによって生成された完了点のポイントごとの意味ラベルを予測する意味セグメンテーションモジュール(SSM) (iii)局所的な見地から粗い完成点及び関連ラベルをさらに洗練するための局所的精細化モジュール(lrm)。 上記の3つのモジュールを各レベルに密集したフィーチャーフュージョンで整理し,合計4つのレベルをカスケードし,各レベル間のフィーチャーフュージョンを用いて十分な情報利用を行う。 得られた2つのポイントベースデータセットの定量的・定性的な結果から,casfusionnetの有効性と優位性を,シーン補完と意味セグメンテーションの両面で検証した。 コードとデータセットは、https://github.com/JinfengX/CasFusionNet.comで公開されている。

Semantic scene completion (SSC) aims to complete a partial 3D scene and predict its semantics simultaneously. Most existing works adopt the voxel representations, thus suffering from the growth of memory and computation cost as the voxel resolution increases. Though a few works attempt to solve SSC from the perspective of 3D point clouds, they have not fully exploited the correlation and complementarity between the two tasks of scene completion and semantic segmentation. In our work, we present CasFusionNet, a novel cascaded network for point cloud semantic scene completion by dense feature fusion. Specifically, we design (i) a global completion module (GCM) to produce an upsampled and completed but coarse point set, (ii) a semantic segmentation module (SSM) to predict the per-point semantic labels of the completed points generated by GCM, and (iii) a local refinement module (LRM) to further refine the coarse completed points and the associated labels from a local perspective. We organize the above three modules via dense feature fusion in each level, and cascade a total of four levels, where we also employ feature fusion between each level for sufficient information usage. Both quantitative and qualitative results on our compiled two point-based datasets validate the effectiveness and superiority of our CasFusionNet compared to state-of-the-art methods in terms of both scene completion and semantic segmentation. The codes and datasets are available at: https://github.com/JinfengX/CasFusionNet.
翻訳日:2022-11-28 16:46:03 公開日:2022-11-24
# 反復分解による軽量イベントベース光フロー推定

Lightweight Event-based Optical Flow Estimation via Iterative Deblurring ( http://arxiv.org/abs/2211.13726v1 )

ライセンス: Link先を確認
Yilun Wu, Federico Paredes-Vall\'es, Guido C. H. E. de Croon(参考訳) フレームベースの手法に触発されて、最先端のイベントベースの光フローネットワークは相関ボリュームの明示的な計算に依存しており、処理予算とメモリが限られているシステム上で計算・保存するのに費用がかかる。 この目的のために,IDNet(Iterative Deblurring Network)を導入した。 IDNetは、イベントストリームの時空間的連続的なユニークな性質を活用し、反復的な洗練と動きの劣化を通じて、暗黙的に相関を捉える方法を提案する。 我々のネットワークは相関ボリュームを計算せず、リカレントネットワークを用いてイベントの時空間相関を反復的に最大化する。 さらに、同じイベントのバッチを繰り返す"ID"と、オンラインの方法でストリーミングイベントを繰り返す"TID"という2つの反復的な更新スキームを提案する。 ベンチマークの結果、以前の"id"スキームは、計算コストの33%、メモリフットプリントの90%という最先端のパフォーマンスに到達できるが、後者の"tid"スキームはさらに効率的であり、計算節約の83%、パフォーマンス低下の18%のコストで15倍のレイテンシを期待できる。

Inspired by frame-based methods, state-of-the-art event-based optical flow networks rely on the explicit computation of correlation volumes, which are expensive to compute and store on systems with limited processing budget and memory. To this end, we introduce IDNet (Iterative Deblurring Network), a lightweight yet well-performing event-based optical flow network without using correlation volumes. IDNet leverages the unique spatiotemporally continuous nature of event streams to propose an alternative way of implicitly capturing correlation through iterative refinement and motion deblurring. Our network does not compute correlation volumes but rather utilizes a recurrent network to maximize the spatiotemporal correlation of events iteratively. We further propose two iterative update schemes: "ID" which iterates over the same batch of events, and "TID" which iterates over time with streaming events in an online fashion. Benchmark results show the former "ID" scheme can reach close to state-of-the-art performance with 33% of savings in compute and 90% in memory footprint, while the latter "TID" scheme is even more efficient promising 83% of compute savings and 15 times less latency at the cost of 18% of performance drop.
翻訳日:2022-11-28 16:45:37 公開日:2022-11-24
# 説明可能なモデル非依存な類似性と顔認証の信頼性

Explainable Model-Agnostic Similarity and Confidence in Face Verification ( http://arxiv.org/abs/2211.13735v1 )

ライセンス: Link先を確認
Martin Knoche, Torben Teepe, Stefan H\"ormann, Gerhard Rigoll(参考訳) 近年,顔認識システムは目覚ましい性能を示し,日常生活において重要な役割を担っている。 彼らは多くのシナリオで、すでに人間の顔認証責任を超えています。 しかし、予測には説明が欠けている。 人間のオペレータと比較して、典型的な顔認識ネットワークシステムは、これらの決定に関するさらなる説明や洞察なしにバイナリ決定のみを生成する。 この研究は、開発者やオペレーターにとって不可欠な顔認識システムの説明に焦点を当てている。 まず、2つの入力画像間の顔の特徴距離とデータセット間の距離分布に基づいて、これらのシステムに対する信頼度スコアを導入する。 次に,画像の系統的オクルージョンに基づいて距離偏差をマッピングする顔認識システムから,より有意義な予測を得るための新しい可視化手法を提案する。 その結果、オリジナル画像とブレンドされ、類似した顔領域が強調される。 最後に,最先端の顔認証データセットの信頼度スコアと説明マップを算出し,その結果をwebプラットフォーム上で公開する。 ユーザフレンドリーなインタラクションのためのプラットフォームを最適化し、マシンラーニングの決定の理解をさらに改善したいと考えています。 ソースコードはGitHubで入手でき、Webプラットフォームはhttp://explainable-face-verification.ey.r.comで公開されている。 appspot.com所属。

Recently, face recognition systems have demonstrated remarkable performances and thus gained a vital role in our daily life. They already surpass human face verification accountability in many scenarios. However, they lack explanations for their predictions. Compared to human operators, typical face recognition network system generate only binary decisions without further explanation and insights into those decisions. This work focuses on explanations for face recognition systems, vital for developers and operators. First, we introduce a confidence score for those systems based on facial feature distances between two input images and the distribution of distances across a dataset. Secondly, we establish a novel visualization approach to obtain more meaningful predictions from a face recognition system, which maps the distance deviation based on a systematic occlusion of images. The result is blended with the original images and highlights similar and dissimilar facial regions. Lastly, we calculate confidence scores and explanation maps for several state-of-the-art face verification datasets and release the results on a web platform. We optimize the platform for a user-friendly interaction and hope to further improve the understanding of machine learning decisions. The source code is available on GitHub, and the web platform is publicly available at http://explainable-face-verification.ey.r.appspot.com.
翻訳日:2022-11-28 16:45:12 公開日:2022-11-24
# エッジコンピューティングにおけるCNN推論オフロードの注意に基づく特徴圧縮

Attention-based Feature Compression for CNN Inference Offloading in Edge Computing ( http://arxiv.org/abs/2211.13745v1 )

ライセンス: Link先を確認
Nan Li, Alexandros Iosifidis, Qi Zhang(参考訳) 本稿では,デバイスエッジ協調システムにおけるcnn推論の計算オフロードについて検討する。 新たなパラダイム・セマンティック・コミュニケーションに触発されて,エンドデバイスにおける効果的な特徴抽出のためのオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。 我々は,CNNにおけるチャネルアテンション法に基づく特徴圧縮モジュールを設計し,重要な特徴を選択して中間データを圧縮する。 さらに通信オーバーヘッドを低減するため,エントロピー符号化を用いて圧縮データの統計的冗長性を除去できる。 受信機では、受信した圧縮データから学習して中間データを再構築し、精度を向上させる軽量デコーダを設計する。 収束を高速化するため、ResNet-50アーキテクチャに基づいて得られたニューラルネットワークをステップバイステップでトレーニングする。 実験結果から、AECNNは、約4%の精度損失で256倍以上の中間データを圧縮でき、最先端の作業であるBottleNet++よりも優れていることがわかった。 エッジサーバに直接推論タスクをオフロードするのと比較して、AECNNはより早く、特に無線チャネル条件の悪い環境で推論タスクを完了させることができる。

This paper studies the computational offloading of CNN inference in device-edge co-inference systems. Inspired by the emerging paradigm semantic communication, we propose a novel autoencoder-based CNN architecture (AECNN), for effective feature extraction at end-device. We design a feature compression module based on the channel attention method in CNN, to compress the intermediate data by selecting the most important features. To further reduce communication overhead, we can use entropy encoding to remove the statistical redundancy in the compressed data. At the receiver, we design a lightweight decoder to reconstruct the intermediate data through learning from the received compressed data to improve accuracy. To fasten the convergence, we use a step-by-step approach to train the neural networks obtained based on ResNet-50 architecture. Experimental results show that AECNN can compress the intermediate data by more than 256x with only about 4% accuracy loss, which outperforms the state-of-the-art work, BottleNet++. Compared to offloading inference task directly to edge server, AECNN can complete inference task earlier, in particular, under poor wireless channel condition, which highlights the effectiveness of AECNN in guaranteeing higher accuracy within time constraint.
翻訳日:2022-11-28 16:44:54 公開日:2022-11-24
# temporalstereo:効率的な空間-時間ステレオマッチングネットワーク

TemporalStereo: Efficient Spatial-Temporal Stereo Matching Network ( http://arxiv.org/abs/2211.13755v1 )

ライセンス: Link先を確認
Youmin Zhang, Matteo Poggi, Stefano Mattoccia(参考訳) そこで本稿では,高効率で,過去の形状情報や文脈情報を効果的に活用し,マッチング精度を高めることのできる,細粒度から細かなオンラインステレオマッチングネットワークであるtemporstereoを提案する。 しかし,このネットワークでは,一対のステレオペアが与えられた場合の有効性が証明されている。しかし,フレーム間で時空間情報を利用する特異な能力により,ステレオシーケンスにおいても高い効率を享受しながら,オクルージョンや反射領域などの問題を軽減できる。 特に、ステレオビデオでトレーニングされたモデルは、単一のペアと時間の両方でシームレスに実行できる。 実験によると、カメラの動きに依存するネットワークは、ビデオ上で走るときの動的オブジェクトに対してさらに堅牢である。 我々は、合成(SceneFlow, TartanAir)および実(KITTI 2012, KITTI 2015)データセットに関する広範な実験を通じて、TemporalStereoを検証する。 詳細な結果から,これらのデータセット上での最先端のパフォーマンスが得られた。 コードは \url{https://github.com/youmi-zym/temporalstereo.git} で入手できる。

We present TemporalStereo, a coarse-to-fine based online stereo matching network which is highly efficient, and able to effectively exploit the past geometry and context information to boost the matching accuracy. Our network leverages sparse cost volume and proves to be effective when a single stereo pair is given, however, its peculiar ability to use spatio-temporal information across frames allows TemporalStereo to alleviate problems such as occlusions and reflective regions while enjoying high efficiency also in the case of stereo sequences. Notably our model trained, once with stereo videos, can run in both single-pair and temporal ways seamlessly. Experiments show that our network relying on camera motion is even robust to dynamic objects when running on videos. We validate TemporalStereo through extensive experiments on synthetic (SceneFlow, TartanAir) and real (KITTI 2012, KITTI 2015) datasets. Detailed results show that our model achieves state-of-the-art performance on any of these datasets. Code is available at \url{https://github.com/youmi-zym/TemporalStereo.git}.
翻訳日:2022-11-28 16:44:34 公開日:2022-11-24
# セマンティクスセグメンテーションのためのコントラストプリトレーニングは雑音の正のペアに対してロバストである

Contrastive pretraining for semantic segmentation is robust to noisy positive pairs ( http://arxiv.org/abs/2211.13756v1 )

ライセンス: Link先を確認
Sebastian Gerard (KTH Royal Institute of Technology, Stockholm, Sweden), Josephine Sullivan (KTH Royal Institute of Technology, Stockholm, Sweden)(参考訳) 対照的学習のドメイン固有の変種は、2つの異なる画像から正のペアを構築することができる。 従来の対比法とは異なり、正の対は完全一致しない。 偽陰対と同様に、モデルの性能を阻害する可能性がある。 驚いたことに、下流のセマンティクスセグメンテーションはノイズの多いペアに対して堅牢であるか、あるいはそれらからのメリットさえある。 実験はリモートセンシングデータセットxbdと合成セグメンテーションデータセットを用いて行われ,ノイズパラメータを完全に制御した。 結果として、実践者は事前に正のペアをフィルターすることなく、そのようなドメイン固有のコントラストメソッドを使用できるべきである。

Domain-specific variants of contrastive learning can construct positive pairs from two distinct images, as opposed to augmenting the same image twice. Unlike in traditional contrastive methods, this can result in positive pairs not matching perfectly. Similar to false negative pairs, this could impede model performance. Surprisingly, we find that downstream semantic segmentation is either robust to the noisy pairs or even benefits from them. The experiments are conducted on the remote sensing dataset xBD, and a synthetic segmentation dataset, on which we have full control over the noise parameters. As a result, practitioners should be able to use such domain-specific contrastive methods without having to filter their positive pairs beforehand.
翻訳日:2022-11-28 16:44:15 公開日:2022-11-24
# DiffusionSDF:符号付き距離関数の条件付き生成モデル

DiffusionSDF: Conditional Generative Modeling of Signed Distance Functions ( http://arxiv.org/abs/2211.13757v1 )

ライセンス: Link先を確認
Gene Chou, Yuval Bahat, Felix Heide(参考訳) 確率的拡散モデルは、画像合成、塗装、テキスト・トゥ・イメージタスクの最先端の結果を得た。 しかし、それらはまだ複雑な3D形状を生成する初期段階にある。 本研究は, 形状完備化, 単視点再構成, 実走査点雲の再構成のための生成モデルであるDiffusionSDFを提案する。 ニューラルサイン付き距離関数(sdfs)を3次元表現として、ニューラルネットワークを介して様々な信号(ポイントクラウド、2dイメージなど)の幾何学をパラメータ化します。 ニューラルネットワークsdfは暗黙の関数であり、それらを拡散させることは、ニューラルネットワークの重みの反転を学習することに相当する。 広範な実験により,本手法は部分入力から非条件生成と条件生成を両立できることを示した。 この研究は、拡散モデルの領域を学習2d、明示表現から3d、暗黙表現へと拡張する。

Probabilistic diffusion models have achieved state-of-the-art results for image synthesis, inpainting, and text-to-image tasks. However, they are still in the early stages of generating complex 3D shapes. This work proposes DiffusionSDF, a generative model for shape completion, single-view reconstruction, and reconstruction of real-scanned point clouds. We use neural signed distance functions (SDFs) as our 3D representation to parameterize the geometry of various signals (e.g., point clouds, 2D images) through neural networks. Neural SDFs are implicit functions and diffusing them amounts to learning the reversal of their neural network weights, which we solve using a custom modulation module. Extensive experiments show that our method is capable of both realistic unconditional generation and conditional generation from partial inputs. This work expands the domain of diffusion models from learning 2D, explicit representations, to 3D, implicit representations.
翻訳日:2022-11-28 16:44:01 公開日:2022-11-24
# scannerf:neural radianceフィールドのためのスケーラブルなベンチマーク

ScanNeRF: a Scalable Benchmark for Neural Radiance Fields ( http://arxiv.org/abs/2211.13762v1 )

ライセンス: Link先を確認
Luca De Luigi, Damiano Bolognini, Federico Domeniconi, Daniele De Gregorio, Matteo Poggi, Luigi Di Stefano(参考訳) 本稿では,Neural Radiance Fields (NeRF) と一般にはNeural Rendering (NR) フレームワークを評価するための,最初の実ベンチマークを提案する。 実物を多量かつ努力的にスキャンするための効果的なパイプラインを設計し実装する。 私たちのスキャンステーションは500ドル未満のハードウェア予算で作られており、スキャンされた物体の約4000枚の画像をわずか5分で収集できます。 このようなプラットフォームは、異なる条件下での現代的なNeRFメソッドのパフォーマンスのベンチマークを目的とした、いくつかのトレイン/ヴァル/テスト分割を特徴とするデータセットであるScanNeRFを構築するために使用される。 そこで我々は,その強度と弱点を明らかにするために,最先端の3つのNeRF変異体を評価した。 データセットは、より優れたNeRFの開発を促進するオンラインベンチマークとともに、私たちのプロジェクトページで利用可能です。

In this paper, we propose the first-ever real benchmark thought for evaluating Neural Radiance Fields (NeRFs) and, in general, Neural Rendering (NR) frameworks. We design and implement an effective pipeline for scanning real objects in quantity and effortlessly. Our scan station is built with less than 500$ hardware budget and can collect roughly 4000 images of a scanned object in just 5 minutes. Such a platform is used to build ScanNeRF, a dataset characterized by several train/val/test splits aimed at benchmarking the performance of modern NeRF methods under different conditions. Accordingly, we evaluate three cutting-edge NeRF variants on it to highlight their strengths and weaknesses. The dataset is available on our project page, together with an online benchmark to foster the development of better and better NeRFs.
翻訳日:2022-11-28 16:43:46 公開日:2022-11-24
# 未修正映像からの物体状態変化のマルチタスク学習

Multi-Task Learning of Object State Changes from Uncurated Videos ( http://arxiv.org/abs/2211.13500v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Sou\v{c}ek and Jean-Baptiste Alayrac and Antoine Miech and Ivan Laptev and Josef Sivic(参考訳) 長時間の未処理ウェブビデオでオブジェクトと対話する人々を観察することにより、オブジェクトの状態変化とそれに対応する状態修正行動の時間的局所化を目指す。 主な貢献は3つある。 まず、代替のマルチタスクネットワークアーキテクチャを探求し、複数のオブジェクトの状態と、水を注いだりコーヒーを注いだりといったアクションの効率的な共同学習を可能にするモデルを特定する。 第2に,オブジェクト間の制約の異なるタイプと状態修飾動作を活用するマルチタスク自己教師付き学習手順をデザインし,ノイズの多いビデオレベルの監視のみから,対象状態と動作の時間的局所化のためのモデルのエンドツーエンドトレーニングを実現する。 第3に, 穴あけ, クリームウイスキー, 紙面の折り畳みなど, 様々な相互作用を描写した何万本ものウェブビデオを含む大規模なChangeItおよびCOINデータセットについて報告する。 マルチタスクモデルは,従来のシングルタスク法に比べて40%の相対的改善を達成し,画像ベースおよびビデオベースのゼロショットモデルを大きく上回っていることを示す。 また、EPIC-KITCHENSとEgo4Dデータセットの長い自我中心のビデオをゼロショットでテストし、学習モデルの堅牢性を実証した。

We aim to learn to temporally localize object state changes and the corresponding state-modifying actions by observing people interacting with objects in long uncurated web videos. We introduce three principal contributions. First, we explore alternative multi-task network architectures and identify a model that enables efficient joint learning of multiple object states and actions such as pouring water and pouring coffee. Second, we design a multi-task self-supervised learning procedure that exploits different types of constraints between objects and state-modifying actions enabling end-to-end training of a model for temporal localization of object states and actions in videos from only noisy video-level supervision. Third, we report results on the large-scale ChangeIt and COIN datasets containing tens of thousands of long (un)curated web videos depicting various interactions such as hole drilling, cream whisking, or paper plane folding. We show that our multi-task model achieves a relative improvement of 40% over the prior single-task methods and significantly outperforms both image-based and video-based zero-shot models for this problem. We also test our method on long egocentric videos of the EPIC-KITCHENS and the Ego4D datasets in a zero-shot setup demonstrating the robustness of our learned model.
翻訳日:2022-11-28 16:38:38 公開日:2022-11-24
# グループダンスチャレンジにおけるECCV 2022多人数追跡のための第2位ソリューション

The Second-place Solution for ECCV 2022 Multiple People Tracking in Group Dance Challenge ( http://arxiv.org/abs/2211.13509v1 )

ライセンス: Link先を確認
Fan Yang, Shigeyuki Odashima, Shoichi Masui, Shan Jiang(参考訳) これは、ECCV 2022 Multiple People Tracking in Group Dance Challengeの2番目のソリューションです。 提案手法は主に,カスケードバッファIoU(C-BIoU)トラッカーを用いたオンライン短期追跡と,外観特徴と階層クラスタリングを用いたオフライン長期追跡の2段階を含む。 c-biouトラッカは,検出とトラックのマッチング空間を拡大するためのバッファを追加することにより,隣接フレームにおける同一だが重複しない検出とトラックとの直接マッチングと,マッチング空間における動き推定バイアスの補償という,2つの面における不規則な動きの影響を軽減する。 さらに、マッチング空間の過剰膨張のリスクを低減するために、まず生存中のトラックと検出を小さなバッファでマッチングし、次に不一致のトラックと検出を大きなバッファでマッチングするカスケードマッチングが用いられる。 オンライントラッキングにC-BIoUを使用した後、ReMOTSが導入したオフラインリファインメントを適用した。

This is our 2nd-place solution for the ECCV 2022 Multiple People Tracking in Group Dance Challenge. Our method mainly includes two steps: online short-term tracking using our Cascaded Buffer-IoU (C-BIoU) Tracker, and, offline long-term tracking using appearance feature and hierarchical clustering. Our C-BIoU tracker adds buffers to expand the matching space of detections and tracks, which mitigates the effect of irregular motions in two aspects: one is to directly match identical but non-overlapping detections and tracks in adjacent frames, and the other is to compensate for the motion estimation bias in the matching space. In addition, to reduce the risk of overexpansion of the matching space, cascaded matching is employed: first matching alive tracks and detections with a small buffer, and then matching unmatched tracks and detections with a large buffer. After using our C-BIoU for online tracking, we applied the offline refinement introduced by ReMOTS.
翻訳日:2022-11-28 16:38:17 公開日:2022-11-24
# ラジカル構造ストローク木を用いた漢字認識

Chinese Character Recognition with Radical-Structured Stroke Trees ( http://arxiv.org/abs/2211.13518v1 )

ライセンス: Link先を確認
Haiyang Yu, Jingye Chen, Bin Li, Xiangyang Xue(参考訳) 深層学習の隆盛は、漢字認識の急速な発展を目撃している。 しかし、テスト用の文字がトレーニングデータセットと異なる分布を持つ可能性があることは、依然として大きな課題である。 単一レベル表現(キャラクタレベル、ラジカルレベル、ストロークレベル)に基づく既存の手法は、分布の変化(ぼやけ、咬合、ゼロショット問題など)に過敏すぎるか、1対1の曖昧さに寛容すぎるかのどちらかである。 本稿では,それぞれの漢字を,その根幹構造に従って組織されたストロークツリーとして表現し,根幹レベルとストロークレベルの双方の利点を適切に活用する。 本稿では,ラジカル構造とラジカル領域を識別する2段階分解フレームワークを提案し,さらにラジカル領域の特徴に応じてストロークシーケンスを予測できるラジカルトロークデコーダを提案する。 生成したラジカル構造とストロークシーケンスは、RSSTレキシコンの最も近い候補文字と一致するように、提案した重み付き編集距離に基づいてTree-to-Characterトランスレータに供給されるRade-Structued Stroke Tree (RSST)として符号化される。 提案手法は,提案手法のロバスト性を検証するぼやけ・咬合・ゼロショットシナリオにおいて,分布差がより深刻になるにつれてマージンを増加させることにより,最先端の単一レベル手法よりも優れることを示す。

The flourishing blossom of deep learning has witnessed the rapid development of Chinese character recognition. However, it remains a great challenge that the characters for testing may have different distributions from those of the training dataset. Existing methods based on a single-level representation (character-level, radical-level, or stroke-level) may be either too sensitive to distribution changes (e.g., induced by blurring, occlusion, and zero-shot problems) or too tolerant to one-to-many ambiguities. In this paper, we represent each Chinese character as a stroke tree, which is organized according to its radical structures, to fully exploit the merits of both radical and stroke levels in a decent way. We propose a two-stage decomposition framework, where a Feature-to-Radical Decoder perceives radical structures and radical regions, and a Radical-to-Stroke Decoder further predicts the stroke sequences according to the features of radical regions. The generated radical structures and stroke sequences are encoded as a Radical-Structured Stroke Tree (RSST), which is fed to a Tree-to-Character Translator based on the proposed Weighted Edit Distance to match the closest candidate character in the RSST lexicon. Our extensive experimental results demonstrate that the proposed method outperforms the state-of-the-art single-level methods by increasing margins as the distribution difference becomes more severe in the blurring, occlusion, and zero-shot scenarios, which indeed validates the robustness of the proposed method.
翻訳日:2022-11-28 16:37:59 公開日:2022-11-24
# Roboflow 100: リッチでマルチドメインのオブジェクト検出ベンチマーク

Roboflow 100: A Rich, Multi-Domain Object Detection Benchmark ( http://arxiv.org/abs/2211.13523v1 )

ライセンス: Link先を確認
Floriana Ciaglia, Francesco Saverio Zuppichini, Paul Guerrie, Mark McQuade, and Jacob Solawetz(参考訳) オブジェクト検出モデルの評価は通常、Microsoft COCOやPascal VOCといった固定データセットのセット上で、mAPなどの単一のメトリックを最適化することで行われる。 画像検索とアノテーションのコストのため、これらのデータセットはweb上に存在する画像で構成されており、衛星、顕微鏡、ゲームなど、実際にモデル化されている多くの現実のドメインを表現していないため、モデルによって学習される一般化の程度を断定することは困難である。 我々は,100のデータセット,7つのイメージドメイン,224,714のイメージ,805のクラスラベルからなるroboflow-100 (rf100)を紹介する。 私たちは、9万以上の公開データセットからRF100を抽出し、600万の公開イメージを、WebアプリケーションRoboflow Universeのオープンでコンピュータビジョンの実践者が積極的に組み立て、ラベル付けしています。 RF100をリリースすることにより、研究者が実際のデータを用いてモデルの一般化可能性をテストするのに役立つ、セマンティックに多様性のあるマルチベンチマークデータセットの提供を目指している。 RF100のダウンロードとベンチマークのレプリケーションはGitHubで公開されている。

The evaluation of object detection models is usually performed by optimizing a single metric, e.g. mAP, on a fixed set of datasets, e.g. Microsoft COCO and Pascal VOC. Due to image retrieval and annotation costs, these datasets consist largely of images found on the web and do not represent many real-life domains that are being modelled in practice, e.g. satellite, microscopic and gaming, making it difficult to assert the degree of generalization learned by the model. We introduce the Roboflow-100 (RF100) consisting of 100 datasets, 7 imagery domains, 224,714 images, and 805 class labels with over 11,170 labelling hours. We derived RF100 from over 90,000 public datasets, 60 million public images that are actively being assembled and labelled by computer vision practitioners in the open on the web application Roboflow Universe. By releasing RF100, we aim to provide a semantically diverse, multi-domain benchmark of datasets to help researchers test their model's generalizability with real-life data. RF100 download and benchmark replication are available on GitHub.
翻訳日:2022-11-28 16:37:20 公開日:2022-11-24
# 3次元デュアルフュージョン:Dual-Domain Dual-Query Camera-LiDAR Fusion for 3D Object Detection

3D Dual-Fusion: Dual-Domain Dual-Query Camera-LiDAR Fusion for 3D Object Detection ( http://arxiv.org/abs/2211.13529v1 )

ライセンス: Link先を確認
Yecheol Kim, Konyul Park, Minwook Kim, Dongsuk Kum, Jun Won Choi(参考訳) カメラとLiDARセンサーからのデータを融合することは、堅牢な3Dオブジェクト検出を実現するための重要な技術である。 カメラとLiDARの融合における重要な課題の1つは、2つのセンサー間の大きな領域ギャップを座標とデータ分散の観点から緩和することである。 本稿では,カメラとLiDARデータの特徴表現のギャップを軽減するために,3Dデュアルフュージョンと呼ばれる新しいカメラ-LiDAR融合アーキテクチャを提案する。 提案手法はカメラビューと3dボクセルビュードメインの特徴を融合させ,その相互作用を変形可能な注意を通してモデル化する。 我々は、2つのドメインから情報を集約するためにトランスフォーマーフュージョンエンコーダを再設計する。 2つの大きな変化は 1) 二重クエリに基づく変形可能な注意力による二重ドメイン機能の融合 2) 二重クエリデコードの前にvoxelドメインクエリをエンコードするための3次元局所的自己アテンション。 実験の結果,提案したカメラ-LiDAR融合アーキテクチャは,KITTIおよびnuScenesデータセット上での競合性能を達成し,いくつかの3次元オブジェクト検出ベンチマークの最先端性能を示した。

Fusing data from cameras and LiDAR sensors is an essential technique to achieve robust 3D object detection. One key challenge in camera-LiDAR fusion involves mitigating the large domain gap between the two sensors in terms of coordinates and data distribution when fusing their features. In this paper, we propose a novel camera-LiDAR fusion architecture called, 3D Dual-Fusion, which is designed to mitigate the gap between the feature representations of camera and LiDAR data. The proposed method fuses the features of the camera-view and 3D voxel-view domain and models their interactions through deformable attention. We redesign the transformer fusion encoder to aggregate the information from the two domains. Two major changes include 1) dual query-based deformable attention to fuse the dual-domain features interactively and 2) 3D local self-attention to encode the voxel-domain queries prior to dual-query decoding. The results of an experimental evaluation show that the proposed camera-LiDAR fusion architecture achieved competitive performance on the KITTI and nuScenes datasets, with state-of-the-art performances in some 3D object detection benchmarks categories.
翻訳日:2022-11-28 16:37:01 公開日:2022-11-24
# SfM-TTR:シングルビュー深度ネットワークのテスト時間リファインメントのための動き構造の利用

SfM-TTR: Using Structure from Motion for Test-Time Refinement of Single-View Depth Networks ( http://arxiv.org/abs/2211.13551v1 )

ライセンス: Link先を確認
Sergio Izquierdo, Javier Civera(参考訳) 単一の視点から深度マップを推定することは幾何学的に不適切であり、最先端の手法は深度ニューラルネットワークを用いた視覚的外見との学習深度の関係に依存する。 一方、Structure from Motion(SfM)は、画像間の正確なマッチングが局所的な識別的テクスチャによって制限されるため、非常に正確だがスパースなマップを生成するために、多視点制約を利用する。 本研究では、SfM-TTRと呼ばれる新しいテスト時間改善手法を提案し、SfMマルチビューキューを用いてテスト時のシングルビュー深度ネットワークの性能を向上させることにより、両手法の強みを組み合わせる。 具体的には、テスト時の自己監督信号としてスパースSfM点群を用い、ネットワークエンコーダを微調整して、テストシーンのより良い表現を学習する。 以上の結果から,SfM-TTRがいくつかの最先端の自己監督型・教師型ネットワークに追加されたことにより,その性能が大幅に向上し,従来のTTRベースラインよりも高い結果が得られた。

Estimating a dense depth map from a single view is geometrically ill-posed, and state-of-the-art methods rely on learning depth's relation with visual appearance using deep neural networks. On the other hand, Structure from Motion (SfM) leverages multi-view constraints to produce very accurate but sparse maps, as accurate matching across images is limited by locally discriminative texture. In this work, we combine the strengths of both approaches by proposing a novel test-time refinement (TTR) method, denoted as SfM-TTR, that boosts the performance of single-view depth networks at test time using SfM multi-view cues. Specifically, and differently from the state of the art, we use sparse SfM point clouds as test-time self-supervisory signal, fine-tuning the network encoder to learn a better representation of the test scene. Our results show how the addition of SfM-TTR to several state-of-the-art self-supervised and supervised networks improves significantly their performance, outperforming previous TTR baselines mainly based on photometric multi-view consistency.
翻訳日:2022-11-28 16:36:40 公開日:2022-11-24
# 指紋画像品質推定とマルチアルゴリズム検証への応用

Fingerprint Image-Quality Estimation and its Application to Multialgorithm Verification ( http://arxiv.org/abs/2211.13557v1 )

ライセンス: Link先を確認
Hartwig Fronthaler, Klaus Kollreider, Josef Bigun, Julian Fierrez, Fernando Alonso-Fernandez, Javier Ortega-Garcia, Joaquin Gonzalez-Rodriguez(参考訳) 信号品質の認識は、認識率を高め、マルチセンサー環境における決定を著しく支援する。 それでも、自動品質評価は未解決の問題である。 本稿では, 指紋画像の向きテンソルを用いて, ノイズ, 構造不足, ぼやけなどの信号障害を, 対称性記述子の助けを借りて定量化する。 バイオメトリックスでは特に強い参照の減少が好ましいが、アプローチには不十分な情報が少ない。 これはまた、より単純な品質推定器、訓練された方法(NFIQ)、および複数の公開データベース上での指紋品質の人間の認識を含む多くの実験でも支持されている。 さらに、モノモーダルなマルチアルゴリズム指紋認識環境における融合パラメータの適応のために、品質測定を広範囲に再利用する。 本研究では,いくつかの訓練および非訓練スコアレベルの融合スキームについて検討した。 従来の性能と現在の品質条件を取り入れたベイズベースの戦略として,単純な融合ルールに加えて,計算効率の新たなケースドスキームを提案する。 定量的な結果は、あらゆる面において品質意識を優先し、認識率を高め、異なる熟練の専門家を効率的に(訓練によって)効果的に活用する。

Signal-quality awareness has been found to increase recognition rates and to support decisions in multisensor environments significantly. Nevertheless, automatic quality assessment is still an open issue. Here, we study the orientation tensor of fingerprint images to quantify signal impairments, such as noise, lack of structure, blur, with the help of symmetry descriptors. A strongly reduced reference is especially favorable in biometrics, but less information is not sufficient for the approach. This is also supported by numerous experiments involving a simpler quality estimator, a trained method (NFIQ), as well as the human perception of fingerprint quality on several public databases. Furthermore, quality measurements are extensively reused to adapt fusion parameters in a monomodal multialgorithm fingerprint recognition environment. In this study, several trained and nontrained score-level fusion schemes are investigated. A Bayes-based strategy for incorporating experts past performances and current quality conditions, a novel cascaded scheme for computational efficiency, besides simple fusion rules, is presented. The quantitative results favor quality awareness under all aspects, boosting recognition rates and fusing differently skilled experts efficiently as well as effectively (by training).
翻訳日:2022-11-28 16:36:17 公開日:2022-11-24
# より効果的な表情認識のためのより包括的な顔の反転

More comprehensive facial inversion for more effective expression recognition ( http://arxiv.org/abs/2211.13564v1 )

ライセンス: Link先を確認
Jiawei Mao, Guangyi Zhao, Yuanqi Chang, Xuesong Yin, Xiaogang Peng, Rui Xu(参考訳) 表情認識(FER)はコンピュータビジョンのユビキタス応用において重要な役割を果たしている。 画像生成プロセスにおいて、FER性能を向上させる有用な表現を得ることができるかという新たな視点でこの問題を再考し、IFER(Inversion FER)と呼ばれるFERタスクの画像反転機構に基づく新しい生成手法を提案する。 特に, 顔画像の特徴を包括的に抽出するために, IFER に対する新しい適応型逆変換器 (ASIT) を考案した。 さらに、ASITは、分布アライメント損失に制約された、ソースと生成された画像間のセマンティック特徴のコサイン類似度を測定する画像反転判別器を備えている。 最後に,後続のFER処理のためにASITから構造コードと潜伏コードとを融合させる機能変調モジュールを導入する。 FFHQやCelebA-HQなどの顔データセット上でASITを広範囲に評価し,現状の顔インバージョン性能を実現する方法を示した。 IFERはまた、RAF-DB、SFEW、AffectNetといった表情認識データセットの競合的な結果も達成している。 コードとモデルはhttps://github.com/Talented-Q/IFER-masterで入手できる。

Facial expression recognition (FER) plays a significant role in the ubiquitous application of computer vision. We revisit this problem with a new perspective on whether it can acquire useful representations that improve FER performance in the image generation process, and propose a novel generative method based on the image inversion mechanism for the FER task, termed Inversion FER (IFER). Particularly, we devise a novel Adversarial Style Inversion Transformer (ASIT) towards IFER to comprehensively extract features of generated facial images. In addition, ASIT is equipped with an image inversion discriminator that measures the cosine similarity of semantic features between source and generated images, constrained by a distribution alignment loss. Finally, we introduce a feature modulation module to fuse the structural code and latent codes from ASIT for the subsequent FER work. We extensively evaluate ASIT on facial datasets such as FFHQ and CelebA-HQ, showing that our approach achieves state-of-the-art facial inversion performance. IFER also achieves competitive results in facial expression recognition datasets such as RAF-DB, SFEW and AffectNet. The code and models are available at https://github.com/Talented-Q/IFER-master.
翻訳日:2022-11-28 16:35:57 公開日:2022-11-24
# Seeds Don't Lie: コンピュータビジョンモデルのための適応型透かしフレームワーク

Seeds Don't Lie: An Adaptive Watermarking Framework for Computer Vision Models ( http://arxiv.org/abs/2211.13644v1 )

ライセンス: Link先を確認
Jacob Shams, Ben Nassi, Ikuya Morikawa, Toshiya Shimizu, Asaf Shabtai, Yuval Elovici(参考訳) 近年, 所有者から不正に得られたコンピュータビジョンモデルを検出するために様々な透かし法が提案されているが, モデル抽出攻撃に対する良好な堅牢性は示さなかった。 本稿では,モデルトレーニング中に初期化されるユニークなランダムシードにより,モデルに存在するユニークな振る舞いを生かし,保護されたモデルを透かし出す適応的枠組みを提案する。 この透かしは、保護されたモデルの知的財産(ip)の不正使用を示す、同じユニークな振る舞いを持つ抽出されたモデルを検出するために使用される。 まず, モデル学習の一環として乱数生成のための初期シードが, 抽出されたモデルによって継承され, 決定境界内に存在する決定境界において, 異なるシードを持つ同一データセット上で訓練された非抽出モデルには存在しない, 異なる特徴を生じることを示す。 そこで本研究では,保護および抽出モデルに存在するユニークな挙動を利用して,透かしキーセットと検証モデルを生成するRobust Adaptive Watermarking (RAW)フレームワークを提案する。 提案手法は,(1)未発見のモデル抽出攻撃に対して頑健であり,(2)ぼやけた方法(例えば,重みの刈り込み)を行う抽出モデルに対して頑健であることを示す。 我々は,このフレームワークの頑健性を評価し(モデルがウォーターマークされていることを意識せずに),情報付き攻撃者(抽出したモデルからウォーターマーク付き行動を取り除くためにぼやけ戦略を用いる),優れた(0.9%) auc値を達成する。 最後に,保護されたモデルとは異なる構造および/またはアーキテクチャを持つモデル抽出攻撃に対して,フレームワークが堅牢であることを示す。

In recent years, various watermarking methods were suggested to detect computer vision models obtained illegitimately from their owners, however they fail to demonstrate satisfactory robustness against model extraction attacks. In this paper, we present an adaptive framework to watermark a protected model, leveraging the unique behavior present in the model due to a unique random seed initialized during the model training. This watermark is used to detect extracted models, which have the same unique behavior, indicating an unauthorized usage of the protected model's intellectual property (IP). First, we show how an initial seed for random number generation as part of model training produces distinct characteristics in the model's decision boundaries, which are inherited by extracted models and present in their decision boundaries, but aren't present in non-extracted models trained on the same data-set with a different seed. Based on our findings, we suggest the Robust Adaptive Watermarking (RAW) Framework, which utilizes the unique behavior present in the protected and extracted models to generate a watermark key-set and verification model. We show that the framework is robust to (1) unseen model extraction attacks, and (2) extracted models which undergo a blurring method (e.g., weight pruning). We evaluate the framework's robustness against a naive attacker (unaware that the model is watermarked), and an informed attacker (who employs blurring strategies to remove watermarked behavior from an extracted model), and achieve outstanding (i.e., >0.9) AUC values. Finally, we show that the framework is robust to model extraction attacks with different structure and/or architecture than the protected model.
翻訳日:2022-11-28 16:35:37 公開日:2022-11-24
# 画像復元のためのクロスアグリゲーショントランス

Cross Aggregation Transformer for Image Restoration ( http://arxiv.org/abs/2211.13654v1 )

ライセンス: Link先を確認
Chen Zheng, Yulun Zhang, Jinjin Gu, Yongbing Zhang, Linghe Kong, Xin Yuan(参考訳) 近年,畳み込みニューラルネットワーク(cnn)を驚くべき結果に置き換えるため,画像復元にトランスフォーマーアーキテクチャが導入された。 グローバルな注意を伴うトランスフォーマーの計算複雑性を考えると、局所的な正方形ウィンドウを用いて自己注意の範囲を制限する方法もある。 しかし、これらの手法は異なるウィンドウ間で直接の相互作用を欠いているため、長距離依存関係の確立が制限される。 上記の問題に対処するため,新たな画像復元モデルであるCross Aggregation Transformer (CAT)を提案する。 我々のCATの中核はRectangle-Window Self-Attention (Rwin-SA)であり、これは異なる頭部における水平および垂直の矩形窓の注意を平行に利用し、注意領域を広げ、異なる窓を横断する特徴を集約する。 また、異なるウィンドウインタラクションのためのAxial-Shift演算も導入する。 さらに,cnnの帰納的バイアス(翻訳不変性と局所性など)をトランスフォーマーに組み込んで,グローバル局所結合を可能にする自己接続機構を補完する局所性補完モジュールを提案する。 我々のCATは、いくつかの画像復元アプリケーションにおいて、最近の最先端の手法よりも優れています。 コードとモデルはhttps://github.com/zhengchen1999/catで入手できる。

Recently, Transformer architecture has been introduced into image restoration to replace convolution neural network (CNN) with surprising results. Considering the high computational complexity of Transformer with global attention, some methods use the local square window to limit the scope of self-attention. However, these methods lack direct interaction among different windows, which limits the establishment of long-range dependencies. To address the above issue, we propose a new image restoration model, Cross Aggregation Transformer (CAT). The core of our CAT is the Rectangle-Window Self-Attention (Rwin-SA), which utilizes horizontal and vertical rectangle window attention in different heads parallelly to expand the attention area and aggregate the features cross different windows. We also introduce the Axial-Shift operation for different window interactions. Furthermore, we propose the Locality Complementary Module to complement the self-attention mechanism, which incorporates the inductive bias of CNN (e.g., translation invariance and locality) into Transformer, enabling global-local coupling. Extensive experiments demonstrate that our CAT outperforms recent state-of-the-art methods on several image restoration applications. The code and models are available at https://github.com/zhengchen1999/CAT.
翻訳日:2022-11-28 16:35:06 公開日:2022-11-24
# MPT:人間の姿勢とメッシュ再構築のためのトランスフォーマーを用いたメッシュ事前訓練

MPT: Mesh Pre-Training with Transformers for Human Pose and Mesh Reconstruction ( http://arxiv.org/abs/2211.13357v1 )

ライセンス: Link先を確認
Kevin Lin, Chung-Ching Lin, Lin Liang, Zicheng Liu, Lijuan Wang(参考訳) 本研究では,人間のポーズやメッシュ再構成のためのmocapデータなどの3dメッシュデータを活用する,新たな事前トレーニングフレームワークであるmesh pre-training(mpt)を提案する。 既存の3Dポーズとメッシュ再構築では、トレーニングデータとしてイメージ-メッシュペアが必要であるが、2D-to-3Dアノテーションの取得は難しい。 本稿では,RGB画像を持たないMoCapデータなどの3Dメッシュデータを事前学習に活用する方法を検討する。 鍵となる考え方は、3Dメッシュデータは対応するRGBイメージの欠如のためにエンドツーエンドのトレーニングには使用できないが、メッシュ回帰トランスフォーマーサブネットワークの事前トレーニングに使用できることである。 このような事前トレーニングは,単一の画像からメッシュ再構成の精度を向上させるだけでなく,ゼロショット機能を実現する。 200万のメッシュを使ってメッシュ事前トレーニングを行います。 実験の結果、MPTはHuman3.6Mと3DPWデータセットの最先端の結果を前進させることが示された。 また,mptはトランスフォーマーモデルが実画像からのヒトメッシュ再構成のゼロショット化を可能にすることを示した。 さらに,MPTから3次元手指再構成の一般化可能性を示し,FreiHANDデータセットの最先端結果を実現する。

We present Mesh Pre-Training (MPT), a new pre-training framework that leverages 3D mesh data such as MoCap data for human pose and mesh reconstruction from a single image. Existing work in 3D pose and mesh reconstruction typically requires image-mesh pairs as the training data, but the acquisition of 2D-to-3D annotations is difficult. In this paper, we explore how to leverage 3D mesh data such as MoCap data, that does not have RGB images, for pre-training. The key idea is that even though 3D mesh data cannot be used for end-to-end training due to a lack of the corresponding RGB images, it can be used to pre-train the mesh regression transformer subnetwork. We observe that such pre-training not only improves the accuracy of mesh reconstruction from a single image, but also enables zero-shot capability. We conduct mesh pre-training using 2 million meshes. Experimental results show that MPT advances the state-of-the-art results on Human3.6M and 3DPW datasets. We also show that MPT enables transformer models to have zero-shot capability of human mesh reconstruction from real images. In addition, we demonstrate the generalizability of MPT to 3D hand reconstruction, achieving state-of-the-art results on FreiHAND dataset.
翻訳日:2022-11-28 16:29:20 公開日:2022-11-24
# maskplace:強化視覚表現学習による高速チップ配置

MaskPlace: Fast Chip Placement via Reinforced Visual Representation Learning ( http://arxiv.org/abs/2211.13382v1 )

ライセンス: Link先を確認
Yao Lai, Yao Mu, Ping Luo(参考訳) 2Dチップキャンバスに数百万の回路モジュールを配置することを目的とした、現代のチップ設計において、プレースメントは必須のタスクである。 ハードウェアエンジニアが遅延とエネルギー消費を最小限に抑えるためのレイアウトを作るのに、数ヶ月の努力を要する人間中心のソリューションとは異なり、深層強化学習は新たな自律ツールになりつつある。 しかし、学習中心の手法はまだ初期段階にあり、10の巨大なデザイン空間から数千のオーダーに妨げられている。 この研究により、MaskPlaceは数時間以内に有効なチップレイアウト設計を自動的に生成し、その性能は最近の高度なアプローチに匹敵する可能性がある。 先行芸術にはないいくつかの魅力ある利点がある。 まず、maskplaceは配置をピクセルレベルの視覚的表現を学ぶ問題として再キャストし、チップ上に何百万ものモジュールを包括的に記述し、高解像度のキャンバスと大きなアクションスペースに配置できるようにする。 チップをハイパーグラフとして表現する最近の手法よりも優れています。 第2に、従来の手法から疎い報酬を持つ複雑な報酬関数ではなく、直感的な報酬関数による政策ネットワークのトレーニングを可能にする。 第3に、多くの公開ベンチマークでの広範な実験により、MaskPlaceは、ワイヤ長、混雑、密度を含むすべての主要なパフォーマンス指標において、既存のRLアプローチよりも優れていることが示されている。 例えば、60~90%の線幅削減を達成し、重複をゼロにする。 MaskPlaceはAIによるチップレイアウト設計を改善することができると考えています。 deliverablesはhttps://laiyao1.github.io/maskplaceでリリースされている。

Placement is an essential task in modern chip design, aiming at placing millions of circuit modules on a 2D chip canvas. Unlike the human-centric solution, which requires months of intense effort by hardware engineers to produce a layout to minimize delay and energy consumption, deep reinforcement learning has become an emerging autonomous tool. However, the learning-centric method is still in its early stage, impeded by a massive design space of size ten to the order of a few thousand. This work presents MaskPlace to automatically generate a valid chip layout design within a few hours, whose performance can be superior or comparable to recent advanced approaches. It has several appealing benefits that prior arts do not have. Firstly, MaskPlace recasts placement as a problem of learning pixel-level visual representation to comprehensively describe millions of modules on a chip, enabling placement in a high-resolution canvas and a large action space. It outperforms recent methods that represent a chip as a hypergraph. Secondly, it enables training the policy network by an intuitive reward function with dense reward, rather than a complicated reward function with sparse reward from previous methods. Thirdly, extensive experiments on many public benchmarks show that MaskPlace outperforms existing RL approaches in all key performance metrics, including wirelength, congestion, and density. For example, it achieves 60%-90% wirelength reduction and guarantees zero overlaps. We believe MaskPlace can improve AI-assisted chip layout design. The deliverables are released at https://laiyao1.github.io/maskplace.
翻訳日:2022-11-28 16:28:58 公開日:2022-11-24
# 領域適応への奥行きと再構成による霧場面の物体検出

Object Detection in Foggy Scenes by Embedding Depth and Reconstruction into Domain Adaptation ( http://arxiv.org/abs/2211.13409v1 )

ライセンス: Link先を確認
Xin Yang, Michael Bi Mi, Yuan Yuan, Xin Wang, Robby T. Tan(参考訳) ほとんどの既存ドメイン適応(DA)メソッドは、ドメインの特徴分布に基づいて特徴を整列させ、霧、背景、ターゲットオブジェクトに関連する側面を無視し、準最適パフォーマンスをレンダリングする。 DAフレームワークでは、ドメイン機能アライメント時の深さとバックグラウンド情報を保持します。 生成した深度とフォグトランスミッションマップとの一貫性損失を導入し、アライメント特徴における深さ情報の保持を強化する。 DAプロセス中に発生する可能性のある偽オブジェクトの特徴に対処するために,霧のない背景画像の再構成を行うエンコーダデコーダフレームワークを提案する。 この再構成損失は、エンコーダ、すなわち、私たちのDAバックボーンを補強し、偽のオブジェクトの特徴を最小限に抑える。さらに、私たちは、DAモジュールと検出モジュールの両方を半教師付きでトレーニングする際に、ターゲットデータを巻き込み、テスト段階で使用されるデータの種類であるラベル付きターゲットデータにも、検出モジュールが露出するようにします。 この手法は,Fogy Cityscapesデータセットの44.3 mAPに対して,最先端の手法(47.6 mAP)を著しく上回り,複数の実画像公開データセット上での最高の性能を得る。 コードは、https://github.com/VIML-CVDL/Object-Detection-in-Foggy-Scenesで入手できる。

Most existing domain adaptation (DA) methods align the features based on the domain feature distributions and ignore aspects related to fog, background and target objects, rendering suboptimal performance. In our DA framework, we retain the depth and background information during the domain feature alignment. A consistency loss between the generated depth and fog transmission map is introduced to strengthen the retention of the depth information in the aligned features. To address false object features potentially generated during the DA process, we propose an encoder-decoder framework to reconstruct the fog-free background image. This reconstruction loss also reinforces the encoder, i.e., our DA backbone, to minimize false object features.Moreover, we involve our target data in training both our DA module and our detection module in a semi-supervised manner, so that our detection module is also exposed to the unlabeled target data, the type of data used in the testing stage. Using these ideas, our method significantly outperforms the state-of-the-art method (47.6 mAP against the 44.3 mAP on the Foggy Cityscapes dataset), and obtains the best performance on multiple real-image public datasets. Code is available at: https://github.com/VIML-CVDL/Object-Detection-in-Foggy-Scenes
翻訳日:2022-11-28 16:28:32 公開日:2022-11-24
# 統合的教師なし再建と教師付き分類によるディープフェイク検出

Deepfake Detection via Joint Unsupervised Reconstruction and Supervised Classification ( http://arxiv.org/abs/2211.13424v1 )

ライセンス: Link先を確認
Bosheng Yan, Xuequan Lu, Chang-Tsun Li(参考訳) 深層学習は現実的な顔操作(ディープフェイク)を可能にし、循環中のメディアの整合性に重大な懸念をもたらす。 ディープフェイク検出のための多くの既存のディープラーニング技術は、データセット内評価設定(例えば、同じデータセット上でのトレーニングとテスト)で有望なパフォーマンスを達成することができるが、データセット間評価設定(例えば、あるデータセット上でのトレーニングと別のデータセットでのテスト)では満足に実行できない。 以前の手法のほとんどは、バックボーンネットワークを使用して予測を行うグローバルな特徴を抽出し、トレーニングインスタンスが偽か本物かを示すバイナリ監視のみを使用してネットワークをトレーニングしている。 単にグローバル特徴の学習に基づく分類は、しばしば見当たらない操作方法に対する弱い一般化に繋がる。 また、復元作業は、学習表現を改善することができる。 本稿では,これらの問題に対処するための再構築と分類タスクを同時に検討するディープフェイク検出手法を提案する。 この方法は、あるタスクによって学習された情報を他のタスクと共有し、既存の作業がほとんど考慮しない異なる側面に焦点をあてることで、全体的なパフォーマンスが向上する。 特に,2分岐の畳み込み自動エンコーダ(CAE)を設計し,特徴写像を潜在表現に圧縮するために使用する畳み込み型エンコーダを両ブランチで共有する。 そして、入力データの潜在表現を単純な分類器と教師なし再構成部品に同時に供給する。 私たちのネットワークはエンドツーエンドでトレーニングされています。 実験により,本手法は一般的に使用されている3つのデータセット,特にクロスデータセット評価設定において,最先端の性能を実現することを示す。

Deep learning has enabled realistic face manipulation (i.e., deepfake), which poses significant concerns over the integrity of the media in circulation. Most existing deep learning techniques for deepfake detection can achieve promising performance in the intra-dataset evaluation setting (i.e., training and testing on the same dataset), but are unable to perform satisfactorily in the inter-dataset evaluation setting (i.e., training on one dataset and testing on another). Most of the previous methods use the backbone network to extract global features for making predictions and only employ binary supervision (i.e., indicating whether the training instances are fake or authentic) to train the network. Classification merely based on the learning of global features leads often leads to weak generalizability to unseen manipulation methods. In addition, the reconstruction task can improve the learned representations. In this paper, we introduce a novel approach for deepfake detection, which considers the reconstruction and classification tasks simultaneously to address these problems. This method shares the information learned by one task with the other, which focuses on a different aspect other existing works rarely consider and hence boosts the overall performance. In particular, we design a two-branch Convolutional AutoEncoder (CAE), in which the Convolutional Encoder used to compress the feature map into the latent representation is shared by both branches. Then the latent representation of the input data is fed to a simple classifier and the unsupervised reconstruction component simultaneously. Our network is trained end-to-end. Experiments demonstrate that our method achieves state-of-the-art performance on three commonly-used datasets, particularly in the cross-dataset evaluation setting.
翻訳日:2022-11-28 16:28:06 公開日:2022-11-24
# スケルトンベース行動認識のための階層的一貫性コントラスト学習

Hierarchical Consistent Contrastive Learning for Skeleton-Based Action Recognition with Growing Augmentations ( http://arxiv.org/abs/2211.13466v1 )

ライセンス: Link先を確認
Jiahang Zhang, Lilang Lin, Jiaying Liu(参考訳) 対比学習は自己教師付き骨格に基づく行動認識に有用であることが証明されている。 ほとんどの対照的な学習法は、同じ意味論のために異なる骨格の動きパターンを生成するために注意深く設計された拡張を用いる。 しかし、画像や骨格の構造を歪め、その不安定なトレーニングによって意味的損失を引き起こす強力な拡張を適用することは、まだ検討中の課題である。 本稿では,強増強の可能性を検証し,スケルトンベース行動認識のための階層的一貫性コントラスト学習フレームワーク(hiclr)を提案する。 具体的には,様々な視点から学習表現の一貫性を達成するための複数の順序付き正のペアを生成するために,段階的に増大する拡張ポリシーをまず設計する。 そして、特徴空間における方向クラスタリング操作を通じて階層的一貫性を強制するために、非対称な損失を提案し、より優れた一般化可能性のために、弱い拡張ビューから強い拡張ビューから表現を引き出す。 一方,本手法の有効性を示すために,三次元骨格の3種類の強増強法を提案し,評価した。 大規模な実験により、HiCLRは特に3つの大規模データセット(NTU60、NTU120、PKUMMD)で最先端の手法よりも優れていた。

Contrastive learning has been proven beneficial for self-supervised skeleton-based action recognition. Most contrastive learning methods utilize carefully designed augmentations to generate different movement patterns of skeletons for the same semantics. However, it is still a pending issue to apply strong augmentations, which distort the images/skeletons' structures and cause semantic loss, due to their resulting unstable training. In this paper, we investigate the potential of adopting strong augmentations and propose a general hierarchical consistent contrastive learning framework (HiCLR) for skeleton-based action recognition. Specifically, we first design a gradual growing augmentation policy to generate multiple ordered positive pairs, which guide to achieve the consistency of the learned representation from different views. Then, an asymmetric loss is proposed to enforce the hierarchical consistency via a directional clustering operation in the feature space, pulling the representations from strongly augmented views closer to those from weakly augmented views for better generalizability. Meanwhile, we propose and evaluate three kinds of strong augmentations for 3D skeletons to demonstrate the effectiveness of our method. Extensive experiments show that HiCLR outperforms the state-of-the-art methods notably on three large-scale datasets, i.e., NTU60, NTU120, and PKUMMD.
翻訳日:2022-11-28 16:27:36 公開日:2022-11-24
# ビデオ長手認識のための注意集約による小さめ指向性ビタミン拡張

Minority-Oriented Vicinity Expansion with Attentive Aggregation for Video Long-Tailed Recognition ( http://arxiv.org/abs/2211.13471v1 )

ライセンス: Link先を確認
WonJun Moon, Hyun Seok Seong, Jae-Pil Heo(参考訳) 極めて多種多様なトピックが出現する現実世界のビデオボリュームの劇的な増加は、そのカテゴリによって自然に長い尾の動画配信を形成し、VLTR(Video Long-Tailed Recognition)の必要性を浮き彫りにしている。 本稿では,VLTRの課題を要約し,その克服方法について考察する。 課題は,(1)高品質な特徴のためにモデル全体をトレーニングするのは現実的ではないこと,(2)フレームワイドラベルの取得には膨大なコストが必要であること,(3)長期データトリガがバイアストレーニングを引き起こすこと,である。 しかし、既存のVLTRの作業の多くは、タスク非関連である事前訓練されたモデルから抽出された画像レベルの特徴を必然的に利用し、ビデオレベルのラベルで学習する。 そこで,(1)タスク非関連特徴と(2)ビデオレベルのラベルを扱うために,2つの相補的な学習可能な特徴アグリゲータを導入する。 各アグリゲータの学習可能なレイヤはタスク関連表現を生成し、各アグリゲータはスニペット毎の知識をビデオ代表に組み立てる。 次に,クラス周波数を明示的に活用して周辺分布を近似し,(3)バイアストレーニングを緩和するマイノリティ指向近傍展開(move)を提案する。 これらの解を組み合わせることで,大規模ビデオLTとIm Balanced-MiniKinetics200を併用して,最先端の成果が得られる。 ResNet-50のVideoLT機能により、従来の最先端メソッドに比べてヘッドクラスとテールクラスの相対的な改善が18%と58%に達した。

A dramatic increase in real-world video volume with extremely diverse and emerging topics naturally forms a long-tailed video distribution in terms of their categories, and it spotlights the need for Video Long-Tailed Recognition (VLTR). In this work, we summarize the challenges in VLTR and explore how to overcome them. The challenges are: (1) it is impractical to re-train the whole model for high-quality features, (2) acquiring frame-wise labels requires extensive cost, and (3) long-tailed data triggers biased training. Yet, most existing works for VLTR unavoidably utilize image-level features extracted from pretrained models which are task-irrelevant, and learn by video-level labels. Therefore, to deal with such (1) task-irrelevant features and (2) video-level labels, we introduce two complementary learnable feature aggregators. Learnable layers in each aggregator are to produce task-relevant representations, and each aggregator is to assemble the snippet-wise knowledge into a video representative. Then, we propose Minority-Oriented Vicinity Expansion (MOVE) that explicitly leverages the class frequency into approximating the vicinity distributions to alleviate (3) biased training. By combining these solutions, our approach achieves state-of-the-art results on large-scale VideoLT and synthetically induced Imbalanced-MiniKinetics200. With VideoLT features from ResNet-50, it attains 18% and 58% relative improvements on head and tail classes over the previous state-of-the-art method, respectively.
翻訳日:2022-11-28 16:27:12 公開日:2022-11-24
# CVPR 2022 SoccerNet Tracking Challengeの第2位

The Second-place Solution for CVPR 2022 SoccerNet Tracking Challenge ( http://arxiv.org/abs/2211.13481v1 )

ライセンス: Link先を確認
Fan Yang, Shigeyuki Odashima, Shoichi Masui, Shan Jiang(参考訳) これはCVPR 2022 SoccerNet Tracking Challengeの2番目のソリューションです。 提案手法は主に,カスケードバッファIoU(C-BIoU)トラッカーを用いたオンライン短期追跡と,外観特徴と階層クラスタリングを用いたオフライン長期追跡の2段階を含む。 各ステップにおいて、オンライントラッキングはHOTAスコアを90点近く、オフライントラッキングはHOTAスコアをさらに93.2点改善した。

This is our second-place solution for CVPR 2022 SoccerNet Tracking Challenge. Our method mainly includes two steps: online short-term tracking using our Cascaded Buffer-IoU (C-BIoU) Tracker, and, offline long-term tracking using appearance feature and hierarchical clustering. At each step, online tracking yielded HOTA scores near 90, and offline tracking further improved HOTA scores to around 93.2.
翻訳日:2022-11-28 16:26:44 公開日:2022-11-24
# コンピュータビジョン技術に向けて:自動ユーティリティメーターの半自動読み取り

Towards computer vision technologies: Semi-automated reading of automated utility meters ( http://arxiv.org/abs/2211.13483v1 )

ライセンス: Link先を確認
Maria Spichkova, Johan van Zyl(参考訳) 本稿では,ユーティリティメーターの自動読み出しにコンピュータビジョン技術を用いる可能性について分析した。 本研究では,オープンソースソリューションTensorflow Object Detection(Tensorflow)と商用ソリューションAnylineの2つのコンピュータビジョン技術に注目した。 我々は、関連するアプローチの構造化分析のプレゼンテーションから始めます。 その後、tensorflow object detection(tensorflow)とanylineという2つのコンピュータビジョン技術の詳細な比較を行い、ユーティリティメーターの半自動読み出しに適用した。 本稿では,特に精度や推論時間といった側面に着目し,実用度計の読解に適用される各解の限界と利点について考察する。 私たちのゴールは、いくつかの特定の課題があるこの特定のアプリケーション領域に最も適したソリューションを決定することです。

In this report we analysed a possibility of using computer vision techniques for automated reading of utility meters. In our study, we focused on two computer vision techniques: an open-source solution Tensorflow Object Detection (Tensorflow) and a commercial solution Anyline. This report extends our previous publication: We start with presentation of a structured analysis of related approaches. After that we provide a detailed comparison of two computer vision technologies, Tensorflow Object Detection (Tensorflow) and Anyline, applied to semi-automated reading of utility meters. In this paper, we discuss limitations and benefits of each solution applied to utility meters reading, especially focusing on aspects such as accuracy and inference time. Our goal was to determine the solution that is the most suitable for this particular application area, where there are several specific challenges.
翻訳日:2022-11-28 16:26:34 公開日:2022-11-24
# 自己監督型顔表情表現のためのポスディスタングル・コントラスト学習

Pose-disentangled Contrastive Learning for Self-supervised Facial Representation ( http://arxiv.org/abs/2211.13490v1 )

ライセンス: Link先を確認
Yuanyuan Liu, Wenbin Wang, Yibing Zhan, Zhe Chen, Shaoze Feng, and Kejun Liu(参考訳) 近年,大規模なアノテートデータセットに大きく依存することなく顔の理解を行う能力によって,自己監督型顔表現が注目を集めている。 しかし、分析的には、現在のコントラストに基づく自己教師型学習は、顔表現の学習に不満足に機能している。 より具体的には、既存のコントラスト学習(CL)は、顔のポーズの詳細を表現できないポーズ不変の特徴を学習し、学習性能を損なう傾向にある。 上記のCLの制限を克服するために,汎用的な自己監督型顔表情表現のための新しいPose-disentangled Contrastive Learning (PCL)法を提案する。 提案するpclは,まずポーズ関連特徴と顔認識特徴を区別し,個々のサブネットワーク内でポーズ関連および他のポーズ関連顔情報を実行し,相互に影響を与えない,繊細に設計された直交規則を備えたポーズ関連デコーダ(pdd)を考案した。 さらに,同一画像のデータ増補に基づいてポーズ関連情報を学習するポーズ関連コントラスト学習方式を導入し,様々な下流タスクに対してより効果的な顔認識表現を実現する。 顔の認識,顔の認識,AU検出の3つの課題について総合的線形評価を行った。 実験の結果,本手法は,最先端のコントラスト法や他の自己教師あり学習法を高いマージンで上回ることがわかった。

Self-supervised facial representation has recently attracted increasing attention due to its ability to perform face understanding without relying on large-scale annotated datasets heavily. However, analytically, current contrastive-based self-supervised learning still performs unsatisfactorily for learning facial representation. More specifically, existing contrastive learning (CL) tends to learn pose-invariant features that cannot depict the pose details of faces, compromising the learning performance. To conquer the above limitation of CL, we propose a novel Pose-disentangled Contrastive Learning (PCL) method for general self-supervised facial representation. Our PCL first devises a pose-disentangled decoder (PDD) with a delicately designed orthogonalizing regulation, which disentangles the pose-related features from the face-aware features; therefore, pose-related and other pose-unrelated facial information could be performed in individual subnetworks and do not affect each other's training. Furthermore, we introduce a pose-related contrastive learning scheme that learns pose-related information based on data augmentation of the same image, which would deliver more effective face-aware representation for various downstream tasks. We conducted a comprehensive linear evaluation on three challenging downstream facial understanding tasks, i.e., facial expression recognition, face recognition, and AU detection. Experimental results demonstrate that our method outperforms cutting-edge contrastive and other self-supervised learning methods with a great margin.
翻訳日:2022-11-28 16:26:17 公開日:2022-11-24
# 土壌構成法則の自動校正のためのGA-calソフトウェア:チュートリアルとユーザマニュアル

The GA-cal software for the automatic calibration of soil constitutive laws: a tutorial and a user manual ( http://arxiv.org/abs/2211.13652v1 )

ライセンス: Link先を確認
Francisco J. Mendez and Miguel A. Mendez and Antonio Pasculli(参考訳) 高度な土壌構成法の校正は難しい課題である。 GAアルゴリズム(GA)最適化を用いて構成法則を自動的に校正するFortranソフトウェアであるGA-calについて述べる。 提案手法では,キャリブレーション問題を回帰として定式化し,ga最適化によりモデルパラメータの調整を行い,数値モデルを実験データに適合させる。 このドキュメントはユーザガイドと簡単なチュートリアルを提供する。 我々は,フォン・ヴォルフファースドルフが提唱した砂質準塑性法のキャリブレーションに関するga-calを,oedometerおよび三軸ドレインドレイン試験データを用いて紹介する。 実装されたサブルーチンは、異なるテストや構成モデルを含む他の回帰や最適化問題を解決するために容易に拡張できる。 ソースコードとチュートリアルは \url{https://github.com/FraJoMen/GA-cal} で無償公開されている。

The calibration of an advanced constitutive law for soil is a challenging task. This work describes GA-cal, a Fortran software for automatically calibrating constitutive laws using Genetic Algorithms (GA) optimization. The proposed approach sets the calibration problem as a regression, and the GA optimization is used to adjust the model parameters so that a numerical model matches experimental data. This document provides a user guide and a simple tutorial. We showcase GA-cal on the calibration of the Sand Hypoplastic law proposed by von Wolffersdorff, with the oedometer and triaxial drained test data. The implemented subroutines can be easily extended to solve other regression or optimization problems, including different tests and constitutive models. The source code and the presented tutorial are freely available at \url{https://github.com/FraJoMen/GA-cal}.
翻訳日:2022-11-28 16:18:18 公開日:2022-11-24
# nqe:ハイパーリレーショナルナレッジグラフ上の複雑なクエリ応答のためのn-aryクエリ埋め込み

NQE: N-ary Query Embedding for Complex Query Answering over Hyper-relational Knowledge Graphs ( http://arxiv.org/abs/2211.13469v1 )

ライセンス: Link先を確認
Haoran Luo, Haihong E, Yuhao Yang, Gengxian Zhou, Yikai Guo, Tianyu Yao, Zichen Tang, Xueyuan Lin, Kaiyang Wan(参考訳) 複雑な問合せ応答(CQA)は知識グラフ(KG)上のマルチホップおよび論理的推論に不可欠なタスクである。 現在、ほとんどのアプローチはバイナリリレーショナル事実間のクエリに限られており、2つ以上のエンティティを含むn-ary facts (n>=2)にはあまり注意を払わない。 さらに、従来のcqaメソッドは、いくつかの特定のタイプのクエリの予測しかできませんし、より複雑な論理クエリに柔軟に拡張できません。 これらの課題を克服するため,本研究では,大規模n-ary事実を含む超関係知識グラフ(hkgs)上のcqaのための新しいn-aryクエリ埋め込み(nqe)モデルを提案する。 NQEは二重異種トランスフォーマーエンコーダとファジィ論理理論を用いて、存在量化器、結合、解離、否定を含む全てのn-ary FOLクエリを満たす。 また、各問合せの種類に関わらず、任意のn-ary folクエリを単一のバッチでトレーニングまたは予測し、柔軟性と拡張性に優れた並列処理アルゴリズムを提案する。 さらに,新たなCQAデータセットWD50K-NFOLを生成し,WD50K上での多様なn-ary FOLクエリを含む。 WD50K-NFOLおよび他の標準CQAデータセットの実験結果から、NQEはHKG上の最先端CQA法であり、優れた一般化能力を有することが示されている。 コードとデータセットは公開されています。

Complex query answering (CQA) is an essential task for multi-hop and logical reasoning on knowledge graphs (KGs). Currently, most approaches are limited to queries among binary relational facts and pay less attention to n-ary facts (n>=2) containing more than two entities, which are more prevalent in the real world. Moreover, previous CQA methods can only make predictions for a few given types of queries and cannot be flexibly extended to more complex logical queries, which significantly limits their applications. To overcome these challenges, in this work, we propose a novel N-ary Query Embedding (NQE) model for CQA over hyper-relational knowledge graphs (HKGs), which include massive n-ary facts. The NQE utilizes a dual-heterogeneous Transformer encoder and fuzzy logic theory to satisfy all n-ary FOL queries, including existential quantifiers, conjunction, disjunction, and negation. We also propose a parallel processing algorithm that can train or predict arbitrary n-ary FOL queries in a single batch, regardless of the kind of each query, with good flexibility and extensibility. In addition, we generate a new CQA dataset WD50K-NFOL, including diverse n-ary FOL queries over WD50K. Experimental results on WD50K-NFOL and other standard CQA datasets show that NQE is the state-of-the-art CQA method over HKGs with good generalization capability. Our code and dataset are publicly available.
翻訳日:2022-11-28 16:17:51 公開日:2022-11-24
# InDEX:クローズテストのためのインドネシアのイディオムと表現データセット

InDEX: Indonesian Idiom and Expression Dataset for Cloze Test ( http://arxiv.org/abs/2211.13376v1 )

ライセンス: Link先を確認
Xinying Qiu, Guofeng Shi(参考訳) 本稿では,インドネシアのIdiom and ExpressionデータセットであるInDEXを提案する。 データセットには289のイディオムのための10438の独特な文と、15種類の邪魔者を生成し、大きなクローズスタイルのコーパスを生成する式が含まれている。 clozeテスト読解の多くのベースラインモデルは、埋め込み表現を学ぶためにランダム初期化のbertを適用する。 しかし、イディオムや固定式は、句の文字通りの意味が文脈的な意味と一致するか、あるいは一致しないかによって異なる。 そこで我々は,より強力なベースラインモデルに対して,静的表現と文脈表現を組み合わせる様々な方法を検討する。 実験により、定義とランダム初期化の組み合わせは、固定式と独立であるか混合するかに関わらず、イディオムのclozeテストモデルのパフォーマンスをより良くサポートすることが示された。 特別な意味を持たない固定式の場合、ランダム初期化を伴う静的埋め込みはclozeテストモデルに十分である。

We propose InDEX, an Indonesian Idiom and Expression dataset for cloze test. The dataset contains 10438 unique sentences for 289 idioms and expressions for which we generate 15 different types of distractors, resulting in a large cloze-style corpus. Many baseline models of cloze test reading comprehension apply BERT with random initialization to learn embedding representation. But idioms and fixed expressions are different such that the literal meaning of the phrases may or may not be consistent with their contextual meaning. Therefore, we explore different ways to combine static and contextual representations for a stronger baseline model. Experimentations show that combining definition and random initialization will better support cloze test model performance for idioms whether independently or mixed with fixed expressions. While for fixed expressions with no special meaning, static embedding with random initialization is sufficient for cloze test model.
翻訳日:2022-11-28 16:10:27 公開日:2022-11-24
# テキストOOD検出のためのマハラノビスベーススコアを超えて

Beyond Mahalanobis-Based Scores for Textual OOD Detection ( http://arxiv.org/abs/2211.13527v1 )

ライセンス: Link先を確認
Pierre Colombo, Eduardo D. C. Gomes, Guillaume Staerman, Nathan Noiry, Pablo Piantanida(参考訳) ディープラーニング手法は、実生活アプリケーションにおけるNLPシステムの採用を促進する。 しかし、それらは時間とともに分布の変化に弱いことが判明し、それが生産システムに深刻な障害を引き起こす可能性があるため、ニューラルネットワークのレンズを通して分布外サンプル(OOD)を検出するツールの開発を促している。 本稿では,運用上の要件を満たすトランスフォーマタアーキテクチャに基づく分類器用ood検出器であるtrustedを提案する。 TRUSTEDの効率性は、すべての隠された層がOODのサンプルを検出するための関連情報を持っているという実りある考えに依存している。 これに基づいて、所定の入力に対して TRUSTED は (i)この情報を集約し、 二 トレーニング分布を利用して類似度スコアを計算し、データ深度という強力な概念を活用すること。 広範囲にわたる数値実験では,51kモデル構成に様々なチェックポイント,シード,データセットが含まれ,TRUSTEDが最先端のパフォーマンスを達成することを示す。 特に、以前のAUROCを3点以上改善している。

Deep learning methods have boosted the adoption of NLP systems in real-life applications. However, they turn out to be vulnerable to distribution shifts over time which may cause severe dysfunctions in production systems, urging practitioners to develop tools to detect out-of-distribution (OOD) samples through the lens of the neural network. In this paper, we introduce TRUSTED, a new OOD detector for classifiers based on Transformer architectures that meets operational requirements: it is unsupervised and fast to compute. The efficiency of TRUSTED relies on the fruitful idea that all hidden layers carry relevant information to detect OOD examples. Based on this, for a given input, TRUSTED consists in (i) aggregating this information and (ii) computing a similarity score by exploiting the training distribution, leveraging the powerful concept of data depth. Our extensive numerical experiments involve 51k model configurations, including various checkpoints, seeds, and datasets, and demonstrate that TRUSTED achieves state-of-the-art performances. In particular, it improves previous AUROC over 3 points.
翻訳日:2022-11-28 16:10:11 公開日:2022-11-24
# オープン"とオープンドメインチャットボットの会話はどのようになっているか? 音声イベントに基づく評価の提案

How "open" are the conversations with open-domain chatbots? A proposal for Speech Event based evaluation ( http://arxiv.org/abs/2211.13560v1 )

ライセンス: Link先を確認
A. Seza Do\u{g}ru\"oz and Gabriel Skantze(参考訳) オープンドメインチャットボットは、トピックやタスク、ドメインに制限されることなく、人間と自由に会話することが求められます。 しかし、オープンドメイン会話の境界や内容は明確ではない。 まず、チャットボット評価データセット(つまりgoogleによるミーナ)で遭遇する「音声イベント」のタイプを分類し、これらの会話が主に「小さな会話」のカテゴリをカバーし、現実の人間と人間のコミュニケーションで遭遇する他の音声イベントのカテゴリを除外した。 第2に,人間対人間と最先端のチャットボット(facebookによるブレンダー)の間で,幅広い音声イベントカテゴリをカバーするオンライン会話を生成するための,小規模のパイロット研究を実施している。 これらの会話の人間による評価は、人間とチャットボットの会話は、ほとんどの音声イベントカテゴリにおいてコヒーレンスを欠いているため、人間と人間の会話の好みを示している。 これらの結果に基づき,本研究が提案する。 (a)まだ会話能力の面では「オープン」ではない現在のチャットボットに対して「オープンドメイン」ではなく「小さなトーク」という用語を用いる。 b)他の音声イベントに対するチャットボットの会話をテストする評価方法の改訂。

Open-domain chatbots are supposed to converse freely with humans without being restricted to a topic, task or domain. However, the boundaries and/or contents of open-domain conversations are not clear. To clarify the boundaries of "openness", we conduct two studies: First, we classify the types of "speech events" encountered in a chatbot evaluation data set (i.e., Meena by Google) and find that these conversations mainly cover the "small talk" category and exclude the other speech event categories encountered in real life human-human communication. Second, we conduct a small-scale pilot study to generate online conversations covering a wider range of speech event categories between two humans vs. a human and a state-of-the-art chatbot (i.e., Blender by Facebook). A human evaluation of these generated conversations indicates a preference for human-human conversations, since the human-chatbot conversations lack coherence in most speech event categories. Based on these results, we suggest (a) using the term "small talk" instead of "open-domain" for the current chatbots which are not that "open" in terms of conversational abilities yet, and (b) revising the evaluation methods to test the chatbot conversations against other speech events.
翻訳日:2022-11-28 16:09:54 公開日:2022-11-24
# 対立領域適応を用いた感情誘導型クロスドメインフェイクニュース検出

Emotion-guided Cross-domain Fake News Detection using Adversarial Domain Adaptation ( http://arxiv.org/abs/2211.13718v1 )

ライセンス: Link先を確認
Arjun Choudhry, Inder Khatri, Arkajyoti Chakraborty, Dinesh Kumar Vishwakarma, Mukesh Prasad(参考訳) フェイクニュース検出に関する最近の研究で、感情を特徴として使うか、感情に基づく機能でパフォーマンスを改善する効果が示されている。 しかし、ドメインシフトの問題に直面しているドメイン横断設定における偽ニュース検出に対するこれらの感情誘導機能の影響は、まだ明らかになっていない。 本研究では,クロスドメインフェイクニュース検出における感情誘導機能の影響を評価し,さらに,逆学習を用いた感情誘導型ドメイン適応アプローチを提案する。 fakenewsamt,celeb,politifact,gossipcopデータセットのソースとターゲットのさまざまな組み合わせに対して,クロスドメイン設定における感情誘導モデルの有効性を実証する。

Recent works on fake news detection have shown the efficacy of using emotions as a feature or emotions-based features for improved performance. However, the impact of these emotion-guided features for fake news detection in cross-domain settings, where we face the problem of domain shift, is still largely unexplored. In this work, we evaluate the impact of emotion-guided features for cross-domain fake news detection, and further propose an emotion-guided, domain-adaptive approach using adversarial learning. We prove the efficacy of emotion-guided models in cross-domain settings for various combinations of source and target datasets from FakeNewsAMT, Celeb, Politifact and Gossipcop datasets.
翻訳日:2022-11-28 16:09:32 公開日:2022-11-24
# テキスト-音素データ拡張によるドイツ語音素認識

German Phoneme Recognition with Text-to-Phoneme Data Augmentation ( http://arxiv.org/abs/2211.13776v1 )

ライセンス: Link先を確認
Dojun Park and Seohyun Park(参考訳) 本研究では,テキスト対音素データ拡張戦略を用いたドイツ語音素認識モデルにおいて,基本語彙に最も頻度の高いn音素ビッグラムを付加する効果について検討した。 その結果、ベースラインモデルと比較して、母音30モデルとconst20モデルではBLEUスコアが1点以上増加し、トータル30モデルではBLEUスコアが20点以上減少し、音素ビッグラムがモデル性能に正あるいは負の影響を及ぼす可能性が示唆された。 さらに,モデルが繰り返し示す誤りの種類を誤差解析によって同定した。

In this study, we experimented to examine the effect of adding the most frequent n phoneme bigrams to the basic vocabulary on the German phoneme recognition model using the text-to-phoneme data augmentation strategy. As a result, compared to the baseline model, the vowel30 model and the const20 model showed an increased BLEU score of more than 1 point, and the total30 model showed a significant decrease in the BLEU score of more than 20 points, showing that the phoneme bigrams could have a positive or negative effect on the model performance. In addition, we identified the types of errors that the models repeatedly showed through error analysis.
翻訳日:2022-11-28 16:09:19 公開日:2022-11-24
# フィンランドにおける質問応答と質問生成

Question Answering and Question Generation for Finnish ( http://arxiv.org/abs/2211.13794v1 )

ライセンス: Link先を確認
Ilmari Kylli\"ainen and Roman Yangarber(参考訳) 言語モデリングの分野での最近の進歩は、質問応答(QA)と質問生成(QG)の最先端性を改善している。 しかし、現代のニューラルモデル、そのベンチマーク、トレーニングのためのデータセットの開発は、主に英語に焦点を当てている。 フィンランドは他の多くの言語と同様に、大量のQA/QGモデルトレーニングリソースが不足しており、最先端のQA/QG微調整手法の実験を妨げている。 フィンランド語で動作する最初のニューラルQAモデルとQGモデルを提示する。 モデルのトレーニングには,SQuADデータセットを自動的に翻訳し,正規化手法を用いて翻訳時に発生する問題データの量を削減する。 合成データとTyDi-QAデータセットのフィンランド分割を用いて、いくつかのトランスフォーマーベースモデルをQAとQGの両方に微調整し、その性能を評価する。 我々の知る限り、得られたデータセットはフィンランド初の大規模QA/QGリソースである。 本稿では,フィンランド語qaとqgの初期ベンチマークについても述べる。

Recent advances in the field of language modeling have improved the state-of-the-art in question answering (QA) and question generation (QG). However, the development of modern neural models, their benchmarks, and datasets for training them has mainly focused on English. Finnish, like many other languages, faces a shortage of large QA/QG model training resources, which has prevented experimenting with state-of-the-art QA/QG fine-tuning methods. We present the first neural QA and QG models that work with Finnish. To train the models, we automatically translate the SQuAD dataset and then use normalization methods to reduce the amount of problematic data created during the translation. Using the synthetic data, together with the Finnish partition of the TyDi-QA dataset, we fine-tune several transformer-based models to both QA and QG and evaluate their performance. To the best of our knowledge, the resulting dataset is the first large-scale QA/QG resource for Finnish. This paper also sets the initial benchmarks for Finnish-language QA and QG.
翻訳日:2022-11-28 16:09:07 公開日:2022-11-24
# 事前学習と微調整の橋渡しとしての選択的マスキング

Using Selective Masking as a Bridge between Pre-training and Fine-tuning ( http://arxiv.org/abs/2211.13815v1 )

ライセンス: Link先を確認
Tanish Lad, Himanshu Maheshwari, Shreyas Kottukkal, Radhika Mamidi(参考訳) 言語モデルを事前学習し、下流タスクに微調整することで、様々なNLPタスクの最先端の結果が示されている。 事前トレーニングは通常、下流タスクとは独立しており、以前の研究は、この事前トレーニングだけではタスク固有のニュアンスをキャプチャするのに不十分であることを示した。 本稿では,タスク固有のマスキングによる下流タスクのための事前学習されたBERTモデルを,標準的な教師付き微調整の前に調整する方法を提案する。 このために、ワードリストは、最初にそのタスクに特化して収集される。 例えば、タスクが感情分類である場合、ポジティブな感情とネガティブな感情の両方を表す単語の小さなサンプルを収集します。 次に、単語リストを用いて、単語のタスクスコアと呼ばれるタスクに対する単語の重要性を測定する。 各単語はタスクスコアに基づいてマスキングの確率が割り当てられる。 我々は、単語のタスクスコアに基づいてマスキングの確率を割り当てる異なるマスキング機能の実験を行った。 BERTモデルは、上記の戦略を用いてマスキングを行うMLM目的に基づいてさらに訓練されている。 この標準に従って、異なる下流タスクのために教師付き微調整が行われる。 これらの課題の結果,選択的マスキング戦略はランダムマスキングよりも優れており,その効果が示された。

Pre-training a language model and then fine-tuning it for downstream tasks has demonstrated state-of-the-art results for various NLP tasks. Pre-training is usually independent of the downstream task, and previous works have shown that this pre-training alone might not be sufficient to capture the task-specific nuances. We propose a way to tailor a pre-trained BERT model for the downstream task via task-specific masking before the standard supervised fine-tuning. For this, a word list is first collected specific to the task. For example, if the task is sentiment classification, we collect a small sample of words representing both positive and negative sentiments. Next, a word's importance for the task, called the word's task score, is measured using the word list. Each word is then assigned a probability of masking based on its task score. We experiment with different masking functions that assign the probability of masking based on the word's task score. The BERT model is further trained on MLM objective, where masking is done using the above strategy. Following this standard supervised fine-tuning is done for different downstream tasks. Results on these tasks show that the selective masking strategy outperforms random masking, indicating its effectiveness.
翻訳日:2022-11-28 16:08:50 公開日:2022-11-24
# 天体物理学文献における実体検出 : 単語ベースとスパンベースのエンティティ認識法の比較

Detecting Entities in the Astrophysics Literature: A Comparison of Word-based and Span-based Entity Recognition Methods ( http://arxiv.org/abs/2211.13819v1 )

ライセンス: Link先を確認
Xiang Dai and Sarvnaz Karimi(参考訳) 科学文献からの情報抽出は、そのような文章の高度に専門化された性質のために困難である。 本稿では,DeAL(Detecting Entities in the Astrophysics Literature)共有タスクの一部として開発されたエンティティ認識手法について述べる。 本研究の目的は、天体物理学の学術論文からなるデータセットにおいて、名前付きエンティティを識別できるシステムを構築することである。 我々は,単語ベースのタグ付けとスパンベースの分類手法を実証的に比較できるように,参加を計画した。 オーガナイザが提供した2つの隠れテストセットで評価すると、最高の成果が0.8307(検証フェーズ)と0.7990(テストフェーズ)のF_1$スコアを得た。

Information Extraction from scientific literature can be challenging due to the highly specialised nature of such text. We describe our entity recognition methods developed as part of the DEAL (Detecting Entities in the Astrophysics Literature) shared task. The aim of the task is to build a system that can identify Named Entities in a dataset composed by scholarly articles from astrophysics literature. We planned our participation such that it enables us to conduct an empirical comparison between word-based tagging and span-based classification methods. When evaluated on two hidden test sets provided by the organizer, our best-performing submission achieved $F_1$ scores of 0.8307 (validation phase) and 0.7990 (testing phase).
翻訳日:2022-11-28 16:08:32 公開日:2022-11-24
# 自動エッセイスコアリングのためのニューラルモデルにおけるコヒーレンスと構文特徴のタッピング

Tapping the Potential of Coherence and Syntactic Features in Neural Models for Automatic Essay Scoring ( http://arxiv.org/abs/2211.13373v1 )

ライセンス: Link先を確認
Xinying Qiu, Shuxuan Liao, Jiajun Xie, Jian-Yun Nie(参考訳) Automatic Essay Scoringのプロンプト固有の総合スコア予測タスクでは、トレーニング済みのニューラルモデル、コヒーレンスモデル、ニューラルモデルに構文的特徴を組み込んだハイブリッドモデルなどが一般的なアプローチである。 本稿では,最先端のaesコヒーレンスモデルに適合する素早い学習nspを用いて,エッセイコヒーレンス特徴を抽出・表現する新しい手法を提案する。 BERTモデルの拡張に構文的特徴密度埋め込みを適用し,AESのハイブリッド手法における最高の性能を実現する。 さらに,コヒーレンス,構文情報,セマンティック埋め込みを組み込むための様々なアイデアについても検討する。 我々の組み合わせモデルは、我々の構文強化ニューラルモデルよりも優れていないにもかかわらず、組み合わせモデルで利用可能なSOTAよりも優れた性能を発揮する。 今後の研究に有用な分析も提供します。

In the prompt-specific holistic score prediction task for Automatic Essay Scoring, the general approaches include pre-trained neural model, coherence model, and hybrid model that incorporate syntactic features with neural model. In this paper, we propose a novel approach to extract and represent essay coherence features with prompt-learning NSP that shows to match the state-of-the-art AES coherence model, and achieves the best performance for long essays. We apply syntactic feature dense embedding to augment BERT-based model and achieve the best performance for hybrid methodology for AES. In addition, we explore various ideas to combine coherence, syntactic information and semantic embeddings, which no previous study has done before. Our combined model also performs better than the SOTA available for combined model, even though it does not outperform our syntactic enhanced neural model. We further offer analyses that can be useful for future study.
翻訳日:2022-11-28 15:59:15 公開日:2022-11-24
# 特徴量からの微分プライベート画像分類

Differentially Private Image Classification from Features ( http://arxiv.org/abs/2211.13403v1 )

ライセンス: Link先を確認
Harsh Mehta, Walid Krichene, Abhradeep Thakurta, Alexey Kurakin, Ashok Cutkosky(参考訳) 近年,差分プライバシ(DP)を用いた大規模モデルのトレーニングには,転送学習の活用が有効であることが示されている。 さらに、意外なことに、最近の研究で、事前訓練されたモデルの最後の層だけをプライベートにトレーニングすることは、DPで最高のユーティリティを提供することがわかった。 過去の研究は、DP-SGDのようなアルゴリズムに大きく依存しているが、機能からプライベートに学習する特定のケースでは、計算負担が低く、二階法を含むより洗練された最適化スキームが可能である。 そこで我々は,損失関数や最適化アルゴリズムなどの設計パラメータの効果を体系的に検討した。 一般に使用されるロジスティック回帰は、非プライベートな環境では線形回帰よりも優れているが、プライベートな環境では逆になる。 特に厳格なepsilon値($\epsilon < 1$)では、プライバシと計算の両方の観点からロジスティック回帰よりも線形回帰の方がずっと効果的である。 最適化面では、Newtonの手法も検討し、プライバシに関しても2階情報は極めて有用であるが、そのメリットはより厳格なプライバシ保証によって著しく減少する。 どちらの方法も二階情報を用いるが、少なくとも二乗法は低いエプシロンで有効であり、ニュートンの方法はより大きなエプシロン値で有効である。 両者の利点を組み合わせるために,ロジスティック回帰損失のヘシアンの代わりに特徴共分散を利用するDP-FCという新しいアルゴリズムを提案し,試行したすべての$\epsilon$値に対して良好に機能する。 これにより、一般的に考慮される$\epsilon$のすべての値に対して、ImageNet-1k、CIFAR-100、CIFAR-10のSOTA結果を得る。 ImageNet-1Kでは、トップ1の精度は (8, 8 * 10^{-7}$)-DPで88 %、 (0.1, 8 * 10^{-7}$)-DPで84.3 %となる。

Leveraging transfer learning has recently been shown to be an effective strategy for training large models with Differential Privacy (DP). Moreover, somewhat surprisingly, recent works have found that privately training just the last layer of a pre-trained model provides the best utility with DP. While past studies largely rely on algorithms like DP-SGD for training large models, in the specific case of privately learning from features, we observe that computational burden is low enough to allow for more sophisticated optimization schemes, including second-order methods. To that end, we systematically explore the effect of design parameters such as loss function and optimization algorithm. We find that, while commonly used logistic regression performs better than linear regression in the non-private setting, the situation is reversed in the private setting. We find that linear regression is much more effective than logistic regression from both privacy and computational aspects, especially at stricter epsilon values ($\epsilon < 1$). On the optimization side, we also explore using Newton's method, and find that second-order information is quite helpful even with privacy, although the benefit significantly diminishes with stricter privacy guarantees. While both methods use second-order information, least squares is effective at lower epsilons while Newton's method is effective at larger epsilon values. To combine the benefits of both, we propose a novel algorithm called DP-FC, which leverages feature covariance instead of the Hessian of the logistic regression loss and performs well across all $\epsilon$ values we tried. With this, we obtain new SOTA results on ImageNet-1k, CIFAR-100 and CIFAR-10 across all values of $\epsilon$ typically considered. Most remarkably, on ImageNet-1K, we obtain top-1 accuracy of 88\% under (8, $8 * 10^{-7}$)-DP and 84.3\% under (0.1, $8 * 10^{-7}$)-DP.
翻訳日:2022-11-28 15:52:37 公開日:2022-11-24
# 没入型ニューラルグラフィックスプリミティブ

Immersive Neural Graphics Primitives ( http://arxiv.org/abs/2211.13494v1 )

ライセンス: Link先を確認
Ke Li, Tim Rolff, Susanne Schmidt, Reinhard Bacher, Simone Frintrop, Wim Leemans, Frank Steinicke(参考訳) neural radiance field(nerf)、特にinstant neural graphics primitives(instant neural graphics primitives)によって拡張されたニューラル・ラミアンス・フィールド(neural radiance field)は、実世界画像を用いて写真に没入的な仮想シーンを構築するための新しいレンダリング手法である。 その可能性にもかかわらず、NeRFとバーチャルリアリティ(VR)の組み合わせに関する研究は依然として少ない。 現在、一般的なVRシステムとの統合は行われておらず、例えばシーンの複雑さや画面解像度など、VR用のNeRFの実装の性能と適合性は評価されていない。 本稿では,没入型VRのシーンを描画し,ユーザが自由に頭を動かして複雑な現実世界のシーンを探索できるNeRFベースのフレームワークを提示し,評価する。 我々は3つの異なるNeRFシーンのレンダリング性能を、異なるシーンの複雑さと解像度でベンチマークすることで評価する。 超解像を利用すると、1眼あたり1280x720ピクセルの解像度で毎秒30フレームのフレームレートが得られる。 フレームワークの潜在的な応用について論じ、オープンソース実装をオンラインで提供します。

Neural radiance field (NeRF), in particular its extension by instant neural graphics primitives, is a novel rendering method for view synthesis that uses real-world images to build photo-realistic immersive virtual scenes. Despite its potential, research on the combination of NeRF and virtual reality (VR) remains sparse. Currently, there is no integration into typical VR systems available, and the performance and suitability of NeRF implementations for VR have not been evaluated, for instance, for different scene complexities or screen resolutions. In this paper, we present and evaluate a NeRF-based framework that is capable of rendering scenes in immersive VR allowing users to freely move their heads to explore complex real-world scenes. We evaluate our framework by benchmarking three different NeRF scenes concerning their rendering performance at different scene complexities and resolutions. Utilizing super-resolution, our approach can yield a frame rate of 30 frames per second with a resolution of 1280x720 pixels per eye. We discuss potential applications of our framework and provide an open source implementation online.
翻訳日:2022-11-28 15:51:59 公開日:2022-11-24
# ACROBAT -- 計算病理のための定期診断から得られた多段階乳がん組織学的全スライディング画像データセット

ACROBAT -- a multi-stain breast cancer histological whole-slide-image data set from routine diagnostics for computational pathology ( http://arxiv.org/abs/2211.13621v1 )

ライセンス: Link先を確認
Philippe Weitz, Masi Valkonen, Leslie Solorzano, Circe Carr, Kimmo Kartasalo, Constance Boissin, Sonja Koivukoski, Aino Kuusela, Dusan Rasic, Yanbo Feng, Sandra Kristiane Sinius Pouplier, Abhinav Sharma, Kajsa Ledesma Eriksson, Leena Latonen, Anne-Vibeke Laenkholm, Johan Hartman, Pekka Ruusuvuori, Mattias Rantalainen(参考訳) ハエマトキシリンおよびエオシン(H&E)または免疫組織化学(IHC)で染色したFFPE組織分画の分析は、外科切除乳癌検体における病理学的評価の重要な部分である。 IHC染色は、ER、PGR、HER2、KI67を含むいくつかの確立されたバイオマーカーの状態を手動で評価するための診断ガイドラインとルーチンワークフローに広く採用されている。 しかし、これは計算病理画像解析法によっても容易になる課題である。 計算病理学の研究は、しばしば一般に利用可能な全スライド画像(WSI)データセットに基づいて、多くの大きな進歩を遂げた。 しかし、フィールドは公開データセットの空間性によって依然としてかなり制限されている。 特に、IHC と H&E 染色組織セクションに適合する WSI を備えた、大規模で高品質な公開データセットは存在しない。 当科では,H&EおよびIHC染色組織に適合した女性原発性乳癌手術例の組織部分のWSIを,1,153例の4,212個のWSIを用いて,現在最大規模で公開しているデータセットを公表する。 データセットの主な目的は、ACROBAT WSI登録チャレンジの促進であり、H&EとIHCの画像を正確に調整することであった。 画像登録の分野では、13のアノテータから37,000以上の手動でアノテートされたランドマークペアに基づいて、ACROBATチャレンジウェブサイトを通じて、登録アルゴリズムのパフォーマンスに関する自動量的フィードバックが利用可能である。 登録以外にも、このデータセットは、染色誘導学習、仮想染色、教師なし事前学習、アーティファクト検出、染色非依存モデルなど、様々な計算病理研究を可能にする可能性がある。

The analysis of FFPE tissue sections stained with haematoxylin and eosin (H&E) or immunohistochemistry (IHC) is an essential part of the pathologic assessment of surgically resected breast cancer specimens. IHC staining has been broadly adopted into diagnostic guidelines and routine workflows to manually assess status and scoring of several established biomarkers, including ER, PGR, HER2 and KI67. However, this is a task that can also be facilitated by computational pathology image analysis methods. The research in computational pathology has recently made numerous substantial advances, often based on publicly available whole slide image (WSI) data sets. However, the field is still considerably limited by the sparsity of public data sets. In particular, there are no large, high quality publicly available data sets with WSIs of matching IHC and H&E-stained tissue sections. Here, we publish the currently largest publicly available data set of WSIs of tissue sections from surgical resection specimens from female primary breast cancer patients with matched WSIs of corresponding H&E and IHC-stained tissue, consisting of 4,212 WSIs from 1,153 patients. The primary purpose of the data set was to facilitate the ACROBAT WSI registration challenge, aiming at accurately aligning H&E and IHC images. For research in the area of image registration, automatic quantitative feedback on registration algorithm performance remains available through the ACROBAT challenge website, based on more than 37,000 manually annotated landmark pairs from 13 annotators. Beyond registration, this data set has the potential to enable many different avenues of computational pathology research, including stain-guided learning, virtual staining, unsupervised pre-training, artefact detection and stain-independent models.
翻訳日:2022-11-28 15:51:39 公開日:2022-11-24
# スケッチガイドによるテキスト-画像拡散モデル

Sketch-Guided Text-to-Image Diffusion Models ( http://arxiv.org/abs/2211.13752v1 )

ライセンス: Link先を確認
Andrey Voynov, Kfir Aberman, Daniel Cohen-Or(参考訳) テキスト間画像モデルは、与えられたテキストプロンプトからの画像の高品質な合成を実証し、機械学習の進化に驚くべき飛躍をもたらした。 しかし、これらの強力な事前訓練されたモデルには、合成画像の空間特性を導く制御ハンドルがない。 本研究では,事前訓練されたテキスト・画像拡散モデルに,推論時間中に他の領域(スケッチなど)から空間マップを導出する普遍的アプローチを導入する。 従来の作業とは異なり、このメソッドはタスク専用のモデルや専用エンコーダをトレーニングする必要はない。 我々のキーとなるアイデアは、ノイズの多い画像の潜伏した特徴を空間地図にマッピングするLGP(Latent Guidance Predictor) - 小型でピクセルごとのマルチ層パーセプトロン(Multi-Layer Perceptron) - をトレーニングすることであり、そこではDenoising Diffusion Probabilistic Model(DDPM)ネットワークから深い特徴を抽出する。 LGPは数千の画像のみに基づいて訓練され、空間地図に一致するように中間画像を押し戻すために、損失を計算して伝播する微分ガイドマップ予測器を構成する。 ピクセルごとのトレーニングは柔軟性と局所性を提供し、フリーハンドスタイルの描画を含むドメイン外のスケッチでうまく機能する。 我々はスケッチ・ツー・イメージ翻訳タスクに特に焦点をあて、任意のスタイルやドメインのスケッチのガイダンスに従う画像を生成する堅牢で表現力豊かな方法を明らかにする。 プロジェクトページ: sketch-guided-diffusion.github.io

Text-to-Image models have introduced a remarkable leap in the evolution of machine learning, demonstrating high-quality synthesis of images from a given text-prompt. However, these powerful pretrained models still lack control handles that can guide spatial properties of the synthesized images. In this work, we introduce a universal approach to guide a pretrained text-to-image diffusion model, with a spatial map from another domain (e.g., sketch) during inference time. Unlike previous works, our method does not require to train a dedicated model or a specialized encoder for the task. Our key idea is to train a Latent Guidance Predictor (LGP) - a small, per-pixel, Multi-Layer Perceptron (MLP) that maps latent features of noisy images to spatial maps, where the deep features are extracted from the core Denoising Diffusion Probabilistic Model (DDPM) network. The LGP is trained only on a few thousand images and constitutes a differential guiding map predictor, over which the loss is computed and propagated back to push the intermediate images to agree with the spatial map. The per-pixel training offers flexibility and locality which allows the technique to perform well on out-of-domain sketches, including free-hand style drawings. We take a particular focus on the sketch-to-image translation task, revealing a robust and expressive way to generate images that follow the guidance of a sketch of arbitrary style or domain. Project page: sketch-guided-diffusion.github.io
翻訳日:2022-11-28 15:50:46 公開日:2022-11-24
# 自律空気移動のための説明可能な安全強化学習

Explainable and Safe Reinforcement Learning for Autonomous Air Mobility ( http://arxiv.org/abs/2211.13474v1 )

ライセンス: Link先を確認
Lei Wang, Hongyu Yang, Yi Lin, Suwan Yin, Yuankai Wu(参考訳) 交通需要の増加、高レベルの自動化、通信強化は、将来の航空管制(atc)に新しい設計機会を提供する。 本稿では,自律飛行のためのコンフリクト解決を支援する新しい深層強化学習(drl)コントローラを提案する。 DRLはこの分野で重要な進歩を遂げているが、既存の研究はDRLコントローラに関する説明可能性や安全性の問題、特に敵攻撃時の安全性にはほとんど注意を払っていない。 これら2つの問題に対処するため、我々は完全な説明可能なDRLフレームワークを設計した。 1)結合したQ値学習モデルを、安全性と効率性(目標の達成)に分解する。 2) 周囲の侵入者からの情報を入力とし、中央制御装置の必要性をなくす。 シミュレーション実験では,安全性と効率を分離することで,実用上の説明性を劇的に改善しながら,自由飛行制御タスクの性能を超越できることを示した。 さらに、safety q learningモジュールは、環境の安全状況に関する豊富な情報を提供する。 対向攻撃における安全性を検討するため,我々はさらに,安全指向と効率指向の両方の攻撃を課すことができる対向攻撃戦略を提案する。 敵は、エージェントを数ステップで攻撃するだけで、安全性と効率を最小化する。 実験では, エージェントの攻撃頻度を4倍に抑えることで, 均一攻撃(すなわち, 毎回攻撃)と同じくらい多くの衝突が増加し, 将来のATC設計におけるDRLの能力と制限に関する知見が得られる。 ソースコードはhttps://github.com/WLeiiiii/Gym-ATC-Attack-Projectで公開されている。

Increasing traffic demands, higher levels of automation, and communication enhancements provide novel design opportunities for future air traffic controllers (ATCs). This article presents a novel deep reinforcement learning (DRL) controller to aid conflict resolution for autonomous free flight. Although DRL has achieved important advancements in this field, the existing works pay little attention to the explainability and safety issues related to DRL controllers, particularly the safety under adversarial attacks. To address those two issues, we design a fully explainable DRL framework wherein we: 1) decompose the coupled Q value learning model into a safety-awareness and efficiency (reach the target) one; and 2) use information from surrounding intruders as inputs, eliminating the needs of central controllers. In our simulated experiments, we show that by decoupling the safety-awareness and efficiency, we can exceed performance on free flight control tasks while dramatically improving explainability on practical. In addition, the safety Q learning module provides rich information about the safety situation of environments. To study the safety under adversarial attacks, we additionally propose an adversarial attack strategy that can impose both safety-oriented and efficiency-oriented attacks. The adversarial aims to minimize safety/efficiency by only attacking the agent at a few time steps. In the experiments, our attack strategy increases as many collisions as the uniform attack (i.e., attacking at every time step) by only attacking the agent four times less often, which provide insights into the capabilities and restrictions of the DRL in future ATC designs. The source code is publicly available at https://github.com/WLeiiiii/Gym-ATC-Attack-Project.
翻訳日:2022-11-28 15:44:34 公開日:2022-11-24
# 非一様ラベルを用いた医用人工知能モデルの協調学習

Collaborative Training of Medical Artificial Intelligence Models with non-uniform Labels ( http://arxiv.org/abs/2211.13606v1 )

ライセンス: Link先を確認
Soroosh Tayebi Arasteh, Peter Isfort, Marwin Saehn, Gustav Mueller-Franzes, Firas Khader, Jakob Nikolas Kather, Christiane Kuhl, Sven Nebelung, Daniel Truhn(参考訳) 人工知能(AI)の手法は医療画像分析に革命をもたらしている。 しかし、堅牢なAIモデルはトレーニングのために大規模なマルチサイトデータセットを必要とする。 複数のステークホルダが公開データセットを提供しているが、これらのデータのラベル付け方法は大きく異なる。 例えば、胸部x線撮影のデータセットには肺転移を示すラベルが含まれ、胸部x線撮影のデータセットには肺炎の存在に焦点が当てられる可能性がある。 従来のアプローチでは、これらのデータは単一のAIモデルをトレーニングするために併用することはできない。 我々は,このようなデータを用いた協調学習のためのフレキシブル・フェデレーション・ラーニング(FFL)と呼ばれる新しいフレームワークを提案する。 5つの機関の695,000の胸部X線写真(それぞれラベルが異なる)の公開データを使用して、大規模で異質なラベル付きデータセットを使用して、このフレームワークで1つの大きなAIモデルをトレーニングできることを実証します。 FFLでトレーニングされたモデルは、マッチングアノテーションのみでトレーニングされたモデルよりも優れていることが分かりました。 これは、既存のすべてのデータを効率的に活用する真に大規模なAIモデルのトレーニングの道を開くかもしれない。

Artificial intelligence (AI) methods are revolutionizing medical image analysis. However, robust AI models require large multi-site datasets for training. While multiple stakeholders have provided publicly available datasets, the ways in which these data are labeled differ widely. For example, one dataset of chest radiographs might contain labels denoting the presence of metastases in the lung, while another dataset of chest radiograph might focus on the presence of pneumonia. With conventional approaches, these data cannot be used together to train a single AI model. We propose a new framework that we call flexible federated learning (FFL) for collaborative training on such data. Using publicly available data of 695,000 chest radiographs from five institutions - each with differing labels - we demonstrate that large and heterogeneously labeled datasets can be used to train one big AI model with this framework. We find that models trained with FFL are superior to models that are trained on matching annotations only. This may pave the way for training of truly large-scale AI models that make efficient use of all existing data.
翻訳日:2022-11-28 15:44:11 公開日:2022-11-24
# スキル:効率的な時間拡張探索のための適応的スキルシーケンシング

SkillS: Adaptive Skill Sequencing for Efficient Temporally-Extended Exploration ( http://arxiv.org/abs/2211.13743v1 )

ライセンス: Link先を確認
Giulia Vezzani, Dhruva Tirumala, Markus Wulfmeier, Dushyant Rao, Abbas Abdolmaleki, Ben Moran, Tuomas Haarnoja, Jan Humplik, Roland Hafner, Michael Neunert, Claudio Fantacci, Tim Hertweck, Thomas Lampe, Fereshteh Sadeghi, Nicolas Heess and Martin Riedmiller(参考訳) 汎用的で柔軟な強化学習(RL)エージェントを構築する場合、事前知識を効果的に再利用する能力は重要な要件である。 スキルの再利用は最も一般的なアプローチの1つだが、現在の方法にはかなりの制限がある。例えば、既存のポリシーの微調整はしばしば失敗する。 同様に、専門家の行動の蒸留は、準最適専門家が与えられた結果に乏しい。 タスクやシステムダイナミクスの変化を含む,複数の領域におけるスキル伝達の一般的なアプローチを比較した。 既存の手法がいかに失敗するかを特定し、これらの問題を緩和するための代替手法を導入する。 提案手法では,既存の時間的拡張スキルの探索を学習するが,実際の経験から最終方針を直接学習する。 この概念分割は、迅速な適応と効率的なデータ収集を可能にするが、最終解を制約することなく、様々な評価課題において多くの古典的手法より優れており、我々は、その方法の相違点の重要性を強調するために、幅広いアブリケーションを用いている。

The ability to effectively reuse prior knowledge is a key requirement when building general and flexible Reinforcement Learning (RL) agents. Skill reuse is one of the most common approaches, but current methods have considerable limitations.For example, fine-tuning an existing policy frequently fails, as the policy can degrade rapidly early in training. In a similar vein, distillation of expert behavior can lead to poor results when given sub-optimal experts. We compare several common approaches for skill transfer on multiple domains including changes in task and system dynamics. We identify how existing methods can fail and introduce an alternative approach to mitigate these problems. Our approach learns to sequence existing temporally-extended skills for exploration but learns the final policy directly from the raw experience. This conceptual split enables rapid adaptation and thus efficient data collection but without constraining the final solution.It significantly outperforms many classical methods across a suite of evaluation tasks and we use a broad set of ablations to highlight the importance of differentc omponents of our method.
翻訳日:2022-11-28 15:43:56 公開日:2022-11-24
# 意味的画像伝送のための共同音源・チャネル符号化

Generative Joint Source-Channel Coding for Semantic Image Transmission ( http://arxiv.org/abs/2211.13772v1 )

ライセンス: Link先を確認
Ecenaz Erdemir, Tze-Yang Tung, Pier Luigi Dragotti, Deniz Gunduz(参考訳) 近年の研究では、ディープニューラルネットワーク(dnn)を用いたjscc(source-channel coding)が無線画像伝送に有望な結果をもたらすことが示されている。 しかし,これらの手法は主に人間の知覚よりも,入力画像に対する再構成信号の歪みに着目している。 しかし、従来の歪み指標のみに注目することは、特に超低帯域圧縮比 (BCR) や低信号-雑音比 (SNR) といった極端な物理的条件において、高い知覚品質をもたらすとは限らない。 本研究では,無線画像伝送における深部生成モデル(DGM)の知覚品質を活用する2つの新しいJSCCスキーム,すなわちInverseJSCCとGenerativeJSCCを提案する。 前者はDeepJSCCの逆問題であり、後者はエンドツーエンドの最適化JSCCスキームである。 どちらも、平均二乗誤差(MSE)の重み付き和を最適化し、知覚的イメージパッチ類似度(LPIPS)の損失を学習し、他の歪み指標よりも意味的類似度を捉える。 InverseJSCCは、スタイルベース生成逆数ネットワーク(StyleGAN)を用いた逆最適化問題を解くことにより、DeepJSCCモデルの歪んだ再構成を復調する。 シミュレーションの結果,InverseJSCCはエッジ症例の知覚的品質に関して,最先端(SotA)のDeepJSCCを著しく改善することがわかった。 GenerativeJSCCでは,エンコーダとStyleGANベースのデコーダのエンドツーエンドトレーニングを実施し,デコーダの歪みと知覚品質の両方において,GenerativeJSCCがDeepJSCCを著しく上回っていることを示す。

Recent works have shown that joint source-channel coding (JSCC) schemes using deep neural networks (DNNs), called DeepJSCC, provide promising results in wireless image transmission. However, these methods mostly focus on the distortion of the reconstructed signals with respect to the input image, rather than their perception by humans. However, focusing on traditional distortion metrics alone does not necessarily result in high perceptual quality, especially in extreme physical conditions, such as very low bandwidth compression ratio (BCR) and low signal-to-noise ratio (SNR) regimes. In this work, we propose two novel JSCC schemes that leverage the perceptual quality of deep generative models (DGMs) for wireless image transmission, namely InverseJSCC and GenerativeJSCC. While the former is an inverse problem approach to DeepJSCC, the latter is an end-to-end optimized JSCC scheme. In both, we optimize a weighted sum of mean squared error (MSE) and learned perceptual image patch similarity (LPIPS) losses, which capture more semantic similarities than other distortion metrics. InverseJSCC performs denoising on the distorted reconstructions of a DeepJSCC model by solving an inverse optimization problem using style-based generative adversarial network (StyleGAN). Our simulation results show that InverseJSCC significantly improves the state-of-the-art (SotA) DeepJSCC in terms of perceptual quality in edge cases. In GenerativeJSCC, we carry out end-to-end training of an encoder and a StyleGAN-based decoder, and show that GenerativeJSCC significantly outperforms DeepJSCC both in terms of distortion and perceptual quality.
翻訳日:2022-11-28 15:43:38 公開日:2022-11-24
# 非凸非凸ミニマックス問題の零次交互勾配降下上昇アルゴリズム

Zeroth-Order Alternating Gradient Descent Ascent Algorithms for a Class of Nonconvex-Nonconcave Minimax Problems ( http://arxiv.org/abs/2211.13668v1 )

ライセンス: Link先を確認
Zi Xu, Zi-Qi Wang, Jun-Lin Wang, Yu-Hong Dai(参考訳) 本稿では,非凸非凸ミニマックス問題(nc-plミニマックス問題)のクラスを考察し,その対象関数が内部変数に対して polyak-$\l$ojasiewicz (pl) 条件を満たすことを考察する。 本稿では, NC-PL極小問題を決定論的および確率論的条件下で解くため, ゼロ次交互勾配勾配勾配上昇(ZO-AGDA)アルゴリズムとゼロ次分散低減勾配勾配上昇(ZO-VRAGDA)アルゴリズムを提案する。 ZO-AGDA と ZO-VRAGDA の NC-PL minimax 問題を解くための$\epsilon$-stationary point を得るための反復数は、それぞれ $\mathcal{O}(\varepsilon^{-2})$ と $\mathcal{O}(\varepsilon^{-3})$ で上限づけられる。 我々の知る限りでは、NC-PLミニマックス問題を解くための反復複雑性を保証した最初の2つのゼロ階アルゴリズムである。

In this paper, we consider a class of nonconvex-nonconcave minimax problems, i.e., NC-PL minimax problems, whose objective functions satisfy the Polyak-$\L$ojasiewicz (PL) condition with respect to the inner variable. We propose a zeroth-order alternating gradient descent ascent (ZO-AGDA) algorithm and a zeroth-order variance reduced alternating gradient descent ascent (ZO-VRAGDA) algorithm for solving NC-PL minimax problem under the deterministic and the stochastic setting, respectively. The number of iterations to obtain an $\epsilon$-stationary point of ZO-AGDA and ZO-VRAGDA algorithm for solving NC-PL minimax problem is upper bounded by $\mathcal{O}(\varepsilon^{-2})$ and $\mathcal{O}(\varepsilon^{-3})$, respectively. To the best of our knowledge, they are the first two zeroth-order algorithms with the iteration complexity gurantee for solving NC-PL minimax problems.
翻訳日:2022-11-28 15:41:28 公開日:2022-11-24
# 低資源音声言語理解のためのマルチタスク学習

Multitask Learning for Low Resource Spoken Language Understanding ( http://arxiv.org/abs/2211.13703v1 )

ライセンス: Link先を確認
Quentin Meeus, Marie-Francine Moens, Hugo Van hamme(参考訳) マルチタスク学習が音声処理にもたらす利点について検討し、自動音声認識や意図分類、感情分類による2つの目的のモデルを訓練する。 我々のモデルは、控えめなサイズではあるが、意図分類に基づいて訓練されたモデルよりも改善されている。 各タスクモジュールの最適な配置を見つけるために、異なる設定を比較します。 最後に,低リソースシナリオにおけるモデルの性能を,クラス毎に1つの例でトレーニングすることで検討する。 これらのシナリオにおけるマルチタスク学習は、テキスト機能に基づいて訓練されたベースラインモデルと競合し、パイプラインモデルよりもかなり優れた性能を示す。 感情分類では、エンド・ツー・エンドモデルの性能を10倍のパラメータで一致させる。 4つのタスクと4つのデータセットをオランダ語と英語で検討する。

We explore the benefits that multitask learning offer to speech processing as we train models on dual objectives with automatic speech recognition and intent classification or sentiment classification. Our models, although being of modest size, show improvements over models trained end-to-end on intent classification. We compare different settings to find the optimal disposition of each task module compared to one another. Finally, we study the performance of the models in low-resource scenario by training the models with as few as one example per class. We show that multitask learning in these scenarios compete with a baseline model trained on text features and performs considerably better than a pipeline model. On sentiment classification, we match the performance of an end-to-end model with ten times as many parameters. We consider 4 tasks and 4 datasets in Dutch and English.
翻訳日:2022-11-28 15:34:01 公開日:2022-11-24
# cGAを用いた荒地景観の最適化に関する理論的研究

Theoretical Study of Optimizing Rugged Landscapes with the cGA ( http://arxiv.org/abs/2211.13801v1 )

ライセンス: Link先を確認
Tobias Friedrich, Timo K\"otzing, Frank Neumann, Aishwarya Radhakrishnan(参考訳) 分散アルゴリズム(EDAs)の推定は、アルゴリズムの実行中に確率分布を適応させる最適化のための分布に基づくアプローチを提供する。 我々はedasの理論的理解に寄与し,それらの分散アプローチにより,従来の局所探索アルゴリズムよりも頑丈なフィットネス環境に適応できることを指摘した。 具体的には、各フィットネス値にノイズを加えてOneMax関数を頑丈にする。 にもかかわらず、cGA は n(1 - \epsilon) 個の 1 の解を見つけることができる。 これとは対照的に、高い確率で RLS と (1+1) EA は n(1/2+o(1)) 個の 1 の解しか見つからない。

Estimation of distribution algorithms (EDAs) provide a distribution - based approach for optimization which adapts its probability distribution during the run of the algorithm. We contribute to the theoretical understanding of EDAs and point out that their distribution approach makes them more suitable to deal with rugged fitness landscapes than classical local search algorithms. Concretely, we make the OneMax function rugged by adding noise to each fitness value. The cGA can nevertheless find solutions with n(1 - \epsilon) many 1s, even for high variance of noise. In contrast to this, RLS and the (1+1) EA, with high probability, only find solutions with n(1/2+o(1)) many 1s, even for noise with small variance.
翻訳日:2022-11-28 15:33:22 公開日:2022-11-24
# クロスデバイスフェデレーション学習を用いたマルチジョブインテリジェントスケジューリング

Multi-Job Intelligent Scheduling with Cross-Device Federated Learning ( http://arxiv.org/abs/2211.13430v1 )

ライセンス: Link先を確認
Ji Liu, Juncheng Jia, Beichen Ma, Chendi Zhou, Jingbo Zhou, Yang Zhou, Huaiyu Dai, Dejing Dou(参考訳) 近年、エンドユーザーの様々な(エッジ)デバイスで大量の分散データを目撃しているが、ルールや法律のために分散データ集約は機械学習ジョブにとって複雑である。 分散データを扱う実践的なアプローチとして、連合学習(fl)はセンシティブな生データを共有することなく、協調的なグローバル機械学習モデルのトレーニングを可能にする。 サーバはFLのトレーニングプロセス内でデバイスをジョブにスケジュールする。 対照的に、FLにおける複数のジョブを持つデバイススケジューリングは、依然として重要かつオープンな問題である。 本稿では,複数のジョブを並列にトレーニングできる新しいマルチジョブFLフレームワークを提案する。 マルチジョブFLフレームワークは、システムモデルとスケジューリング方法から構成される。 システムモデルは、並列トレーニングプロセス中に多様なデバイスのデータの公平性とトレーニング時間に基づくコストモデルを用いて、複数のジョブの並列トレーニングプロセスを可能にする。 本稿では,複数ジョブにスケジューリング装置をスケジューリングしながら,少ないコストに対応するオリジナル強化学習型スケジューリング法とオリジナルベイズ最適化型スケジューリング法を含む,複数スケジューリング法に基づく新しいインテリジェントスケジューリング手法を提案する。 多様なジョブやデータセットで広範な実験を行う。 実験の結果,提案手法はトレーニング時間(最大12.73倍)と精度(最大46.4%)において,ベースラインアプローチよりも有意に優れていた。

Recent years have witnessed a large amount of decentralized data in various (edge) devices of end-users, while the decentralized data aggregation remains complicated for machine learning jobs because of regulations and laws. As a practical approach to handling decentralized data, Federated Learning (FL) enables collaborative global machine learning model training without sharing sensitive raw data. The servers schedule devices to jobs within the training process of FL. In contrast, device scheduling with multiple jobs in FL remains a critical and open problem. In this paper, we propose a novel multi-job FL framework, which enables the training process of multiple jobs in parallel. The multi-job FL framework is composed of a system model and a scheduling method. The system model enables a parallel training process of multiple jobs, with a cost model based on the data fairness and the training time of diverse devices during the parallel training process. We propose a novel intelligent scheduling approach based on multiple scheduling methods, including an original reinforcement learning-based scheduling method and an original Bayesian optimization-based scheduling method, which corresponds to a small cost while scheduling devices to multiple jobs. We conduct extensive experimentation with diverse jobs and datasets. The experimental results reveal that our proposed approaches significantly outperform baseline approaches in terms of training time (up to 12.73 times faster) and accuracy (up to 46.4% higher).
翻訳日:2022-11-28 15:33:07 公開日:2022-11-24
# グラフニューラルネットワークを用いた二値クナップサック問題の解法

Solving Bilevel Knapsack Problem using Graph Neural Networks ( http://arxiv.org/abs/2211.13436v1 )

ライセンス: Link先を確認
Sunhyeon Kwon, Sungsoo Park(参考訳) 双レベル最適化問題は、リーダーとフォロワーの2人のエージェントによる階層的最適化問題である。 リーダーはまず自分の決定を下し、フォロワーはそれに従って最良の選択をする。 リーダーはフォロワーの情報を知っており、問題の目標は、リーダーの視点からフォロワーの反応を考慮して最適な解決策を見つけることである。 双レベル最適化問題では、最適解を得るための汎用的で効率的なアルゴリズムや商用解法は存在せず、単純な問題であっても良い解を得るのは非常に困難である。 本稿では,グラフニューラルネットワークを用いた2レベルナップサック問題を解くための深層学習手法を提案する。 リーダーのソリューションを予測するためにモデルをトレーニングし、階層的な最適化問題を単一レベルの最適化問題に変換するためにそれを使用します。 我々のモデルは、最適ギャップが1.7\%の正確なアルゴリズムよりも500倍高速な実現可能な解を発見した。 また、トレーニングしたサイズとサイズが異なる問題に対して、我々のモデルはよく機能しました。

The Bilevel Optimization Problem is a hierarchical optimization problem with two agents, a leader and a follower. The leader make their own decisions first, and the followers make the best choices accordingly. The leader knows the information of the followers, and the goal of the problem is to find the optimal solution by considering the reactions of the followers from the leader's point of view. For the Bilevel Optimization Problem, there are no general and efficient algorithms or commercial solvers to get an optimal solution, and it is very difficult to get a good solution even for a simple problem. In this paper, we propose a deep learning approach using Graph Neural Networks to solve the bilevel knapsack problem. We train the model to predict the leader's solution and use it to transform the hierarchical optimization problem into a single-level optimization problem to get the solution. Our model found the feasible solution that was about 500 times faster than the exact algorithm with $1.7\%$ optimal gap. Also, our model performed well on problems of different size from the size it was trained on.
翻訳日:2022-11-28 15:32:46 公開日:2022-11-24
# 反実的推論の複雑さについて

On the Complexity of Counterfactual Reasoning ( http://arxiv.org/abs/2211.13447v1 )

ライセンス: Link先を確認
Yunqiu Han, Yizuo Chen, Adnan Darwiche(参考訳) 構造因果モデル(scms)における連想的・介入的推論の複雑性に関連して,反事実的推論の計算複雑性について検討した。 本稿では,2つの計算フレームワークの文脈において,完全に指定されたSCM上での協調的あるいは介入的推論よりも反実的推論が困難であることを示す。 最初のフレームワークはtreewidthの概念に基づいており、古典的な変数除去とジョインツリーアルゴリズムを含んでいる。 第2のフレームワークは、SCMのような機能的依存関係を持つモデルに向けられた、より最近で洗練された因果木幅の概念に基づいている。 我々の結果は構成的であり、基礎となるSCM構造の(因果的)ツリー幅に対して、実と虚の2つの世界を考える標準的な反実的推論で使われる双対ネットワークの(因果的)ツリー幅の有界化に基づいている。 特に、後者(causal)の木の幅は、前者プラス1の2倍以下であることを示す。 したがって、完全に指定されたSCM上で結合的または介入的推論が抽出可能であれば、反事実的推論も抽出可能となる。 我々は,2つ以上の世界を考える一般の反実的推論に結果を拡張し,データと結合した部分的特定SCMを用いて反実的推論への応用について議論する。 最終的に、対実的推論の複雑さとランダムなSCMにおける連帯的・インターベンショナル推論のギャップを測る実験結果を示す。

We study the computational complexity of counterfactual reasoning in relation to the complexity of associational and interventional reasoning on structural causal models (SCMs). We show that counterfactual reasoning is no harder than associational or interventional reasoning on fully specified SCMs in the context of two computational frameworks. The first framework is based on the notion of treewidth and includes the classical variable elimination and jointree algorithms. The second framework is based on the more recent and refined notion of causal treewidth which is directed towards models with functional dependencies such as SCMs. Our results are constructive and based on bounding the (causal) treewidth of twin networks -- used in standard counterfactual reasoning that contemplates two worlds, real and imaginary -- to the (causal) treewidth of the underlying SCM structure. In particular, we show that the latter (causal) treewidth is no more than twice the former plus one. Hence, if associational or interventional reasoning is tractable on a fully specified SCM then counterfactual reasoning is tractable too. We extend our results to general counterfactual reasoning that requires contemplating more than two worlds and discuss applications of our results to counterfactual reasoning with a partially specified SCM that is coupled with data. We finally present empirical results that measure the gap between the complexities of counterfactual reasoning and associational/interventional reasoning on random SCMs.
翻訳日:2022-11-28 15:32:30 公開日:2022-11-24
# 演算子学習による拡散モデルの高速サンプリング

Fast Sampling of Diffusion Models via Operator Learning ( http://arxiv.org/abs/2211.13449v1 )

ライセンス: Link先を確認
Hongkai Zheng, Weili Nie, Arash Vahdat, Kamyar Azizzadenesheli, Anima Anandkumar(参考訳) 拡散モデルは様々な地域で広く採用されている。 しかし,ネットワーク評価の数百~3分の1で逆処理をエミュレートするので,サンプリングは遅い。 微分方程式解の高速化におけるニューラル演算子の成功に触発され、演算子学習の観点から基礎となるニューラル微分方程式を解くことによってこの問題にアプローチする。 拡散モデルにおける確率流ODE軌道について検討し、フーリエ空間で効率的に学習できるコンパクトエネルギースペクトルを観察する。 この知見により、フーリエ空間における時間的畳み込みを伴う拡散フーリエニューラル作用素(DFNO)を提案し、初期条件を時間的連続関数である解軌道にマッピングする作用素をパラメータ化する。 DFNOは任意の拡散モデルに適用でき、1つのモデルフォワードコールで高品質なサンプルを生成する。 提案手法は,cifar-10上の4.72fidを1モデル評価で達成する。

Diffusion models have found widespread adoption in various areas. However, sampling from them is slow because it involves emulating a reverse process with hundreds-to-thousands of network evaluations. Inspired by the success of neural operators in accelerating differential equations solving, we approach this problem by solving the underlying neural differential equation from an operator learning perspective. We examine probability flow ODE trajectories in diffusion models and observe a compact energy spectrum that can be learned efficiently in Fourier space. With this insight, we propose diffusion Fourier neural operator (DFNO) with temporal convolution in Fourier space to parameterize the operator that maps initial condition to the solution trajectory, which is a continuous function in time. DFNO can be applied to any diffusion model and generate high-quality samples in one model forward call. Our method achieves the state-of-the-art FID of 4.72 on CIFAR-10 using only one model evaluation.
翻訳日:2022-11-28 15:26:31 公開日:2022-11-24
# 非iidデータを用いたナレッジアウェアフェデレーションアクティブラーニング

Knowledge-Aware Federated Active Learning with Non-IID Data ( http://arxiv.org/abs/2211.13579v1 )

ライセンス: Link先を確認
Yu-Tong Cao, Jingya Wang, Ye Shi, Baosheng Yu, Dacheng Tao(参考訳) フェデレーション学習は、複数の分散したクライアントが、ローカルトレーニングデータを共有せずに協調的に学習できるようにする。 しかし、ローカルクライアントでデータラベルを取得するための高価なアノテーションコストは、ローカルデータを利用する際の障害である。 本稿では,分散学習方式でデータプライバシを保護しつつ,限定的なアノテーション予算でグローバルモデルを効率的に学習するための連合型アクティブラーニングパラダイムを提案する。 フェデレートされたアクティブラーニングが直面する主な課題は、サーバ上のグローバルモデルのアクティブサンプリング目標と非同期のローカルクライアントとのミスマッチである。 これは、データがローカルクライアント間で非IIDに分散されたときにさらに重要になる。 上記の課題に対処するため,KSAS (Knowledge-Aware Federated Active Learning) とKCFU (Knowledge-Compensatory Federated Update) からなる知識認識型アクティブラーニング (KAFAL) を提案する。 ksasは連合型アクティブラーニング問題に適した新しいアクティブサンプリング手法である。 ローカルモデルとグローバルモデルの違いに基づいて積極的にサンプリングすることで、ミスマッチの課題に対処する。 KSASは、ローカルクライアントの専門知識を強化し、サンプルデータをローカルクライアントとグローバルモデルの両方に知らせることを保証する。 一方KCFUは、限られたデータと非IIDデータ分散に起因するクライアントの不均一性を扱う。 グローバルモデルの助けを借りて、弱いクラスにおける各クライアントの能力を補う。 連合型アクティブラーニングフレームワークにおけるKSASの最先端のアクティブラーニング手法に対する優位性と,KCFUの効率性を示すため,大規模な実験と分析を行った。

Federated learning enables multiple decentralized clients to learn collaboratively without sharing the local training data. However, the expensive annotation cost to acquire data labels on local clients remains an obstacle in utilizing local data. In this paper, we propose a federated active learning paradigm to efficiently learn a global model with limited annotation budget while protecting data privacy in a decentralized learning way. The main challenge faced by federated active learning is the mismatch between the active sampling goal of the global model on the server and that of the asynchronous local clients. This becomes even more significant when data is distributed non-IID across local clients. To address the aforementioned challenge, we propose Knowledge-Aware Federated Active Learning (KAFAL), which consists of Knowledge-Specialized Active Sampling (KSAS) and Knowledge-Compensatory Federated Update (KCFU). KSAS is a novel active sampling method tailored for the federated active learning problem. It deals with the mismatch challenge by sampling actively based on the discrepancies between local and global models. KSAS intensifies specialized knowledge in local clients, ensuring the sampled data to be informative for both the local clients and the global model. KCFU, in the meantime, deals with the client heterogeneity caused by limited data and non-IID data distributions. It compensates for each client's ability in weak classes by the assistance of the global model. Extensive experiments and analyses are conducted to show the superiority of KSAS over the state-of-the-art active learning methods and the efficiency of KCFU under the federated active learning framework.
翻訳日:2022-11-28 15:26:16 公開日:2022-11-24
# Human-in-the-loop Peer Studyによるレスポンシブルアクティブラーニング

Responsible Active Learning via Human-in-the-loop Peer Study ( http://arxiv.org/abs/2211.13587v1 )

ライセンス: Link先を確認
Yu-Tong Cao, Jingya Wang, Baosheng Yu, Dacheng Tao(参考訳) トレーニング用のデータサンプルを手動でラベル付けするだけでデータアノテーションの労力を削減するために,アクティブラーニングが提案されている。 一方、最近のアクティブラーニングアプリケーションは、十分な計算リソースだけでなく、アクティブラーニングループに多くの人間を含むクラウドソーシングフレームワークによって、クラウドコンピューティングサービスから多くの恩恵を受けています。 しかし、大規模で遅延のないデータをクラウドに渡す必要のある従来のアクティブな学習方法は、データプライバシの問題を引き起こす可能性がある。 このようなリスクを軽減するために,データプライバシの保護とモデル安定性の向上を同時に行うピアスタディラーニング(psl)という,責任あるアクティブラーニング手法を提案する。 具体的には、まず、クラウド側のタスク学習者(教師)から、クライアント側のアクティブ学習者(学生)を維持することにより、未学習データを分離する。 トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。 大規模未学習データによるアクティブ学習者をさらに強化するために,ラベル付きデータに関するインクラスピアスタディや未学習データに関するアウトオブクラスピアスタディなど,新しい学習パラダイムによって訓練されたアクティブ学習者に複数のピア学習者を紹介する。 最後に,ピアスタディ・フィードバック(Peer Study Feedback)という,差分に基づくアクティブサンプリング基準を考案した。 広汎な実験は、標準および機密保護設定の両方において、幅広い能動的学習方法よりも提案したPSLの方が優れていることを示す。

Active learning has been proposed to reduce data annotation efforts by only manually labelling representative data samples for training. Meanwhile, recent active learning applications have benefited a lot from cloud computing services with not only sufficient computational resources but also crowdsourcing frameworks that include many humans in the active learning loop. However, previous active learning methods that always require passing large-scale unlabelled data to cloud may potentially raise significant data privacy issues. To mitigate such a risk, we propose a responsible active learning method, namely Peer Study Learning (PSL), to simultaneously preserve data privacy and improve model stability. Specifically, we first introduce a human-in-the-loop teacher-student architecture to isolate unlabelled data from the task learner (teacher) on the cloud-side by maintaining an active learner (student) on the client-side. During training, the task learner instructs the light-weight active learner which then provides feedback on the active sampling criterion. To further enhance the active learner via large-scale unlabelled data, we introduce multiple peer students into the active learner which is trained by a novel learning paradigm, including the In-Class Peer Study on labelled data and the Out-of-Class Peer Study on unlabelled data. Lastly, we devise a discrepancy-based active sampling criterion, Peer Study Feedback, that exploits the variability of peer students to select the most informative data to improve model stability. Extensive experiments demonstrate the superiority of the proposed PSL over a wide range of active learning methods in both standard and sensitive protection settings.
翻訳日:2022-11-28 15:25:45 公開日:2022-11-24
# サンプルネットワークを用いた回帰予測分布の推定

Estimating Regression Predictive Distributions with Sample Networks ( http://arxiv.org/abs/2211.13724v1 )

ライセンス: Link先を確認
Ali Harakeh, Jordan Hu, Naiqing Guan, Steven L. Waslander, and Liam Paull(参考訳) ディープニューラルネットワーク予測の不確実性を推定することは、多くの現実世界のアプリケーションにとって不可欠である。 モデル不確実性に対する一般的なアプローチは、パラメトリック分布を選択し、最大推定を用いてデータに適合させることである。 選択されたパラメトリック形式はデータ生成分布に不適合であり、信頼できない不確実性推定をもたらす。 本研究では,出力分布のパラメトリックな形式を特定することを避けるため,不確かさをモデル化するフレキシブルでスケーラブルなアーキテクチャである samplenet を提案する。 サンプルネットはエネルギースコアで学習し、シンクホーンの発散で正規化されたサンプルを用いて経験的分布を定義する。 SampleNetは、広範囲のディストリビューションに適合し、大規模な実世界の回帰タスクでベースラインを上回ります。

Estimating the uncertainty in deep neural network predictions is crucial for many real-world applications. A common approach to model uncertainty is to choose a parametric distribution and fit the data to it using maximum likelihood estimation. The chosen parametric form can be a poor fit to the data-generating distribution, resulting in unreliable uncertainty estimates. In this work, we propose SampleNet, a flexible and scalable architecture for modeling uncertainty that avoids specifying a parametric form on the output distribution. SampleNets do so by defining an empirical distribution using samples that are learned with the Energy Score and regularized with the Sinkhorn Divergence. SampleNets are shown to be able to well-fit a wide range of distributions and to outperform baselines on large-scale real-world regression tasks.
翻訳日:2022-11-28 15:25:16 公開日:2022-11-24
# データ歪みによる閉塞性測定の落とし穴について

On Pitfalls of Measuring Occlusion Robustness through Data Distortion ( http://arxiv.org/abs/2211.13734v1 )

ライセンス: Link先を確認
Antonia Marcu(参考訳) 過去数年間、データの重要な役割は、その分野がアーキテクチャとトレーニング手順に焦点を合わせていることにほとんど影を落としてきた。 私たちはしばしば、より広い意味を知らずに、データの変更を引き起こします。 本稿では,導入したアーティファクトを考慮せずに画像の歪みが咬合のロバスト性を確立する際に偏りを生じさせることを示す。 モデルが現実のシナリオで期待通りに振る舞うようにするためには、評価に付加された成果物が与える影響を除外する必要があります。 我々は,オクローダが未知のアプリケーションに対して,より公平な代替手段として,新しいアプローチiOcclusionを提案する。

Over the past years, the crucial role of data has largely been shadowed by the field's focus on architectures and training procedures. We often cause changes to the data without being aware of their wider implications. In this paper we show that distorting images without accounting for the artefacts introduced leads to biased results when establishing occlusion robustness. To ensure models behave as expected in real-world scenarios, we need to rule out the impact added artefacts have on evaluation. We propose a new approach, iOcclusion, as a fairer alternative for applications where the possible occluders are unknown.
翻訳日:2022-11-28 15:25:01 公開日:2022-11-24
# 畳み込み層の特異値の実際制御に向けて

Towards Practical Control of Singular Values of Convolutional Layers ( http://arxiv.org/abs/2211.13771v1 )

ライセンス: Link先を確認
Alexandra Senderovich, Ekaterina Bulatova, Anton Obukhov, Maxim Rakhuba(参考訳) 一般に、畳み込みニューラルネットワーク(CNN)の訓練は容易であるが、一般化誤差や対向ロバスト性といった基本的な性質は制御が難しい。 近年の研究では、畳み込み層の特異値がそのような不可解な性質に大きく影響し、それらを制御するいくつかの方法を提供した。 にもかかわらず、これらの手法は難解な計算上の課題または粗い近似に依存する。 本稿では,レイヤ表現性の低下を犠牲にして,先行技術の制約を緩和するための原則的アプローチを提案する。 提案手法はテンソル-トレイン分解に基づいており、構造的に疎結合でハードウェアフレンドリーな表現を提供しながら、畳み込み写像の実際の特異値を制御する。 本研究では,現代のcnnの特性を改良し,そのモデル性能,キャリブレーション,対向ロバスト性に与える影響を分析した。 ソースコードは、https://github.com/WhiteTeaDragon/practical_svd_convで入手できる。

In general, convolutional neural networks (CNNs) are easy to train, but their essential properties, such as generalization error and adversarial robustness, are hard to control. Recent research demonstrated that singular values of convolutional layers significantly affect such elusive properties and offered several methods for controlling them. Nevertheless, these methods present an intractable computational challenge or resort to coarse approximations. In this paper, we offer a principled approach to alleviating constraints of the prior art at the expense of an insignificant reduction in layer expressivity. Our method is based on the tensor-train decomposition; it retains control over the actual singular values of convolutional mappings while providing structurally sparse and hardware-friendly representation. We demonstrate the improved properties of modern CNNs with our method and analyze its impact on the model performance, calibration, and adversarial robustness. The source code is available at: https://github.com/WhiteTeaDragon/practical_svd_conv
翻訳日:2022-11-28 15:24:52 公開日:2022-11-24
# 見逃すものを見る - セマンティック補完学習による視覚言語事前学習

Seeing What You Miss: Vision-Language Pre-training with Semantic Completion Learning ( http://arxiv.org/abs/2211.13437v1 )

ライセンス: Link先を確認
Yatai Ji, Rongcheng Tu, Jie Jiang, Weijie Kong, Chengfei Cai, Wenzhe Zhao, Hongfa Wang, Yujiu Yang, Wei Liu(参考訳) クロスモーダルアライメントは視覚言語前訓練(vlp)モデルにおいて、異なるモダリティ間の正しい対応情報を学ぶために不可欠である。 この目的のために、NLP事前学習領域におけるマスメッド言語モデリング(MLM)タスクの成功に触発されて、VLPはクロスモーダル相互作用をさらに促進するために多くのマスメッドモデリングタスクが提案されている。 以前のマスクモデリングタスクの核となるアイデアは、ローカルからローカルへのアライメントを学ぶために、目に見えるコンテキストに基づいてマスクトークンを再構築することである。 しかし、そのほとんどはマスクされたデータのために生成されたグローバルセマンティック機能にほとんど注意を払わず、結果としてグローバル表現のクロスモーダルアライメント能力が制限された。 そこで本稿では,既存のマスク型モデリングタスクを補完する新しい意味完成学習(scl)タスクを提案する。 具体的には、sclタスクは、他のモダリティから対応する情報をキャプチャすることで、マスクデータの欠落したセマンティクスを補完し、下流タスクのパフォーマンスに大きな影響を与える、より代表的なグローバル特徴の学習を促進する。 さらに,画像テキストとビデオテキストのマルチモーダルタスクを同時に実行可能にするフレキシブルなビジョンエンコーダを提案する。 実験の結果,視覚的質問応答,画像テキスト検索,ビデオテキスト検索など,様々な視覚言語ベンチマーク上での最先端性能が得られた。

Cross-modal alignment is essential for vision-language pre-training (VLP) models to learn the correct corresponding information across different modalities. For this purpose, inspired by the success of masked language modeling (MLM) tasks in the NLP pre-training area, numerous masked modeling tasks have been proposed for VLP to further promote cross-modal interactions. The core idea of previous masked modeling tasks is to focus on reconstructing the masked tokens based on visible context for learning local-to-local alignment. However, most of them pay little attention to the global semantic features generated for the masked data, resulting in the limited cross-modal alignment ability of global representations. Therefore, in this paper, we propose a novel Semantic Completion Learning (SCL) task, complementary to existing masked modeling tasks, to facilitate global-to-local alignment. Specifically, the SCL task complements the missing semantics of masked data by capturing the corresponding information from the other modality, promoting learning more representative global features which have a great impact on the performance of downstream tasks. Moreover, we present a flexible vision encoder, which enables our model to perform image-text and video-text multimodal tasks simultaneously. Experimental results show that our proposed method obtains state-of-the-art performance on various vision-language benchmarks, such as visual question answering, image-text retrieval, and video-text retrieval.
翻訳日:2022-11-28 15:16:12 公開日:2022-11-24
# ワンショット汎用オブジェクトローカライゼーション

One-Shot General Object Localization ( http://arxiv.org/abs/2211.13392v1 )

ライセンス: Link先を確認
Yang You, Zhuochen Miao, Kai Xiong, Weiming Wang, Cewu Lu(参考訳) 本論文では,OneLocと呼ばれる汎用的なワンショットオブジェクトローカライズアルゴリズムを提案する。 現在のワンショットオブジェクトのローカライゼーションや検出方法は、遅い徹底的な特徴マッチングプロセスに依存するか、新しいオブジェクトに一般化する能力に欠ける。 対照的に,提案するOneLocアルゴリズムは,特別投票方式により,オブジェクト中心と境界ボックスのサイズを効率的に求める。 本手法をスケール不変に保つために,単位中心オフセット方向と相対サイズのみを推定する。 小さなテクスチャのないオブジェクトをよりよく見つけるために、新しい高密度等化投票モジュールが提案されている。 実験の結果,提案手法は,OnePose データセットとLINEMOD データセットの2つのデータセットに対して,最先端の総合的な性能を実現することがわかった。 さらに,本手法は単発マルチインスタンス検出と非剛体物体の局所化を実現する。 コードリポジトリ: https://github.com/qq456cvb/oneloc。

This paper presents a general one-shot object localization algorithm called OneLoc. Current one-shot object localization or detection methods either rely on a slow exhaustive feature matching process or lack the ability to generalize to novel objects. In contrast, our proposed OneLoc algorithm efficiently finds the object center and bounding box size by a special voting scheme. To keep our method scale-invariant, only unit center offset directions and relative sizes are estimated. A novel dense equalized voting module is proposed to better locate small texture-less objects. Experiments show that the proposed method achieves state-of-the-art overall performance on two datasets: OnePose dataset and LINEMOD dataset. In addition, our method can also achieve one-shot multi-instance detection and non-rigid object localization. Code repository: https://github.com/qq456cvb/OneLoc.
翻訳日:2022-11-28 15:14:40 公開日:2022-11-24
# Go Beyond Point Pairs: オンライン合成訓練を効率的に行う汎用的かつ高精度なSim2Real Object Pose Voting法

Go Beyond Point Pairs: A General and Accurate Sim2Real Object Pose Voting Method with Efficient Online Synthetic Training ( http://arxiv.org/abs/2211.13398v1 )

ライセンス: Link先を確認
Yang You, Wenhao He, Michael Xu Liu, Weiming Wang, Cewu Lu(参考訳) 物体の位置推定は3dビジョンの重要なトピックである。 実世界のポーズアノテーションをトレーニングする最新の手法のほとんどは良い結果を得るが、実世界のトレーニングデータのコストは高すぎる。 本稿では,インスタンスレベルの設定とカテゴリレベルの設定の両方に有効であるsim-to-realのポーズ推定手法を提案する。 提案手法は, CPPF の点対投票方式を用いて, 対象中心, 向き, スケールの投票を行う。 素点対とは異なり、各投票単位が提供する文脈を豊かにするために、N点タプルを導入し、2点以上の特徴を融合する。 さらに、'悪い'投票を破棄するために、新しい投票選択モジュールが利用されます。 実験により,提案手法はインスタンスレベルのシナリオとカテゴリレベルのシナリオの両方で性能が大幅に向上することを示した。 従来のSIM-to-real 手法では,複雑な背景合成やフォトリアリスティックレンダリングのため,オフラインでデータを生成する必要があるが,本手法はより効率的に合成トレーニングデータを生成することによって,sim-to-real と Real-training のギャップを狭める。 コードリポジトリ:https://github.com/qq456cvb/BeyondPPF。

Object pose estimation is an important topic in 3D vision. Though most current state-of-the-art method that trains on real-world pose annotations achieve good results, the cost of such real-world training data is too high. In this paper, we propose a novel method for sim-to-real pose estimation, which is effective on both instance-level and category-level settings. The proposed method is based on the point-pair voting scheme from CPPF to vote for object centers, orientations, and scales. Unlike naive point pairs, to enrich the context provided by each voting unit, we introduce N-point tuples to fuse features from more than two points. Besides, a novel vote selection module is leveraged in order to discard those `bad' votes. Experiments show that our proposed method greatly advances the performance on both instance-level and category-level scenarios. Our method further narrows the gap between sim-to-real and real-training methods by generating synthetic training data online efficiently, while all previous sim-to-real methods need to generate data offline, because of their complex background synthesizing or photo-realistic rendering. Code repository: https://github.com/qq456cvb/BeyondPPF.
翻訳日:2022-11-28 15:14:29 公開日:2022-11-24
# 不変規則マイニングによる解釈可能な異常検出に向けて

Towards Interpretable Anomaly Detection via Invariant Rule Mining ( http://arxiv.org/abs/2211.13577v1 )

ライセンス: Link先を確認
Cheng Feng and Pingge Hu(参考訳) 異常検出研究領域では,新規かつ有望な手法が頻繁に開発されている。 しかしながら、既存の研究、特にディープニューラルネットワークを活用した研究は、検出タスクのみに集中し、基礎となるモデルの解釈可能性と検出結果を無視している。 しかしながら、特定のデータインスタンスが異常として識別される理由を説明することを目的とした異常解釈は、多くの現実世界アプリケーションにおいて、同じように(それ以上ではないにしても)重要なタスクである。 本研究では,不変規則マイニングによる高度に解釈可能な異常検出を追求する。 具体的には、決定木学習と関連ルールマイニングを活用し、基礎となるデータ生成プロセスで一貫して満たされる不変ルールを自動的に生成する。 生成された不変規則は異常検出結果の明示的な説明を提供することができ、それゆえその後の意思決定に非常に有用である。 さらに,提案手法は,AUCおよび部分AUCにおいて,様々なベンチマークデータセットで一般的な異常検出モデルと同等の性能を達成できることを示す。

In the research area of anomaly detection, novel and promising methods are frequently developed. However, most existing studies, especially those leveraging deep neural networks, exclusively focus on the detection task only and ignore the interpretability of the underlying models as well as their detection results. However, anomaly interpretation, which aims to provide explanation of why specific data instances are identified as anomalies, is an equally (if not more) important task in many real-world applications. In this work, we pursue highly interpretable anomaly detection via invariant rule mining. Specifically, we leverage decision tree learning and association rule mining to automatically generate invariant rules that are consistently satisfied by the underlying data generation process. The generated invariant rules can provide explicit explanation of anomaly detection results and thus are extremely useful for subsequent decision-making. Furthermore, our empirical evaluation shows that the proposed method can also achieve comparable performance in terms of AUC and partial AUC with popular anomaly detection models in various benchmark datasets.
翻訳日:2022-11-28 15:07:22 公開日:2022-11-24
# タスクベースフラット領域探索によるマルチタスク学習の改善

Improving Multi-task Learning via Seeking Task-based Flat Regions ( http://arxiv.org/abs/2211.13723v1 )

ライセンス: Link先を確認
Hoang Phan, Lam Tran, Ngoc N. Tran, Nhat Ho, Dinh Phung, Trung Le(参考訳) マルチタスク学習(multi-task learning, mtl)は、ディープニューラルネットワークをトレーニングするための、広く使用されている強力な学習パラダイムである。 トレーニングタスクを別々に比較すると、MTLは計算コストを大幅に削減し、データ効率を向上し、タスク間の知識を活用することでモデル性能を向上させる可能性がある。 そのため、コンピュータビジョンから自然言語処理、音声認識まで、様々な用途で採用されている。 その中には、タスク勾配を操作することに焦点を当て、すべてのタスクに利益をもたらす究極の勾配降下方向を導出する、mtlの新たな作業ラインがある。 多くのベンチマークで印象的な結果を得たにもかかわらず、適切な正規化手法を使わずにこれらのアプローチを直接適用すれば、現実世界の問題に対する準最適解が得られるかもしれない。 特に、トレーニングデータの経験的損失を最小限に抑える標準トレーニングは、低リソースタスクへの過度な適合や、ノイズの多いラベル付きタスクによって損なわれることが少なく、タスク間の負の転送と全体的なパフォーマンス低下を引き起こす可能性がある。 このような問題を緩和するために,シャープネス認識最小化(Sharpness-aware Minimization)という,単一タスク学習におけるモデル一般化能力を向上する手法を提案する。 そこで本研究では,すべてのタスクの一般化能力を向上させるためのタスクベースフラットミニマの探索をモデルに促す新しいmtlトレーニング手法を提案する。 最後に,既存の勾配に基づくmtl法に対する提案手法のメリットを実証するために,様々な応用に関する包括的な実験を行った。

Multi-Task Learning (MTL) is a widely-used and powerful learning paradigm for training deep neural networks that allows learning more than one objective by a single backbone. Compared to training tasks separately, MTL significantly reduces computational costs, improves data efficiency, and potentially enhances model performance by leveraging knowledge across tasks. Hence, it has been adopted in a variety of applications, ranging from computer vision to natural language processing and speech recognition. Among them, there is an emerging line of work in MTL that focuses on manipulating the task gradient to derive an ultimate gradient descent direction to benefit all tasks. Despite achieving impressive results on many benchmarks, directly applying these approaches without using appropriate regularization techniques might lead to suboptimal solutions on real-world problems. In particular, standard training that minimizes the empirical loss on the training data can easily suffer from overfitting to low-resource tasks or be spoiled by noisy-labeled ones, which can cause negative transfer between tasks and overall performance drop. To alleviate such problems, we propose to leverage a recently introduced training method, named Sharpness-aware Minimization, which can enhance model generalization ability on single-task learning. Accordingly, we present a novel MTL training methodology, encouraging the model to find task-based flat minima for coherently improving its generalization capability on all tasks. Finally, we conduct comprehensive experiments on a variety of applications to demonstrate the merit of our proposed approach to existing gradient-based MTL methods, as suggested by our developed theory.
翻訳日:2022-11-28 15:07:08 公開日:2022-11-24
# 関数型データのオンライン正規化学習アルゴリズム

Online Regularized Learning Algorithm for Functional Data ( http://arxiv.org/abs/2211.13549v1 )

ライセンス: Link先を確認
Yuan Mao and Zheng-Chu Guo(参考訳) 近年,傾斜関数や関数予測器の復元を目的として,関数線形モデルが統計学や機械学習において注目を集めている。 本稿では,カーネルヒルベルト空間を再現する関数線形モデルに対するオンライン正規化学習アルゴリズムについて検討する。 過大予測誤差の収束解析と推定誤差はそれぞれ多項式減衰ステップサイズと定数ステップサイズとを備える。 高速収束速度はキャパシティ依存解析によって導き出すことができる。 明示的な正規化項を導入することにより、ステップサイズが多項式的に減衰する際の非正規化オンライン学習アルゴリズムの飽和境界を引き上げ、キャパシティ仮定なしで推定誤差の高速収束率を確立する。 しかし,非正規化オンライン学習アルゴリズムの分解ステップサイズ推定誤差に対するキャパシティ独立収束率を得ることは未解決問題である。 また, 定常的なステップサイズでの予測誤差と推定誤差の収束速度は, 文献のそれと競合することを示した。

In recent years, functional linear models have attracted growing attention in statistics and machine learning, with the aim of recovering the slope function or its functional predictor. This paper considers online regularized learning algorithm for functional linear models in reproducing kernel Hilbert spaces. Convergence analysis of excess prediction error and estimation error are provided with polynomially decaying step-size and constant step-size, respectively. Fast convergence rates can be derived via a capacity dependent analysis. By introducing an explicit regularization term, we uplift the saturation boundary of unregularized online learning algorithms when the step-size decays polynomially, and establish fast convergence rates of estimation error without capacity assumption. However, it remains an open problem to obtain capacity independent convergence rates for the estimation error of the unregularized online learning algorithm with decaying step-size. It also shows that convergence rates of both prediction error and estimation error with constant step-size are competitive with those in the literature.
翻訳日:2022-11-28 15:06:14 公開日:2022-11-24
# PAC-Bayes圧縮は、一般化を説明できるほど薄い

PAC-Bayes Compression Bounds So Tight That They Can Explain Generalization ( http://arxiv.org/abs/2211.13609v1 )

ライセンス: Link先を確認
Sanae Lotfi, Marc Finzi, Sanyam Kapoor, Andres Potapczynski, Micah Goldblum, Andrew Gordon Wilson(参考訳) ディープニューラルネットワークのための非空の一般化境界の開発は進展しているが、これらの境界はディープラーニングがなぜ機能するかに関して非形式的である傾向にある。 本稿では,線形部分空間におけるニューラルネットワークパラメータの量子化に基づく圧縮手法を開発し,これまでの結果から,転送学習を含む様々なタスクに最先端の一般化境界を提供する。 深層学習の一般化において、モデルサイズ、等価性、最適化の暗黙バイアスの役割をよりよく理解するために、これらの厳密な境界を用いる。 特に、オッカムのカミソリをカプセル化した大きなモデルは、これまでに知られていたよりもはるかに大きな範囲に圧縮できる。 また、一般化を説明する際のデータ非依存境界についても議論する。

While there has been progress in developing non-vacuous generalization bounds for deep neural networks, these bounds tend to be uninformative about why deep learning works. In this paper, we develop a compression approach based on quantizing neural network parameters in a linear subspace, profoundly improving on previous results to provide state-of-the-art generalization bounds on a variety of tasks, including transfer learning. We use these tight bounds to better understand the role of model size, equivariance, and the implicit biases of optimization, for generalization in deep learning. Notably, we find large models can be compressed to a much greater extent than previously known, encapsulating Occam's razor. We also argue for data-independent bounds in explaining generalization.
翻訳日:2022-11-28 15:06:00 公開日:2022-11-24
# 修正コントラスト学習によるオブジェクト検出

Few-shot Object Detection with Refined Contrastive Learning ( http://arxiv.org/abs/2211.13495v1 )

ライセンス: Link先を確認
Zeyu Shangguan, Lian Huai, Tong Liu, Xingqun Jiang(参考訳) 実際のサンプリングデータの不足により、少ないデータで新しい検出概念を迅速に訓練する能力により、少数ショットオブジェクト検出(FSOD)がますます注目を集めている。 しかし,難解なクラスを区別することが難しいため,障害の識別はいまだに残っている。 また,平均精度の標準偏差が不整合検出性能を示すことも確認した。 そこで本稿では,Refined Contrastive Learning (FSRC) を用いた新しいFSOD手法を提案する。 コンフリブルクラスを含む新しいクラスからResemblance Group(GR)を見つけるために、事前決定コンポーネントが導入された。 その後、クラス間の距離を増やすために、このクラス群で洗練されたコントラスト学習(RCL)が指摘される。 一方、検出結果はより均一に分散され、さらに性能が向上する。 PASCAL VOCとCOCOデータセットに基づく実験結果から,提案手法が最先端の研究より優れていることを示す。 FSRCは、より優れたパフォーマンスを得るために、障害のあるクラスの関連性を分離できるだけでなく、検出されるクラスのAPの標準偏差を減らすことで、予測をより一貫性のあるものにすることができる。

Due to the scarcity of sampling data in reality, few-shot object detection (FSOD) has drawn more and more attention because of its ability to quickly train new detection concepts with less data. However, there are still failure identifications due to the difficulty in distinguishing confusable classes. We also notice that the high standard deviation of average precisions reveals the inconsistent detection performance. To this end, we propose a novel FSOD method with Refined Contrastive Learning (FSRC). A pre-determination component is introduced to find out the Resemblance Group (GR) from novel classes which contains confusable classes. Afterwards, refined contrastive learning (RCL) is pointedly performed on this group of classes in order to increase the inter-class distances among them. In the meantime, the detection results distribute more uniformly which further improve the performance. Experimental results based on PASCAL VOC and COCO datasets demonstrate our proposed method outperforms the current state-of-the-art research. FSRC can not only decouple the relevance of confusable classes to get a better performance, but also makes predictions more consistent by reducing the standard deviation of the AP of classes to be detected.
翻訳日:2022-11-28 14:59:23 公開日:2022-11-24
# 医用視覚質問応答のための自己教師型視覚言語事前学習

Self-supervised vision-language pretraining for Medical visual question answering ( http://arxiv.org/abs/2211.13594v1 )

ライセンス: Link先を確認
Pengfei Li, Gang Liu, Lin Tan, Jinying Liao and Shenjun Zhong(参考訳) 医用画像視覚質問応答(VQA)は、放射線画像が与えられた場合、臨床的な疑問に答えるタスクであり、視覚情報と言語情報の両方を統合するモデルを必要とする難しい問題である。 限られたトレーニングデータで医療用VQA問題を解決するために、モデル一般化を改善するためにプレトレイン・ファインチューン・パラダイムが広く用いられている。 本稿では, 医用画像キャプションデータセットの事前トレーニングを行うために, マスケ画像モデリング, マスケ言語モデリング, 画像テキストマッチング, コントラスト学習による画像テキストアライメント(M2I2), 下流医療用VQAタスクにファインタインを適用する自己教師方式を提案する。 提案手法は,3つの医療用VQAデータセットのすべてに対して最先端の性能を実現する。 私たちのコードとモデルはhttps://github.com/pengfeiliheu/m2i2で利用可能です。

Medical image visual question answering (VQA) is a task to answer clinical questions, given a radiographic image, which is a challenging problem that requires a model to integrate both vision and language information. To solve medical VQA problems with a limited number of training data, pretrain-finetune paradigm is widely used to improve the model generalization. In this paper, we propose a self-supervised method that applies Masked image modeling, Masked language modeling, Image text matching and Image text alignment via contrastive learning (M2I2) for pretraining on medical image caption dataset, and finetunes to downstream medical VQA tasks. The proposed method achieves state-of-the-art performance on all the three public medical VQA datasets. Our codes and models are available at https://github.com/pengfeiliHEU/M2I2.
翻訳日:2022-11-28 14:59:04 公開日:2022-11-24
# JigsawPlan: 拡散モデルを用いた動作からの部屋レイアウトJigsawパズル極端構造

JigsawPlan: Room Layout Jigsaw Puzzle Extreme Structure from Motion using Diffusion Models ( http://arxiv.org/abs/2211.13785v1 )

ライセンス: Link先を確認
Sepidehsadat Hosseini, Mohammad Amin Shabani, Saghar Irandoust, Yasutaka Furukawa(参考訳) 本稿では, 最上階の多角形曲線として部屋レイアウトの集合を取り, 2次元の翻訳と回転を推定し, 部屋配置のジグソーパズルの解法に類似した, 部屋配置の多角形曲線を整列する, 極端構造の運動(e-sfm)問題に対する新しいアプローチを提案する。 論文の最大の発見と驚きは、拡散モデルを用いることで、条件生成プロセスとしてこの困難な登録問題を解くことである。 この論文は98,780戸の部屋レイアウトとフロアプランの新しいデータセットを提示した。 質的・定量的評価は,提案手法が競争法をかなり上回っていることを示す。

This paper presents a novel approach to the Extreme Structure from Motion (E-SfM) problem, which takes a set of room layouts as polygonal curves in the top-down view, and aligns the room layout pieces by estimating their 2D translations and rotations, akin to solving the jigsaw puzzle of room layouts. The biggest discovery and surprise of the paper is that the simple use of a Diffusion Model solves this challenging registration problem as a conditional generation process. The paper presents a new dataset of room layouts and floorplans for 98,780 houses. The qualitative and quantitative evaluations demonstrate that the proposed approach outperforms the competing methods by significant margins.
翻訳日:2022-11-28 14:58:46 公開日:2022-11-24
# Ham2Pose: 手話表記をPoseシーケンスにアニメーション

Ham2Pose: Animating Sign Language Notation into Pose Sequences ( http://arxiv.org/abs/2211.13613v1 )

ライセンス: Link先を確認
Rotem Shalev-Arkushin, Amit Moryossef, Ohad Fried(参考訳) 音声言語を手話に翻訳することは、聴覚障害者コミュニティと聴覚障害者コミュニティとの間のオープンコミュニケーションに必要である。 この目的を達成するために,Lexical Sign言語表記法であるHamNoSysで書かれたテキストを署名されたポーズ列にアニメーションする手法を提案する。 HamNoSysは普遍的であるため、提案手法はターゲット手話に不変な汎用解を提供する。 本手法は,空間的および時間的情報を考慮しながら,テキストとポーズの有意義な表現を生成するトランスコーダを用いて,徐々にポーズ予測を生成する。 我々は,訓練過程に弱い監督を施し,部分的および不正確なデータから学習することに成功していることを示す。 さらに,正規化キーポイントトラジェクタ上のdtwに基づく,ポーズシーケンスのための新たな距離測定,ndtw( normalized dynamic time warping)を提供し,大規模手話データセットであるautslを用いてその正確性を検証する。 既存の測定値よりも精度良くポーズシーケンス間の距離を計測し,その結果から得られたポーズシーケンスの品質を評価する。 データ前処理、モデル、距離測定のためのコードは、将来の研究のために公開されている。

Translating spoken languages into Sign languages is necessary for open communication between the hearing and hearing-impaired communities. To achieve this goal, we propose the first method for animating a text written in HamNoSys, a lexical Sign language notation, into signed pose sequences. As HamNoSys is universal, our proposed method offers a generic solution invariant to the target Sign language. Our method gradually generates pose predictions using transformer encoders that create meaningful representations of the text and poses while considering their spatial and temporal information. We use weak supervision for the training process and show that our method succeeds in learning from partial and inaccurate data. Additionally, we offer a new distance measurement for pose sequences, normalized Dynamic Time Warping (nDTW), based on DTW over normalized keypoints trajectories, and validate its correctness using AUTSL, a large-scale Sign language dataset. We show that it measures the distance between pose sequences more accurately than existing measurements and use it to assess the quality of our generated pose sequences. Code for the data pre-processing, the model, and the distance measurement is publicly released for future research.
翻訳日:2022-11-28 14:50:00 公開日:2022-11-24
# プロトタイプファインチューニング - 可変データサイズ下でのロバストなパフォーマンスを目指して

Prototypical Fine-tuning: Towards Robust Performance Under Varying Data Sizes ( http://arxiv.org/abs/2211.13638v1 )

ライセンス: Link先を確認
Yiqiao Jin, Xiting Wang, Yaru Hao, Yizhou Sun, Xing Xie(参考訳) 本稿では,大規模パラメトリックモデルと非パラメトリック型ネットワークを組み合わせることを目指す。 本稿では,データサイズ,特に低リソース設定の予測性能を改善するために,バイアスを自動的に学習するプリトレーニング言語モデル(lm)のための新しいプロトタイピングフレームワークであるprototypical fine-tuningを提案する。 提案手法は,データポイント数やモデル固有の属性に応じて,モデルキャパシティを自動的に調整することができる。 さらに, 最適解に対する効率的なプロトタイプ微調整のための4つの原理を提案する。 各種データセットに対する実験結果から,低リソース環境下での作業の大幅なパフォーマンス向上と,高リソース環境での性能向上が期待できる。

In this paper, we move towards combining large parametric models with non-parametric prototypical networks. We propose prototypical fine-tuning, a novel prototypical framework for fine-tuning pretrained language models (LM), which automatically learns a bias to improve predictive performance for varying data sizes, especially low-resource settings. Our prototypical fine-tuning approach can automatically adjust the model capacity according to the number of data points and the model's inherent attributes. Moreover, we propose four principles for effective prototype fine-tuning towards the optimal solution. Experimental results across various datasets show that our work achieves significant performance improvements under various low-resource settings, as well as comparable and usually better performances in high-resource scenarios.
翻訳日:2022-11-28 14:48:58 公開日:2022-11-24
# グラフ最適化を用いたUVベース3次元ハンドオブジェクト再構成

UV-Based 3D Hand-Object Reconstruction with Grasp Optimization ( http://arxiv.org/abs/2211.13429v1 )

ライセンス: Link先を確認
Ziwei Yu, Linlin Yang, You Xie, Ping Chen, Angela Yao(参考訳) 1枚のRGB画像から手形復元と手形グリップ最適化のための新しいフレームワークを提案する。 手指接触領域の表現は、正確な再建には不可欠である。 接触領域を疎点で近似する代わりに、従来の研究と同様に、UV座標写像の形で密度の高い表現を提案する。 さらに,手と物体の相互作用を微調整し改善するための推論時間最適化を提案する。 パイプラインは手形復元精度を高め, 振動する手触りのテクスチャを生成する。 ho3d, freihand, dexycbなどのデータセットにおける実験により,提案手法が最先端技術よりも優れていることが明らかになった。

We propose a novel framework for 3D hand shape reconstruction and hand-object grasp optimization from a single RGB image. The representation of hand-object contact regions is critical for accurate reconstructions. Instead of approximating the contact regions with sparse points, as in previous works, we propose a dense representation in the form of a UV coordinate map. Furthermore, we introduce inference-time optimization to fine-tune the grasp and improve interactions between the hand and the object. Our pipeline increases hand shape reconstruction accuracy and produces a vibrant hand texture. Experiments on datasets such as Ho3D, FreiHAND, and DexYCB reveal that our proposed method outperforms the state-of-the-art.
翻訳日:2022-11-28 14:48:25 公開日:2022-11-24
# 雑音ラベル付きロングテールインスタンスセグメンテーションのベンチマーク(短版)

A Benchmark of Long-tailed Instance Segmentation with Noisy Labels (Short Version) ( http://arxiv.org/abs/2211.13435v1 )

ライセンス: Link先を確認
Guanlin Li, Guowen Xu, Tianwei Zhang(参考訳) 本稿では、ラベルノイズを含む長い尾を持つデータセットのインスタンスセグメント化タスクについて考察する。 この事件を現実的にする主な理由は2つある。 まず、現実世界から収集されたデータセットは通常、長い尾の分布に従う。 第二に、セグメンテーションデータセットは、1つのイメージに多くのインスタンスがあり、そのいくつかは小さいので、アノテーションにノイズを導入するのが簡単である。 具体的には,ラベルノイズを含む大語彙長尾データセットである新しいデータセットを提案する。 さらに,このデータセット上で提案するインスタンス分割アルゴリズムを評価する。 その結果、トレーニングデータセットのノイズは、希少なカテゴリの学習においてモデルを阻害し、全体的なパフォーマンスを低下させ、この実用的な課題に対処するためのより効果的なアプローチを探求するきっかけとなる。 コードとデータセットはhttps://github.com/GuanlinLee/Noisy-LVISで公開されている。

In this paper, we consider the instance segmentation task on a long-tailed dataset, which contains label noise, i.e., some of the annotations are incorrect. There are two main reasons making this case realistic. First, datasets collected from real world usually obey a long-tailed distribution. Second, for instance segmentation datasets, as there are many instances in one image and some of them are tiny, it is easier to introduce noise into the annotations. Specifically, we propose a new dataset, which is a large vocabulary long-tailed dataset containing label noise for instance segmentation. Furthermore, we evaluate previous proposed instance segmentation algorithms on this dataset. The results indicate that the noise in the training dataset will hamper the model in learning rare categories and decrease the overall performance, and inspire us to explore more effective approaches to address this practical challenge. The code and dataset are available in https://github.com/GuanlinLee/Noisy-LVIS.
翻訳日:2022-11-28 14:48:15 公開日:2022-11-24
# 胸部X線自動生成における画像符号化の重要性について

On the Importance of Image Encoding in Automated Chest X-Ray Report Generation ( http://arxiv.org/abs/2211.13465v1 )

ライセンス: Link先を確認
Otabek Nazarov, Mohammad Yaqub, Karthik Nandakumar(参考訳) 胸部x線はそのアクセシビリティと有効性のために最も人気のある医用画像の1つである。 しかし、これらの画像の解釈と患者の状態の診断ができる訓練を受けた放射線科医が慢性的に不足している。 したがって, 自動放射線診断レポート生成は臨床実践において非常に有用なツールである。 典型的なレポート生成ワークフローは、2つの主要なステップで構成される。 (i)その画像を潜在空間に符号化すること、及び (ii)潜入画像埋め込みに基づいてレポートのテキストを生成する。 既存のレポート生成技術の多くは、画像エンコーディングに標準畳み込みニューラルネットワーク(cnn)アーキテクチャ、医療テキスト生成にトランスフォーマーベースのデコーダを使用している。 ほとんどの場合、CNNとデコーダはエンドツーエンドで共同で訓練される。 本研究は主にエンコーダとデコーダコンポーネントの相対的重要性の理解に重点を置いている。 そこで本研究では,3つの異なるデコーダを併用して,直接,細粒度,クリップベース,クラスタクリップベースの4種類の符号化手法を解析した。 これらのエンコーダのうち、クラスタクリップビジュアルエンコーダは、より識別可能で説明可能な表現を生成することを目的とした新しいアプローチである。 CLIPベースのエンコーダは、NLPメトリクスの点で従来のCNNベースのエンコーダに匹敵する結果を生成する一方、詳細なエンコーダは、NLPと臨床精度の両方で他のエンコーダよりも優れており、セマンティック情報を効果的に抽出するための画像エンコーダの重要性を検証する。 githubリポジトリ: https://github.com/mudabek/encoding-cxr-report-gen

Chest X-ray is one of the most popular medical imaging modalities due to its accessibility and effectiveness. However, there is a chronic shortage of well-trained radiologists who can interpret these images and diagnose the patient's condition. Therefore, automated radiology report generation can be a very helpful tool in clinical practice. A typical report generation workflow consists of two main steps: (i) encoding the image into a latent space and (ii) generating the text of the report based on the latent image embedding. Many existing report generation techniques use a standard convolutional neural network (CNN) architecture for image encoding followed by a Transformer-based decoder for medical text generation. In most cases, CNN and the decoder are trained jointly in an end-to-end fashion. In this work, we primarily focus on understanding the relative importance of encoder and decoder components. Towards this end, we analyze four different image encoding approaches: direct, fine-grained, CLIP-based, and Cluster-CLIP-based encodings in conjunction with three different decoders on the large-scale MIMIC-CXR dataset. Among these encoders, the cluster CLIP visual encoder is a novel approach that aims to generate more discriminative and explainable representations. CLIP-based encoders produce comparable results to traditional CNN-based encoders in terms of NLP metrics, while fine-grained encoding outperforms all other encoders both in terms of NLP and clinical accuracy metrics, thereby validating the importance of image encoder to effectively extract semantic information. GitHub repository: https://github.com/mudabek/encoding-cxr-report-gen
翻訳日:2022-11-28 14:47:59 公開日:2022-11-24
# ハード探索問題における品質多様性ニューロ進化アルゴリズムの性能評価

Assessing Quality-Diversity Neuro-Evolution Algorithms Performance in Hard Exploration Problems ( http://arxiv.org/abs/2211.13742v1 )

ライセンス: Link先を確認
Felix Chalumeau, Thomas Pierrot, Valentin Mac\'e, Arthur Flajolet, Karim Beguir, Antoine Cully and Nicolas Perrin-Gilbert(参考訳) 自然界の興味深い側面は、ニッチでハイパフォーマンスな生物の集まりを生み出す能力にある。 品質多様性(qd)法は、この観察に触発された進化的アルゴリズムであり、翼の設計からロボット適応まで、多くの応用で素晴らしい結果を得た。 近年, 大規模な探索空間における制御問題を解くために, 神経進化にこれらの手法を適用できることが実証されている。 このような問題では、多様性自体がターゲットとなる可能性がある。 多様性は、偽りの報酬信号を示すタスクの探索を強化する方法でもある。 第1の側面はQDコミュニティで深く研究されているが、第2の側面は文献に乏しい。 強化学習(Reinforcement Learning)やQDメソッド(QD)といった制御問題の解決を目指すいくつかのドメインの中核である探索は、関連する課題を克服する有望な候補である。 したがって,調査難易度の高い高次元の制御問題を示す標準ベンチマークが,qdコミュニティの関心を引いていると考えられる。 本稿では,3つの候補ベンチマークに注目し,qdアルゴリズムの系統的評価になぜ関連があるかを説明する。 jax のオープンソース実装も提供していますので,少数の計算リソースで高速かつ多数の実験を実行できます。

A fascinating aspect of nature lies in its ability to produce a collection of organisms that are all high-performing in their niche. Quality-Diversity (QD) methods are evolutionary algorithms inspired by this observation, that obtained great results in many applications, from wing design to robot adaptation. Recently, several works demonstrated that these methods could be applied to perform neuro-evolution to solve control problems in large search spaces. In such problems, diversity can be a target in itself. Diversity can also be a way to enhance exploration in tasks exhibiting deceptive reward signals. While the first aspect has been studied in depth in the QD community, the latter remains scarcer in the literature. Exploration is at the heart of several domains trying to solve control problems such as Reinforcement Learning and QD methods are promising candidates to overcome the challenges associated. Therefore, we believe that standardized benchmarks exhibiting control problems in high dimension with exploration difficulties are of interest to the QD community. In this paper, we highlight three candidate benchmarks and explain why they appear relevant for systematic evaluation of QD algorithms. We also provide open-source implementations in Jax allowing practitioners to run fast and numerous experiments on few compute resources.
翻訳日:2022-11-28 14:42:00 公開日:2022-11-24
# Pot 2.0 の融解

Melting Pot 2.0 ( http://arxiv.org/abs/2211.13746v1 )

ライセンス: Link先を確認
John P. Agapiou, Alexander Sasha Vezhnevets, Edgar A. Du\'e\~nez-Guzm\'an, Jayd Matyas, Yiran Mao, Peter Sunehag, Raphael K\"oster, Udari Madhushani, Kavya Kopparapu, Ramona Comanescu, DJ Strouse, Michael B. Johanson, Sukhdeep Singh, Julia Haas, Igor Mordatch, Dean Mobbs, Joel Z. Leibo(参考訳) マルチエージェント人工知能研究は、エージェント間の相互作用を考慮しない「ソリピシズム」アプローチによって生み出されるものよりも、人間らしく、より人間と互換性のあるインテリジェントな技術を開発することを約束する。 Melting Potは、マルチエージェント人工知能の開発を促進するために開発された研究ツールであり、一連の標準的なテストシナリオにおいて、新しいソーシャルパートナーへの一般化を測定する評価プロトコルを提供する。 それぞれのシナリオは物理的環境("サブストラテト")と共同プレイヤーのリファレンスセット("バックグラウンド人口")を組み合わせることで、関係する個人間の実質的な相互依存を持った社会的状況を作り出す。 例えば、いくつかのシナリオは、自然資源管理と公益のジレンマに関する制度的経済的な説明にインスパイアされた。 進化生物学、ゲーム理論、人工生命から着想を得た者もいた。 Melting Potは、最も多様な相互依存とインセンティブをカバーすることを目指している。 完全競争的(ゼロサム)モチベーションと完全協力的(共有的)モチベーションの、一般的に研究されている極端なケースを含んでいるが、それらでは止まらない。 現実のように、鍋を溶かすシナリオのほとんどが混合インセンティブを持っている。 純粋に競争的でも純粋に協力的でもないので、成功したエージェントは結果の曖昧さをナビゲートできる。 ここでは、Melt Pot 2.0について説明する。 また、非対称な役割を持つシナリオのサポートを導入し、それらを評価プロトコルに統合する方法を説明します。 1)全ての基質とシナリオの詳細、(2)全てのベースラインアルゴリズムと結果の完全な記述を含む。 私たちの意図は、Melt Pot 2.0を使った研究者の参考になることです。

Multi-agent artificial intelligence research promises a path to develop intelligent technologies that are more human-like and more human-compatible than those produced by "solipsistic" approaches, which do not consider interactions between agents. Melting Pot is a research tool developed to facilitate work on multi-agent artificial intelligence, and provides an evaluation protocol that measures generalization to novel social partners in a set of canonical test scenarios. Each scenario pairs a physical environment (a "substrate") with a reference set of co-players (a "background population"), to create a social situation with substantial interdependence between the individuals involved. For instance, some scenarios were inspired by institutional-economics-based accounts of natural resource management and public-good-provision dilemmas. Others were inspired by considerations from evolutionary biology, game theory, and artificial life. Melting Pot aims to cover a maximally diverse set of interdependencies and incentives. It includes the commonly-studied extreme cases of perfectly-competitive (zero-sum) motivations and perfectly-cooperative (shared-reward) motivations, but does not stop with them. As in real-life, a clear majority of scenarios in Melting Pot have mixed incentives. They are neither purely competitive nor purely cooperative and thus demand successful agents be able to navigate the resulting ambiguity. Here we describe Melting Pot 2.0, which revises and expands on Melting Pot. We also introduce support for scenarios with asymmetric roles, and explain how to integrate them into the evaluation protocol. This report also contains: (1) details of all substrates and scenarios; (2) a complete description of all baseline algorithms and results. Our intention is for it to serve as a reference for researchers using Melting Pot 2.0.
翻訳日:2022-11-28 14:41:08 公開日:2022-11-24
# TSGP:unsupervised Commonsense Question Answeringのための2段階生成プロンプト

TSGP: Two-Stage Generative Prompting for Unsupervised Commonsense Question Answering ( http://arxiv.org/abs/2211.13515v1 )

ライセンス: Link先を確認
Yueqing Sun, Yu Zhang, Le Qi, Qi Shi(参考訳) 教師なしコモンセンス質問応答には、ラベル付きタスクデータに頼ることなく効果的なコモンセンス知識をマイニングする必要がある。 従来の手法は通常、従来の知識ベースや事前学習された言語モデル(prlm)から抽出され、一般化能力に乏しい固定タイプの知識を生成する。 本稿では,prlmに格納されている暗黙の知識を活用して,上記の制限に対処し,二段階のプロンプトに基づく非教師なし質問応答フレームワーク(tsgp)を提案する。 具体的には、まず、知識生成プロンプトを使用して、無制限な型と可能な候補解を持つ質問に必要な知識を生成する。 次に, 回答生成プロンプトを利用して, 選択によらず候補回答を生成する。 CommonsenseQA、OpenBookQA、SocialIQAの3つの異なる共通センス推論タスクに関する実験結果と分析により、TSGPは教師なし設定における言語モデルの推論能力を大幅に改善することを示した。 私たちのコードは、https://github.com/Yueqing-Sun/TSGP.comで利用可能です。

Unsupervised commonsense question answering requires mining effective commonsense knowledge without the rely on the labeled task data. Previous methods typically retrieved from traditional knowledge bases or used pre-trained language models (PrLMs) to generate fixed types of knowledge, which have poor generalization ability. In this paper, we aim to address the above limitation by leveraging the implicit knowledge stored in PrLMs and propose a two-stage prompt-based unsupervised commonsense question answering framework (TSGP). Specifically, we first use knowledge generation prompts to generate the knowledge required for questions with unlimited types and possible candidate answers independent of specified choices. Then, we further utilize answer generation prompts to generate possible candidate answers independent of specified choices. Experimental results and analysis on three different commonsense reasoning tasks, CommonsenseQA, OpenBookQA, and SocialIQA, demonstrate that TSGP significantly improves the reasoning ability of language models in unsupervised settings. Our code is available at: https://github.com/Yueqing-Sun/TSGP.
翻訳日:2022-11-28 14:39:49 公開日:2022-11-24
# nlpにおける望ましくないバイアス:測定の危機を回避する

Undesirable biases in NLP: Averting a crisis of measurement ( http://arxiv.org/abs/2211.13709v1 )

ライセンス: Link先を確認
Oskar van der Wal, Dominik Bachmann, Alina Leidinger, Leendert van Maanen, Willem Zuidema, Katrin Schulz(参考訳) 自然言語処理(NLP)技術が急速に発展し、日常生活に広まるにつれ、その利用が人々にどのように害をもたらすかを予測することが重要となる。 しかし,NLPモデルのバイアス評価の方法は維持されていない。 特に、このようなモデルにおける英語の性別バイアスの検出は、研究の注目を集めている一方で、実際の測定値や測定誤差の程度が不明確であることが多いため、多くの指標が深刻な問題に直面している。 本稿では,NLPモデルバイアスの問題を,直接観測できないバイアスのような概念の測定に特化している心理測定のレンズを用いて議論するための学際的アプローチを提案する。 我々は,関連する心理計測概念の導入と,バイアス尺度の評価と改善の方法についての議論を組み合わせる。 また、心理学的語彙と方法論を採用することで、NLPバイアス研究をより効率的かつ透明にすることができると論じる。

As Natural Language Processing (NLP) technology rapidly develops and spreads into daily life, it becomes crucial to anticipate how its use could harm people. However, our ways of assessing the biases of NLP models have not kept up. While especially the detection of English gender bias in such models has enjoyed increasing research attention, many of the measures face serious problems, as it is often unclear what they actually measure and how much they are subject to measurement error. In this paper, we provide an interdisciplinary approach to discussing the issue of NLP model bias by adopting the lens of psychometrics -- a field specialized in the measurement of concepts like bias that are not directly observable. We pair an introduction of relevant psychometric concepts with a discussion of how they could be used to evaluate and improve bias measures. We also argue that adopting psychometric vocabulary and methodology can make NLP bias research more efficient and transparent.
翻訳日:2022-11-28 14:39:30 公開日:2022-11-24
# プロンプトによる自己回帰生成のためのマルチラベル・少数ショットicd符号化

Multi-label Few-shot ICD Coding as Autoregressive Generation with Prompt ( http://arxiv.org/abs/2211.13813v1 )

ライセンス: Link先を確認
Zhichao Yang, Sunjae Kwon, Zonghai Yao, Hong Yu(参考訳) ICD(Automatic International Classification of Diseases)コーディングは、平均3000以上のトークンを持つ医療用メモに複数のICD符号を割り当てることを目的としている。 この課題は、多ラベル代入の高次元空間(155,000以上のICDコード候補)と長期的課題のため、困難である。 本研究では,この多ラベル分類タスクを自己回帰生成タスクに変換することで,長期的課題に対処する。 具体的には, 医師が注記資料に使用するsoap構造を用いて, 無料のテキスト診断と手順を生成するための新しい事前学習目標について紹介する。 第二に、ICD符号の高次元空間を直接予測する代わりに、我々のモデルはテキスト記述の低次元を生成し、ICD符号を推測する。 第3に,マルチラベル分類のための新しいプロンプトテンプレートを設計した。 全符号割り当て(MIMIC-III-full)とショットICD符号割り当て評価(MIMIC-III-few)のベンチマークを用いてPromptモデルによる生成を評価する。 mimic-iii-few 実験により,本モデルがmarco-iii-full sota モデル (marco f1 4.3) を実質的に上回る marco f1 30.2 で動作し,n/nショットセッティング用に特別に設計されたモデル (marco f1 18.7) が得られた。 最後に,新しいアンサンブル学習者,プロンプト付きクロスアテンション・リランカを設計し,従来のSOTAと最高の数発の符号化予測を統合する。 MIMIC-III-full実験により,マイクロF1とマクロF1をそれぞれ10.4から14.6に,58.2から59.1に改善した。

Automatic International Classification of Diseases (ICD) coding aims to assign multiple ICD codes to a medical note with an average of 3,000+ tokens. This task is challenging due to the high-dimensional space of multi-label assignment (155,000+ ICD code candidates) and the long-tail challenge - Many ICD codes are infrequently assigned yet infrequent ICD codes are important clinically. This study addresses the long-tail challenge by transforming this multi-label classification task into an autoregressive generation task. Specifically, we first introduce a novel pretraining objective to generate free text diagnoses and procedure using the SOAP structure, the medical logic physicians use for note documentation. Second, instead of directly predicting the high dimensional space of ICD codes, our model generates the lower dimension of text descriptions, which then infer ICD codes. Third, we designed a novel prompt template for multi-label classification. We evaluate our Generation with Prompt model with the benchmark of all code assignment (MIMIC-III-full) and few shot ICD code assignment evaluation benchmark (MIMIC-III-few). Experiments on MIMIC-III-few show that our model performs with a marco F1 30.2, which substantially outperforms the previous MIMIC-III-full SOTA model (marco F1 4.3) and the model specifically designed for few/zero shot setting (marco F1 18.7). Finally, we design a novel ensemble learner, a cross attention reranker with prompts, to integrate previous SOTA and our best few-shot coding predictions. Experiments on MIMIC-III-full show that our ensemble learner substantially improves both macro and micro F1, from 10.4 to 14.6 and from 58.2 to 59.1, respectively.
翻訳日:2022-11-28 14:39:16 公開日:2022-11-24
# $\nabla$を信頼する: 因果発見のためのグラディエントベースのインターベンションターゲット

Trust Your $\nabla$: Gradient-based Intervention Targeting for Causal Discovery ( http://arxiv.org/abs/2211.13715v1 )

ライセンス: Link先を確認
Mateusz Olko, Micha{\l} Zaj\k{a}c, Aleksandra Nowak, Nino Scherrer, Yashas Annadani, Stefan Bauer, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s(参考訳) データから因果構造を推論することは、科学における基本的な重要性の課題である。 観測データはしばしばシステムの因果構造を一意に識別するには不十分である。 介入(実験)を行うことで識別性が向上するが、そのようなサンプルは通常、入手が困難で高価である。 したがって、因果発見のための実験的設計アプローチは、最も有益な介入目標を推定することで介入回数を最小化することを目的としている。 そこで本研究では,勾配に基づく因果発見フレームワークの勾配推定器を「信頼」し,介入獲得関数のシグナルを提供する,新しい勾配に基づく介入ターゲティング手法gitを提案する。 我々は、シミュレーションおよび実世界のデータセットにおいて広範な実験を行い、GITが低データ体制において、競争ベースラインに匹敵する性能を示す。

Inferring causal structure from data is a challenging task of fundamental importance in science. Observational data are often insufficient to identify a system's causal structure uniquely. While conducting interventions (i.e., experiments) can improve the identifiability, such samples are usually challenging and expensive to obtain. Hence, experimental design approaches for causal discovery aim to minimize the number of interventions by estimating the most informative intervention target. In this work, we propose a novel Gradient-based Intervention Targeting method, abbreviated GIT, that 'trusts' the gradient estimator of a gradient-based causal discovery framework to provide signals for the intervention acquisition function. We provide extensive experiments in simulated and real-world datasets and demonstrate that GIT performs on par with competitive baselines, surpassing them in the low-data regime.
翻訳日:2022-11-28 14:33:37 公開日:2022-11-24
# 視覚言語表現を用いた分布外検出

Delving into Out-of-Distribution Detection with Vision-Language Representations ( http://arxiv.org/abs/2211.13445v1 )

ライセンス: Link先を確認
Yifei Ming, Ziyang Cai, Jiuxiang Gu, Yiyou Sun, Wei Li, and Yixuan Li(参考訳) アウト・オブ・ディストリビューション(OOD)サンプルの認識は、オープンワールドにデプロイされた機械学習システムにとって重要である。 OOD検出法の大部分は、単一のモダリティ(例えば、視覚または言語)によって駆動され、マルチモーダル表現に豊富な情報が残されている。 近年の視覚言語事前学習の成功に触発された本論文は,単一モーダルから多モーダル体制へのOOD検出の展望を強化する。 特に,視覚的特徴とテキスト的概念の整合性に基づく,シンプルで効果的なゼロショットOOD検出法である最大概念マッチング(MCM)を提案する。 我々は、MCMの有効性を理解するために、詳細な分析と理論的洞察に貢献する。 大規模な実験により、MCMは様々な現実世界のタスクにおいて優れた性能を発揮することが示された。 視覚言語機能を備えたMCMは、意味的に類似したクラスが13.1%(AUROC)のハードなOODタスクにおいて、純粋な視覚的特徴を持つ共通のベースラインよりも優れている。 コードはhttps://github.com/deeplearning-wisc/MCMで入手できる。

Recognizing out-of-distribution (OOD) samples is critical for machine learning systems deployed in the open world. The vast majority of OOD detection methods are driven by a single modality (e.g., either vision or language), leaving the rich information in multi-modal representations untapped. Inspired by the recent success of vision-language pre-training, this paper enriches the landscape of OOD detection from a single-modal to a multi-modal regime. Particularly, we propose Maximum Concept Matching (MCM), a simple yet effective zero-shot OOD detection method based on aligning visual features with textual concepts. We contribute in-depth analysis and theoretical insights to understand the effectiveness of MCM. Extensive experiments demonstrate that MCM achieves superior performance on a wide variety of real-world tasks. MCM with vision-language features outperforms a common baseline with pure visual features on a hard OOD task with semantically similar classes by 13.1% (AUROC). Code is available at https://github.com/deeplearning-wisc/MCM.
翻訳日:2022-11-28 14:32:27 公開日:2022-11-24
# ターゲットとコンテキスト認識変換器による効率的なゼロショットビジュアル検索

Efficient Zero-shot Visual Search via Target and Context-aware Transformer ( http://arxiv.org/abs/2211.13470v1 )

ライセンス: Link先を確認
Zhiwei Ding, Xuezhe Ren, Erwan David, Melissa Vo, Gabriel Kreiman, Mengmi Zhang(参考訳) 視覚検索は、人混みの中で友達を見つける、駐車場で車を探すといった日常的なタスクを含む、自然視におけるユビキタスな課題である。 人間は目標指向のビジュアル検索を行うために、関連するターゲット機能に大きく依存している。 一方、コンテクストは、検索エリアを狭くし、検索プロセスをより効率的にするため、複雑なシーンでターゲットオブジェクトを見つける上で非常に重要である。 しかし,視覚探索計算モデルにおける対象情報と文脈情報を組み合わせた研究は少ない。 本稿では,目標および文脈関連情報を用いて視覚トランスフォーマタの自己注意を変調し,人間ライクなゼロショット視覚検索を実現する,ゼロショットディープラーニングアーキテクチャtct(target and context-aware transformer)を提案する。 ターゲット変調はターゲット画像と検索画像のパッチワイドな局所関係として計算されるが、文脈変調はグローバルな方法で適用される。 難易度が異なる3つの自然シーンデータセット上で,tctおよび他の競合ビジュアル検索モデルを用いたビジュアル検索実験を行う。 tctは、検索効率の観点から人間的なパフォーマンスを示し、ビジュアル検索タスクに挑戦するsomaモデルを打ち負かしている。 重要なのは、TCTはトレーニングや微調整なしに、新しいオブジェクトを持つデータセットをうまく一般化する。 さらに,不規則な文脈下での不変なビジュアル検索のためのベンチマークモデルのための新しいデータセットも導入する。 TCTは、連続しないコンテキスト下であっても、ターゲットとコンテキストの変調によって柔軟に検索できる。

Visual search is a ubiquitous challenge in natural vision, including daily tasks such as finding a friend in a crowd or searching for a car in a parking lot. Human rely heavily on relevant target features to perform goal-directed visual search. Meanwhile, context is of critical importance for locating a target object in complex scenes as it helps narrow down the search area and makes the search process more efficient. However, few works have combined both target and context information in visual search computational models. Here we propose a zero-shot deep learning architecture, TCT (Target and Context-aware Transformer), that modulates self attention in the Vision Transformer with target and contextual relevant information to enable human-like zero-shot visual search performance. Target modulation is computed as patch-wise local relevance between the target and search images, whereas contextual modulation is applied in a global fashion. We conduct visual search experiments on TCT and other competitive visual search models on three natural scene datasets with varying levels of difficulty. TCT demonstrates human-like performance in terms of search efficiency and beats the SOTA models in challenging visual search tasks. Importantly, TCT generalizes well across datasets with novel objects without retraining or fine-tuning. Furthermore, we also introduce a new dataset to benchmark models for invariant visual search under incongruent contexts. TCT manages to search flexibly via target and context modulation, even under incongruent contexts.
翻訳日:2022-11-28 14:32:09 公開日:2022-11-24
# 第1回海洋コンピュータビジョンワークショップ(macvi)2023:チャレンジ結果

1st Workshop on Maritime Computer Vision (MaCVi) 2023: Challenge Results ( http://arxiv.org/abs/2211.13508v1 )

ライセンス: Link先を確認
Benjamin Kiefer, Matej Kristan, Janez Per\v{s}, Lojze \v{Z}ust, Fabio Poiesi, Fabio Augusto de Alcantara Andrade, Alexandre Bernardino, Matthew Dawkins, Jenni Raitoharju, Yitong Quan, Adem Atmaca, Timon H\"ofer, Qiming Zhang, Yufei Xu, Jing Zhang, Dacheng Tao, Lars Sommer, Raphael Spraul, Hangyue Zhao, Hongpu Zhang, Yanyun Zhao, Jan Lukas Augustin, Eui-ik Jeon, Impyeong Lee, Luca Zedda, Andrea Loddo, Cecilia Di Ruberto, Sagar Verma, Siddharth Gupta, Shishir Muralidhara, Niharika Hegde, Daitao Xing, Nikolaos Evangeliou, Anthony Tzes, Vojt\v{e}ch Bartl, Jakub \v{S}pa\v{n}hel, Adam Herout, Neelanjan Bhowmik, Toby P. Breckon, Shivanand Kundargi, Tejas Anvekar, Chaitra Desai, Ramesh Ashok Tabib, Uma Mudengudi, Arpita Vats, Yang Song, Delong Liu, Yonglin Li, Shuman Li, Chenhao Tan, Long Lan, Vladimir Somers, Christophe De Vleeschouwer, Alexandre Alahi, Hsiang-Wei Huang, Cheng-Yen Yang, Jenq-Neng Hwang, Pyong-Kun Kim, Kwangju Kim, Kyoungoh Lee, Shuai Jiang, Haiwen Li, Zheng Ziqiang, Tuan-Anh Vu, Hai Nguyen-Truong, Sai-Kit Yeung, Zhuang Jia, Sophia Yang, Chih-Chung Hsu, Xiu-Yu Hou, Yu-An Jhang, Simon Yang, Mau-Tsuen Yang(参考訳) 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023は、無人航空機 (UAV) と無人表面車両 (USV) のための海上コンピュータビジョンに焦点を当て、この分野のいくつかのサブ組織を組織した。 (i)uavによる海上物体検出 (II)UAVによる海上物体追跡 (iii)usvによる海上障害物セグメンテーションと海上障害物セグメンテーション (iv)usvによる海上障害物検出 サブチャンジはSeaDronesSeeとMODSベンチマークに基づいていた。 本報告は,(1)uavに基づく海上障害物検出,(2)uavによる海上物体追跡,(3)usvによる海上障害物分割,(4)usvによる海上障害物検出といった,個々の下位課題の主な知見をまとめたものである。 本報告では,個々のサブクラスの主な知見を要約し,%furthermoreを紹介し,seadronessee object detection v2と呼ばれる新しいベンチマークを紹介する。 統計的および定性的な分析を行い,130以上の応募のベストパフォーマンス手法の傾向を評価する。 メソッドは付録にまとめられている。 % トップパフォーマンスメソッドのほとんどが技術レポートに添付されている。 データセット、評価コード、%競争の最終リーダーボードはhttps://seadronessee.cs.uni-tuebingen.de/macvi.comで公開されている。

The 1$^{\text{st}}$ Workshop on Maritime Computer Vision (MaCVi) 2023 focused on maritime computer vision for Unmanned Aerial Vehicles (UAV) and Unmanned Surface Vehicle (USV), and organized several subchallenges in this domain: (i) UAV-based Maritime Object Detection, (ii) UAV-based Maritime Object Tracking, (iii) USV-based Maritime Obstacle Segmentation and (iv) USV-based Maritime Obstacle Detection. The subchallenges were based on the SeaDronesSee and MODS benchmarks. %This report summarizes the main findings of the individual subchallenges, which are (1) UAV-based Maritime Object Detection, (2) UAV-based Maritime Object Tracking, (3) USV-based Maritime Obstacle Segmentation and (4) USV-based Maritime Obstacle Detection. This report summarizes the main findings of the individual subchallenges and introduces %Furthermore, we introduce a new benchmark, called SeaDronesSee Object Detection v2, which extends the previous benchmark by including more classes and footage. We provide statistical and qualitative analyses, and assess trends in the best-performing methodologies of over 130 submissions. The methods are summarized in the appendix. %The tech report for most of the top performing methods is attached. The datasets, evaluation code and the %competition's final standing leaderboard are publicly available at https://seadronessee.cs.uni-tuebingen.de/macvi.
翻訳日:2022-11-28 14:31:47 公開日:2022-11-24
# ネットワークプルーニングによる軽量オブジェクトトラッカの設計について:cnnかトランスフォーマーか?

On designing light-weight object trackers through network pruning: Use CNNs or transformers? ( http://arxiv.org/abs/2211.13769v1 )

ライセンス: Link先を確認
Saksham Aggarwal, Taneesh Gupta, Pawan Kumar Sahu, Arnav Chavan, Rishabh Tiwari, Dilip K. Prasad, Deepak K. Gupta(参考訳) 低消費電力デバイスにデプロイされるオブジェクトトラッカーは軽量である必要があるが、現在のSOTA(State-of-the-art)メソッドのほとんどは、CNNやトランスフォーマーを使って構築された計算量の多いバックボーンに依存している。 このようなモデルの大型化は低電力環境での展開を許さず、大型追跡モデルの圧縮型の設計は非常に重要である。 本稿では,CNNとトランスフォーマーをベースとしたニューラルアーキテクチャを用いて,高圧縮軽量オブジェクトトラッカーを設計可能であることを示す。 さらに、軽量トラッカーの設計に最も適したアーキテクチャ選択に関する比較研究も提供する。 CNNと変圧器を組み合わせたSOTAトラッカーの比較を行い, 各種圧縮比での安定性について検討した。 最後に、極端なプルーニングシナリオが1%以下のケースでは、オブジェクト追跡におけるネットワークプルーニングの限界を研究することが示される。 この研究は、既存のSOTAメソッドから高効率なトラッカーを設計するための深い洞察を提供する。

Object trackers deployed on low-power devices need to be light-weight, however, most of the current state-of-the-art (SOTA) methods rely on using compute-heavy backbones built using CNNs or transformers. Large sizes of such models do not allow their deployment in low-power conditions and designing compressed variants of large tracking models is of great importance. This paper demonstrates how highly compressed light-weight object trackers can be designed using neural architectural pruning of large CNN and transformer based trackers. Further, a comparative study on architectural choices best suited to design light-weight trackers is provided. A comparison between SOTA trackers using CNNs, transformers as well as the combination of the two is presented to study their stability at various compression ratios. Finally results for extreme pruning scenarios going as low as 1% in some cases are shown to study the limits of network pruning in object tracking. This work provides deeper insights into designing highly efficient trackers from existing SOTA methods.
翻訳日:2022-11-28 14:31:22 公開日:2022-11-24
# オンライン学習プラットフォームにおける質問型質問識別

Question-type Identification for Academic Questions in Online Learning Platform ( http://arxiv.org/abs/2211.13727v1 )

ライセンス: Link先を確認
Azam Rabiee, Alok Goel, Johnson D'Souza, Saurabh Khanwalkar(参考訳) オンライン学習プラットフォームは、専門家、同僚、システムによる学生の学術的質問に対する教材と回答を提供する。 本稿では,オンライン学習プラットフォームにおけるコンテンツ理解のステップとして質問型識別について検討する。 質問型識別子の目的は,質問文,主題,構造的特徴を用いて,その構造と複雑さに基づいて質問タイプを分類することである。 我々は、MCQ(Multiple-Choice Question)やエッセイなどを含む12の質問型クラスを定義した。 我々は,学生の質問の内的データセットを収集し,弱スーパービジョン技術と手動アノテーションの組み合わせを用いた。 次に、このデータセットに基づいてBERTベースのアンサンブルモデルをトレーニングし、このモデルを別個の人間ラベルテストセットで評価した。 実験では,mcqバイナリ分類のf1-score 0.94と12クラスマルチラベル分類の有望な結果を得た。 私たちは、このモデルをオンライン学習プラットフォームに導入し、学生の学習体験を高めるために、コンテンツ理解の重要な実現手段としました。

Online learning platforms provide learning materials and answers to students' academic questions by experts, peers, or systems. This paper explores question-type identification as a step in content understanding for an online learning platform. The aim of the question-type identifier is to categorize question types based on their structure and complexity, using the question text, subject, and structural features. We have defined twelve question-type classes, including Multiple-Choice Question (MCQ), essay, and others. We have compiled an internal dataset of students' questions and used a combination of weak-supervision techniques and manual annotation. We then trained a BERT-based ensemble model on this dataset and evaluated this model on a separate human-labeled test set. Our experiments yielded an F1-score of 0.94 for MCQ binary classification and promising results for 12-class multilabel classification. We deployed the model in our online learning platform as a crucial enabler for content understanding to enhance the student learning experience.
翻訳日:2022-11-28 14:21:53 公開日:2022-11-24
# PyTAIL: オンラインデータのためのループ内の人間とNLPモデルの対話的・漸進的学習

PyTAIL: Interactive and Incremental Learning of NLP Models with Human in the Loop for Online Data ( http://arxiv.org/abs/2211.13786v1 )

ライセンス: Link先を確認
Shubhanshu Mishra, Jana Diesner(参考訳) オンラインデータストリームは、分散シフトと時間とともに出現する新しいパターンのために、機械学習モデルのトレーニングを難しくする。 語彙と規則に基づく特徴集合を利用する自然言語処理(NLP)タスクでは,これらの特徴を変化データに適応させることが重要である。 この課題に対処するため、私たちはpytailというpythonライブラリを導入しました。 PyTAILはジェネリックアクティブラーニングを強化し、ラベルに新しいインスタンスを提案するだけでなく、ルールやレキシコンなどの新機能をラベルに提案する。 さらに、PyTAILは、モデルがトレーニングされているときに、ユーザーがルールやレキシコンを受け入れ、拒否し、更新するのに十分な柔軟性がある。 最後に,テキスト分類のための既存のソーシャルメディアベンチマークデータセットにおけるpytailの性能をシミュレートする。 これらのベンチマークで、さまざまなアクティブな学習戦略を比較します。 このモデルは、トレーニングデータの最大10%でギャップを閉じる。 最後に、テストデータセットと並行して、残りのデータ(アクティブラーニングとマージされていない)に対する評価メトリクスの追跡の重要性についても強調する。 これは、大きなラベルのないコーパスのバッチ処理に特に適する、残りのデータセットを正確にアノテートするモデルの有効性を強調している。 PyTAILはhttps://github.com/socialmediaie/pytail.comから入手できる。

Online data streams make training machine learning models hard because of distribution shift and new patterns emerging over time. For natural language processing (NLP) tasks that utilize a collection of features based on lexicons and rules, it is important to adapt these features to the changing data. To address this challenge we introduce PyTAIL, a python library, which allows a human in the loop approach to actively train NLP models. PyTAIL enhances generic active learning, which only suggests new instances to label by also suggesting new features like rules and lexicons to label. Furthermore, PyTAIL is flexible enough for users to accept, reject, or update rules and lexicons as the model is being trained. Finally, we simulate the performance of PyTAIL on existing social media benchmark datasets for text classification. We compare various active learning strategies on these benchmarks. The model closes the gap with as few as 10% of the training data. Finally, we also highlight the importance of tracking evaluation metric on remaining data (which is not yet merged with active learning) alongside the test dataset. This highlights the effectiveness of the model in accurately annotating the remaining dataset, which is especially suitable for batch processing of large unlabelled corpora. PyTAIL will be available at https://github.com/socialmediaie/pytail.
翻訳日:2022-11-28 14:21:40 公開日:2022-11-24
# 弱い監督を構造化予測へ持ち上げる

Lifting Weak Supervision To Structured Prediction ( http://arxiv.org/abs/2211.13375v1 )

ライセンス: Link先を確認
Harit Vishwakarma, Nicholas Roberts, Frederic Sala(参考訳) 弱監督 (WS) は、容易に得られるが様々な情報源からのノイズの多いラベル推定を集約することで擬似ラベルを生成する、豊富な手法である。 WS は二項分類において理論的によく理解されており、単純なアプローチは擬似ラベル雑音率を一貫した推定を可能にする。 この結果から,疑似ラベルでトレーニングした下流モデルでは,クリーンラベルでトレーニングしたモデルとほぼ同一の一般化保証が得られた。 これはエキサイティングだが、ユーザはしばしば、出力空間がバイナリやマルチクラスのラベルセット(例えば、ランキング、グラフ、多様体など)以上のもので構成されている構造化予測にWSを使いたがる。 この設定への二項分類リフトに対するWSの好ましい理論的特性は? 我々は、幅広いシナリオについて肯定的にこの質問に答える。 有限距離空間における値を取るラベルに対しては、擬似ユークリッド埋め込みやテンソル分解に基づく弱い監督を行う新しい手法を導入し、ほぼ一貫性のあるノイズ率推定器を提供する。 定曲率リーマン多様体のラベルに対しては、一貫した雑音率推定をもたらす新しい不変量を導入する。 いずれの場合も,得られた擬似ラベルをフレキシブルな下流モデルと併用すると,クリーンデータでトレーニングされたモデルとほぼ同一の一般化保証が得られる。 ノイズラベル付き構造化予測では頑健性保証と見なせる結果のいくつかは、独立した関心事である可能性がある。 実証的評価は我々の主張を検証し,提案手法のメリットを示す。

Weak supervision (WS) is a rich set of techniques that produce pseudolabels by aggregating easily obtained but potentially noisy label estimates from a variety of sources. WS is theoretically well understood for binary classification, where simple approaches enable consistent estimation of pseudolabel noise rates. Using this result, it has been shown that downstream models trained on the pseudolabels have generalization guarantees nearly identical to those trained on clean labels. While this is exciting, users often wish to use WS for structured prediction, where the output space consists of more than a binary or multi-class label set: e.g. rankings, graphs, manifolds, and more. Do the favorable theoretical properties of WS for binary classification lift to this setting? We answer this question in the affirmative for a wide range of scenarios. For labels taking values in a finite metric space, we introduce techniques new to weak supervision based on pseudo-Euclidean embeddings and tensor decompositions, providing a nearly-consistent noise rate estimator. For labels in constant-curvature Riemannian manifolds, we introduce new invariants that also yield consistent noise rate estimation. In both cases, when using the resulting pseudolabels in concert with a flexible downstream model, we obtain generalization guarantees nearly identical to those for models trained on clean data. Several of our results, which can be viewed as robustness guarantees in structured prediction with noisy labels, may be of independent interest. Empirical evaluation validates our claims and shows the merits of the proposed method.
翻訳日:2022-11-28 14:21:00 公開日:2022-11-24
# NAS-LID:局所固有次元を用いた効率的なニューラルネットワーク探索

NAS-LID: Efficient Neural Architecture Search with Local Intrinsic Dimension ( http://arxiv.org/abs/2211.12759v2 )

ライセンス: Link先を確認
Xin He, Jiangchao Yao, Yuxin Wang, Zhenheng Tang, Ka Chu Cheung, Simon See, Bo Han, and Xiaowen Chu(参考訳) ワンショットニューラルアーキテクチャサーチ(NAS)は、1つのスーパーネットをトレーニングし、全ての子アーキテクチャ(サブネット)の性能を推定することで、探索効率を大幅に向上させる。 しかし、サブネット間の特性の不整合は、最適化に重大な干渉を引き起こし、サブネットの性能ランキングの相関が低くなる。 その後の探査では、特定の基準、例えば勾配マッチングによって超ネット重量を分解して干渉を減らすが、計算コストと空間分離性に悩まされる。 本研究では,軽量で効果的な局所固有次元(LID)に基づくNAS-LID法を提案する。 NAS-LIDは、低コストのLID特徴層を層単位で計算し、アーキテクチャの幾何学的性質を評価し、LIDの特徴となる類似性は勾配よりも分離性が良く、サブネット間の干渉を効果的に低減する。 nasbench-201の広範な実験は、nas-lidがより効率良く優れた性能を達成していることを示している。 特に、勾配駆動法と比較してNAS-LIDはNASBench-201を検索すると最大86%のGPUメモリオーバーヘッドを節約できる。 また,NAS-LID が ProxylessNAS および OFA 空間に与える影響を示す。 ソースコードはhttps://github.com/marsggbo/NAS-LID。

One-shot neural architecture search (NAS) substantially improves the search efficiency by training one supernet to estimate the performance of every possible child architecture (i.e., subnet). However, the inconsistency of characteristics among subnets incurs serious interference in the optimization, resulting in poor performance ranking correlation of subnets. Subsequent explorations decompose supernet weights via a particular criterion, e.g., gradient matching, to reduce the interference; yet they suffer from huge computational cost and low space separability. In this work, we propose a lightweight and effective local intrinsic dimension (LID)-based method NAS-LID. NAS-LID evaluates the geometrical properties of architectures by calculating the low-cost LID features layer-by-layer, and the similarity characterized by LID enjoys better separability compared with gradients, which thus effectively reduces the interference among subnets. Extensive experiments on NASBench-201 indicate that NAS-LID achieves superior performance with better efficiency. Specifically, compared to the gradient-driven method, NAS-LID can save up to 86% of GPU memory overhead when searching on NASBench-201. We also demonstrate the effectiveness of NAS-LID on ProxylessNAS and OFA spaces. Source code: https://github.com/marsggbo/NAS-LID.
翻訳日:2022-11-28 12:09:39 公開日:2022-11-24
# ディープグラフクラスタリングに関する調査:分類学、挑戦、応用

A Survey of Deep Graph Clustering: Taxonomy, Challenge, and Application ( http://arxiv.org/abs/2211.12875v2 )

ライセンス: Link先を確認
Yue Liu, Jun Xia, Sihang Zhou, Siwei Wang, Xifeng Guo, Xihong Yang, Ke Liang, Wenxuan Tu, Stan Z. Li, Xinwang Liu(参考訳) グラフクラスタリングは、グラフのノードを複数の異なるクラスタに分割することを目的としています。 近年,ディープグラフクラスタリング手法が提案され,有望な性能を達成している。 しかし、それに対応する調査論文は乏しく、この分野で概要を述べることは差し迫っている。 この動機から,本論文はディープグラフクラスタリングに関する最初の包括的調査を行う。 まず,ディープグラフクラスタリングの詳細な定義と重要なベースライン手法を紹介する。 さらに,グラフタイプ,ネットワークアーキテクチャ,学習パラダイム,クラスタリング手法の4つの異なる基準に基づいて,ディープグラフクラスタリング手法の分類法を提案する。 さらに,既存の作品の慎重な分析を通じて,5つの観点からの課題と機会を要約した。 最後に、4つの領域におけるディープグラフクラスタリングの応用について述べる。 論文やコード,データセットなど,最先端のディープグラフクラスタリングメソッドのコレクションがgithubで公開されている点に注意が必要だ。 この研究がクイックガイドとなり、この活気ある分野の課題を克服するのに役立つことを期待しています。

Graph clustering, which aims to divide the nodes in the graph into several distinct clusters, is a fundamental and challenging task. In recent years, deep graph clustering methods have been increasingly proposed and achieved promising performance. However, the corresponding survey paper is scarce and it is imminent to make a summary in this field. From this motivation, this paper makes the first comprehensive survey of deep graph clustering. Firstly, the detailed definition of deep graph clustering and the important baseline methods are introduced. Besides, the taxonomy of deep graph clustering methods is proposed based on four different criteria including graph type, network architecture, learning paradigm, and clustering method. In addition, through the careful analysis of the existing works, the challenges and opportunities from five perspectives are summarized. At last, the applications of deep graph clustering in four domains are presented. It is worth mentioning that a collection of state-of-the-art deep graph clustering methods including papers, codes, and datasets is available on GitHub. We hope this work will serve as a quick guide and help researchers to overcome challenges in this vibrant field.
翻訳日:2022-11-28 12:09:18 公開日:2022-11-24
# MLOps設定における品質保証 : 産業的展望

Quality Assurance in MLOps Setting: An Industrial Perspective ( http://arxiv.org/abs/2211.12706v2 )

ライセンス: Link先を確認
Ayan Chatterjee, Bestoun S. Ahmed, Erik Hallin, Anton Engman(参考訳) 現在、機械学習(ML)は、産業においてプロダクションシステムのコア機能を提供するために広く使われている。 しかし、MLモデルに加えて、他のいくつかのコンポーネントで構成された大規模エンドツーエンドソフトウェアシステムの一部として、実運用システムではほぼ常に使用されている。 生産需要と時間の制約のため、自動化されたソフトウェアエンジニアリングプラクティスは極めて適用性が高い。 製造業やユーティリティなどの業界における自動MLソフトウェアエンジニアリングプラクティスの利用の増加には、MLソフトウェアの重要な部分として、自動品質保証(QA)アプローチが必要である。 ここでは、QAはソフトウェアタスクに対する客観的な視点を提供することでリスクを減らすのに役立ちます。 従来のソフトウェアエンジニアリングには、データ駆動型MLのためのQAデータ分析のための自動化ツールがあるが、ML運用(MLOps)におけるQAプラクティスの使用は不足している。 本稿では,産業MLOpsにおけるQA課題について検討し,データ整合性とデータ品質(DQ)を扱うためのモジュール戦略を概念化する。 この論文には、産業パートナーによる実際の産業利用事例が添付されている。 また,今後の研究の基盤となるいくつかの課題について述べる。

Today, machine learning (ML) is widely used in industry to provide the core functionality of production systems. However, it is practically always used in production systems as part of a larger end-to-end software system that is made up of several other components in addition to the ML model. Due to production demand and time constraints, automated software engineering practices are highly applicable. The increased use of automated ML software engineering practices in industries such as manufacturing and utilities requires an automated Quality Assurance (QA) approach as an integral part of ML software. Here, QA helps reduce risk by offering an objective perspective on the software task. Although conventional software engineering has automated tools for QA data analysis for data-driven ML, the use of QA practices for ML in operation (MLOps) is lacking. This paper examines the QA challenges that arise in industrial MLOps and conceptualizes modular strategies to deal with data integrity and Data Quality (DQ). The paper is accompanied by real industrial use-cases from industrial partners. The paper also presents several challenges that may serve as a basis for future studies.
翻訳日:2022-11-28 12:09:00 公開日:2022-11-24
# 垂直的フェデレーション学習

Vertical Federated Learning ( http://arxiv.org/abs/2211.12814v2 )

ライセンス: Link先を確認
Yang Liu, Yan Kang, Tianyuan Zou, Yanhong Pu, Yuanqin He, Xiaozhou Ye, Ye Ouyang, Ya-Qin Zhang and Qiang Yang(参考訳) Vertical Federated Learning(VFL)は、同じユーザのセットに関する異なる特徴を持つ複数のパーティが、生のデータやモデルのパラメータを公開せずに、共同で機械学習モデルをトレーニングする、フェデレーション付き学習環境である。 vfl研究と実世界のアプリケーションの急速な成長に動機づけられ、vflの概念とアルゴリズムの包括的なレビューと、有効性、効率性、プライバシなど、さまざまな面での現在の進歩と課題を提供する。 VFL設定とプライバシ保護プロトコルの徹底的な分類を行い、各プロトコルのプライバシ攻撃と防衛戦略を包括的に分析する。 最後に,コミュニケーションや計算,プライバシ,有効性といった制約の下でのvfl問題を考える,vflowと呼ばれる統一フレームワークを提案する。 最後に,産業応用の最新動向を概観し,vflの課題と今後の方向性について述べる。

Vertical Federated Learning (VFL) is a federated learning setting where multiple parties with different features about the same set of users jointly train machine learning models without exposing their raw data or model parameters. Motivated by the rapid growth in VFL research and real-world applications, we provide a comprehensive review of the concept and algorithms of VFL, as well as current advances and challenges in various aspects, including effectiveness, efficiency, and privacy. We provide an exhaustive categorization for VFL settings and privacy-preserving protocols and comprehensively analyze the privacy attacks and defense strategies for each protocol. In the end, we propose a unified framework, termed VFLow, which considers the VFL problem under communication, computation, privacy, and effectiveness constraints. Finally, we review the most recent advances in industrial applications, highlighting open challenges and future directions for VFL.
翻訳日:2022-11-28 12:08:44 公開日:2022-11-24
# ディジタル双中心状態型リアクタ電力予測のための物理式多段階ディープラーニングフレームワークの開発

Physics-Informed Multi-Stage Deep Learning Framework Development for Digital Twin-Centred State-Based Reactor Power Prediction ( http://arxiv.org/abs/2211.13157v2 )

ライセンス: Link先を確認
James Daniell, Kazuma Kobayashi, Susmita Naskar, Dinesh Kumar, Souvik Chakraborty, Ayodeji Alajo, Ethan Taber, Joseph Graham, Syed Alam(参考訳) 計算効率が高く信頼性の高い機械学習アルゴリズムは、Digital Twin(DT)フレームワークの開発に必要である。 一般的に、DTエナリング技術は5つの主要コンポーネントから構成される。 (i)機械学習(ml)駆動予測アルゴリズム、 (ii)高度なセンサ・インスツルメンテーションを利用した物理とデジタル資産の時間同期 (iii)不確実性伝播、及び (iv)DTの運用フレームワーク。 残念ながら、これらの部品の開発には依然として大きなギャップがある。 このギャップに対処するため, 本研究は, 提案モデルの信頼性と有効性を評価しつつ, 「ML駆動予測アルゴリズム」を原子炉運転の有効成分として重視する。 そこで,本研究では, ニューラルネットワークを用いた2つのフィードフォワード深層学習(DNN)からなる多段階予測モデルを構築し, 原子炉・プラント用原子炉過渡電源の最終定常電力を決定する。 多段階モデルアーキテクチャの目標は、確率的分類を連続出力変数に変換し、信頼性と分析の容易性を向上させることである。 4つの回帰モデルを開発し、第1段階モデルから入力して原子炉出力を表す1つの値を予測する。 組み合わせモデルでは、第1段階の分類精度が96%、第2段階の絶対予測精度が92%となる。 開発手順は、一般的に類似システムに適用できるように議論されている。 同様のモデルがdtsで果たす役割の分析を行う。

Computationally efficient and trustworthy machine learning algorithms are necessary for Digital Twin (DT) framework development. Generally speaking, DT-enabling technologies consist of five major components: (i) Machine learning (ML)-driven prediction algorithm, (ii) Temporal synchronization between physics and digital assets utilizing advanced sensors/instrumentation, (iii) uncertainty propagation, and (iv) DT operational framework. Unfortunately, there is still a significant gap in developing those components for nuclear plant operation. In order to address this gap, this study specifically focuses on the "ML-driven prediction algorithms" as a viable component for the nuclear reactor operation while assessing the reliability and efficacy of the proposed model. Therefore, as a DT prediction component, this study develops a multi-stage predictive model consisting of two feedforward Deep Learning using Neural Networks (DNNs) to determine the final steady-state power of a reactor transient for a nuclear reactor/plant. The goal of the multi-stage model architecture is to convert probabilistic classification to continuous output variables to improve reliability and ease of analysis. Four regression models are developed and tested with input from the first stage model to predict a single value representing the reactor power output. The combined model yields 96% classification accuracy for the first stage and 92% absolute prediction accuracy for the second stage. The development procedure is discussed so that the method can be applied generally to similar systems. An analysis of the role similar models would fill in DTs is performed.
翻訳日:2022-11-28 12:08:15 公開日:2022-11-24
# 多変量極小に対するカーネルPCA

Kernel PCA for multivariate extremes ( http://arxiv.org/abs/2211.13172v2 )

ライセンス: Link先を確認
Marco Avella-Medina, Richard A. Davis and Gennady Samorodnitsky(参考訳) 多変量極端の依存構造を解析する手法としてカーネルPCAを提案し、クラスタリングと次元減少のための強力なツールであることを示す。 我々の研究は、カーネルPCAによって得られた事前イメージに関する理論的知見を提供し、ある条件下では、データ内のクラスタを効果的に識別できることを実証する。 我々は、これらの新しい洞察に基づいて、極端サンプル、すなわち半径が大きなしきい値を超えるランダムベクトルの角部に基づいて、カーネルPCAの性能を厳密に特徴づける。 より具体的には、極値理論における角あるいはスペクトル測度によって特徴づけられる多変量極値の漸近依存に注目し、極値が線形因子モデルから生成される場合の注意深い解析を提供する。 カーネルPCAがそれらの漸近分布をデイビス・カハン摂動境界とともに活用することにより、そのような極端の予測性能を理論的に保証する。 本手法の有限サンプル性能を実証する数値実験により, 理論的知見を補完する。

We propose kernel PCA as a method for analyzing the dependence structure of multivariate extremes and demonstrate that it can be a powerful tool for clustering and dimension reduction. Our work provides some theoretical insight into the preimages obtained by kernel PCA, demonstrating that under certain conditions they can effectively identify clusters in the data. We build on these new insights to characterize rigorously the performance of kernel PCA based on an extremal sample, i.e., the angular part of random vectors for which the radius exceeds a large threshold. More specifically, we focus on the asymptotic dependence of multivariate extremes characterized by the angular or spectral measure in extreme value theory and provide a careful analysis in the case where the extremes are generated from a linear factor model. We give theoretical guarantees on the performance of kernel PCA preimages of such extremes by leveraging their asymptotic distribution together with Davis-Kahan perturbation bounds. Our theoretical findings are complemented with numerical experiments illustrating the finite sample performance of our methods.
翻訳日:2022-11-28 12:07:54 公開日:2022-11-24
# 動的外観:共同訓練による行動認識のための映像表現

Dynamic Appearance: A Video Representation for Action Recognition with Joint Training ( http://arxiv.org/abs/2211.12748v2 )

ライセンス: Link先を確認
Guoxi Huang, Adrian G. Bors(参考訳) ビデオの静的な出現は、ディープニューラルネットワークがビデオアクション認識の動作関連特徴を学習する能力を妨げる可能性がある。 本稿では,動画中の動きに関連する外観情報を要約し,動きに関係のないと考えられる静的情報をフィルタリングする動的外観(DA)という新しい概念を紹介する。 生のビデオデータからダイナミックな外観を蒸留して,映像理解の効率化を図る。 この目的のために,PWTP (Pixel-Wise Temporal Projection) を提案し,ビデオの静的な外観をベクトル空間内の部分空間に投影し,ダイナミックな外観を特殊な動きパターンを記述する投影残差に符号化する。 さらに,PWTPモジュールとCNNやTransformerをエンドツーエンドのトレーニングフレームワークに統合し,多目的最適化アルゴリズムを用いて最適化する。 Kinetics400, Something-Something V1, UCF101, HMDB51 の4つの行動認識ベンチマークについて実験を行った。

Static appearance of video may impede the ability of a deep neural network to learn motion-relevant features in video action recognition. In this paper, we introduce a new concept, Dynamic Appearance (DA), summarizing the appearance information relating to movement in a video while filtering out the static information considered unrelated to motion. We consider distilling the dynamic appearance from raw video data as a means of efficient video understanding. To this end, we propose the Pixel-Wise Temporal Projection (PWTP), which projects the static appearance of a video into a subspace within its original vector space, while the dynamic appearance is encoded in the projection residual describing a special motion pattern. Moreover, we integrate the PWTP module with a CNN or Transformer into an end-to-end training framework, which is optimized by utilizing multi-objective optimization algorithms. We provide extensive experimental results on four action recognition benchmarks: Kinetics400, Something-Something V1, UCF101 and HMDB51.
翻訳日:2022-11-28 12:07:37 公開日:2022-11-24
# 微細画像分類のためのデータ拡張ビジョン変換器

Data Augmentation Vision Transformer for Fine-grained Image Classification ( http://arxiv.org/abs/2211.12879v2 )

ライセンス: Link先を確認
Chao Hu, Liqiang Zhu, Weibin Qiu, and Weijie Wu(参考訳) 近年、視覚変換器(ViT)は画像認識において画期的な進歩を遂げている。 その自己認識機構(MSA)は、異なる画素ブロックの識別ラベル情報を抽出し、画像分類精度を向上させる。 しかし、その深層における分類マークは、層間の局所的な特徴を無視する傾向がある。 さらに、埋め込み層は固定サイズのピクセルブロックになる。 入力ネットワーク 必然的に画像ノイズを導入する。 本研究では,データ拡張に基づくデータ拡張ビジョントランスフォーマ(davt)について検討し,注意重みを画像の収穫ガイドとして活用し,ネットワークが重要な特徴を学習する能力を向上させるアテンショントリッピングのためのデータ拡張手法を提案する。 次に,階層的注意選択(HAS)手法を提案する。この手法は,学習レベル間の識別マーカーのフィルタリングとラベルの融合により,学習レベル間の識別性を向上する。 実験の結果,CUB-200-2011とStanford Dogsの2つの一般的なデータセット上での精度は,従来の主流手法よりも優れており,その精度は元のViTよりも1.4\%,1.6\%高いことがわかった。

Recently, the vision transformer (ViT) has made breakthroughs in image recognition. Its self-attention mechanism (MSA) can extract discriminative labeling information of different pixel blocks to improve image classification accuracy. However, the classification marks in their deep layers tend to ignore local features between layers. In addition, the embedding layer will be fixed-size pixel blocks. Input network Inevitably introduces additional image noise. To this end, we study a data augmentation vision transformer (DAVT) based on data augmentation and proposes a data augmentation method for attention cropping, which uses attention weights as the guide to crop images and improve the ability of the network to learn critical features. Secondly, we also propose a hierarchical attention selection (HAS) method, which improves the ability of discriminative markers between levels of learning by filtering and fusing labels between levels. Experimental results show that the accuracy of this method on the two general datasets, CUB-200-2011, and Stanford Dogs, is better than the existing mainstream methods, and its accuracy is 1.4\% and 1.6\% higher than the original ViT, respectively
翻訳日:2022-11-28 12:07:20 公開日:2022-11-24
# TransVCL:フレキシブル・スーパービジョンによる注意力強化ビデオコピー・ローカライゼーション・ネットワーク

TransVCL: Attention-enhanced Video Copy Localization Network with Flexible Supervision ( http://arxiv.org/abs/2211.13090v2 )

ライセンス: Link先を確認
Sifeng He, Yue He, Minlong Lu, Chen Jiang, Xudong Yang, Feng Qian, Xiaobo Zhang, Lei Yang, Jiandong Zhang(参考訳) ビデオコピーのローカライゼーションは、ビデオ検索アプリケーションにおいて、コピーされた全セグメントを、一対の未トリミングビデオに正確にローカライズすることを目的としている。 従来の手法は、入力されたビデオペアのフレームレベルの特徴間のコサイン類似性によって生成されるフレーム間類似性行列から始まり、時間的制約の下で類似性行列上のコピーセグメントの境界を検出して洗練する。 本稿では,初期フレームレベルの特徴から直接最適化され,特徴強化のためのカスタマイズされたトランスフォーマー,類似度行列生成のための相関・ソフトマックス層,コピーセグメントローカライズのための時間的アライメントモジュールの3つの主要コンポーネントを備えた,注目度の高いビデオコピーローカライゼーションネットワークであるTransVCLを提案する。 従来の手作り類似性行列要求手法とは対照的に,TransVCLでは,自己注意層と横断注意層を用いた特徴系列ペア間の長距離時間情報を組み込んでいる。 3つのコンポーネントの合同設計と最適化により、類似性マトリックスはより識別可能なコピーパターンを示し、セグメントレベルのラベル付きデータセット(vcslとvcdb)の以前の方法を大きく改善した。 完全に教師された環境での最先端のパフォーマンスに加えて、アテンションアーキテクチャはTransVCLにラベルなしまたは単にビデオレベルのラベル付きデータをさらに活用させる。 SVDやFIVRなど、ビデオレベルのラベル付きデータセットを補完する追加実験は、TransVCLの完全な監督から半監督(ビデオレベルのアノテーションの有無に関わらず)への高い柔軟性を明らかにしている。 コードはhttps://github.com/transvcl/TransVCLで公開されている。

Video copy localization aims to precisely localize all the copied segments within a pair of untrimmed videos in video retrieval applications. Previous methods typically start from frame-to-frame similarity matrix generated by cosine similarity between frame-level features of the input video pair, and then detect and refine the boundaries of copied segments on similarity matrix under temporal constraints. In this paper, we propose TransVCL: an attention-enhanced video copy localization network, which is optimized directly from initial frame-level features and trained end-to-end with three main components: a customized Transformer for feature enhancement, a correlation and softmax layer for similarity matrix generation, and a temporal alignment module for copied segments localization. In contrast to previous methods demanding the handcrafted similarity matrix, TransVCL incorporates long-range temporal information between feature sequence pair using self- and cross- attention layers. With the joint design and optimization of three components, the similarity matrix can be learned to present more discriminative copied patterns, leading to significant improvements over previous methods on segment-level labeled datasets (VCSL and VCDB). Besides the state-of-the-art performance in fully supervised setting, the attention architecture facilitates TransVCL to further exploit unlabeled or simply video-level labeled data. Additional experiments of supplementing video-level labeled datasets including SVD and FIVR reveal the high flexibility of TransVCL from full supervision to semi-supervision (with or without video-level annotation). Code is publicly available at https://github.com/transvcl/TransVCL.
翻訳日:2022-11-28 12:07:00 公開日:2022-11-24