このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220912となっている論文です。

PDF登録状況(公開日: 20220912)

TitleAuthorsAbstract論文公表日・翻訳日
# 相関触媒状態変換の量子熱力学

Quantum thermodynamics of correlated-catalytic state conversion at small-scale ( http://arxiv.org/abs/2010.11036v3 )

ライセンス: Link先を確認
Naoto Shiraishi and Takahiro Sagawa(参考訳) 可能な熱力学的変換のクラスは、自身の状態を変更せずに状態変換を支援するcatalystと呼ばれる補助系を導入することで拡張することができる。 反応系と触媒の無限小相関を許容することにより, 量子および単発熱力学における触媒状態変換の完全な特性を明らかにする。 具体的には、相関触媒状態変換に必要な十分条件を提供する単一の熱力学的ポテンシャルが、クルバック・リーブラー分岐で定義された標準非平衡自由エネルギーによって与えられることを証明した。 これはウィルミング、ガレゴ、アイザート (Entropy 19, 241 (2017)) とロスタリオとミュラー (Phys. Rev. Lett. 123, 020403 (2019)) による正の予想を解く。 さらに, 作業記憶の助けを借りて, 作業コストを非平衡自由エネルギーの差分と同等にすることで, 任意の量子状態を別の量子状態に変換することができることを示した。 我々の結果は、完全な量子状態における触媒状態変換の資源理論を確立するためのステップとなる。

The class of possible thermodynamic conversions can be extended by introducing an auxiliary system called catalyst, which assists state conversion while remaining its own state unchanged. We reveal a complete characterization of catalytic state conversion in quantum and single-shot thermodynamics by allowing an infinitesimal correlation between the system and the catalyst. Specifically, we prove that a single thermodynamic potential, which provides the necessary and sufficient condition for the correlated-catalytic state conversion, is given by the standard nonequilibrium free energy defined with the Kullback-Leibler divergence. This resolves the conjecture raised by Wilming, Gallego, and Eisert [Entropy 19, 241 (2017)] and by Lostaglio and Muller [Phys. Rev. Lett. 123, 020403 (2019)] in positive. Moreover, we show that, with the aid of the work storage, any quantum state can be converted into another one by paying the work cost equal to the difference of the nonequilibrium free energy. Our result would serve as a step towards establishing resource theories of catalytic state conversion in the fully quantum regime.
翻訳日:2023-04-28 03:08:55 公開日:2022-09-12
# 共振系および分散系で動作する超伝導共振器による2電荷量子ビットの結合

Coupling two charge qubits via a superconducting resonator operating in the resonant and dispersive regimes ( http://arxiv.org/abs/2012.14129v2 )

ライセンス: Link先を確認
Chengxian Zhang, Guo Xuan Chan, Xin Wang, Zheng-Yuan Xue(参考訳) 半導体量子ドット電荷量子ビットの重要な課題は、長距離量子ビット結合の実現とそれに基づく高忠実度ゲートの実現である。 ここでは、三量子ドット系に閉じ込められた電子によって形成される新しいタイプの電荷量子ビットについて述べる。 さらに、電荷量子ビットと超伝導共振器との間の長距離双極子結合の形式を示す。 量子ビットと共振器を組み合わせたハイブリッドシステムを用いて, 分散系と共振系でそれぞれ動作している動的iSWAPゲートとホロノミックエンタングゲートの2種類のエンタングゲートを示す。 iSWAPゲートの忠実度は実験で典型的なノイズレベルに対して99\%以上の忠実度に達することが判明した。 一方、ホロノミックゲートの忠実度は、共振器のアンハーモニック性が十分大きい場合には98\%を超える。 本提案は,半導体量子ドット内の電荷量子ビットに対する高忠実度量子計算を構築するための代替手段を提供する。

A key challenge for semiconductor quantum-dot charge qubits is the realization of long-range qubit coupling and performing high-fidelity gates based on it. Here, we describe a new type of charge qubit formed by an electron confined in a triple-quantum-dot system, enabling single and two-qubit gates working in the dipolar and quadrupolar detuning sweet spots. We further present the form for the long-range dipolar coupling between the charge qubit and the superconducting resonator. Based on the hybrid system composed of the qubits and the resonator, we present two types of entangling gates: the dynamical iSWAP gate and holonomic entangling gate, which are operating in the dispersive and resonant regimes, respectively. We find that the fidelity for the iSWAP gate can reach fidelity higher than 99\% for the noise level typical in experiments. Meanwhile, the fidelity for the holonomic gate can surpass 98\% if the anharmonicity in the resonator is large enough. Our proposal offers an alternative useful way to build up high-fidelity quantum computation for charge qubits in semiconductor quantum dot.
翻訳日:2023-04-19 01:57:50 公開日:2022-09-12
# 連続変数非ガウス状態における創発的複素量子ネットワーク

Emergent complex quantum networks in continuous-variables non-Gaussian states ( http://arxiv.org/abs/2012.15608v4 )

ライセンス: Link先を確認
Mattia Walschaers, Nicolas Treps, Bhuvanesh Sundar, Lincoln D. Carr, Valentina Parigi(参考訳) 複素ネットワーク理論を用いて、多粒子交絡と非ガウス統計の両方を示す連続変数量子状態のクラスを研究する。 このようなシステムの特徴付けがすでに困難である数十のコンポーネントの中間スケールについて検討する。 特に、状態は複雑なネットワーク構造に従ってガウスエンタングリング操作によって生成された初期インプリントされたクラスタ状態から構築される。 そして、一つのノードに作用する複数の光子減算演算を通して非ガウス統計を導く。 我々は,実世界の複雑なネットワークを模倣したモデルのいくつかを量子環境で再現し,局所操作下での構造特性をテストする。 次に、既に知られている単一モード効果を超えて、複素ネットワーク測度による光子数相関の創発的ネットワークを研究する。 我々は、インプリントされたネットワーク構造が、光子減算による創発的ネットワークが変化する光子減算ノードから4段階の距離で、ノードの近傍を定義することを解析的に証明した。 さらに, 数値解析により, 創発的構造はインプリントネットワークの構造に大きく影響していることが示された。 実際、創発的ネットワークの次数とクラスタリング分布の平均と分散は常に増加するが、分布の高次モーメントはインプリントされたネットワークの特定の構造によって制御される。 最後に, サブトラクションノードの近傍近傍の挙動は, インプリント構造において互いにどのように接続されているかに依存することを示した。

We use complex network theory to study a class of continuous-variable quantum states that present both multipartite entanglement and non-Gaussian statistics. We consider the intermediate scale of several dozens of components at which such systems are already hard to characterize. In particular, the states are built from an initial imprinted cluster state created via Gaussian entangling operations according to a complex network structure. We then engender non-Gaussian statistics via multiple photon subtraction operations acting on a single node. We replicate in the quantum regime some of the models that mimic real-world complex networks in order to test their structural properties under local operations. We then go beyond the already known single-mode effects, by studying the emergent network of photon-number correlations via complex networks measures. We analytically prove that the imprinted network structure defines a vicinity of nodes, at a distance of four steps from the photon-subtracted node, in which the emergent network changes due to photon subtraction. Moreover, our numerical analysis shows that the emergent structure is greatly influenced by the structure of the imprinted network. Indeed, while the mean and the variance of the degree and clustering distribution of the emergent network always increase, the higher moments of the distributions are governed by the specific structure of the imprinted network. Finally, we show that the behaviour of nearest neighbours of the subtraction node depends on how they are connected to each other in the imprinted structure.
翻訳日:2023-04-18 05:50:52 公開日:2022-09-12
# 量子情報回復の普遍的限界:対称性とコヒーレンス

Universal limitation of quantum information recovery: symmetry versus coherence ( http://arxiv.org/abs/2103.01876v4 )

ライセンス: Link先を確認
Hiroyasu Tajima, Keiji Saito(参考訳) 量子情報は多体系におけるカオス的時間発展によってスクランブル化される。 スクランブル量子状態からシステムに局所的に埋め込まれた初期情報の回復は多くの文脈において基本的な関心事である。 動的観点から、情報回復は量子カオス、フォールトトレラント量子コンピューティング、ブラックホール情報パラドックスの動的不安定性を測定することができる。 本稿では,スクランブル力学がリー群対称性による保存則を持つ場合の量子情報回復の一般的な側面について考察する。 本稿では,任意のリー群対称性を持つスクランブルダイナミクスからの情報回復に関する基本的な制限を定式化する。 我々は,多くの物理的状況に適用できる情報回復,対称性,量子コヒーレンスの間の普遍的な関係を示す。 この関係は、エネルギー保存則の仮定の下でヘイデン・プレスキルブラックホールモデルの挙動が質的に変化することを予測している。 したがって、エネルギー保存法の下では、小さなブラックホールからの情報回復の誤差が完全に蒸発するまで無視できないほど大きいことを厳密に証明することができる。 さらに、ブラックホールが非常に大きい場合でも、ブラックホールの大部分が蒸発するまで、ブラックホールに投げ込まれた情報の回復は完了しない。 この関係はまた、量子情報処理における対称性の制限(例えば、近似イージン・クニルの定理やユニタリゲートに対するウィグナー・アラキ・ヤネーゼの定理)の統一的なビューを提供する。

Quantum information is scrambled via chaotic time evolution in many-body systems. The recovery of initial information embedded locally in the system from the scrambled quantum state is a fundamental concern in many contexts. From a dynamical perspective, information recovery can measure dynamical instability in quantum chaos, fault-tolerant quantum computing, and the black hole information paradox. This article considers general aspects of quantum information recovery when the scrambling dynamics have conservation laws due to Lie group symmetries. Here, we establish fundamental limitations on the information recovery from scrambling dynamics with arbitrary Lie group symmetries. We show universal relations between information recovery, symmetry, and quantum coherence, which apply to many physical situations. The relations predict that the behavior of the Hayden-Preskill black hole model changes qualitatively under the assumption of the energy conservation law. Consequently, we can rigorously prove that under the energy conservation law, the error of the information recovery from a small black hole remains unignorably large until it completely evaporates. Moreover, even when the black hole is very large, the recovery of information thrown into the black hole is not completed until most of the black hole evaporates. The relations also provide a unified view of the symmetry restrictions on quantum information processing, such as the approximate Eastin-Knill theorem and the Wigner-Araki-Yanase theorem for unitary gates.
翻訳日:2023-04-09 12:14:53 公開日:2022-09-12
# 連続監視システムにおける情報定常状態と条件エントロピー生成

Informational steady-states and conditional entropy production in continuously monitored systems ( http://arxiv.org/abs/2103.06247v2 )

ライセンス: Link先を確認
Gabriel T. Landi, Mauro Paternostro and Alessio Belenchia(参考訳) 連続的に観測される系の熱力学を記述するための統一形式を定式化し、測定はシステムに接続された環境上でのみ行われる。 特に,開システムの力学の非可逆性の度合いを定量化する条件的および非条件的エントロピー生成は,ホールボ量によって相互に関連していることを示す。 これは、情報ゲイン率と損失率にさらに分割することができ、情報定常状態(iss)の存在条件、すなわち、情報取得の失敗によって維持される条件付きダイナミクスの存在条件を提供する。 いくつかの例を通してフレームワークの適用性を説明します。

We put forth a unifying formalism for the description of the thermodynamics of continuously monitored systems, where measurements are only performed on the environment connected to a system. We show, in particular, that the conditional and unconditional entropy production, which quantify the degree of irreversibility of the open system's dynamics, are related to each other by the Holevo quantity. This, in turn, can be further split into an information gain rate and loss rate, which provide conditions for the existence of informational steady-states (ISSs), i.e. stationary states of a conditional dynamics that are maintained owing to the unbroken acquisition of information. We illustrate the applicability of our framework through several examples.
翻訳日:2023-04-08 13:34:09 公開日:2022-09-12
# 関係量子力学の評価

Assessing Relational Quantum Mechanics ( http://arxiv.org/abs/2105.13338v2 )

ライセンス: Link先を確認
R. Muci\~no, E. Okon and D. Sudarsky(参考訳) リレーショナル量子力学(Relational Quantum Mechanics、RQM)は、システムの絶対状態の概念を廃止し、他のシステムに対するシステムの状態を支持するという考え方に基づく量子理論の解釈である。 このような動きは、標準量子力学の概念的な問題を解くと主張されている。 さらに、RQMは非局所的な効果を呼び起こさずに全ての量子相関を考慮し、完全に関係的なスタンスを取り入れたにもかかわらず、異なる観測者がどのように情報を交換するかをうまく説明できると論じられている。 本稿では,RQMとその成果を徹底的に評価する。 標準量子力学の概念的問題 – オントロジーにおける明快さの欠如と,その振る舞いを規定する規則 – に対処できないこと,そして,それがそれ自身において重大な概念的問題を引き起こすこと, が分かる。 また、rqmは観測者間の情報交換を正しく説明でき、非局所的な影響を生じさせることなく全ての量子相関に対応できるという主張を不当に明らかにしている。 我々は、rqmが量子世界の十分な理解を提供する試みに失敗していると結論づける。

Relational Quantum Mechanics (RQM) is an interpretation of quantum theory based on the idea of abolishing the notion of absolute states of systems, in favor of states of systems relative to other systems. Such a move is claimed to solve the conceptual problems of standard quantum mechanics. Moreover, RQM has been argued to account for all quantum correlations without invoking non-local effects and, in spite of embracing a fully relational stance, to successfully explain how different observers exchange information. In this work, we carry out a thorough assessment of RQM and its purported achievements. We find that it fails to address the conceptual problems of standard quantum mechanics--related to the lack of clarity in its ontology and the rules that govern its behavior--and that it leads to serious conceptual problems of its own. We also uncover as unwarranted the claims that RQM can correctly explain information exchange among observers, and that it accommodates all quantum correlations without invoking non-local influences. We conclude that RQM is unsuccessful in its attempt to provide a satisfactory understanding of the quantum world.
翻訳日:2023-03-29 07:05:31 公開日:2022-09-12
# 線形性の要求は完全正の帰結をもたらす

Requiring linearity leads to complete positivity ( http://arxiv.org/abs/2108.06200v2 )

ライセンス: Link先を確認
Iman Sargolzahi(参考訳) オープン量子システムでは、その環境との相互作用である$e$の還元ダイナミクスは、一般に完全には肯定的ではない。 本稿では,(1)システムの還元ダイナミクスが線形であり,任意のシステム環境ユニタリ進化に対して u$ と (2) システムの縮小ダイナミクスが線形であること,(2) システムの任意の初期状態に対して $\rho_s$ である,という2つの条件を同時に満たすと,還元ダイナミクスが完全に正となることを示す。

The reduced dynamics of an open quantum system $S$, interacting with its environment $E$, is not completely positive, in general. In this paper, we demonstrate that if the two following conditions are satisfied, simultaneously, then the reduced dynamics is completely positive: (1) the reduced dynamics of the system is linear, for arbitrary system-environment unitary evolution $U$; and (2) the reduced dynamics of the system is linear, for arbitrary initial state of the system $\rho_S$.
翻訳日:2023-03-18 14:56:07 公開日:2022-09-12
# 電気的多ポート線形系の量子揺らぎ

Quantum Fluctuations in Electrical Multiport Linear Systems ( http://arxiv.org/abs/2110.14604v2 )

ライセンス: Link先を確認
A. Parra-Rodriguez, I. L. Egusquiza(参考訳) Twissによるマルチポート古典的電気ネットワークに対する古典的ニキスト・テベニン定理の量子ケースへの拡張を示す。 逆に、一方のポート電気システムの量子揺らぎ散逸結果は、相互および非相互の両方のマルチポートの場合に拡張する。 その結果, 抵抗成分を純損失のないラッピング要素ネットワークの連続的限界として表現することにより, 損失系にまで拡張した。 直接インピーダンス表現を欠いた線形システムを含む単純な回路例を解析する。

We present an extension of the classical Nyquist-Thevenin theorem for multiport classical electrical networks by Twiss to the quantum case. Conversely, we extend the quantum fluctuation-dissipation result for one port electrical systems to the multiport case, both reciprocal and nonreciprocal. Our results are extended to lossy systems by depicting resistive components as continuous limits of purely lossless lumped-element networks. Simple circuit examples are analyzed, including a linear system lacking a direct impedance representation.
翻訳日:2023-03-10 03:16:55 公開日:2022-09-12
# 閉じ込められたイオン量子プロセッサ上の相関電子のホログラフィックシミュレーション

Holographic simulation of correlated electrons on a trapped ion quantum processor ( http://arxiv.org/abs/2112.10810v3 )

ライセンス: Link先を確認
Daoheng Niu, Reza Haghshenas, Yuxuan Zhang, Michael Foss-Feig, Garnet Kin-Lic Chan, Andrew C. Potter(参考訳) 我々は, 量子行列積状態 (qMPS) における相関電子基底状態を作成するためのホログラフィック量子シミュレーション法を開発した。 提案手法は, 電子平均場基底状態に対する圧縮近似であるフェルミオンガウス行列積状態 (GMPS) を, 従来の手法と比較して, キュービットおよび(選択の場合) 資源の多項式還元により生成するホログラフィック手法から始める。 次に、GMPS+Xを示す変分法でGMPS回路を増設することにより相関関係を導出する。 本稿では,QuantinuumのシステムモデルH1トラップイオン量子プロセッサを用いて,相関金属およびモット絶縁状態の1$d$モデルを提案する。 ベンチマークとして1d$Fermi-Hubbard連鎖に着目し,Mott絶縁体やLuttinger液体金属を含む相関電子状態の物理を,問題に依存しない変動回路よりもかなり少ないパラメータで忠実に捉えていることを示す。

We develop holographic quantum simulation techniques to prepare correlated electronic ground states in quantum matrix product state (qMPS) form, using far fewer qubits than the number of orbitals represented. Our approach starts with a holographic technique to prepare a compressed approximation to electronic mean-field ground-states, known as fermionic Gaussian matrix product states (GMPS), with a polynomial reduction in qubit- and (in select cases gate-) resources compared to existing techniques. Correlations are then introduced by augmenting the GMPS circuits in a variational technique which we denote GMPS+X. We demonstrate this approach on Quantinuum's System Model H1 trapped-ion quantum processor for 1$d$ models of correlated metal and Mott insulating states. Focusing on the $1d$ Fermi-Hubbard chain as a benchmark, we show that GMPS+X methods faithfully capture the physics of correlated electron states, including Mott insulators and correlated Luttinger liquid metals, using considerably fewer parameters than problem-agnostic variational circuits.
翻訳日:2023-03-04 00:37:23 公開日:2022-09-12
# キラルルッティンガー液体パラダイムを超えて捕捉された分数量子ホール液滴の線形および非線形エッジダイナミクス

Linear and nonlinear edge dynamics of trapped fractional quantum Hall droplets beyond the chiral Luttinger liquid paradigm ( http://arxiv.org/abs/2203.02539v2 )

ライセンス: Link先を確認
Alberto Nardin, Iacopo Carusotto(参考訳) 非調和に閉じ込められたマクロな分数量子ホール流体の線形および非線形エッジダイナミクスに関する数値的研究を報告する。 長波長及び弱励起限界では、分数反転伝導率の観測可能な結果が回収される。 線形応答系における弱い励起については、線形波の分散に対する3次補正とエッジ励起の動的構造係数の拡大が同定され、より強い励起については、大きな非線形効果が、動的に見出される。 数値的に観察された特徴は、半古典的極限において駆動されたコルテヴェーグ・ド・ブリーズ方程式に還元される非線形キラルルッティンガー液体量子ハミルトニアンによって定量的に捕獲される。 予測実験の可観測性について論じる。

We report numerical studies of the linear and nonlinear edge dynamics of a non-harmonically confined macroscopic fractional quantum Hall fluid. In the long-wavelength and weak excitation limit, observable consequences of the fractional transverse conductivity are recovered. The first non-universal corrections to the chiral Luttinger liquid theory are then characterized: for a weak excitation in the linear response regime, cubic corrections to the linear wave dispersion and a broadening of the dynamical structure factor of the edge excitations are identified; for stronger excitations, sizable nonlinear effects are found in the dynamics. The numerically observed features are quantitatively captured by a nonlinear chiral Luttinger liquid quantum Hamiltonian that reduces to a driven Korteweg-de Vries equation in the semiclassical limit. Experimental observability of our predictions is finally discussed.
翻訳日:2023-02-23 05:35:48 公開日:2022-09-12
# 塊状超伝導ネットワークの代数的正準量子化

Algebraic canonical quantization of lumped superconducting networks ( http://arxiv.org/abs/2203.06167v3 )

ライセンス: Link先を確認
I. L. Egusquiza and A. Parra-Rodriguez(参考訳) 本稿では,冗長な構成空間記述を用いた集中定数超伝導ネットワークの体系的正準量子化手法を提案する。 このアルゴリズムは、ウィリアムソンの定理の特別な例である正の半定義ハミルトニアン行列のシンプレクティック対角化のオリジナルで明示的で構成的な実装に基づいている。 これにより、受動的因果システムの正準量子化離散変数記述を導出する。 我々は,このアルゴリズムを代表的な特異電気ネットワーク,ブラックボックス量子化法のための非相互拡張,およびアルキペアル・ランダウ量子化問題で例示する。

We present a systematic canonical quantization procedure for lumped-element superconducting networks by making use of a redundant configuration-space description. The algorithm is based on an original, explicit, and constructive implementation of the symplectic diagonalization of positive semidefinite Hamiltonian matrices, a particular instance of Williamson's theorem. With it, we derive canonically quantized discrete-variable descriptions of passive causal systems. We exemplify the algorithm with representative singular electrical networks, a nonreciprocal extension for the black-box quantization method, as well as an archetypal Landau quantization problem.
翻訳日:2023-02-22 09:24:24 公開日:2022-09-12
# 暗黒状態誘起熱整流

Dark-State-Induced Heat Rectification ( http://arxiv.org/abs/2203.12623v2 )

ライセンス: Link先を確認
Kasper Poulsen, Nikolaj T. Zinner(参考訳) 量子技術の継続的な発展には熱とノイズの制御が不可欠である。 この目的のために、特に強力な道具は熱整流器であり、2つの浴槽の1つの構成で熱輸送を可能にするが、逆ではない。 本研究では, 低温浴槽の一方向性を利用して, システムを暗い状態に強制し, 2つの浴槽の1つの構成で熱輸送を阻害する整流器のクラスを提案する。 しかし、2つの浴室が入れ替わっていれば、熱電流が観測される。 2つの高調波発振器に結合したクエットを用いた実装を提案し、現実的なパラメータ値に対して10^3$を超える補正値を実現する。 さらに、ダイオード機能を低下させることなく、外部駆動により熱電流を桁違いに増幅できることを示す。 熱整流効果は幅広いパラメータで見られ、減衰と劣化の両方に対して頑健である。

Heat and noise control is essential for the continued development of quantum technologies. For this purpose, a particularly powerful tool is the heat rectifier, which allows for heat transport in one configuration of two baths but not the reverse. Here we propose a class of rectifiers that exploits the unidirectionality of a low temperature bath to force the system into a dark state thus blocking heat transport in one configuration of the two baths. However, if the two baths are switched around, a heat current is observed. An implementation using a qutrit coupled to two harmonic oscillators is proposed and rectification values beyond $10^3$ are achieved for realistic parameter values. Furthermore, we show that the heat current can be amplified by an order of magnitude through external driving without diminishing the diode functionality. The heat rectification effect is seen for a large range of parameters, and it is robust towards both decay and dephasing.
翻訳日:2023-02-21 02:31:24 公開日:2022-09-12
# 一般化エレファント量子ウォークによる局所状態および非局所状態からの絡み合い強化

Enhancing entanglement with the generalized elephant quantum walk from localized and delocalized states ( http://arxiv.org/abs/2203.17046v2 )

ライセンス: Link先を確認
Caio B. Naves, Marcelo A. Pires, Diogo O. Soares-Pinto, S\'ilvio M. Duarte Queir\'os(参考訳) 近年、ゾウ量子ウォーク(EQW)と呼ばれる非標準ステップ演算子の一般化が導入された。 ステップの適切な統計分布により、一般化されたEQW(gEQW)は、標準拡散から%過拡散、弾道的および超球的拡散まで、無数の動的スケーリング挙動を示すように調整することができる。 本研究では, ステップサイズの統計値と初期状態の非局在化がコインの絡み合いエントロピーに及ぼす影響について検討する。 以上の結果から,geqwは初期ローカライズド・ウォーカーを考慮したほぼすべての初期硬貨状態と硬貨操作者に対して最大絡み合い状態を生成し,非局在状態に対しては適切な制限をとれば同じ条件が保証されることが示された。 従来のQWによる高絡み合い状態を生成するプロトコルとは異なり、このモデルは弾道拡散による上界ではなく、より遅い弾道性から高速な弾道性に至るまでのプログラム可能なセットアップにおいて、動的に乱れたQWを堅牢な最大絡み合い発生器として応用するための新たな展望を開く。

Recently, it was introduced a generalization of a nonstandard step operator named the elephant quantum walk (EQW). With proper statistical distribution for the steps, that generalized EQW (gEQW) can be tuned to exhibit a myriad of dynamical scaling behavior ranging from standard diffusion to %and superdiffusion to ballistic and hyperballistic spreading. In this work, we study the influence of the statistics of the step size and the delocalization of the initial states on the entanglement entropy of the coin. Our results show that the gEQW generates maximally entangled states for almost all initial coin states and coin operators considering initially localized walkers and for the delocalized ones, taking the proper limit, the same condition is guaranteed. Differently from all the previous protocols that produce highly entangled states via QWs, this model is not upper-bounded by ballistic spreading and hence opens novel prospects for applications of dynamically disordered QWs as a robust maximal entanglement generator in programmable setups that ranges from slower-than-ballistic to faster-than ballistic.
翻訳日:2023-02-20 05:01:09 公開日:2022-09-12
# カリフォルニア州消費者プライバシ法(CCPA)の実施に関する実証的評価

An Empirical Evaluation of the Implementation of the California Consumer Privacy Act (CCPA) ( http://arxiv.org/abs/2205.09897v2 )

ライセンス: Link先を確認
Trong Nguyen(参考訳) 2020年1月1日、カリフォルニア州はカリフォルニア州住民のプライバシーの権利と消費者保護を強化することを意図した有権者の56%以上がカリフォルニア州消費者プライバシ法(CCPA)を可決した。 それ以来、消費者のプライバシーを支援する法律にさらに多くの条件が加えられた。 さらに、CCPAの最初の有効デーから2年後、消費者はカリフォルニア州の組織がCCPAに適応するためにアプローチを適用するのを見た。 多くの組織は、すぐにポリシーをアップグレードして法律を遵守し、消費者がプライバシーの権利を行使できるデータポータルのような効果的なプラットフォームを作る。 しかし,一部のウェブサイトではCCPAが欠落していることに気付いた。 また,組織におけるCCPA導入の事前評価は見つからなかった。 したがって、規制の状況と組織のプライバシーポリシーの収束について研究する必要がある。 本稿では,カリフォルニア州消費者プライバシ法の実施に関する実証的な評価について述べる。 報告書には、ソーシャルメディア、金融機関、住宅ローン、医療提供者、学術機関などの産業の評価が含まれている。 我々のアプローチは、CCPA法から構築された基準表を設定し、その表を会社のプライバシー通知をレビューしながらチェックリストとして使用することです。 最後に,CCPAの実装を検証したオンラインツールアプリケーションの設計で論文を締めくくった。 完成すると、アプリケーションは無料で利用でき、消費者はCCPA準拠のウェブサイトをすばやく検査できる。 また、ウェブサイト管理者がウェブサイトのCCPAコンプライアンスを強化するために利用できるアドバイスツールである。 この実証レポートと実用的応用機能の連携は、CCPAの組織における実施を促進し、消費者に要求できるプライバシーの権利を認知させる刺激となる。

On January 1, 2020, California passed the California Consumer Privacy Act (CCPA) by more than 56% of voters intended to enhance privacy rights and consumer protection for residents of California, United States. Since then, more conditions have been added to the Act to support consumers' privacy. In addition, two years after the first effective day of CCPA, consumers have seen California organizations apply approaches to adapt to CCPA. Many organizations quickly upgrade their policy to comply with the legislation and create effective platforms such as data portals that allow consumers to exercise their privacy rights. However, on the other hand, we still noticed aspects of CCPA being absent on some websites. Additionally, we found no prior evaluation of the CCPA implementation in organizations. Therefore, the convergence of the regulatory landscape and the organization's privacy policy needs to be studied. This paper was about an empirical evaluation of the implementation of the California Consumer Privacy Act. The report includes the evaluations of the following industries: social media, financial institutions, mortgages, healthcare providers, and academic institutions. Our approach was to set up a criteria table constructed from the CCPA Act and then use that table as a checklist while reviewing a company's privacy notice. Finally, we concluded this paper with an online tool application design that verifies the CCPA implementation. Upon completion, the application would be free to use so consumers can quickly inspect a website for CCPA compliance. Additionally, it is an advising tool that a website admin can utilize to enhance CCPA compliance for their website. The conjunction of this empirical report and a practical application function as a stimulus to promote CCPA implementation in organizations and deliver awareness to consumers about privacy rights they can demand.
翻訳日:2023-02-19 17:06:25 公開日:2022-09-12
# ソフトウェアアーキテクチャ教育を支援するケースベース学習アプローチを目指して

Towards a case-based learning approach to support software architecture education ( http://arxiv.org/abs/2210.04794v1 )

ライセンス: Link先を確認
Brauner R. N. Oliveira and Elisa Y. Nakagawa(参考訳) ソフトウェアアーキテクチャ教育は、インストラクター、学生、ソフトウェア産業の専門家にとって依然として難しい。 ゲーム、サポートツール、コラボレーティブコース、ハンズオンプロジェクトなど、固有の課題を軽減するためにいくつかのイニシアティブが提案されている。 ケースベースの学習はソフトウェアアーキテクチャに導入され、その利点が認められている。 しかし,高次学習を実現するための学習目標と学習活動の発達をカバーする適切な事例を選択することも困難である。 本研究の目的は,学習目標の開発,実世界のソフトウェアアーキテクチャ事例の発見と選択,指導活動の設計を導くケースベースの学習手法を提案することである。 ここ数年、ソフトウェアアーキテクチャ関連のコースに私たちのアプローチを適用しました。 その結果,ソフトウェアアーキテクチャ教育にインストラクタや学生を動機づけると同時に,教育目的の事例を適切に探究する方法を活用できることが示されている。

Software architecture education remains challenging for instructors, students, and software industry professionals. Several initiatives have been proposed to mitigate the inherent challenges, including games, supporting tools, collaborative courses, and hands-on projects. Case-based learning has been introduced in software architecture, and its benefits are recognized. However, choosing the right cases that cover the stated learning objectives and developing learning activities to achieve high-order learning are also challenging. The main goal of this paper is to present a case-based learning approach that guides the development of learning objectives, the finding and selection of real-world software architecture cases, and the design of instructional activities. We applied our approach in software architecture related courses during the past few years. The results show that it can leverage the ways to adequately explore cases for educational purposes while also motivating instructors and students to the software architecture education.
翻訳日:2023-02-19 11:37:51 公開日:2022-09-12
# 良い犬って何? ヴェネツィア共和国のパトリシア社会ネットワークの分析

What is a good doge? Analyzing the patrician social network of the Republic of Venice ( http://arxiv.org/abs/2209.07334v1 )

ライセンス: Link先を確認
J. J. Merelo-Guerv\'os(参考訳) ヴェネツィア共和国は最も成功した近代国家の1つであり、イノベーション、商業的カウンニング、植民地の搾取、法的な安定を通じて千年にわたって存続した。 この成功の一部は、比較的限られたヴェネツィアのパトリシア系家族の中から選ばれた犬によって統治された共和国の政府構造によるものかもしれない。 本稿では、結婚を通じて形成した社会ネットワークの構造と、パトリシア人となった比較的小さな家族によって政府がいかに独占されたかを分析した。

The Venetian republic was one of the most successful trans-modern states, surviving for a millennium through innovation, commercial cunning, exploitation of colonies and legal stability. Part of the success might be due to its government structure, a republic ruled by a doge chosen among a relatively limited set of Venetian patrician families. In this paper we analyze the structure of the social network they formed through marriage, and how government was monopolized by a relatively small set of families, the one that became patrician first.
翻訳日:2023-02-19 11:10:30 公開日:2022-09-12
# 共同避難経路とスケジューリング問題に対するスケーラブルなデータ駆動手法

A Scalable Data-Driven Technique for Joint Evacuation Routing and Scheduling Problems ( http://arxiv.org/abs/2209.01535v2 )

ライセンス: Link先を確認
Kazi Ashik Islam, Da Qi Chen, Madhav Marathe, Henning Mortveit, Samarth Swarup, Anil Vullikanti(参考訳) 避難計画(Evacuation planning)は、住民を安全な場所に移動させ、被害を最小限に抑えることを目的とする災害管理の重要な部分である。 すべての避難計画にはルーティングとスケジューリングという2つの重要な要素がある。 しかし, 平均避難時間や避難完了時間の最小化などの目的と組み合わせた2成分の最適化は, 計算量的に難しい問題である。 そこで本研究では,ヒューリスティック探索と数学的最適化を組み合わせた拡張性のある最適化手法であるMIP-LNSを提案する。 我々はテキサス州ヒューストンのハリス郡からの実際の道路網と人口データを使い、MIP-LNSを用いて地域への避難ルートとスケジュールを見つける。 提案手法は,所定の時間内に平均避難時間,避難完了時間,解の最適性保証の観点から,既存の手法よりも優れた解を求める。 本研究領域では,エージェントによる避難シミュレーションを行い,ソリューションの有効性とロバスト性を実証した。 提案するスケジュールからある程度逸脱しても,所定の避難計画が有効であることを示す。 また,道路事故による避難計画への影響についても検討した。 以上の結果から,MIP-LNSは道路の工期推定情報を利用して,より優れた避難計画を立てることができることがわかった。

Evacuation planning is a crucial part of disaster management where the goal is to relocate people to safety and minimize casualties. Every evacuation plan has two essential components: routing and scheduling. However, joint optimization of these two components with objectives such as minimizing average evacuation time or evacuation completion time, is a computationally hard problem. To approach it, we present MIP-LNS, a scalable optimization method that combines heuristic search with mathematical optimization and can optimize a variety of objective functions. We use real-world road network and population data from Harris County in Houston, Texas, and apply MIP-LNS to find evacuation routes and schedule for the area. We show that, within a given time limit, our proposed method finds better solutions than existing methods in terms of average evacuation time, evacuation completion time and optimality guarantee of the solutions. We perform agent-based simulations of evacuation in our study area to demonstrate the efficacy and robustness of our solution. We show that our prescribed evacuation plan remains effective even if the evacuees deviate from the suggested schedule upto a certain extent. We also examine how evacuation plans are affected by road failures. Our results show that MIP-LNS can use information regarding estimated deadline of roads to come up with better evacuation plans in terms evacuating more people successfully and conveniently.
翻訳日:2023-02-19 10:56:43 公開日:2022-09-12
# 重要なインフラの持続性と安全性に対するai法の提案の影響を予見する

Foreseeing the Impact of the Proposed AI Act on the Sustainability and Safety of Critical Infrastructures ( http://arxiv.org/abs/2208.14451v3 )

ライセンス: Link先を確認
Francesco Sovrano, Giulio Masetti(参考訳) AI法は、欧州委員会によって、特に高リスクアプリケーション、すなわち道路交通の管理と運用、水、ガス、暖房、電気の供給における安全コンポーネントとして使用されることを意図したシステムにおいて、EUにおけるAIの使用を規制するよう提案されている。 一方、安全クリティカルな電子部品の国際標準の1つであるIEC 61508は、そうしたシステムにおけるAIの使用をほとんど禁止しているようである。 iec 61508と提案されたai法との対立を考えると、iec 61508は欧州標準と調和していないことを強調し、本論文ではai法の施行後に産業がどうなるかを研究し分析する。 特に、提案されたAI法が、これまで禁止されていた業界におけるAIの使用を許可することで、重要なインフラの持続可能性にどう影響するかに注目します。 そのために、我々は、現在のeuの長期的な目標と国連の持続可能な開発目標、すなわち安価でクリーンなエネルギー、持続可能な都市やコミュニティと一致して、持続可能性に影響を与える可能性がある、iec 61508の傘下にあるaiベースのソリューションのいくつかの例を提供する。

The AI Act has been recently proposed by the European Commission to regulate the use of AI in the EU, especially on high-risk applications, i.e. systems intended to be used as safety components in the management and operation of road traffic and the supply of water, gas, heating and electricity. On the other hand, IEC 61508, one of the most adopted international standards for safety-critical electronic components, seem to mostly forbid the use of AI in such systems. Given this conflict between IEC 61508 and the proposed AI Act, also stressed by the fact that IEC 61508 is not an harmonised European standard, with the present paper we study and analyse what is going to happen to industry after the entry into force of the AI Act. In particular, we focus on how the proposed AI Act might positively impact on the sustainability of critical infrastructures by allowing the use of AI on an industry where it was previously forbidden. To do so, we provide several examples of AI-based solutions falling under the umbrella of IEC 61508 that might have a positive impact on sustainability in alignment with the current long-term goals of the EU and the Sustainable Development Goals of the United Nations, i.e., affordable and clean energy, sustainable cities and communities.
翻訳日:2023-02-19 10:53:41 公開日:2022-09-12
# Fiat-Shamir:共有絡みがあっても証明できない証明

Fiat-Shamir for Proofs Lacks a Proof Even in the Presence of Shared Entanglement ( http://arxiv.org/abs/2204.02265v2 )

ライセンス: Link先を確認
Fr\'ed\'eric Dupuis, Philippe Lamontagne, Louis Salvail(参考訳) 任意の共有物理リソースの暗号能力について検討する。 最も一般的なリソースは、プロトコルの実行開始時に、新しい絡み合った量子状態へのアクセスである。 これをCRQS(Common Reference Quantum State)モデルと呼び、よく知られたCommon Reference String(CRS)と類似しています。 CRQSモデルは、CRSモデルの自然な一般化であるが、より強力であるように見える: 二つの党構成では、CRQSは、互いに偏りのない多くの基底のうちの1つにおいて、最大に絡み合った状態を測定することによって、一度クエリされたランダムOracleに関連する性質を示すことがある。 我々は、この概念をWak One-Time Random Oracle (WOTRO) として定式化し、$m$-bitの出力だけを要求すれば、$n$-bitの入力で条件付けられたときにランダム性を持つ。 n-m\in\omega(\lg n)$の場合、crqsモデルにおけるwotroのプロトコルは(非効率な)敵に攻撃される。 さらに、我々の敵は効率的にシミュラブルであり、暗号ゲーム仮定へのブラックボックス還元によるスキームの計算安全性を証明する可能性を規定している。 一方、CRQ\$モデル(CRQS は EPR ペアのみからなる)における WOTRO を暗示するハッシュ関数に対して、非量子的な量子仮定を導入する。 最初に統計的にセキュアなWOTROプロトコルを構築し、$m=n$で出力をハッシュします。 WOTROの不可能性は以下の結果をもたらす。 まず,量子フィアット・シャミール変換のブラックボックス化不可能性を示し,ビタンスキーら (tcc '13) の不可能性結果をcrqsモデルに拡張する。 第2に、量子ボルトが新しいボルトを発生させずに変更できない追加パラメータを持つ量子稲妻(Zhandry, Eurocrypt '19)の強化版に対するブラックボックス不合理性結果を示す。

We explore the cryptographic power of arbitrary shared physical resources. The most general such resource is access to a fresh entangled quantum state at the outset of each protocol execution. We call this the Common Reference Quantum State (CRQS) model, in analogy to the well-known Common Reference String (CRS). The CRQS model is a natural generalization of the CRS model but appears to be more powerful: in the two-party setting, a CRQS can sometimes exhibit properties associated with a Random Oracle queried once by measuring a maximally entangled state in one of many mutually unbiased bases. We formalize this notion as a Weak One-Time Random Oracle (WOTRO), where we only ask of the $m$--bit output to have some randomness when conditioned on the $n$--bit input. We show that when $n-m\in\omega(\lg n)$, any protocol for WOTRO in the CRQS model can be attacked by an (inefficient) adversary. Moreover, our adversary is efficiently simulatable, which rules out the possibility of proving the computational security of a scheme by a black-box reduction to a cryptographic game assumption. On the other hand, we introduce a non-game quantum assumption for hash functions that implies WOTRO in the CRQ\$ model (where the CRQS consists only of EPR pairs). We first build a statistically secure WOTRO protocol where $m=n$, then hash the output. The impossibility of WOTRO has the following consequences. First, we show the black-box impossibility of a quantum Fiat-Shamir transform, extending the impossibility result of Bitansky et al. (TCC '13) to the CRQS model. Second, we show a black-box impossibility result for a strenghtened version of quantum lightning (Zhandry, Eurocrypt '19) where quantum bolts have an additional parameter that cannot be changed without generating new bolts.
翻訳日:2023-02-18 05:28:44 公開日:2022-09-12
# 曲面時空におけるスピンハーフ粒子の幾何学的ポストニュートン的記述

Geometric post-Newtonian description of spin-half particles in curved spacetime ( http://arxiv.org/abs/2204.05997v3 )

ライセンス: Link先を確認
Ashkan Alibabaei(参考訳) アインシュタイン同値原理(Einstein Equivalence Principle、EEP)は、すべての物質成分が単一の共通幾何学(時空の原理)を通して重力に普遍的に結合することを要求する。 これは重力との相互作用を考えるとすぐに量子論と幾何学を関連付ける。 本研究では、スピン1/2粒子を2重展開スキームで重力に結合する幾何学的理論について研究する。第一に、望ましい世界線(例えば、実験室の時計)のフェルミ正規座標に基づく距離について、第二に1/c(ポストニュートン展開)についてである。 ここでは、QFTの大規模スピノル場の一粒子セクターを古典的場によって効果的に記述する。 1/cの力の形式的な拡張は、量子系に対するGR補正の体系的かつ完全な生成をもたらす。 私は1/c^2で文献で見落とされた新しい用語を見つけ、近似のレベルを次の順に広げた。 これらの発見は、対応する感度の量子実験の記述に重力補正を一貫して含み、また、量子領域におけるEEPのようなGRの試験的な側面に対しても重要である。

Einstein Equivalence Principle (EEP) requires all matter components to universally couple to gravity via a single common geometry: that of spacetime. This relates quantum theory with geometry as soon as interactions with gravity are considered. In this work, I study the geometric theory of coupling a spin-1/2 particle to gravity in a twofold expansion scheme: First with respect to the distance based on Fermi normal coordinates around a preferred worldline (e.g., that of a clock in the laboratory), second with respect to 1/c (post-Newtonian expansion). I consider the one-particle sector of a massive spinor field in QFT, here described effectively by a classical field. The formal expansion in powers of 1/c yields a systematic and complete generation of GR corrections for quantum systems. I find new terms that were overlooked in the literature at order 1/c^2 and extended the level of approximation to the next order. These findings are significant for a consistent inclusion of gravity corrections in the description of quantum experiments of corresponding sensitivities, and also for testing aspects of GR, like the EEP, in the quantum realm.
翻訳日:2023-02-17 05:14:12 公開日:2022-09-12
# スピン-軌道相互作用を持つ結合超伝導スピン量子ビット

Coupled superconducting spin qubits with spin-orbit interaction ( http://arxiv.org/abs/2205.03843v2 )

ライセンス: Link先を確認
Maria Spethmann, Xian-Peng Zhang, Jelena Klinovaja, Daniel Loss(参考訳) 超伝導スピン量子ビット、またはアンドレフスピン量子ビットは、超伝導量子ビットと量子ドットで定義されたスピン量子ビットの利点を組み合わせることを約束する。 これらの量子ビットを制御するほとんどのアプローチは超電流によるスピン自由度制御に依存しているが、超伝導スピン量子ビットは超伝導体を介して互いに結合して2量子ビット量子ゲートを実装することもできる。 理論上は、弱いトンネル状態における超伝導スピン量子ビット間の相互作用を調べ、半導体ベースの量子ドットで大きいスピン軌道相互作用(soi)の効果に集中し、量子ゲートに対する追加のチューニングパラメータを提供する。 2つの超伝導スピンキュービット間の効果的な相互作用は,Ising,Heisenberg,Dzyaloshinskii-Moriyaの相互作用から成り,超伝導相差,トンネルバリア強度,SOIパラメータによって調整できることがわかった。 ジョセフソン電流はSOIとスピン配向に依存する。 この相互作用は、忠実度99.99%の高速制御位相フリップゲートに利用できることを示す。 本稿では,表面コードの実装に適した超伝導スピン量子ビットのスケーラブルネットワークを提案する。

Superconducting spin qubits, also known as Andreev spin qubits, promise to combine the benefits of superconducting qubits and spin qubits defined in quantum dots. While most approaches to control these qubits rely on controlling the spin degree of freedom via the supercurrent, superconducting spin qubits can also be coupled to each other via the superconductor to implement two-qubit quantum gates. We theoretically investigate the interaction between superconducting spin qubits in the weak tunneling regime and concentrate on the effect of spin-orbit interaction (SOI), which can be large in semiconductor-based quantum dots and thereby offers an additional tuning parameter for quantum gates. We find analytically that the effective interaction between two superconducting spin qubits consists of Ising, Heisenberg, and Dzyaloshinskii-Moriya interactions and can be tuned by the superconducting phase difference, the tunnel barrier strength, or the SOI parameters. The Josephson current becomes dependent on SOI and spin orientations. We demonstrate that this interaction can be used for fast controlled phase-flip gates with a fidelity >99.99%. We propose a scalable network of superconducting spin qubits which is suitable for implementing the surface code.
翻訳日:2023-02-13 23:02:20 公開日:2022-09-12
# 二部多角形モデル:絡み合いクラスとその非局所挙動

Bipartite polygon models: entanglement classes and their nonlocal behaviour ( http://arxiv.org/abs/2205.05415v2 )

ライセンス: Link先を確認
Mayalakshmi K, Thigazholi Muruganandan, Sahil Gopalkrishna Naik, Tamal Guha, Manik Banik, Sutapa Saha(参考訳) 定形多角形によって記述された状態空間を持つ基本玩具システムの二成分組成について検討した。 このような系の最大テンソル積合成における絡み合った状態を特徴付ける体系的な方法を提案する。 この方法を適用すると、二分五角形系は2つと正確に2つの異なる絡み合い状態のクラスを許すが、六角形の場合、完全に6つの絡み合い状態のクラスが存在することを示す。 すると、任意の二部奇角系に対する極大絡み合い状態がハーディの非局所性振舞いを表わさないという一般のno-go結果が証明される。 しかし、等角形のそのような状態はハーディの非局所性を示し、その場合、基本系における極端な状態の増加とともに最適な成功確率は減少する。 非最大エンタングル状態に対する最適ハーディの成功確率も研究され、それらの系における量子相関を超える存在が確立される。 さらに、これらの系の混合状態は、2キュービットの場合とは異なり、2キュービット系に存在しない特定の位相的特徴によって生じるハーディの非局所性挙動を表現できることが示されている。

We study the bipartite composition of elementary toy systems with state spaces described by regular polygons. We provide a systematic method to characterize the entangled states in the maximal tensor product composition of such systems. Applying this method, we show that while a bipartite pentagon system allows two and exactly two different classes of entangled states, in the hexagon case, there are exactly six different classes of entangled states. We then prove a generic no-go result that the maximally entangled state for any bipartite odd gon system does not depict Hardy's nonlocality behaviour. However, such a state for even gons exhibits Hardy's nonlocality, and in that case, the optimal success probability decreases with the increasing number of extreme states in the elementary systems. Optimal Hardy's success probability for the non-maximally entangled states is also studied that establishes the presence of beyond quantum correlation in those systems, although the resulting correlation lies in the almost quantum set. Furthermore, it has been shown that mixed states of these systems, unlike the two-qubit case, can depict Hardy's nonlocality behaviour which arises due to a particular topological feature of these systems not present in the two-qubit system.
翻訳日:2023-02-13 12:40:17 公開日:2022-09-12
# 古典的および量子的アニーリングのための縮退工学:衝突物理における疎線形回帰の事例研究

Degeneracy Engineering for Classical and Quantum Annealing: A Case Study of Sparse Linear Regression in Collider Physics ( http://arxiv.org/abs/2205.10375v2 )

ライセンス: Link先を確認
Eric R. Anschuetz, Lena Funcke, Patrick T. Komiske, Serhii Kryhin, and Jesse Thaler(参考訳) 古典的および量子アニールは、幅広い最適化問題を解決するために提案された計算パラダイムである。 本稿では,対象ハミルトニアンの項のサブセットを変更することで,基底状態の相対的縮退を増大させる縮退工学技術を導入することにより,アニールアルゴリズムの性能を向上させることを目的とする。 一般にnpハード最適化問題であるスパース線形回帰に対する$\ell_0$-norm正規化の例に適用して、この新しいアプローチを説明する。 具体的には、アニーリングプラットフォーム上での実装に適した2次非制約バイナリ最適化(QUBO)問題として$\ell_0$-norm正規化をキャストする方法を示す。 このQUBO定式化を高エネルギーコライダー物理学におけるエネルギーフロー多項式に適用し、縮退工学がアニーリング性能を大幅に改善することを発見した。 本研究は,様々な最適化問題に対する縮退工学の適用を動機付けるものである。

Classical and quantum annealing are computing paradigms that have been proposed to solve a wide range of optimization problems. In this paper, we aim to enhance the performance of annealing algorithms by introducing the technique of degeneracy engineering, through which the relative degeneracy of the ground state is increased by modifying a subset of terms in the objective Hamiltonian. We illustrate this novel approach by applying it to the example of $\ell_0$-norm regularization for sparse linear regression, which is in general an NP-hard optimization problem. Specifically, we show how to cast $\ell_0$-norm regularization as a quadratic unconstrained binary optimization (QUBO) problem, suitable for implementation on annealing platforms. As a case study, we apply this QUBO formulation to energy flow polynomials in high-energy collider physics, finding that degeneracy engineering substantially improves the annealing performance. Our results motivate the application of degeneracy engineering to a variety of regularized optimization problems.
翻訳日:2023-02-12 07:57:18 公開日:2022-09-12
# 例外点とダイアボリック点の距離と非エルミート系の応答強度への意味

Distance between exceptional points and diabolic points and its implication for the response strength of non-Hermitian systems ( http://arxiv.org/abs/2205.15685v2 )

ライセンス: Link先を確認
Jan Wiersig(参考訳) 例外点は、開量子系と波動系における非エルミート的縮退であり、固有エネルギーだけでなく対応する固有状態も合体する。 これは、保守的なシステム、いわゆるダイアボリック・ポイントで知られている、固有エネルギーのみが縮退する縮退とは対照的である。 ここでは、行列空間における与えられた例外点の距離の概念をダイアボリック点の集合に導入することにより、これら2種類の退化を結びつける。 この距離は、この例外点を持つ非エルミート系の応答強度の上界を決定することが証明される。 したがって、小さな距離は摂動に対する弱いスペクトル応答と励起に対する弱い強度応答を意味する。 この発見は、双曲点の摂動に依存する例外点の物理的実現に大きな影響を与える。 さらに,この概念を利用して受動系におけるスペクトル応答強度の限界を分析する。 この理論を説明するために、多くの光学系とフォトニクス系が研究されている。

Exceptional points are non-Hermitian degeneracies in open quantum and wave systems at which not only eigenenergies but also the corresponding eigenstates coalesce. This is in strong contrast to degeneracies known from conservative systems, so-called diabolic points, at which only eigenenergies degenerate. Here we connect these two kinds of degeneracies by introducing the concept of the distance of a given exceptional point in matrix space to the set of diabolic points. We prove that this distance determines an upper bound for the response strength of a non-Hermitian system with this exceptional point. A small distance therefore implies a weak spectral response to perturbations and a weak intensity response to excitations. This finding has profound consequences for physical realizations of exceptional points that rely on perturbing a diabolic point. Moreover, we exploit this concept to analyze the limitations of the spectral response strength in passive systems. A number of optical and photonics systems are investigated to illustrate the theory.
翻訳日:2023-02-11 03:58:51 公開日:2022-09-12
# 時間最適ホロノミック量子計算

Time optimal holonomic quantum computation ( http://arxiv.org/abs/2206.06502v2 )

ライセンス: Link先を確認
Gabriel O. Alves, Erik Sj\"oqvist(参考訳) 3レベルシステムは、非アベリア非アディアバティック幾何学的位相を用いて量子ゲートの普遍的な集合を構築するために、$\Lambda$-type構成で使用できる。 このような構造により、デコヒーレンスの影響を減少させる高速動作が可能となる。 しかし、回転波近似(RWA)の妥当性の低下は、反回転項とパルス長の時間スケールに匹敵するものであり、ダイナミクスに大きな影響を及ぼす可能性がある。 本稿では, 散逸効果とRWA妥当性のトレードオフについて検討し, ホロノミック量子ゲートの動作に最適な状態を求める。

A three-level system can be used in a $\Lambda$-type configuration in order to construct a universal set of quantum gates through the use of non-Abelian non-adiabatic geometrical phases. Such construction allows for high-speed operation times which diminish the effects of decoherence. This might be, however, accompanied by a breakdown of the validity of the rotating wave approximation (RWA) due to the comparable time scale between counter-rotating terms and the pulse length, which greatly affects the dynamics. Here, we investigate the trade-off between dissipative effects and the RWA validity, obtaining the optimal regime for the operation of the holonomic quantum gates.
翻訳日:2023-02-09 12:19:11 公開日:2022-09-12
# ニューラルネットワークによる分子基底状態の測定効率の向上

Neural network enhanced measurement efficiency for molecular groundstates ( http://arxiv.org/abs/2206.15449v2 )

ライセンス: Link先を確認
Dmitri Iouchtchenko, J\'er\^ome F. Gonthier, Alejandro Perdomo-Ortiz, Roger G. Melko(参考訳) 量子コンピュータの最初の有用な応用の1つは、分子ハミルトニアンの基底状態の準備であると考えられている。 状態準備と読み出しを含む重要なタスクは、そのような状態の物理的観測可能値を取得することである。 現在、測定データはあらゆる量子コンピューティングアーキテクチャで得られるのに費用と時間を要するため、推定器の統計的誤差には大きな影響がある。 本稿では,一般的なニューラルネットワークモデル (restricted boltzmann machine and recurrent neural network) を用いて,典型的な測定データから,いくつかの始型的分子量子ハミルトニアンの複雑な基底状態波動関数を学習する。 再構成された基底エネルギーの$\varepsilon$の精度を測定数に関連付けることにより、ニューラルネットワークモデルを使用することで、観測対象の再構成に単一コピー計測結果のみを使用することよりも堅牢な改善が得られます。 この拡張は、古典的なシャドウトモグラフィーの場合の$\varepsilon^{-1}$とは対照的に、モデルベースのアプローチに対して$\varepsilon^{-1}$に近い漸近スケーリングをもたらす。

It is believed that one of the first useful applications for a quantum computer will be the preparation of groundstates of molecular Hamiltonians. A crucial task involving state preparation and readout is obtaining physical observables of such states, which are typically estimated using projective measurements on the qubits. At present, measurement data is costly and time-consuming to obtain on any quantum computing architecture, which has significant consequences for the statistical errors of estimators. In this paper, we adapt common neural network models (restricted Boltzmann machines and recurrent neural networks) to learn complex groundstate wavefunctions for several prototypical molecular qubit Hamiltonians from typical measurement data. By relating the accuracy $\varepsilon$ of the reconstructed groundstate energy to the number of measurements, we find that using a neural network model provides a robust improvement over using single-copy measurement outcomes alone to reconstruct observables. This enhancement yields an asymptotic scaling near $\varepsilon^{-1}$ for the model-based approaches, as opposed to $\varepsilon^{-2}$ in the case of classical shadow tomography.
翻訳日:2023-02-07 04:34:01 公開日:2022-09-12
# 充電用量子電池の最適量子制御

Optimal Quantum Control of Charging Quantum Batteries ( http://arxiv.org/abs/2207.00094v2 )

ライセンス: Link先を確認
R. R. Rodriguez, B. Ahmadi, G. Suarez, P. Mazurek, S. Barzanjeh and P. Horodecki(参考訳) 量子制御は、特別な目的のためにエンジニアリング量子力学の問題を解決することができる。 近年, 量子電池の分野が注目されているが, 帯電の最適化は量子制御方式の恩恵を受けていない。 ここでは最適化手法を用いてこのギャップを埋める。 この収束反復法が初めて2つのケースで2部量子系の集団の制御に適用する。 まず、qubit-qubitの場合に適用する。 量子チャージャー・バタリー系は、外部の古典電磁場によってチャージャーにエネルギーが汲み上げられると考えられている。 第二に,ガウス体制における2つの高調波振動子の元の定式化を体系的に展開する。 どちらの場合も、充電器は開散逸系と考えられる。 我々の最適化は、外部レーザー場のオンオフに関する実験的に実現可能な問題を考慮に入れている。 パルス形状の最適化は、既知の結果と比較して、充電プロセスの電力と効率を著しく向上させる。 高調波オシレータ電池の充電の最適化は特に単純であり、零温度状態にある最適なパルスは任意の温度に留まる。

Quantum control allows to address the problem of engineering quantum dynamics for special purposes. While recently the field of quantum batteries has attracted much attention, optimization of their charging has not benefited form the quantum control methods. Here we fill this gap by using an optimization method. We apply for the first time this convergent iterative method for the control of population of a bipartite quantum system for two cases. First, we apply it for a qubit-qubit case. The quantum charger-battery system is considered where the energy is pumped into the charger by an external classical electromagnetic field. Second we systematically develop the original formulation of the method for two harmonic-oscillators in the Gaussian regime. In both cases the charger is considered to be an open dissipative system. Our optimization takes into account the experimentally viable problem of turning-on and off of the external laser field. Optimising the shape of the pulse significantly boosts both power and efficiency of the charging process in comparison to the known results. Optimization of charging of harmonic-oscillator batteries is particularly simple, as the optimal pulse found in zero-temperature regime stays so for any arbitrary temperature.
翻訳日:2023-02-07 04:24:50 公開日:2022-09-12
# NISQ時代の超伝導量子プロセッサのためのマルチキュービット時変量子チャネル

Multi-qubit time-varying quantum channels for NISQ-era superconducting quantum processors ( http://arxiv.org/abs/2207.06838v2 )

ライセンス: Link先を確認
Josu Etxezarreta Martinez, Patricio Fuentes, Antonio deMarti iOlius, Javier Garcia-Fr\'ias, Javier Rodr\'iguez Fonollosa and Pedro M. Crespo(参考訳) 最近の実験により、超伝導量子ビットの緩和時間(t_1$)と低下時間(t_2$)は時間とともにかなり変動することが示された。 この$t_1$と$t_2$パラメータの時変特性を適切に考慮するため、時変量子チャネル(tvqcs)として知られる新しい量子チャネルのクラスが提案されている。 以前の研究では、マルチキュービットtvqcの実現は誤り訂正ブロックの全てのキュービットに等しいと仮定されており、$t_1$ と $t_2$ の変動を記述する確率変数はブロック対ブロックとは無関係であるが、同じブロックに対して完全に相関していることを示している。 物理的には、これらのデコヒーレンスパラメータのゆらぎは、不安定な近共振2レベルシステム (tls) と量子ビットの不整合結合によって説明される。 本稿では,マルチキュービット量子プロセッサ ibmq\_quito, ibmq\_belem, ibmq\_lima, ibmq\_santiago, ibmq\_bogota の緩和時間の相関解析を行う。 この結果から,超伝導量子ビットの緩和時間と劣化時間のゆらぎが系の各量子ビットに局所的であると仮定することは妥当であることが示唆された。 これらの結果に基づき、誤り訂正ブロックのデコヒーレンスパラメータのゆらぎが(ブロックからブロックまでの)qubit-wise非相関である場合のマルチキュービットTVQCについて考察し、FTVQC(Fast Time-Varying Quantum Channel)と命名した。 さらに、エルゴード量子容量と呼ばれる量に基づいて、一般FTVQCの量子容量を下げる。 最後に,FTVQC上で動作する量子誤り訂正符号(QECC)の性能について,数値シミュレーションを用いて検討する。

Recent experimental studies have shown that the relaxation time ($T_1$) and the dephasing time ($T_2$) of superconducting qubits fluctuate considerably over time. To appropriately consider this time-varying nature of the $T_1$ and $T_2$ parameters, a new class of quantum channels, known as Time-Varying Quantum Channels (TVQCs), has been proposed. In previous works, realizations of multi-qubit TVQCs have been assumed to be equal for all the qubits of an error correction block, implying that the random variables that describe the fluctuations of $T_1$ and $T_2$ are block-to-block uncorrelated, but qubit-wise perfectly correlated for the same block. Physically, the fluctuations of these decoherence parameters are explained by the incoherent coupling of the qubits with unstable near-resonant two-level-systems (TLS), which indicates that such variations may be local to each of the qubits of the system. In this article, we perform a correlation analysis of the fluctuations of the relaxation times of multi-qubit quantum processors ibmq\_quito, ibmq\_belem, ibmq\_lima, ibmq\_santiago and ibmq\_bogota. Our results show that it is reasonable to assume that the fluctuations of the relaxation and dephasing times of superconducting qubits are local to each of the qubits of the system. Based on these results, we discuss the multi-qubit TVQCs when the fluctuations of the decoherence parameters for an error correction block are qubit-wise uncorrelated (as well as from block-to-block), a scenario we have named the Fast Time-Varying Quantum Channel (FTVQC). Furthermore, we lower bound the quantum capacity of general FTVQCs based on a quantity we refer to as the ergodic quantum capacity. Finally, we use numerical simulations to study the performance of quantum error correction codes (QECC) when they operate over FTVQCs.
翻訳日:2023-02-05 01:30:08 公開日:2022-09-12
# トラップ支援による原子イオン結合状態の観察

Observation of trap-assisted formation of atom-ion bound states ( http://arxiv.org/abs/2208.06904v2 )

ライセンス: Link先を確認
Meirav Pinkas, Or Katz, Jonathan Wengrowicz, Nitzan Akerman, and Roee Ozeri(参考訳) 自由粒子対は運動量とエネルギー保存のために弾性衝突で境界状態を形成することができない。 しかし、多くの超低温実験において、粒子は質量中心と相対運動を結合し、境界状態の形成を助ける外部トラップ電位の存在下で衝突する。 ここでは、線形ポールトラップの存在下で、1つの超低温の$^{87}$Rb原子と1つの閉じ込められた$^{88}$Sr$^+$イオンとの間に形成される弱い結合した分子状態の観察について報告する。 境界状態は二元衝突で効率的に形成でき、非弾性過程の速度を高めることができる。 電子スピン交換速度を観察することにより、衝突エネルギーと磁場に対するこれらの境界状態の依存性を調べ、平均分子結合エネルギー$E_{\textrm{bind}}=0.7(1)$mK$\cdot k_B$と分子の寿命$\tau=0.3(1)\,\mu$sを分子力学シミュレーションとよく一致して抽出する。 シミュレーションにより, 極端に長寿命な事象に支配される平均を持つ分子ライフタイムの非常に異常なパワーロー分布を予測した。 トラップパラメータに対する分子特性の依存性は、超低温衝突の研究と制御のために新しい道を開く。

Pairs of free particles cannot form bound states in elastic collision due to momentum and energy conservation. In many ultracold experiments, however, the particles collide in the presence of an external trapping potential which can couple the center-of-mass and relative motions and assist the formation of bound-states. Here, we report on observation of weakly bound molecular states formed between one ultracold $^{87}$Rb atom and a single trapped $^{88}$Sr$^+$ ion in the presence of a linear Paul trap. We show that bound states can form efficiently in binary collisions, and enhance the rate of inelastic processes. By observing electronic spin-exchange rate, we study the dependence of these bound states on the collision energy and magnetic field and extract the average molecular binding energy $E_{\textrm{bind}}=0.7(1)$ mK$\cdot k_B$ and the mean lifetime of the molecule $\tau=0.3(1)\,\mu$s, with good agreement with molecular-dynamics simulations. Our simulations predict a highly unusual power-law distribution of molecular lifetimes with a mean that is dominated by extreme, long-lived, events. The dependence of the molecular properties on the trapping parameters opens new avenues to study and control ultracold collisions.
翻訳日:2023-01-31 03:54:52 公開日:2022-09-12
# 超伝導導体を有する量子ドットにおけるスピンスプリットアンドレエフ準位の分光

Spectroscopy of spin-split Andreev levels in a quantum dot with superconducting leads ( http://arxiv.org/abs/2208.09314v2 )

ライセンス: Link先を確認
Arno Bargerbos, Marta Pita-Vidal, Rok \v{Z}itko, Lukas J. Splitthoff, Lukas Gr\"unhaupt, Jaap J. Wesdorp, Yu Liu, Leo P. Kouwenhoven, Ram\'on Aguado, Christian Kraglund Andersen, Angela Kou, Bernard van Heck(参考訳) 我々は、ハイブリッド超伝導体-半導体トランスモンデバイスを用いて、不対準粒子を持つスピン1/2基底状態に調整された量子ドットジョセフソン接合の分光を行う。 スピン軌道結合のため、準粒子のスピンに依存するトランスモンスペクトルの2つの磁束感受性分岐を解消する。 有限磁場は2つの枝のエネルギーをシフトさせ、1つのスピン状態が好まれ、異常なジョセフソン効果をもたらす。 全電制御を用いた直接スピンフリップ遷移の励起を実演する。 スピンフリップ遷移の操作と制御により、将来の充電エネルギー保護andreevスピン量子ビットの実装が可能になる。

We use a hybrid superconductor-semiconductor transmon device to perform spectroscopy of a quantum dot Josephson junction tuned to be in a spin-1/2 ground state with an unpaired quasiparticle. Due to spin-orbit coupling, we resolve two flux-sensitive branches in the transmon spectrum, depending on the spin of the quasi-particle. A finite magnetic field shifts the two branches in energy, favoring one spin state and resulting in the anomalous Josephson effect. We demonstrate the excitation of the direct spin-flip transition using all-electrical control. Manipulation and control of the spin-flip transition enable the future implementation of charging energy protected Andreev spin qubits.
翻訳日:2023-01-30 12:07:21 公開日:2022-09-12
# シリコン量子ドットアレイによる電子スピンのシャットリング

Shuttling an electron spin through a silicon quantum dot array ( http://arxiv.org/abs/2209.00920v2 )

ライセンス: Link先を確認
A.M.J. Zwerver, S.V. Amitonov, S.L. de Snoo, M.T. M\k{a}dzik, M. Russ, A. Sammak, G. Scappucci, L.M.K. Vandersypen(参考訳) 数十マイクロメートルで分離された量子ビット間のコヒーレントなリンクは、電気的に定義された量子ドットにおけるスピン量子ビットのスケーラブルな量子コンピューティングアーキテクチャを促進することが期待されている。 これらのリンクは、キュービットアレイ間の古典的なオンチップ制御エレクトロニクスのスペースを作り、いわゆる配線ボトルネックを緩和するのに役立つ。 遠方のスピン量子ビット間のコヒーレントリンクを達成するための有望な方法は、量子ドットの配列を通してスピンを閉じることである。 ここでは、28Si/SiGeヘテロ構造のトンネル結合量子ドットの線形配列を用いて、短い量子リンクを生成する。 各量子ドットの電気化学ポテンシャルを順次調整することにより、電子スピンを量子ドットアレイに移動させる。 ゲートを何度も脈動させることで、配列を250倍まで前方および後方に電子を伝播させ、総距離は約80 {\mu}mとなる。 これらの実験では、ホップ当たりのスピンフリップ確率を推定し、ホップ当たり0.01%以下であると結論付ける。

Coherent links between qubits separated by tens of micrometers are expected to facilitate scalable quantum computing architectures for spin qubits in electrically-defined quantum dots. These links create space for classical on-chip control electronics between qubit arrays, which can help to alleviate the so-called wiring bottleneck. A promising method of achieving coherent links between distant spin qubits consists of shuttling the spin through an array of quantum dots. Here, we use a linear array of four tunnel-coupled quantum dots in a 28Si/SiGe heterostructure to create a short quantum link. We move an electron spin through the quantum dot array by adjusting the electrochemical potential for each quantum dot sequentially. By pulsing the gates repeatedly, we shuttle an electron forward and backward through the array up to 250 times, which corresponds to a total distance of approximately 80 {\mu}m. We make an estimate of the spin-flip probability per hop in these experiments and conclude that this is well below 0.01% per hop.
翻訳日:2023-01-28 04:00:43 公開日:2022-09-12
# 最大形量子振幅推定の改善

Improved maximum-likelihood quantum amplitude estimation ( http://arxiv.org/abs/2209.03321v2 )

ライセンス: Link先を確認
Adam Callison, Dan E. Browne(参考訳) 量子振幅推定は、量子強化モンテカルロシミュレーションや量子機械学習など、多数の強力な量子アルゴリズムにおいて重要なサブルーチンである。 最大類似量子振幅推定(mlqae)は、量子位相推定に基づく元のアルゴリズムよりもずっと単純な量子回路を用いた最近の多くのアプローチの1つである。 本稿では,MLQAEの分析を深め,量子回路の深さが制限されるシナリオを含むより規範的な形式でアルゴリズムを配置する。 この過程で、アルゴリズムが所望の精度を達成することができない目標振幅の ‘exceptional' 値の特定の範囲を観察し、説明する。 そこで我々は,この問題を克服するためにアルゴリズムのヒューリスティックな修正を提案し,数値的に検証する。

Quantum amplitude estimation is a key subroutine in a number of powerful quantum algorithms, including quantum-enhanced Monte Carlo simulation and quantum machine learning. Maximum-likelihood quantum amplitude estimation (MLQAE) is one of a number of recent approaches that employ much simpler quantum circuits than the original algorithm based on quantum phase estimation. In this article, we deepen the analysis of MLQAE to put the algorithm in a more prescriptive form, including scenarios where quantum circuit depth is limited. In the process, we observe and explain particular ranges of `exceptional' values of the target amplitude for which the algorithm fails to achieve the desired precision. We then propose and numerically validate a heuristic modification to the algorithm to overcome this problem, bringing the algorithm even closer to being useful as a practical subroutine on near- and mid-term quantum hardware.
翻訳日:2023-01-27 15:41:46 公開日:2022-09-12
# バルク-バウンダリ対応によるトポロジカル量子系に対するストレンジ相関器

Strange correlators for topological quantum systems from bulk-boundary correspondence ( http://arxiv.org/abs/2209.04283v2 )

ライセンス: Link先を確認
Luca Lepori and Michele Burrello and Andrea Trombettoni and Simone Paganelli(参考訳) ストレンジ」相関器は、調査中の状態と自明な参照状態の間の適切な2点相関の行列要素を計算することにより、多体モデルで生じる位相位相を検出するツールを提供する。 その効果は、採用されているオペレータの選択に依存する。 本稿では,この選択に対する体系的な手順を提案し,監視下のシステムのバルク・バウンダリ対応を用いた演算子選択の利点について論じる。 スケーリング指数を用いて、奇妙な相関子の代数的減衰とギャップレスエッジモード作用素のスケーリング次元を直接関連付ける。 対称性を保護した位相位相を包含する格子モデルを用いて解析を開始し、奇妙な相関子の和を解析し、それらのモジュラーを統合することでキャンセルや有限サイズ効果が大幅に減少することを示した。 また,非自明なトポロジを持つ状態間の奇妙な相関関係だけでなく,内在的トポロジ秩序をホストするシステムも分析する。 翻訳的および非翻訳的不変例,およびオンサイト障害や長距離結合の存在下では, トポロジカル位相の診断に奇妙な相関器を用いた手法の有効性を拡張し, 最適選択のための一般的な手順を示す。

"Strange" correlators provide a tool to detect topological phases arising in many-body models by computing the matrix elements of suitably defined two-point correlations between the states under investigation and trivial reference states. Their effectiveness depends on the choice of the adopted operators. In this paper we give a systematic procedure for this choice, discussing the advantages of choosing operators using the bulk-boundary correspondence of the systems under scrutiny. Via the scaling exponents, we directly relate the algebraic decay of the strange correlators with the scaling dimensions of gapless edge modes operators. We begin our analysis with lattice models hosting symmetry-protected topological phases and we analyze the sums of the strange correlators, pointing out that integrating their moduli substantially reduces cancellations and finite-size effects. We also analyze instances of systems hosting intrinsic topological order, as well as strange correlators between states with different nontrivial topologies. Our results for both translational and non-translational invariant cases, and in presence of on-site disorder and long-range couplings, extend the validity of the strange correlators approach for the diagnosis of topological phases of matter, and indicate a general procedure for their optimal choice.
翻訳日:2023-01-27 05:30:26 公開日:2022-09-12
# 周囲環境における絡み合いの様相

Salient signatures of entanglement in the surrounding environment ( http://arxiv.org/abs/2209.05197v1 )

ライセンス: Link先を確認
{\L}ukasz Rudnicki, Waldemar K{\l}obus, Otavio A. D. Molitor, Wies{\l}aw Laskowski(参考訳) 我々は, 量子系における絡み合いの存在を, システムを取り巻く環境の粗い観察によって確認できるモデルを開発した。 この反直感効果は、システムと環境の間の相互作用が、絡み合う証人である観測可能なものと比例するときに起こりうる。 3つの直感的な例を示しながら 一 理想気体の雲で、絡み合わされた証人とともに線形ポテンシャルを受けるときは、証人のサインにより指示された方向を加速する。 二 2つの量子ビット(又は四レベル原子)を結合したキャビティ内の電磁界の四次数は、同じ方法で変位する。 三 一つの量子ビットにより与えられる量子環境において、その状態は、ブロッホ球面の1つの半球のみを占め、また、証人のサインと完全に一致する。

We develop a model in which presence of entanglement in a quantum system can be confirmed through coarse observations of the environment surrounding the system. This counter-intuitive effect becomes possible when interaction between the system and its environment is proportional to an observable being an entanglement witness. While presenting three intuitive examples we show that: i) a cloud of an ideal gas, when subject to a linear potential coupled with the entanglement witness, accelerates in the direction dictated by the sign of the witness; ii) quadratures of electromagnetic field in a cavity coupled with two qubits (or a four-level atom) are displaced in the same manner; iii) for a quantum environment given by a single qubit, its state occupies only one hemisphere of the Bloch sphere, again in full agreement with the sign of the witness.
翻訳日:2023-01-26 22:21:48 公開日:2022-09-12
# 力センシング用超高qナノメカニカル共振器

Ultra-High Q Nanomechanical Resonators for Force Sensing ( http://arxiv.org/abs/2209.05183v1 )

ライセンス: Link先を確認
Alexander Eichler(参考訳) 超高品質要素を持つナノメカニカル共振器は基礎研究の中心的要素となり、標準量子限界以下の測定と長寿命量子状態の作成を可能にしている。 ここでは,そのような共振器は高空間分解能で電子と核スピンの検出を可能にし,将来のナノスケール磁気共鳴イメージング装置への道を開くことを提案する。 この記事は、このビジョンが現実になる前に克服しなければならない課題をリストアップし、潜在的な解決策を示している。

Nanomechanical resonators with ultra-high quality factors have become a central element in fundamental research, enabling measurements below the standard quantum limit and the preparation of long-lived quantum states. Here, I propose that such resonators will allow the detection of electron and nuclear spins with high spatial resolution, paving the way to future nanoscale magnetic resonance imaging instruments. The article lists the challenges that must be overcome before this vision can become reality, and indicates potential solutions.
翻訳日:2023-01-26 22:21:32 公開日:2022-09-12
# 工学的転移性と強結合を有するQED単一原子メーザにおける光子遮断の克服

Overcoming photon blockade in circuit QED single-atom maser with engineered metastability and strong coupling ( http://arxiv.org/abs/2209.05165v1 )

ライセンス: Link先を確認
A.A. Sokolova, D.A. Kalacheva, G.P. Fedorov, O.V. Astafiev(参考訳) 単一原子レーザーの強結合状態におけるコヒーレントポンプによる高空洞密度の到達は光子遮断効果のため不可能である。 本研究では、2つの共振器に強く結合したトランスモンに基づく単一原子メーザーにおいて、1ダース以上の光子をシステムに注入できることを実験的に実証する。 第1の高品質共振器は通常のラジングキャビティの役割を担い、第2の共振器は制御された放散チャネルを示し、人口の反転を加速させ、エネルギーレベル構造を変化させて遮断を解除する。 発振動作の確認として、発光線幅の狭めや外部信号増幅といった従来のレーザー特性を観察する。 さらに, 単原子の特異な特徴として, セルフクレンチングとラシングしきい値について報告する。

Reaching high cavity population with a coherent pump in the strong-coupling regime of a single-atom laser is impossible due to the photon blockade effect. In this work, we experimentally demonstrate that in a single-atom maser based on a transmon strongly coupled to two resonators it is possible to pump over a dozen of photons into the system. The first high-quality resonator plays a role of usual lasing cavity, and the second one presents a controlled dissipation channel, bolstering population inversion, and modifies the energy level structure to lift the blockade. As a confirmation of lasing action, we observe conventional laser features such as the narrowing of emission linewidth and external signal amplification. Additionally, we report unique single-atom features: self-quenching and several lasing thresholds.
翻訳日:2023-01-26 22:21:23 公開日:2022-09-12
# 3次元原子配列を用いた有界次数非局所グラフのmis問題への埋め込み

Embedding the MIS problem for non-local graphs with bounded degree using 3D arrays of atoms ( http://arxiv.org/abs/2209.05164v1 )

ライセンス: Link先を確認
Constantin Dalyac and Loic Henriet(参考訳) 過去数年間、多くの量子アルゴリズムが難しい組合せ問題に取り組むために提案されてきた。 これらのアルゴリズムは、複雑性理論において深く研究されており、多くの産業応用の中心にある。 特に、最大独立集合 (MIS) は、Rydberg 原子配列に自然に符号化できる既知のNPハード問題である。 グラフを中性原子のアンサンブルで表すことで、ライドバーグ力学を利用して制約とMISの解を自然にエンコードすることができる。 しかし、そのようなデバイス上で直接ノードからアトムにマッピングできるグラフのクラスは単位円グラフに限られる。 この設定では、グラフの本質的な局所性は、古典多項式時間近似スキーム(PTAS)によって利用でき、これは {\epsilon}-近似解を保証する。 本研究では、3次元原子配列に非局所グラフの大きな族を埋め込む決定論的および多項式時間構成を提案する。 この構成は、古典的効率のよい近似スキームが存在しない量子コンピュータの組合せタスクに取り組むための最初の重要なステップである。

In the past years, many quantum algorithms have been proposed to tackle hard combinatorial problems. These algorithms, which have been studied in depth in complexity theory, are at the heart of many industrial applications. In particular, the Maximum Independent Set (MIS) is a known NP-hard problem that can be naturally encoded in Rydberg atom arrays. By representing a graph with an ensemble of neutral atoms one can leverage Rydberg dynamics to naturally encode the constraints and the solution to MIS. However, the classes of graphs that can be directly mapped node-to-atom on such devices are limited to Unit-Disk graphs. In this setting, the inherent locality of the graphs can be leveraged by classical polynomial-time approximation schemes (PTAS) that guarantee an {\epsilon}-approximate solution. In this work, we present a deterministic and polynomial-time construction to embed a large family of non-local graphs in 3D atomic arrays. This construction is a first crucial step towards tackling combinatorial tasks on quantum computers for which no classical efficient {\epsilon}-approximation scheme exists.
翻訳日:2023-01-26 22:21:09 公開日:2022-09-12
# 相互相関ヘテロダイン検出の量子理論

Quantum theory of cross-correlation heterodyne detection ( http://arxiv.org/abs/2209.05141v1 )

ライセンス: Link先を確認
Sheng Feng and Kaikai Wu(参考訳) クロス相関ヘテロダイン検出器は、低周波帯の弱い光信号を捉えるために光スクイージングを使わずに、ショットノイズ以下の検出量子ノイズを抑制する可能性を示す。 このメカニズムを理解するために,クロス相関ヘテロダイン検出器の雑音特性を記述する量子理論を開発した。 クロス相関ヘテロダイン検出器からの光電流変動のクロススペクトル密度(CSD)を計算することにより、そのノイズ性能がショットノイズ限界を破り、通常のヘテロダイン検出器を超え、コヒーレント光を検出することができることを示す。 検出された光信号が圧縮状態にある場合、対応するCSD値が負であることが示され、古典的な雑音で汚染された検出器の出力信号-雑音比を改善するために、スクイーズ度パラメータを調整して、負のCSDを探索する方法が議論される。 この研究は、宇宙ベースの重力波探索や、真空磁気複屈折の観測や電気通信など、様々な科学的研究活動に有用であると考えられる。

Cross-correlation heterodyne detectors exhibit the potential for suppression of the detection quantum noise below shot noise without use of optical squeezing for capturing weak optical signals in low frequency bands. To understand the underlying mechanism, we develop a quantum theory to describe the noise performance of cross-correlation heterodyne detectors. By calculating the cross spectral density (CSD) of the photocurrent fluctuations from a cross-correlation heterodyne detector, we prove that its noise performance can break the shot noise limit and exceed that of a regular heterodyne detector for detection of coherent light. When the detected light signal is in a squeezed state, we show that the corresponding CSD value is negative and discuss how a negative CSD may be explored to improve the output signal-to-noise ratio of the detector contaminated by classical noises through tuning the parameter of the degree of squeezing. This work may find itself useful in space-based gravitational wave searching and a variety of other scientific research activities, such as observation of vacuum magnetic birefringence and telecommunications.
翻訳日:2023-01-26 22:20:28 公開日:2022-09-12
# 無質量スピノル場を閉じ込めた空洞内の量子振動モード

Quantum vibrational mode in a cavity confining a massless spinor field ( http://arxiv.org/abs/2209.05074v1 )

ライセンス: Link先を確認
Alessandro Ferreri(参考訳) 一方の空洞壁の高調波運動に対する無質量(1+1)次元スピノル場の反応を分析する。 本モデルでは、高調波発振器の振動振幅を量子演算子に促進し、ボソニックの性質を持つ付加的な量子自由度を与える。 相互作用ハミルトニアンを得た後、基底状態とそのエネルギーの補正を推定する。 このシステムは、最低摂動順序でボソンをフェルミオン対に変換することができることを示す。 モデルから複数のバッグへの拡張が検討されている。

We analyse the reaction of a massless (1+1)-dimensional spinor field to the harmonic motion of one cavity wall. In our model, the oscillation amplitude of the harmonic oscillator is promoted to a quantum operator, providing the system with an additional quantum degree of freedom having bosonic nature. After obtaining the interaction Hamiltonian, we estimate the correction to both the ground state and its energy. We demonstrate that the system is able to convert bosons into fermion pairs at the lowest perturbative order. Extension of our model to multiple bags is contemplated.
翻訳日:2023-01-26 22:19:20 公開日:2022-09-12
# 配向モーメントに基づく量子分離性基準

Quantum separability criteria based on realignment moments ( http://arxiv.org/abs/2209.05066v1 )

ライセンス: Link先を確認
Tinggui Zhang, Naihuan Jing and Shao-Ming Fei(参考訳) 量子エンタングルメントは、量子情報処理と量子コンピューティングのコアリソースである。 量子状態の絡み合いを効果的に特徴づけることは重要な課題である。 近年、エルベンらによる[Phys. Lett. 125, 200501 (2020)]において、密度行列の最初の3つの部分転位(PT)モーメントに基づいてエレガントな分離性基準が提示されている。 では、[phys. rev. lett. 127, 060504 (2021)] yu \emph{et al。 } ptモーメントに基づく2つの一般的な強力な基準を提案した。 本稿では,行列の配向操作に基づいて,そのような配向モーメントの観点から絡み検出基準を提案する。 より詳細な例で、配向モーメントは量子エンタングルメントの同定にも利用できることを示す。

Quantum entanglement is the core resource in quantum information processing and quantum computing. It is an significant challenge to effectively characterize the entanglement of quantum states. Recently, elegant separability criterion is presented in [Phys. Rev. Lett. 125, 200501 (2020)] by Elben et al. based on the first three partially transposed (PT) moments of density matrices. Then in [Phys. Rev. Lett. 127, 060504 (2021)] Yu \emph{et al.} proposed two general powerful criteria based on the PT moments. In this paper, based on the realignment operations of matrices we propose entanglement detection criteria in terms of such realignment moments. We show by detailed example that the realignment moments can also be used to identify quantum entanglement.
翻訳日:2023-01-26 22:19:12 公開日:2022-09-12
# 相対論的連続行列積状態を持つ量子Sinh-Gordonモデルの研究

A study of the quantum Sinh-Gordon model with relativistic continuous matrix product states ( http://arxiv.org/abs/2209.05341v1 )

ライセンス: Link先を確認
Antoine Tilloy(参考訳) Sine-Gordon (SG) と Sinh-Gordon (ShG) の量子場理論を最近導入された変分法、相対論的連続行列積状態 (RCMPS) を用いて研究する。 主な利点は、紫外線規制なしで、熱力学の限界で直接働くことである。 SGモデルはよく理解され、統合可能であり、変分法に便利なベンチマークを提供し、ウォームアップとして機能する。 RCMPS は、自由フェルミオン点までの SG モデルの基底状態(等時量子化規約では $\beta=\sqrt{4\pi}$、CFT規約では $b=1/\sqrt{2}$)を任意に近似する。 積分可能ではあるが、ShGモデルは理解されず、その強い結合状態$\beta \approx 1$は論争の対象となっている。 RCMPSはまた、ShGモデルの基底状態に約$b=1/\sqrt{2}$まで適合し、その後、それらの予測は「正確な」結果から大きく逸脱し始める。 これは、その時点でのShGモデルに対して物理的には何も起こらない(例えば、基底エネルギー密度は分岐しない)ため、より厄介である。 実効的」なshgの結果は正確ではない(sg bethe ansatz解の解析的継続は不当である)か、またはより可能性の高いshg基底状態の物理的構造は、合理的な結合次元のためにrcmps多様体の到達不能となるように変化する。

I study the Sine-Gordon (SG) and Sinh-Gordon (ShG) quantum field theories with a recently introduced variational method, the relativistic continuous matrix product states (RCMPS). The main advantage is to work directly in the thermodynamic limit, and without any UV regulator. The SG model is well understood and integrable, which provides a convenient benchmark for the variational method and serves as a warm-up. RCMPS approximate the ground state of the SG model arbitrary well up to the free Fermion point [coupling $\beta=\sqrt{4\pi}$ in equal-time quantization convention, or $b=1/\sqrt{2}$ in CFT convention], where the ground energy collapses to $-\infty$, and some renormalized ansatz would be needed. The ShG model, while integrable, is less understood and its strong coupling regime $\beta \approx 1$ is subject to some controversy. RCMPS also fit the ground state of the ShG model up to approximately $b=1/\sqrt{2}$, after which their predictions start to deviate substantially from the "exact" results. This is more puzzling as nothing is expected to happen physically for the ShG model at that point (eg, the ground energy density does not diverge). Either the "exact" ShG results are not exact (the analytic continuation of the SG Bethe Ansatz solution is unwarranted), or, more likely, the physical structure of the ShG ground state changes in such a way that it becomes out of reach of the RCMPS manifold for reasonable bond dimensions.
翻訳日:2023-01-26 22:13:10 公開日:2022-09-12
# 繰り返し充電過程における第2法則の漸近的出現

The asymptotic emergence of the Second Law for a repeated charging process ( http://arxiv.org/abs/2209.05339v1 )

ライセンス: Link先を確認
Marcin {\L}obejko, Pawe{\l} Mazurek, Micha{\l} Horodecki(参考訳) その1つのバージョンでは、第2法則は「完全なサイクルで動くエンジンを構築することは不可能であり、重量の上昇と熱貯水池の冷却以外の効果は生じない」と述べている。 第二法則は自然の最も堅牢な法則の一つと考えられているが、完全に量子領域で解釈する方法はまだ難しい。 ここでは「周期性」の真の意味を解き、単一のサイクルというよりは充電過程の漸近的性質を通じて一般量子電池の第二法則を定式化する。 パラダイムとして,同一のシステムと繰り返し対話するバッテリで構成されるマシンを提案する。 電池のエルゴトロピーが無期限に増加する可能性があるのは、システムが非パッシブ状態にある場合に限りである。 この新定式化の最も興味深い特徴の1つは、自然に熱浴の概念を一般化する受動的状態の出現である。 本稿では, 対角系に対するこの定式化を支援するために, 少数の結果を提供する。 興味深いことに、我々の手法はマルコフ連鎖の理論に合致し、電荷系の相似性/非相似性に基づいて一般的な電荷過程を分類する。 特に、適用された数学によって、電池のエネルギー(最大混合状態によって誘導される)とエルゴトロピー(非通過状態によって誘導される)の非定義的な増加と、いわゆるヌルリカレント対過渡マルコフ連鎖との微妙な漸近的な差を区別することができる。

In one of its versions, the Second Law states: "It is impossible to construct an engine which will work in a complete cycle, and produces no effect except the raising of a weight and cooling of a heat reservoir." While the Second Law is considered as one of the most robust laws of Nature, it is still challenging how to interpret it in a fully quantum domain. Here we unpack the true meaning of the "cyclicity" and formulate the Second Law for a generic quantum battery via its asymptotic properties of a charging process rather than in terms of a single cycle. As a paradigm, we propose a machine consisting of a battery that repeatedly interacts with identically prepared systems. We then propose the Second Law in the form: The ergotropy of the battery may increase indefinitely if and only if systems are in a non-passive state. One of the most interesting features of this new formulation is the appearance of the passive states that naturally generalize the notion of the heat bath. In this paper, we provide a handful of results that supports this formulation for diagonal systems. Interestingly, our methodology meets a well-known theory of Markov chains, according to which we classify the general charging processes based on the passivity/non-passivity of charging systems. In particular, the adopted mathematics allows us to distinguish a subtle asymptotic difference between the indefinite increase of the battery's energy (induced by the maximally mixed states) and of ergotropy (induced by the non-passive states) in terms of the so-called null-recurrent versus transient Markov chains.
翻訳日:2023-01-26 22:12:31 公開日:2022-09-12
# ハイブリッド量子古典計算における予測計測

Anticipative measurements in hybrid quantum-classical computation ( http://arxiv.org/abs/2209.05338v1 )

ライセンス: Link先を確認
Teiko Heinosaari, Daniel Reitzner, Alessandro Toigo(参考訳) 大規模なフォールトトレラント量子デバイスが利用可能になる前に、現在のノイズの多い中間量子デバイスを最大限に活用する方法を見つける必要がある。 一つの可能性は、大きな複雑なタスクを直接追求するのではなく、より忠実度の高いより小さな反復的なハイブリッド量子古典的タスクを求めることである。 本稿では,古典的な結果によって量子計算を補う方法を提案する。 補足的な古典的情報の存在は単独では役に立たないが、その予測を生かして新しいタイプの量子測定へとつながる。 予測量子測定は、後続の補足情報を仮定せずに最適化された量子測定を使用する場合よりも、成功率の向上につながる。 重要なことは、予想される量子測定において、古典計算と量子計算の結果の組み合わせは、一方からもう一方の計算へのフィードバックを必要とせずに、最後でのみ発生するため、両方の計算を並列に実行できる機能である。 そこで,本手法をIBMQデバイスを用いて実験し,実雑音条件下でも良好な成功率が得られることを示す。

Before the availability of large scale fault-tolerant quantum devices, one has to find ways to make the most of current noisy intermediate-scale quantum devices. One possibility is to seek smaller repetitive hybrid quantum-classical tasks with higher fidelity, rather than directly pursuing large complex tasks. We present an approach in this direction where the quantum computation is supplemented by a classical result. While the presence of the supplementary classical information helps alone, taking advantage of its anticipation also leads to a new type of quantum measurements, which we call anticipative. Anticipative quantum measurements lead to improved success rate over cases where we would use quantum measurements optimized without assuming the later arriving supplementing information. Importantly, in an anticipative quantum measurement the combination of the results from classical and quantum computations happens only in the end, without the need for feedback from the one to the other computation, a feature which hence allows for running both computations in parallel. We demonstrate the method with an experiment using an IBMQ device and show that it leads to an improved success rate even in a real noisy setting.
翻訳日:2023-01-26 22:12:03 公開日:2022-09-12
# マルチモードガウス状態を用いた光子核分解シミュレーションの関数生成と自動微分

Generating Functions and Automatic Differentiation for Photon-Number-Resolved Simulations with Multimode Gaussian States ( http://arxiv.org/abs/2209.05330v1 )

ライセンス: Link先を確認
Erik Fitzke, Florian Niederschuh, and Thomas Walther(参考訳) 生成関数の自動微分に基づく多モードガウス状態の光子統計をシミュレートする簡易かつ汎用的な手法を提案する。 フォトン数分布、累積確率、モーメント、およびフォトン統計の因子モーメントの生成関数が導出される。 多モード光子付加および光子置換ガウス状態の関連式を示す。 自動微分のための機械学習フレームワークpytorchを用いて数値計算を行った。 このアプローチは、量子光学実験の光子統計を、低光子数の現実的なシナリオでシミュレーションするのに適しており、様々な不完全性の源を考慮する必要があることが示されている。 例えば、最近のマルチパーティタイトなタイムビン符号化量子鍵分布設定の検出確率を判定し、対応する実験値と比較する。

A simple and versatile method to simulate the photon statistics of multimode Gaussian states based on automatic differentiation of generating functions is presented. The generating functions for the photon number distribution, cumulative probabilities, moments, and factorial moments of the photon statistics are derived. Related expressions for multimode photon-added and photon-subtracted Gaussian states are presented. Numerical results are obtained by using the machine learning framework PyTorch for automatic differentiation. It is demonstrated that this approach is well suited for practical simulations of the photon statistics of quantum optical experiments in realistic scenarios with low photon numbers, in which various sources of imperfections have to be taken into account. As an example, the detection probabilities of a recent multipartite time-bin coding quantum key distribution setup are determined and compared with the corresponding experimental values.
翻訳日:2023-01-26 22:11:44 公開日:2022-09-12
# キラル性誘起スピン選択性における電子-フォノン散乱のスピン依存モーメント保存

Spin-Dependent Momentum Conservation of Electron-Phonon Scattering in Chirality-Induced Spin Selectivity ( http://arxiv.org/abs/2209.05323v1 )

ライセンス: Link先を確認
Clemens Vittmann, James Lim, Dario Tamascelli, Susana F. Huelga, Martin B. Plenio(参考訳) カイラル誘起スピン選択率の背後にあるメカニズムの解明は、いまだに優れた科学的課題である。 ここでは、キラル構造における電子輸送における非局在フォノンモードの役割を考察し、スピン選択性は電子-フォノン散乱現象におけるスピン依存エネルギーと運動量保存から生じることを示す。 この機構は振動モードの特異性に対して堅牢であるが、スピン偏極の度合いは外部の駆動場、温度、フォノン緩和速度などの環境要因に依存する。 この依存は、実験により検証可能なモデル予測を示すために用いられる。

The elucidation of the mechanisms behind chiral-induced spin selectivity remains an outstanding scientific challenge. Here we consider the role of delocalised phonon modes in electron transport in chiral structures and demonstrate that spin selectivity can originate from spin-dependent energy and momentum conservation in electron-phonon scattering events. While this mechanism is robust to the specifical nature of the vibrational modes, the degree of spin polarization depends on environmental factors, such as external driving fields, temperatures and phonon relaxation rates. This dependence is used to present experimentally testable predictions of our model.
翻訳日:2023-01-26 22:11:31 公開日:2022-09-12
# 現実主義から遠ざかる現実主義:量子の場合の科学的現実主義

Realistic From Far But Far From Realism: Withering Scientific Realism in the Quantum Case ( http://arxiv.org/abs/2209.05318v1 )

ライセンス: Link先を確認
Raoni Arroyo and Christian de Ronde(参考訳) 科学哲学では、科学企業をどう理解すべきかについて多くの議論がなされている。 一方、科学的実在論者は、実証的に適切な理論は現実を反映できる解釈によって補うことができると信じており、一方で反現実論は、科学的理論が十分に正確な実験的予測を行う限り、物語の追加は科学的な企業には無関係であり、物語に関しては無知のままでいることが好ましいと論じている。 この論文では、現実主義はこの議論に全く関わらなかったと論じている。

Much has been discussed in the philosophy of science about how we should understand the scientific enterprise. On the one hand, scientific realists believe that empirically adequate theories can be supplemented by interpretations that can mirror reality-as-it-is; on the other hand, anti-realists argue that this is not the case, as long as scientific theories make sufficiently accurate experimental predictions the addition of narratives is irrelevant for the scientific enterprise, and regarding narratives, it is preferable to remain agnostic. In this paper, we argue that realism was never really at stake in this debate.
翻訳日:2023-01-26 22:11:21 公開日:2022-09-12
# 大きなチャーン数を持つフロケット位相の観測

Observation of Floquet topological phases with large Chern numbers ( http://arxiv.org/abs/2209.05275v1 )

ライセンス: Link先を確認
Kai Yang, Shaoyi Xu, Longwen Zhou, Zhiyuan Zhao, Tianyu Xie, Zhe Ding, Wenchao Ma, Jiangbin Gong, Fazhan Shi, Jiangfeng Du(参考訳) フロック工学の最も興味深い利点の1つは、大きな位相不変量を持つ新しい位相を生成することである。 本研究では,ダイヤモンド中のNV中心に周期的に焼成された一般化Haldaneモデルをシミュレートし,運動量空間の静的および動的スピンテクスチャを撮像することにより,チャーン数$C=1,2,4$のFloquet Chern絶縁体相を観察する。 本研究では,変換系のトポロジーにおけるフロッケ駆動のパワーを明らかにし,大きなチャーン数位相を生成する。 さらに、フロケ位相を2次元以上の空間次元で検出するためのユニークな実験スキームを確立する。

One of the most intriguing advantage of Floquet engineering is to generate new phases with large topological invariants. In this work, we experimentally simulate a periodically quenched generalized Haldane model on an NV center in diamond, and observe its Floquet Chern insulator phases with Chern numbers $C=1,2,4$ by imaging the static and dynamic spin textures in momentum space. Our work reveals the power of Floquet driving in transforming system's topology and generating large Chern number phases. It further establishes a unique experimental scheme to detect Floquet topological phases in two and higher spatial dimensions.
翻訳日:2023-01-26 22:10:33 公開日:2022-09-12
# ダイヤモンド系量子センサのnv中心におけるスピンコヒーレンスの測定

Measurements of spin-coherence in NV centers for diamond-based quantum sensors ( http://arxiv.org/abs/2209.05528v1 )

ライセンス: Link先を確認
Lucas Nunes Sales de Andrade, Charlie Oncebay Segura, S\'ergio Ricardo Muniz(参考訳) 量子プロトコルと量子情報処理(QIP)を実装する上での最大の課題の1つは、長いコヒーレンス時間を達成することである。 ダイヤモンド中の窒素空孔(NV)中心はこの問題の代替として有望である。 スピン特性、操作が容易で、光学状態の初期化と読み出しが可能であったため、室温でのQIPのための最良の固体スピンシステムの一つとなった。 本稿では,量子気象学のための量子プロトコルのテストベッドとして,超純ダイヤモンドの人工試料中のNV中心のスピンコヒーレンスの特性を示す。

One of the biggest challenges to implement quantum protocols and quantum information processing (QIP) is achieving long coherence times, usually requiring systems at ultra-low temperatures. The nitrogen-vacancy (NV) center in diamond is a promising alternative to this problem. Due to its spin properties, easy manipulation, and the possibility of doing optical state initialization and readout, it quickly became one of the best solid-state spin systems for QIP at room temperature. Here, we present the characterization of the spin-coherence of an ensemble of NV centers in an engineered sample of ultrapure diamond as a testbed for quantum protocols for quantum metrology.
翻訳日:2023-01-26 22:03:32 公開日:2022-09-12
# 量子機械学習モデルにおけるオーバーフィットにもかかわらず一般化

Generalization despite overfitting in quantum machine learning models ( http://arxiv.org/abs/2209.05523v1 )

ライセンス: Link先を確認
Evan Peters and Maria Schuld(参考訳) 深層ニューラルネットワークの広範な成功は、古典的機械学習において驚きである。非常に複雑なモデルは、トレーニングデータをオーバーフィットしながら、うまく一般化することが多い。 この良性の過剰フィット現象は、ディープラーニングの背後にあるメカニズムをよりよく理解することを目的として、さまざまな古典モデルで研究されてきた。 量子機械学習の文脈で現象を特徴づけることで、オーバーフィッティング、オーバーパラメトリゼーション、一般化の関係の理解が向上する可能性がある。 本研究では,量子モデルにおける良性過剰適合の特性について述べる。 これを実現するために、古典的補間フーリエの振舞いはノイズ信号の回帰のモデルを示し、量子モデルのクラスがどのように類似した特徴を示すかを示し、量子回路の構造(データエンコーディングや状態準備操作など)を量子モデルの過度なパラメータ化と過度な適合に結びつける。 我々はこれらの特徴を、局所的な「スパイク」な振る舞いとノイズデータを補間する量子モデルの能力に応じて直感的に説明し、良性オーバーフィットの具体例を示す。

The widespread success of deep neural networks has revealed a surprise in classical machine learning: very complex models often generalize well while simultaneously overfitting training data. This phenomenon of benign overfitting has been studied for a variety of classical models with the goal of better understanding the mechanisms behind deep learning. Characterizing the phenomenon in the context of quantum machine learning might similarly improve our understanding of the relationship between overfitting, overparameterization, and generalization. In this work, we provide a characterization of benign overfitting in quantum models. To do this, we derive the behavior of a classical interpolating Fourier features models for regression on noisy signals, and show how a class of quantum models exhibits analogous features, thereby linking the structure of quantum circuits (such as data-encoding and state preparation operations) to overparameterization and overfitting in quantum models. We intuitively explain these features according to the ability of the quantum model to interpolate noisy data with locally "spiky" behavior and provide a concrete demonstration example of benign overfitting.
翻訳日:2023-01-26 22:03:23 公開日:2022-09-12
# ダイヤモンド系光ベクトル磁気センサ

Diamond-based optical vector magnetometer ( http://arxiv.org/abs/2209.05514v1 )

ライセンス: Link先を確認
Charlie Oncebay Segura and S\'ergio Ricardo Muniz(参考訳) 本稿では,デバイス表面近傍の超薄層上の全ベクトル磁場を測定するための高分解能光磁気センサの構築と特性について述べる。 この固体デバイスは、窒素空洞(NV)層が超純ダイヤモンドの表面下20nm以下に集中して生成した量子センサーに基づいている。 このナノセンサーのアンサンブルは、磁場と表面電流密度をサブマイクロメートル分解能と高感度でマッピングできる汎用デバイスを提供し、多くの用途に適している。 ここでは,概念実証装置の動作を実演するカスタムビルドプロトタイプを示す。

We describe here the construction and characterization of a high-resolution optical magnetometer to measure the full vector magnetic field on an ultrathin layer near the surface of the device. This solid-state device is based on quantum sensors created by a layer of nitrogen-vacancy (NV) centers less than 20 nm below the surface of an ultrapure diamond. This ensemble of nanosensors provides a versatile device capable of mapping magnetic fields and surface current densities with a sub-micrometer resolution and high sensitivity, making it suitable for many applications. Here, we show a custom-built prototype to demonstrate an operating proof-of-concept device.
翻訳日:2023-01-26 22:03:03 公開日:2022-09-12
# 捕捉イオンを用いた動的分離量子シミュレーション

Engineering dynamically decoupled quantum simulations with trapped ions ( http://arxiv.org/abs/2209.05509v1 )

ライセンス: Link先を確認
W. Morong, K. S. Collins, A. De, E. Stavropoulos, T. You, C. Monroe(参考訳) 外部ドライブは、ノイズ源を平均化することにより、量子多体系のコヒーレンスを向上させることができる。 また、Floquet Hamiltonian Engineeringを通じて、静的極限で到達不能なモデルを実現するためにも使用できる。 これらのツールが組み合わされる可能性についてはまだ検討されていない。 パルス列において,量子多体系を外界から切り離すために必要な要件を,動的に変化させることなく開発する。 この手法をイオントラッププラットフォームで実験的に実証し,実世界のアプリケーションにおいてコヒーレンスを大幅に改善できることを示す。 最後に、長距離相互作用スピンの正確に解けるパラダイムであるHaldane-Shastryモデルの量子シミュレーションを設計した。 我々の結果は量子シミュレーションツールボックスを拡大し、統一する。

An external drive can improve the coherence of a quantum many-body system by averaging out noise sources. It can also be used to realize models that are inaccessible in the static limit, through Floquet Hamiltonian engineering. The full possibilities for combining these tools remain unexplored. We develop the requirements needed for a pulse sequence to decouple a quantum many-body system from an external field without altering the intended dynamics. Demonstrating this technique experimentally in an ion-trap platform, we show that it can provide a large improvement to coherence in real-world applications. Finally, we engineer a quantum simulation of the Haldane-Shastry model, an exactly solvable paradigm for long-range interacting spins. Our results expand and unify the quantum simulation toolbox.
翻訳日:2023-01-26 22:02:53 公開日:2022-09-12
# 半導体ヘテロ構造における擬似スピンの可変位相秩序

Tunable topological order of pseudo spins in semiconductor heterostructures ( http://arxiv.org/abs/2209.05506v1 )

ライセンス: Link先を確認
Clemens Kuhlenkamp, Wilhelm Kadow, Atac Imamoglu and Michael Knap(参考訳) 本稿では,多層moire構造において位相秩序を持つ高調波・フラストレーションハバード物理を実現するための新しいプラットフォームを提案する。 自由度層を擬似スピンとして同定することで、リング交換過程を制御し、大きな外部磁場によって運動エネルギーを同時に焼成しながら、SU(2)対称性を維持することができる。 このように、相互作用するホフシュタッター状態とその遷移の幅広いクラスを研究することができる。 注目すべきは、強い相互作用の限界において、系はモット絶縁となり、磁場によって誘導される異常に安定したスピン液体相が見つかることである。 磁束はmoire系で容易に調整できるため、このアプローチは、トポロジカルに順序付けられた物質の位相相を実験的に実現し制御するための有望な経路を提供する。 また, 準スピン層を短期実験で探究する方法についても検討する。

We propose a novel platform to realize highly-tunable, frustrated Hubbard physics with topological order in multi-layer moire structures. Identifying a layer degree of freedom as a pseudo spin, allows us to retain SU(2) symmetry, while controlling ring exchange processes and concurrently quenching the kinetic energy by large external magnetic fields. This way, a broad class of interacting Hofstadter states and their transitions can be studied. Remarkably, in the limit of strong interactions the system becomes Mott insulating and we find exceptionally stable spin liquid phases which are induced by the magnetic field. As the magnetic flux can be easily tuned in moire systems, our approach provides a promising route towards the experimental realization and control of topologically ordered phases of matter. We also discuss how layer pseudo-spin can be probed in near-term experiments
翻訳日:2023-01-26 22:02:41 公開日:2022-09-12
# 超低温表面波共振器用最小回折水晶

Minimally-diffracting quartz for ultra-low temperature surface acoustic wave resonators ( http://arxiv.org/abs/2209.05501v1 )

ライセンス: Link先を確認
Alec L. Emser, Brendon C. Rose, Lucas R. Sletten, Pablo Aramburu Sanchez, Konrad W. Lehnert(参考訳) 超低温における表面音響波(SAW)共振器の回折損失を最小限に抑える石英配向の存在をシミュレーションおよび実験的に実証した。 配向性は、高い機械的品質因子、強い電気機械結合、狭い音響開口の恩恵を受ける量子技術への応用に最適化されている。 この基板上に狭開口SAW共振器を作製し,mK温度で10万以上の内部品質因子を測定した。

We simulate and experimentally demonstrate the existence of an orientation of quartz which minimizes diffraction losses in surface acoustic wave (SAW) resonators at ultra-low temperatures. The orientation is optimized for applications to quantum technologies which benefit from high mechanical quality factors, strong electromechanical coupling, and narrow acoustic apertures. We fabricate narrow aperture SAW resonators on this substrate and measure internal quality factors greater than 100,000 at mK temperatures.
翻訳日:2023-01-26 22:02:25 公開日:2022-09-12
# 反射性量子散乱における実験的実現可能な$\mathcal{PT}$相転移

Experimentally-realizable $\mathcal{PT}$ phase transitions in reflectionless quantum scattering ( http://arxiv.org/abs/2209.05426v1 )

ライセンス: Link先を確認
Micheline B. Soley, Carl M. Bender, A. Douglas Stone(参考訳) 上述のバリア量子散乱問題のクラスは、純粋に実ポテンシャルを持つにもかかわらず自発的な$\mathcal{PT}$対称性を持つSchr\"odinger方程式を研究するための実験可能なプラットフォームを提供する。 これらのポテンシャルは1次元で逆転し不安定であり、$V(x) = - \lvert x\rvert^p$$(p>0$)という形式を持ち、有限長またはエネルギーで$x\to \pm\infty$として終端する。 unbroken $\mathcal{pt}$ symmetry の署名は、任意の高エネルギーまで離散実エネルギーにおける反射のない伝播状態の存在である。 しかし、$\mathcal{pt}$-broken フェーズではそのような解は存在しない。 さらに、低エネルギーでは反射のない状態が存在するが、終端長とは無関係に一定の有限エネルギーでは消える中間混合相が存在する。 混合相の例外点(EP)は特定の$p$とエネルギー値で発生し、EPから離れた二次的な振舞いとは対照的に反射率の準位が低下する。 $\mathcal{pt}$-symmetry-breaking 現象は、実ポテンシャルを持ち、貯水池結合を持たない量子系では以前は予測されていなかった。 ここで予測される効果は、プログラマブル光トラップを用いた標準的な冷原子実験で測定可能である。 対称性破壊遷移の物理的起源は、上記のバリア散乱の空間的位置を特定するWKB力解析を用いて解明される。

A class of above-barrier quantum-scattering problems is shown to provide an experimentally-accessible platform for studying $\mathcal{PT}$-symmetric Schr\"odinger equations that exhibit spontaneous $\mathcal{PT}$ symmetry breaking despite having purely real potentials. These potentials are one-dimensional, inverted, and unstable and have the form $V(x) = - \lvert x\rvert^p$ ($p>0$), terminated at a finite length or energy to a constant value as $x\to \pm\infty$. The signature of unbroken $\mathcal{PT}$ symmetry is the existence of reflectionless propagating states at discrete real energies up to arbitrarily high energy. In the $\mathcal{PT}$-broken phase, there are no such solutions. In addition, there exists an intermediate mixed phase, where reflectionless states exist at low energy but disappear at a fixed finite energy, independent of termination length. In the mixed phase exceptional points (EPs) occur at specific $p$ and energy values, with a quartic dip in the reflectivity in contrast to the quadratic behavior away from EPs. $\mathcal{PT}$-symmetry-breaking phenomena have not been previously predicted in a quantum system with a real potential and no reservoir coupling. The effects predicted here are measurable in standard cold-atom experiments with programmable optical traps. The physical origin of the symmetry-breaking transition is elucidated using a WKB force analysis that identifies the spatial location of the above-barrier scattering.
翻訳日:2023-01-26 22:01:27 公開日:2022-09-12
# 共積分データの位相解析:z24橋梁の事例研究

A topological analysis of cointegrated data: a Z24 Bridge case study ( http://arxiv.org/abs/2212.11727v1 )

ライセンス: Link先を確認
Tristan Gowdridge, Elizabeth Cross, Nikolaos Dervilis, Keith Worden(参考訳) 本論文は,Z24橋の自然周波数に対する統合前後のトポロジ的変化について検討した。 第2の自然周波数は温度で非線形であることが知られており、この研究の主要な焦点となる。 統合とは、時系列データを相互に正規化する方法であり、しばしば強い相関関係を持つ時系列である。 共積分は,z24ブリッジデータに対する最初の4つの自然周波数を結合することにより,環境と操作の変動から効果を取り除くために用いられる。 自然周波数データに対する温度効果は、データ内で明らかに見え、構造的な健康モニタリングのために、これらの効果が除去されることが望ましい。 単変数の時系列は、興味深い位相が形成されるような高次元空間に埋め込まれる。 トポロジカルデータ分析は、生の時系列と結合した同値を解析するために用いられる。 標準トポロジカルデータ解析パイプラインが実行され、組み込みの点雲から単純な複合体が構築される。 その後、トポロジカルな性質は、持続的ホモロジーのような単体複体から計算される。 永続ホモロジーは解析され、全ての時系列の位相構造を決定する。

The paper studies the topological changes from before and after cointegration, for the natural frequencies of the Z24 Bridge. The second natural frequency is known to be nonlinear in temperature, and this will serve as the main focal point of this work. Cointegration is a method of normalising time series data with respect to one another - often strongly-correlated time series. Cointegration is used in this paper to remove effects from Environmental and Operational Variations, by cointegrating the first four natural frequencies for the Z24 Bridge data. The temperature effects on the natural frequency data are clearly visible within the data, and it is desirable, for the purposes of structural health monitoring, that these effects are removed. The univariate time series are embedded in higher-dimensional space, such that interesting topologies are formed. Topological data analysis is used to analyse the raw time series, and the cointegrated equivalents. A standard topological data analysis pipeline is enacted, where simplicial complexes are constructed from the embedded point clouds. Topological properties are then calculated from the simplicial complexes; such as the persistent homology. The persistent homology is then analysed, to determine the topological structure of all the time series.
翻訳日:2023-01-26 21:55:22 公開日:2022-09-12
# 量子媒体の集合的性質について

On the collective properties of quantum media ( http://arxiv.org/abs/2209.06110v1 )

ライセンス: Link先を確認
Kamel Ourabah(参考訳) 同様の初等励起と分散特性を示す幅広い量子媒体の流体力学的表現について考察する。 この表現は任意のポテンシャルに関連する任意のタイプの(長距離)自己相互作用によって特徴づけられる量子系をカバーする。 また、ボソンの場合の短距離相互作用(コリシオン)やフェルミオンのポーリ排他原理などによって生じる非線形性も考慮される。 このアプローチは、自己重力型量子メディア(ダークマターなど)、量子プラズマ、ボース・アインシュタイン凝縮、非凝縮型低温原子雲など、様々な物理シナリオに等しく適用される。 これらの異なる系間で引き出すことができる形式的類似点と、重力現象、特に重力の代替理論の文脈において、重力現象をエミュレートする実験室実験を実現する方法について議論する。 我々の主張を裏付けるために、非最小の物質-曲率結合重力理論の場合についてより詳しく述べる。

We discuss the hydrodynamic representation of a wide class of quantum media exhibiting similar elementary excitations and dispersion properties. The representation covers quantum systems characterized by any type of (long-range) self-interaction, associated with an arbitrary potential. It also accounts for possible nonlinearities, which may arise e.g., due to short-range interactions (collisions) in the case of bosons, or from the Pauli exclusion principle for fermions. The approach equally applies to various physical scenarios, such as self-gravitating quantum media (e.g., dark matter), quantum plasmas, Bose-Einstein condensates, and non-condensed cold atomic clouds. We discuss the formal analogies that can be drawn between these different systems and how they can be used to realize laboratory experiments emulating gravitational phenomena, especially in the context of alternative theories of gravity. To substantiate our point, we elaborate more closely on the case of non-minimal matter-curvature coupling gravity theories.
翻訳日:2023-01-26 21:55:03 公開日:2022-09-12
# 任意の量子オブザーバブルにおける超現象

Super-phenomena in arbitrary quantum observables ( http://arxiv.org/abs/2209.05650v1 )

ライセンス: Link先を確認
Andrew N. Jordan, Yakir Aharonov, Daniele C. Struppa, Fabrizio Colombo, Irene Sabadini, Tomer Shushi, Jeff Tollaksen, John C. Howell, and A. Nick Vamivakas(参考訳) 超振動は、グローバルな帯域制限関数が最も高いフーリエ係数よりも早く局所的に振動するときに起こる。 この効果を、任意の量子力学演算子に弱値として一般化し、選択された状態は、ある範囲に有界な固有値を持つ作用素の固有状態の重ね合わせであり、ポストセレクション状態は局所的な位置である。 この作用素の超挙動は、作用素の弱値がその固有値境界を超えると発生する。 我々は、全角運動量とエネルギーに対するこの効果の例を示す。 後述のケースでは、漸近エネルギーが消滅する状態の有界重ね合わせのみを用いて、有限エネルギー状態が実線上の至る所で収束する調和振動子ポテンシャル列を実証する。 このパラドックス的状況は、時間デリバティブとの極限の非可換性のため、時間依存的なシュリンガー方程式がもはや考慮された極限には適用されないことを示して解決する。 しかしながら、この例は、ほぼゼロエネルギー状態のコヒーレントな重ね合わせで所望の空間領域を広くする高エネルギー状態の模倣の可能性を示している。

Superoscillations occur when a globally band-limited function locally oscillates faster than its highest Fourier coefficient. We generalize this effect to arbitrary quantum mechanical operators as a weak value, where the preselected state is a superposition of eigenstates of the operator with eigenvalues bounded to a range, and the postselection state is a local position. Superbehaviour of this operator occurs whenever the operator's weak value exceeds its eigenvalue bound. We give illustrative examples of this effect for total angular momentum and energy. In the later case, we demonstrate a sequence of harmonic oscillator potentials where a finite energy state converges everywhere on the real line, using only bounded superpositions of states whose asymptotic energy vanishes - "energy out of nothing". We resolve this paradoxical situation by showing the time-dependent Schr\"odinger equation no longer applies in the considered limit because of the non-commutation of the limit with the time-derivative. Nevertheless, this example demonstrates the possibility of mimicking a high-energy state with coherent superpositions of nearly zero-energy states for as wide a spatial region as desired.
翻訳日:2023-01-26 21:54:10 公開日:2022-09-12
# 量子アニールの騒音ダイナミクス:アイドルビットを用いた有効騒音の推定

Noise Dynamics of Quantum Annealers: Estimating the Effective Noise Using Idle Qubits ( http://arxiv.org/abs/2209.05648v1 )

ライセンス: Link先を確認
Elijah Pelofske, Georg Hahn, Hristo N. Djidjev(参考訳) 量子アニーリング(quantum annealing)は、量子力学的揺らぎを用いてqubo(quadratic unconstrained binary optimization)の最適解を探索することを目的としたアナログ計算の一種である。 NPハード問題は一般にIsingやQUBOの定式化にマッピングできるため、量子アニールパラダイムは様々なNPハード問題を解くのに役立つ可能性がある。 D-Wave Systems, Inc. などの現在の量子アニールは、解決可能な問題のサイズ(キュービット数)、量子ビット接続性、環境やシステムキャリブレーションによるエラーなど、様々な実用的な制限があり、ソリューションの品質を低下させることができる。 通常、任意の問題の場合、対応するQUBO(またはIsing)構造は量子チップ上の利用可能な量子ビットアーキテクチャにネイティブに埋め込まれない。 したがって、これらの場合、問題構造をデバイスに小さな埋め込みが必要となる。 しかし、これらのデバイスへの小さな埋め込みは、必ずしも完全なスパースチップハードウェアグラフを利用するわけではなく、利用可能な量子ビットの大部分が量子アニーリングの間は使われていない。 そこで本研究では,チップの未使用部分にQUBOを埋め込んで,解決すべきQUBOと組み合わせ,時間の経過とともに機器のソリューション品質の指標として機能する。 3種類のd波量子アニーラを用いた実験を用いて (i)d-waveデバイス上には、溶液品質の長期的傾向が存在する。 (ii) 未使用の量子ビットは、量子系の現在のノイズレベルを測定するために使用できる。

Quantum annealing is a type of analog computation that aims to use quantum mechanical fluctuations in search of optimal solutions of QUBO (quadratic unconstrained binary optimization) or, equivalently, Ising problems. Since NP-hard problems can in general be mapped to Ising and QUBO formulations, the quantum annealing paradigm has the potential to help solve various NP-hard problems. Current quantum annealers, such as those manufactured by D-Wave Systems, Inc., have various practical limitations including the size (number of qubits) of the problem that can be solved, the qubit connectivity, and error due to the environment or system calibration, which can reduce the quality of the solutions. Typically, for an arbitrary problem instance, the corresponding QUBO (or Ising) structure will not natively embed onto the available qubit architecture on the quantum chip. Thus, in these cases, a minor embedding of the problem structure onto the device is necessary. However, minor embeddings on these devices do not always make use of the full sparse chip hardware graph, and a large portion of the available qubits stay unused during quantum annealing. In this work, we embed a disjoint random QUBO on the unused parts of the chip alongside the QUBO to be solved, which acts as an indicator of the solution quality of the device over time. Using experiments on three different D-Wave quantum annealers, we demonstrate that (i) long term trends in solution quality exist on the D-Wave device, and (ii) the unused qubits can be used to measure the current level of noise of the quantum system.
翻訳日:2023-01-26 21:53:53 公開日:2022-09-12
# 確率リセット下における閉量子系のダイナミクス

Dynamics of closed quantum systems under stochastic resetting ( http://arxiv.org/abs/2209.05643v1 )

ライセンス: Link先を確認
Francisco J. Sevilla and Andrea Vald\'es-Hern\'andez(参考訳) 我々は、確率的リセットプロセスの対象となる閉量子系を考える。 結果の密度演算子に対する一般的な式は任意のリセットダイナミクスに対して定式化され、連続リセットイベント間の時間分布によって完全に特徴づけられる。 我々は、長期体制における状態の挙動と、量子コヒーレンスと閉系と開系力学の研究における関連する量の進化を分析する。 本研究の成果は, パラダイム的リセット分布を含む例を補完するものであり, 更新プロセスが直交状態への進化速度に与える影響を解明し, オープンシステムに適用されるリセットについて考察する2段階(キュービット)システムに特有な注意を払っている。

We consider a closed quantum system subject to a stochastic resetting process. The generic expression for the resulting density operator is formulated for arbitrary resetting dynamics, fully characterised by the distribution of times between consecutive reset events. We analyse the behaviour of the state in the long-time regime, as well as the evolution of relevant quantities in the study of quantum coherence and closed- vs open-system dynamics. Our general results are complemented with examples involving paradigmatic resetting distributions, and special attention is paid to the two-level (qubit) system, in which we elucidate the effects of the renewal process on the speed of evolution toward an orthogonal state, and gain insight into the resetting applied to open systems.
翻訳日:2023-01-26 21:53:26 公開日:2022-09-12
# 固体中の希土類イオンとの相互作用による核スピンのコヒーレント制御

Coherent control of a nuclear spin via interactions with a rare-earth ion in the solid-state ( http://arxiv.org/abs/2209.05631v1 )

ライセンス: Link先を確認
Mehmet T. Uysal, Mouktik Raha, Songtao Chen, Christopher M. Phenicie, Salim Ourari, Mengen Wang, Chris G. Van de Walle, Viatcheslav V. Dobrovitski, Jeff D. Thompson(参考訳) 固体ホスト内の個別アドレスの er$^{3+}$ イオンは、通信帯域の直接放出とシリコンフォトニックデバイスとの互換性のため、量子リピータにとって有望なリソースである。 Er$^{3+} の電子スピンはスピン-光子界面を提供するが、アンシラ核スピンはより長い貯蔵時間を持つマルチキュービットレジスタを可能にする。 本研究では,固体ホスト結晶中の1つのer$^{3+}$イオンの電子スピンと1つの$i=1/2$核スピンとの間のコヒーレント結合を実証する。 我々は電子スピンに印加された動的疎結合配列を用いて核スピンを制御する。 重要なことに、核スピンのコヒーレンス時間は、磁気モーメントが小さいため、電子コヒーレンス時間を超える。 これらの結果は、長距離量子リピータのための長距離核スピン量子レジスタと通信波長エミッタを結合する道筋を提供する。

Individually addressed Er$^{3+}$ ions in solid-state hosts are promising resources for quantum repeaters, because of their direct emission in the telecom band and compatibility with silicon photonic devices. While the Er$^{3+}$ electron spin provides a spin-photon interface, ancilla nuclear spins could enable multi-qubit registers with longer storage times. In this work, we demonstrate coherent coupling between the electron spin of a single Er$^{3+}$ ion and a single $I=1/2$ nuclear spin in the solid-state host crystal, which is a fortuitously located proton ($^1$H). We control the nuclear spin using dynamical decoupling sequences applied to the electron spin, implementing one- and two-qubit gate operations. Crucially, the nuclear spin coherence time exceeds the electron coherence time by several orders of magnitude, because of its smaller magnetic moment. These results provide a path towards combining long-lived nuclear spin quantum registers with telecom-wavelength emitters for long-distance quantum repeaters.
翻訳日:2023-01-26 21:52:54 公開日:2022-09-12
# ダイヤモンド中のNV中心のスピンコヒーレンスマッピング

Spin coherence mapping of NV centers in diamond ( http://arxiv.org/abs/2209.05577v1 )

ライセンス: Link先を確認
Lucas Nunes Sales de Andrade, Charlie Oncebay Segura, and S\'ergio Ricardo Muniz(参考訳) 近年、ダイヤモンド中の窒素空孔(NV)色中心は、電子スピン特性により優れた固体量子センサとなっている。 特に、室温での非常に大きなスピンコヒーレンスとともに、光学的初期化と検出が容易である。 多くの研究が、温度、ひずみ、電場、および主に磁場の検知に使用を報告している。 本稿では,超純ダイヤモンド中のNV中心のアンサンブルの電子スピンコヒーレンスを,通常のCCDカメラにのみ依存するマイクロ波パルスと組み合わせた光学的イメージングプロトコルを用いて2次元マップを作成する方法について述べる。

In recent years, nitrogen-vacancy (NV) color centers in diamond have become excellent solid-state quantum sensors due to their electronic spin properties. Especially for their easy optical initialization and detection, together with their very large spin coherence at room temperature. Many studies have reported their use for sensing temperature, strain, electric fields, and mainly magnetic fields. Here, we show how to build a two-dimensional map of the electronic spin coherence of an ensemble of NV centers in ultra-pure diamond, using an optical imaging protocol combined with microwave pulses relying simply on a regular CCD camera.
翻訳日:2023-01-26 21:52:33 公開日:2022-09-12
# 数論からの量子物理学

Quantum Physics from Number Theory ( http://arxiv.org/abs/2209.05549v1 )

ライセンス: Link先を確認
Tim Palmer(参考訳) 量子力学に固有の性質を与える性質 - ユニタリ性、相補性、非可換性、不確実性、非局所性 - は、複素ヒルベルト空間の波動関数に作用するエルミート作用素の代数構造に由来する。 このため、波動関数は、不確実性が単にアンサンブルメンバーが現実を記述する知識の不足を反映している決定論的状態のアンサンブルを記述することができない。 これは量子力学のオントロジーに関する無限の議論につながった。 ここで、これらの同じ量子特性を三角関数の数論的性質から導出し、離散化された複素ヒルベルト状態の明示的にアンサンブルに基づく表現に適用する。 微調整を避けるために、状態空間上の計量はユークリッドよりもp$-adicでなければならず、1/p$は離散化の細さを決定する。 このことは、世界の状態が制約されるフラクタル状態空間幾何学の存在の両方を示唆している。 このモデルでは、ベルの不等式違反はこの幾何学的制約の現れであり、局所的な時空因果関係の崩壊を意味するものではない。 離散波動関数は状態の集合を記述するため、波動関数の崩壊は起こらない。 代わりに、測度は状態空間幾何学上の状態空間軌跡の非線形クラスタリングを記述する。 このモデルでは、プランク質量よりも大きい質量を持つ系は量子特性を示しず、古典的に振る舞う。 幾何学的制約は、量子ビット数を持つ状態空間の大きさの指数関数的な増加は、数百のクビット数で崩壊する可能性を示唆している。 量子力学はそれ自体、$p=\infty$におけるこの数論モデルの特異極限である。 この量子物理学の離散化モデルと一致する一般相対性理論の修正が提案されている。

The properties which give quantum mechanics its unique character - unitarity, complementarity, non-commutativity, uncertainty, nonlocality - derive from the algebraic structure of Hermitian operators acting on the wavefunction in complex Hilbert space. Because of this, the wavefunction cannot be shown to describe an ensemble of deterministic states where uncertainty simply reflects a lack of knowledge about which ensemble member describes reality. This has led to endless debates about the ontology of quantum mechanics. Here we derive these same quantum properties from number theoretic attributes of trigonometric functions applied to an explicitly ensemble-based representation of discretised complex Hilbert states. To avoid fine-tuning, the metric on state space must be $p$-adic rather than Euclidean where $1/p$ determines the fineness of the discretisation. This hints at both the existence of an underpinning fractal state-space geometry onto which states of the world are constrained. In this model, violation of Bell inequalities is a manifestation of this geometric constraint and does not imply a breakdown of local space-time causality. Because the discretised wavefunction describes an ensemble of states, there is no collapse of the wavefunction. Instead measurement describes a nonlinear clustering of state-space trajectories on the state-space geometry. In this model, systems with mass greater than the Planck mass will not exhibit quantum properties and instead behave classically. The geometric constraint suggests that the exponential increase in the size of state space with qubit number may break down with qubit numbers as small as a few hundred. Quantum mechanics is itself a singular limit of this number-theoretic model at $p=\infty$. A modification of general relativity, consistent with this discretised model of quantum physics, is proposed.
翻訳日:2023-01-26 21:52:22 公開日:2022-09-12
# ImageNet-trained CNNの形状と単純さの偏り

The shape and simplicity biases of adversarially robust ImageNet-trained CNNs ( http://arxiv.org/abs/2006.09373v6 )

ライセンス: Link先を確認
Peijie Chen, Chirag Agarwal, Anh Nguyen(参考訳) 人間の視覚と畳み込みニューラルネットワーク(CNN)の類似性は、ここ数年でますます高まっている。 しかしながら、バニラCNNは、人間が優れたパフォーマンスを示す敵対的またはアウト・オブ・ディストリビューション(OOD)の例を一般化するのに不足することが多い。 逆行訓練は、CNNの逆行性およびOODデータに対する堅牢性を改善するための主要な学習アルゴリズムであるが、その特性、特に逆行性CNNの内部で学んだ形状バイアスと内部特徴についてはほとんど知られていない。 本稿では,alexnet,googlenet,resnet-50モデルの汎用性を実現するための,形状バイアスと内部機構を理解するための徹底的かつ体系的な研究を行う。 標準のImageNet分類器はテクスチャバイアスが強いが、Rの分類器は形状に大きく依存している。 興味深いことに、敵の訓練はCNNの「不正化」過程において隠れたニューロンに3つの単純バイアスを誘導する。 すなわち、Rネットワーク内の各畳み込みニューロンは、(1) ピクセル単位のスムーズなパターン、すなわち、ネットワークを通過する高周波ノイズを遮断するメカニズム、(2) テクスチャや色(オブジェクトの代わりに)より低レベルな特徴、(3) 入力の種類がより少ないことを検出するようになる。 我々の発見は、ネットワークをより逆向きに堅牢にする興味深いメカニズムを明らかにし、また、なぜRネットワークがより大きな容量(Xie et al. 2020)から恩恵を受け、画像合成に先立って強いイメージとして機能するか(Santurkar et al. 2019)といった最近の発見を説明している。

Increasingly more similarities between human vision and convolutional neural networks (CNNs) have been revealed in the past few years. Yet, vanilla CNNs often fall short in generalizing to adversarial or out-of-distribution (OOD) examples which humans demonstrate superior performance. Adversarial training is a leading learning algorithm for improving the robustness of CNNs on adversarial and OOD data; however, little is known about the properties, specifically the shape bias and internal features learned inside adversarially-robust CNNs. In this paper, we perform a thorough, systematic study to understand the shape bias and some internal mechanisms that enable the generalizability of AlexNet, GoogLeNet, and ResNet-50 models trained via adversarial training. We find that while standard ImageNet classifiers have a strong texture bias, their R counterparts rely heavily on shapes. Remarkably, adversarial training induces three simplicity biases into hidden neurons in the process of "robustifying" CNNs. That is, each convolutional neuron in R networks often changes to detecting (1) pixel-wise smoother patterns, i.e., a mechanism that blocks high-frequency noise from passing through the network; (2) more lower-level features i.e. textures and colors (instead of objects);and (3) fewer types of inputs. Our findings reveal the interesting mechanisms that made networks more adversarially robust and also explain some recent findings e.g., why R networks benefit from a much larger capacity (Xie et al. 2020) and can act as a strong image prior in image synthesis (Santurkar et al. 2019).
翻訳日:2022-11-20 19:56:14 公開日:2022-09-12
# ニューラルSDEに対する決定論的近似

A Deterministic Approximation to Neural SDEs ( http://arxiv.org/abs/2006.08973v6 )

ライセンス: Link先を確認
Andreas Look, Melih Kandemir, Barbara Rakitsch, Jan Peters(参考訳) ニューラル確率微分方程式(NSDE)は、確率過程のドリフトと拡散関数をニューラルネットワークとしてモデル化する。 NSDEは正確な予測をすることが知られているが、その不確実な定量化特性はいまだ未解明のままである。 本報告では,NSDEの精度の高い不確実性推定は,計算的に禁忌であることを示す。 NSDEによって動的に制御される場合の遷移カーネルを正確に近似する計算的に手頃な決定論的スキームを開発する。 本手法では,2次元モーメントマッチングアルゴリズムを導入する。ニューラルネット層に沿って垂直方向と時間方向に沿って水平方向の2次元モーメントマッチングアルゴリズムを導入する。 遷移核の決定論的近似は、トレーニングと予測の両方に適用できる。 提案手法の不確実性校正品質は,モンテカルロサンプリングにおいて高い計算コスト導入後にのみマッチング可能であることを複数実験で確認した。 決定論的トレーニングの数値的安定性により,予測精度も向上する。

Neural Stochastic Differential Equations (NSDEs) model the drift and diffusion functions of a stochastic process as neural networks. While NSDEs are known to make accurate predictions, their uncertainty quantification properties have been remained unexplored so far. We report the empirical finding that obtaining well-calibrated uncertainty estimations from NSDEs is computationally prohibitive. As a remedy, we develop a computationally affordable deterministic scheme which accurately approximates the transition kernel, when dynamics is governed by a NSDE. Our method introduces a bidimensional moment matching algorithm: vertical along the neural net layers and horizontal along the time direction, which benefits from an original combination of effective approximations. Our deterministic approximation of the transition kernel is applicable to both training and prediction. We observe in multiple experiments that the uncertainty calibration quality of our method can be matched by Monte Carlo sampling only after introducing high computational cost. Thanks to the numerical stability of deterministic training, our method also improves prediction accuracy.
翻訳日:2022-11-20 19:19:21 公開日:2022-09-12
# メモリ効率3D GANのための階層的補正トレーニング

Hierarchical Amortized Training for Memory-efficient High Resolution 3D GAN ( http://arxiv.org/abs/2008.01910v4 )

ライセンス: Link先を確認
Li Sun, Junxiang Chen, Yanwu Xu, Mingming Gong, Ke Yu, Kayhan Batmanghelich(参考訳) Generative Adversarial Networks (GAN) は、データ拡張、ドメイン適応、モデル説明など、多くの潜在的な医療画像アプリケーションを持っている。 グラフィック処理ユニット(gpu)のメモリが限られているため、現在の3d ganモデルのほとんどは低解像度の医療画像で訓練されている。 本稿では,高分解能3d画像を生成するための新しいganアーキテクチャを提案する。 トレーニングと推論の異なる構成を使用することで、この目標を達成する。 学習中,低解像度画像とランダムに選択された高画質画像のサブボリュームを同時に生成する階層構造を採用する。 階層的設計には2つの利点がある: まず、高解像度画像のトレーニングに対するメモリ要求は、サブボリューム間で償却される。 さらに、高解像度サブボリュームを単一の低解像度画像に固定することで、サブボリューム間の解剖学的一貫性が保証される。 推論中、我々のモデルは完全な高解像度画像を直接生成できる。 また,同様の階層構造を持つエンコーダをモデルに組み込んで,画像から特徴を抽出する。 3次元胸郭CTと脳MRIの実験により、我々のアプローチは画像生成における最先端技術より優れていることが示された。 また,データ拡張および臨床関連特徴抽出における提案モデルの臨床的応用について述べる。

Generative Adversarial Networks (GAN) have many potential medical imaging applications, including data augmentation, domain adaptation, and model explanation. Due to the limited memory of Graphical Processing Units (GPUs), most current 3D GAN models are trained on low-resolution medical images, these models either cannot scale to high-resolution or are prone to patchy artifacts. In this work, we propose a novel end-to-end GAN architecture that can generate high-resolution 3D images. We achieve this goal by using different configurations between training and inference. During training, we adopt a hierarchical structure that simultaneously generates a low-resolution version of the image and a randomly selected sub-volume of the high-resolution image. The hierarchical design has two advantages: First, the memory demand for training on high-resolution images is amortized among sub-volumes. Furthermore, anchoring the high-resolution sub-volumes to a single low-resolution image ensures anatomical consistency between sub-volumes. During inference, our model can directly generate full high-resolution images. We also incorporate an encoder with a similar hierarchical structure into the model to extract features from the images. Experiments on 3D thorax CT and brain MRI demonstrate that our approach outperforms state of the art in image generation. We also demonstrate clinical applications of the proposed model in data augmentation and clinical-relevant feature extraction.
翻訳日:2022-11-02 18:38:28 公開日:2022-09-12
# 星の結婚の仕方: 文脈における意味の確率的制約

How to marry a star: probabilistic constraints for meaning in context ( http://arxiv.org/abs/2009.07936v3 )

ライセンス: Link先を確認
Katrin Erk, Aurelie Herbelot(参考訳) 本稿では,意味をインテンテンテンショナルと概念の両方として特徴づける「文脈における単語の意味」の概念を導出する。 本稿では,文脈における単語の意味に関する局所的および大域的制約に加えて,それらの相互作用も考慮し,発話解釈で観察される語彙変化や曖昧さをモデル化する枠組みを提案する。 文の意味を「位置記述システム」と表現し、発話理解を、観察された発話を考慮に入れた1つ以上の状況に記述する精神的なプロセスとみなす確率論的モデルを示す。 本稿では,実際にシステムを実装する方法を示し,様々な文脈化現象を含む例に適用する。

In this paper, we derive a notion of 'word meaning in context' that characterizes meaning as both intensional and conceptual. We introduce a framework for specifying local as well as global constraints on word meaning in context, together with their interactions, thus modelling the wide range of lexical shifts and ambiguities observed in utterance interpretation. We represent sentence meaning as a 'situation description system', a probabilistic model which takes utterance understanding to be the mental process of describing to oneself one or more situations that would account for an observed utterance. We show how the system can be implemented in practice, and apply it to examples containing various contextualisation phenomena.
翻訳日:2022-10-18 00:04:31 公開日:2022-09-12
# 回帰手法を用いた学生の学習スタイル予測

Predicting students' learning styles using regression techniques ( http://arxiv.org/abs/2209.12691v1 )

ライセンス: Link先を確認
Ahmad Mousa Altamimi, Mohammad Azzeh, Mahmoud Albashayreh(参考訳) 従来の学習システムは新型コロナウイルスのパンデミックに素早く対応し、オンラインや遠隔学習に移行した。 オンライン学習は、学習者とインストラクターの相互作用が最小限であり、学習者が最適な学習方法を持っているため、パーソナライズ方法を必要とする。 パーソナライズ手法の1つは学習者の学習スタイルを検出することである。 学習スタイルを検出するために,分類手法を用いたいくつかの研究が提案されている。 しかし、現在の検出モデルは、学習者が支配的なスタイルや学習スタイルがない場合、効果がない。 したがって,本研究の目的は2つある。 まず、回帰分析に基づく予測モデルの構築は、好む学習スタイルを推定するための確率論的アプローチを提供する。 第二に,学習スタイル検出のための回帰モデルと分類モデルの比較である。 概念モデルに基づいて,視覚,聴覚,読み書き,皮膚審美(VARK)の在庫アンケートを用いて,72名の学生のサンプルから収集したデータセットに基づいて,機械学習アルゴリズムのセットを実装した。 その結果,リグレッション手法は,複数の学習スタイルを持つ場合と確率が異なる場合の分類アルゴリズムよりも,実世界のシナリオにおいてより正確かつ代表的であることがわかった。 この研究は、教育機関が教育過程に学習スタイルを取り入れるのに役立つと信じている。

Traditional learning systems have responded quickly to the COVID pandemic and moved to online or distance learning. Online learning requires a personalization method because the interaction between learners and instructors is minimal, and learners have a specific learning method that works best for them. One of the personalization methods is detecting the learners' learning style. To detect learning styles, several works have been proposed using classification techniques. However, the current detection models become ineffective when learners have no dominant style or a mix of learning styles. Thus, the objective of this study is twofold. Firstly, constructing a prediction model based on regression analysis provides a probabilistic approach for inferring the preferred learning style. Secondly, comparing regression models and classification models for detecting learning style. To ground our conceptual model, a set of machine learning algorithms have been implemented based on a dataset collected from a sample of 72 students using visual, auditory, reading/writing, and kinesthetic (VARK's) inventory questionnaire. Results show that regression techniques are more accurate and representative for real-world scenarios than classification algorithms, where students might have multiple learning styles but with different probabilities. We believe that this research will help educational institutes to engage learning styles in the teaching process.
翻訳日:2022-10-02 23:49:58 公開日:2022-09-12
# emojispace:絵文字の空間表現

emojiSpace: Spatial Representation of Emojis ( http://arxiv.org/abs/2209.09871v1 )

ライセンス: Link先を確認
Moeen Mostafavi, Mahsa Pahlavikhah Varnosfaderani, Fateme Nikseresht, Seyed Ahmad Mansouri(参考訳) メッセージコミュニケーション中に非言語的なヒントがない場合、ユーザーは絵文字を使って感情の一部を表現する。 したがって、テキストメッセージング言語モデルの語彙に絵文字を持つことは、オンラインコミュニケーション分析のような多くの自然言語処理(NLP)アプリケーションを大幅に改善することができる。 一方、単語埋め込みモデルは、通常、非常に少ない絵文字のサンプルを含むwikipediaやgoogle newsデータセットのような非常に大きなテキストコーパスで訓練される。 本研究では,python のgenism ライブラリから word2vec モデルを用いて,word-emoji を組み込んだ emojispace を開発した。 われわれは40億以上のツイートからなるコーパスで絵文字スペースをトレーニングし、6700万以上のツイートを含むTwitterデータセットに感情分析を実装して評価した。 本研究では,ランダムフォレスト (rf) と線形支持ベクトルマシン (svm) の2つの異なる分類器の性能を比較した。 評価のために,絵文字空間の性能と事前学習した他の2つの埋め込みとの比較を行った。

In the absence of nonverbal cues during messaging communication, users express part of their emotions using emojis. Thus, having emojis in the vocabulary of text messaging language models can significantly improve many natural language processing (NLP) applications such as online communication analysis. On the other hand, word embedding models are usually trained on a very large corpus of text such as Wikipedia or Google News datasets that include very few samples with emojis. In this study, we create emojiSpace, which is a combined word-emoji embedding using the word2vec model from the Genism library in Python. We trained emojiSpace on a corpus of more than 4 billion tweets and evaluated it by implementing sentiment analysis on a Twitter dataset containing more than 67 million tweets as an extrinsic task. For this task, we compared the performance of two different classifiers of random forest (RF) and linear support vector machine (SVM). For evaluation, we compared emojiSpace performance with two other pre-trained embeddings and demonstrated that emojiSpace outperforms both.
翻訳日:2022-09-25 17:13:39 公開日:2022-09-12
# 遠隔医療用写真品質向上のためのAI支援ツールの開発と臨床評価

Development and Clinical Evaluation of an AI Support Tool for Improving Telemedicine Photo Quality ( http://arxiv.org/abs/2209.09105v1 )

ライセンス: Link先を確認
Kailas Vodrahalli, Justin Ko, Albert S. Chiou, Roberto Novoa, Abubakar Abid, Michelle Phung, Kiana Yekrang, Paige Petrone, James Zou, Roxana Daneshjou(参考訳) 新型コロナウイルスのパンデミックで遠隔医療の利用が加速し、皮膚の状態が一般的なユースケースとなった。 しかし、患者が送った写真の品質は依然として大きな限界である。 この問題に対処するため,我々は,遠隔医療における患者の写真品質を評価するための人工知能(ai)モデルであるtrueimage 2.0を開発した。 trueimage 2.0は、臨床医が写真品質にアノテートした1700枚の遠隔医療画像に基づいて訓練された。 357枚の遠隔医療画像の振り返りデータセットでTrueImage 2.0は、品質の悪い画像(ROC-AUC =0.78)と品質の悪い理由(Blurry ROC-AUC=0.84, Lighting issue ROC-AUC=0.70)を効果的に同定した。 パフォーマンスは年齢、性別、肌の色で一致します。 次に,98例を対象に臨床実験を行い,患者と画像の相互作用が写真品質の向上に繋がるか否かを検討した。 TrueImage 2.0では、画質の悪い患者を68.0%減らした。

Telemedicine utilization was accelerated during the COVID-19 pandemic, and skin conditions were a common use case. However, the quality of photographs sent by patients remains a major limitation. To address this issue, we developed TrueImage 2.0, an artificial intelligence (AI) model for assessing patient photo quality for telemedicine and providing real-time feedback to patients for photo quality improvement. TrueImage 2.0 was trained on 1700 telemedicine images annotated by clinicians for photo quality. On a retrospective dataset of 357 telemedicine images, TrueImage 2.0 effectively identified poor quality images (Receiver operator curve area under the curve (ROC-AUC) =0.78) and the reason for poor quality (Blurry ROC-AUC=0.84, Lighting issues ROC-AUC=0.70). The performance is consistent across age, gender, and skin tone. Next, we assessed whether patient-TrueImage 2.0 interaction led to an improvement in submitted photo quality through a prospective clinical pilot study with 98 patients. TrueImage 2.0 reduced the number of patients with a poor-quality image by 68.0%.
翻訳日:2022-09-25 17:12:32 公開日:2022-09-12
# 注意モデルによるSoCメッセージフローのマイニング

Mining SoC Message Flows with Attention Model ( http://arxiv.org/abs/2209.07929v1 )

ライセンス: Link先を確認
Md Rubel Ahmed, Bardia Nadimi, Hao Zheng(参考訳) システムオンチップ(SoC)設計の包括的な検証には,高品質なシステムレベルのメッセージフロー仕様が必要である。 しかし、そのような仕様のマニュアル開発とメンテナンスは大変な作業である。 本稿では,soc通信トレースから正確な流れ仕様を推定するための注意機構を備えた深部シーケンスモデリングを用いた破壊的手法を提案する。 提案手法は,既存の採掘ツールがしばしば困難であるSoC設計の同時実行によって引き起こされるSoCトレースの複雑さを克服することができる。 高度に並行な5つのトレース実験を行い,提案手法が既存の最新のトレースマイニングツールよりも優れていることを発見した。

High-quality system-level message flow specifications are necessary for comprehensive validation of system-on-chip (SoC) designs. However, manual development and maintenance of such specifications are daunting tasks. We propose a disruptive method that utilizes deep sequence modeling with the attention mechanism to infer accurate flow specifications from SoC communication traces. The proposed method can overcome the inherent complexity of SoC traces induced by the concurrent executions of SoC designs that existing mining tools often find extremely challenging. We conduct experiments on five highly concurrent traces and find that the proposed approach outperforms several existing state-of-the-art trace mining tools.
翻訳日:2022-09-25 17:12:12 公開日:2022-09-12
# 進化するネットワークにおける拡散を分類する時間的グラフレットカーネル

A Temporal Graphlet Kernel for Classifying Dissemination in Evolving Networks ( http://arxiv.org/abs/2209.07332v1 )

ライセンス: Link先を確認
Lutz Oettershagen, Nils M. Kriege, Claude Jordan, Petra Mutzel(参考訳) ラベル付き時間グラフの拡散過程を分類するために, \emph{temporal graphlet kernel} を導入する。 このような拡散過程は、動的ネットワークにおいてニュース、感染症、コンピュータウイルスを拡散(フェイク)することができる。 ネットワークはラベル付きテンポラリグラフとしてモデル化され、エッジは特定の時点に存在し、ノードラベルは時間とともに変化する。 分類問題は、感染確率の異なる感染症など、異なる起源やパラメータの拡散過程を識別することを要求する。 新しいカーネルは、時間グラフの特徴空間、すなわち、その構造、時間依存ノードラベル、エッジの時系列順で区別される小さなサブグラフにラベル付けされた時間グラフを表す。 効率よく可算であるグラフレットのクラスに基づいて、カーネルの変種を紹介します。 時間的ウェッジの場合,予測誤差の少ない高効率な近似カーネルを提案する。 我々のカーネルは計算が速く、最先端の手法よりも精度が高いことを示す。

We introduce the \emph{temporal graphlet kernel} for classifying dissemination processes in labeled temporal graphs. Such dissemination processes can be spreading (fake) news, infectious diseases, or computer viruses in dynamic networks. The networks are modeled as labeled temporal graphs, in which the edges exist at specific points in time, and node labels change over time. The classification problem asks to discriminate dissemination processes of different origins or parameters, e.g., infectious diseases with different infection probabilities. Our new kernel represents labeled temporal graphs in the feature space of temporal graphlets, i.e., small subgraphs distinguished by their structure, time-dependent node labels, and chronological order of edges. We introduce variants of our kernel based on classes of graphlets that are efficiently countable. For the case of temporal wedges, we propose a highly efficient approximative kernel with low error in expectation. We show that our kernels are faster to compute and provide better accuracy than state-of-the-art methods.
翻訳日:2022-09-16 13:40:08 公開日:2022-09-12
# 規則順守型合成データ-学習の言語フランカ

Rule-adhering synthetic data -- the lingua franca of learning ( http://arxiv.org/abs/2209.06679v1 )

ライセンス: Link先を確認
Michael Platzer and Ivona Krchova(参考訳) AIが生成した合成データは、既存のデータの一般的なパターンを抽出し、粒度レベルの代表として安全に共有する。 本研究では、データ合成にドメインの専門知識を取り入れ、その統計的性質と、既存のルールのドメイン知識を表現するためのアプローチを検討する。 得られた合成データ生成装置は、新しいサンプルを何個でも探すことができ、人間や機械が消費する学習のラングアフランカとして、共通のインテリジェンス源として機能する。 我々は,公開データセットの概念を実証し,その利点を記述論的解析と下流mlモデルを用いて評価する。

AI-generated synthetic data allows to distill the general patterns of existing data, that can then be shared safely as granular-level representative, yet novel data samples within the original semantics. In this work we explore approaches of incorporating domain expertise into the data synthesis, to have the statistical properties as well as pre-existing domain knowledge of rules be represented. The resulting synthetic data generator, that can be probed for any number of new samples, can then serve as a common source of intelligence, as a lingua franca of learning, consumable by humans and machines alike. We demonstrate the concept for a publicly available data set, and evaluate its benefits via descriptive analysis as well as a downstream ML model.
翻訳日:2022-09-15 13:43:32 公開日:2022-09-12
# One-Shot Doc Snippet Detection:テキスト以外のドキュメントで検索をパワーアップ

One-Shot Doc Snippet Detection: Powering Search in Document Beyond Text ( http://arxiv.org/abs/2209.06584v1 )

ライセンス: Link先を確認
Abhinav Java, Shripad Deshmukh, Milan Aggarwal, Surgan Jandial, Mausoom Sarkar, Balaji Krishnamurthy(参考訳) デジタル文書のアクティブな消費は、検索を含む様々な応用の研究のスコープとなった。 伝統的に、ドキュメント内の検索は、構造化文書やフォームなどに一般的に存在するリッチなレイアウトや視覚的手がかりを無視して、テキストマッチング問題としてキャストされてきた。 ドキュメントスニペットの単一のクエリインスタンスが与えられた場合、ターゲットのドキュメントページにある同様のスニペットを検索しますか? 単発スニペット検出タスクとして MONOMER を提案する。 MONOMERは、コンテキストを視覚的、テキスト的、空間的なスニペットやドキュメントから切り離して、ターゲット文書のクエリスニペットを見つける。 我々は,one-shot object detection (bhrl), template matching, document understanding (layoutlmv3) のベースラインをモノマーが上回っていることを示す広範なアブレーションおよび実験を行った。 タスクに関連するデータが不足しているため、Flamingo FormsとPubLayNetという2つのデータセットから、多くの視覚的に類似したクエリスニペットとターゲットドキュメントペアを持つプログラム生成データに対してMONOMERをトレーニングする。 また、生成されたデータを検証するために人間の研究も行います。

Active consumption of digital documents has yielded scope for research in various applications, including search. Traditionally, searching within a document has been cast as a text matching problem ignoring the rich layout and visual cues commonly present in structured documents, forms, etc. To that end, we ask a mostly unexplored question: "Can we search for other similar snippets present in a target document page given a single query instance of a document snippet?". We propose MONOMER to solve this as a one-shot snippet detection task. MONOMER fuses context from visual, textual, and spatial modalities of snippets and documents to find query snippet in target documents. We conduct extensive ablations and experiments showing MONOMER outperforms several baselines from one-shot object detection (BHRL), template matching, and document understanding (LayoutLMv3). Due to the scarcity of relevant data for the task at hand, we train MONOMER on programmatically generated data having many visually similar query snippets and target document pairs from two datasets - Flamingo Forms and PubLayNet. We also do a human study to validate the generated data.
翻訳日:2022-09-15 13:31:17 公開日:2022-09-12
# 通信コストを考慮した分散オンラインパラメータ推定のための有限サンプル保証

Finite Sample Guarantees for Distributed Online Parameter Estimation with Communication Costs ( http://arxiv.org/abs/2209.06678v1 )

ライセンス: Link先を確認
Lei Xin, George Chiu, Shreyas Sundaram(参考訳) 本研究では,未知のパラメータを分散・オンライン方式で推定する問題について検討する。 分散オンライン学習に関する既存の研究は通常、漸近分析に焦点を当てるか、後悔の限界を提供する。 しかし、これらの結果は有限個の時間ステップの後に学習モデルの誤差の境界に直接翻訳することはできない。 本稿では,ネットワーク内の各エージェントが隣人と通信することで,その推定精度を向上させる分散オンライン推定アルゴリズムを提案する。 推定誤差の非漸近境界を提供し,基礎モデルの統計的性質を活用した。 本分析は,推定誤差と通信コストのトレードオフを示す。 さらに,本分析により,所望の推定精度を満たしつつ,通信の停止時間(通信に伴うコストのため)を決定することができる。 結果を検証する数値的な例も提供します。

We study the problem of estimating an unknown parameter in a distributed and online manner. Existing work on distributed online learning typically either focuses on asymptotic analysis, or provides bounds on regret. However, these results may not directly translate into bounds on the error of the learned model after a finite number of time-steps. In this paper, we propose a distributed online estimation algorithm which enables each agent in a network to improve its estimation accuracy by communicating with neighbors. We provide non-asymptotic bounds on the estimation error, leveraging the statistical properties of the underlying model. Our analysis demonstrates a trade-off between estimation error and communication costs. Further, our analysis allows us to determine a time at which the communication can be stopped (due to the costs associated with communications), while meeting a desired estimation accuracy. We also provide a numerical example to validate our results.
翻訳日:2022-09-15 13:08:27 公開日:2022-09-12
# マルチモーダル深層学習による手術作業時の認知負荷の同定

Identification of Cognitive Workload during Surgical Tasks with Multimodal Deep Learning ( http://arxiv.org/abs/2209.06208v1 )

ライセンス: Link先を確認
Kaizhe Jin, Adrian Rubio-Solis, Ravik Nain, Tochukwu Onyeogulu, Amirul Islam, Salman Khan, Tochukwu Onyeogulu, Amirul Islam, Salman Khan, Izzeddin Teeti, Fabio Cuzzolin and George Mylonas(参考訳) 操作室(OR)では、活動は他の典型的な作業環境とは異なる。 特に外科医は、健康やパフォーマンスに悪影響を及ぼす複数の精神組織的制約にさらされることが多い。 これは一般的に、予期せぬ、反復的なタスク、大量の情報、潜在的に危険を伴う認知的過負荷に対処する結果として生じる、関連する認知的ワークロード(CWL)の増加によるものである。 本稿では,4つの異なる手術課題におけるcwlのマルチモーダル認識のために,2つの機械学習手法のカスケードを提案する。 まず、移植学習の概念に基づくモデルを用いて、外科医がCWLを経験しているかどうかを特定する。 次に、畳み込みニューラルネットワーク(CNN)は、この情報を用いて、各手術タスクに関連するさまざまなタイプのCWLを識別する。 提案するマルチモーダルアプローチは、脳波(EEG)、機能近赤外分光(fNIRS)、瞳孔径からの隣接信号を考慮する。 信号の結合は時間(時間的)とチャネルの位置(空間的)で複雑な相関を可能にする。 データ収集は、HARMS Labで開発されたMulti-Sensing AI Environment for surgery Task $\&$ Role Optimisation platform (MAESTRO)によって実行される。 提案手法の性能を比較するため,多くの最先端の機械学習技術が実装されている。 実験の結果,提案モデルの精度は93%であった。

In operating Rooms (ORs), activities are usually different from other typical working environments. In particular, surgeons are frequently exposed to multiple psycho-organizational constraints that may cause negative repercussions on their health and performance. This is commonly attributed to an increase in the associated Cognitive Workload (CWL) that results from dealing with unexpected and repetitive tasks, as well as large amounts of information and potentially risky cognitive overload. In this paper, a cascade of two machine learning approaches is suggested for the multimodal recognition of CWL in a number of four different surgical tasks. First, a model based on the concept of transfer learning is used to identify if a surgeon is experiencing any CWL. Secondly, a Convolutional Neural Network (CNN) uses this information to identify different types of CWL associated to each surgical task. The suggested multimodal approach consider adjacent signals from electroencephalogram (EEG), functional near-infrared spectroscopy (fNIRS) and pupil eye diameter. The concatenation of signals allows complex correlations in terms of time (temporal) and channel location (spatial). Data collection is performed by a Multi-sensing AI Environment for Surgical Task $\&$ Role Optimisation platform (MAESTRO) developed at HARMS Lab. To compare the performance of the proposed methodology, a number of state-of-art machine learning techniques have been implemented. The tests show that the proposed model has a precision of 93%.
翻訳日:2022-09-15 13:02:10 公開日:2022-09-12
# フェアネスではない、フェアではない:完全情報採用ゲームにおける分布平等の失敗と関係平等の約束

It's Not Fairness, and It's Not Fair: The Failure of Distributional Equality and the Promise of Relational Equality in Complete-Information Hiring Games ( http://arxiv.org/abs/2209.05602v1 )

ライセンス: Link先を確認
Benjamin Fish and Luke Stark(参考訳) 公正性の計算的定義を定式化するための既存の取り組みは、システム内の個人に与えられる資源や決定によって平等が定義される、平等の分布的概念に主に焦点を当てている。 しかし、既存の差別と不正は、資源の不平等な分配ではなく、しばしば不平等な社会関係の結果である。 本稿では、公平性と平等の既存の計算および経済的な定義に対する最適化が、不平等な社会関係をいかに防げないかを示す。 これを実現するために、リレーショナルに不平等であるが、フェアネスの既存の分布概念を満たす単純な雇用市場における自己確認均衡の例を示す。 そこで本論文では,完全情報ゲームにおけるブラタントな関係不公平性の概念を導入し,この定義が,関係等式を計算システムに組み込むための新たなアプローチの創出にどのように役立つのかを論じる。

Existing efforts to formulate computational definitions of fairness have largely focused on distributional notions of equality, where equality is defined by the resources or decisions given to individuals in the system. Yet existing discrimination and injustice is often the result of unequal social relations, rather than an unequal distribution of resources. Here, we show how optimizing for existing computational and economic definitions of fairness and equality fail to prevent unequal social relations. To do this, we provide an example of a self-confirming equilibrium in a simple hiring market that is relationally unequal but satisfies existing distributional notions of fairness. In doing so, we introduce a notion of blatant relational unfairness for complete-information games, and discuss how this definition helps initiate a new approach to incorporating relational equality into computational systems.
翻訳日:2022-09-14 13:29:37 公開日:2022-09-12
# SENDER:ヒト脳におけるカノニカル,メタ,サブ機能結合性抽出のためのセミ非線形ディープコンストラクタ

SENDER: SEmi-Nonlinear Deep Efficient Reconstructor for Extraction Canonical, Meta, and Sub Functional Connectivity in the Human Brain ( http://arxiv.org/abs/2209.05627v1 )

ライセンス: Link先を確認
Wei Zhang, Yu Bao(参考訳) 深層線形および非線形学習法はすでに、機能的磁気共鳴信号を介して人間の脳内の機能的接続などの階層的特徴を研究するための重要な機械学習手法となっているが、大きな欠点は3つある。 深い線形学習法では,関数接続の階層構造は容易に説明できるが,より階層的な機能接続性を明らかにすることは困難である。 深い非線形学習法では、非完全接続型アーキテクチャは最適化が容易で過剰フィッティングの影響を受けないニューラルネットワーク構造の複雑さを減少させるが、機能的接続階層の説明は困難である。 重要なことに、浅い層でも深い線形/非線形の方法では、メタおよびサブファンクショナルな接続を検出するのは難しい; 4)。 ディープニューラルネットワークのような従来のディープ非線形手法と同様に、ハイパーパラメータは手動で調整する必要がある。 そこで本研究では,上記の欠点を克服するために,半非線形深部効率的再構成法(sender)という新しい深層ハイブリッド学習法を提案する。 送信者は、線形学習法で正準関数接続を検出するために、多層積層構造を用いる。 senderは、浅い層と深い層を通してのメタ機能接続を明らかにするために、非線形学習法のために実行される非完全接続アーキテクチャを実装している。 SENDERは提案したバックグラウンドコンポーネントを組み込んでサブファンクショナル接続を抽出する(4)。 SENDERは、ハイパーパラメータチューニングを自動的に実装するために、新しいランク低減演算子を採用する。 この効果をさらに検証するために,ヒト脳のmriデータを用いて送信機と4つのピア方法論を比較した。

Deep Linear and Nonlinear learning methods have already been vital machine learning methods for investigating the hierarchical features such as functional connectivity in the human brain via functional Magnetic Resonance signals; however, there are three major shortcomings: 1). For deep linear learning methods, although the identified hierarchy of functional connectivity is easily explainable, it is challenging to reveal more hierarchical functional connectivity; 2). For deep nonlinear learning methods, although non-fully connected architecture reduces the complexity of neural network structures that are easy to optimize and not vulnerable to overfitting, the functional connectivity hierarchy is difficult to explain; 3). Importantly, it is challenging for Deep Linear/Nonlinear methods to detect meta and sub-functional connectivity even in the shallow layers; 4). Like most conventional Deep Nonlinear Methods, such as Deep Neural Networks, the hyperparameters must be tuned manually, which is time-consuming. Thus, in this work, we propose a novel deep hybrid learning method named SEmi-Nonlinear Deep Efficient Reconstruction (SENDER), to overcome the aforementioned shortcomings: 1). SENDER utilizes a multiple-layer stacked structure for the linear learning methods to detect the canonical functional connectivity; 2). SENDER implements a non-fully connected architecture conducted for the nonlinear learning methods to reveal the meta-functional connectivity through shallow and deeper layers; 3). SENDER incorporates the proposed background components to extract the sub-functional connectivity; 4). SENDER adopts a novel rank reduction operator to implement the hyperparameters tuning automatically. To further validate the effectiveness, we compared SENDER with four peer methodologies using real functional Magnetic Resonance Imaging data for the human brain.
翻訳日:2022-09-14 13:29:18 公開日:2022-09-12
# SHMのトポロジ的データ解析 : 永続ホモロジー入門

On topological data analysis for SHM; an introduction to persistent homology ( http://arxiv.org/abs/2209.06155v1 )

ライセンス: Link先を確認
Tristan Gowdridge, Nikolaos Devilis, Keith Worden(参考訳) 本稿では,トポロジカルデータ解析と呼ばれる手法を用いて,データの「形状」を定量化する手法について議論する。 トポロジカルデータ解析における主要なツールは永続的ホモロジーであり、これは、値の範囲で計算された単純複素体のホモロジーから、データの形状を測定する手段である。 ここでは, 構造的健康モニタリングに特有な応用として, 必要な背景理論と持続的ホモロジーの計算法について述べる。 これらの結果は、位相的推論と高次元データの特徴を推測する能力を可能にする。 所定の距離パラメータのデータに対して単純な複合体を構築する。 この複合体は、データポイントの局所的近接に関する情報を符号化する。 この単体複体から特異ホモロジー値を計算することができる。 この考えを拡張して、距離パラメータは値の範囲に対して与えられ、ホモロジーはこの範囲で計算される。 永続ホモロジー(persistent homology)は、データのホモロジー的特徴がこの区間でどのように持続するかの表現である。 結果はデータに特有のものです。 異なるデータセットに対する永続的ホモロジーの比較を可能にする方法についても述べる。

This paper aims to discuss a method of quantifying the 'shape' of data, via a methodology called topological data analysis. The main tool within topological data analysis is persistent homology; this is a means of measuring the shape of data, from the homology of a simplicial complex, calculated over a range of values. The required background theory and a method of computing persistent homology is presented here, with applications specific to structural health monitoring. These results allow for topological inference and the ability to deduce features in higher-dimensional data, that might otherwise be overlooked. A simplicial complex is constructed for data for a given distance parameter. This complex encodes information about the local proximity of data points. A singular homology value can be calculated from this simplicial complex. Extending this idea, the distance parameter is given for a range of values, and the homology is calculated over this range. The persistent homology is a representation of how the homological features of the data persist over this interval. The result is characteristic to the data. A method that allows for the comparison of the persistent homology for different data sets is also discussed.
翻訳日:2022-09-14 13:27:35 公開日:2022-09-12
# データから新規で堅牢なサンプルを生成する:プライバシーの懸念なしにアクセス可能な共有

Generate novel and robust samples from data: accessible sharing without privacy concerns ( http://arxiv.org/abs/2209.06113v1 )

ライセンス: Link先を確認
David Banh, Alan Huang(参考訳) データセットから新しいサンプルを生成することで、余分な高価な操作が軽減され、侵入手順が増加し、プライバシーの問題が軽減される。 統計的にロバストなこれらの新しいサンプルは、プライバシが懸念されている場合、一時的および中間的な代替として使用できる。 この方法は、敵の攻撃の欠陥である識別問題やバイアスに関する問題なく、より良いデータ共有プラクティスを可能にする。

Generating new samples from data sets can mitigate extra expensive operations, increased invasive procedures, and mitigate privacy issues. These novel samples that are statistically robust can be used as a temporary and intermediate replacement when privacy is a concern. This method can enable better data sharing practices without problems relating to identification issues or biases that are flaws for an adversarial attack.
翻訳日:2022-09-14 13:21:52 公開日:2022-09-12
# ランダムプロセスデータに基づく最大異種領域の探索

Uncovering Regions of Maximum Dissimilarity on Random Process Data ( http://arxiv.org/abs/2209.05569v1 )

ライセンス: Link先を確認
Miguel de Carvalho and Gabriel Martos Venturini(参考訳) 2つのランダムな過程の局所的な特性の比較は、その過程が最も異なる時間や空間に光を当てることができる。 本稿では,二つのプロセスの限界特性があまり似ていない領域について,あるボリュームの領域について学習する手法を提案する。 提案手法は,興味のあるデータ自体が確率的プロセスであるような設定を完全汎用的に考案し,関数データ,時系列,点過程の文脈において,ある体積との最大相似性の領域を指摘できる。 両確率過程の基礎となるパラメータ関数は基底表現によってモデル化され、ベイズ推論は統合入れ子ラプラス近似によって行われる。 本研究は,提案手法を検証し,その適用例を犯罪学,金融学,医学のケーススタディで紹介する。

The comparison of local characteristics of two random processes can shed light on periods of time or space at which the processes differ the most. This paper proposes a method that learns about regions with a certain volume, where the marginal attributes of two processes are less similar. The proposed methods are devised in full generality for the setting where the data of interest are themselves stochastic processes, and thus the proposed method can be used for pointing out the regions of maximum dissimilarity with a certain volume, in the contexts of functional data, time series, and point processes. The parameter functions underlying both stochastic processes of interest are modeled via a basis representation, and Bayesian inference is conducted via an integrated nested Laplace approximation. The numerical studies validate the proposed methods, and we showcase their application with case studies on criminology, finance, and medicine.
翻訳日:2022-09-14 13:16:37 公開日:2022-09-12
# customics: マルチオミクス統合のための多彩なディープラーニングベースの戦略

CustOmics: A versatile deep-learning based strategy for multi-omics integration ( http://arxiv.org/abs/2209.05485v1 )

ライセンス: Link先を確認
Hakim Benkirane, Yoann Pradat, Stefan Michiels, Paul-Henry Courn\`ede(参考訳) 近年の高スループットシーケンシング技術の進歩により、患者サンプルを多様かつ相補的な分子レベルで表現する複数の特徴の抽出が可能になった。 このようなデータの生成は、複数の遺伝子とその機能間の相互関係を捉える高次元および異種データセットの統合に関する計算生物学における新たな課題につながった。 複雑なデータの合成潜在表現を学習する汎用性と能力のおかげで、ディープラーニング手法はマルチオミクスデータを統合する上で有望な視点を提供する。 これらの手法は、主にオートエンコーダモデルに基づく多くのオリジナルのアーキテクチャの概念を導いた。 しかし,課題の難しさから,グローバルなトレンドを損なうことなく,情報源の特質を最大限に活用する統合戦略が不可欠である。 本稿では,高次元マルチソース統合の場合のデータセットに適応する,カスタマイズ可能なオートエンコーダモデルを構築するための新しい戦略を提案する。 我々は,統合戦略が潜在表現に与える影響を評価し,新しい手法であるCustOmics(https://github.com/HakimBenkirane/CustOmics)を提案する最善の戦略を組み合わせる。 本稿では,複数のオミクスソースからのデータの統合に焦点をあて,分類や生存分析など,いくつかのタスクのテストケースにおける提案手法の性能を実証する。

Recent advances in high-throughput sequencing technologies have enabled the extraction of multiple features that depict patient samples at diverse and complementary molecular levels. The generation of such data has led to new challenges in computational biology regarding the integration of high-dimensional and heterogeneous datasets that capture the interrelationships between multiple genes and their functions. Thanks to their versatility and ability to learn synthetic latent representations of complex data, deep learning methods offer promising perspectives for integrating multi-omics data. These methods have led to the conception of many original architectures that are primarily based on autoencoder models. However, due to the difficulty of the task, the integration strategy is fundamental to take full advantage of the sources' particularities without losing the global trends. This paper presents a novel strategy to build a customizable autoencoder model that adapts to the dataset used in the case of high-dimensional multi-source integration. We will assess the impact of integration strategies on the latent representation and combine the best strategies to propose a new method, CustOmics (https://github.com/HakimBenkirane/CustOmics). We focus here on the integration of data from multiple omics sources and demonstrate the performance of the proposed method on test cases for several tasks such as classification and survival analysis.
翻訳日:2022-09-14 13:16:22 公開日:2022-09-12
# 分子のためのグラフニューラルネットワーク

Graph Neural Networks for Molecules ( http://arxiv.org/abs/2209.05582v1 )

ライセンス: Link先を確認
Yuyang Wang, Zijie Li, Amir Barati Farimani(参考訳) グラフィカルデータから表現を学習できるグラフニューラルネットワーク(GNN)は、自然に分子システムをモデル化するのに適している。 本稿では、GNNとその様々な有機分子への応用について紹介する。 GNNは、ノード機能を反復的に更新するために、汎用的で強力なフレームワークであるメッセージパッシング操作に依存している。 多くの研究がGNNアーキテクチャを設計し、2次元分子グラフの位相情報と3次元分子系の幾何学情報を効果的に学習している。 gnnは、分子特性予測、分子スコアリングとドッキング、分子最適化とデノボ生成、分子動力学シミュレーションなど、様々な分子応用に実装されている。 さらに、GNNを用いた分子の自己教師型学習の最近の発展についても概説する。

Graph neural networks (GNNs), which are capable of learning representations from graphical data, are naturally suitable for modeling molecular systems. This review introduces GNNs and their various applications for small organic molecules. GNNs rely on message-passing operations, a generic yet powerful framework, to update node features iteratively. Many researches design GNN architectures to effectively learn topological information of 2D molecule graphs as well as geometric information of 3D molecular systems. GNNs have been implemented in a wide variety of molecular applications, including molecular property prediction, molecular scoring and docking, molecular optimization and de novo generation, molecular dynamics simulation, etc. Besides, the review also summarizes the recent development of self-supervised learning for molecules with GNNs.
翻訳日:2022-09-14 13:15:59 公開日:2022-09-12
# 車内・道路データを用いた運転安全予測と安全経路マッピング

Driving Safety Prediction and Safe Route Mapping Using In-vehicle and Roadside Data ( http://arxiv.org/abs/2209.05604v1 )

ライセンス: Link先を確認
Yufei Huang, Mohsen Jafari, and Peter Jin(参考訳) 道路のリスクアセスメントは、過去の事故データに基づいて一般的に行われている。 ドライバーの行動やリアルタイム交通状況に関する情報が欠落することもある。 本稿では,道路の動的リスクヒートマップを作成するための手法であるsafe route mapping(srm)モデルを拡張し,予測を行う際の運転者の行動を考察する。 Androidアプリはドライバーの情報を収集してサーバにアップロードするように設計されている。 サーバ上では、顔認識がドライバーのデータ、例えば顔のランドマーク、視線方向、感情を抽出する。 運転者の眠気や気遣いを検出し、運転性能を評価する。 一方、ダイナミックなトラフィック情報は、ロードサイドカメラによってキャプチャされ、同じサーバにアップロードされる。 ビデオから車両を認識して速度と軌道プロファイルを構築するために,縦走査型動脈交通ビデオ解析を適用した。 これらのデータに基づいて、ライトgbmモデルを導入し、次の1、2秒でドライバーの競合指標を予測する。 次に、ファジィ論理モデルを用いて、過去のクラッシュ数や予測トラフィック競合指標を含む複数のデータソースを組み合わせて、道路セグメントのリスクスコアを算出する。 提案するsrmモデルは,実交通交差点と運転シミュレーションプラットフォームから収集したデータを用いて示す。 予測結果から,モデル精度が向上し,ドライバ動作機能の追加により,モデルの性能が向上することが示唆された。 最後に、可視化のためにリスクヒートマップが生成される。 当局は、ダイナミックヒートマップを使用して安全な回廊を指定でき、早期警戒と旅行計画のために法執行機関とドライバーを派遣することができる。

Risk assessment of roadways is commonly practiced based on historical crash data. Information on driver behaviors and real-time traffic situations is sometimes missing. In this paper, the Safe Route Mapping (SRM) model, a methodology for developing dynamic risk heat maps of roadways, is extended to consider driver behaviors when making predictions. An Android App is designed to gather drivers' information and upload it to a server. On the server, facial recognition extracts drivers' data, such as facial landmarks, gaze directions, and emotions. The driver's drowsiness and distraction are detected, and driving performance is evaluated. Meanwhile, dynamic traffic information is captured by a roadside camera and uploaded to the same server. A longitudinal-scanline-based arterial traffic video analytics is applied to recognize vehicles from the video to build speed and trajectory profiles. Based on these data, a LightGBM model is introduced to predict conflict indices for drivers in the next one or two seconds. Then, multiple data sources, including historical crash counts and predicted traffic conflict indicators, are combined using a Fuzzy logic model to calculate risk scores for road segments. The proposed SRM model is illustrated using data collected from an actual traffic intersection and a driving simulation platform. The prediction results show that the model is accurate, and the added driver behavior features will improve the model's performance. Finally, risk heat maps are generated for visualization purposes. The authorities can use the dynamic heat map to designate safe corridors and dispatch law enforcement and drivers for early warning and trip planning.
翻訳日:2022-09-14 13:15:47 公開日:2022-09-12
# instacartにおける組込み型食料品検索モデル

An Embedding-Based Grocery Search Model at Instacart ( http://arxiv.org/abs/2209.05555v1 )

ライセンス: Link先を確認
Yuqing Xie and Taesik Na and Xiao Xiao and Saurav Manchanda and Young Rao and Zhihong Xu and Guanghua Shu and Esther Vasiete and Tejaswi Tenneti and Haixun Wang(参考訳) eコマース検索の鍵は、大きくて騒がしいログデータをどのように活用するかだ。 本稿では,Instacartにおける食料品探索のための埋め込み型モデルを提案する。 システムは、2towerのトランスフォーマーベースのエンコーダアーキテクチャでクエリと製品表現を学習する。 コールドスタート問題に対処するために、コンテンツベースの機能に注目します。 ノイズの多いデータに基づいてモデルを効率的に訓練するために,自己学習法とカスケード学習法を提案する。 Acc オフラインの人間評価データセット上では RECALL@20 の相対的な改善を10% 達成し,オンライン A/B テストでは,検索毎のカート加算率 (CAPS) が4.1%,粗雑商品価値 (GMV) が1.5% 向上した。 本稿では,組込み型検索モデルの学習と展開方法を説明し,本手法の有効性に関する詳細な分析を行う。

The key to e-commerce search is how to best utilize the large yet noisy log data. In this paper, we present our embedding-based model for grocery search at Instacart. The system learns query and product representations with a two-tower transformer-based encoder architecture. To tackle the cold-start problem, we focus on content-based features. To train the model efficiently on noisy data, we propose a self-adversarial learning method and a cascade training method. AccOn an offline human evaluation dataset, we achieve 10% relative improvement in RECALL@20, and for online A/B testing, we achieve 4.1% cart-adds per search (CAPS) and 1.5% gross merchandise value (GMV) improvement. We describe how we train and deploy the embedding based search model and give a detailed analysis of the effectiveness of our method.
翻訳日:2022-09-14 13:05:53 公開日:2022-09-12
# ピアノ指先予測における出力変動改善のためのチェックリストモデル

Checklist Models for Improved Output Fluency in Piano Fingering Prediction ( http://arxiv.org/abs/2209.05622v1 )

ライセンス: Link先を確認
Nikita Srivatsan and Taylor Berg-Kirkpatrick(参考訳) 本研究は,ピアノ音楽の指先予測のための新しい手法を提案する。 従来のニューラルアプローチでは、これを独立予測を用いたシーケンスタギング問題として扱うことが多いが、強化学習によってトレーニングされたチェックリストシステムは、隠された状態に加えて最近の予測の表現を維持し、出力構造に対するソフトな制約を学習することができる。 また,キーボードの相対位置を先行音符にエンコードするために,神経モデルを用いた入力表現(前処理ではピアノの個々のキーに対して1ホットエンコードの形をとることが多い)を変更することで,より優れた性能を実現することができることを示す。 また,評価指標としてノート単位のラベリング精度を再評価し,モデルの出力の流動性,すなわち人間の遊びやすさを適切に測定していないことを指摘した。 そこで本研究では,隣り合う指の予測頻度を追跡する複数の統計値の比較を行い,個別に合理的な予測を行うのが物理的に困難であることを示すとともに,学習の損失を最小化するための強化学習戦略を実装した。 最後に、人間の専門家による評価を通じて、これらの指標に対する改善に直接寄与する性能の顕著な向上を示す。

In this work we present a new approach for the task of predicting fingerings for piano music. While prior neural approaches have often treated this as a sequence tagging problem with independent predictions, we put forward a checklist system, trained via reinforcement learning, that maintains a representation of recent predictions in addition to a hidden state, allowing it to learn soft constraints on output structure. We also demonstrate that by modifying input representations -- which in prior work using neural models have often taken the form of one-hot encodings over individual keys on the piano -- to encode relative position on the keyboard to the prior note instead, we can achieve much better performance. Additionally, we reassess the use of raw per-note labeling precision as an evaluation metric, noting that it does not adequately measure the fluency, i.e. human playability, of a model's output. To this end, we compare methods across several statistics which track the frequency of adjacent finger predictions that while independently reasonable would be physically challenging to perform in sequence, and implement a reinforcement learning strategy to minimize these as part of our training loss. Finally through human expert evaluation, we demonstrate significant gains in performability directly attributable to improvements with respect to these metrics.
翻訳日:2022-09-14 13:04:29 公開日:2022-09-12
# 不確実性下の探索のためのリスクアウェアなメタレベル意思決定

Risk-aware Meta-level Decision Making for Exploration Under Uncertainty ( http://arxiv.org/abs/2209.05580v1 )

ライセンス: Link先を確認
Joshua Ott, Sung-Kyun Kim, Amanda Bouman, Oriana Peltzer, Mamoru Sobue, Harrison Delecki, Mykel J. Kochenderfer, Joel Burdick, Ali-akbar Agha-mohammadi(参考訳) 未知環境のロボットによる探索は、センサ測定、局所化、行動実行、その他多くの要因において不確実性を考慮しなければならない不確実性の下で決定する問題である。 大規模探査アプリケーションの場合、自律システムは、障害や危険地形に関連するリスクを安全に評価しながら、環境のどの領域が探検に値するかを順次決定する課題を克服しなければならない。 本研究では,地域・グローバル探索に伴うトレードオフのバランスをとるためのリスク対応型メタレベル意思決定フレームワークを提案する。 メタレベルの意思決定は、局所的な政策とグローバルな政策を切り替えることによって古典的な階層的なカバレッジプランナーの上に構築される。 我々は, 環境史, トラバーサビリティリスク, キノダイナミック制約に関する情報を用いて, 地域政策とグローバル政策の切り替えに成功している政策実行の可能性を推論する。 シミュレーションと大規模な実世界のハードウェアテストの両方で、私たちのソリューションを検証しました。 その結果,局所探査とグローバル探査のバランスをとることで,大規模環境をより効率的に探索できることがわかった。

Robotic exploration of unknown environments is fundamentally a problem of decision making under uncertainty where the robot must account for uncertainty in sensor measurements, localization, action execution, as well as many other factors. For large-scale exploration applications, autonomous systems must overcome the challenges of sequentially deciding which areas of the environment are valuable to explore while safely evaluating the risks associated with obstacles and hazardous terrain. In this work, we propose a risk-aware meta-level decision making framework to balance the tradeoffs associated with local and global exploration. Meta-level decision making builds upon classical hierarchical coverage planners by switching between local and global policies with the overall objective of selecting the policy that is most likely to maximize reward in a stochastic environment. We use information about the environment history, traversability risk, and kinodynamic constraints to reason about the probability of successful policy execution to switch between local and global policies. We have validated our solution in both simulation and on a variety of large-scale real world hardware tests. Our results show that by balancing local and global exploration we are able to significantly explore large-scale environments more efficiently.
翻訳日:2022-09-14 13:03:14 公開日:2022-09-12
# CU-Net: 効率的なポイントクラウドカラーアップサンプリングネットワーク

CU-Net: Efficient Point Cloud Color Upsampling Network ( http://arxiv.org/abs/2209.06112v1 )

ライセンス: Link先を確認
Lingdong Wang, Mohammad Hajiesmaili, Jacob Chakareski, Ramesh K. Sitaraman(参考訳) Augmented Reality、Virtual Reality、テレプレゼンスシナリオにはポイントクラウドのアップサンプリングが必要である。 幾何アップサンプリングは点雲座標を密度化するためによく研究されているが、色アップサンプリングはほとんど見過ごされている。 本稿では,最初の深層学習点雲色アップサンプリングモデルであるCU-Netを提案する。 スパース畳み込みに基づく特徴抽出器とニューラル暗黙関数に基づく色予測モジュールを利用することで、CU-Netは線形時間と空間の複雑さを実現する。 したがって、CU-Netは理論上、2次複雑さを持つ既存の方法よりも効率的であることが保証されている。 実験の結果、CU-Netは、ベースラインよりも視覚的品質が良く、リアルタイムに100万点近い写実点雲をカラー化できることがわかった。 さらにCU-Netは任意のアップサンプリング比と見えないオブジェクトに適応できる。 ソースコードはまもなく公開される予定だ。

Point cloud upsampling is necessary for Augmented Reality, Virtual Reality, and telepresence scenarios. Although the geometry upsampling is well studied to densify point cloud coordinates, the upsampling of colors has been largely overlooked. In this paper, we propose CU-Net, the first deep-learning point cloud color upsampling model. Leveraging a feature extractor based on sparse convolution and a color prediction module based on neural implicit function, CU-Net achieves linear time and space complexity. Therefore, CU-Net is theoretically guaranteed to be more efficient than most existing methods with quadratic complexity. Experimental results demonstrate that CU-Net can colorize a photo-realistic point cloud with nearly a million points in real time, while having better visual quality than baselines. Besides, CU-Net can adapt to an arbitrary upsampling ratio and unseen objects. Our source code will be released to the public soon.
翻訳日:2022-09-14 12:57:02 公開日:2022-09-12
# RGBビデオからの人工的な3次元オブジェクトインタラクション:アプローチと課題の実証分析

Articulated 3D Human-Object Interactions from RGB Videos: An Empirical Analysis of Approaches and Challenges ( http://arxiv.org/abs/2209.05612v1 )

ライセンス: Link先を確認
Sanjay Haresh, Xiaohao Sun, Hanxiao Jiang, Angel X. Chang, Manolis Savva(参考訳) 人間と物体の相互作用は日常的に一般的である。 シングルビュー3D再構成の進歩にもかかわらず、オブジェクトを操作する人を示すRGBビデオから、明瞭な3Dオブジェクトモデルを推測することは依然として困難である。 本研究では,rgbビデオによる3次元物体間相互作用の再構築の課題を標準化し,3次元平面推定,3次元立方体推定,cadモデルフィッティング,暗黙的フィールドフィッティング,フリーフォームメッシュフィッティングの5種類の手法の体系的ベンチマークを行った。 実験の結果,観測対象に関する真理情報を提供しても,全ての手法が精度の高い結果を得るのに苦慮していることがわかった。 我々は,課題を困難なものにする重要な要因を特定し,この課題である3Dコンピュータビジョンタスクの今後の課題を提案する。 https://www.youtube.com/watch? v=5tAlKBojZwc

Human-object interactions with articulated objects are common in everyday life. Despite much progress in single-view 3D reconstruction, it is still challenging to infer an articulated 3D object model from an RGB video showing a person manipulating the object. We canonicalize the task of articulated 3D human-object interaction reconstruction from RGB video, and carry out a systematic benchmark of five families of methods for this task: 3D plane estimation, 3D cuboid estimation, CAD model fitting, implicit field fitting, and free-form mesh fitting. Our experiments show that all methods struggle to obtain high accuracy results even when provided ground truth information about the observed objects. We identify key factors which make the task challenging and suggest directions for future work on this challenging 3D computer vision task. Short video summary at https://www.youtube.com/watch?v=5tAlKBojZwc
翻訳日:2022-09-14 12:53:55 公開日:2022-09-12
# 神経特徴の粗視によるロバストカテゴリレベル6次元ポーズ推定

Robust Category-Level 6D Pose Estimation with Coarse-to-Fine Rendering of Neural Features ( http://arxiv.org/abs/2209.05624v1 )

ライセンス: Link先を確認
Wufei Ma, Angtian Wang, Alan Yuille, Adam Kortylewski(参考訳) 1枚のRGB画像からカテゴリレベルの6Dポーズ推定の問題を考える。 提案手法は,対象カテゴリーを立方体メッシュとして表現し,各メッシュ頂点におけるニューラル特徴アクティベーションの生成モデルを学習し,異なるレンダリングによるポーズ推定を行う。 レンダリングベースのアプローチの一般的な問題は、オブジェクトの3次元回転に関する情報を伝達せず、オブジェクトが部分的に隠されているときに信頼できないバウンディングボックスの提案に依存することである。 その代わりに、レンダリングプロセスを利用して6次元オブジェクトのスパースセットを推定する粗大な最適化戦略を導入し、その後、勾配に基づく最適化で洗練する。 このアプローチの収束を可能にする鍵は、対比学習を用いてスケールおよび回転不変に訓練された神経特徴表現である。 実験では,特に強い部分閉塞下での先行作業と比較して,カテゴリレベルの6次元ポーズ推定性能が向上することを示した。

We consider the problem of category-level 6D pose estimation from a single RGB image. Our approach represents an object category as a cuboid mesh and learns a generative model of the neural feature activations at each mesh vertex to perform pose estimation through differentiable rendering. A common problem of rendering-based approaches is that they rely on bounding box proposals, which do not convey information about the 3D rotation of the object and are not reliable when objects are partially occluded. Instead, we introduce a coarse-to-fine optimization strategy that utilizes the rendering process to estimate a sparse set of 6D object proposals, which are subsequently refined with gradient-based optimization. The key to enabling the convergence of our approach is a neural feature representation that is trained to be scale- and rotation-invariant using contrastive learning. Our experiments demonstrate an enhanced category-level 6D pose estimation performance compared to prior work, particularly under strong partial occlusion.
翻訳日:2022-09-14 12:53:40 公開日:2022-09-12
# centerformer: 3次元物体検出のためのセンタベーストランスフォーマ

CenterFormer: Center-based Transformer for 3D Object Detection ( http://arxiv.org/abs/2209.05588v1 )

ライセンス: Link先を確認
Zixiang Zhou, Xiangchen Zhao, Yu Wang, Panqu Wang, Hassan Foroosh(参考訳) 問合せベースのトランスフォーマーは、多くのイメージドメインタスクにおいて長距離の注目を構築する大きな可能性を示しているが、ポイントクラウドデータの圧倒的なサイズのため、LiDARベースの3Dオブジェクト検出では、ほとんど考慮されていない。 本稿では,3次元物体検出のための中心型トランスネットワークであるCenterFormerを提案する。 CenterFormerはまずセンターヒートマップを使用して、標準のvoxelベースのポイントクラウドエンコーダ上にセンター候補を選択する。 その後、トランスフォーマー内のクエリ埋め込みとして、センター候補の機能を使用する。 複数のフレームから機能をさらに集約するために,クロスアテンションを通じて特徴を融合するアプローチを設計する。 最後に、出力センター特徴表現のバウンディングボックスを予測するために回帰ヘッドが追加される。 我々の設計は変換器構造の収束困難と計算複雑性を低減する。 その結果,アンカーフリーオブジェクト検出ネットワークのベースラインが大幅に向上した。 CenterFormerは、Waymo Open Dataset上の単一モデルの最先端のパフォーマンスを達成し、検証セット上で73.7% mAPH、テストセット上で75.6% mAPHを達成し、以前に公開されたCNNやトランスフォーマーベースのメソッドよりも大幅に向上した。 私たちのコードはhttps://github.com/TuSimple/centerformerで公開されています。

Query-based transformer has shown great potential in constructing long-range attention in many image-domain tasks, but has rarely been considered in LiDAR-based 3D object detection due to the overwhelming size of the point cloud data. In this paper, we propose CenterFormer, a center-based transformer network for 3D object detection. CenterFormer first uses a center heatmap to select center candidates on top of a standard voxel-based point cloud encoder. It then uses the feature of the center candidate as the query embedding in the transformer. To further aggregate features from multiple frames, we design an approach to fuse features through cross-attention. Lastly, regression heads are added to predict the bounding box on the output center feature representation. Our design reduces the convergence difficulty and computational complexity of the transformer structure. The results show significant improvements over the strong baseline of anchor-free object detection networks. CenterFormer achieves state-of-the-art performance for a single model on the Waymo Open Dataset, with 73.7% mAPH on the validation set and 75.6% mAPH on the test set, significantly outperforming all previously published CNN and transformer-based methods. Our code is publicly available at https://github.com/TuSimple/centerformer
翻訳日:2022-09-14 12:44:59 公開日:2022-09-12
# Sparse-View Computed Tomography のための自己監督型座標投影ネットワーク

Self-Supervised Coordinate Projection Network for Sparse-View Computed Tomography ( http://arxiv.org/abs/2209.05483v1 )

ライセンス: Link先を確認
Qing Wu, Ruimin Feng, Hongjiang Wei, Jingyi Yu, and Yuyao Zhang(参考訳) 本研究では,逆トモグラフィ問題を解くことにより,単一のsvシンノグラムからアーチファクトフリーct画像を再構成する自己教師付き座標投影ネットワーク(scope)を提案する。 暗黙的ニューラル表現ネットワーク(INR)を用いて類似の問題を解決する最近の研究と比較すると,我々の重要な貢献はトモグラフィ画像再構成の質を教師付きディープラーニングCT再構成作業よりも向上させる,効果的でシンプルな再投影戦略である。 提案手法は線形代数と逆問題の間の単純な関係に着想を得ている。 非決定線形方程式系を解くために,まず,画像連続性によって解空間を制約し,粗い解を得るinrを導入する。 次に,線形方程式系の階調を向上し,より安定したCT画像解空間を創出する高密度なビュー・シングラムを提案する。 実験の結果,再投影戦略が画像再構成品質(psnr+3db)を大幅に向上させることが示された。 さらに、最近のハッシュエンコーディングをスコープモデルに統合することで、モデルのトレーニングを大幅に加速します。 最後に,SCOPEを並列に評価し,ファンX線SVCT再構成作業を行った。 実験結果から,提案したSCOPEモデルは,INRに基づく最新の2つの手法と,定性的に定量的に2つのよく知られたDL手法より優れていることが示された。

In the present work, we propose a Self-supervised COordinate Projection nEtwork (SCOPE) to reconstruct the artifacts-free CT image from a single SV sinogram by solving the inverse tomography imaging problem. Compared with recent related works that solve similar problems using implicit neural representation network (INR), our essential contribution is an effective and simple re-projection strategy that pushes the tomography image reconstruction quality over supervised deep learning CT reconstruction works. The proposed strategy is inspired by the simple relationship between linear algebra and inverse problems. To solve the under-determined linear equation system, we first introduce INR to constrain the solution space via image continuity prior and achieve a rough solution. And secondly, we propose to generate a dense view sinogram that improves the rank of the linear equation system and produces a more stable CT image solution space. Our experiment results demonstrate that the re-projection strategy significantly improves the image reconstruction quality (+3 dB for PSNR at least). Besides, we integrate the recent hash encoding into our SCOPE model, which greatly accelerates the model training. Finally, we evaluate SCOPE in parallel and fan X-ray beam SVCT reconstruction tasks. Experimental results indicate that the proposed SCOPE model outperforms two latest INR-based methods and two well-popular supervised DL methods quantitatively and qualitatively.
翻訳日:2022-09-14 12:42:08 公開日:2022-09-12
# cocktail party attack: 独立成分分析を用いた連合学習における集約型プライバシの破断

Cocktail Party Attack: Breaking Aggregation-Based Privacy in Federated Learning using Independent Component Analysis ( http://arxiv.org/abs/2209.05578v1 )

ライセンス: Link先を確認
Sanjay Kariyappa, Chuan Guo, Kiwan Maeng, Wenjie Xiong, G. Edward Suh, Moinuddin K Qureshi, Hsien-Hsin S. Lee(参考訳) Federated Learning (FL)は、複数のデータ所有者が保持する分散データ上で、プライバシ保護機械学習を実行することを目的としている。 この目的のために、FLはデータ所有者に対して、ローカルでトレーニングを行い、複数のデータ所有者に安全に集約された中央サーバと(プライベート入力の代わりに)勾配更新を共有することを要求する。 集約自体はプライバシ保護を提供していないが、前回の作業では、バッチサイズが十分に大きい場合に十分であることが示されている。 本稿では,従来の考え方とは対照的に,非常に大きなバッチサイズで集約された勾配からプライベート入力を回収できるカクテルパーティ攻撃(cpa)を提案する。 CPAは、完全に連結された層からの集約勾配は入力の線形結合であり、ブラインドソース分離(BSS)問題(一般にカクテルパーティー問題)としてフレーム勾配の反転をもたらすという決定的な洞察を利用する。 独立成分分析(ICA)は,完全接続ネットワークと畳み込みネットワークのプライベートな入力を復元するBSS問題の古典的な解であり,CPAが事前の勾配インバージョンアタックを著しく上回り,ImageNetサイズの入力にスケールし,最大1024個のバッチサイズで動作することを示す。

Federated learning (FL) aims to perform privacy-preserving machine learning on distributed data held by multiple data owners. To this end, FL requires the data owners to perform training locally and share the gradient updates (instead of the private inputs) with the central server, which are then securely aggregated over multiple data owners. Although aggregation by itself does not provably offer privacy protection, prior work showed that it may suffice if the batch size is sufficiently large. In this paper, we propose the Cocktail Party Attack (CPA) that, contrary to prior belief, is able to recover the private inputs from gradients aggregated over a very large batch size. CPA leverages the crucial insight that aggregate gradients from a fully connected layer is a linear combination of its inputs, which leads us to frame gradient inversion as a blind source separation (BSS) problem (informally called the cocktail party problem). We adapt independent component analysis (ICA)--a classic solution to the BSS problem--to recover private inputs for fully-connected and convolutional networks, and show that CPA significantly outperforms prior gradient inversion attacks, scales to ImageNet-sized inputs, and works on large batch sizes of up to 1024.
翻訳日:2022-09-14 12:36:19 公開日:2022-09-12
# KDDCUP'99およびNSL-KDDデータセットを用いた支援ベクトルマシンによる侵入検知システム:総合調査

Intrusion Detection Systems Using Support Vector Machines on the KDDCUP'99 and NSL-KDD Datasets: A Comprehensive Survey ( http://arxiv.org/abs/2209.05579v1 )

ライセンス: Link先を確認
Mikel K. Ngueajio, Gloria Washington, Danda B. Rawat, and Yolande Ngueabou(参考訳) サイバー攻撃やサイバースパイの増加に伴い、より優れた、より強力な侵入検知システム(IDS)の必要性はさらに高まっている。 IDSの基本課題は、インターネットに対する攻撃を検知する第一線として機能することである。 侵入者からの侵入戦術がより洗練され、検出が困難になるにつれて、研究者は侵入者を効果的に検出し、インターネットユーザの情報とインターネットネットワーク全体のセキュリティに対する信頼を維持するために、新しい機械学習(ml)技術を適用し始めた。 過去10年間で、DARPA、KDDCUP'99、NSL-KDD、CAIDA、CTU-13、UNSW-NB15など、さまざまなサイバーセキュリティベースのデータセットに対するMLとディープラーニング(DL)アーキテクチャに基づく侵入検出技術の研究が爆発的に増えている。 本研究では,同時代の文献を概観し,svm( support vector machine)アルゴリズムを分類器として適用した侵入検出手法の包括的調査を行った。 我々は、サイバーセキュリティにおいて最も広く使われている2つのデータセット、すなわちKDDCUP'99とNSL-KDDデータセットで評価された研究にのみ焦点を当てる。 本稿では,SVMs分類器の役割と,研究に関わるすべてのアルゴリズムについて,各手法の概要について述べる。 さらに,各手法を表形式で批判的にレビューし,各手法の性能尺度,強度,限界を強調する。

With the growing rates of cyber-attacks and cyber espionage, the need for better and more powerful intrusion detection systems (IDS) is even more warranted nowadays. The basic task of an IDS is to act as the first line of defense, in detecting attacks on the internet. As intrusion tactics from intruders become more sophisticated and difficult to detect, researchers have started to apply novel Machine Learning (ML) techniques to effectively detect intruders and hence preserve internet users' information and overall trust in the entire internet network security. Over the last decade, there has been an explosion of research on intrusion detection techniques based on ML and Deep Learning (DL) architectures on various cyber security-based datasets such as the DARPA, KDDCUP'99, NSL-KDD, CAIDA, CTU-13, UNSW-NB15. In this research, we review contemporary literature and provide a comprehensive survey of different types of intrusion detection technique that applies Support Vector Machines (SVMs) algorithms as a classifier. We focus only on studies that have been evaluated on the two most widely used datasets in cybersecurity namely: the KDDCUP'99 and the NSL-KDD datasets. We provide a summary of each method, identifying the role of the SVMs classifier, and all other algorithms involved in the studies. Furthermore, we present a critical review of each method, in tabular form, highlighting the performance measures, strengths, and limitations of each of the methods surveyed.
翻訳日:2022-09-14 12:35:54 公開日:2022-09-12
# メタ学習因果発見

Meta-learning Causal Discovery ( http://arxiv.org/abs/2209.05598v1 )

ライセンス: Link先を確認
Xinyue Wang, Konrad Kording(参考訳) 時間変化データからの因果発見(CD)は神経科学、医学、機械学習において重要である。 cdの技法には、一般にバイアスのないが高価であるランダム化実験が含まれる。 また、回帰、マッチング、グランジャー因果関係といったアルゴリズムも含まれており、これは人間の設計者による強い仮定の下でのみ正しい。 しかし、機械学習の他の領域で見つかったように、人間は通常、完全に正しくなく、データ駆動アプローチによって圧倒される。 ここでは、データ駆動方式で因果発見を改善することができるかどうかをテストする。 我々は、多数の因果成分(トランジスタ)を持つシステム、MOS 6502プロセッサ、そしてニューラルネットワークとして表される因果発見手順をメタ学習する。 この手順は、Multual InformationやGranger Causalityなど、人間によって設計された因果発見手順よりもはるかに優れている。 我々は、因果関係が既知の因果関係を持つ大規模データセットからCDプロシージャが人間の専門家によって設計される代わりに学習されるような、可能な限り監督的なアプローチを検討するべきであると論じる。 我々の発見は、ニューラルおよび医療データにおけるCDに対する新しいアプローチと、より広範な機械学習コミュニティを約束する。

Causal discovery (CD) from time-varying data is important in neuroscience, medicine, and machine learning. Techniques for CD include randomized experiments which are generally unbiased but expensive. It also includes algorithms like regression, matching, and Granger causality, which are only correct under strong assumptions made by human designers. However, as we found in other areas of machine learning, humans are usually not quite right and are usually outperformed by data-driven approaches. Here we test if we can improve causal discovery in a data-driven way. We take a system with a large number of causal components (transistors), the MOS 6502 processor, and meta-learn the causal discovery procedure represented as a neural network. We find that this procedure far outperforms human-designed causal discovery procedures, such as Mutual Information and Granger Causality. We argue that the causality field should consider, where possible, a supervised approach, where CD procedures are learned from large datasets with known causal relations instead of being designed by a human specialist. Our findings promise a new approach toward CD in neural and medical data and for the broader machine learning community.
翻訳日:2022-09-14 12:35:27 公開日:2022-09-12
# 森Zwanzigによる深層学習の定式化

The Mori-Zwanzig formulation of deep learning ( http://arxiv.org/abs/2209.05544v1 )

ライセンス: Link先を確認
Daniele Venturi and Xiantao Li(参考訳) 我々は,モリ・ズワンツィヒ(MZ)の可逆統計力学の定式化に基づく新しいディープラーニングの定式化を開発する。 新しい定式化は、ディープニューラルネットワークと離散確率力学系のよく知られた双対性に基づいて構築され、正確な線形作用素方程式を用いて、ネットワークを介して興味(条件予測と確率密度関数)を直接伝播することができる。 このような新しい方程式は、ディープニューラルネットワークの新しい効果的なパラメータ化を開発する出発点として利用することができ、演算子理論法によるディープラーニングを研究するための新しいフレームワークを提供する。 提案した深層学習のMZ定式化は、ニューラルネットワークの記憶という新しい概念を導入し、低次元モデリングとパラメータ化において基本的な役割を果たす。 縮約写像の理論を用いることで、ニューラルネットワークの記憶が層数で減衰するのに十分な条件を定式化する。 これにより、レイヤー毎のニューロン数(プロジェクション演算子を使用)を削減したり(メモリオペレータの減衰特性を使用して)レイヤー総数を削減したりして、ディープネットワークを浅いものに厳密に変換することが可能になります。

We develop a new formulation of deep learning based on the Mori-Zwanzig (MZ) formalism of irreversible statistical mechanics. The new formulation is built upon the well-known duality between deep neural networks and discrete stochastic dynamical systems, and it allows us to directly propagate quantities of interest (conditional expectations and probability density functions) forward and backward through the network by means of exact linear operator equations. Such new equations can be used as a starting point to develop new effective parameterizations of deep neural networks, and provide a new framework to study deep-learning via operator theoretic methods. The proposed MZ formulation of deep learning naturally introduces a new concept, i.e., the memory of the neural network, which plays a fundamental role in low-dimensional modeling and parameterization. By using the theory of contraction mappings, we develop sufficient conditions for the memory of the neural network to decay with the number of layers. This allows us to rigorously transform deep networks into shallow ones, e.g., by reducing the number of neurons per layer (using projection operators), or by reducing the total number of layers (using the decaying property of the memory operator).
翻訳日:2022-09-14 12:34:03 公開日:2022-09-12
# オンラインソーシャルメディア規制のための数学的枠組み

Mathematical Framework for Online Social Media Regulation ( http://arxiv.org/abs/2209.05550v1 )

ライセンス: Link先を確認
Wasim Huleihel and Yehonathan Refael(参考訳) ソーシャルメディアプラットフォーム(SMP)は、報酬の最大化を目的として、ユーザのフィードを構成するコンテンツを選択する手段として、アルゴリズムフィルタリング(AF)を利用する。 ユーザのフィードに表示すべきコンテンツを選択的に選択することは、自然的/公正なコンテンツ選択の下にあったものと比較して、ユーザの意思決定にある程度の影響をもたらす可能性がある。 過去10年にわたって見てきたように、アルゴリズムによるフィルタリングは、個々の決定の偏りから、全体の社会を形作ること、例えば、ユーザーの注意を新型コロナウイルスワクチンを入手するか、あるいは大統領候補を選ぶよう大衆に誘導することなど、有害な副作用を引き起こす可能性がある。 AFの悪影響を規制しようとする政府の継続的な試みは、官僚主義、法務、財政的な配慮により、しばしば複雑である。 一方、SMPは許容しきい値を超えた罰金を科されるのを避けるために、自身のアルゴリズム活動を監視する。 本稿では,この枠組みを数学的に定式化し,データ駆動型統計アルゴリズムを構築し,時間とともにユーザの信念を逸脱させないようにし,サンプルや複雑性の保証を行う。 提案アルゴリズムは,潜在的な敵対的ユーザに対して堅牢であることを示す。 この最先端アルゴリズムは、外部規制当局または自己規制のためのsmpによっても使用できる。

Social media platforms (SMPs) leverage algorithmic filtering (AF) as a means of selecting the content that constitutes a user's feed with the aim of maximizing their rewards. Selectively choosing the contents to be shown on the user's feed may yield a certain extent of influence, either minor or major, on the user's decision-making, compared to what it would have been under a natural/fair content selection. As we have witnessed over the past decade, algorithmic filtering can cause detrimental side effects, ranging from biasing individual decisions to shaping those of society as a whole, for example, diverting users' attention from whether to get the COVID-19 vaccine or inducing the public to choose a presidential candidate. The government's constant attempts to regulate the adverse effects of AF are often complicated, due to bureaucracy, legal affairs, and financial considerations. On the other hand SMPs seek to monitor their own algorithmic activities to avoid being fined for exceeding the allowable threshold. In this paper, we mathematically formalize this framework and utilize it to construct a data-driven statistical algorithm to regulate the AF from deflecting users' beliefs over time, along with sample and complexity guarantees. We show that our algorithm is robust against potential adversarial users. This state-of-the-art algorithm can be used either by authorities acting as external regulators or by SMPs for self-regulation.
翻訳日:2022-09-14 12:33:43 公開日:2022-09-12
# マルチスケール知識蒸留とデータ拡張によるメタラーニングによるオンライン連続学習

Online Continual Learning via the Meta-learning Update with Multi-scale Knowledge Distillation and Data Augmentation ( http://arxiv.org/abs/2209.06107v1 )

ライセンス: Link先を確認
Ya-nan Han, Jian-wei Liu(参考訳) 継続的学習は、タスクのシーケンスから現在のタスクを迅速かつ継続的に学習することを目的としている。 他の方法と比較して、experience replayに基づく手法は壊滅的な忘れを克服する大きな利点を示してきた。 この方法の一般的な制限の1つは、以前のタスクと現在のタスク間のデータの不均衡である。 また, この環境下での安定性・塑性ジレンマを効果的に解決する方法も緊急課題である。 本稿では,Multiscale Knowledge Distillation and Data Augmentation (MMKDDA)によるメタラーニング更新という新しいフレームワークを提案することにより,これらの課題を克服する。 具体的には, 長距離空間関係と短距離空間関係の進化を異なる特徴レベルで把握するために, マルチスケールの知識蒸留を適用し, データの不均衡を緩和する。 さらに,オンライン連続訓練におけるエピソードメモリと現在のタスクからのサンプルを混合することにより,確率分布の変化による副作用を軽減する。 さらに,これまでのタスク数を頼りに,メタラーニングアップデートを通じてモデルを最適化することで,安定性と可塑性のバランスを保ちたい。 最後に,4つのベンチマークデータセットについて実験的評価を行い,提案フレームワークが他の一般的なベースラインに対して有効であることを示すとともに,フレームワークにおける各コンポーネントの役割をさらに分析するためにアブレーション研究も行った。

Continual learning aims to rapidly and continually learn the current task from a sequence of tasks. Compared to other kinds of methods, the methods based on experience replay have shown great advantages to overcome catastrophic forgetting. One common limitation of this method is the data imbalance between the previous and current tasks, which would further aggravate forgetting. Moreover, how to effectively address the stability-plasticity dilemma in this setting is also an urgent problem to be solved. In this paper, we overcome these challenges by proposing a novel framework called Meta-learning update via Multi-scale Knowledge Distillation and Data Augmentation (MMKDDA). Specifically, we apply multiscale knowledge distillation to grasp the evolution of long-range and short-range spatial relationships at different feature levels to alleviate the problem of data imbalance. Besides, our method mixes the samples from the episodic memory and current task in the online continual training procedure, thus alleviating the side influence due to the change of probability distribution. Moreover, we optimize our model via the meta-learning update resorting to the number of tasks seen previously, which is helpful to keep a better balance between stability and plasticity. Finally, our experimental evaluation on four benchmark datasets shows the effectiveness of the proposed MMKDDA framework against other popular baselines, and ablation studies are also conducted to further analyze the role of each component in our framework.
翻訳日:2022-09-14 12:28:44 公開日:2022-09-12
# 自律運転におけるDNN推論の時間変化の理解

Understanding Time Variations of DNN Inference in Autonomous Driving ( http://arxiv.org/abs/2209.05487v1 )

ライセンス: Link先を確認
Liangkai Liu, Yanzhi Wang, and Weisong Shi(参考訳) ディープニューラルネットワーク(DNN)は、認識、決定、制御の精度が高いため、自律運転に広く利用されている。 自律運転のような安全クリティカルなシステムでは、リアルタイムに検知や認識などのタスクを実行することが車両の安全性にとって不可欠であり、アプリケーションの実行時間を予測する必要がある。 しかし、DNN推論では無視できない時間変化が観察される。 現在のDNN推論研究は、時間変動問題を無視するか、スケジューラに依存している。 現在の研究では、DNN推論時間の変化の根本原因は説明されていない。 DNN推論の時間変化を理解することは、自律運転のリアルタイムスケジューリングにおける根本的な課題となる。 本研究では,データ,i/o,モデル,ランタイム,ハードウェア,エンドツーエンド知覚システムという6つの視点から,dnn推論の時間的変動を微粒度で解析する。 6つの洞察は、DNN推論の時間変化を理解するために導かれる。

Deep neural networks (DNNs) are widely used in autonomous driving due to their high accuracy for perception, decision, and control. In safety-critical systems like autonomous driving, executing tasks like sensing and perception in real-time is vital to the vehicle's safety, which requires the application's execution time to be predictable. However, non-negligible time variations are observed in DNN inference. Current DNN inference studies either ignore the time variation issue or rely on the scheduler to handle it. None of the current work explains the root causes of DNN inference time variations. Understanding the time variations of the DNN inference becomes a fundamental challenge in real-time scheduling for autonomous driving. In this work, we analyze the time variation in DNN inference in fine granularity from six perspectives: data, I/O, model, runtime, hardware, and end-to-end perception system. Six insights are derived in understanding the time variations for DNN inference.
翻訳日:2022-09-14 12:27:44 公開日:2022-09-12
# 暗号通貨取引のための深層強化学習--バックテストオーバーフィッティングへの実践的アプローチ

Deep Reinforcement Learning for Cryptocurrency Trading: Practical Approach to Address Backtest Overfitting ( http://arxiv.org/abs/2209.05559v1 )

ライセンス: Link先を確認
Berend Gort, Xiao-Yang Liu, Xinghang Sun, Jiechao Gao, Shuaiyu Chen, Christina Dan Wang(参考訳) 非常に不安定な暗号通貨市場では、利益と信頼性の高いトレーディング戦略を設計することは困難である。 既存の研究は深層強化学習法を適用し、過剰適合による偽陽性の問題に苦しむバックテストの利益を楽観的に報告している。 本稿では,深層強化学習を用いた暗号通貨取引のバックテストオーバーフィットに対処する実践的アプローチを提案する。 まず, 仮説テストとして, バックテストオーバーフィットの検出を定式化する。 そして、DRLエージェントを訓練し、過適合の確率を推定し、過適合のエージェントを拒絶し、良好な取引性能の可能性が高まる。 最後に、05/01/2022から06/27/2022(暗号市場が2回クラッシュしている間に)までの試験期間における10の暗号について、未適合の深層強化学習エージェントは、過適合のエージェントよりもシャープ比が高く、均等な重量戦略、S&P DBM指数(市場ベンチマーク)が示され、実際の市場への展開の信頼性を提供する。

Designing profitable and reliable trading strategies is challenging in the highly volatile cryptocurrency market. Existing works applied deep reinforcement learning methods and optimistically reported increased profits in backtesting, which may suffer from the false positive issue due to overfitting. In this paper, we propose a practical approach to address backtest overfitting for cryptocurrency trading using deep reinforcement learning. First, we formulate the detection of backtest overfitting as a hypothesis test. Then, we train the DRL agents, estimate the probability of overfitting, and reject the overfitted agents, increasing the chance of good trading performance. Finally, on 10 cryptocurrencies over a testing period from 05/01/2022 to 06/27/2022 (during which the crypto market crashed two times), we show that the less overfitted deep reinforcement learning agents have a higher Sharpe ratio than that of more over-fitted agents, an equal weight strategy, and the S&P DBM Index (market benchmark), offering confidence in possible deployment to a real market.
翻訳日:2022-09-14 12:27:30 公開日:2022-09-12
# 分子グラフと自然言語を関連付けた分子マルチモーダル基礎モデル

A Molecular Multimodal Foundation Model Associating Molecule Graphs with Natural Language ( http://arxiv.org/abs/2209.05481v1 )

ライセンス: Link先を確認
Bing Su, Dazhao Du, Zhao Yang, Yujie Zhou, Jiangmeng Li, Anyi Rao, Hao Sun, Zhiwu Lu, Ji-Rong Wen(参考訳) 人工知能(AI)は幅広い分野における分子の理解に大きな進歩を遂げているが、既存のモデルは一般に単一の分子のモダリティから単一の認知能力を取得する。 分子知識の階層構造は深遠であるため、人間でさえ直感的な図形と専門的なテキストの両方を含む様々なモダリティから学び、理解を助ける。 そこで本研究では,分子グラフとその意味的関連テキストデータ(Science Citation Index論文からの引用)から,コントラスト学習を通じて事前学習した分子マルチモーダル基礎モデルを提案する。 このAIモデルは、分子グラフと自然言語を直接ブリッジする重要な試みである。 重要な点は, 2つの様相の特定の情報と補的情報を捉えることで, 提案するモデルが分子の専門知識をよりよく把握できることである。 実験の結果, クロスモーダル検索や分子キャプションなどのクロスモーダルタスクにおいて有望な性能を示すだけでなく, 分子特性の予測能力を高め, 自然言語記述から有意義な分子グラフを生成する能力を有することがわかった。 私たちのモデルは、生物学、化学、材料、環境、医学などの分野にまたがって、aiを応用した分野に幅広い影響を与えると信じています。

Although artificial intelligence (AI) has made significant progress in understanding molecules in a wide range of fields, existing models generally acquire the single cognitive ability from the single molecular modality. Since the hierarchy of molecular knowledge is profound, even humans learn from different modalities including both intuitive diagrams and professional texts to assist their understanding. Inspired by this, we propose a molecular multimodal foundation model which is pretrained from molecular graphs and their semantically related textual data (crawled from published Scientific Citation Index papers) via contrastive learning. This AI model represents a critical attempt that directly bridges molecular graphs and natural language. Importantly, through capturing the specific and complementary information of the two modalities, our proposed model can better grasp molecular expertise. Experimental results show that our model not only exhibits promising performance in cross-modal tasks such as cross-modal retrieval and molecule caption, but also enhances molecular property prediction and possesses capability to generate meaningful molecular graphs from natural language descriptions. We believe that our model would have a broad impact on AI-empowered fields across disciplines such as biology, chemistry, materials, environment, and medicine, among others.
翻訳日:2022-09-14 12:17:10 公開日:2022-09-12
# 複雑なネットワークとしてのディープニューラルネットワーク

Deep Neural Networks as Complex Networks ( http://arxiv.org/abs/2209.05488v1 )

ライセンス: Link先を確認
Emanuele La Malfa, Gabriele La Malfa, Claudio Caprioli, Giuseppe Nicosia, Vito Latora(参考訳) Deep Neural Networksは物理的な観点から、‘links’と‘vertices’が反復的にデータを処理し、タスクを亜最適に解決するグラフである。 我々は、Deep Neural Networks(DNN)を重み付きグラフとして表現するために、複雑ネットワーク理論(CNT)を使用します。このフレームワークでは、DNNを動的システムとして研究するためのメトリクスを導入します。 CNTは、パラメータとニューロンの数、隠された層とアクティベーションの種類、および目的のタスクが異なるネットワークを識別する。 さらに,我々の指標が低パフォーマンスネットワークと高パフォーマンスネットワークを区別することを示す。 CNTは、DNNを推論するための包括的な手法であり、ネットワーク理論に物理的に根ざし、よく研究された入出力関係を超えたモデルの振る舞いを説明するための補完的なアプローチである。

Deep Neural Networks are, from a physical perspective, graphs whose `links` and `vertices` iteratively process data and solve tasks sub-optimally. We use Complex Network Theory (CNT) to represents Deep Neural Networks (DNNs) as directed weighted graphs: within this framework, we introduce metrics to study DNNs as dynamical systems, with a granularity that spans from weights to layers, including neurons. CNT discriminates networks that differ in the number of parameters and neurons, the type of hidden layers and activations, and the objective task. We further show that our metrics discriminate low vs. high performing networks. CNT is a comprehensive method to reason about DNNs and a complementary approach to explain a model's behavior that is physically grounded to networks theory and goes beyond the well-studied input-output relation.
翻訳日:2022-09-14 12:16:46 公開日:2022-09-12
# TEDL:不確実性定量化のための2段階の証拠深層学習手法

TEDL: A Two-stage Evidential Deep Learning Method for Classification Uncertainty Quantification ( http://arxiv.org/abs/2209.05522v1 )

ライセンス: Link先を確認
Xue Li, Wei Shen, Denis Charles(参考訳) 本稿では,Dempster-Shafer理論に基づく最近の不確実性定量化手法であるEvidential Deep Learning (EDL) 法の実験から着想を得た,分類タスクにおける深層学習モデルの不確かさを定量化する2段階学習手法であるTEDLを提案する。 より具体的には、edlはクロスエントロピー損失によって学習されるモデルに比べてaucが劣る傾向にあり、トレーニングにおいて非常に敏感である。 このような感度は信頼性の低い不確実性推定を引き起こす可能性があり、実用的な応用には危険である。 両制約を緩和するため,本研究では,このような感度の原因となる可能性のある2段階学習法を,第1段階はクロスエントロピー損失から学習し,第2段階はEDL損失から学習する。 また、Dying ReLU問題を回避するために、ReLUをELUに置き換えることで、EDL損失を再計算する。 大規模商用検索エンジンから収集した多種多様なトレーニングコーパスを用いた大規模実験を行い,提案する2段階学習フレームワークがaucを大幅に増加させ,トレーニングの堅牢性を大幅に向上させることを示す。

In this paper, we propose TEDL, a two-stage learning approach to quantify uncertainty for deep learning models in classification tasks, inspired by our findings in experimenting with Evidential Deep Learning (EDL) method, a recently proposed uncertainty quantification approach based on the Dempster-Shafer theory. More specifically, we observe that EDL tends to yield inferior AUC compared with models learnt by cross-entropy loss and is highly sensitive in training. Such sensitivity is likely to cause unreliable uncertainty estimation, making it risky for practical applications. To mitigate both limitations, we propose a simple yet effective two-stage learning approach based on our analysis on the likely reasons causing such sensitivity, with the first stage learning from cross-entropy loss, followed by a second stage learning from EDL loss. We also re-formulate the EDL loss by replacing ReLU with ELU to avoid the Dying ReLU issue. Extensive experiments are carried out on varied sized training corpus collected from a large-scale commercial search engine, demonstrating that the proposed two-stage learning framework can increase AUC significantly and greatly improve training robustness.
翻訳日:2022-09-14 12:16:30 公開日:2022-09-12
# 多段階計画値推定を用いたモデルベース強化学習

Model-based Reinforcement Learning with Multi-step Plan Value Estimation ( http://arxiv.org/abs/2209.05530v1 )

ライセンス: Link先を確認
Haoxin Lin, Yihao Sun, Jiaji Zhang, Yang Yu(参考訳) 強化学習のサンプル効率を改善するための有望な方法は、実世界のサンプルを保存するために学習モデルで多くの探索と評価を行うモデルベースの手法である。 しかし、学習モデルに無視できないモデル誤差がある場合、モデルのシーケンシャルステップを正確に評価することは困難であり、モデルの利用を制限する。 本稿では,マルチステップ動作をモデルベースrlに置き換える多段階計画を導入することで,この問題を軽減することを提案する。 提案手法は,行動計画の系列を所定の状態で実行した後,期待した割引リターンを評価する多段階計画価値推定手法を採用し,計画価値推定による多段階政策勾配を直接計算して方針を更新する。 新しいモデルベース強化学習アルゴリズムMPPVE (Model-based Planning Policy Learning with Multi-step Plan Value Estimation) は、学習モデルのより良い利用方法を示し、最先端のモデルベースRLアプローチよりも優れたサンプル効率を実現する。

A promising way to improve the sample efficiency of reinforcement learning is model-based methods, in which many explorations and evaluations can happen in the learned models to save real-world samples. However, when the learned model has a non-negligible model error, sequential steps in the model are hard to be accurately evaluated, limiting the model's utilization. This paper proposes to alleviate this issue by introducing multi-step plans to replace multi-step actions for model-based RL. We employ the multi-step plan value estimation, which evaluates the expected discounted return after executing a sequence of action plans at a given state, and updates the policy by directly computing the multi-step policy gradient via plan value estimation. The new model-based reinforcement learning algorithm MPPVE (Model-based Planning Policy Learning with Multi-step Plan Value Estimation) shows a better utilization of the learned model and achieves a better sample efficiency than state-of-the-art model-based RL approaches.
翻訳日:2022-09-14 12:16:08 公開日:2022-09-12
# bayesldm:縦断データの確率的モデリングのためのドメイン固有言語

BayesLDM: A Domain-Specific Language for Probabilistic Modeling of Longitudinal Data ( http://arxiv.org/abs/2209.05581v1 )

ライセンス: Link先を確認
Karine Tung, Steven De La Torre, Mohamed El Mistiri, Rebecca Braga De Braganca, Eric Hekler, Misha Pavel, Daniel Rivera, Pedja Klasnja, Donna Spruijt-Metz, Benjamin M. Marlin(参考訳) 本稿では,ベイズLDMを提案する。ベイズLDMとは,複雑な多変量時系列データと,特定のモデルで推論を行うために最適化された確率的プログラムコードを生成するコンパイラを組み合わせた,高レベルなモデリング言語である。 BayesLDMは、動的ベイズネットワーク(DBN)の効率的で宣言的な仕様に焦点を当てたベイズネットワークモデルのモデリングをサポートする。 bayesldmコンパイラはモデル仕様と利用可能なデータの検査を組み合わせることで、未知のモデルパラメータに対してベイズ推論を実行するコードを出力する。 これらの能力は、計算効率のよい確率的推論コードを生成するプロセスを抽象化することにより、複雑な縦断データの分析を伴うドメインにおける反復的モデリングワークフローを著しく加速する可能性がある。 ベイズLDMシステムコンポーネントについて述べるとともに、表現効率と推論最適化の効率を評価し、不均一で部分的に観察されるモバイル健康データを解析するためのシステムの適用例を示す。

In this paper we present BayesLDM, a system for Bayesian longitudinal data modeling consisting of a high-level modeling language with specific features for modeling complex multivariate time series data coupled with a compiler that can produce optimized probabilistic program code for performing inference in the specified model. BayesLDM supports modeling of Bayesian network models with a specific focus on the efficient, declarative specification of dynamic Bayesian Networks (DBNs). The BayesLDM compiler combines a model specification with inspection of available data and outputs code for performing Bayesian inference for unknown model parameters while simultaneously handling missing data. These capabilities have the potential to significantly accelerate iterative modeling workflows in domains that involve the analysis of complex longitudinal data by abstracting away the process of producing computationally efficient probabilistic inference code. We describe the BayesLDM system components, evaluate the efficiency of representation and inference optimizations and provide an illustrative example of the application of the system to analyzing heterogeneous and partially observed mobile health data.
翻訳日:2022-09-14 12:15:50 公開日:2022-09-12
# 未来を曲げる:曲率可変双曲空間における時間知識グラフの自己回帰モデリング

Bending the Future: Autoregressive Modeling of Temporal Knowledge Graphs in Curvature-Variable Hyperbolic Spaces ( http://arxiv.org/abs/2209.05635v1 )

ライセンス: Link先を確認
Jihoon Sohn, Mingyu Derek Ma, Muhao Chen(参考訳) 近年,時間変化知識グラフや時間的知識グラフ(TKG)に対する学術的関心が高まっている。 過去の研究では、歴史的情報を用いたTKG推論への多様なアプローチが示唆されている。 しかし、異なるタイムスタンプでそのような情報の階層化にはあまり注意が払われていない。 tkg が時間に基づく知識グラフの列であると仮定すると、時系列のクロノロジーはグラフ間の階層を導出する。 さらに、各知識グラフは階層レベルを持ち、互いに異なるかもしれない。 TKGのこれらの階層特性に対処するために、ユークリッド空間よりも階層を符号化する双曲空間を利用するHyperVCを提案する。 異なるタイムスタンプにおける知識グラフ間の時間的階層は、知識グラフを共通の双曲空間のベクトルとして埋め込むことによって表される。 さらに、知識グラフの多様な階層レベルは、それらの実体と関係の双曲的埋め込みの曲率を調整することで表される。 4つのベンチマークデータセットの実験では、特に階層レベルの高いデータセットにおいて、大幅な改善が示されている。

Recently there is an increasing scholarly interest in time-varying knowledge graphs, or temporal knowledge graphs (TKG). Previous research suggests diverse approaches to TKG reasoning that uses historical information. However, less attention has been given to the hierarchies within such information at different timestamps. Given that TKG is a sequence of knowledge graphs based on time, the chronology in the sequence derives hierarchies between the graphs. Furthermore, each knowledge graph has its hierarchical level which may differ from one another. To address these hierarchical characteristics in TKG, we propose HyperVC, which utilizes hyperbolic space that better encodes the hierarchies than Euclidean space. The chronological hierarchies between knowledge graphs at different timestamps are represented by embedding the knowledge graphs as vectors in a common hyperbolic space. Additionally, diverse hierarchical levels of knowledge graphs are represented by adjusting the curvatures of hyperbolic embeddings of their entities and relations. Experiments on four benchmark datasets show substantial improvements, especially on the datasets with higher hierarchical levels.
翻訳日:2022-09-14 12:15:35 公開日:2022-09-12
# ぼやけた拡散モデル

Blurring Diffusion Models ( http://arxiv.org/abs/2209.05557v1 )

ライセンス: Link先を確認
Emiel Hoogeboom, Tim Salimans(参考訳) 近年, rissanen et al. (2022) は, 等方性ガウス拡散の代替として, 熱散逸やぼけに基づく生成的モデリングのための新しいタイプの拡散過程を提案した。 ここでは,非等方性雑音を伴うガウス拡散過程を通じて,ぼかしを等価に定義できることを示す。 この接続を行うことで、逆熱散逸と消音拡散の間のギャップを橋渡しし、このモデル選択によって生じる帰納的バイアスに光を当てた。 最後に,標準ガウス音化拡散と逆熱散逸の両方を最良とする拡散模型の一般化クラスを提案し,これをぼやけ拡散モデルと呼ぶ。

Recently, Rissanen et al., (2022) have presented a new type of diffusion process for generative modeling based on heat dissipation, or blurring, as an alternative to isotropic Gaussian diffusion. Here, we show that blurring can equivalently be defined through a Gaussian diffusion process with non-isotropic noise. In making this connection, we bridge the gap between inverse heat dissipation and denoising diffusion, and we shed light on the inductive bias that results from this modeling choice. Finally, we propose a generalized class of diffusion models that offers the best of both standard Gaussian denoising diffusion and inverse heat dissipation, which we call Blurring Diffusion Models.
翻訳日:2022-09-14 12:11:27 公開日:2022-09-12
# PreSTU: シーンテキスト理解のための事前トレーニング

PreSTU: Pre-Training for Scene-Text Understanding ( http://arxiv.org/abs/2209.05534v1 )

ライセンス: Link先を確認
Jihyung Kil, Soravit Changpinyo, Xi Chen, Hexiang Hu, Sebastian Goodman, Wei-Lun Chao, and Radu Soricut(参考訳) 画像中のテキストの読み書き能力は、視覚と言語(V&L)モデルに欠けていることが多い。 強いシーンテキスト理解(STU)を示すV&Lモデルをどのように学習するか? 本稿では,シーンテキスト理解のための簡単な事前学習レシピであるPreSTUを提案する。 PreSTUは、単純なOCR対応事前学習目標と、大規模な画像テキストデータセットと、既製のOCR信号を組み合わせる。 本研究は,TextVQA,TextCaps,ST-VQA,VizWiz-VQAにおける事前学習目標の優位性を実証的に示す。 また,stu性能に影響する要因について検討し,事前学習時の画像分解能とデータセットスケールの重要性を強調する。

The ability to read and reason about texts in an image is often lacking in vision-and-language (V&L) models. How can we learn V&L models that exhibit strong scene-text understanding (STU)? In this paper, we propose PreSTU, a simple pre-training recipe specifically designed for scene-text understanding. PreSTU combines a simple OCR-aware pre-training objective with a large-scale image-text dataset with off-the-shelf OCR signals. We empirically demonstrate the superiority of this pre-training objective on TextVQA, TextCaps, ST-VQA, and VizWiz-VQA. We also study which factors affect STU performance, where we highlight the importance of image resolution and dataset scale during pre-training.
翻訳日:2022-09-14 12:10:17 公開日:2022-09-12
# VL-Taboo:視覚言語モデルの属性ベースゼロショット能力の解析

VL-Taboo: An Analysis of Attribute-based Zero-shot Capabilities of Vision-Language Models ( http://arxiv.org/abs/2209.06103v1 )

ライセンス: Link先を確認
Felix Vogel, Nina Shvetsova, Leonid Karlinsky, Hilde Kuehne(参考訳) 大規模でランダムに収集されたデータに基づいてトレーニングされた視覚言語モデルは、出現以来、多くの領域で大きな影響を与えた。 しかし、画像テキストリトライバリのような様々な分野で優れたパフォーマンスを示すため、その内部動作は未だ完全には理解されていない。 現在の研究は、これらのモデルの真のゼロショット機能を分析している。 最初はトレーニングコーパスの分析から始まり、テストクラスが本当にゼロショットである程度と、それが個々のクラスのパフォーマンスとどのように相関しているかを評価します。 次に,これらのモデルの属性に基づくゼロショット学習能力の分析を行い,この古典的ゼロショット概念が大規模web上の監督からいかに良く生じているかを評価する。 最近リリースされたLAION400MデータコーパスとCLIP、OpenCLIP、FLAVAの事前トレーニングモデルを活用し、CUBおよびAWA2ベンチマークで属性ベースのゼロショット機能を評価する。 私たちの分析では、 (i)人気のあるゼロショットベンチマークのほとんどのクラスは、事前トレーニング中に(多く)観察される。 (二)ゼロショット性能は、主に、テキストに現れるたびにクラスラベルを認識するモデルの能力から生じ、クラスラベルを使用しない場合にのみ属性ベースのゼロショット学習の性能が著しく低下する。 (iii) 使用する属性の数は、性能に重大な影響を与える可能性があり、パフォーマンスが著しく低下するおそれがある。

Vision-language models trained on large, randomly collected data had significant impact in many areas since they appeared. But as they show great performance in various fields, such as image-text-retrieval, their inner workings are still not fully understood. The current work analyses the true zero-shot capabilities of those models. We start from the analysis of the training corpus assessing to what extent (and which of) the test classes are really zero-shot and how this correlates with individual classes performance. We follow up with the analysis of the attribute-based zero-shot learning capabilities of these models, evaluating how well this classical zero-shot notion emerges from large-scale webly supervision. We leverage the recently released LAION400M data corpus as well as the publicly available pretrained models of CLIP, OpenCLIP, and FLAVA, evaluating the attribute-based zero-shot capabilities on CUB and AWA2 benchmarks. Our analysis shows that: (i) most of the classes in popular zero-shot benchmarks are observed (a lot) during pre-training; (ii) zero-shot performance mainly comes out of models' capability of recognizing class labels, whenever they are present in the text, and a significantly lower performing capability of attribute-based zeroshot learning is only observed when class labels are not used; (iii) the number of the attributes used can have a significant effect on performance, and can easily cause a significant performance decrease.
翻訳日:2022-09-14 12:06:10 公開日:2022-09-12
# ロボット3dシーン理解のための大規模言語モデル活用

Leveraging Large Language Models for Robot 3D Scene Understanding ( http://arxiv.org/abs/2209.05629v1 )

ライセンス: Link先を確認
William Chen, Siyi Hu, Rajat Talak, Luca Carlone(参考訳) セマンティック3dシーン理解はロボット工学において重要な問題である。 空間的知覚において大きな進歩はあったが、ロボットは平均的な人間の家や場所に関する常識的な知識を持つには程遠い。 本研究では,シーン理解に共通理解を与えるための大規模言語モデルの利用について検討する。 具体的には,室内環境における部屋の分類に言語を活用するための3つのパラダイムを紹介する。 (i)ゼロショットアプローチ。 (ii)フィードフォワード分類器アプローチ、及び (iii) 対照的な分類法。 これらの手法は、現代の空間認識システムによって生成された3次元シーングラフで動作する。 次に,それぞれのアプローチを分析し,ゼロショット一般化と言語使用による伝達能力を示す。 最後に,これらの手法を室内の建築ラベルの推測に適用し,実環境におけるゼロショットアプローチを実証する。 すべてのコードはhttps://github.com/MIT-SPARK/llm_scene_understandingで見ることができる。

Semantic 3D scene understanding is a problem of critical importance in robotics. While significant advances have been made in spatial perception, robots are still far from having the common-sense knowledge about household objects and locations of an average human. We thus investigate the use of large language models to impart common sense for scene understanding. Specifically, we introduce three paradigms for leveraging language for classifying rooms in indoor environments based on their contained objects: (i) a zero-shot approach, (ii) a feed-forward classifier approach, and (iii) a contrastive classifier approach. These methods operate on 3D scene graphs produced by modern spatial perception systems. We then analyze each approach, demonstrating notable zero-shot generalization and transfer capabilities stemming from their use of language. Finally, we show these approaches also apply to inferring building labels from contained rooms and demonstrate our zero-shot approach on a real environment. All code can be found at https://github.com/MIT-SPARK/llm_scene_understanding.
翻訳日:2022-09-14 12:04:53 公開日:2022-09-12
# 製造工程における視覚自動検査のためのアクティブラーニングと近似モデル校正

Active Learning and Approximate Model Calibration for Automated Visual Inspection in Manufacturing ( http://arxiv.org/abs/2209.05486v1 )

ライセンス: Link先を確認
Jo\v{z}e M. Ro\v{z}anec, Luka Bizjak, Elena Trajkova, Patrik Zajec, Jelle Keizer, Bla\v{z} Fortuna, Dunja Mladeni\'c(参考訳) 品質管理は、製造企業が製品の品質基準を満たし、ブランドの評判を損なう可能性を避けるために行う重要な活動である。 センサーのコストと接続の削減により、製造のデジタル化が促進された。 さらに、人工知能はより高度な自動化を可能にし、欠陥検査に必要な全体的なコストと時間を削減する。 本研究は,3つの積極的学習アプローチ(単一と複数オーラクル)と視覚検査を比較した。 本稿では,分類モデルの確率キャリブレーションに対する新しいアプローチと,基礎的真理を必要とせずにキャリブレーションの性能を評価するための2つの新しい指標を提案する。 philips consumer lifestyle bvによる実世界データ実験を行った。 その結果, アクティブな学習環境を探索することで, p=0.95の閾値を考慮し, 全体的な品質目標を損なうことなく, データラベル作成の労力を3~4%削減できることがわかった。 さらに, 提案手法では, 基礎的真理データのみを用いて, これまでの測定値と異なり, 適切な情報を収集できることを示す。 したがって,提案手法は,真理データを得るためのラベル付け作業にコミットすることなく,モデルの確率校正の質を推定できる。

Quality control is a crucial activity performed by manufacturing enterprises to ensure that their products meet quality standards and avoid potential damage to the brand's reputation. The decreased cost of sensors and connectivity enabled increasing digitalization of manufacturing. In addition, artificial intelligence enables higher degrees of automation, reducing overall costs and time required for defect inspection. This research compares three active learning approaches (with single and multiple oracles) to visual inspection. We propose a novel approach to probabilities calibration of classification models and two new metrics to assess the performance of the calibration without the need for ground truth. We performed experiments on real-world data provided by Philips Consumer Lifestyle BV. Our results show that explored active learning settings can reduce the data labeling effort by between three and four percent without detriment to the overall quality goals, considering a threshold of p=0.95. Furthermore, we show that the proposed metrics successfully capture relevant information otherwise available to metrics used up to date only through ground truth data. Therefore, the proposed metrics can be used to estimate the quality of models' probability calibration without committing to a labeling effort to obtain ground truth data.
翻訳日:2022-09-14 12:04:39 公開日:2022-09-12
# 動的出力フィードバックの最適化景観について:線形二次レギュレータを事例として

On the Optimization Landscape of Dynamic Output Feedback: A Case Study for Linear Quadratic Regulator ( http://arxiv.org/abs/2209.05042v1 )

ライセンス: Link先を確認
Jingliang Duan, Wenhan Cao, Yang Zheng, Lin Zhao(参考訳) 強化学習ヒンジにおけるポリシー勾配アルゴリズムの収束は、根底にある最適制御問題の最適化状況に依存する。 これらのアルゴリズムに対する理論的洞察は、線形二次制御の解析から得られることが多い。 しかしながら、既存の文献のほとんどは、静的なフルステートまたはアウトプットフィードバックポリシー(コントローラ)の最適化の展望のみを考慮に入れている。 本稿では,線形二次制御(dlqr)のための動的出力フィードバックポリシーのより困難な場合について検討する。 まず、dlqrコストが動的コントローラの座標変換とどのように変化するかを示し、与えられた可観測安定化コントローラの最適変換を導出する。 この結果の核となるのは、観測可能な場合の dLQR の定常点の特異性であり、これは最適な類似性変換を持つオブザーバベースのコントローラの簡潔な形式である。 これらの結果は、部分的に観測された情報を含む一般的な意思決定問題に対する効率的なアルゴリズムの設計に光を当てた。

The convergence of policy gradient algorithms in reinforcement learning hinges on the optimization landscape of the underlying optimal control problem. Theoretical insights into these algorithms can often be acquired from analyzing those of linear quadratic control. However, most of the existing literature only considers the optimization landscape for static full-state or output feedback policies (controllers). We investigate the more challenging case of dynamic output-feedback policies for linear quadratic regulation (abbreviated as dLQR), which is prevalent in practice but has a rather complicated optimization landscape. We first show how the dLQR cost varies with the coordinate transformation of the dynamic controller and then derive the optimal transformation for a given observable stabilizing controller. At the core of our results is the uniqueness of the stationary point of dLQR when it is observable, which is in a concise form of an observer-based controller with the optimal similarity transformation. These results shed light on designing efficient algorithms for general decision-making problems with partially observed information.
翻訳日:2022-09-13 14:24:05 公開日:2022-09-12
# 決定論的および確率的非滑らかな非凸最適化のための勾配なし法

Gradient-Free Methods for Deterministic and Stochastic Nonsmooth Nonconvex Optimization ( http://arxiv.org/abs/2209.05045v1 )

ライセンス: Link先を確認
Tianyi Lin, Zeyu Zheng and Michael I. Jordan(参考訳) 非滑らかな非凸最適化問題は機械学習やビジネス上の意思決定において広く現れるが、2つのコア課題は有限時間収束を保証する効率的な解法の開発を妨げている。 この論文の貢献は2つある。 まず, 定評のあるgoldstein subdifferential~\citep{goldstein-1977-optimization} と一様平滑化の関係を定め, 有限時間収束をgoldstein定常点の集合に保証する勾配自由法の設計の基礎と直観を与える。 第二に、非滑らかな非凸最適化問題のクラスを解くための勾配自由法 (GFM) と確率的 GFM を提案し、その両者が、$(\delta,\epsilon)$-Goldstein 定常点を、$O(d^{3/2}\delta^{-1}\epsilon^{-4})$で期待収束速度で、$d$ が問題次元であるときに、$(\delta,\epsilon)$-Goldstein を返却できることを示す。 GFMとSGFMの2相版も提案され, 改良された大規模評価結果が得られた。 最後に, \textsc{minst}データセットを用いたreluニューラルネットワークのトレーニングにおける2-sgfmの有効性を示す。

Nonsmooth nonconvex optimization problems broadly emerge in machine learning and business decision making, whereas two core challenges impede the development of efficient solution methods with finite-time convergence guarantee: the lack of computationally tractable optimality criterion and the lack of computationally powerful oracles. The contributions of this paper are two-fold. First, we establish the relationship between the celebrated Goldstein subdifferential~\citep{Goldstein-1977-Optimization} and uniform smoothing, thereby providing the basis and intuition for the design of gradient-free methods that guarantee the finite-time convergence to a set of Goldstein stationary points. Second, we propose the gradient-free method (GFM) and stochastic GFM for solving a class of nonsmooth nonconvex optimization problems and prove that both of them can return a $(\delta,\epsilon)$-Goldstein stationary point of a Lipschitz function $f$ at an expected convergence rate at $O(d^{3/2}\delta^{-1}\epsilon^{-4})$ where $d$ is the problem dimension. Two-phase versions of GFM and SGFM are also proposed and proven to achieve improved large-deviation results. Finally, we demonstrate the effectiveness of 2-SGFM on training ReLU neural networks with the \textsc{Minst} dataset.
翻訳日:2022-09-13 14:23:50 公開日:2022-09-12
# 潜在特徴表現学習によるネットワーク型インターネット検閲の検出

Detecting Network-based Internet Censorship via Latent Feature Representation Learning ( http://arxiv.org/abs/2209.05152v1 )

ライセンス: Link先を確認
Shawn P. Duncan and Hui Chen(参考訳) インターネット検閲は社会的重要性の現象であり、複数の分野から調査を引き寄せている。 Censored Planetなどいくつかの研究グループが、大規模なインターネット計測プラットフォームを運用して、ネットワークの到達可能性データを収集している。 しかし、既存の研究は通常、データからネットワークベースのインターネット検閲を検出するために手動で設計された規則(検閲指紋を使用する)に依存している。 このルールに基づくアプローチは、真の正の検知率が高いが、それはいくつかの課題に悩まされている。 これらの課題を克服するために、潜在特徴表現学習に基づく分類モデルと、ネットワークベースのインターネット検閲を検出する画像に基づく分類モデルの設計と評価を行う。 ネットワーク到達性データから潜在特徴表現を推定するために,データ中のデータ要素の構造と順序をキャプチャするシーケンシャル・ツー・シーケンス・オートエンコーダを提案する。 推定潜在特徴から検閲イベントの確率を推定するために、密結合型多層ニューラルネットワークモデルを用いる。 画像ベース分類モデルは、ネットワーク到達性データレコードをグレースケール画像として符号化し、高密度畳み込みニューラルネットワークを用いて画像が検閲されているか否かを分類する。 我々は,Censored Planetのデータセットを用いて,両アプローチを比較し,評価する。 どちらの分類モデルも、既知の指紋で検出されない検閲の事例を識別できるため、ネットワークベースのインターネット検閲を検出することができる。 潜在特徴表現は、潜在特徴学習アプローチが新しい検閲インスタンスの量とより多様なセットを発見して以来、データ内のニュアンスを符号化する可能性が高い。

Internet censorship is a phenomenon of societal importance and attracts investigation from multiple disciplines. Several research groups, such as Censored Planet, have deployed large scale Internet measurement platforms to collect network reachability data. However, existing studies generally rely on manually designed rules (i.e., using censorship fingerprints) to detect network-based Internet censorship from the data. While this rule-based approach yields a high true positive detection rate, it suffers from several challenges: it requires human expertise, is laborious, and cannot detect any censorship not captured by the rules. Seeking to overcome these challenges, we design and evaluate a classification model based on latent feature representation learning and an image-based classification model to detect network-based Internet censorship. To infer latent feature representations from network reachability data, we propose a sequence-to-sequence autoencoder to capture the structure and the order of data elements in the data. To estimate the probability of censorship events from the inferred latent features, we rely on a densely connected multi-layer neural network model. Our image-based classification model encodes a network reachability data record as a gray-scale image and classifies the image as censored or not using a dense convolutional neural network. We compare and evaluate both approaches using data sets from Censored Planet via a hold-out evaluation. Both classification models are capable of detecting network-based Internet censorship as we were able to identify instances of censorship not detected by the known fingerprints. Latent feature representations likely encode more nuances in the data since the latent feature learning approach discovers a greater quantity, and a more diverse set, of new censorship instances.
翻訳日:2022-09-13 14:23:19 公開日:2022-09-12
# 線形力学系の観測予測における公平性

Fairness in Forecasting of Observations of Linear Dynamical Systems ( http://arxiv.org/abs/2209.05274v1 )

ライセンス: Link先を確認
Quan Zhou, Jakub Marecek, Robert N. Shorten(参考訳) 機械学習では、トレーニングデータはしばしば、下層の人間集団の複数のサブグループの振る舞いを捉えている。 サブグループのトレーニングデータの性質を注意深く制御しない場合には、自己表現バイアスが発生する。 この効果に対抗するために,時系列予測問題において,サブグループフェアネスと瞬時フェアネスという2つの自然概念を導入する。 本稿では,非可換多項式最適化問題の凸化の階層を用いたフェアネス制約学習問題のグローバル収束法を示す。 保険申請に動機づけられた偏りのあるデータセットとよく知られたCompASデータセットに対する実験結果から,本手法の有効性が示された。 また,凸化における疎度を生かして,手法の実行時間を著しく短縮できることを示す。

In machine learning, training data often capture the behaviour of multiple subgroups of some underlying human population. When the nature of training data for subgroups are not controlled carefully, under-representation bias arises. To counter this effect we introduce two natural notions of subgroup fairness and instantaneous fairness to address such under-representation bias in time-series forecasting problems. Here we show globally convergent methods for the fairness-constrained learning problems using hierarchies of convexifications of non-commutative polynomial optimisation problems. Our empirical results on a biased data set motivated by insurance applications and the well-known COMPAS data set demonstrate the efficacy of our methods. We also show that by exploiting sparsity in the convexifications, we can reduce the run time of our methods considerably.
翻訳日:2022-09-13 14:22:25 公開日:2022-09-12
# GenLoco:四足歩行ロボットのための汎用ロコモーションコントローラ

GenLoco: Generalized Locomotion Controllers for Quadrupedal Robots ( http://arxiv.org/abs/2209.05309v1 )

ライセンス: Link先を確認
Gilbert Feng, Hongbo Zhang, Zhongyu Li, Xue Bin Peng, Bhuvan Basireddy, Linzhu Yue, Zhitao Song, Lizhi Yang, Yunhui Liu, Koushil Sreenath, Sergey Levine(参考訳) 近年、市販で手頃な価格の四足ロボットが急増し、これらのプラットフォームの多くは研究や産業で積極的に使われている。 脚のあるロボットが使えるようになると、これらのロボットが有用なスキルを発揮できるコントローラーも必要になる。 しかし、コントローラー開発のための学習ベースのフレームワークの多くは、ロボット固有のコントローラーを訓練することに焦点を当てている。 本研究では,四足歩行ロボットのための汎用ロコモーション(GenLoco)コントローラのトレーニングフレームワークを提案する。 本フレームワークは,多種多様な四足歩行ロボットに同様の形態で展開可能な汎用ロコモーションコントローラを合成する。 本稿では,訓練用シミュレーションロボット群を手続き的に生成する,単純かつ効果的な形態素ランダム化手法を提案する。 我々のモデルは、この大規模なシミュレーションロボットのコントローラーを訓練することにより、トレーニング中に観察されなかった様々な形態を持つ新しいシミュレーションロボットに直接転送できる、より一般的な制御戦略を取得する。

Recent years have seen a surge in commercially-available and affordable quadrupedal robots, with many of these platforms being actively used in research and industry. As the availability of legged robots grows, so does the need for controllers that enable these robots to perform useful skills. However, most learning-based frameworks for controller development focus on training robot-specific controllers, a process that needs to be repeated for every new robot. In this work, we introduce a framework for training generalized locomotion (GenLoco) controllers for quadrupedal robots. Our framework synthesizes general-purpose locomotion controllers that can be deployed on a large variety of quadrupedal robots with similar morphologies. We present a simple but effective morphology randomization method that procedurally generates a diverse set of simulated robots for training. We show that by training a controller on this large set of simulated robots, our models acquire more general control strategies that can be directly transferred to novel simulated and real-world robots with diverse morphologies, which were not observed during training.
翻訳日:2022-09-13 14:21:00 公開日:2022-09-12
# ファクトリーフロア:産業用広告推薦モデルのためのMLエンジニアリング

On the Factory Floor: ML Engineering for Industrial-Scale Ads Recommendation Models ( http://arxiv.org/abs/2209.05310v1 )

ライセンス: Link先を確認
Rohan Anil, Sandra Gadanho, Da Huang, Nijith Jacob, Zhuoshu Li, Dong Lin, Todd Phillips, Cristina Pop, Kevin Regan, Gil I. Shamir, Rakesh Shivanna, Qiqi Yan(参考訳) 産業規模の広告システムでは、広告クリックスルー率(CTR)の予測が中心的な問題である。 広告クリックはユーザーエンゲージメントの重要なクラスであり、しばしばユーザーにとって広告の有用性を示す主要なシグナルとして使われる。 さらに、広告主がクリックごとに課金されるクリック単価広告システムでは、クリック率の期待値が直接価値評価に反映される。 したがって、CTRモデルの開発は、ほとんどのインターネット広告会社にとって重要な投資である。 このような問題に対するエンジニアリングには、従来の精度向上、特に効率、再現性、キャリブレーション、クレジットアトリビューションを超えて、オンライン学習に適した多くの機械学習(ml)技術が必要である。 本稿では,Googleの検索広告CTRモデルに実装された実用技術について事例研究を行う。 本稿では,現在のML研究の重要領域を明らかにする産業ケーススタディと,大規模産業環境でのインパクトのある新しいML手法の評価と有用性について述べる。

For industrial-scale advertising systems, prediction of ad click-through rate (CTR) is a central problem. Ad clicks constitute a significant class of user engagements and are often used as the primary signal for the usefulness of ads to users. Additionally, in cost-per-click advertising systems where advertisers are charged per click, click rate expectations feed directly into value estimation. Accordingly, CTR model development is a significant investment for most Internet advertising companies. Engineering for such problems requires many machine learning (ML) techniques suited to online learning that go well beyond traditional accuracy improvements, especially concerning efficiency, reproducibility, calibration, credit attribution. We present a case study of practical techniques deployed in Google's search ads CTR model. This paper provides an industry case study highlighting important areas of current ML research and illustrating how impactful new ML methods are evaluated and made useful in a large-scale industrial setting.
翻訳日:2022-09-13 14:20:43 公開日:2022-09-12
# 深層強化学習におけるロバスト探索のための自己教師型シークエンシャル・インフォメーション・ブートネック

Self-supervised Sequential Information Bottleneck for Robust Exploration in Deep Reinforcement Learning ( http://arxiv.org/abs/2209.05333v1 )

ライセンス: Link先を確認
Bang You, Jingming Xie, Youping Chen, Jan Peters, Oleg Arenz(参考訳) 効果的な探索は、疎い報酬や高次元状態空間を持つ環境における強化学習エージェントにとって重要である。 状態視数、好奇心、エントロピー最大化に基づく最近の研究は、エージェントが探索のために新しい状態に行く動機づけとなる固有の報酬信号を生成する。 しかし、エージェントは、センサーノイズや背景の変化など、新規だがタスク関連のない情報を含むセンサ入力に対する摂動によって注意をそらすことができる。 本研究では,時系列観測における逐次予測情報をモデル化・圧縮することにより,圧縮・時間的コヒーレント表現を学習するシーケンシャル情報ボトルネック目標を提案する。 ノイズの多い環境での効率的な探索のために,学習された表現に基づいてタスク関連状態の新規性をキャプチャする本質的な報酬を構築する。 実用的最適化のための逐次的情報ボトルネック目標の変分上界を導出し,導出上界の情報理論的解釈を提供する。 提案手法は, 好奇性, エントロピー最大化, 情報ゲインに基づく最先端の手法と比較して, ホワイトノイズと自然映像の両方の背景に頑健性をもたらすことを示す。

Effective exploration is critical for reinforcement learning agents in environments with sparse rewards or high-dimensional state-action spaces. Recent works based on state-visitation counts, curiosity and entropy-maximization generate intrinsic reward signals to motivate the agent to visit novel states for exploration. However, the agent can get distracted by perturbations to sensor inputs that contain novel but task-irrelevant information, e.g. due to sensor noise or changing background. In this work, we introduce the sequential information bottleneck objective for learning compressed and temporally coherent representations by modelling and compressing sequential predictive information in time-series observations. For efficient exploration in noisy environments, we further construct intrinsic rewards that capture task-relevant state novelty based on the learned representations. We derive a variational upper bound of our sequential information bottleneck objective for practical optimization and provide an information-theoretic interpretation of the derived upper bound. Our experiments on a set of challenging image-based simulated control tasks show that our method achieves better sample efficiency, and robustness to both white noise and natural video backgrounds compared to state-of-art methods based on curiosity, entropy maximization and information-gain.
翻訳日:2022-09-13 14:20:09 公開日:2022-09-12
# 強化学習のための探索と爆発の決定論的シークエンシング

Deterministic Sequencing of Exploration and Exploitation for Reinforcement Learning ( http://arxiv.org/abs/2209.05408v1 )

ライセンス: Link先を確認
Piyush Gupta and Vaibhav Srivastava(参考訳) 本稿では,システムモデル,すなわちマルコフ決定プロセス(MDP)と関連する最適ポリシーを同時に学習することを目的としたモデルベースRL問題に対して,探索と搾取をインターリーブするDSEE(Deterministic Sequencing of Exploration and Exploitation)アルゴリズムを提案する。 調査中、DSEEは環境を調査し、期待される報酬と移行確率の見積を更新する。 搾取中、システムダイナミクスの最新の見積もりは、高い確率で堅牢なポリシーを得るために使用される。 我々は,累積的後悔が時間のサブリニア関数として成長するように,探索と搾取期間の長さをデザインする。 また,マルチホップMDPとメトロポリス・ハスティングスアルゴリズムを用いて,各状態-作用対を高い確率で均一にサンプリングする方法についても検討した。

We propose Deterministic Sequencing of Exploration and Exploitation (DSEE) algorithm with interleaving exploration and exploitation epochs for model-based RL problems that aim to simultaneously learn the system model, i.e., a Markov decision process (MDP), and the associated optimal policy. During exploration, DSEE explores the environment and updates the estimates for expected reward and transition probabilities. During exploitation, the latest estimates of the system dynamics are used to obtain a robust policy with high probability. We design the lengths of the exploration and exploitation epochs such that the cumulative regret grows as a sub-linear function of time. We also discuss a method for efficient exploration using multi-hop MDP and Metropolis-Hastings algorithm to uniformly sample each state-action pair with high probability.
翻訳日:2022-09-13 14:19:46 公開日:2022-09-12
# 24GHzドップラーレーダを用いた手指ジェスチャー認識のための畳み込みエンコーダデコーダを用いた視覚変換器

Vision Transformer with Convolutional Encoder-Decoder for Hand Gesture Recognition using 24 GHz Doppler Radar ( http://arxiv.org/abs/2209.05032v1 )

ライセンス: Link先を確認
Kavinda Kehelella, Gayangana Leelarathne, Dhanuka Marasinghe, Nisal Kariyawasam, Viduneth Ariyarathna, Arjuna Madanayake, Ranga Rodrigo, Chamira U. S. Edussooriya(参考訳) 畳み込みエンコーダと組み合わされた変換器は、最近マイクロドップラーシグネチャを用いた手動ジェスチャー認識(HGR)に使われている。 マルチアンテナ連続波ドップラーレーダを用いたHGR用視覚変換器アーキテクチャを提案する。 提案するアーキテクチャは,畳み込みエンコーダデコーダ,3つのトランスフォーマー層を持つアテンションモジュール,多層パーセプトロンの3つのモジュールで構成される。 新たな畳み込みデコーダは、より大きなサイズのパッチをアテンションモジュールに供給し、機能抽出を改善する。 24GHzの2アンテナ連続波ドップラーレー受波機(Skariaら)に対応するデータセットを用いて得られた実験結果から,提案アーキテクチャが98.3%の精度を達成し,使用済みデータセットの最先端性を大幅に上回ることを確認した。

Transformers combined with convolutional encoders have been recently used for hand gesture recognition (HGR) using micro-Doppler signatures. We propose a vision-transformer-based architecture for HGR with multi-antenna continuous-wave Doppler radar receivers. The proposed architecture consists of three modules: a convolutional encoderdecoder, an attention module with three transformer layers, and a multi-layer perceptron. The novel convolutional decoder helps to feed patches with larger sizes to the attention module for improved feature extraction. Experimental results obtained with a dataset corresponding to a two-antenna continuous-wave Doppler radar receiver operating at 24 GHz (published by Skaria et al.) confirm that the proposed architecture achieves an accuracy of 98.3% which substantially surpasses the state-of-the-art on the used dataset.
翻訳日:2022-09-13 14:15:41 公開日:2022-09-12
# 双曲的自己教師付きコントラスト学習に基づくネットワーク異常検出

Hyperbolic Self-supervised Contrastive Learning Based Network Anomaly Detection ( http://arxiv.org/abs/2209.05049v1 )

ライセンス: Link先を確認
Yuanjun Shi(参考訳) 属性ネットワーク上の異常検出は近年,サイバーネティックな異常検出や不正検出など,多くの研究分野で注目を集めている。 グラフ表現へのディープラーニングの広範な適用により、既存のアプローチではユークリッドグラフエンコーダをバックボーンとして採用することを選択し、特に複雑なネットワークにおいて重要な階層情報を失う可能性がある。 この問題に対処するために,双曲的自己教師付きコントラスト学習を用いた効率的な異常検出フレームワークを提案する。 具体的には,まずサブグラフサンプリングを行い,データ拡張を行う。 次に,指数写像と対数写像を用いて双曲空間の階層情報を利用し,正の対のスコアを負の対から判別過程によって引いて異常値を求める。 最後に、4つの実世界のデータセットに対する広範な実験により、我々のアプローチは代表的ベースラインアプローチよりも優れていることを示した。

Anomaly detection on the attributed network has recently received increasing attention in many research fields, such as cybernetic anomaly detection and financial fraud detection. With the wide application of deep learning on graph representations, existing approaches choose to apply euclidean graph encoders as their backbone, which may lose important hierarchical information, especially in complex networks. To tackle this problem, we propose an efficient anomaly detection framework using hyperbolic self-supervised contrastive learning. Specifically, we first conduct the data augmentation by performing subgraph sampling. Then we utilize the hierarchical information in hyperbolic space through exponential mapping and logarithmic mapping and obtain the anomaly score by subtracting scores of the positive pairs from the negative pairs via a discriminating process. Finally, extensive experiments on four real-world datasets demonstrate that our approach performs superior over representative baseline approaches.
翻訳日:2022-09-13 14:15:21 公開日:2022-09-12
# データ駆動ニューズベンドル問題における特徴選択のための2レベル最適化

Bilevel Optimization for Feature Selection in the Data-Driven Newsvendor Problem ( http://arxiv.org/abs/2209.05093v1 )

ライセンス: Link先を確認
Breno Serrano, Stefan Minner, Maximilian Schiffer, Thibaut Vidal(参考訳) 本稿では,需要観測と外因性特徴からなる歴史的データに意思決定者がアクセスできる特徴に基づくニューズベンダー問題について検討する。 そこで本研究では,サンプル外性能を改善したスパースで説明可能なモデルを導出することを目的とした特徴選択法について検討する。 これまで、最先端の手法は正規化を利用しており、選択された特徴数や解ベクトルのノルムを罰する。 代替案として,新しい二段階プログラミング定式化を提案する。 上位レベルの問題は、保持された検証セットに基づいて順序決定のアウト・オブ・サンプルコストの見積を最小化する機能のサブセットを選択する。 下層問題は、上位層によって選択された特徴のみを用いて、トレーニングセット上の決定関数の最適係数を学習する。 本稿では,bilevelプログラムのための混合整数線形プログラム再構成法を提案する。 計算実験により, サンプルサイズ数百のインスタンスに対して, 地上構造を精度良く復元できることが判明した。 対照的に、正規化に基づく手法は、しばしば特徴回復時に失敗するか、同様の精度を得るために数千の観測を必要とする。 サンプル外の一般化に関しては、改善または同等のコストパフォーマンスを達成します。

We study the feature-based newsvendor problem, in which a decision-maker has access to historical data consisting of demand observations and exogenous features. In this setting, we investigate feature selection, aiming to derive sparse, explainable models with improved out-of-sample performance. Up to now, state-of-the-art methods utilize regularization, which penalizes the number of selected features or the norm of the solution vector. As an alternative, we introduce a novel bilevel programming formulation. The upper-level problem selects a subset of features that minimizes an estimate of the out-of-sample cost of ordering decisions based on a held-out validation set. The lower-level problem learns the optimal coefficients of the decision function on a training set, using only the features selected by the upper-level. We present a mixed integer linear program reformulation for the bilevel program, which can be solved to optimality with standard optimization solvers. Our computational experiments show that the method accurately recovers ground-truth features already for instances with a sample size of a few hundred observations. In contrast, regularization-based techniques often fail at feature recovery or require thousands of observations to obtain similar accuracy. Regarding out-of-sample generalization, we achieve improved or comparable cost performance.
翻訳日:2022-09-13 14:15:06 公開日:2022-09-12
# 社会推薦システムのための順序グラフガンマ信念ネットワーク

Ordinal Graph Gamma Belief Network for Social Recommender Systems ( http://arxiv.org/abs/2209.05106v1 )

ライセンス: Link先を確認
Dongsheng Wang, Chaojie Wang, Bo Chen, Mingyuan Zhou(参考訳) 順序変数として表現されるユーザ-itemの相互作用だけでなく,ユーザ間の関係を記述したソーシャルネットワークを利用したリコメンデーションシステムを構築するために,ユーザ-itemとユーザ-ユーザインタラクションを共同でモデル化する階層型ベイズモデル(OGFA)を開発した。 OGFAは、優れたレコメンデーションパフォーマンスを達成するだけでなく、代表ユーザの好みに応じた解釈可能な潜在因子も抽出する。 我々はさらに、OGFAをオーディナルグラフガンマ信念ネットワークに拡張し、複数のセマンティックレベルでユーザの好みや社会的コミュニティをキャプチャするマルチ確率層深層確率モデルを提案する。 効率的な推論のために,グラフの幅を生かし,大規模データセットにスケーラブルな並列ハイブリッドGibs-EMアルゴリズムを開発した。 実験の結果,提案モデルは明示的あるいは暗黙的なフィードバックを伴うレコメンデーションデータセットのベースラインを上回っているだけでなく,解釈可能な潜在表現も提供できることがわかった。

To build recommender systems that not only consider user-item interactions represented as ordinal variables, but also exploit the social network describing the relationships between the users, we develop a hierarchical Bayesian model termed ordinal graph factor analysis (OGFA), which jointly models user-item and user-user interactions. OGFA not only achieves good recommendation performance, but also extracts interpretable latent factors corresponding to representative user preferences. We further extend OGFA to ordinal graph gamma belief network, which is a multi-stochastic-layer deep probabilistic model that captures the user preferences and social communities at multiple semantic levels. For efficient inference, we develop a parallel hybrid Gibbs-EM algorithm, which exploits the sparsity of the graphs and is scalable to large datasets. Our experimental results show that the proposed models not only outperform recent baselines on recommendation datasets with explicit or implicit feedback, but also provide interpretable latent representations.
翻訳日:2022-09-13 14:14:46 公開日:2022-09-12
# 感性分析のための古典的および量子的機械学習モデルの比較研究

A Comparative Study of Classical and Quantum Machine Learning Models for Sentimental Analysis ( http://arxiv.org/abs/2209.05142v1 )

ライセンス: Link先を確認
Diksha Sharma, Parvinder Singh and Atul Kumar(参考訳) 映画レビューから構築したテキストデータの感情を分析し,分類する。 そのため、量子機械学習アルゴリズムによるカーネルベースのアプローチを用いる。 量子カーネルを構成するために、回転パラメータがテキストデータから得られるデータ点の古典的な非線形関数である異なるポーリ回転ゲートの組み合わせを用いて構成した回路を用いる。 提案モデルの性能解析のために,決定木,勾配ブースティング分類器,古典および量子サポートベクターマシンを用いた量子モデルの解析を行った。 その結果、量子カーネルモデルや量子支援ベクトルマシンは、全ての評価指標から分析に使用される他のアルゴリズムよりも優れていることがわかった。 古典的なサポートベクトルマシンと比較して、量子サポートベクトルマシンは、特徴や次元が増大しても、はるかに良い結果をもたらす。 この結果は、古典的なサポートベクターマシンのように量子サポートベクターマシンを使用すると、特徴の数が15ドルであれば、精度が9.4%向上することを示している。

We analyse and classify the sentiments of a text data constructed from movie reviews. For this, we use the kernel-based approach from quantum machine learning algorithms. In order to compose a quantum kernel, we use a circuit constructed using a combination of different Pauli rotational gates where the rotational parameter is a classical non-linear function of data points obtained from the text data. For analysing the performance of the proposed model, we analyse the quantum model using decision tree, gradient boosting classifier, and classical and quantum support vector machines. Our results show that quantum kernel model or quantum support vector machine outperforms all other algorithms used for analysis in terms of all evaluation metrics. In comparison to a classical support vector machine, the quantum support vector machine leads to significantly better results even with increased number of features or dimensions. The results clearly demonstrate increase in precision score by $9.4 \%$ using a quantum support vector machine as against a classical support vector machine if the number of features are $15$.
翻訳日:2022-09-13 14:14:28 公開日:2022-09-12
# 説明通路を有する構造的生成モデルにおける補正推論

Amortised Inference in Structured Generative Models with Explaining Away ( http://arxiv.org/abs/2209.05212v1 )

ライセンス: Link先を確認
Changmin Yu and Hugo Soulat and Neil Burgess and Maneesh Sahani(参考訳) 教師なし学習の重要な目標は、密度推定とサンプル生成を超えて、観測データに固有の構造を明らかにすることである。 このような構造は、確率的グラフィカルモデルを通して得られた説明的潜在変数間の相互作用パターンで表現することができる。 構造化グラフィカルモデルの学習には長い歴史があるが、教師なしモデリングにおける最近の研究は、独立した潜伏生成器を複雑なデータに変換するか、異なる観測変数が異なる潜伏ノードから導出されることを仮定して、柔軟な深層ネットワークベースの生成を強調している。 ここでは,複数変数にまたがる構造化因子を組み込むために,補正された変分推論の出力を拡張し,"説明"から生じる潜伏者間の観測誘起後続依存性を捉え,構造化グラフの複数のノードに依存する複雑な観測を可能にする。 パラメータ化された因子は、複雑な図形構造における変分メッセージパッシングと効率的に結合可能であることを示す。 ガウス過程因子分析モデルに基づくフレームワークのインスタンス化を行い、既知生成過程を持つ合成データに対する既存の手法に対する改善を実証的に評価する。 次に, 構造モデルを用いて, 海馬の運動野の高次元神経スパイキング時系列に適応し, モデルが行動的共変量と相関する潜在シグナルを同定することを示す。

A key goal of unsupervised learning is to go beyond density estimation and sample generation to reveal the structure inherent within observed data. Such structure can be expressed in the pattern of interactions between explanatory latent variables captured through a probabilistic graphical model. Although the learning of structured graphical models has a long history, much recent work in unsupervised modelling has instead emphasised flexible deep-network-based generation, either transforming independent latent generators to model complex data or assuming that distinct observed variables are derived from different latent nodes. Here, we extend the output of amortised variational inference to incorporate structured factors over multiple variables, able to capture the observation-induced posterior dependence between latents that results from "explaining away" and thus allow complex observations to depend on multiple nodes of a structured graph. We show that appropriately parameterised factors can be combined efficiently with variational message passing in elaborate graphical structures. We instantiate the framework based on Gaussian Process Factor Analysis models, and empirically evaluate its improvement over existing methods on synthetic data with known generative processes. We then fit the structured model to high-dimensional neural spiking time-series from the hippocampus of freely moving rodents, demonstrating that the model identifies latent signals that correlate with behavioural covariates.
翻訳日:2022-09-13 14:14:14 公開日:2022-09-12
# SmartKex: ヒープダンプからSSHキーを抽出する機械学習

SmartKex: Machine Learning Assisted SSH Keys Extraction From The Heap Dump ( http://arxiv.org/abs/2209.05243v1 )

ライセンス: Link先を確認
Christofer Fellicious, Stewart Sentanoe, Michael Granitzer, Hans P. Reiser(参考訳) デジタル法医学(digital forensics)は、デジタル装置から証拠を抽出、保存、文書化する過程である。 デジタル法医学における一般的な方法は、デジタル装置のメインメモリからデータを抽出することである。 しかし、主な課題は抽出すべき重要なデータを特定することである。 ユーザ名やパスワード、SSHセッションキーなどの暗号化キーなど、重要な情報がメインメモリに存在する。 本論文では,OpenSSHプロセスのヒープメモリスナップショットからセッションキーを抽出する機械学習支援手法であるSmartKexを提案する。 さらに、オープンに利用可能なデータセットと、追加データを作成するためのツールチェーンもリリースします。 最後に,SmartKexと単純なブルートフォース法を比較し,SmartKexがセッションキーを高精度かつ高いスループットで抽出できることを実証的に示す。 提供されたリソースにより、デジタル法医学、サイバーセキュリティ、機械学習の交差点の研究を強化するつもりです。

Digital forensics is the process of extracting, preserving, and documenting evidence in digital devices. A commonly used method in digital forensics is to extract data from the main memory of a digital device. However, the main challenge is identifying the important data to be extracted. Several pieces of crucial information reside in the main memory, like usernames, passwords, and cryptographic keys such as SSH session keys. In this paper, we propose SmartKex, a machine-learning assisted method to extract session keys from heap memory snapshots of an OpenSSH process. In addition, we release an openly available dataset and the corresponding toolchain for creating additional data. Finally, we compare SmartKex with naive brute-force methods and empirically show that SmartKex can extract the session keys with high accuracy and high throughput. With the provided resources, we intend to strengthen the research on the intersection between digital forensics, cybersecurity, and machine learning.
翻訳日:2022-09-13 14:13:50 公開日:2022-09-12
# TruVR: 説明可能な機械学習による信頼できるサイバーシック検出

TruVR: Trustworthy Cybersickness Detection using Explainable Machine Learning ( http://arxiv.org/abs/2209.05257v1 )

ライセンス: Link先を確認
Ripan Kumar Kundu, Rifatul Islam, Prasad Calyam, Khaza Anuarul Hoque(参考訳) サイバーシックネスは、仮想現実(vr)システムを使用する際に、吐き気、めまい、頭痛、眼の緊張、その他の不快感を特徴付けることができる。 これまで報告された機械学習(ML)とディープラーニング(DL)アルゴリズムは、ブラックボックスモデルを使用してVRサイバーシックの検出(分類)と予測(回帰)を行う。 さらに、vrセンサーは膨大なデータを生成し、複雑で大規模モデルを生成する。 したがって、サイバーシック検出モデルに固有の説明責任を持つことは、モデルの信頼性を大幅に向上させ、ML/DLモデルが特定の決定に達した理由と方法に関する洞察を与えることができる。 この問題に対処するために,サイバーシックネスの検出と予測を行う3つの説明可能な機械学習(xml)モデルを提案する。 1)説明可能な推進機(EBM) 2)決定木(dt)、及び 3)ロジスティック回帰(LR)。 我々は,サイバーシックネスのための生理学およびゲームプレイデータセットが公開されているxMLモデルを評価する。 その結果,ebmは生理的およびゲームプレイのデータセットに対して,99.75%,94.10%の精度でサイバーシックネスを検出できることがわかった。 一方、EBMはサイバーシック性を予測する一方で、生理的データセットは0.071、ゲームプレイデータセットは0.27のルート平均角誤差(RMSE)が得られた。 さらに、ebmベースのグローバル説明は、ゲームプレイデータセットにおけるサイバーシックネスを引き起こす重要な特徴として、露出長、回転、加速を明らかにする。 対照的に、ガルバニック皮膚反応と心拍数は生理学的データセットにおいて最も重要である。 また,ESMによる局所的な説明は,個々のサンプルに対するサイバーシックな要因を特定できる可能性が示唆された。 提案するxmlベースのサイバーシックネス検出手法は,より単純なサイバーシックネス検出・低減モデルを理解し,解析し,設計する上で有効である。

Cybersickness can be characterized by nausea, vertigo, headache, eye strain, and other discomforts when using virtual reality (VR) systems. The previously reported machine learning (ML) and deep learning (DL) algorithms for detecting (classification) and predicting (regression) VR cybersickness use black-box models; thus, they lack explainability. Moreover, VR sensors generate a massive amount of data, resulting in complex and large models. Therefore, having inherent explainability in cybersickness detection models can significantly improve the model's trustworthiness and provide insight into why and how the ML/DL model arrived at a specific decision. To address this issue, we present three explainable machine learning (xML) models to detect and predict cybersickness: 1) explainable boosting machine (EBM), 2) decision tree (DT), and 3) logistic regression (LR). We evaluate xML-based models with publicly available physiological and gameplay datasets for cybersickness. The results show that the EBM can detect cybersickness with an accuracy of 99.75% and 94.10% for the physiological and gameplay datasets, respectively. On the other hand, while predicting the cybersickness, EBM resulted in a Root Mean Square Error (RMSE) of 0.071 for the physiological dataset and 0.27 for the gameplay dataset. Furthermore, the EBM-based global explanation reveals exposure length, rotation, and acceleration as key features causing cybersickness in the gameplay dataset. In contrast, galvanic skin responses and heart rate are most significant in the physiological dataset. Our results also suggest that EBM-based local explanation can identify cybersickness-causing factors for individual samples. We believe the proposed xML-based cybersickness detection method can help future researchers understand, analyze, and design simpler cybersickness detection and reduction models.
翻訳日:2022-09-13 14:13:35 公開日:2022-09-12
# 下流機械学習のための低オーバーヘッド時系列前処理技術の評価

An Evaluation of Low Overhead Time Series Preprocessing Techniques for Downstream Machine Learning ( http://arxiv.org/abs/2209.05300v1 )

ライセンス: Link先を確認
Matthew L. Weiss, Joseph McDonald, David Bestor, Charles Yee, Daniel Edelman, Michael Jones, Andrew Prout, Andrew Bowne, Lindsey McEvoy, Vijay Gadepally, Siddharth Samsi(参考訳) 本稿では、下流機械学習におけるアライメント問題(アライメント問題)と呼ぶ長さの異なるマルチチャネル時系列データに対する前処理手法の適用について述べる。 マルチチャネル時系列データの誤アライメントは、欠落データ、様々なサンプリングレート、一貫性のない収集時間など、さまざまな理由で発生する可能性がある。 我々は,mit supercloud high performance computing (hpc) センターから収集されたマルチチャネル時系列データについて検討する。 このミスアライメントにより、計算ワークロードの分類などのタスクに対するAI/MLアプローチの構築が困難になる。 mit supercloudデータセットによる以前の教師付き分類作業に基づいて、全時系列から固定サブセットをサンプリングし、全時系列で要約統計を実行し、周波数領域にマッピングされた時系列から係数のサブセットをサンプリングする3つの幅広い低オーバーヘッドアプローチによってアライメント問題に対処する。 我々の最高の性能モデルは95%以上の分類精度を達成し、MIT SuperCloud Datasetによるマルチチャネル時系列分類に対する従来のアプローチよりも5%上回った。 これらの結果から,アライメント問題を解決するための低オーバーヘッドアプローチは,標準的な機械学習手法と相まって,高いレベルの分類精度を達成し,カーネル手法などのアライメント問題に対処するための今後のアプローチのベースラインとなることが示唆された。

In this paper we address the application of pre-processing techniques to multi-channel time series data with varying lengths, which we refer to as the alignment problem, for downstream machine learning. The misalignment of multi-channel time series data may occur for a variety of reasons, such as missing data, varying sampling rates, or inconsistent collection times. We consider multi-channel time series data collected from the MIT SuperCloud High Performance Computing (HPC) center, where different job start times and varying run times of HPC jobs result in misaligned data. This misalignment makes it challenging to build AI/ML approaches for tasks such as compute workload classification. Building on previous supervised classification work with the MIT SuperCloud Dataset, we address the alignment problem via three broad, low overhead approaches: sampling a fixed subset from a full time series, performing summary statistics on a full time series, and sampling a subset of coefficients from time series mapped to the frequency domain. Our best performing models achieve a classification accuracy greater than 95%, outperforming previous approaches to multi-channel time series classification with the MIT SuperCloud Dataset by 5%. These results indicate our low overhead approaches to solving the alignment problem, in conjunction with standard machine learning techniques, are able to achieve high levels of classification accuracy, and serve as a baseline for future approaches to addressing the alignment problem, such as kernel methods.
翻訳日:2022-09-13 14:12:47 公開日:2022-09-12
# 燃料電池電気自動車のための新しい学習ベースロバストモデル予測制御エネルギー管理戦略

A novel learning-based robust model predictive control energy management strategy for fuel cell electric vehicles ( http://arxiv.org/abs/2209.04995v1 )

ライセンス: Link先を確認
Shibo Li, Zhuoran Hou, Liang Chu, Jingjing Jiang and Yuanjian Zhang(参考訳) 多源電気機械結合により、燃料電池電気自動車(fcev)のエネルギー管理は、特に4輪駆動(4wd)のfcevのタイプにおいて比較的非線形で複雑になる。 複雑な非線形システムの正確な状態観測は、FCEVにおける素晴らしいエネルギー管理の基礎となる。 FCEVの省エネ可能性の解放を目指して,4WD FCEV の学習型頑健なモデル予測制御 (LRMPC) 戦略が提案され,複数のエネルギー源間の適切な電力分配に寄与する。 機械学習(ML)に基づくよく設計された戦略は、非線形システムの知識を、より優れたロバストな性能を持つ明示的な制御スキームに翻訳する。 まず、SOCの正確な状態オブザーバを確立するために、高い回帰精度と優れた一般化能力を有するML手法をオフラインで訓練する。 次に、状態オブザーバが生成するSOCの明示的なデータテーブルを用いて、車両の状態と車両部品の状態を含む入力特性の正確な状態変化を把握する。 具体的には、将来の速度基準を提供するための車両速度推定を深い森林で構築する。 次に、明示的なデータテーブルと車両速度推定を含むコンポーネントをモデル予測制御(MPC)と組み合わせて、FCEVにおける多自由度システムのための最先端の省エネ能力を解放する。 最後に, LRMPCの進行性能を評価するため, シミュレーション試験において詳細な評価を行う。 以上の結果から, LRMPCの省エネ電位と高リアルタイム適用能力の最適制御効果が示された。

The multi-source electromechanical coupling makes the energy management of fuel cell electric vehicles (FCEVs) relatively nonlinear and complex especially in the types of 4-wheel-drive (4WD) FCEVs. Accurate state observing for complicated nonlinear system is the basis for fantastic energy managing in FCEVs. Aiming at releasing the energy-saving potential of FCEVs, a novel learning-based robust model predictive control (LRMPC) strategy is proposed for a 4WD FCEV, contributing to suitable power distribution among multiple energy sources. The well-designed strategy based on machine learning (ML) translates the knowledge of the nonlinear system to the explicit controlling scheme with superior robust performance. To start with, ML methods with high regression accuracy and superior generalization ability are trained offline to establish the precise state observer for SOC. Then, explicit data tables for SOC generated by state observer are used for grabbing accurate state changing, whose input features include the vehicle status and the states of vehicle components. To be specific, the vehicle velocity estimation for providing future speed reference is constructed by deep forest. Next, the components including explicit data tables and vehicle velocity estimation are combined with model predictive control (MPC) to release the state-of-the-art energy-saving ability for the multi-freedom system in FCEVs, whose name is LRMPC. At last, the detailed assessment is performed in simulation test to validate the advancing performance of LRMPC. The corresponding results highlight the optimal control effect in energy-saving potential and strong real-time application ability of LRMPC.
翻訳日:2022-09-13 14:06:54 公開日:2022-09-12
# 非ホモフィラスグラフのノード分類のためのグラフ多項式畳み込みモデル

Graph Polynomial Convolution Models for Node Classification of Non-Homophilous Graphs ( http://arxiv.org/abs/2209.05020v1 )

ライセンス: Link先を確認
Kishan Wimalawarne and Taiji Suzuki(参考訳) 本研究では,高階グラフ畳み込みによる効率的な学習と,ノード分類のための隣接行列から直接学習する。 グラフ残差ネットワークを再検討し、残差層からReLU活性化を除去し、各残差層に1つの重み行列を適用する。 得られたモデルが正規化隣接行列、残留重み行列、残留スケーリングパラメータの多項式として新しいグラフ畳み込みモデルをもたらすことを示す。 さらに,直接グラフ多項式畳み込みモデルと隣接行列から直接学習する適応学習を提案する。 さらに,各残留層におけるスケーリングパラメータを学習するための完全適応モデルを提案する。 提案手法の一般化境界は,固有値スペクトル,スケーリングパラメータ,残余重みの上限の多項式として有界であることを示す。 理論的解析により,提案モデルでは,畳み込みの高次化と隣接行列からの直接学習を制限し,一般化境界を改良することができると論じる。 提案手法は,多くの実データを用いて,非ホモフィルグラフのノード分類精度の向上を実証する。

We investigate efficient learning from higher-order graph convolution and learning directly from adjacency matrices for node classification. We revisit the scaled graph residual network and remove ReLU activation from residual layers and apply a single weight matrix at each residual layer. We show that the resulting model lead to new graph convolution models as a polynomial of the normalized adjacency matrix, the residual weight matrix, and the residual scaling parameter. Additionally, we propose adaptive learning between directly graph polynomial convolution models and learning directly from the adjacency matrix. Furthermore, we propose fully adaptive models to learn scaling parameters at each residual layer. We show that generalization bounds of proposed methods are bounded as a polynomial of eigenvalue spectrum, scaling parameters, and upper bounds of residual weights. By theoretical analysis, we argue that the proposed models can obtain improved generalization bounds by limiting the higher-orders of convolutions and direct learning from the adjacency matrix. Using a wide set of real-data, we demonstrate that the proposed methods obtain improved accuracy for node-classification of non-homophilous graphs.
翻訳日:2022-09-13 14:06:28 公開日:2022-09-12
# 責任あるAIパターンカタログ:多言語文献レビュー

Responsible AI Pattern Catalogue: a Multivocal Literature Review ( http://arxiv.org/abs/2209.04963v1 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Jon Whittle, Didar Zowghi, Aurelie Jacquet(参考訳) 責任あるAIは、我々の時代における最大の科学的課題の1つであり、AI市場を解き放ち、導入を促進する鍵であると考えられてきた。 責任あるAI課題に対処するため、最近、AIシステムが従うはずのAI倫理原則フレームワークが多数公開された。 しかし、それ以上のベストプラクティスの指導がなければ、実践者は残らず残される。 また、アルゴリズムレベルでの重要な取り組みはシステムレベルではなく、主に数学に適応可能な倫理原則(プライバシーや公正性など)のサブセットに焦点を当てている。 それでも、倫理的な問題は、AIアルゴリズムやモデル以外のシステムの多くのAI、非AI、データコンポーネントを横断する開発ライフサイクルの任意のステップで起こりうる。 本稿では、システムの観点から責任あるAIを運用するために、パターン指向のアプローチを採用し、体系的多言語文学レビュー(MLR)の結果に基づいて責任あるAIパターンカタログを示す。 倫理的原理レベルやアルゴリズムレベルに留まらず、私たちは、AIシステムのステークホルダーが実際に行なえるパターンに注目して、開発済みのAIシステムがガバナンスとエンジニアリングライフサイクル全体を通して責任を負うようにします。 責任あるaiパターンカタログは、パターンを3つのグループに分類する。 これらのパターンは、ステークホルダーが責任あるAIを実装するための体系的で実行可能なガイダンスを提供する。

Responsible AI has been widely considered as one of the greatest scientific challenges of our time and the key to unlock the AI market and increase the adoption. To address the responsible AI challenge, a number of AI ethics principles frameworks have been published recently, which AI systems are supposed to conform to. However, without further best practice guidance, practitioners are left with nothing much beyond truisms. Also, significant efforts have been placed at algorithm-level rather than system-level, mainly focusing on a subset of mathematics-amenable ethical principles (such as privacy and fairness). Nevertheless, ethical issues can occur at any step of the development lifecycle crosscutting many AI, non-AI and data components of systems beyond AI algorithms and models. To operationalize responsible AI from a system perspective, in this paper, we adopt a pattern-oriented approach and present a Responsible AI Pattern Catalogue based on the results of a systematic Multivocal Literature Review (MLR). Rather than staying at the ethical principle level or algorithm level, we focus on patterns that AI system stakeholders can undertake in practice to ensure that the developed AI systems are responsible throughout the entire governance and engineering lifecycle. The Responsible AI Pattern Catalogue classifies patterns into three groups: multi-level governance patterns, trustworthy process patterns, and responsible-AI-by-design product patterns. These patterns provide a systematic and actionable guidance for stakeholders to implement responsible AI.
翻訳日:2022-09-13 14:02:44 公開日:2022-09-12
# マルチモーダルストリーミング3Dオブジェクト検出

Multi-modal Streaming 3D Object Detection ( http://arxiv.org/abs/2209.04966v1 )

ライセンス: Link先を確認
Mazen Abdelfattah, Kaiwen Yuan, Z. Jane Wang, and Rabab Ward(参考訳) 現代の自動運転車は知覚のために機械式LiDARに大きく依存している。 現在の知覚法は一般に360{\deg}点雲を必要とし、LiDARが方位をスキャンして連続的なくさび形スライスを取得するために順次収集される。 フルスキャン(約100ms)の取得遅延は、安全操作に有害な時代遅れの知覚につながる可能性がある。 近年,LiDARスライスを直接処理し,先行するスライスの特徴を再利用して,スライスの狭い視野(FOV)を補償するストリーミング認識技術が提案されている。 しかし、これらの作品は全て単一のモダリティに基づいており、古い情報を必要とする。 一方、高周波カメラの画像は、LiDARスライスに比べて大きなFoVを提供するため、ストリーミングモデルをサポートすることができる。 しかし、このFoVの違いはセンサー融合を複雑にする。 そこで本研究では,従来のLiDARスライスの代わりにカメラ画像を用いて,最新の高密度・広視野のストリーミング知覚を実現する,革新的なカメラ-LiDARストリーミング3Dオブジェクト検出フレームワークを提案する。 提案手法は,難解なnuscenesベンチマークで先行するストリーミングモデルを上回る。 また、強力なフルスキャン検出器よりも高速である。 提案手法は, カメラ画像の欠落, 狭いLiDARスライス, 小型カメラとLiDARの誤校正に対する堅牢性を示す。

Modern autonomous vehicles rely heavily on mechanical LiDARs for perception. Current perception methods generally require 360{\deg} point clouds, collected sequentially as the LiDAR scans the azimuth and acquires consecutive wedge-shaped slices. The acquisition latency of a full scan (~ 100ms) may lead to outdated perception which is detrimental to safe operation. Recent streaming perception works proposed directly processing LiDAR slices and compensating for the narrow field of view (FOV) of a slice by reusing features from preceding slices. These works, however, are all based on a single modality and require past information which may be outdated. Meanwhile, images from high-frequency cameras can support streaming models as they provide a larger FoV compared to a LiDAR slice. However, this difference in FoV complicates sensor fusion. To address this research gap, we propose an innovative camera-LiDAR streaming 3D object detection framework that uses camera images instead of past LiDAR slices to provide an up-to-date, dense, and wide context for streaming perception. The proposed method outperforms prior streaming models on the challenging NuScenes benchmark. It also outperforms powerful full-scan detectors while being much faster. Our method is shown to be robust to missing camera images, narrow LiDAR slices, and small camera-LiDAR miscalibration.
翻訳日:2022-09-13 13:57:38 公開日:2022-09-12
# 可逆的アクティベーション変換による高忠実度可変レート画像圧縮

High-Fidelity Variable-Rate Image Compression via Invertible Activation Transformation ( http://arxiv.org/abs/2209.05054v1 )

ライセンス: Link先を確認
Shilv Cai, Zhijun Zhang, Liqun Chen, Luxin Yan, Sheng Zhong, Xu Zou(参考訳) 学習に基づく手法は、画像圧縮のコミュニティを効果的に促進している。 一方、変分オートエンコーダ(VAE)に基づく可変レートアプローチは、最近、様々な圧縮速度で異なるネットワークのセットの使用を避けるために多くの注目を集めている。 達成された顕著な性能にもかかわらず、複数の圧縮/圧縮操作が実行されると、これらのアプローチは容易に破損し、画像の品質が大幅に低下し、強力なアーティファクトが現れることになる。 そこで我々は,高忠実度微細可変レート画像圧縮の問題に取り組み,Invertible Activation Transformation (IAT)モジュールを提案する。 我々は、単一レートの非可逆ニューラルネットワーク(INN)モデルに基づいて、IATを数学的に非可逆的に実装し、その品質レベル(QLevel)をIATに供給し、スケーリングとバイアステンソルを生成する。 iatとqlevelは画像圧縮モデルに、画像の忠実性を維持しつつ、微妙な可変レート制御の能力を与える。 広範な実験により,iatモジュールを搭載した単一レート画像圧縮モデルが,妥協することなく可変レート制御を実現することを実証した。 IAT埋め込みモデルでは,最近の画像圧縮手法と同等の速度歪み特性が得られる。 さらに,本手法は,特に複数再符号化後に,最先端の可変レート画像圧縮手法よりも高い性能を示す。

Learning-based methods have effectively promoted the community of image compression. Meanwhile, variational autoencoder (VAE) based variable-rate approaches have recently gained much attention to avoid the usage of a set of different networks for various compression rates. Despite the remarkable performance that has been achieved, these approaches would be readily corrupted once multiple compression/decompression operations are executed, resulting in the fact that image quality would be tremendously dropped and strong artifacts would appear. Thus, we try to tackle the issue of high-fidelity fine variable-rate image compression and propose the Invertible Activation Transformation (IAT) module. We implement the IAT in a mathematical invertible manner on a single rate Invertible Neural Network (INN) based model and the quality level (QLevel) would be fed into the IAT to generate scaling and bias tensors. IAT and QLevel together give the image compression model the ability of fine variable-rate control while better maintaining the image fidelity. Extensive experiments demonstrate that the single rate image compression model equipped with our IAT module has the ability to achieve variable-rate control without any compromise. And our IAT-embedded model obtains comparable rate-distortion performance with recent learning-based image compression methods. Furthermore, our method outperforms the state-of-the-art variable-rate image compression method by a large margin, especially after multiple re-encodings.
翻訳日:2022-09-13 13:57:14 公開日:2022-09-12
# BON:人間活動認識のための拡張パブリックドメインデータセット

BON: An extended public domain dataset for human activity recognition ( http://arxiv.org/abs/2209.05077v1 )

ライセンス: Link先を確認
Girmaw Abebe Tadesse and Oliver Bent and Komminist Weldemariam and Md. Abrar Istiak and Taufiq Hasan and Andrea Cavallaro(参考訳) fpv(body-worn first-person vision)カメラは、対象者の視点から環境に関する情報の豊富なソースを抽出することができる。 しかし、ウェアラブルカメラを用いたオフィス活動理解の研究の進展は、オフィス環境における人間活動認識のためのより高度な(ディープラーニングなど)モデルをトレーニングするための十分なデータセットが欠如していることから、他の活動環境(キッチンや屋外避難室など)と比較して遅い。 本稿では,バルセロナ (spain), オックスフォード (uk), ナイロビ (kenya) の3か所において, 胸部に搭載されたgopro heroカメラを用いて, さまざまなオフィス設定で収集した大規模かつ一般公開されたoffice activity dataset (bon)の詳細について述べる。 BONデータセットには18の共通オフィスアクティビティが含まれており、人対人インタラクション(例えば、同僚とのチャット)、人対物(例えば、ホワイトボードに書き込む)、先天受容性(例えばウォーキング)に分類できる。 アノテーションは、ビデオの各セグメントに5秒の期間で提供される。 BONには25の被験者と2639のセグメントが含まれる。 サブドメインのさらなる研究を促進するために、将来の研究のベースラインとして使用できる結果も提供しました。

Body-worn first-person vision (FPV) camera enables to extract a rich source of information on the environment from the subject's viewpoint. However, the research progress in wearable camera-based egocentric office activity understanding is slow compared to other activity environments (e.g., kitchen and outdoor ambulatory), mainly due to the lack of adequate datasets to train more sophisticated (e.g., deep learning) models for human activity recognition in office environments. This paper provides details of a large and publicly available office activity dataset (BON) collected in different office settings across three geographical locations: Barcelona (Spain), Oxford (UK) and Nairobi (Kenya), using a chest-mounted GoPro Hero camera. The BON dataset contains eighteen common office activities that can be categorised into person-to-person interactions (e.g., Chat with colleagues), person-to-object (e.g., Writing on a whiteboard), and proprioceptive (e.g., Walking). Annotation is provided for each segment of video with 5-seconds duration. Generally, BON contains 25 subjects and 2639 total segments. In order to facilitate further research in the sub-domain, we have also provided results that could be used as baselines for future studies.
翻訳日:2022-09-13 13:56:52 公開日:2022-09-12
# 空間的登録を伴う男性骨盤骨盤構造の原型的少数ショットセグメンテーション

Prototypical few-shot segmentation for cross-institution male pelvic structures with spatial registration ( http://arxiv.org/abs/2209.05160v1 )

ライセンス: Link先を確認
Yiwen Li, Yunguan Fu, Iani Gayo, Qianye Yang, Zhe Min, Shaheer Saeed, Wen Yan, Yipei Wang, J. Alison Noble, Mark Emberton, Matthew J. Clarkson, Henkjan Huisman, Dean Barratt, Victor Adrian Prisacariu, Yipeng Hu(参考訳) 医用画像解析において、少ないショットラーニングを望ましいものにする技術は、サポート画像データの効率的な利用であり、新しいクラスを分類または分割するためにラベル付けされている。 この研究は、訓練されたネットワークが、訓練中に欠落している臨床的に興味深い構造に効果的に適応できるように、完全に3次元のプロトタイプな少数ショットセグメンテーションアルゴリズムを記述する。 第一に、新しいクラスのエピソディックな適応における制度間の広く認められた空間変動を補うために、新しい空間登録機構を、セグメンテーションヘッドと空間アライメントモジュールからなる原型学習に統合する。 第2に,不完全なアライメントによるトレーニングを支援するため,サポートマスクコンディショニングモジュールを提案し,サポート画像から利用可能なアノテーションをさらに活用する。 7つの施設で取得した589個の骨盤T2強調MR画像のデータセットを用いて、介入計画に重要な8つの解剖学的構造を分割する実験を行った。 その結果,3次元の定式化,空間登録,サポートマスクコンディショニングの各効果が示され,それぞれが独立的あるいは集団的に正の貢献をした。 従来提案されていた2D代替機と比較して,支援データが同一または異なる機関からのものであっても,統計的に有意な差がみられた。

The prowess that makes few-shot learning desirable in medical image analysis is the efficient use of the support image data, which are labelled to classify or segment new classes, a task that otherwise requires substantially more training images and expert annotations. This work describes a fully 3D prototypical few-shot segmentation algorithm, such that the trained networks can be effectively adapted to clinically interesting structures that are absent in training, using only a few labelled images from a different institute. First, to compensate for the widely recognised spatial variability between institutions in episodic adaptation of novel classes, a novel spatial registration mechanism is integrated into prototypical learning, consisting of a segmentation head and an spatial alignment module. Second, to assist the training with observed imperfect alignment, support mask conditioning module is proposed to further utilise the annotation available from the support images. Extensive experiments are presented in an application of segmenting eight anatomical structures important for interventional planning, using a data set of 589 pelvic T2-weighted MR images, acquired at seven institutes. The results demonstrate the efficacy in each of the 3D formulation, the spatial registration, and the support mask conditioning, all of which made positive contributions independently or collectively. Compared with the previously proposed 2D alternatives, the few-shot segmentation performance was improved with statistical significance, regardless whether the support data come from the same or different institutes.
翻訳日:2022-09-13 13:56:21 公開日:2022-09-12
# 負面カメラの姿勢誘導ループクロージャ

Attitude-Guided Loop Closure for Cameras with Negative Plane ( http://arxiv.org/abs/2209.05167v1 )

ライセンス: Link先を確認
Ze Wang, Kailun Yang, Peng Li, Fei Gao, Kaiwei Wang(参考訳) ループクロージャは、同時局在マッピング(SLAM)システムの重要なコンポーネントである。 大規模視野カメラ(FoV)は、パノラマ画像上のより周囲の機能を活用できるため、SLAMフィールドで広く注目を集めている。 パノラマレンズの負面に位置する情報的手がかりを組み込む大FoV VIOにおいて、画像特徴を単位長の3次元ベクトルで表現する。 パノラマFoVはループ閉鎖に有利であるように見えるが、ループ閉鎖フレームが既存の方法とほとんど一致しない大角度角度差では、その利点は容易に実現できない。 本研究では,超広帯域FoVの可能性を完全に解き放つために,VIOシステムの姿勢情報を活用し,ループ閉包の特徴点検出を導くことを提案する。 広範囲パノラマデータのループクロージャは、さらに多くの外れ値を伴うため、従来の外れ値拒否法は直接適用されない。 この問題に対処するために, LF-VIO の精度を向上させるために, 単位長表現に基づく新しい外乱除去手法を用いたループクロージャフレームワークを提案する。 パブリックなPALVIOデータセットでは、包括的な実験が実施され、提案したLF-VIO-Loopは最先端のビジュアル慣性オードメトリー法より優れている。 私たちのコードはhttps://github.com/flysoaryun/LF-VIO-Loop.comでオープンソース化されます。

Loop closure is an important component of Simultaneous Localization and Mapping (SLAM) systems. Large Field-of-View (FoV) cameras have received extensive attention in the SLAM field as they can exploit more surrounding features on the panoramic image. In large-FoV VIO, for incorporating the informative cues located on the negative plane of the panoramic lens, image features are represented by a three-dimensional vector with a unit length. While the panoramic FoV is seemingly advantageous for loop closure, the benefits cannot easily be materialized under large-attitude-angle differences, where loop-closure frames can hardly be matched by existing methods. In this work, to fully unleash the potential of ultra-wide FoV, we propose to leverage the attitude information of a VIO system to guide the feature point detection of the loop closure. As loop closure on wide-FoV panoramic data further comes with a large number of outliers, traditional outlier rejection methods are not directly applicable. To tackle this issue, we propose a loop closure framework with a new outlier rejection method based on the unit length representation, to improve the accuracy of LF-VIO. On the public PALVIO dataset, a comprehensive set of experiments is carried out and the proposed LF-VIO-Loop outperforms state-of-the-art visual-inertial-odometry methods. Our code will be open-sourced at https://github.com/flysoaryun/LF-VIO-Loop.
翻訳日:2022-09-13 13:55:55 公開日:2022-09-12
# 画像のインパルスノイズ除去のための低ランク先行法とl0法則

Low rank prior and l0 norm to remove impulse noise in images ( http://arxiv.org/abs/2209.05234v1 )

ライセンス: Link先を確認
Haijuan Hu(参考訳) パッチベースの低ランクは画像処理の重要な前提である。 さらに,この計算により,l0ノルムの最適化は,ランダム値のインパルス雑音下での最大推定値に対応する。 本稿では,ノイズ除去のための厳密なランクとl0ノルムを組み合わせた。 初期画像を生成するパッチベース重み付きフィルタ (PWMF) を用いて, 乗算器の交互方向法 (ADMM) を正式に用いた。 このモデルは凸ではないため、プラグ・アンド・プレイADMMとみなし、理論的収束性について論じない。 実験により、この手法は特に弱いコントラスト画像や中型のコントラスト画像に対して非常に優れた性能を示す。

Patch-based low rank is an important prior assumption for image processing. Moreover, according to our calculation, the optimization of l0 norm corresponds to the maximum likelihood estimation under random-valued impulse noise. In this article, we thus combine exact rank and l0 norm for removing the noise. It is solved formally using the alternating direction method of multipliers (ADMM), with our previous patch-based weighted filter (PWMF) producing initial images. Since this model is not convex, we consider it as a Plug-and-Play ADMM, and do not discuss theoretical convergence properties. Experiments show that this method has very good performance, especially for weak or medium contrast images.
翻訳日:2022-09-13 13:55:29 公開日:2022-09-12
# マルチバックドア検出のための適応摂動生成

Adaptive Perturbation Generation for Multiple Backdoors Detection ( http://arxiv.org/abs/2209.05244v1 )

ライセンス: Link先を確認
Yuhang Wang, Huafeng Shi, Rui Min, Ruijia Wu, Siyuan Liang, Yichao Wu, Ding Liang and Aishan Liu(参考訳) ディープニューラルネットワーク(dnn)はバックドア攻撃に対して脆弱であり、バックドア検出法の開発を動機付ける広範な証拠がある。 既存のバックドア検出方法は通常、個々の特定のタイプ(例えばパッチベースまたは摂動ベース)によるバックドア攻撃に適合する。 しかし、敵は実際には複数の種類のバックドア攻撃を発生させ、現在の検出戦略に挑戦する可能性がある。 本稿では,逆行性摂動がトリガーパターンと高い相関関係にあることを踏まえて,逆行性摂動を適応的に注入して複数種類のバックドア攻撃を検出する適応摂動生成(apg)フレームワークを提案する。 異なるトリガーパターンは、同じ対向的摂動の下で非常に多様な振る舞いを示すことが判明したので、まず、地域や攻撃予算を調整することで、複数の種類のバックドアトリガーに適合するグローバル・ローカル戦略を設計する。 摂動注入の効率をさらに高めるために,逆襲の最適領域を探索するための勾配誘導マスク生成戦略を提案する。 複数のデータセット(CIFAR-10, GTSRB, Tiny-ImageNet)で実施した大規模な実験により,本手法は最先端のベースライン(+12%)よりも優れていた。

Extensive evidence has demonstrated that deep neural networks (DNNs) are vulnerable to backdoor attacks, which motivates the development of backdoor detection methods. Existing backdoor detection methods are typically tailored for backdoor attacks with individual specific types (e.g., patch-based or perturbation-based). However, adversaries are likely to generate multiple types of backdoor attacks in practice, which challenges the current detection strategies. Based on the fact that adversarial perturbations are highly correlated with trigger patterns, this paper proposes the Adaptive Perturbation Generation (APG) framework to detect multiple types of backdoor attacks by adaptively injecting adversarial perturbations. Since different trigger patterns turn out to show highly diverse behaviors under the same adversarial perturbations, we first design the global-to-local strategy to fit the multiple types of backdoor triggers via adjusting the region and budget of attacks. To further increase the efficiency of perturbation injection, we introduce a gradient-guided mask generation strategy to search for the optimal regions for adversarial attacks. Extensive experiments conducted on multiple datasets (CIFAR-10, GTSRB, Tiny-ImageNet) demonstrate that our method outperforms state-of-the-art baselines by large margins(+12%).
翻訳日:2022-09-13 13:55:18 公開日:2022-09-12
# TrackletMapper: 交通参加軌道からの地表面のセグメンテーションとマッピング

TrackletMapper: Ground Surface Segmentation and Mapping from Traffic Participant Trajectories ( http://arxiv.org/abs/2209.05247v1 )

ライセンス: Link先を確認
Jannik Z\"urn, Sebastian Weber, Wolfram Burgard(参考訳) 道路や横断歩道などの地上インフラのロバストな分類は、歩行者と一緒に動く移動ロボットにとって必須の課題である。 多くのセマンティックセグメンテーションデータセットが自動運転車で利用可能であるが、そのようなデータセットで訓練されたモデルは、歩行者空間で動くロボットにデプロイされるときに大きなドメインギャップを示す。 歩行者の観点から記録された手動の注釈画像は高価で時間を要する。 この課題を克服するために, 歩道, 道路, 踏切などの地表面タイプを, 人手による注釈データを必要としないアノテートするフレームワークであるtrackletmapperを提案する。 そこで本研究では,ロボットのエゴトラジェクタリーと他のトラヒック参加者の経路をエゴビューカメラ画像に投影し,地上セグメンテーションモデルを訓練可能な複数種類の地上面に対してスパースな意味的アノテーションを作成する。 さらに, 地表面地図を集約し, カメラ画像に投影することで, さらなる性能向上のために自己蒸留を行い, スパーストラックレットアノテーションと比較してより密集した訓練アノテーションを作成できることを示した。 歩行者エリアで動作する移動ロボットのための大規模データセットについて,定性的かつ定量的に検証した。 コードとデータセットはhttp://trackletmapper.cs.uni-freiburg.deで公開される。

Robustly classifying ground infrastructure such as roads and street crossings is an essential task for mobile robots operating alongside pedestrians. While many semantic segmentation datasets are available for autonomous vehicles, models trained on such datasets exhibit a large domain gap when deployed on robots operating in pedestrian spaces. Manually annotating images recorded from pedestrian viewpoints is both expensive and time-consuming. To overcome this challenge, we propose TrackletMapper, a framework for annotating ground surface types such as sidewalks, roads, and street crossings from object tracklets without requiring human-annotated data. To this end, we project the robot ego-trajectory and the paths of other traffic participants into the ego-view camera images, creating sparse semantic annotations for multiple types of ground surfaces from which a ground segmentation model can be trained. We further show that the model can be self-distilled for additional performance benefits by aggregating a ground surface map and projecting it into the camera images, creating a denser set of training annotations compared to the sparse tracklet annotations. We qualitatively and quantitatively attest our findings on a novel large-scale dataset for mobile robots operating in pedestrian areas. Code and dataset will be made available at http://trackletmapper.cs.uni-freiburg.de.
翻訳日:2022-09-13 13:54:52 公開日:2022-09-12
# StructNeRF: 構造ヒントを有する屋内シーンのためのニューラルラジアンス場

StructNeRF: Neural Radiance Fields for Indoor Scenes with Structural Hints ( http://arxiv.org/abs/2209.05277v1 )

ライセンス: Link先を確認
Zheng Chen, Chen Wang, Yuan-Chen Guo, Song-Hai Zhang(参考訳) ニューラルレージアンス場(NeRF)は、高密度に撮像された入力画像を用いて光リアルなビュー合成を実現する。 しかし,NeRFの形状はスパースビューによって非常に制約が低く,新規なビュー合成品質が著しく低下する。 自己教師付き深度推定法に着想を得たSructNeRFを提案する。 StructNeRFは、自然にマルチビュー入力に埋め込まれた構造的ヒントを利用して、NeRFの制約のない幾何学的問題に対処する。 具体的には、テクスチャ領域と非テクスチャ領域にそれぞれ取り組む: テクスチャ領域の幾何学を制約するために、パッチベースのマルチビュー整合光度損失を提案する; 非テクスチャ領域では、それらを3次元一貫した平面として明示的に制限する。 本手法は,高密度自己監督深度制約により,外部データに付加的な訓練を加えることなく,NeRFの幾何およびビュー合成性能を向上する。 いくつかの実世界のデータセットに関する広範囲な実験により、structnerfは、量的にも質的にもまばらな入力を持つ屋内シーンの最先端の手法を上回っていることが示されている。

Neural Radiance Fields (NeRF) achieve photo-realistic view synthesis with densely captured input images. However, the geometry of NeRF is extremely under-constrained given sparse views, resulting in significant degradation of novel view synthesis quality. Inspired by self-supervised depth estimation methods, we propose StructNeRF, a solution to novel view synthesis for indoor scenes with sparse inputs. StructNeRF leverages the structural hints naturally embedded in multi-view inputs to handle the unconstrained geometry issue in NeRF. Specifically, it tackles the texture and non-texture regions respectively: a patch-based multi-view consistent photometric loss is proposed to constrain the geometry of textured regions; for non-textured ones, we explicitly restrict them to be 3D consistent planes. Through the dense self-supervised depth constraints, our method improves both the geometry and the view synthesis performance of NeRF without any additional training on external data. Extensive experiments on several real-world datasets demonstrate that StructNeRF surpasses state-of-the-art methods for indoor scenes with sparse inputs both quantitatively and qualitatively.
翻訳日:2022-09-13 13:54:29 公開日:2022-09-12
# ビデオによる深層学習による太陽フレア予測

Operational solar flare forecasting via video-based deep learning ( http://arxiv.org/abs/2209.05128v1 )

ライセンス: Link先を確認
Sabrina Guastavino, Francesco Marchetti, Federico Benvenuto, Cristina Campi, Michele Piana(参考訳) 運用フレア予報(operational flare forecasting)は、フレアの発生による宇宙の天候への影響に関する意思決定に使用できる予測を提供することを目標としている。 本研究は、太陽周期の周期性を考慮したネットワーク最適化のためのトレーニングと検証セットが生成される場合に、映像ベースのディープラーニングを運用目的に使用できることを示す。 具体的には、特定のサイクルフェーズに関連するフレアクラス率に応じてバランスの取れたアクティブな領域の集合を構築するために適用可能なアルゴリズムについて述べる。 これらのセットは、畳み込みニューラルネットワークとLong-Short Memory Networkを組み合わせた長期反復畳み込みネットワークをトレーニングし、検証するために使用される。 このアプローチの信頼性は、それぞれ2015年3月と2017年9月の太陽嵐を含む2つの予測ウィンドウで評価される。

Operational flare forecasting aims at providing predictions that can be used to make decisions, typically at a daily scale, about the space weather impacts of flare occurrence. This study shows that video-based deep learning can be used for operational purposes when the training and validation sets used for the network optimization are generated while accounting for the periodicity of the solar cycle. Specifically, the paper describes an algorithm that can be applied to build up sets of active regions that are balanced according to the flare class rates associated to a specific cycle phase. These sets are used to train and validate a Long-term Recurrent Convolutional Network made of a combination of a convolutional neural network and a Long-Short Memory network. The reliability of this approach is assessed in the case of two prediction windows containing the solar storm of March 2015 and September 2017, respectively.
翻訳日:2022-09-13 13:51:47 公開日:2022-09-12
# Visual-SLAM:幾何学的モデリングから学習に基づくセマンティックシーン理解への展開

A Review on Visual-SLAM: Advancements from Geometric Modelling to Learning-based Semantic Scene Understanding ( http://arxiv.org/abs/2209.05222v1 )

ライセンス: Link先を確認
Tin Lai(参考訳) SLAMは、ロボットが地図に関して自身を同時に位置づけしながら、これまで見えない環境を再構築する必要がある自律移動ロボットの基本的な問題の一つである。 特にvisual-slamは、移動ロボットの様々なセンサーを使用して地図の表現を収集し、センシングする。 従来、幾何学的モデルに基づく手法はSLAM問題に対処するために用いられてきた。 ディープラーニング技術などのコンピュータビジョンの最近の進歩は、Visual-SLAM問題に取り組むためのデータ駆動型アプローチを提供してきた。 このレビューは、様々な学習手法を用いて、Visual-SLAMドメインの最近の進歩を要約する。 まず、幾何モデルに基づくアプローチの簡潔な概要と、SLAMの現在のパラダイムに関する技術的レビューから始めます。 次に,移動ロボットから知覚入力を収集し,シーン理解を行うための学習に基づくアプローチを提案する。 ディープラーニングに基づく意味理解の現在のパラダイムを議論し、ビジュアルスラムの文脈下に置く。 最後に、Visual-SLAMにおける学習ベースのアプローチの方向性に関する課題とさらなる機会について論じる。

Simultaneous Localisation and Mapping (SLAM) is one of the fundamental problems in autonomous mobile robots where a robot needs to reconstruct a previously unseen environment while simultaneously localising itself with respect to the map. In particular, Visual-SLAM uses various sensors from the mobile robot for collecting and sensing a representation of the map. Traditionally, geometric model-based techniques were used to tackle the SLAM problem, which tends to be error-prone under challenging environments. Recent advancements in computer vision, such as deep learning techniques, have provided a data-driven approach to tackle the Visual-SLAM problem. This review summarises recent advancements in the Visual-SLAM domain using various learning-based methods. We begin by providing a concise overview of the geometric model-based approaches, followed by technical reviews on the current paradigms in SLAM. Then, we present the various learning-based approaches to collecting sensory inputs from mobile robots and performing scene understanding. The current paradigms in deep-learning-based semantic understanding are discussed and placed under the context of Visual-SLAM. Finally, we discuss challenges and further opportunities in the direction of learning-based approaches in Visual-SLAM.
翻訳日:2022-09-13 13:51:34 公開日:2022-09-12
# スマートパームツリー検出のための人工知能技術の活用:10年にわたるシステムレビュー

Leveraging Artificial Intelligence Techniques for Smart Palm Tree Detection: A Decade Systematic Review ( http://arxiv.org/abs/2209.05282v1 )

ライセンス: Link先を確認
Yosra Hajjaji, Wadii Boulila, Imed Riadh Farah(参考訳) 過去数年間、農業分野への総金融投資は大幅に増加している。 ヤシの木は多くの国の経済、特に北アフリカや中東において重要である。 ヤシの木の検出と計数に関するモニタリングは、様々なステークホルダーにとって有用な情報を提供する。作物の品質向上と害虫、病気、灌水、その他の潜在的な脅威の防止のために、収量推定と検査に役立つ。 その重要性にもかかわらず、この情報は依然として入手が困難である。 本研究は,2011年から2021年にかけてのスマートヤシ検出のためのAI技術に関する研究論文を体系的にレビューした。 4段階選択プロセスに基づくPRISMA手法を用いて系統的レビュー(SR)を行った。 2つの主な研究課題に答えるために,検索戦略から到達した合成活動について,包括的基準とともに22項目を収録した。 この研究の結果、過去10年間のヤシの木検出における人工知能の適用パターン、関係、ネットワーク、トレンドが明らかになった。 ほとんどの研究で良い結果が出たにもかかわらず、大規模なヤシプランテーションの効率的かつ効率的な管理は依然として課題である。 また、特に北アフリカにおいて、知的手のひらサービスに強い経済関係を持つ国は、この種の研究にもっと注意を払うべきである。 この研究の結果は、研究コミュニティと利害関係者の両方に利益をもたらす可能性がある。

Over the past few years, total financial investment in the agricultural sector has increased substantially. Palm tree is important for many countries' economies, particularly in northern Africa and the Middle East. Monitoring in terms of detection and counting palm trees provides useful information for various stakeholders; it helps in yield estimation and examination to ensure better crop quality and prevent pests, diseases, better irrigation, and other potential threats. Despite their importance, this information is still challenging to obtain. This study systematically reviews research articles between 2011 and 2021 on artificial intelligence (AI) technology for smart palm tree detection. A systematic review (SR) was performed using the PRISMA approach based on a four-stage selection process. Twenty-two articles were included for the synthesis activity reached from the search strategy alongside the inclusion criteria in order to answer to two main research questions. The study's findings reveal patterns, relationships, networks, and trends in applying artificial intelligence in palm tree detection over the last decade. Despite the good results in most of the studies, the effective and efficient management of large-scale palm plantations is still a challenge. In addition, countries whose economies strongly related to intelligent palm services, especially in North Africa, should give more attention to this kind of study. The results of this research could benefit both the research community and stakeholders.
翻訳日:2022-09-13 13:51:16 公開日:2022-09-12
# ワッサーシュタイン分布学習

Wasserstein Distributional Learning ( http://arxiv.org/abs/2209.04991v1 )

ライセンス: Link先を確認
Chengliang Tang, Nathan Lenssen, Ying Wei, Tian Zheng(参考訳) 学習条件密度と分布全体に影響を及ぼす要因は、データ駆動型アプリケーションにおいて不可欠である。 従来のアプローチは主に要約統計を扱うため、包括的な調査には不十分である。 近年,密度曲線を関数的結果としてモデル化する関数回帰法が開発されている。 そのようなモデルを開発する上での大きな課題は、密度結果の関数空間に対する非ネガティビティの固有の制約と単位積分である。 この根本的な問題を解決するために、ワッサースタイン距離$W_2$から始まるフレキシブルな密度オンスカラー回帰モデリングフレームワークであるワッサースタイン分布学習(WDL)を提案する。 次に、半パラメトリック条件ガウス混合モデル(SCGMM)の不均一で柔軟なクラスをモデルクラス $\mathfrak{F} \otimes \mathcal{T}$ として導入する。 結果として得られる距離空間 $(\mathfrak{f} \otimes \mathcal{t}, w_2)$ は必要制約を満たし、高密度で閉な部分空間を提供する。 提案モデルに適合させるために,増木を用いた偏極最適化に基づく効率的なアルゴリズムを更に開発する。 従来の文献と比較すると、WDLは条件密度の非線形依存性とそれらの導出した要約統計をよりよく特徴づけ、明らかにしている。 シミュレーションと実世界の応用を通してWDLフレームワークの有効性を示す。

Learning conditional densities and identifying factors that influence the entire distribution are vital tasks in data-driven applications. Conventional approaches work mostly with summary statistics, and are hence inadequate for a comprehensive investigation. Recently, there have been developments on functional regression methods to model density curves as functional outcomes. A major challenge for developing such models lies in the inherent constraint of non-negativity and unit integral for the functional space of density outcomes. To overcome this fundamental issue, we propose Wasserstein Distributional Learning (WDL), a flexible density-on-scalar regression modeling framework that starts with the Wasserstein distance $W_2$ as a proper metric for the space of density outcomes. We then introduce a heterogeneous and flexible class of Semi-parametric Conditional Gaussian Mixture Models (SCGMM) as the model class $\mathfrak{F} \otimes \mathcal{T}$. The resulting metric space $(\mathfrak{F} \otimes \mathcal{T}, W_2)$ satisfies the required constraints and offers a dense and closed functional subspace. For fitting the proposed model, we further develop an efficient algorithm based on Majorization-Minimization optimization with boosted trees. Compared with methods in the previous literature, WDL better characterizes and uncovers the nonlinear dependence of the conditional densities, and their derived summary statistics. We demonstrate the effectiveness of the WDL framework through simulations and real-world applications.
翻訳日:2022-09-13 13:50:57 公開日:2022-09-12
# 近似勾配および/またはノイズ測定によるバッチ確率勾配降下法の収束:理論と計算結果

Convergence of Batch Stochastic Gradient Descent Methods with Approximate Gradients and/or Noisy Measurements: Theory and Computational Results ( http://arxiv.org/abs/2209.05372v1 )

ライセンス: Link先を確認
Rajeeva L. Karandikar, Tadipatri Uday Kiran Reddy and M. Vidyasagar(参考訳) 本稿では,BSGD(Block Stochastic Gradient Descent)と呼ばれる一般式を用いた凸最適化について検討する。 各イテレーションでは、引数のすべてのコンポーネントが更新されるが、必要ではない部分もある。 アップデートの方向性は2つの可能性の1つだ。 (i)真の勾配のノイズによる測定、又は (i) 1次近似を用いて計算された近似勾配は、ノイズによって自分自身が破損する可能性のある関数値を用いて計算される。 この定式化は、現在使われている確率勾配法の大部分を取り入れている。 我々は,確率近似理論に基づいて,BSGDが世界最小値に収束する条件を確立する。 次に,予測収束を数値実験により検証する。 その結果、近似勾配を用いるとbsgdは収束し、運動量に基づく手法は分岐する。 しかしながら、我々のBSGDだけでなく、標準(完全更新)勾配降下や様々な運動量に基づく手法も、ノイズのある勾配でも収束する。

In this paper, we study convex optimization using a very general formulation called BSGD (Block Stochastic Gradient Descent). At each iteration, some but not necessary all components of the argument are updated. The direction of the update can be one of two possibilities: (i) A noise-corrupted measurement of the true gradient, or (ii) an approximate gradient computed using a first-order approximation, using function values that might themselves be corrupted by noise. This formulation embraces most of the currently used stochastic gradient methods. We establish conditions for BSGD to converge to the global minimum, based on stochastic approximation theory. Then we verify the predicted convergence through numerical experiments. Out results show that when approximate gradients are used, BSGD converges while momentum-based methods can diverge. However, not just our BSGD, but also standard (full-update) gradient descent, and various momentum-based methods, all converge, even with noisy gradients.
翻訳日:2022-09-13 13:50:35 公開日:2022-09-12
# VarArrayとt-SOT: 遠隔会話音声認識の最先端化

VarArray Meets t-SOT: Advancing the State of the Art of Streaming Distant Conversational Speech Recognition ( http://arxiv.org/abs/2209.04974v1 )

ライセンス: Link先を確認
Naoyuki Kanda, Jian Wu, Xiaofei Wang, Zhuo Chen, Jinyu Li, Takuya Yoshioka(参考訳) 本稿では,遠隔マイクロホンアレーで任意の形状のマルチトーカ重畳音声に対して,ストリーミング型自動音声認識(asr)フレームワークを提案する。 このフレームワークはt-sot-vaと名付けられ、アレイジオメトリに依存しない連続音声分離(vararray)と、トークンレベルシリアライズ出力トレーニング(t-sot)に基づくマルチトーカasrの2つを独自に開発した。 両技術を最大限に組み合わせるために,VarArray から分離した2つの音声信号に基づいて,連続化されたマルチストーカーの書き起こしを生成する t-SOT ベースの ASR モデルを新たに設計した。 また,単声単発asr学習データに基づいてvararrayの出力信号をシミュレートするasrモデルのための事前学習方式を提案する。 amiミーティングコーパスを用いた会話音声認識実験では,提案手法に基づくシステムが従来のコーパスよりも有意に優れていた。 本システムでは, ストリーミング推論能力を維持しつつ, マルチディスタント・マイクロホン設定において, AMI開発および評価セットに対して, 13.7%, 15.5%の単語誤り率を実現する。

This paper presents a novel streaming automatic speech recognition (ASR) framework for multi-talker overlapping speech captured by a distant microphone array with an arbitrary geometry. Our framework, named t-SOT-VA, capitalizes on independently developed two recent technologies; array-geometry-agnostic continuous speech separation, or VarArray, and streaming multi-talker ASR based on token-level serialized output training (t-SOT). To combine the best of both technologies, we newly design a t-SOT-based ASR model that generates a serialized multi-talker transcription based on two separated speech signals from VarArray. We also propose a pre-training scheme for such an ASR model where we simulate VarArray's output signals based on monaural single-talker ASR training data. Conversation transcription experiments using the AMI meeting corpus show that the system based on the proposed framework significantly outperforms conventional ones. Our system achieves the state-of-the-art word error rates of 13.7% and 15.5% for the AMI development and evaluation sets, respectively, in the multiple-distant-microphone setting while retaining the streaming inference capability.
翻訳日:2022-09-13 13:50:16 公開日:2022-09-12
# コミュニケーション効率とプライバシ保全機能に基づくフェデレーショントランスファー学習

Communication-Efficient and Privacy-Preserving Feature-based Federated Transfer Learning ( http://arxiv.org/abs/2209.05395v1 )

ライセンス: Link先を確認
Feng Wang, M. Cenk Gursoy and Senem Velipasalar(参考訳) フェデレーション学習は、クライアントのプライバシを保ちながら、関心を集めている。 フェデレーション学習の変種として、フェデレーション伝達学習は類似したタスクからの知識を活用し、集中的に研究されている。 しかし、無線帯域が限られているため、無線リンクによるフェデレート学習の通信効率は、数千テラバイトのアップリンクペイロードを必要とするタスクがあるため、重要である。 本稿では,コミュニケーション効率を向上させるために,既存の手法と比較して,アップリンクペイロードを5桁以上削減するための革新的な手法として,機能ベースフェデレート転送学習を提案する。 まず,パラメータ更新に代えて抽出した特徴と出力をアップロードするシステム設計を行い,このアプローチで必要なペイロードを決定し,既存のアプローチとの比較を行う。 その後,クライアントのプライバシを保護するランダムシャッフルスキームを分析した。 最後に,提案手法の有効性を示すために,画像分類タスクの実験を通して,提案手法の性能を評価する。

Federated learning has attracted growing interest as it preserves the clients' privacy. As a variant of federated learning, federated transfer learning utilizes the knowledge from similar tasks and thus has also been intensively studied. However, due to the limited radio spectrum, the communication efficiency of federated learning via wireless links is critical since some tasks may require thousands of Terabytes of uplink payload. In order to improve the communication efficiency, we in this paper propose the feature-based federated transfer learning as an innovative approach to reduce the uplink payload by more than five orders of magnitude compared to that of existing approaches. We first introduce the system design in which the extracted features and outputs are uploaded instead of parameter updates, and then determine the required payload with this approach and provide comparisons with the existing approaches. Subsequently, we analyze the random shuffling scheme that preserves the clients' privacy. Finally, we evaluate the performance of the proposed learning scheme via experiments on an image classification task to show its effectiveness.
翻訳日:2022-09-13 13:45:28 公開日:2022-09-12
# リアルタイム交通予測における残差補正

Residual Correction in Real-Time Traffic Forecasting ( http://arxiv.org/abs/2209.05406v1 )

ライセンス: Link先を確認
Daejin Kim, Youngin Cho, Dongmin Kim, Cheonbok Park, Jaegul Choo(参考訳) 全ての道路が空間的にも時間的にも互いに大きく依存しているため、交通状況の予測は非常に難しい。 近年,この空間的・時間的依存を捉えるために,グラフ畳み込みネットワークや時間畳み込みネットワークなどの特別設計アーキテクチャが導入されている。 交通予測の進歩は目覚ましいが、ディープラーニングベースの交通予測モデルは、主にイベント状況(高速な速度低下など)において、特定のパターンではまだ失敗している。 これらの故障は予測不能な騒音によるものであると一般的に受け入れられているが、過去の故障を考慮して修正できることが判明した。 具体的には、これらの故障における自己相関エラーを観察し、予測可能な情報が残っていることを示す。 本研究では,トラヒック予測のための残差推定モジュールであるrescalを,既存のトラヒック予測モデルに広く適用可能なアドオンモジュールとして導入する。 過去の誤差とグラフ信号を用いて将来の誤差を推定することにより,既存モデルの予測をリアルタイムにコーディネートする。 metr-la と pems-bay の広範な実験により,我々は誤りの相関を正確に把握し,イベント状況における各種交通予測モデルの故障を補正できることを示した。

Predicting traffic conditions is tremendously challenging since every road is highly dependent on each other, both spatially and temporally. Recently, to capture this spatial and temporal dependency, specially designed architectures such as graph convolutional networks and temporal convolutional networks have been introduced. While there has been remarkable progress in traffic forecasting, we found that deep-learning-based traffic forecasting models still fail in certain patterns, mainly in event situations (e.g., rapid speed drops). Although it is commonly accepted that these failures are due to unpredictable noise, we found that these failures can be corrected by considering previous failures. Specifically, we observe autocorrelated errors in these failures, which indicates that some predictable information remains. In this study, to capture the correlation of errors, we introduce ResCAL, a residual estimation module for traffic forecasting, as a widely applicable add-on module to existing traffic forecasting models. Our ResCAL calibrates the prediction of the existing models in real time by estimating future errors using previous errors and graph signals. Extensive experiments on METR-LA and PEMS-BAY demonstrate that our ResCAL can correctly capture the correlation of errors and correct the failures of various traffic forecasting models in event situations.
翻訳日:2022-09-13 13:45:12 公開日:2022-09-12
# ディープラーニングのためのFP8フォーマット

FP8 Formats for Deep Learning ( http://arxiv.org/abs/2209.05433v1 )

ライセンス: Link先を確認
Paulius Micikevicius, Dusan Stosic, Neil Burgess, Marius Cornea, Pradeep Dubey, Richard Grisenthwaite, Sangwon Ha, Alexander Heinecke, Patrick Judd, John Kamalu, Naveen Mellempudi, Stuart Oberman, Mohammad Shoeybi, Michael Siu, Hao Wu(参考訳) FP8は、現代のプロセッサで一般的な16ビットフォーマットを超えて、ディープラーニングトレーニング推論を加速するための自然な進歩である。 本稿では,e4m3 (4-bit exponentと3-bit mantissa)とe5m2 (5-bit exponentと2-bit mantissa)の2つのエンコーディングからなる8-bit floating point (fp8) binary interchange formatを提案する。 e5m2 は ieee 754 の特殊値表現規約に従うが、e4m3 のダイナミックレンジは無限大を表現せず、nans のマンティッサビットパターンのみを持つことで拡張される。 16ビットのトレーニングセッションで達成した結果の品質を効果的にマッチングし,FP8フォーマットが様々な画像や言語タスクに対して有効であることを示す。 我々の研究は、CNN、RNN、Transformerベースのモデルといった、現代の主要なニューラルネットワークアーキテクチャをカバーしています。 トレーニング実験には、最大175bのパラメータ、言語モデルが含まれています。 また,不動点 int8 量子化に抵抗する 16 ビット形式を用いて学習した言語モデルの fp8 後量子化についても検討した。

FP8 is a natural progression for accelerating deep learning training inference beyond the 16-bit formats common in modern processors. In this paper we propose an 8-bit floating point (FP8) binary interchange format consisting of two encodings - E4M3 (4-bit exponent and 3-bit mantissa) and E5M2 (5-bit exponent and 2-bit mantissa). While E5M2 follows IEEE 754 conventions for representatio of special values, E4M3's dynamic range is extended by not representing infinities and having only one mantissa bit-pattern for NaNs. We demonstrate the efficacy of the FP8 format on a variety of image and language tasks, effectively matching the result quality achieved by 16-bit training sessions. Our study covers the main modern neural network architectures - CNNs, RNNs, and Transformer-based models, leaving all the hyperparameters unchanged from the 16-bit baseline training sessions. Our training experiments include large, up to 175B parameter, language models. We also examine FP8 post-training-quantization of language models trained using 16-bit formats that resisted fixed point int8 quantization.
翻訳日:2022-09-13 13:44:50 公開日:2022-09-12
# 意味的特徴近傍のロバスト性検証の促進

Boosting Robustness Verification of Semantic Feature Neighborhoods ( http://arxiv.org/abs/2209.05446v1 )

ライセンス: Link先を確認
Anan Kabaha and Dana Drachsler-Cohen(参考訳) 深いニューラルネットワークは、セマンティックな特徴に基づいて入力を摂動する敵攻撃に弱いことが示されている。 既存の堅牢性分析器は、ネットワークの信頼性を高めるためにセマンティックな特徴地区を推論することができる。 しかし、これらの技術は大きな進歩を遂げたものの、深層ネットワークや大規模地区への拡大に苦戦している。 本稿では,検証プロセスを一連の小さな検証ステップに分割する,アクティブな学習手法であるVeePを紹介し,それぞれが既存のロバストネス解析器に送信される。 鍵となるアイデアは、次の最適なステップを予測するために、事前ステップを構築することです。 最適ステップは、パラメトリック回帰による認証速度と感度を推定することで予測される。 mnist, fashion-mnist, cifar-10, imagenet の veep を評価し,輝度,コントラスト,色相,彩度,明度といった様々な特徴の近傍を解析できることを示した。 平均して90分間のタイムアウトが与えられ、veepは最大認証可能な近所の96%を29分以内に検証し、既存の分割アプローチは平均して58分以内に最大認定可能な近所の73%を検証した。

Deep neural networks have been shown to be vulnerable to adversarial attacks that perturb inputs based on semantic features. Existing robustness analyzers can reason about semantic feature neighborhoods to increase the networks' reliability. However, despite the significant progress in these techniques, they still struggle to scale to deep networks and large neighborhoods. In this work, we introduce VeeP, an active learning approach that splits the verification process into a series of smaller verification steps, each is submitted to an existing robustness analyzer. The key idea is to build on prior steps to predict the next optimal step. The optimal step is predicted by estimating the certification velocity and sensitivity via parametric regression. We evaluate VeeP on MNIST, Fashion-MNIST, CIFAR-10 and ImageNet and show that it can analyze neighborhoods of various features: brightness, contrast, hue, saturation, and lightness. We show that, on average, given a 90 minute timeout, VeeP verifies 96% of the maximally certifiable neighborhoods within 29 minutes, while existing splitting approaches verify, on average, 73% of the maximally certifiable neighborhoods within 58 minutes.
翻訳日:2022-09-13 13:44:27 公開日:2022-09-12
# ロボット制御のためのDRL中の部分観測可能性

Partial Observability during DRL for Robot Control ( http://arxiv.org/abs/2209.04999v1 )

ライセンス: Link先を確認
Lingheng Meng, Rob Gorbet, Dana Kuli\'c(参考訳) 近年、Dep Reinforcement Learning(DRL)は、シミュレーションと現実世界の両方のロボット制御タスクにおいて大きな進歩を遂げている。 しかし、新しいロボット制御タスクにDRLを適用することは、特に研究者がアクションと観察空間と報酬関数を設計しなければならない場合、依然として難しい。 本稿では,ロボット制御タスクにDRLを適用する際の潜在的な障害源としての部分観測可能性について検討する。 種々の部分観測条件下での3つの共通DRLアルゴリズム(TD3, SAC, PPO)の性能を比較した。 TD3 と SAC は局所的最適および低性能な PPO において容易に立ち往生する。 本稿では,ワンステップブートストラップに基づく部分可観測性に対するロバスト性を改善するため,バニラtd3とsacの多段バージョンを提案する。

Deep Reinforcement Learning (DRL) has made tremendous advances in both simulated and real-world robot control tasks in recent years. Nevertheless, applying DRL to novel robot control tasks is still challenging, especially when researchers have to design the action and observation space and the reward function. In this paper, we investigate partial observability as a potential failure source of applying DRL to robot control tasks, which can occur when researchers are not confident whether the observation space fully represents the underlying state. We compare the performance of three common DRL algorithms, TD3, SAC and PPO under various partial observability conditions. We find that TD3 and SAC become easily stuck in local optima and underperform PPO. We propose multi-step versions of the vanilla TD3 and SAC to improve robustness to partial observability based on one-step bootstrapping.
翻訳日:2022-09-13 13:43:10 公開日:2022-09-12
# FiBiNet++:CTR予測のためのモデルサイズを大幅に削減したFiBiNetの改良

FiBiNet++:Improving FiBiNet by Greatly Reducing Model Size for CTR Prediction ( http://arxiv.org/abs/2209.05016v1 )

ライセンス: Link先を確認
Pengtao Zhang and Junlin Zhang(参考訳) クリックスルー率(ctr)推定は多くの実世界のアプリケーションにおいて最も基本的なタスクの一つとなり、この問題を解決するために様々な深層モデルが提案されている。 Some research has proved that FiBiNet is one of the best performance models and outperforms all other models on Avazu dataset.However, the large model size of FiBiNet hinders its wider applications.In this paper, we propose a novel FiBiNet++ model to redesign FiBiNet's model structure ,which greatly reducess model size while further improves its performance.Extensive experiments on three public datasets show that FiBiNet++ effectively reduces non-embedding model parameters of FiBiNet by 12x to 16x on three datasets and has comparable model size with DNN model which is the smallest one among deep CTR models.On the other hand, FiBiNet++ leads to significant performance improvements compared to state-of-the-art CTR methods,including FiBiNet.

Click-Through Rate(CTR) estimation has become one of the most fundamental tasks in many real-world applications and various deep models have been proposed to resolve this problem. Some research has proved that FiBiNet is one of the best performance models and outperforms all other models on Avazu dataset.However, the large model size of FiBiNet hinders its wider applications.In this paper, we propose a novel FiBiNet++ model to redesign FiBiNet's model structure ,which greatly reducess model size while further improves its performance.Extensive experiments on three public datasets show that FiBiNet++ effectively reduces non-embedding model parameters of FiBiNet by 12x to 16x on three datasets and has comparable model size with DNN model which is the smallest one among deep CTR models.On the other hand, FiBiNet++ leads to significant performance improvements compared to state-of-the-art CTR methods,including FiBiNet.
翻訳日:2022-09-13 13:42:57 公開日:2022-09-12
# PoseIt: Grasp安定解析のためのホールディングポースの視覚触覚データセット

PoseIt: A Visual-Tactile Dataset of Holding Poses for Grasp Stability Analysis ( http://arxiv.org/abs/2209.05022v1 )

ライセンス: Link先を確認
Shubham Kanitkar, Helen Jiang, Wenzhen Yuan(参考訳) 人間が現実世界の物体をつかむとき、私たちはしばしば腕を動かして物体を異なる姿勢で保持し、それを使うことができます。 対照的に、典型的な実験室の設定では、持ち上げ直後のグリップの安定性についてのみ研究する。 しかし、把持安定性は物体の保持姿勢によって大きく変化し、重力トルクとグリッパー接触力が完全に変化する可能性がある。 保持ポーズが把持安定性にどのように影響するかの研究を容易にするために,対象物を把持する全周期から収集した視覚および触覚データを含む,新たな多モードデータセットであるpositを提案する。 poseitのデータを使って、特定のポーズで把握された物体が安定しているかどうかを予測するタスクを定式化し、対処することができる。 提案課題に対して85%の精度でLSTM分類器を訓練する。 実験の結果,PoseItで訓練したマルチモーダルモデルは,視覚や触覚のみを用いた場合よりも精度が高く,分類器は見えない物体やポーズにも一般化できることがわかった。

When humans grasp objects in the real world, we often move our arms to hold the object in a different pose where we can use it. In contrast, typical lab settings only study the stability of the grasp immediately after lifting, without any subsequent re-positioning of the arm. However, the grasp stability could vary widely based on the object's holding pose, as the gravitational torque and gripper contact forces could change completely. To facilitate the study of how holding poses affect grasp stability, we present PoseIt, a novel multi-modal dataset that contains visual and tactile data collected from a full cycle of grasping an object, re-positioning the arm to one of the sampled poses, and shaking the object. Using data from PoseIt, we can formulate and tackle the task of predicting whether a grasped object is stable in a particular held pose. We train an LSTM classifier that achieves 85% accuracy on the proposed task. Our experimental results show that multi-modal models trained on PoseIt achieve higher accuracy than using solely vision or tactile data and that our classifiers can also generalize to unseen objects and poses.
翻訳日:2022-09-13 13:42:45 公開日:2022-09-12
# 協調型機械学習モデル学習のためのスマートコントラクトの検討

An Investigation of Smart Contract for Collaborative Machine Learning Model Training ( http://arxiv.org/abs/2209.05017v1 )

ライセンス: Link先を確認
Shengwen Ding, Chenhui Hu(参考訳) 機械学習(ML)はビッグデータの時代において様々な分野に浸透してきた。 従来のMLに比べてコラボレーティブ機械学習(CML)の利点は、より優れたモデルパフォーマンスと一般化をもたらす分散ノードやエージェントの共同作業にある。 mlモデルのトレーニングには大量の高品質データが必要であるため、データのプライバシに関する懸念を排除し、高品質なデータを確保する必要がある。 この問題を解決するため、私たちはCMLとスマートコントラクトの統合に目を向けました。 ブロックチェーンに基づいて、スマートコントラクトは、データ保存とバリデーションの自動実行と、CMLモデルのトレーニングの継続を可能にする。 シミュレーション実験では、スマートコントラクトのインセンティブ機構を定義し、データセット(num_words)の機能数、トレーニングデータのサイズ、データホルダがデータを送信するコストなど重要な要因を調査し、これらの要因がモデルのパフォーマンス指標にどのように影響するかを結論付けます。 例えば、num_wordsの値が増加するとモデル精度が向上し、実験結果の観察からより短時間で悪意のあるエージェントの悪影響を排除できる。 統計的分析により、スマートコントラクトの助けを借りて、無効データの影響を効果的に低減し、モデルの堅牢性を維持することが示されている。 また、既存の研究のギャップについても議論し、今後の研究の方向性を推し進める。

Machine learning (ML) has penetrated various fields in the era of big data. The advantage of collaborative machine learning (CML) over most conventional ML lies in the joint effort of decentralized nodes or agents that results in better model performance and generalization. As the training of ML models requires a massive amount of good quality data, it is necessary to eliminate concerns about data privacy and ensure high-quality data. To solve this problem, we cast our eyes on the integration of CML and smart contracts. Based on blockchain, smart contracts enable automatic execution of data preserving and validation, as well as the continuity of CML model training. In our simulation experiments, we define incentive mechanisms on the smart contract, investigate the important factors such as the number of features in the dataset (num_words), the size of the training data, the cost for the data holders to submit data, etc., and conclude how these factors impact the performance metrics of the model: the accuracy of the trained model, the gap between the accuracies of the model before and after simulation, and the time to use up the balance of bad agent. For instance, the increase of the value of num_words leads to higher model accuracy and eliminates the negative influence of malicious agents in a shorter time from our observation of the experiment results. Statistical analyses show that with the help of smart contracts, the influence of invalid data is efficiently diminished and model robustness is maintained. We also discuss the gap in existing research and put forward possible future directions for further works.
翻訳日:2022-09-13 13:37:53 公開日:2022-09-12
# CARE:変分推論による推論による頑健な学習

CARE: Certifiably Robust Learning with Reasoning via Variational Inference ( http://arxiv.org/abs/2209.05055v1 )

ライセンス: Link先を確認
Jiawei Zhang, Linyi Li, Ce Zhang, Bo Li(参考訳) ディープニューラルネットワーク(dnn)によって達成された最近の進歩にもかかわらず、それらはしばしば敵の攻撃に弱い。 DNNのロバスト性を改善するために集中的な研究努力がなされているが、多くの経験的防御は再び適応的に攻撃され、特に大規模データセットにおいて理論的に証明されたロバスト性は制限されている。 DNNのこのような脆弱性の潜在的な根本原因の1つは、強力な表現力を示しているが、堅牢で信頼性の高い予測を行うための推論能力がないことである。 本稿では,ドメイン知識を統合し,推論パラダイムによる堅牢な学習を実現することを目的とする。 特に,学習成分と推論成分からなる推論パイプライン(care)を用いた証明可能なロバストな学習を提案する。 具体的には,学習要素として標準DNNを用いて意味論的予測を行い,マルコフ論理ネットワーク(MLN)などの確率的グラフィカルモデルを利用して推論要素として機能し,知識・論理的推論を可能にする。 しかし、MLNの正確な推論は#P完全であることが知られており、パイプラインのスケーラビリティが制限されている。 そこで本研究では,効率的な予測最大化アルゴリズムに基づく変分推論によるMLN推論を提案する。 特に、グラフ畳み込みネットワーク(GCN)を利用して、変動推論中に後続分布を符号化し、GCN(E-step)のパラメータとMLN(M-step)の知識規則の重みを反復的に更新する。 さまざまなデータセットに関する広範囲な実験を行い,最先端のベースラインと比較して,careが極めて高い認証堅牢性を達成していることを示す。 さらに,ケアの実証的ロバスト性と知識統合の効果を示すため,異なるアブレーション研究を行った。

Despite great recent advances achieved by deep neural networks (DNNs), they are often vulnerable to adversarial attacks. Intensive research efforts have been made to improve the robustness of DNNs; however, most empirical defenses can be adaptively attacked again, and the theoretically certified robustness is limited, especially on large-scale datasets. One potential root cause of such vulnerabilities for DNNs is that although they have demonstrated powerful expressiveness, they lack the reasoning ability to make robust and reliable predictions. In this paper, we aim to integrate domain knowledge to enable robust learning with the reasoning paradigm. In particular, we propose a certifiably robust learning with reasoning pipeline (CARE), which consists of a learning component and a reasoning component. Concretely, we use a set of standard DNNs to serve as the learning component to make semantic predictions, and we leverage the probabilistic graphical models, such as Markov logic networks (MLN), to serve as the reasoning component to enable knowledge/logic reasoning. However, it is known that the exact inference of MLN (reasoning) is #P-complete, which limits the scalability of the pipeline. To this end, we propose to approximate the MLN inference via variational inference based on an efficient expectation maximization algorithm. In particular, we leverage graph convolutional networks (GCNs) to encode the posterior distribution during variational inference and update the parameters of GCNs (E-step) and the weights of knowledge rules in MLN (M-step) iteratively. We conduct extensive experiments on different datasets and show that CARE achieves significantly higher certified robustness compared with the state-of-the-art baselines. We additionally conducted different ablation studies to demonstrate the empirical robustness of CARE and the effectiveness of different knowledge integration.
翻訳日:2022-09-13 13:37:29 公開日:2022-09-12
# 機械学習モデルからの予測を説明する - アルゴリズム,ユーザ,教育学

Explaining Predictions from Machine Learning Models: Algorithms, Users, and Pedagogy ( http://arxiv.org/abs/2209.05084v1 )

ライセンス: Link先を確認
Ana Lucic(参考訳) 機械学習(ml)では、アルゴリズムによる予測が人間に与える影響が増加するため、モデル説明可能性が重要な問題となっている。 説明は、MLモデルが特定の予測を行う理由だけでなく、これらの予測をどのように変更するかを理解するのに役立つ。 本稿では,アルゴリズム,ユーザ,教育学の3点からmlモデルの説明可能性を調べ,説明可能性問題に対するいくつかの新しい解決法を提案する。

Model explainability has become an important problem in machine learning (ML) due to the increased effect that algorithmic predictions have on humans. Explanations can help users understand not only why ML models make certain predictions, but also how these predictions can be changed. In this thesis, we examine the explainability of ML models from three vantage points: algorithms, users, and pedagogy, and contribute several novel solutions to the explainability problem.
翻訳日:2022-09-13 13:36:58 公開日:2022-09-12
# 弱い絡み合いに対するモジュラー表現

Modular Representations for Weak Disentanglement ( http://arxiv.org/abs/2209.05336v1 )

ライセンス: Link先を確認
Andrea Valenti, Davide Bacciu(参考訳) 最近導入された弱い非絡み合い表現は、より柔軟性と引き換えに以前の非絡み合いの定義の制約を緩和するために提案された。 しかし、現時点では、データの変化の要因の数が増えるため、監視の量を増やすことでのみ、弱い絡み合いが達成できる。 本稿では,生成因子数に対して教師付き情報量を一定に保つことを可能にする新しい手法である弱絡みに対するモジュラ表現を提案する。 実験により、モジュラー表現を用いたモデルは、追加の監督を必要とせずに、以前の作業に対してパフォーマンスを向上できることが示された。

The recently introduced weakly disentangled representations proposed to relax some constraints of the previous definitions of disentanglement, in exchange for more flexibility. However, at the moment, weak disentanglement can only be achieved by increasing the amount of supervision as the number of factors of variations of the data increase. In this paper, we introduce modular representations for weak disentanglement, a novel method that allows to keep the amount of supervised information constant with respect the number of generative factors. The experiments shows that models using modular representations can increase their performance with respect to previous work without the need of additional supervision.
翻訳日:2022-09-13 13:36:26 公開日:2022-09-12
# ディープフェイクビデオ検出のためのランドマーク強化マルチモーダルグラフ学習

Landmark Enhanced Multimodal Graph Learning for Deepfake Video Detection ( http://arxiv.org/abs/2209.05419v1 )

ライセンス: Link先を確認
Zhiyuan Yan, Peng Sun, Yubo Lang, Shuo Du, Shanzhuo Zhang, Wei Wang(参考訳) 顔偽造技術の急速な発展に伴い、ディープフェイクビデオはデジタルメディアで広く注目を集めている。 犯人はこれらのビデオを利用して偽情報を拡散し、誤解を招く声明を出す。 既存のディープフェイク検出法は主にテクスチャの特徴に焦点を当てており、照明やノイズなどの外部のゆらぎの影響を受けやすい。 さらに、顔のランドマークに基づく検出方法は、外部変数に対してより堅牢であるが、詳細は不十分である。 したがって、空間、時間、周波数領域の特徴的な特徴を効果的にマイニングし、偽ビデオ検出のために顔のランドマークと融合する方法は、まだ未解決の問題である。 この目的のために,複数のモダリティの情報と顔のランドマークの幾何学的特徴に基づくLandmark Enhanced Multimodal Graph Neural Network (LEM-GNN)を提案する。 特に,フレームレベルでは,空間領域と周波数領域の要素の結合表現をマイニングすると同時に,モデルのロバスト性を高めるために幾何学的顔特徴を導入する融合機構を考案した。 ビデオレベルでは、まずビデオの各フレームをグラフ内のノードとみなし、時系列情報をグラフのエッジにエンコードする。 次に、グラフニューラルネットワーク(GNN)のメッセージパッシング機構を適用することにより、マルチモーダル機能を効果的に組み合わせて、ビデオ偽造の包括的な表現を得る。 大規模な実験により,我々の手法は広く使用されているベンチマークにおいて常に最先端のSOTA(State-of-the-art)よりも優れていた。

With the rapid development of face forgery technology, deepfake videos have attracted widespread attention in digital media. Perpetrators heavily utilize these videos to spread disinformation and make misleading statements. Most existing methods for deepfake detection mainly focus on texture features, which are likely to be impacted by external fluctuations, such as illumination and noise. Besides, detection methods based on facial landmarks are more robust against external variables but lack sufficient detail. Thus, how to effectively mine distinctive features in the spatial, temporal, and frequency domains and fuse them with facial landmarks for forgery video detection is still an open question. To this end, we propose a Landmark Enhanced Multimodal Graph Neural Network (LEM-GNN) based on multiple modalities' information and geometric features of facial landmarks. Specifically, at the frame level, we have designed a fusion mechanism to mine a joint representation of the spatial and frequency domain elements while introducing geometric facial features to enhance the robustness of the model. At the video level, we first regard each frame in a video as a node in a graph and encode temporal information into the edges of the graph. Then, by applying the message passing mechanism of the graph neural network (GNN), the multimodal feature will be effectively combined to obtain a comprehensive representation of the video forgery. Extensive experiments show that our method consistently outperforms the state-of-the-art (SOTA) on widely-used benchmarks.
翻訳日:2022-09-13 13:33:48 公開日:2022-09-12
# 鮮明に制御可能な3次元画像生成

Explicitly Controllable 3D-Aware Portrait Generation ( http://arxiv.org/abs/2209.05434v1 )

ライセンス: Link先を確認
Junshu Tang, Bo Zhang, Binxin Yang, Ting Zhang, Dong Chen, Lizhuang Ma, Fang Wen(参考訳) コストのかかるプロセスである従来のアバター生成パイプラインとは対照的に、現代の生成的アプローチは写真から直接データ配信を学習し、芸術の状況は、非常にリアルな画像を生み出すことができる。 非条件生成モデルを拡張し、ある程度の制御可能性を達成しようとする作業はたくさんあるが、特に大きなポーズでは、マルチビューの一貫性を確保することは依然として困難である。 本研究では,ポーズ,アイデンティティ,表現,照明に関するセマンティックパラメータに基づいて3次元一貫した肖像画を生成する3次元ポートレート生成ネットワークを提案する。 生成ネットワークは、ニューラルシーン表現を使用して3Dの肖像画をモデル化し、その生成は明示的な制御をサポートするパラメトリック顔モデルによって誘導される。 部分的な特徴を持つ画像と対比することで、潜伏した絡み合いをさらに強化することができるが、表情をアニメーションする際、例えば髪や背景など、非顔領域に顕著な矛盾が存在する。 本研究では、動的および静的な放射場を混合して合成出力を形成するボリュームブレンディング戦略を提案し、その2つの部分を共同学習されたセマンティックフィールドから分割する。 提案手法は,自然光の鮮明な表現によるリアルな肖像画を,自由視点で見る場合,先行技術よりも優れる。 提案手法は,実画像とドメイン外マンガ顔に対する一般化能力も示しており,実アプリケーションでは大きな期待が持たれている。 さらなるビデオ結果とコードは、プロジェクトのwebページで入手できる。

In contrast to the traditional avatar creation pipeline which is a costly process, contemporary generative approaches directly learn the data distribution from photographs and the state of the arts can now yield highly photo-realistic images. While plenty of works attempt to extend the unconditional generative models and achieve some level of controllability, it is still challenging to ensure multi-view consistency, especially in large poses. In this work, we propose a 3D portrait generation network that produces 3D consistent portraits while being controllable according to semantic parameters regarding pose, identity, expression and lighting. The generative network uses neural scene representation to model portraits in 3D, whose generation is guided by a parametric face model that supports explicit control. While the latent disentanglement can be further enhanced by contrasting images with partially different attributes, there still exists noticeable inconsistency in non-face areas, e.g., hair and background, when animating expressions. We solve this by proposing a volume blending strategy in which we form a composite output by blending the dynamic and static radiance fields, with two parts segmented from the jointly learned semantic field. Our method outperforms prior arts in extensive experiments, producing realistic portraits with vivid expression in natural lighting when viewed in free viewpoint. The proposed method also demonstrates generalization ability to real images as well as out-of-domain cartoon faces, showing great promise in real applications. Additional video results and code will be available on the project webpage.
翻訳日:2022-09-13 13:33:26 公開日:2022-09-12
# 励磁課題を考慮した変圧器を用いた物品エンコーダの大規模評価

Large-scale Evaluation of Transformer-based Article Encoders on the Task of Citation Recommendation ( http://arxiv.org/abs/2209.05452v1 )

ライセンス: Link先を確認
Zoran Medi\'c, Jan \v{S}najder(参考訳) 近年、相互に関連のある科学論文の類似ベクトル表現を生成するために設計されたtransformer-based article encoder (taes)が、科学論文推薦のためのベンチマークデータセットで強力な性能を示している。 しかし、既存のベンチマークデータセットは、主に単一のドメインに焦点を当てており、場合によっては小さな候補プールに容易に負の値を含む。 このようなベンチマークでの表現の評価は、候補プールに何千もの記事があるセットアップにおけるtaesの現実的なパフォーマンスを曖昧にする可能性がある。 本研究では,より挑戦的な候補プールを持つ大規模ベンチマークでTAEを評価する。 我々は,TAEの性能を引用推薦タスクにおける語彙検索ベースラインモデルBM25と比較し,そのモデルが与えられた入力項目に引用するレコメンデーションのリストを生成する。 BM25は、まだ最先端のニューラルレトリバーと非常に競合していることがわかっています。 既存のベンチマークの限界に対する修正として、科学論文の表現を評価するための新しいベンチマークデータセットを提案する: 多領域引用推奨データセット(mdcr)は、異なる科学分野をカバーするもので、挑戦的な候補プールを含んでいる。

Recently introduced transformer-based article encoders (TAEs) designed to produce similar vector representations for mutually related scientific articles have demonstrated strong performance on benchmark datasets for scientific article recommendation. However, the existing benchmark datasets are predominantly focused on single domains and, in some cases, contain easy negatives in small candidate pools. Evaluating representations on such benchmarks might obscure the realistic performance of TAEs in setups with thousands of articles in candidate pools. In this work, we evaluate TAEs on large benchmarks with more challenging candidate pools. We compare the performance of TAEs with a lexical retrieval baseline model BM25 on the task of citation recommendation, where the model produces a list of recommendations for citing in a given input article. We find out that BM25 is still very competitive with the state-of-the-art neural retrievers, a finding which is surprising given the strong performance of TAEs on small benchmarks. As a remedy for the limitations of the existing benchmarks, we propose a new benchmark dataset for evaluating scientific article representations: Multi-Domain Citation Recommendation dataset (MDCR), which covers different scientific fields and contains challenging candidate pools.
翻訳日:2022-09-13 13:32:12 公開日:2022-09-12
# AI支援手術室における自動手術チェックリスト作成の状況把握

Situation Awareness for Automated Surgical Check-listing in AI-Assisted Operating Room ( http://arxiv.org/abs/2209.05056v1 )

ライセンス: Link先を確認
Tochukwu Onyeogulu, Amirul Islam, Salman Khan, Izzeddin Teeti, Fabio Cuzzolin(参考訳) 現在、より少ない侵襲的手術(MIS)を用いて外科的手術が実施されている。 これは、手術後の最小限の問題、出血の減少、軽傷の軽傷、迅速な回復など、多くの利点があるためである。 しかし、MISの制約された視野、小さな手術室、手術シーンの間接的な観察は、人間の臓器や組織を衝突させ、潜在的に損傷を与える可能性がある。 そのため、MISの問題は大幅に減少し、内視鏡的ビデオフィードを用いて外科用機器をリアルタイムで検出・監視することにより、手術手順の精度と成功率を高めることができる。 本稿では, 手術器具の検出を向上するために, YOLOV5オブジェクト検出器の一連の改良について検討, 解析, 評価を行った。 そこで我々は、パフォーマンスベースのアブレーション研究を行い、YOLOv5モデルのバックボーン、ネック、アンカー構造要素を変更する影響を調査し、ユニークな内視鏡データセットを注釈付けした。 さらに,4種類のSOTA検出器(YOLOv7,YOLOR,Scaled-YOLOv4,YOLOv3-SPP)のアブレーション試験の有効性を比較検討した。 mAP 98.3% のモデル性能と同様の推論速度を持つ YOLOv3-SPP を除いて、最初の YOLOv5 を含むベンチマークモデルは全て、我々の新しい内視鏡データセットを用いた実験において、我々の最も洗練されたモデルに取って代わられた。

Nowadays, there are more surgical procedures that are being performed using minimally invasive surgery (MIS). This is due to its many benefits, such as minimal post-operative problems, less bleeding, minor scarring, and a speedy recovery. However, the MIS's constrained field of view, small operating room, and indirect viewing of the operating scene could lead to surgical tools colliding and potentially harming human organs or tissues. Therefore, MIS problems can be considerably reduced, and surgical procedure accuracy and success rates can be increased by using an endoscopic video feed to detect and monitor surgical instruments in real-time. In this paper, a set of improvements made to the YOLOV5 object detector to enhance the detection of surgical instruments was investigated, analyzed, and evaluated. In doing this, we performed performance-based ablation studies, explored the impact of altering the YOLOv5 model's backbone, neck, and anchor structural elements, and annotated a unique endoscope dataset. Additionally, we compared the effectiveness of our ablation investigations with that of four additional SOTA object detectors (YOLOv7, YOLOR, Scaled-YOLOv4 and YOLOv3-SPP). Except for YOLOv3-SPP, which had the same model performance of 98.3% in mAP and a similar inference speed, all of our benchmark models, including the original YOLOv5, were surpassed by our top refined model in experiments using our fresh endoscope dataset.
翻訳日:2022-09-13 13:28:04 公開日:2022-09-12
# mmBody ベンチマーク:ミリ波レーダの3次元身体再構成データセットと解析

mmBody Benchmark: 3D Body Reconstruction Dataset and Analysis for Millimeter Wave Radar ( http://arxiv.org/abs/2209.05070v1 )

ライセンス: Link先を確認
Anjun Chen, Xiangyu Wang, Shaohao Zhu, Yanxu Li, Jiming Chen, Qi Ye(参考訳) ミリ波(mmWave)レーダーは、煙、雨、雪、照明の悪さといった悪環境でも使えるため、人気が高まっている。 以前の研究では、ノイズやスパースなmmWaveレーダ信号から3D骨格やメッシュを再構築する可能性を探っている。 しかし,mmWaveレーダを単独で使用したり,カメラと組み合わせたりする場合に考慮すべき重要な側面として,シーン間のmmWave信号からどのように3Dボディを再構築できるかは明らかではない。 これらの質問に答えるために、自動3Dボディアノテーションシステムが最初に設計され、複数のセンサーで構築され、大規模なデータセットを収集する。 データセットは、同期および校正されたmmWaveレーダーポイント雲と、異なるシーンにおけるRGB(D)イメージと、シーン内の人間のためのスケルトン/メシュアノテーションで構成されている。 このデータセットでは、さまざまなセンサからの入力を使って最先端のメソッドをトレーニングし、さまざまなシナリオでテストします。 その結果は 1)生成した点雲のノイズやスパース性にもかかわらず,mmwaveレーダは,rgbカメラよりも再構成精度は高いが,深度カメラよりは劣る。 2)RGB(D)カメラは深刻な影響を受けながら,mmWaveレーダからの再構成は悪天候の影響を受けやすい。 さらに、mmウェーブレーダからの再構成と異なるセンサからの信号の組み合わせを改善するためのデータセットと結果のシャドーインサイトの分析を行う。

Millimeter Wave (mmWave) Radar is gaining popularity as it can work in adverse environments like smoke, rain, snow, poor lighting, etc. Prior work has explored the possibility of reconstructing 3D skeletons or meshes from the noisy and sparse mmWave Radar signals. However, it is unclear how accurately we can reconstruct the 3D body from the mmWave signals across scenes and how it performs compared with cameras, which are important aspects needed to be considered when either using mmWave radars alone or combining them with cameras. To answer these questions, an automatic 3D body annotation system is first designed and built up with multiple sensors to collect a large-scale dataset. The dataset consists of synchronized and calibrated mmWave radar point clouds and RGB(D) images in different scenes and skeleton/mesh annotations for humans in the scenes. With this dataset, we train state-of-the-art methods with inputs from different sensors and test them in various scenarios. The results demonstrate that 1) despite the noise and sparsity of the generated point clouds, the mmWave radar can achieve better reconstruction accuracy than the RGB camera but worse than the depth camera; 2) the reconstruction from the mmWave radar is affected by adverse weather conditions moderately while the RGB(D) camera is severely affected. Further, analysis of the dataset and the results shadow insights on improving the reconstruction from the mmWave radar and the combination of signals from different sensors.
翻訳日:2022-09-13 13:27:40 公開日:2022-09-12
# 半拡散能動ステレオビジョンのための差マップの洗練のためのベイズ学習

Bayesian Learning for Disparity Map Refinement for Semi-Dense Active Stereo Vision ( http://arxiv.org/abs/2209.05082v1 )

ライセンス: Link先を確認
Laurent Valentin Jospin, Hamid Laga, Farid Boussaid, Mohammed Bennamoun(参考訳) 近年のステレオビジョンの発展の主な焦点は、受動ステレオビジョンにおいて、正確な密集した不均質マップを得る方法である。 アクティブビジョンシステムは、受動ステレオと比較してより正確な密度差の推定を可能にする。 しかし、サブピクセル精度の格差推定は未解決の問題であり、ほとんど注目されていない。 本稿では,ニューラルネットワークを学習し,半高能動ステレオビジョンのための高品質なサブピクセル不均一マップを推定する新たな学習手法を提案する。 重要な洞察は、ニューラルネットワークが、不一致推定を補正する情報が不十分なピクセルを無効にしながら、不一致マップを洗練する方法を共同で学べば、その精度を2倍にすることができる、ということである。 我々のアプローチはベイズ的モデリングに基づいており、検証された画素と無効化されたピクセルは確率的性質によって定義され、どのピクセルが注目に値するかをモデルが自分で選択する方法を学ぶことができる。 Active-Passive SimStereoのようなアクティブステレオデータセットを用いて,提案手法が現在最先端のアクティブステレオモデルより優れていることを示す。 また,提案手法は,ミドルベリーデータセットにおける最先端の受動的ステレオモデルと比較した。

A major focus of recent developments in stereo vision has been on how to obtain accurate dense disparity maps in passive stereo vision. Active vision systems enable more accurate estimations of dense disparity compared to passive stereo. However, subpixel-accurate disparity estimation remains an open problem that has received little attention. In this paper, we propose a new learning strategy to train neural networks to estimate high-quality subpixel disparity maps for semi-dense active stereo vision. The key insight is that neural networks can double their accuracy if they are able to jointly learn how to refine the disparity map while invalidating the pixels where there is insufficient information to correct the disparity estimate. Our approach is based on Bayesian modeling where validated and invalidated pixels are defined by their stochastic properties, allowing the model to learn how to choose by itself which pixels are worth its attention. Using active stereo datasets such as Active-Passive SimStereo, we demonstrate that the proposed method outperforms the current state-of-the-art active stereo models. We also demonstrate that the proposed approach compares favorably with state-of-the-art passive stereo models on the Middlebury dataset.
翻訳日:2022-09-13 13:27:12 公開日:2022-09-12
# インクリメンタルビデオハイライト検出のためのグローバルプロトタイプ符号化

Global Prototype Encoding for Incremental Video Highlights Detection ( http://arxiv.org/abs/2209.05166v1 )

ライセンス: Link先を確認
Sen Pei, Shixiong Xu, Ye Yuan, and Xiaojie Jin(参考訳) ビデオハイライト検出は、コンピュータビジョンタスクにおけるトピックとして長い間研究されてきた。 しかし、ほとんどの場合、この研究の主流となる手法は、あらかじめ一定の数のハイライトカテゴリを適切に定義し、同時にすべてのトレーニングデータを利用できるようにし、結果として、ハイライトカテゴリとデータセットのサイズの両方に関してスケーラビリティの低下につながるという、クローズドワールドの前提に基づいて構築されている。 本稿では,上記の問題に対処するために,拡張データセットで新たに定義された映像ハイライトを対応するプロトタイプを用いてキャプチャし,段階的に学習可能なビデオハイライト検出器を提案する。 同時に,5.1k以上のグルメビデオを含む,注釈付きで費用がかかる「emph{ByteFood}」というデータセットを,それぞれ「emph{cooking}」,「emph{eating}」,「emph{food material}」,「emph{presentation}」の4つの異なるドメインに属している。 私たちの知る限り、インクリメンタルな学習設定がビデオハイライト検出に導入されたのはこれが初めてであり、それによってビデオ入力のトレーニングの負担が軽減され、データセットのサイズとドメインの量の両方に比例して従来のニューラルネットワークのスケーラビリティが向上する。 さらに、提案したGPEは、現在のemph{ByteFood}の漸進的な学習方法を超え、少なくとも1.57\% mAPの改善を報告している。 コードとデータセットはすぐに利用可能になる。

Video highlights detection has been long researched as a topic in computer vision tasks, digging the user-appealing clips out given unexposed raw video inputs. However, in most case, the mainstream methods in this line of research are built on the closed world assumption, where a fixed number of highlight categories is defined properly in advance and need all training data to be available at the same time, and as a result, leads to poor scalability with respect to both the highlight categories and the size of the dataset. To tackle the problem mentioned above, we propose a video highlights detector that is able to learn incrementally, namely \textbf{G}lobal \textbf{P}rototype \textbf{E}ncoding (GPE), capturing newly defined video highlights in the extended dataset via their corresponding prototypes. Alongside, we present a well annotated and costly dataset termed \emph{ByteFood}, including more than 5.1k gourmet videos belongs to four different domains which are \emph{cooking}, \emph{eating}, \emph{food material}, and \emph{presentation} respectively. To the best of our knowledge, this is the first time the incremental learning settings are introduced to video highlights detection, which in turn relieves the burden of training video inputs and promotes the scalability of conventional neural networks in proportion to both the size of the dataset and the quantity of domains. Moreover, the proposed GPE surpasses current incremental learning methods on \emph{ByteFood}, reporting an improvement of 1.57\% mAP at least. The code and dataset will be made available sooner.
翻訳日:2022-09-13 13:26:54 公開日:2022-09-12
# Graphing the Future: Graph-based Activity Representation を用いたアクティビティと次のアクティブオブジェクト予測

Graphing the Future: Activity and Next Active Object Prediction using Graph-based Activity Representations ( http://arxiv.org/abs/2209.05194v1 )

ライセンス: Link先を確認
Victoria Manousaki, Konstantinos Papoutsakis and Antonis Argyros(参考訳) 本稿では,映像中の物体間インタラクションの視覚的予測のための新しい手法を提案する。 人間と物体の動きや将来の接触点を予測するのではなく、予測することを目指す。 (a)現在進行中のヒューマン・オブジェクトインタラクションのクラスと (b) 次のアクティブなオブジェクト(naos)のクラス(es)、すなわち、近未来の相互作用に関係し、その相互作用が起こる時間を含むオブジェクト(s)。 グラフマッチングはグラフ編集距離(GED)法に依存する。 提案手法の実験的評価は,人間と物体の相互作用を含む2つの確立されたビデオデータセット(msr daily activityとcad120)を用いて行った。 動作予測とNAO予測の両方において高い予測精度が得られた。

We present a novel approach for the visual prediction of human-object interactions in videos. Rather than forecasting the human and object motion or the future hand-object contact points, we aim at predicting (a)the class of the on-going human-object interaction and (b) the class(es) of the next active object(s) (NAOs), i.e., the object(s) that will be involved in the interaction in the near future as well as the time the interaction will occur. Graph matching relies on the efficient Graph Edit distance (GED) method. The experimental evaluation of the proposed approach was conducted using two well-established video datasets that contain human-object interactions, namely the MSR Daily Activities and the CAD120. High prediction accuracy was obtained for both action prediction and NAO forecasting.
翻訳日:2022-09-13 13:26:22 公開日:2022-09-12
# 一般化可能な人物再識別のためのスタイル変数と非関連学習

Style Variable and Irrelevant Learning for Generalizable Person Re-identification ( http://arxiv.org/abs/2209.05235v1 )

ライセンス: Link先を確認
Haobo Chen, Chuyang Zhao, Kai Tu, Junru Chen, Yadong Li, Boxun Li(参考訳) 近年、教師付き人物再識別(ReID)の未確認領域に対する性能が低下しているため、ドメイン一般化(DG)担当者のReIDは、ドメイン非感受性モデルを学び、ドメインバイアスの影響を抑えることを目的とした多くの注目を集めている。 本稿では,まず,スタイル要因がドメインバイアスの重要な部分であることを実験により検証する。 この結論に基づいて,スタイル要因がモデルに与える影響を排除するために,スタイル変数と非関連学習(SVIL)手法を提案する。 具体的には,SVIL でスタイルジッタモジュール (SJM) を設計する。 SJMモジュールは、特定のソースドメインのスタイルの多様性を強化し、様々なソースドメインのスタイルの違いを減らすことができる。 これにより、モデルがアイデンティティ関連情報に注目し、スタイル変更に敏感になる。 さらに,SJMモジュールとメタ学習アルゴリズムを有機的に組み合わせ,利点を最大化し,モデルの一般化能力をさらに向上させる。 私たちのSJMモジュールはプラグ&プレイと推論のコストフリーです。 SVILの有効性を確認し,提案手法はDG-ReIDベンチマークにおける最先端手法よりも高い性能を示す。

Recently, due to the poor performance of supervised person re-identification (ReID) to an unseen domain, Domain Generalization (DG) person ReID has attracted a lot of attention which aims to learn a domain-insensitive model and can resist the influence of domain bias. In this paper, we first verify through an experiment that style factors are a vital part of domain bias. Base on this conclusion, we propose a Style Variable and Irrelevant Learning (SVIL) method to eliminate the effect of style factors on the model. Specifically, we design a Style Jitter Module (SJM) in SVIL. The SJM module can enrich the style diversity of the specific source domain and reduce the style differences of various source domains. This leads to the model focusing on identity-relevant information and being insensitive to the style changes. Besides, we organically combine the SJM module with a meta-learning algorithm, maximizing the benefits and further improving the generalization ability of the model. Note that our SJM module is plug-and-play and inference cost-free. Extensive experiments confirm the effectiveness of our SVIL and our method outperforms the state-of-the-art methods on DG-ReID benchmarks by a large margin.
翻訳日:2022-09-13 13:26:11 公開日:2022-09-12
# $\beta$-CapsNet: Information BottleneckによるCapsNetのアンタングル表現学習

$\beta$-CapsNet: Learning Disentangled Representation for CapsNet by Information Bottleneck ( http://arxiv.org/abs/2209.05239v1 )

ライセンス: Link先を確認
Ming-fei Hu, Jian-wei Liu(参考訳) 本稿では,情報をコンパクトな形で蒸留し,解釈可能な因子化カプセルを学習する,情報ボトルネック制約によるCapsNetの不整合表現学習フレームワークを提案する。 当社の$\beta$-CapsNetフレームワークでは、ハイパーパラメータ$\beta$をトレードオフ不整合やその他のタスクに使用して、情報ボトルネック項をカプセル平均の制約として近似したKL分散に変換するために、変動推論を利用する。 教師あり学習では,画像クラスによらず,変形の種類を合成的に理解するためにクラス独立マスクベクトルが用いられ,パラメータ$\beta$をチューニングして広範囲な量的・質的実験を行い,乱れ,再構成,分類性能の関係を解明した。 さらに,unsupervised $\beta$-capsnetとそれに対応する動的ルーティングアルゴリズムが,無監督でカプセルを学習するために提案されている。

We present a framework for learning disentangled representation of CapsNet by information bottleneck constraint that distills information into a compact form and motivates to learn an interpretable factorized capsule. In our $\beta$-CapsNet framework, hyperparameter $\beta$ is utilized to trade-off disentanglement and other tasks, variational inference is utilized to convert the information bottleneck term into a KL divergence that is approximated as a constraint on the mean of the capsule. For supervised learning, class independent mask vector is used for understanding the types of variations synthetically irrespective of the image class, we carry out extensive quantitative and qualitative experiments by tuning the parameter $\beta$ to figure out the relationship between disentanglement, reconstruction and classfication performance. Furthermore, the unsupervised $\beta$-CapsNet and the corresponding dynamic routing algorithm is proposed for learning disentangled capsule in an unsupervised manner, extensive empirical evaluations suggest that our $\beta$-CapsNet achieves state-of-the-art disentanglement performance compared to CapsNet and various baselines on several complex datasets both in supervision and unsupervised scenes.
翻訳日:2022-09-13 13:25:51 公開日:2022-09-12
# LSTMオートエンコーダを用いたドライバの動作異常検出

Detecting Driver Drowsiness as an Anomaly Using LSTM Autoencoders ( http://arxiv.org/abs/2209.05269v1 )

ライセンス: Link先を確認
G\"ulin T\"ufekci, Alper Kayaba\c{s}i, Erdem Akag\"und\"uz, \.Ilkay Ulusoy(参考訳) 本稿では,LSTMオートエンコーダをベースとしたアーキテクチャを用いて,ResNet-34を特徴抽出器として使用する。 この問題は, 単科目における異常検出と見なされるため, 通常の運転表現のみを学習し, ネットワークの知識により, より高い再設計損失を生じる居住表現を区別することが期待される。 本研究は, lstmオートエンコーダの訓練性能とテスト中に発生する異常の解釈を, 異なる信頼性率で解析するラベル割り当て手法を用いて, 正常クリップと異常クリップの信頼性レベルを調査した。 本手法はNTHU-DDD上で実験を行い,運転者の眠気に対する最先端の異常検出手法を用いてベンチマークを行った。 その結果,曲線下0.8740領域の検出率(AUC)が得られ,特定のシナリオにおいて大幅な改善が期待できることがわかった。

In this paper, an LSTM autoencoder-based architecture is utilized for drowsiness detection with ResNet-34 as feature extractor. The problem is considered as anomaly detection for a single subject; therefore, only the normal driving representations are learned and it is expected that drowsiness representations, yielding higher reconstruction losses, are to be distinguished according to the knowledge of the network. In our study, the confidence levels of normal and anomaly clips are investigated through the methodology of label assignment such that training performance of LSTM autoencoder and interpretation of anomalies encountered during testing are analyzed under varying confidence rates. Our method is experimented on NTHU-DDD and benchmarked with a state-of-the-art anomaly detection method for driver drowsiness. Results show that the proposed model achieves detection rate of 0.8740 area under curve (AUC) and is able to provide significant improvements on certain scenarios.
翻訳日:2022-09-13 13:25:25 公開日:2022-09-12
# 一般画面コンテンツ品質評価のための深層特徴統計マッピング

Deep Feature Statistics Mapping for Generalized Screen Content Image Quality Assessment ( http://arxiv.org/abs/2209.05321v1 )

ライセンス: Link先を確認
Baoliang Chen, Hanwei Zhu, Lingyu Zhu, Shiqi Wang, Sam Kwong(参考訳) 自然画像の統計正則性は自然シーン統計と呼ばれ、非参照画像の品質評価において重要な役割を果たす。 しかし、通常コンピュータ生成されるスクリーンコンテンツ画像(SCI)はそのような統計を持っていないことが広く認識されている。 ここでは,SCIの質を効果的に決定できる指標に基づいて,SCIの統計を学習するための最初の試みを行う。 提案手法の基盤となるメカニズムは、物理的に取得されていないSCIが、学習方法で理解可能な統計に従うという野放な仮定に基づいている。 本研究では, 統計的偏差が品質評価において有効に活用できることを実証的に示し, 異なる設定で評価した場合, 提案手法の方が優れていることを示す。 SCI品質評価モデル(DFSS-IQA)は、既存のNR-IQAモデルと比較して有望な性能を示し、データセット間設定において高い一般化能力を示す。 本手法の実装はhttps://github.com/Baoliang93/DFSS-IQAで公開されている。

The statistical regularities of natural images, referred to as natural scene statistics, play an important role in no-reference image quality assessment. However, it has been widely acknowledged that screen content images (SCIs), which are typically computer generated, do not hold such statistics. Here we make the first attempt to learn the statistics of SCIs, based upon which the quality of SCIs can be effectively determined. The underlying mechanism of the proposed approach is based upon the wild assumption that the SCIs, which are not physically acquired, still obey certain statistics that could be understood in a learning fashion. We empirically show that the statistics deviation could be effectively leveraged in quality assessment, and the proposed method is superior when evaluated in different settings. Extensive experimental results demonstrate the Deep Feature Statistics based SCI Quality Assessment (DFSS-IQA) model delivers promising performance compared with existing NR-IQA models and shows a high generalization capability in the cross-dataset settings. The implementation of our method is publicly available at https://github.com/Baoliang93/DFSS-IQA.
翻訳日:2022-09-13 13:25:09 公開日:2022-09-12
# 画像処理技術とオートエンコーダを用いた染色体分割解析

Chromosome Segmentation Analysis Using Image Processing Techniques and Autoencoders ( http://arxiv.org/abs/2209.05414v1 )

ライセンス: Link先を確認
Amritha S Pallavoor, Prajwal A, Sundareshan TS, Sreekanth K Pallavoor(参考訳) 細胞遺伝学的診断において, 染色体解析とメタフェーズ画像からの同定が重要である。 主に、遺伝疾患や疾患の診断において、構成的、出生前、獲得された異常を識別するために使用される。 染色体をメタフェーズから同定するプロセスは退屈なもので、訓練された人員と実行に数時間を要する。 チャレンジは、特にメタフェーズ画像のタッチ、オーバーラップ、クラスタ化された染色体を扱う際に存在し、適切に区切らなければ間違った分類となる。 そこで本研究では, 染色体検出と染色体分割のプロセスを自動化する手法を提案し, 深層CNNアーキテクチャを用いて染色体のタイプを識別する手法を提案する。 中間相に見られる重複染色体の分離に2つの手法を用いた。1つは流域アルゴリズム、もう1つはオートエンコーダ、もう1つは流域アルゴリズムに基づく方法である。 これらの方法は、自動化と、アウトプットを生成するセグメンテーションを実行するための非常に小さな手作業の組み合わせを含む。 この手作業により、人間の直感、特に触覚、重複、クラスター染色体の扱いが考慮される。 セグメンテーションの際、個々の染色体画像はDeep CNNモデルを用いて95.75\%の精度でそれぞれのクラスに分類される。 さらに、これらの染色体を与えられた出力(通常、ヒトの通常のシナリオでは46個の個々の画像からなる)から、98\%の精度で個々のクラスに分類する分布戦略を付与する。 本研究は, 染色体分割に関わる純粋な手作業は, 画像処理技術により, 信頼性と満足度の高い結果を生み出すことにより, 極めて良好なレベルまで自動化できると結論づける。

Chromosome analysis and identification from metaphase images is a critical part of cytogenetics based medical diagnosis. It is mainly used for identifying constitutional, prenatal and acquired abnormalities in the diagnosis of genetic diseases and disorders. The process of identification of chromosomes from metaphase is a tedious one and requires trained personnel and several hours to perform. Challenge exists especially in handling touching, overlapping and clustered chromosomes in metaphase images, which if not segmented properly would result in wrong classification. We propose a method to automate the process of detection and segmentation of chromosomes from a given metaphase image, and in using them to classify through a Deep CNN architecture to know the chromosome type. We have used two methods to handle the separation of overlapping chromosomes found in metaphases - one method involving watershed algorithm followed by autoencoders and the other a method purely based on watershed algorithm. These methods involve a combination of automation and very minimal manual effort to perform the segmentation, which produces the output. The manual effort ensures that human intuition is taken into consideration, especially in handling touching, overlapping and cluster chromosomes. Upon segmentation, individual chromosome images are then classified into their respective classes with 95.75\% accuracy using a Deep CNN model. Further, we impart a distribution strategy to classify these chromosomes from the given output (which typically could consist of 46 individual images in a normal scenario for human beings) into its individual classes with an accuracy of 98\%. Our study helps conclude that pure manual effort involved in chromosome segmentation can be automated to a very good level through image processing techniques to produce reliable and satisfying results.
翻訳日:2022-09-13 13:24:52 公開日:2022-09-12
# 切り替え可能なオンライン知識蒸留

Switchable Online Knowledge Distillation ( http://arxiv.org/abs/2209.04996v1 )

ライセンス: Link先を確認
Biao Qian, Yang Wang, Hongzhi Yin, Richang Hong and Meng Wang(参考訳) オンライン知識蒸留(OKD)は,教師と生徒の違いを相互に活用することで,関連するモデルを改善する。 それらのギャップに関するいくつかの重要なボトルネック - 例えば、大きなギャップは、特に学生にとってパフォーマンスに悪影響を及ぼすのか? 教師と学生の間のギャップを定量化する方法? - は、限定的な正式な研究を受けている。 本稿では,これらの疑問に答えるために,スイッチブルオンライン知識蒸留(SwitOKD)を提案する。 switokdの中核となるアイデアは、既存の技術によるテストフェーズの精度ギャップに注目するのではなく、トレーニングフェーズにおけるギャップ、すなわち蒸留ギャップを、2つのモード – エキスパートモード(教師の学習を継続しながら教師を一時停止する)と学習モード(教師を再開する)の切り替え戦略を通じて適応的に調整することだ。 適切な蒸留ギャップを確保するために,学習モードやエキスパートモードに切り替える際の形式的基準を提供する適応切換閾値を考案し,学生のパフォーマンスを向上させる。 一方、教師は私たちの適応的なスイッチングしきい値から恩恵を受け、基本的に他のオンラインアートと同等に保ちます。 さらにswitokdを2つの基底トポロジを持つ複数のネットワークに拡張する。 最後に、幅広い実験と分析により、最先端技術の分類におけるSwitOKDの利点が検証された。 私たちのコードはhttps://github.com/hfutqian/switokdで利用可能です。

Online Knowledge Distillation (OKD) improves the involved models by reciprocally exploiting the difference between teacher and student. Several crucial bottlenecks over the gap between them -- e.g., Why and when does a large gap harm the performance, especially for student? How to quantify the gap between teacher and student? -- have received limited formal study. In this paper, we propose Switchable Online Knowledge Distillation (SwitOKD), to answer these questions. Instead of focusing on the accuracy gap at test phase by the existing arts, the core idea of SwitOKD is to adaptively calibrate the gap at training phase, namely distillation gap, via a switching strategy between two modes -- expert mode (pause the teacher while keep the student learning) and learning mode (restart the teacher). To possess an appropriate distillation gap, we further devise an adaptive switching threshold, which provides a formal criterion as to when to switch to learning mode or expert mode, and thus improves the student's performance. Meanwhile, the teacher benefits from our adaptive switching threshold and keeps basically on a par with other online arts. We further extend SwitOKD to multiple networks with two basis topologies. Finally, extensive experiments and analysis validate the merits of SwitOKD for classification over the state-of-the-arts. Our code is available at https://github.com/hfutqian/SwitOKD.
翻訳日:2022-09-13 13:19:41 公開日:2022-09-12
# ビュー合成のための統一3dポイントクラウドの学習

Learning A Unified 3D Point Cloud for View Synthesis ( http://arxiv.org/abs/2209.05013v1 )

ライセンス: Link先を確認
Meng You, Mantang Guo, Xianqiang Lyu, Hui Liu, and Junhui Hou(参考訳) 3dポイントクラウド表現に基づくビュー合成手法が有効性を示している。 しかし,既存の手法では,単一のソースビューのみから新規ビューを合成することが一般的であり,複数のソースビューを一般化して高い再構築品質を追求することは容易ではない。 本稿では、異なるソースビューから統合された3Dポイントクラウドを学習する、新しいディープラーニングベースのビュー合成パラダイムを提案する。 具体的には、まずソースビューを3次元空間に投影し、深度マップに基づいてサブポイントクラウドを構築する。 次に,部分点雲の和集合上に定義された局所近傍の点を適応的に融合することにより,統一3次元点雲を学習する。 また、3次元形状誘導画像復元モジュールを提案し、穴を埋め、描画された新規ビューの高周波詳細を復元する。 3つのベンチマークデータセットによる実験結果から,本手法は最先端のビュー合成手法を定量的かつ視覚的に大きく上回ることを示した。

3D point cloud representation-based view synthesis methods have demonstrated effectiveness. However, existing methods usually synthesize novel views only from a single source view, and it is non-trivial to generalize them to handle multiple source views for pursuing higher reconstruction quality. In this paper, we propose a new deep learning-based view synthesis paradigm, which learns a unified 3D point cloud from different source views. Specifically, we first construct sub-point clouds by projecting source views to 3D space based on their depth maps. Then, we learn the unified 3D point cloud by adaptively fusing points at a local neighborhood defined on the union of the sub-point clouds. Besides, we also propose a 3D geometry-guided image restoration module to fill the holes and recover high-frequency details of the rendered novel views. Experimental results on three benchmark datasets demonstrate that our method outperforms state-of-the-art view synthesis methods to a large extent both quantitatively and visually.
翻訳日:2022-09-13 13:19:19 公開日:2022-09-12
# 合成データセットは、一般化された人物再同定のベンチマークに信頼できるか?

Is Synthetic Dataset Reliable for Benchmarking Generalizable Person Re-Identification? ( http://arxiv.org/abs/2209.05047v1 )

ライセンス: Link先を確認
Cuicui Kang(参考訳) 最近の研究では、合成データセットで訓練されたモデルは、公開現実のデータセットで訓練されたモデルよりも、より一般化可能な人物再識別(GPReID)のパフォーマンスを達成することができることが示されている。 一方、実世界の人物ReIDデータセットの制限のため、個人ReIDアルゴリズムをベンチマークするテストセットとして大規模合成データセットを使用することも重要かつ興味深いだろう。 合成データセットは、一般化可能な人物の再識別のベンチマークに信頼できるのか? 文献にこれを示す証拠はない。 そこで我々は,ペアワイズランキング分析(pra)という手法を考案し,ランキングの類似度を定量的に測定し,同一分布の統計テストを行う。 具体的には,kendallランク相関係数を用いて,異なるデータセット上でのアルゴリズムランキング間の相似性を評価する。 次に、合成データセットと実世界のデータセット間のアルゴリズムの相関関係が同一分布にあるか否かを判定するために、非パラメトリック2サンプルのコルモゴロフ・スミルノフ(KS)試験を行う。 10の代表的なアルゴリズム、人気のある現実世界のReIDデータセット3つ、そして最近リリースされた大規模合成データセット3つで包括的な実験を行います。 ペアワイズランキング分析と包括的評価により,近年の大規模合成データセットクローンは,実世界のデータセットと統計的に同じgpreidのベンチマークに確実に使用することができる。 そこで本研究では,実世界の監視データからプライバシーの懸念を全く受けずに,ソーストレーニングセットとターゲットテストセットの両方に合成データセットを使用することを保証している。 さらに、この研究は、合成データセットの将来の設計を刺激するかもしれない。

Recent studies show that models trained on synthetic datasets are able to achieve better generalizable person re-identification (GPReID) performance than that trained on public real-world datasets. On the other hand, due to the limitations of real-world person ReID datasets, it would also be important and interesting to use large-scale synthetic datasets as test sets to benchmark person ReID algorithms. Yet this raises a critical question: is synthetic dataset reliable for benchmarking generalizable person re-identification? In the literature there is no evidence showing this. To address this, we design a method called Pairwise Ranking Analysis (PRA) to quantitatively measure the ranking similarity and perform the statistical test of identical distributions. Specifically, we employ Kendall rank correlation coefficients to evaluate pairwise similarity values between algorithm rankings on different datasets. Then, a non-parametric two-sample Kolmogorov-Smirnov (KS) test is performed for the judgement of whether algorithm ranking correlations between synthetic and real-world datasets and those only between real-world datasets lie in identical distributions. We conduct comprehensive experiments, with ten representative algorithms, three popular real-world person ReID datasets, and three recently released large-scale synthetic datasets. Through the designed pairwise ranking analysis and comprehensive evaluations, we conclude that a recent large-scale synthetic dataset ClonedPerson can be reliably used to benchmark GPReID, statistically the same as real-world datasets. Therefore, this study guarantees the usage of synthetic datasets for both source training set and target testing set, with completely no privacy concerns from real-world surveillance data. Besides, the study in this paper might also inspire future designs of synthetic datasets.
翻訳日:2022-09-13 13:19:03 公開日:2022-09-12
# 英語、ポルトガル語、スペイン語の語彙単純化ベンチマーク

Lexical Simplification Benchmarks for English, Portuguese, and Spanish ( http://arxiv.org/abs/2209.05301v1 )

ライセンス: Link先を確認
Sanja Stajner, Daniel Ferres, Matthew Shardlow, Kai North, Marcos Zampieri, Horacio Saggion(参考訳) 高度に発達した国でさえ、人口の15-30\%は基本的な語彙で書かれたテキストしか理解できない。 日常的な文章に対する理解は限られており、社会において活発な役割を担い、医療、法的な表現、民主的選択に関する情報的な決定をすることを妨げる。 Lexical simplificationは、複雑な語彙や表現をシンプルに置き換え、本来の意味を保ちながら、テキストを誰でも理解できるようにすることを目的とした自然言語処理タスクである。 過去20年間にかなりの注目を集め、様々な言語で完全に自動化された語彙単純化システムが提案されている。 この分野の進展の主な障害は、語彙的単純化システムの構築と評価のための高品質なデータセットがないことである。 本稿では,英語,スペイン語,(ブラジル語)ポルトガル語における語彙簡略化のための新しいベンチマークデータセットを示し,データ選択とアノテーション手順の詳細を提供する。 これは3つの言語の語彙的単純化システムを直接比較した最初のデータセットである。 データセットのユーザビリティを示すために,異なるアーキテクチャ(ニューラル対ニューラル)を持つ2つの最先端の語彙単純化システムを適用した。 英語、スペイン語、ブラジルポルトガル語の3つの言語すべてに対して、新しいデータセットでのパフォーマンスを評価します。 より公平な比較のために、システムの有効性の様々な側面を捉え、その強みと弱みについて議論するいくつかの評価尺度を用いる。 最先端の神経語彙単純化システムは,3言語すべてで最先端の非神経語彙単純化システムより優れている。 さらに重要なことは、現在最先端の神経語彙の単純化システムは、スペイン語やポルトガル語よりも英語の方がはるかに優れているということです。

Even in highly-developed countries, as many as 15-30\% of the population can only understand texts written using a basic vocabulary. Their understanding of everyday texts is limited, which prevents them from taking an active role in society and making informed decisions regarding healthcare, legal representation, or democratic choice. Lexical simplification is a natural language processing task that aims to make text understandable to everyone by replacing complex vocabulary and expressions with simpler ones, while preserving the original meaning. It has attracted considerable attention in the last 20 years, and fully automatic lexical simplification systems have been proposed for various languages. The main obstacle for the progress of the field is the absence of high-quality datasets for building and evaluating lexical simplification systems. We present a new benchmark dataset for lexical simplification in English, Spanish, and (Brazilian) Portuguese, and provide details about data selection and annotation procedures. This is the first dataset that offers a direct comparison of lexical simplification systems for three languages. To showcase the usability of the dataset, we adapt two state-of-the-art lexical simplification systems with differing architectures (neural vs.\ non-neural) to all three languages (English, Spanish, and Brazilian Portuguese) and evaluate their performances on our new dataset. For a fairer comparison, we use several evaluation measures which capture varied aspects of the systems' efficacy, and discuss their strengths and weaknesses. We find a state-of-the-art neural lexical simplification system outperforms a state-of-the-art non-neural lexical simplification system in all three languages. More importantly, we find that the state-of-the-art neural lexical simplification systems perform significantly better for English than for Spanish and Portuguese.
翻訳日:2022-09-13 13:09:28 公開日:2022-09-12
# 自動規範推論のためのlawalrulemlとtptpの橋渡し(拡張版)

Bridging between LegalRuleML and TPTP for Automated Normative Reasoning (extended version) ( http://arxiv.org/abs/2209.05090v1 )

ライセンス: Link先を確認
Alexander Steen, David Fuenmayor(参考訳) LegalRuleMLは、標準ルールのモデリングと交換のための包括的なXMLベースの表現フレームワークである。 一方、TPTP入力および出力フォーマットは、自動推論システムとのインタラクションのための汎用標準である。 本稿では,2つのコミュニティ間の橋渡しについて述べる。 (i)TPTPフォーマットに基づいた論理多元的規範推論言語を定義する。 (ii)法ルレムの関連断片とこの言語との翻訳スキームの提供及び (iii)この翻訳に基づく自動規範推論のための柔軟なアーキテクチャの提案。 例示的に3つの規範論理を用いてアプローチをインスタンス化し、実証する。

LegalRuleML is a comprehensive XML-based representation framework for modeling and exchanging normative rules. The TPTP input and output formats, on the other hand, are general-purpose standards for the interaction with automated reasoning systems. In this paper we provide a bridge between the two communities by (i) defining a logic-pluralistic normative reasoning language based on the TPTP format, (ii) providing a translation scheme between relevant fragments of LegalRuleML and this language, and (iii) proposing a flexible architecture for automated normative reasoning based on this translation. We exemplarily instantiate and demonstrate the approach with three different normative logics.
翻訳日:2022-09-13 13:08:48 公開日:2022-09-12
# 制限のあるエージェントへのリソース割り当て: 最小妥協による可能性の最大化

Resource Allocation to Agents with Restrictions: Maximizing Likelihood with Minimum Compromise ( http://arxiv.org/abs/2209.05170v1 )

ライセンス: Link先を確認
Yohai Trabelsi, Abhijin Adiga, Sarit Kraus, S.S. Ravi(参考訳) 制約のあるエージェントがリソースを競う多くのシナリオは、二部グラフの最大マッチング問題としてキャストできる。 我々の焦点はリソース割り当ての問題であり、エージェントはリソースとの互換性を損なうような制限を課す可能性がある。 各エージェントがリソースと何らかの確率でマッチするように、原則がランダムに最大マッチングを選択すると仮定する。 エージェントは、一定の範囲内で制限を変更することで、マッチする可能性を改善したい。 原則の目的は、不満足なエージェントに制限を緩和するよう助言し、緩和の総コストが予算の範囲内(エージェントによる調停)であり、リソースを割り当てる確率の増大が最大になるようにすることである。 我々は,この予算制約付き最大化問題のいくつかの変種に対してハードネス結果を確立し,他の変種に対してアルゴリズム的結果を与える。 提案手法は, 総合データセットと, 休暇活動データセットと教室データセットの2つの新しい実世界データセットについて実験的に評価した。

Many scenarios where agents with restrictions compete for resources can be cast as maximum matching problems on bipartite graphs. Our focus is on resource allocation problems where agents may have restrictions that make them incompatible with some resources. We assume that a Principle chooses a maximum matching randomly so that each agent is matched to a resource with some probability. Agents would like to improve their chances of being matched by modifying their restrictions within certain limits. The Principle's goal is to advise an unsatisfied agent to relax its restrictions so that the total cost of relaxation is within a budget (chosen by the agent) and the increase in the probability of being assigned a resource is maximized. We establish hardness results for some variants of this budget-constrained maximization problem and present algorithmic results for other variants. We experimentally evaluate our methods on synthetic datasets as well as on two novel real-world datasets: a vacation activities dataset and a classrooms dataset.
翻訳日:2022-09-13 13:08:41 公開日:2022-09-12
# ヒューマンオペレーターと仮想エージェントを組み合わせた効率的な顧客サービス

Efficient Customer Service Combining Human Operators and Virtual Agents ( http://arxiv.org/abs/2209.05226v1 )

ライセンス: Link先を確認
Yaniv Oshrat, Yonatan Aumann, Tal Hollander, Oleg Maksimov, Anita Ostroumov, Natali Shechtman, Sarit Kraus(参考訳) 人間のオペレータと仮想エージェント(ボット)を、クライアントに適切な顧客サービスを提供する効果的なハイブリッドシステムに組み込むことは、有望である。 このハイブリッドシステムは、ボットが適切なサービスを提供することができない場合に顧客のフラストレーションを減少させ、人間のオペレータと対話したいときに満足度を高める。 さらに,仮想エージェントが人間の操作者から漸進的に学習できるようにすることにより,このような仮想エージェントの構築・維持のコストと労力を削減できることが示唆された。 このようなハイブリッドシステムの動作と効率を規定する重要なパラメータを特定し、サービスを改善するために最適化すべき主なパラメータを決定するためにキュー理論を用いる。 パラメータの適切な選択により、これらのハイブリッドシステムは、期待される待ち時間と満足度を同時に減少させながら、提供されたクライアントの数を増やすことができる。

The prospect of combining human operators and virtual agents (bots) into an effective hybrid system that provides proper customer service to clients is promising yet challenging. The hybrid system decreases the customers' frustration when bots are unable to provide appropriate service and increases their satisfaction when they prefer to interact with human operators. Furthermore, we show that it is possible to decrease the cost and efforts of building and maintaining such virtual agents by enabling the virtual agent to incrementally learn from the human operators. We employ queuing theory to identify the key parameters that govern the behavior and efficiency of such hybrid systems and determine the main parameters that should be optimized in order to improve the service. We formally prove, and demonstrate in extensive simulations and in a user study, that with the proper choice of parameters, such hybrid systems are able to increase the number of served clients while simultaneously decreasing their expected waiting time and increasing satisfaction.
翻訳日:2022-09-13 13:08:26 公開日:2022-09-12
# CSL: 大規模中国の科学文献データセット

CSL: A Large-scale Chinese Scientific Literature Dataset ( http://arxiv.org/abs/2209.05034v1 )

ライセンス: Link先を確認
Yudong Li, Yuqing Zhang, Zhe Zhao, Linlin Shen, Weijie Liu, Weiquan Mao, and Hui Zhang(参考訳) 科学文献は高品質なコーパスとして機能し、多くの自然言語処理(NLP)研究を支援している。 しかし、既存のデータセットは、中国科学NLPの発展を制限する英語を中心にしている。 本研究では,396k論文のタイトル,要約,キーワード,学術分野を含む大規模中国科学文献データセットであるCSLについて述べる。 我々の知る限り、CSLは中国初の科学的文書データセットである。 CSLは中国のコーパスとして機能する。 また、この半構造化データは、多くの教師付きNLPタスクを構成することができる自然なアノテーションである。 cslに基づいて,科学的領域タスク,すなわち要約,キーワード生成,テキスト分類におけるモデルの性能評価を行うベンチマークを示す。 評価タスクにおける既存のテキスト・テキスト・モデルの振る舞いを分析し,中国科学NLPタスクの課題を明らかにする。 データとコードはhttps://github.com/ydli-ai/CSLで入手できる。

Scientific literature serves as a high-quality corpus, supporting a lot of Natural Language Processing (NLP) research. However, existing datasets are centered around the English language, which restricts the development of Chinese scientific NLP. In this work, we present CSL, a large-scale Chinese Scientific Literature dataset, which contains the titles, abstracts, keywords and academic fields of 396k papers. To our knowledge, CSL is the first scientific document dataset in Chinese. The CSL can serve as a Chinese corpus. Also, this semi-structured data is a natural annotation that can constitute many supervised NLP tasks. Based on CSL, we present a benchmark to evaluate the performance of models across scientific domain tasks, i.e., summarization, keyword generation and text classification. We analyze the behavior of existing text-to-text models on the evaluation tasks and reveal the challenges for Chinese scientific NLP tasks, which provides a valuable reference for future research. Data and code are available at https://github.com/ydli-ai/CSL
翻訳日:2022-09-13 13:02:22 公開日:2022-09-12
# 意味保存型逆コード理解

Semantic-Preserving Adversarial Code Comprehension ( http://arxiv.org/abs/2209.05130v1 )

ライセンス: Link先を確認
Yiyang Li, Hongqiu Wu, Hai Zhao(参考訳) ソースコード理解タスクにおける事前学習言語モデル(PrLM)の驚異的な成功に基づいて、現在の文献研究は、PrLMの性能(一般化)をさらに向上する方法や、敵の攻撃に対する堅牢性について研究している。 しかし、両面間のトレードオフを妥協し、双方を効果的かつ実用的な方法で改善することを検討する者はいない。 このギャップを埋めるために、私たちは、最悪ケースのセマンティック保存コード埋め込み(SPACE)を提案し、最悪のケースではモデルに正しいラベルを予測させながら、最悪のケースのセマンティック保存攻撃を見つけます。 実験と分析により、SPACEは、コードに対するPrLMのパフォーマンスを高めながら、最先端の攻撃に対して堅牢であることを示す。

Based on the tremendous success of pre-trained language models (PrLMs) for source code comprehension tasks, current literature studies either ways to further improve the performance (generalization) of PrLMs, or their robustness against adversarial attacks. However, they have to compromise on the trade-off between the two aspects and none of them consider improving both sides in an effective and practical way. To fill this gap, we propose Semantic-Preserving Adversarial Code Embeddings (SPACE) to find the worst-case semantic-preserving attacks while forcing the model to predict the correct labels under these worst cases. Experiments and analysis demonstrate that SPACE can stay robust against state-of-the-art attacks while boosting the performance of PrLMs for code.
翻訳日:2022-09-13 13:02:10 公開日:2022-09-12
# Follow-Ups Likelihood を用いたオープンドメインダイアログ評価

Open-Domain Dialog Evaluation using Follow-Ups Likelihood ( http://arxiv.org/abs/2209.05185v1 )

ライセンス: Link先を確認
Maxime De Bruyn, Ehsan Lotfi, Jeska Buhmann, Walter Daelemans(参考訳) オープンドメインダイアログの自動評価は未解決の問題である。 また,既存の手法は人間のアノテーションと強く相関しない。 本稿では,フォローアップを用いた新たな自動評価手法を提案する: 言語モデルが一定組のフォローアップと会話を続ける確率を測定する(例えば,ここでは本当に関係がない,何を言いたいのか,など)。 既存の12の手法と比較すると,人間の評価と高い相関性が得られる。

Automatic evaluation of open-domain dialogs remains an unsolved problem. Moreover, existing methods do not correlate strongly with human annotations. This paper presents a new automated evaluation method using follow-ups: we measure the probability that a language model will continue the conversation with a fixed set of follow-ups (e.g., not really relevant here, what are you trying to say). When compared against twelve existing methods, our new evaluation achieves the highest correlation with human evaluations.
翻訳日:2022-09-13 13:01:56 公開日:2022-09-12
# 言語フラクタルによる危険事象の分類

Classification of hazard event via language fractal ( http://arxiv.org/abs/2209.05263v1 )

ライセンス: Link先を確認
Zhenhua Wang, Dong Gao, Bin Wang, Ming Ren(参考訳) HAZOPは産業の危険を明らかにするための安全パラダイムであり、報告書は有害事象(HaE)をカバーしている。 HaE分類の研究は、置換不可能な実用値を持っている。 しかし、この話題にそれほど注意を払っていない。 本稿では,言語の観点からのフラクタル法によるHaE分類を探索するために,DLFと呼ばれる新しい深層学習モデルを提案する。 その動機は、(1)HaEは自然に時系列の一種とみなすことができ、(2)HaEの意味は単語配列によって駆動されるということである。 具体的には、まずBERTを使ってHaEをベクトル化する。 次に,HmF-DFAと呼ばれる新しいマルチフラクタル手法を提案し,時系列と見なされるHaEベクトルを解析してHaEフラクタル系列を計算する。 最後に,新たな階層型ゲーティングニューラルネットワーク(hgnn)を設計し,haeフラクタル系列を処理し,haeの分類を行う。 ケーススタディには18のプロセスが必要です。 実験はHAZOPレポートに基づいて開始する。 実験の結果,dlf分類器は満足でき,有望であり,提案するhmf-dfaとhgnnは有効であり,haeへの言語フラクタルの導入は可能であった。 私たちのHaE分類システムは、HAZOPに役立ち、専門家、エンジニア、従業員、その他の企業にアプリケーションインセンティブをもたらします。 我々は,産業安全とフラクタル理論の日々の実践に,我々の研究が貢献できることを願っている。

HAZOP is a safety paradigm undertaken to reveal hazards in industry, its report covers valuable hazard events (HaE). The research on HaE classification has much irreplaceable pragmatic values. However, no study has paid such attention to this topic. In this paper, we present a novel deep learning model termed DLF to explore the HaE classification through fractal method from the perspective of language. The motivation is that (1): HaE can be naturally regarded as a kind of time series; (2): the meaning of HaE is driven by word arrangement. Specifically, first we employ BERT to vectorize HaE. Then, we propose a new multifractal method termed HmF-DFA to calculate HaE fractal series by analyzing the HaE vector who is regarded as a time series. Finally, we design a new hierarchical gating neural network (HGNN) to process the HaE fractal series to accomplish the classification of HaE. We take 18 processes for case study. We launch the experiment on the basis of their HAZOP reports. Experimental results demonstrate that our DLF classifier is satisfactory and promising, the proposed HmF-DFA and HGNN are effective, and the introduction of language fractal into HaE is feasible. Our HaE classification system can serve HAZOP and bring application incentives to experts, engineers, employees, and other enterprises, which is conducive to the intelligent development of industrial safety. We hope our research can contribute added support to the daily practice in industrial safety and fractal theory.
翻訳日:2022-09-13 13:01:49 公開日:2022-09-12
# deck: テキストから抑うつを検出するbertモデルの解釈性と一般化性を改善する行動テスト

DECK: Behavioral Tests to Improve Interpretability and Generalizability of BERT Models Detecting Depression from Text ( http://arxiv.org/abs/2209.05286v1 )

ライセンス: Link先を確認
Jekaterina Novikova, Ksenia Shkaruta(参考訳) テキストからうつ病を正確に検出するモデルは、パンデミック後の精神疾患に対処するための重要なツールである。 BERTベースの分類器の有望な性能と市販の可用性は、このタスクの優れた候補となる。 しかし、これらのモデルは性能の矛盾や一般化の貧弱さに苦しむことが知られている。 本稿では,抑うつ領域における BERT 分類器の解釈性の向上と一般化性の向上を可能にする抑うつ特異的モデル行動テストである DECK (Depression ChecKlist) を紹介する。 我々は、BERT、RoBERTa、ALBERTのうつ病分類器を3つのデータセット、Twitterベース2つ、臨床インタビューベース1つで評価するために23のテストを作成します。 私たちの評価は これらのモデルが 1) テキストの性別に敏感な変化に対して堅牢である。 2) 第一人称代名詞の使用の増加に関する重要な抑うつ的言語マーカー 3) 自殺思考などの他のうつ症状は検出できない。 また、DCKテストは、トレーニングデータに症状特異的情報を組み込んで、3つのBERTモデルの一般化性を一貫して改善し、配布外F1スコアは最大53.93%向上することを示した。

Models that accurately detect depression from text are important tools for addressing the post-pandemic mental health crisis. BERT-based classifiers' promising performance and the off-the-shelf availability make them great candidates for this task. However, these models are known to suffer from performance inconsistencies and poor generalization. In this paper, we introduce the DECK (DEpression ChecKlist), depression-specific model behavioural tests that allow better interpretability and improve generalizability of BERT classifiers in depression domain. We create 23 tests to evaluate BERT, RoBERTa and ALBERT depression classifiers on three datasets, two Twitter-based and one clinical interview-based. Our evaluation shows that these models: 1) are robust to certain gender-sensitive variations in text; 2) rely on the important depressive language marker of the increased use of first person pronouns; 3) fail to detect some other depression symptoms like suicidal ideation. We also demonstrate that DECK tests can be used to incorporate symptom-specific information in the training data and consistently improve generalizability of all three BERT models, with an out-of-distribution F1-score increase of up to 53.93%.
翻訳日:2022-09-13 13:01:25 公開日:2022-09-12
# DoubleMix: テキスト分類のための単純な補間に基づくデータ拡張

DoubleMix: Simple Interpolation-Based Data Augmentation for Text Classification ( http://arxiv.org/abs/2209.05297v1 )

ライセンス: Link先を確認
Hui Chen, Wei Han, Diyi Yang, Soujanya Poria(参考訳) 本稿では,テキスト分類におけるモデルのロバスト性を改善するために,DoubleMixと呼ばれる単純な補間に基づくデータ拡張手法を提案する。 DoubleMixはまず、いくつかの単純な拡張操作を活用して、トレーニングデータごとにいくつかの摂動サンプルを生成し、次に摂動データと元のデータを使用して、隠れたニューラルネットワーク空間で2段階の補間を実行する。 具体的には、まず摂動データを合成サンプルに混合し、それから元のデータと合成摂動データとを混合する。 doublemixは、隠れた空間で"シフト"機能を学習することで、モデルの堅牢性を高める。 6つのテキスト分類ベンチマークデータセットにおいて,本手法はトークンレベル,文レベル,隠れレベルデータ拡張技術など,いくつかの一般的なテキスト拡張手法よりも優れている。 また,低リソース環境での実験では,トレーニングデータが少ない場合,モデルの性能が一貫して向上することを示す。 広範なアブレーション研究とケーススタディにより,我々のアプローチのそれぞれのコンポーネントが最終性能に寄与することを確認し,挑戦的な反例において優れた性能を示すことが示された。 さらに,視覚解析により,提案手法が生成するテキスト機能は,高い解釈性を示す。 この論文のコードはhttps://github.com/declare-lab/doublemix.gitで確認できます。

This paper proposes a simple yet effective interpolation-based data augmentation approach termed DoubleMix, to improve the robustness of models in text classification. DoubleMix first leverages a couple of simple augmentation operations to generate several perturbed samples for each training data, and then uses the perturbed data and original data to carry out a two-step interpolation in the hidden space of neural models. Concretely, it first mixes up the perturbed data to a synthetic sample and then mixes up the original data and the synthetic perturbed data. DoubleMix enhances models' robustness by learning the "shifted" features in hidden space. On six text classification benchmark datasets, our approach outperforms several popular text augmentation methods including token-level, sentence-level, and hidden-level data augmentation techniques. Also, experiments in low-resource settings show our approach consistently improves models' performance when the training data is scarce. Extensive ablation studies and case studies confirm that each component of our approach contributes to the final performance and show that our approach exhibits superior performance on challenging counterexamples. Additionally, visual analysis shows that text features generated by our approach are highly interpretable. Our code for this paper can be found at https://github.com/declare-lab/DoubleMix.git.
翻訳日:2022-09-13 13:01:06 公開日:2022-09-12
# 制御のための統計的学習理論:有限サンプル視点

Statistical Learning Theory for Control: A Finite Sample Perspective ( http://arxiv.org/abs/2209.05423v1 )

ライセンス: Link先を確認
Anastasios Tsiamis, Ingvar Ziemann, Nikolai Matni, George J. Pappas(参考訳) このチュートリアル調査は、制御とシステム同定に関連する統計学習理論における最近の非漸近的進歩の概要を提供する。 制御のあらゆる領域でかなりの進歩があったが、この理論は線形系同定と線形二次制御器の学習において最もよく発達しており、これはこの写本の焦点である。 理論的な見地からすると、これらの進歩の根底にある多くの労力は、現代の高次元統計学と学習理論からのツールの適応であった。 機械学習からツールを統合することに関心のある制御理論家には非常に関係があるが、基礎となる材料は必ずしも容易にアクセスできない。 これに対処するため、我々は、最近の結果を支えるすべての重要なアイデアと技術機械を概説し、関連する資料の自己完結したプレゼンテーションを提供する。 オープンな問題や今後の方向性もいくつか紹介します。

This tutorial survey provides an overview of recent non-asymptotic advances in statistical learning theory as relevant to control and system identification. While there has been substantial progress across all areas of control, the theory is most well-developed when it comes to linear system identification and learning for the linear quadratic regulator, which are the focus of this manuscript. From a theoretical perspective, much of the labor underlying these advances has been in adapting tools from modern high-dimensional statistics and learning theory. While highly relevant to control theorists interested in integrating tools from machine learning, the foundational material has not always been easily accessible. To remedy this, we provide a self-contained presentation of the relevant material, outlining all the key ideas and the technical machinery that underpin recent results. We also present a number of open problems and future directions.
翻訳日:2022-09-13 12:57:46 公開日:2022-09-12
# TMSS:セグメンテーションと生存予測のためのエンドツーエンドトランスフォーマーベースのマルチモーダルネットワーク

TMSS: An End-to-End Transformer-based Multimodal Network for Segmentation and Survival Prediction ( http://arxiv.org/abs/2209.05036v1 )

ライセンス: Link先を確認
Numan Saeed, Ikboljon Sobirov, Roba Al Majzoub, Mohammad Yaqub(参考訳) 腫瘍学者はがん患者の生存を見積もると、マルチモーダルデータに依存する。 文献ではいくつかのマルチモーダル深層学習法が提案されているが、大半はモデル全体の後半段階で知識を共有する2つ以上の独立したネットワークを持つことに依存している。 一方、腫瘍学者は分析においてこれをせず、医療画像や患者の歴史などの複数の情報源から脳内の情報を抽出する。 本研究は,がんの定量化と患者の生存率推定において,腫瘍学者の分析行動を模倣する深層学習手法を提案する。 本稿では,変圧器の高次性を利用して異なるモダリティを処理可能な,エンドツーエンドの変圧器ベースのマルチモーダルネットワークTMSSを提案する。 このモデルは、HECKTOR(PET/CT画像チャレンジ)におけるHEAD & NeCK Tumorセグメンテーションと結果予測から、トレーニングデータセットのセグメンテーションと予後タスクを訓練し、検証した。 提案手法は, 独立セグメンテーションモデルに対して0.772+/-0.030のダイススコアを達成しつつ, 一致率0.763+/-0.14の最先端手法を著しく上回ることを示す。 コードは公開されている。

When oncologists estimate cancer patient survival, they rely on multimodal data. Even though some multimodal deep learning methods have been proposed in the literature, the majority rely on having two or more independent networks that share knowledge at a later stage in the overall model. On the other hand, oncologists do not do this in their analysis but rather fuse the information in their brain from multiple sources such as medical images and patient history. This work proposes a deep learning method that mimics oncologists' analytical behavior when quantifying cancer and estimating patient survival. We propose TMSS, an end-to-end Transformer based Multimodal network for Segmentation and Survival prediction that leverages the superiority of transformers that lies in their abilities to handle different modalities. The model was trained and validated for segmentation and prognosis tasks on the training dataset from the HEad & NeCK TumOR segmentation and the outcome prediction in PET/CT images challenge (HECKTOR). We show that the proposed prognostic model significantly outperforms state-of-the-art methods with a concordance index of 0.763+/-0.14 while achieving a comparable dice score of 0.772+/-0.030 to a standalone segmentation model. The code is publicly available.
翻訳日:2022-09-13 12:51:16 公開日:2022-09-12
# 鳥の目視知覚の悪魔に夢中になる: レビュー, 評価と準備

Delving into the Devils of Bird's-eye-view Perception: A Review, Evaluation and Recipe ( http://arxiv.org/abs/2209.05324v1 )

ライセンス: Link先を確認
Hongyang Li, Chonghao Sima, Jifeng Dai, Wenhai Wang, Lewei Lu, Huijie Wang, Enze Xie, Zhiqi Li, Hanming Deng, Hao Tian, Xizhou Zhu, Li Chen, Yulu Gao, Xiangwei Geng, Jia Zeng, Yang Li, Jiazhi Yang, Xiaosong Jia, Bohan Yu, Yu Qiao, Dahua Lin, Si Liu, Junchi Yan, Jianping Shi and Ping Luo(参考訳) 鳥眼視(BEV)における知覚タスクの強力な表現の学習は、産業と学界の両方から注目されつつある。 ほとんどの自律運転アルゴリズムに対する従来のアプローチは、フロントまたはビュービューで検出、セグメンテーション、トラッキングなどを行う。 センサーの構成が複雑化するにつれて、異なるセンサーからの複数のソース情報の統合と、統一されたビューにおける特徴の表現が重要になる。 BEVの周囲のシーンは直感的で融合しやすいため、BEVの知覚はいくつかの利点を継承している。 BEVの知覚における中核的な問題は (a)ビュービューからBEVへのビュートランスフォーメーションによる失われた3D情報の再構築方法 b) bevグリッドにおける根拠真理アノテーションの取得方法 (c)異なるソースやビューの機能を組み込むためのパイプラインの定式化方法、及び (d) センサ構成によるアルゴリズムの適応と一般化の方法は、様々なシナリオで異なる。 本稿では,BEVの認知に関する最近の研究を概観し,様々なソリューションの詳細な分析を行う。 さらに、業界からのBEVアプローチの体系的な設計もいくつか紹介されている。 さらに,カメラ,LiDAR,融合入力など,BEV知覚タスクの性能向上のための実用的なガイドブックも紹介した。 最後に,この領域における今後の研究の方向性を指摘する。 このレポートがコミュニティに光を当て、BEVの認識に関するさらなる研究を奨励することを期待しています。 最新の作業を収集するためにアクティブリポジトリを保持し、https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipeでトリックの袋を提供する。

Learning powerful representations in bird's-eye-view (BEV) for perception tasks is trending and drawing extensive attention both from industry and academia. Conventional approaches for most autonomous driving algorithms perform detection, segmentation, tracking, etc., in a front or perspective view. As sensor configurations get more complex, integrating multi-source information from different sensors and representing features in a unified view come of vital importance. BEV perception inherits several advantages, as representing surrounding scenes in BEV is intuitive and fusion-friendly; and representing objects in BEV is most desirable for subsequent modules as in planning and/or control. The core problems for BEV perception lie in (a) how to reconstruct the lost 3D information via view transformation from perspective view to BEV; (b) how to acquire ground truth annotations in BEV grid; (c) how to formulate the pipeline to incorporate features from different sources and views; and (d) how to adapt and generalize algorithms as sensor configurations vary across different scenarios. In this survey, we review the most recent work on BEV perception and provide an in-depth analysis of different solutions. Moreover, several systematic designs of BEV approach from the industry are depicted as well. Furthermore, we introduce a full suite of practical guidebook to improve the performance of BEV perception tasks, including camera, LiDAR and fusion inputs. At last, we point out the future research directions in this area. We hope this report would shed some light on the community and encourage more research effort on BEV perception. We keep an active repository to collect the most recent work and provide a toolbox for bag of tricks at https://github.com/OpenPerceptionX/BEVPerception-Survey-Recipe.
翻訳日:2022-09-13 12:50:52 公開日:2022-09-12
# ホロスティックセグメンテーション

Holistic Segmentation ( http://arxiv.org/abs/2209.05407v1 )

ライセンス: Link先を確認
Stefano Gasperini, Frithjof Winkelmann, Alvaro Marcos-Ramiro, Micheal Schmidt, Nassir Navab, Benjamin Busam, Federico Tombari(参考訳) パノプティカルセグメンテーションは入力、非標準および見えないオブジェクトの各ピクセルの予測を体系的に間違った出力に導く。 しかし、安全クリティカルな環境では、動物や道路上の失われた貨物を無視するといった危険な行動を避けるために、分散サンプルやコーナーケースに対する堅牢性が不可欠である。 データセットを駆動することは、基礎となるディストリビューションの長い尾を適切にサンプリングするのに十分なデータポイントを含むことができないため、メソッドは安全に配置される未知のシナリオに対処する必要がある。 それまでの方法は、未表示のオブジェクトを再識別することで、この問題の一部をターゲットにしていた。 本研究では、未知の未知のオブジェクトを未知のクラスから学習することなく、未知のオブジェクトをインスタンスに識別・分離するタスクを、既知のクラスの単視的セグメンテーションを実行しながら、包括的セグメンテーションを提案する。 U3HSは、まず未知を非常に不確実な領域として見つけ、次に対応するインスタンス認識の埋め込みを個々のオブジェクトにクラスタ化する。 そうすることで、未知のオブジェクトでパンオプティカルセグメンテーションで初めて、我々のu3hsは未知のデータでトレーニングされないため、オブジェクトのタイプに関して設定が制約されず、総合的なシーン理解が可能になります。 cityscapesとlost&found as a transferという2つのパブリックデータセットに関する広範な実験と比較は、競合するクローズドセットのpanopticセグメンテーション性能を持つ、全体的セグメンテーションの課題におけるu3hsの有効性を示している。

As panoptic segmentation provides a prediction for every pixel in input, non-standard and unseen objects systematically lead to wrong outputs. However, in safety-critical settings, robustness against out-of-distribution samples and corner cases is crucial to avoid dangerous behaviors, such as ignoring an animal or a lost cargo on the road. Since driving datasets cannot contain enough data points to properly sample the long tail of the underlying distribution, a method must deal with unknown and unseen scenarios to be deployed safely. Previous methods targeted part of this issue, by re-identifying already seen unlabeled objects. In this work, we broaden the scope proposing holistic segmentation: a task to identify and separate unseen unknown objects into instances, without learning from unknowns, while performing panoptic segmentation of known classes. We tackle this new problem with U3HS, which first finds unknowns as highly uncertain regions, then clusters the corresponding instance-aware embeddings into individual objects. By doing so, for the first time in panoptic segmentation with unknown objects, our U3HS is not trained with unknown data, thus leaving the settings unconstrained with respect to the type of objects and allowing for a holistic scene understanding. Extensive experiments and comparisons on two public datasets, namely Cityscapes and Lost&Found as a transfer, demonstrate the effectiveness of U3HS in the challenging task of holistic segmentation, with competitive closed-set panoptic segmentation performance.
翻訳日:2022-09-13 12:50:22 公開日:2022-09-12
# 2次元自由ハンド超音波脳画像の適応的3次元定位

Adaptive 3D Localization of 2D Freehand Ultrasound Brain Images ( http://arxiv.org/abs/2209.05477v1 )

ライセンス: Link先を確認
Pak-Hei Yeung, Moska Aliasi, Monique Haak, The INTERGROWTH-21st Consortium, Weidi Xie, Ana I.L. Namburete(参考訳) 2次元フリーハンド超音波は、出生前ケアと胎児成長モニタリングのメインステイである。 2次元超音波脳スキャンの3次元解剖学における対応する断面面のマッチングは、フリーハンドスキャンには不可欠だが、難しい。 外部追跡センサを使わずに3次元解剖学的アトラス内に2次元超音波像を適応的に局在させるフレームワークであるAdLocUIを提案する。 . まず,2次元スライスを用いた畳み込みニューラルネットワークの訓練を行い,3次元解剖学的アトラスの位置を推定した。 次に,3次元解剖学的アトラスにおける画像列全体の変位が,第1の画像から第1画像への変位と等しくなることを生かした,新しい非教師付きサイクル一貫性を用いて2次元自由手超音波画像で微調整する。 我々は,AdLocUIが3つの異なる超音波データセットに適応し,異なるマシンやプロトコルで取得し,ベースラインよりもはるかに優れたローカライゼーション精度を実現することを実証した。 AdLocUIは、ベッドサイドによるセンサレス2D超音波誘導に使用できる。 ソースコードはhttps://github.com/pakheiyeung/AdLocUIで入手できる。

Two-dimensional (2D) freehand ultrasound is the mainstay in prenatal care and fetal growth monitoring. The task of matching corresponding cross-sectional planes in the 3D anatomy for a given 2D ultrasound brain scan is essential in freehand scanning, but challenging. We propose AdLocUI, a framework that Adaptively Localizes 2D Ultrasound Images in the 3D anatomical atlas without using any external tracking sensor.. We first train a convolutional neural network with 2D slices sampled from co-aligned 3D ultrasound volumes to predict their locations in the 3D anatomical atlas. Next, we fine-tune it with 2D freehand ultrasound images using a novel unsupervised cycle consistency, which utilizes the fact that the overall displacement of a sequence of images in the 3D anatomical atlas is equal to the displacement from the first image to the last in that sequence. We demonstrate that AdLocUI can adapt to three different ultrasound datasets, acquired with different machines and protocols, and achieves significantly better localization accuracy than the baselines. AdLocUI can be used for sensorless 2D freehand ultrasound guidance by the bedside. The source code is available at https://github.com/pakheiyeung/AdLocUI.
翻訳日:2022-09-13 12:49:55 公開日:2022-09-12
# 構造力学のトポロジ的データ解析について : 永続ホモロジー入門

On topological data analysis for structural dynamics: an introduction to persistent homology ( http://arxiv.org/abs/2209.05134v1 )

ライセンス: Link先を確認
Tristan Gowdridge, Nikolaos Dervilis, Keith Worden(参考訳) トポロジカルなメソッドは、見過ごされる可能性のある新しいメトリクスとデータの精査方法を提案する方法を提供することができる。 本研究では、トポロジカルデータ解析と呼ばれるトピックを用いて、データの形状を定量化する手法を提案する。 トポロジカルデータ分析(TDA)の主要なツールは、永続的ホモロジーである。 永続ホモロジー(Persistent homology)は、長さのスケールでデータの形状を定量化する手法である。 本研究では, 持続的ホモロジーの計算に必要な背景と計算方法について概説する。 トポロジカルデータ解析の考え方は、それらの埋め込み次元を計算し、それらの一般的なトポロジを評価することによって、いくつかの一般的なアトラクションを解析するために非線形力学に使用される。 時間遅延埋め込みの最適遅延を決定するためにトポロジカルデータ解析を用いる手法も提案する。 TDAはまた、構造的健康モニタリングにおけるZ24 Bridgeのケーススタディにも適用され、データ収集条件によって分類された異なるデータパーティションの精査に使用される。 トポロジカルデータ解析のメトリクスは、パーティション間のデータを比較するために使用される。 その結果,損傷の存在は温度の影響よりも多様体形状を著しく変化させることがわかった。

Topological methods can provide a way of proposing new metrics and methods of scrutinising data, that otherwise may be overlooked. In this work, a method of quantifying the shape of data, via a topic called topological data analysis will be introduced. The main tool within topological data analysis (TDA) is persistent homology. Persistent homology is a method of quantifying the shape of data over a range of length scales. The required background and a method of computing persistent homology is briefly discussed in this work. Ideas from topological data analysis are then used for nonlinear dynamics to analyse some common attractors, by calculating their embedding dimension, and then to assess their general topologies. A method will also be proposed, that uses topological data analysis to determine the optimal delay for a time-delay embedding. TDA will also be applied to a Z24 Bridge case study in structural health monitoring, where it will be used to scrutinise different data partitions, classified by the conditions at which the data were collected. A metric, from topological data analysis, is used to compare data between the partitions. The results presented demonstrate that the presence of damage alters the manifold shape more significantly than the effects present from temperature.
翻訳日:2022-09-13 12:49:20 公開日:2022-09-12
# 3次元等分散による自己教師ありワイドベースライン視覚サーボ

Self-supervised Wide Baseline Visual Servoing via 3D Equivariance ( http://arxiv.org/abs/2209.05432v1 )

ライセンス: Link先を確認
Jinwook Huh, Jungseok Hong, Suveer Garg, Hyun Soo Park, and Volkan Isler(参考訳) 視覚サーボの難しい入力設定の1つは、初期と目標のカメラビューが遠く離れているときです。 このような設定は、広い基準線がオブジェクトの外観の劇的な変化を引き起こし、閉塞を引き起こすため困難である。 本稿では,3次元の地中真理監督を必要としない広視野ベースライン画像に対する自己監督型ビジュアルサーボ手法を提案する。 オブジェクトに対して絶対カメラが作用する既存のアプローチでは、3Dバウンディングボックスやメッシュの形式でオブジェクトの3D地上真実データが必要となる。 我々は、3D同値と呼ばれる幾何学的特性を利用してコヒーレントな視覚表現を学習し、その表現は3D変換の関数として予測可能な方法で変換される。 特徴空間が基礎となる測地線空間に忠実であることを保証するため、測地線保存制約を同値性とともに適用する。 我々は,これら2つの幾何学的特性を3次元の監督を必要とせずに効果的に実施できるシームズネットワークを設計する。 学習モデルでは、学習空間の勾配に従うだけで相対変換を推測することができ、閉ループ視覚サーボのフィードバックとして使用できる。 提案手法は,YCBデータセットから得られたオブジェクトに対して評価を行い,視覚サーボタスクや3D監視を用いた最先端手法に対するオブジェクトアライメントタスクにおいて有意義な性能を示す。 平均誤差が35%以上減少し,90%以上の成功率と3cmの誤差耐性が得られた。

One of the challenging input settings for visual servoing is when the initial and goal camera views are far apart. Such settings are difficult because the wide baseline can cause drastic changes in object appearance and cause occlusions. This paper presents a novel self-supervised visual servoing method for wide baseline images which does not require 3D ground truth supervision. Existing approaches that regress absolute camera pose with respect to an object require 3D ground truth data of the object in the forms of 3D bounding boxes or meshes. We learn a coherent visual representation by leveraging a geometric property called 3D equivariance-the representation is transformed in a predictable way as a function of 3D transformation. To ensure that the feature-space is faithful to the underlying geodesic space, a geodesic preserving constraint is applied in conjunction with the equivariance. We design a Siamese network that can effectively enforce these two geometric properties without requiring 3D supervision. With the learned model, the relative transformation can be inferred simply by following the gradient in the learned space and used as feedback for closed-loop visual servoing. Our method is evaluated on objects from the YCB dataset, showing meaningful outperformance on a visual servoing task, or object alignment task with respect to state-of-the-art approaches that use 3D supervision. Ours yields more than 35% average distance error reduction and more than 90% success rate with 3cm error tolerance.
翻訳日:2022-09-13 12:46:30 公開日:2022-09-12
# コミュニケーション圧縮による個人化フェデレーション学習

Personalized Federated Learning with Communication Compression ( http://arxiv.org/abs/2209.05148v1 )

ライセンス: Link先を確認
El Houcine Bergou, Konstantin Burlachenko, Aritra Dutta, Peter Richt\'arik(参考訳) データセンターにおける従来の機械学習(ML)モデルのトレーニングとは対照的に、フェデレーション学習(FL)は、リソース制約のある異種エッジデバイスに含まれるローカルデータセット上でMLモデルをトレーニングする。 既存のflアルゴリズムは、参加するすべてのデバイスに対して単一のグローバルモデルを学ぶことを目的としている。 hanzely と richt\'{a}rik (2020) は、従来のグローバルモデルと個々のデバイスでプライベートデータのみを使用してトレーニング可能なローカルモデルとのトレードオフをバランスさせることを目的とした、パーソナライズされたflモデルのトレーニングのための新しい定式化を提案した。 彼らはLoopless Gradient Descent (L2GD)と呼ばれる新しいアルゴリズムを考案し、このアルゴリズムがよりパーソナライズが必要な場合の通信複雑性の保証を改善することを示した。 本稿では,l2gdアルゴリズムに双方向圧縮機構を導入することで,ローカルデバイスとサーバ間の通信ボトルネックをさらに低減する。 fl設定で使用される他の圧縮ベースのアルゴリズムとは異なり、我々の圧縮l2gdアルゴリズムは、固定されたスケジュールで通信が起こらない確率的通信プロトコルで動作する。 さらに,圧縮されたL2GDアルゴリズムは圧縮のないバニラSGDと同様の収束率を維持する。 提案アルゴリズムの有効性を実証的に検証するために, 凸問題と非凸問題の両方について多種多様な数値実験を行った。

In contrast to training traditional machine learning (ML) models in data centers, federated learning (FL) trains ML models over local datasets contained on resource-constrained heterogeneous edge devices. Existing FL algorithms aim to learn a single global model for all participating devices, which may not be helpful to all devices participating in the training due to the heterogeneity of the data across the devices. Recently, Hanzely and Richt\'{a}rik (2020) proposed a new formulation for training personalized FL models aimed at balancing the trade-off between the traditional global model and the local models that could be trained by individual devices using their private data only. They derived a new algorithm, called Loopless Gradient Descent (L2GD), to solve it and showed that this algorithms leads to improved communication complexity guarantees in regimes when more personalization is required. In this paper, we equip their L2GD algorithm with a bidirectional compression mechanism to further reduce the communication bottleneck between the local devices and the server. Unlike other compression-based algorithms used in the FL-setting, our compressed L2GD algorithm operates on a probabilistic communication protocol, where communication does not happen on a fixed schedule. Moreover, our compressed L2GD algorithm maintains a similar convergence rate as vanilla SGD without compression. To empirically validate the efficiency of our algorithm, we perform diverse numerical experiments on both convex and non-convex problems and using various compression techniques.
翻訳日:2022-09-13 12:44:53 公開日:2022-09-12
# ネットワークフローのグラフニューラルモデリング

Graph Neural Modeling of Network Flows ( http://arxiv.org/abs/2209.05208v1 )

ライセンス: Link先を確認
Victor-Alexandru Darvariu, Stephen Hailes, Mirco Musolesi(参考訳) ネットワーク上のトラフィックを分散して基盤となるインフラを効果的に利用するネットワークフロー問題は、輸送や物流においてユビキタスである。 データ駆動最適化の魅力により、これらの問題はグラフ学習法を用いてますますアプローチされている。 その中でも、マルチコモディティ・ネットワーク・フロー(MCNF)問題は、複数のソースとシンク間の異なる大きさの複数のフロー(要求とも呼ばれる)の分布に関するため、その一般性から特に関心がある。 私たちが注目しているのは、トラフィック要求とルーティング戦略を考慮して、ネットワーク内の任意のリンクを最大限活用することです。 本稿では,MCNF問題に対するグラフニューラルネットワーク(GNN)に基づく新しいアプローチを提案する。 提案手法は,既存のグラフ学習手法に対して,不要にルーティングを制約するかなりの利益をもたらすことを示す。 提案手法を,17のサービスプロバイダトポロジと2つのフロールーティング方式を用いて,インターネットルーティングケーススタディにより広く評価する。 多くのネットワークにおいて、MPPは我々のメカニズムを使わない汎用的なGNNと競合している。 さらに,グラフ構造とフローのデータ駆動的ルーティングの困難さとの関係について考察した。

Network flow problems, which involve distributing traffic over a network such that the underlying infrastructure is used effectively, are ubiquitous in transportation and logistics. Due to the appeal of data-driven optimization, these problems have increasingly been approached using graph learning methods. Among them, the Multi-Commodity Network Flow (MCNF) problem is of particular interest given its generality, since it concerns the distribution of multiple flows (also called demands) of different sizes between several sources and sinks. The widely-used objective that we focus on is the maximum utilization of any link in the network, given traffic demands and a routing strategy. In this paper, we propose a novel approach based on Graph Neural Networks (GNNs) for the MCNF problem which uses distinctly parametrized message functions along each link, akin to a relational model where all edge types are unique. We show that our proposed method yields substantial gains over existing graph learning methods that constrain the routing unnecessarily. We extensively evaluate the proposed approach by means of an Internet routing case study using 17 Service Provider topologies and two flow routing schemes. We find that, in many networks, an MLP is competitive with a generic GNN that does not use our mechanism. Furthermore, we shed some light on the relationship between graph structure and the difficulty of data-driven routing of flows, an aspect that has not been considered in the existing work in the area.
翻訳日:2022-09-13 12:44:24 公開日:2022-09-12
# 影響関数が答えであるなら、質問とは何か?

If Influence Functions are the Answer, Then What is the Question? ( http://arxiv.org/abs/2209.05364v1 )

ライセンス: Link先を確認
Juhan Bae, Nathan Ng, Alston Lo, Marzyeh Ghassemi, Roger Grosse(参考訳) 影響関数は、モデルの学習パラメータに対する単一のトレーニングデータポイントの削除の効果を効率的に推定する。 影響推定は線形モデルのリトレーニングとよく合致するが、最近の研究では、ニューラルネットワークではこのアライメントが貧弱であることが示されている。 本研究では,この相違の原因となる要因を5つの項に分解して検討する。 さまざまなアーキテクチャやデータセットに対する各用語のコントリビューションと,ネットワーク幅やトレーニング時間といった要因による違いについて検討する。 実効的な影響関数推定は非線形ネットワークにおける一対一再トレーニングに適さないかもしれないが、近位ブレグマン応答関数 (PBRF) と呼ばれる別の対象に対してよく近似できることを示す。 pbrfは影響力のある例や誤記のある例を同定するなど,影響関数を動機づける多くの質問に依然として答えることができるため,影響関数推定のための現在のアルゴリズムは,従来の誤差解析よりも有意義な結果をもたらすことを示唆する。

Influence functions efficiently estimate the effect of removing a single training data point on a model's learned parameters. While influence estimates align well with leave-one-out retraining for linear models, recent works have shown this alignment is often poor in neural networks. In this work, we investigate the specific factors that cause this discrepancy by decomposing it into five separate terms. We study the contributions of each term on a variety of architectures and datasets and how they vary with factors such as network width and training time. While practical influence function estimates may be a poor match to leave-one-out retraining for nonlinear networks, we show they are often a good approximation to a different object we term the proximal Bregman response function (PBRF). Since the PBRF can still be used to answer many of the questions motivating influence functions, such as identifying influential or mislabeled examples, our results suggest that current algorithms for influence function estimation give more informative results than previous error analyses would suggest.
翻訳日:2022-09-13 12:40:25 公開日:2022-09-12
# 可変重み付き改良局所回帰を用いたモデル解釈

Model interpretation using improved local regression with variable importance ( http://arxiv.org/abs/2209.05371v1 )

ライセンス: Link先を確認
Gilson Y. Shimizu, Rafael Izbicki and Andre C. P. L. F. de Carvalho(参考訳) MLモデルの使用に関する根本的な疑問は、意思決定における透明性を高めるための予測の説明に関するものである。 解釈可能性の方法がいくつか現れたが、その説明の信頼性に関するいくつかのギャップが特定されている。 例えば、ほとんどのメソッドは不安定(データに小さな変更を加えて、非常に異なる説明をすることを意味する)で、無関係な特徴(ラベルとは無関係な特徴)にうまく対応しない。 本稿では,変数の重要度を考慮した重み付き距離に適合する局所回帰を用いて,これらの問題を克服する2つの新しい解釈可能性手法,すなわちVarImpとSupClusを紹介する。 VarImpは各インスタンスの説明を生成し、より複雑な関係を持つデータセットに適用することができるが、SupClusは同様の説明でインスタンスのクラスタを解釈し、クラスタを見つけることができる単純なデータセットに適用することができる。 本手法を最先端の手法と比較し,いくつかの指標,特に無関係な特徴をもつ高次元問題,および特徴と対象の関係が非線形である場合において,より優れた説明が得られることを示す。

A fundamental question on the use of ML models concerns the explanation of their predictions for increasing transparency in decision-making. Although several interpretability methods have emerged, some gaps regarding the reliability of their explanations have been identified. For instance, most methods are unstable (meaning that they give very different explanations with small changes in the data), and do not cope well with irrelevant features (that is, features not related to the label). This article introduces two new interpretability methods, namely VarImp and SupClus, that overcome these issues by using local regressions fits with a weighted distance that takes into account variable importance. Whereas VarImp generates explanations for each instance and can be applied to datasets with more complex relationships, SupClus interprets clusters of instances with similar explanations and can be applied to simpler datasets where clusters can be found. We compare our methods with state-of-the art approaches and show that it yields better explanations according to several metrics, particularly in high-dimensional problems with irrelevant features, as well as when the relationship between features and target is non-linear.
翻訳日:2022-09-13 12:40:06 公開日:2022-09-12
# SELTO: サンプル効率の良い学習トポロジ最適化

SELTO: Sample-Efficient Learned Topology Optimization ( http://arxiv.org/abs/2209.05098v1 )

ライセンス: Link先を確認
S\"oren Dittmer, David Erzmann, Henrik Harms, Peter Maass(参考訳) トポロジー最適化のためのサンプル効率のよいディープラーニング戦略を提案する。 エンドツーエンドのアプローチは監視され、物理ベースの前処理と等価ネットワークが含まれています。 ディープラーニングパイプラインのさまざまなコンポーネントが,必要なトレーニングサンプル数に与える影響を,大規模比較によって分析します。 その結果, 物理概念を含めれば, サンプル効率が大幅に向上するだけでなく, 予測の正確性も向上することがわかった。 最後に,問題と対応する真理解を含む2つのトポロジ最適化データセットを公表する。 これらのデータセットが、コンパラビリティとこの分野の今後の進歩を改善すると確信しています。

We present a sample-efficient deep learning strategy for topology optimization. Our end-to-end approach is supervised and includes physics-based preprocessing and equivariant networks. We analyze how different components of our deep learning pipeline influence the number of required training samples via a large-scale comparison. The results demonstrate that including physical concepts not only drastically improves the sample efficiency but also the predictions' physical correctness. Finally, we publish two topology optimization datasets containing problems and corresponding ground truth solutions. We are confident that these datasets will improve comparability and future progress in the field.
翻訳日:2022-09-13 12:38:03 公開日:2022-09-12
# コントラスト特徴学習を用いた行動に基づく早期自閉症診断

Action-based Early Autism Diagnosis Using Contrastive Feature Learning ( http://arxiv.org/abs/2209.05379v1 )

ライセンス: Link先を確認
Asha Rani, Pankaj Yadav, Yashaswi Verma(参考訳) 自閉症スペクトラム障害(Autism Spectrum disorder, ASD)は、神経疾患である。 その主な症状は、(言語および/または非言語)コミュニケーションの困難さ、堅固で反復的な行動である。 これらの症状は、通常(コントロール)個体と区別できないことが多いが、この疾患は、治療が遅れる早期に診断されないためである。 初期年齢では学習曲線が急なため、自閉症の早期診断は適切なタイミングで適切な介入が可能であり、自閉症児の成長に正の影響を与える可能性がある。 さらに、伝統的な自閉症診断の方法は、専門の精神科医を複数回訪問する必要があるが、このプロセスは時間がかかる可能性がある。 本稿では,簡単なアクションビデオクリップを用いて,自閉症の診断を自動化するための学習ベースアプローチを提案する。 このタスクは、利用可能な注釈付きデータの量は少なく、2つのカテゴリ(ASDとコントロール)のサンプル間のばらつきは一般的に区別できないため、特に難しい。 これは、ベースラインエンコーダの上のクロスエントロピー損失を用いて学習したバイナリ分類器の低性能からも明らかである。 そこで我々は,自己指導型と教師型両方の学習フレームワークにおいて,対照的な特徴学習を導入し,これらが2値分類器の予測精度を大幅に向上させることを示す。 さらに,2つの公開データセット上で異なるセットアップの下で徹底的な実験分析を行うことで,この検証を行う。

Autism, also known as Autism Spectrum Disorder (or ASD), is a neurological disorder. Its main symptoms include difficulty in (verbal and/or non-verbal) communication, and rigid/repetitive behavior. These symptoms are often indistinguishable from a normal (control) individual, due to which this disorder remains undiagnosed in early childhood leading to delayed treatment. Since the learning curve is steep during the initial age, an early diagnosis of autism could allow to take adequate interventions at the right time, which might positively affect the growth of an autistic child. Further, the traditional methods of autism diagnosis require multiple visits to a specialized psychiatrist, however this process can be time-consuming. In this paper, we present a learning based approach to automate autism diagnosis using simple and small action video clips of subjects. This task is particularly challenging because the amount of annotated data available is small, and the variations among samples from the two categories (ASD and control) are generally indistinguishable. This is also evident from poor performance of a binary classifier learned using the cross-entropy loss on top of a baseline encoder. To address this, we adopt contrastive feature learning in both self supervised and supervised learning frameworks, and show that these can lead to a significant increase in the prediction accuracy of a binary classifier on this task. We further validate this by conducting thorough experimental analyses under different set-ups on two publicly available datasets.
翻訳日:2022-09-13 12:37:54 公開日:2022-09-12
# MetaNetwork: デバイスモデルの一般化を改善するタスク依存型ネットワークパラメータ生成フレームワーク

MetaNetwork: A Task-agnostic Network Parameters Generation Framework for Improving Device Model Generalization ( http://arxiv.org/abs/2209.05227v1 )

ライセンス: Link先を確認
Zheqi Lv, Feng Wang, Kun Kuang, Yongwei Wang, Zhengyu Chen, Tao Shen, Hongxia Yang, Fei Wu(参考訳) モバイルデバイスに機械学習モデルをデプロイする動きが注目されている。 デバイス上のハードウェアリソースの制限によるモデル一般化問題に対処するには,クラウドモデルからのモデル圧縮などの技術により,デバイスモデルを軽量化する必要がある。 しかしながら、デバイスモデルの一般化を改善するための大きな障害は、デバイスモデルのデータ分散が時間とともに変化することが多いため、クラウドとデバイスモデルのデータ間の分散シフトである(例えば、ユーザーはレコメンデーションシステムで異なる好みを持っているかもしれない)。 リアルタイム微調整・蒸留法はこの状況を考慮しているが、計算能力の低さとリアルタイムラベル付きサンプルの不足のため、デバイス上でのトレーニングが必要となる。 本稿では,デバイス上でのトレーニングを行わずにクラウドから適応型デバイスモデルパラメータを生成するための新しいタスク非依存フレームワークであるmetanetworkを提案する。 具体的には、MetaNetworkはクラウド上にデプロイされ、MetaGeneratorとMetaStabilizerモジュールで構成されています。 MetaGeneratorは、サンプルからモデルパラメータへのマッピング機能を学ぶように設計されており、デバイスからクラウドにアップロードされたサンプルに基づいて、適応パラメータをデバイスに生成および配信することができる。 MetaStabilizerは、MetaGeneratorの振動を減らし、収束を加速し、トレーニングと推論の両方でモデルパフォーマンスを改善することを目的としている。 提案手法は,3つのデータセットを用いた2つのタスクで評価する。 広範な実験により、メタネットワークは異なるモダリティで競合性能を達成できることが示されている。

Deploying machine learning models on mobile devices has gained increasing attention. To tackle the model generalization problem with the limitations of hardware resources on the device, the device model needs to be lightweight by techniques such as model compression from the cloud model. However, the major obstacle to improve the device model generalization is the distribution shift between the data of cloud and device models, since the data distribution on device model often changes over time (e.g., users might have different preferences in recommendation system). Although real-time fine-tuning and distillation method take this situation into account, these methods require on-device training, which are practically infeasible due to the low computational power and a lack of real-time labeled samples on the device. In this paper, we propose a novel task-agnostic framework, named MetaNetwork, for generating adaptive device model parameters from cloud without on-device training. Specifically, our MetaNetwork is deployed on cloud and consists of MetaGenerator and MetaStabilizer modules. The MetaGenerator is designed to learn a mapping function from samples to model parameters, and it can generate and deliver the adaptive parameters to the device based on samples uploaded from the device to the cloud. The MetaStabilizer aims to reduce the oscillation of the MetaGenerator, accelerate the convergence and improve the model performance during both training and inference. We evaluate our method on two tasks with three datasets. Extensive experiments show that MetaNetwork can achieve competitive performances in different modalities.
翻訳日:2022-09-13 12:37:32 公開日:2022-09-12
# 分類基準の分析と比較

Analysis and Comparison of Classification Metrics ( http://arxiv.org/abs/2209.05355v1 )

ライセンス: Link先を確認
Luciana Ferrer(参考訳) さまざまなパフォーマンス指標が、分類決定を出力する分類システムのための機械学習文献で一般的に使用されている。 最も一般的なものは、精度、総誤差(1マイナスの精度)、バランスの取れた精度、総誤差(1マイナスのバランスの取れた精度)、Fスコア、マシューズ相関係数(MCC)である。 本稿では,これらの指標の定義を,すべての統計学習コースで導入されているが機械学習文献では滅多に用いられていない期待コスト(ec)と比較する。 本稿では,ECの実証的推定が総誤差と総誤差のバランスの両面の一般化版であることを示す。 さらに,f-score と mcc との関係を示し,ec の方がより汎用的で,シンプルで直感的で,モチベーションの高い ec よりも優れていると主張する。 我々は、f-score と mcc のサブ最適メトリクスとなるいくつかの問題を強調する。 ハードな決定よりも計算されるメトリクスのみに焦点を当てた現在のバージョンでは説明されていないが、ecはシステムのスコアのキャリブレーションを計測するための優れたツールであり、各クラスに対して最適な決定を下すことができるという、追加の利点がある。 私たちはその議論をこの原稿の将来版に残します。

A number of different performance metrics are commonly used in the machine learning literature for classification systems that output categorical decisions. Some of the most common ones are accuracy, total error (one minus accuracy), balanced accuracy, balanced total error (one minus balanced accuracy), F-score, and Matthews correlation coefficient (MCC). In this document, we review the definition of these metrics and compare them with the expected cost (EC), a metric introduced in every statistical learning course but rarely used in the machine learning literature. We show that the empirical estimate of the EC is a generalized version of both the total error and balanced total error. Further, we show its relation with F-score and MCC and argue that EC is superior to them, being more general, simpler, intuitive and well motivated. We highlight some issues with the F-score and the MCC that make them suboptimal metrics. While not explained in the current version of this manuscript, where we focus exclusively on metrics that are computed over hard decisions, the EC has the additional advantage of being a great tool to measure calibration of a system's scores and allows users to make optimal decisions given a set of posteriors for each class. We leave that discussion for a future version of this manuscript.
翻訳日:2022-09-13 12:34:09 公開日:2022-09-12
# 統合型医療連携学習におけるデータ評価の効率化に向けて

Towards More Efficient Data Valuation in Healthcare Federated Learning using Ensembling ( http://arxiv.org/abs/2209.05424v1 )

ライセンス: Link先を確認
Sourav Kumar, A. Lakshminarayanan, Ken Chang, Feri Guretno, Ivan Ho Mien, Jayashree Kalpathy-Cramer, Pavitra Krishnaswamy and Praveer Singh(参考訳) 複数の機関が共同でデータを共有せずに機械学習モデルをトレーニングするフェデレーション学習(fl)が普及している。 参加する機関は平等に貢献するものではなく、より多くのデータ、より良い品質データ、より多様なデータに貢献するものもある。 異なる機関の貢献を公平にランク付けするために、選択方法としてシェープ価値(SV)が登場した。 特に何百人ものコントリビュータがいる場合、SV計算は非常に高価である。 既存のsv計算技術は近似を用いる。 しかし、コントリビューション機関の数が余計な規模ではなさそうにない医療では、正確なSVの計算はいまだに高価だが不可能ではない。 そこで本稿では,SaFE (Shapley Value for Federated Learning using Ensembling) と呼ばれる効率的なSV計算手法を提案する。 実験により、SaFEは正確なSVに近い値を計算し、現在のSV近似よりも優れた性能を示す。 これは、多施設共同学習における各参加者の貢献度を決定するために、組織間の広範な異質性が急増し、迅速なデータ評価が必要となる医療画像環境に特に関係している。

Federated Learning (FL) wherein multiple institutions collaboratively train a machine learning model without sharing data is becoming popular. Participating institutions might not contribute equally, some contribute more data, some better quality data or some more diverse data. To fairly rank the contribution of different institutions, Shapley value (SV) has emerged as the method of choice. Exact SV computation is impossibly expensive, especially when there are hundreds of contributors. Existing SV computation techniques use approximations. However, in healthcare where the number of contributing institutions are likely not of a colossal scale, computing exact SVs is still exorbitantly expensive, but not impossible. For such settings, we propose an efficient SV computation technique called SaFE (Shapley Value for Federated Learning using Ensembling). We empirically show that SaFE computes values that are close to exact SVs, and that it performs better than current SV approximations. This is particularly relevant in medical imaging setting where widespread heterogeneity across institutions is rampant and fast accurate data valuation is required to determine the contribution of each participant in multi-institutional collaborative learning.
翻訳日:2022-09-13 12:33:48 公開日:2022-09-12
# 偽データ拡張におけるバイアスの課題

Bias Challenges in Counterfactual Data Augmentation ( http://arxiv.org/abs/2209.05104v1 )

ライセンス: Link先を確認
S Chandra Mouli, Yangze Zhou, Bruno Ribeiro(参考訳) 深層学習モデルは、主に課題を解決するために散発的な特徴に依存するため、分散性に欠ける傾向がある。 反事実データ拡張は、スプリアスの特徴に対して反事実不変な表現を(ほぼ)達成するための一般的な方法を提供する。 本研究では,与えられた入力の最も類似したコンテキストを推測する抽象機械である {\em context-guessing machine} によって,反実データ拡張が所望の反実データ不変性を達成できないことを示す。 理論的には、このような反ファクトデータ増大による不変性を解析し、コンテキストガッシングマシンによる反ファクトデータ増大がロバストなOOD分類に繋がらないような典型的なNLPタスクを記述する。

Deep learning models tend not to be out-of-distribution robust primarily due to their reliance on spurious features to solve the task. Counterfactual data augmentations provide a general way of (approximately) achieving representations that are counterfactual-invariant to spurious features, a requirement for out-of-distribution (OOD) robustness. In this work, we show that counterfactual data augmentations may not achieve the desired counterfactual-invariance if the augmentation is performed by a {\em context-guessing machine}, an abstract machine that guesses the most-likely context of a given input. We theoretically analyze the invariance imposed by such counterfactual data augmentations and describe an exemplar NLP task where counterfactual data augmentation by a context-guessing machine does not lead to robust OOD classifiers.
翻訳日:2022-09-13 12:32:16 公開日:2022-09-12
# フーリエニューラル演算子のラデマッハ複雑性のバウンディング

Bounding The Rademacher Complexity of Fourier Neural Operator ( http://arxiv.org/abs/2209.05150v1 )

ライセンス: Link先を確認
Taeyoung Kim and Myungjoo Kang(参考訳) フーリエニューラルオペレータ(fourier neural operator, fno)は、物理学に触発された機械学習手法の1つである。 特に、神経演算子である。 近年では、ディープオペレータネットワーク、GNO、MWTOなど、いくつかのタイプのニューラルオペレータが開発されている。 他のモデルと比較して、FNOは計算的に効率的であり、ある有限基底に依存しない函数空間間の非線形作用素を学習することができる。 本研究では,特定の群ノルムに基づくfnoのラデマシェ複雑性の境界について検討した。 これらのノルムに基づくキャパシティを用いて、FNOモデルの一般化誤差を限定する。 さらに,経験的一般化誤差と提案するfnoの容量との関係について検討した。 そこで本研究では,モデルアーキテクチャが一般化誤差に与える影響を把握し,FNOモデルに関する情報を様々な種類の容量に蓄積した。

A Fourier neural operator (FNO) is one of the physics-inspired machine learning methods. In particular, it is a neural operator. In recent times, several types of neural operators have been developed, e.g., deep operator networks, GNO, and MWTO. Compared with other models, the FNO is computationally efficient and can learn nonlinear operators between function spaces independent of a certain finite basis. In this study, we investigated the bounding of the Rademacher complexity of the FNO based on specific group norms. Using capacity based on these norms, we bound the generalization error of the FNO model. In addition, we investigated the correlation between the empirical generalization error and the proposed capacity of FNO. Based on this investigation, we gained insight into the impact of the model architecture on the generalization error and estimated the amount of information about FNO models stored in various types of capacities.
翻訳日:2022-09-13 12:31:59 公開日:2022-09-12
# 共起線形MDPの統計的推定:機器変数によるアプローチ

Statistical Estimation of Confounded Linear MDPs: An Instrumental Variable Approach ( http://arxiv.org/abs/2209.05186v1 )

ライセンス: Link先を確認
Miao Lu, Wenhao Yang, Liangyu Zhang, Zhihua Zhang(参考訳) マルコフ決定プロセス(MDP)では、観測不能な共同設立者がデータ生成プロセスに影響を与え、古典的非政治評価(OPE)推定者がターゲットポリシーの真の価値関数を特定できない可能性がある。 本稿では,観測可能な機器変数を持つMDPにおけるOPEの統計特性について検討する。 具体的には, インストゥルメンタル変数に基づく2段階推定器を提案し, 線形構造を持つmdpの統計的性質を定式化する。 非漸近解析では、$n$がサンプル数であるような$\mathcal{O}(n^{-1/2})$-error境界が証明される。 漸近解析では、2段階推定器は漸近的に正常であり、典型的には$n^{1/2}$である。 我々の知る限りでは、楽器変数を用いた線形MDPの2段階推定器の統計結果を示すのは初めてである。

In an Markov decision process (MDP), unobservable confounders may exist and have impacts on the data generating process, so that the classic off-policy evaluation (OPE) estimators may fail to identify the true value function of the target policy. In this paper, we study the statistical properties of OPE in confounded MDPs with observable instrumental variables. Specifically, we propose a two-stage estimator based on the instrumental variables and establish its statistical properties in the confounded MDPs with a linear structure. For non-asymptotic analysis, we prove a $\mathcal{O}(n^{-1/2})$-error bound where $n$ is the number of samples. For asymptotic analysis, we prove that the two-stage estimator is asymptotically normal with a typical rate of $n^{1/2}$. To the best of our knowledge, we are the first to show such statistical results of the two-stage estimator for confounded linear MDPs via instrumental variables.
翻訳日:2022-09-13 12:31:45 公開日:2022-09-12
# PAC-Bayes境界の効率評価に関する一考察

A Note on the Efficient Evaluation of PAC-Bayes Bounds ( http://arxiv.org/abs/2209.05188v1 )

ライセンス: Link先を確認
Felix Biggs(参考訳) リスク認定のためにPAC-Bayes理論を利用する場合、通常、PAC-Bayes後部のギブスリスクを推定し、バウンドする必要がある。 文献の多くの作品は、高い計算コストを伴い、大量のデータセットのパスを必要とする方法を採用している。 この写本は、データセットのサイズの順序で計算を節約する非常に一般的な代替案を提示している。

When utilising PAC-Bayes theory for risk certification, it is usually necessary to estimate and bound the Gibbs risk of the PAC-Bayes posterior. Many works in the literature employ a method for this which requires a large number of passes of the dataset, incurring high computational cost. This manuscript presents a very general alternative which makes computational savings on the order of the dataset size.
翻訳日:2022-09-13 12:31:28 公開日:2022-09-12
# 機械学習によるヘイト音声の自動検出における課題

A Review of Challenges in Machine Learning based Automated Hate Speech Detection ( http://arxiv.org/abs/2209.05294v1 )

ライセンス: Link先を確認
Abhishek Velankar, Hrushikesh Patil, Raviraj Joshi(参考訳) ソーシャルメディアにおけるヘイトスピーチの普及は、現在深刻な問題である。 これらのプラットフォームで発生した膨大な情報への不必要なアクセスは、人々が暴力を引き起こす有害なコンテンツに投稿し、反応するきっかけとなった。 オンラインコンテンツの検出と抑制は試みられているが、正確な特定は依然として困難である。 ディープラーニングベースのソリューションは、憎しみのあるコンテンツを識別する最前線にある。 しかし、ヘイトスピーチの文脈依存性、ユーザの意図、望ましくないバイアスなどといった要因は、このプロセスを過度に批判する。 本研究では,これらの問題を階層的に整理することで,ヘイトスピーチの自動検出における幅広い課題を深く探究する。 機械学習やディープラーニングによるヘイトスピーチ識別のソリューションが直面する課題に焦点を当てている。 トップレベルでは、データレベル、モデルレベル、人間レベルの課題を区別します。 さらに,各階層レベルの徹底的な分析を例で示す。 この調査は、ヘイトスピーチ検出の分野で、研究者がより効率的にソリューションを設計するのに役立つだろう。

The spread of hate speech on social media space is currently a serious issue. The undemanding access to the enormous amount of information being generated on these platforms has led people to post and react with toxic content that originates violence. Though efforts have been made toward detecting and restraining such content online, it is still challenging to identify it accurately. Deep learning based solutions have been at the forefront of identifying hateful content. However, the factors such as the context-dependent nature of hate speech, the intention of the user, undesired biases, etc. make this process overcritical. In this work, we deeply explore a wide range of challenges in automatic hate speech detection by presenting a hierarchical organization of these problems. We focus on challenges faced by machine learning or deep learning based solutions to hate speech identification. At the top level, we distinguish between data level, model level, and human level challenges. We further provide an exhaustive analysis of each level of the hierarchy with examples. This survey will help researchers to design their solutions more efficiently in the domain of hate speech detection.
翻訳日:2022-09-13 12:28:16 公開日:2022-09-12
# クラス間距離を考慮した混合クラス選択によるデータ拡張

Data Augmentation by Selecting Mixed Classes Considering Distance Between Classes ( http://arxiv.org/abs/2209.05122v1 )

ライセンス: Link先を確認
Shungo Fujii, Yasunori Ishii, Kazuki Kozuka, Tsubasa Hirakawa, Takayoshi Yamashita, Hironobu Fujiyoshi(参考訳) 深層学習を用いた物体認識における認識精度の向上には,データ拡張が不可欠である。 ミックスアップのような複数のデータセットから混合データを生成する方法は、トレーニングデータに含まれない新しい多様性を取得し、精度の向上に大きく貢献する。 しかし、混合のために選択されたデータはトレーニングプロセス全体でランダムにサンプリングされるため、適切なクラスやデータが選択されないケースもある。 本研究では,クラス確率に基づいてクラス間の距離を計算し,学習過程において混在する適切なクラスからデータを選択するデータ拡張手法を提案する。 混合データは、各クラスのトレーニング傾向に応じて動的に調整され、訓練を容易にする。 提案手法は従来の混合データ生成手法と組み合わせて適用した。 評価実験により,一般および長期画像認識データセットの認識性能が向上することを示した。

Data augmentation is an essential technique for improving recognition accuracy in object recognition using deep learning. Methods that generate mixed data from multiple data sets, such as mixup, can acquire new diversity that is not included in the training data, and thus contribute significantly to accuracy improvement. However, since the data selected for mixing are randomly sampled throughout the training process, there are cases where appropriate classes or data are not selected. In this study, we propose a data augmentation method that calculates the distance between classes based on class probabilities and can select data from suitable classes to be mixed in the training process. Mixture data is dynamically adjusted according to the training trend of each class to facilitate training. The proposed method is applied in combination with conventional methods for generating mixed data. Evaluation experiments show that the proposed method improves recognition performance on general and long-tailed image recognition datasets.
翻訳日:2022-09-13 12:28:00 公開日:2022-09-12
# レコメンデーションシステムにおける言語説明の忠実さとコヒーレンスについて

On Faithfulness and Coherence of Language Explanations for Recommendation Systems ( http://arxiv.org/abs/2209.05409v1 )

ライセンス: Link先を確認
Zhouhang Xie, Julian McAuley and Bodhisattwa Prasad Majumder(参考訳) レビューには製品特性やユーザの興味に関する豊富な情報が含まれており、リコメンダシステムのパフォーマンス向上に一般的に使用されている。 具体的には、レビュー生成を行うための共同学習が評価予測性能を向上させることを示す。 一方、これらのモデル生成レビューはレコメンデーションの説明となり、ユーザーは予測された評価についての洞察を提供する。 しかし、既存のモデルが人間的なレビューを生み出す可能性はあるが、この共同評価の背後にある根拠がどの程度明確かは不明だ。 本研究では,最先端のモデルとそのレビュー生成成分を調査する一連の評価を行う。 得られた説明は不安定であり, 推定評価の合理的な根拠となる前に, さらなる評価が必要であることを示す。

Reviews contain rich information about product characteristics and user interests and thus are commonly used to boost recommender system performance. Specifically, previous work show that jointly learning to perform review generation improves rating prediction performance. Meanwhile, these model-produced reviews serve as recommendation explanations, providing the user with insights on predicted ratings. However, while existing models could generate fluent, human-like reviews, it is unclear to what degree the reviews fully uncover the rationale behind the jointly predicted rating. In this work, we perform a series of evaluations that probes state-of-the-art models and their review generation component. We show that the generated explanations are brittle and need further evaluation before being taken as literal rationales for the estimated ratings.
翻訳日:2022-09-13 12:27:46 公開日:2022-09-12
# A*におけるヒューリスティックス学習のための微分損失関数

A Differentiable Loss Function for Learning Heuristics in A* ( http://arxiv.org/abs/2209.05206v1 )

ライセンス: Link先を確認
Leah Chrestien, Tomas Pevny, Antonin Komenda, Stefan Edelkamp(参考訳) ディープニューラルネットワークによって実現されるa*アルゴリズムのヒューリスティック関数の最適化は、通常、目標値に対するコストの推定の平方根損失を最小化する。 本稿は、絶対値ではなく相対値に依存するため、A*アルゴリズムの高速化につながるとは限らない、と論じる。 緩和策として,A*探索における過度に拡張された状態の上限となるL*損失を提案する。 ソコバンやモーゼなどの迷路ドメインにおける自動計画のための最先端のディープニューラルネットワークの最適化に使用されるL*損失は、解決された問題の割合、確立された計画の品質を大幅に改善し、拡張された状態の数を約50%削減する。

Optimization of heuristic functions for the A* algorithm, realized by deep neural networks, is usually done by minimizing square root loss of estimate of the cost to goal values. This paper argues that this does not necessarily lead to a faster search of A* algorithm since its execution relies on relative values instead of absolute ones. As a mitigation, we propose a L* loss, which upper-bounds the number of excessively expanded states inside the A* search. The L* loss, when used in the optimization of state-of-the-art deep neural networks for automated planning in maze domains like Sokoban and maze with teleports, significantly improves the fraction of solved problems, the quality of founded plans, and reduces the number of expanded states to approximately 50%
翻訳日:2022-09-13 12:25:53 公開日:2022-09-12
# データ拡張による統一状態表現学習

Unified State Representation Learning under Data Augmentation ( http://arxiv.org/abs/2209.05302v1 )

ライセンス: Link先を確認
Taylor Hearn, Sravan Jayanthi, Sehoon Ha(参考訳) 迅速なドメイン適応能力は、現実世界の問題に対する強化学習(rl)の適用性を高めるために重要である。 RLエージェントの一般化は実世界での成功に不可欠であるが、訓練されたエージェントが新しいタスクで完全に失敗する可能性があるため、ゼロショットポリシー転送は難しい問題である。 我々は,usra:unified state representation learning under data augmentationを提案する。このフレームワークは,観測に基づいてデータ拡張を行うことで,潜在統一状態表現を学習し,対象領域に一般化する能力を向上させる。 本稿では,DeepMind Control Generalization Benchmark for the Walker環境におけるアプローチの成功例を紹介するとともに,USRAがサンプル効率の向上とドメイン適応性能の14.3%向上を実現していることを示す。

The capacity for rapid domain adaptation is important to increasing the applicability of reinforcement learning (RL) to real world problems. Generalization of RL agents is critical to success in the real world, yet zero-shot policy transfer is a challenging problem since even minor visual changes could make the trained agent completely fail in the new task. We propose USRA: Unified State Representation Learning under Data Augmentation, a representation learning framework that learns a latent unified state representation by performing data augmentations on its observations to improve its ability to generalize to unseen target domains. We showcase the success of our approach on the DeepMind Control Generalization Benchmark for the Walker environment and find that USRA achieves higher sample efficiency and 14.3% better domain adaptation performance compared to the best baseline results.
翻訳日:2022-09-13 12:25:37 公開日:2022-09-12
# 質問分類による質問応答に対するドメイン適応

Domain Adaptation for Question Answering via Question Classification ( http://arxiv.org/abs/2209.04998v1 )

ライセンス: Link先を確認
Zhenrui Yue, Huimin Zeng, Ziyi Kou, Lanyu Shang, Dong Wang(参考訳) 質問応答(qa)は、カスタマイズされたドメインからの質問に答える素晴らしい進歩を示しています。 しかしながら、特にQAシステムがソースドメインでトレーニングされているが、異なるターゲットドメインにデプロイされている場合、ドメイン適応はQAシステムにとって最も明白な課題の1つである。 本研究では,QA領域適応のための質問分類の潜在的な利点について検討する。 質問応答のための質問分類(qc4qa)を提案する。 具体的には、ソースデータとターゲットデータの両方に質問クラスを割り当てるために質問分類器を採用する。 そこで我々は,擬似ラベルによる自己指導型共同訓練を行った。 最適化のために、ソースとターゲットドメイン間のドメイン間不一致を最大平均不一致(MMD)距離で低減する。 また, 微粒化適応性能を示すために, 同じ質問クラスのQAサンプルのクラス内差を最小化する。 我々の知る限りでは、QAドメイン適応において、自己教師付き適応を用いた質問分類を利用する最初の研究である。 提案したQC4QAの有効性を,複数のデータセットの最先端ベースラインに対して一貫した改善により示す。

Question answering (QA) has demonstrated impressive progress in answering questions from customized domains. Nevertheless, domain adaptation remains one of the most elusive challenges for QA systems, especially when QA systems are trained in a source domain but deployed in a different target domain. In this work, we investigate the potential benefits of question classification for QA domain adaptation. We propose a novel framework: Question Classification for Question Answering (QC4QA). Specifically, a question classifier is adopted to assign question classes to both the source and target data. Then, we perform joint training in a self-supervised fashion via pseudo-labeling. For optimization, inter-domain discrepancy between the source and target domain is reduced via maximum mean discrepancy (MMD) distance. We additionally minimize intra-class discrepancy among QA samples of the same question class for fine-grained adaptation performance. To the best of our knowledge, this is the first work in QA domain adaptation to leverage question classification with self-supervised adaptation. We demonstrate the effectiveness of the proposed QC4QA with consistent improvements against the state-of-the-art baselines on multiple datasets.
翻訳日:2022-09-13 12:22:01 公開日:2022-09-12
# sancl: 選択的注意と自然コントラスト学習によるマルチモーダルレビュー支援性予測

SANCL: Multimodal Review Helpfulness Prediction with Selective Attention and Natural Contrastive Learning ( http://arxiv.org/abs/2209.05040v1 )

ライセンス: Link先を確認
Wei Han, Hui Chen, Zhen Hai, Soujanya Poria, Lidong Bing(参考訳) 電子商取引のブームに伴い、製品レビューを予測された有用度スコアに従ってソートすることを目的としたMRHP(Multimodal Review Helpfulness Prediction)が研究ホットスポットとなっている。 このタスクに関する以前の仕事は、注意に基づくモダリティ融合、情報統合、関係モデリングに焦点を当てている。 1) モデルは,無差別な注意定式化のために本質的な情報を把握できない場合がある。 2) 提供データ間の相関を最大限に活用する適切なモデリング手法が欠如している。 本稿では,MRHPのためのSANCL: Selective Attention and Natural Contrastive Learningを提案する。 SANCLは、より重要な領域に高い注意重みを強制するためのプローブベースの戦略を採用している。 また、データセット内の自然マッチングプロパティに基づいたコントラスト学習フレームワークも構築している。 3つのカテゴリを持つ2つのベンチマークデータセットの実験結果から、SANCLはメモリ消費を抑えながら最先端のベースライン性能を達成することが示された。

With the boom of e-commerce, Multimodal Review Helpfulness Prediction (MRHP), which aims to sort product reviews according to the predicted helpfulness scores has become a research hotspot. Previous work on this task focuses on attention-based modality fusion, information integration, and relation modeling, which primarily exposes the following drawbacks: 1) the model may fail to capture the really essential information due to its indiscriminate attention formulation; 2) lack appropriate modeling methods that take full advantage of correlation among provided data. In this paper, we propose SANCL: Selective Attention and Natural Contrastive Learning for MRHP. SANCL adopts a probe-based strategy to enforce high attention weights on the regions of greater significance. It also constructs a contrastive learning framework based on natural matching properties in the dataset. Experimental results on two benchmark datasets with three categories show that SANCL achieves state-of-the-art baseline performance with lower memory consumption.
翻訳日:2022-09-13 12:21:47 公開日:2022-09-12
# 多言語視覚質問応答に向けて

Towards Multi-Lingual Visual Question Answering ( http://arxiv.org/abs/2209.05401v1 )

ライセンス: Link先を確認
Soravit Changpinyo, Linting Xue, Idan Szpektor, Ashish V. Thapliyal, Julien Amelot, Xi Chen, Radu Soricut(参考訳) VQA(Visual Question Answering)は、主に英語のレンズを通して研究されている。 しかし、同じ方法で他の言語でVQAに取り組むには、かなりの量のリソースが必要になる。 本稿では,データとモデリングの両面で,多言語視覚質問応答(mVQA)のスケーラブルな解を提案する。 まず,従来の質問や回答を直接収集する手法よりも,人間のアノテーションの取り組みをはるかに少なくする,mVQAデータ生成のための翻訳ベースのフレームワークを提案する。 次に、Crossmodal-3600データセットの多言語キャプションに適用し、7言語でテスト専用のVQAベンチマークであるMAVERICS-XM3600(MaXM)を作成するための効率的なアノテーションプロトコルを開発する。 最後に,拡張性,オープンエンド,エンドツーエンドのmVQAモデリング手法を提案し,13言語で高い性能を示す。

Visual Question Answering (VQA) has been primarily studied through the lens of the English language. Yet, tackling VQA in other languages in the same manner would require considerable amount of resources. In this paper, we propose scalable solutions to multi-lingual visual question answering (mVQA), on both data and modeling fronts. We first propose a translation-based framework to mVQA data generation that requires much less human annotation efforts than the conventional approach of directly collection questions and answers. Then, we apply our framework to the multi-lingual captions in the Crossmodal-3600 dataset and develop an efficient annotation protocol to create MAVERICS-XM3600 (MaXM), a test-only VQA benchmark in 7 diverse languages. Finally, we propose an approach to unified, extensible, open-ended, and end-to-end mVQA modeling and demonstrate strong performance in 13 languages.
翻訳日:2022-09-13 12:21:10 公開日:2022-09-12
# 抽象目標のモデル化による次の行動予測

Predicting the Next Action by Modeling the Abstract Goal ( http://arxiv.org/abs/2209.05044v1 )

ライセンス: Link先を確認
Debaditya Roy and Basura Fernando(参考訳) 人間の行動を予測する問題は本質的に不確実である。 しかし、俳優が達成しようとしている目標を把握できれば、この不確実性を低減することができる。 本稿では,将来の予測の不確実性を低減するために,目標情報を活用する行動予測モデルを提案する。 我々は、推論中に目標情報や観察された行動を持っていないので、視覚表現を用いて行動と目標の両方に関する情報をカプセル化する。 そこで我々は,行動予測のための視覚的特徴の観察シーケンスに基づいて,抽象目標という新しい概念を導出する。 この抽象目標を,変動リカレントネットワークを用いてパラメータを推定する分布として設計する。 我々は,次の行動に対する複数の候補をサンプリングし,抽象目標から従う最適な候補を決定するための目標整合度尺度を導入する。 提案手法は,Epic-Kitchens55 (EK55), EK100, EGTEA Gaze+データセットについて,非常に困難な結果を得た。 ek55のs1法と比較して,top-1動詞の+13.69,+11.24,+5.19,top-1名詞,top-1行動予測精度の絶対的改善が得られた。 同様に、トップ1動詞(+10.75)、名詞(+5.84)、行動(+2.87)に設定された未確認キッチン(S2)の大幅な改善も得られる。 EGTEA Gaze+データセットでも同様の傾向が見られ、名詞、動詞、行動予測に対して+9.9、+13.1、+6.8の絶対的な改善が得られる。 本論文の提出により,本手法は現在,ek55およびegtea gaze+ https://competitions.codalab.org/competitions/20071#resultsコードが,https://github.com/debadityaroy/abstract_goalで利用可能である。

The problem of anticipating human actions is an inherently uncertain one. However, we can reduce this uncertainty if we have a sense of the goal that the actor is trying to achieve. Here, we present an action anticipation model that leverages goal information for the purpose of reducing the uncertainty in future predictions. Since we do not possess goal information or the observed actions during inference, we resort to visual representation to encapsulate information about both actions and goals. Through this, we derive a novel concept called abstract goal which is conditioned on observed sequences of visual features for action anticipation. We design the abstract goal as a distribution whose parameters are estimated using a variational recurrent network. We sample multiple candidates for the next action and introduce a goal consistency measure to determine the best candidate that follows from the abstract goal. Our method obtains impressive results on the very challenging Epic-Kitchens55 (EK55), EK100, and EGTEA Gaze+ datasets. We obtain absolute improvements of +13.69, +11.24, and +5.19 for Top-1 verb, Top-1 noun, and Top-1 action anticipation accuracy respectively over prior state-of-the-art methods for seen kitchens (S1) of EK55. Similarly, we also obtain significant improvements in the unseen kitchens (S2) set for Top-1 verb (+10.75), noun (+5.84) and action (+2.87) anticipation. Similar trend is observed for EGTEA Gaze+ dataset, where absolute improvement of +9.9, +13.1 and +6.8 is obtained for noun, verb, and action anticipation. It is through the submission of this paper that our method is currently the new state-of-the-art for action anticipation in EK55 and EGTEA Gaze+ https://competitions.codalab.org/competitions/20071#results Code available at https://github.com/debadityaroy/Abstract_Goal
翻訳日:2022-09-13 12:19:38 公開日:2022-09-12
# ディープフェイク検出用ディープ畳み込みプールトランス

Deep Convolutional Pooling Transformer for Deepfake Detection ( http://arxiv.org/abs/2209.05299v1 )

ライセンス: Link先を確認
Tianyi Wang, Harry Cheng, Kam Pui Chow, Liqiang Nie(参考訳) 近年、ソーシャルメディアデジタル法医学におけるセキュリティとプライバシーの懸念から、deepfakeが注目を集めている。 ネット上のDeepfakeビデオがますますリアルになるにつれて、従来の検出技術は本物と偽物の区別に失敗した。 既存のディープラーニング手法のほとんどは、畳み込みニューラルネットワークをバックボーンとして、顔画像内の局所的特徴と関係に焦点を当てている。 しかし,Deepfake検出に十分な一般情報を学習するには,局所的な特徴や関係が不十分である。 これにより,既存のディープフェイク検出手法がボトルネックとなり,検出性能がさらに向上した。 この問題に対処するために,ローカルおよびグローバルの両方で決定的な画像特徴を組み込む深層畳み込み変換器を提案する。 具体的には,抽出した特徴を豊かにし,有効性を高めるために畳み込みプールと再アテンションを適用する。 さらに,映像圧縮によるキーフレームと通常の画像フレーム間の特徴量差を可視化するために,モデルトレーニングにおいてほとんど議論されていない画像キーフレームを用いる。 最終的に、いくつかのdeepfakeベンチマークデータセットで広範な実験を行い、転送可能性を説明します。 提案手法は、内部および相互データセット実験において、最先端のベースラインを一貫して上回る。

Recently, Deepfake has drawn considerable public attention due to security and privacy concerns in social media digital forensics. As the wildly spreading Deepfake videos on the Internet become more realistic, traditional detection techniques have failed in distinguishing between the real and fake. Most existing deep learning methods mainly focus on local features and relations within the face image using convolutional neural networks as a backbone. However, local features and relations are insufficient for model training to learn enough general information for Deepfake detection. Therefore, the existing Deepfake detection methods have reached a bottleneck to further improving the detection performance. To address this issue, we propose a deep convolutional Transformer to incorporate the decisive image features both locally and globally. Specifically, we apply convolutional pooling and re-attention to enrich the extracted features and enhance the efficacy. Moreover, we employ the barely discussed image keyframes in model training for performance improvement and visualize the feature quantity gap between the key and normal image frames caused by video compression. We finally illustrate the transferability with extensive experiments on several Deepfake benchmark datasets. The proposed solution consistently outperforms several state-of-the-art baselines on both within- and cross-dataset experiments.
翻訳日:2022-09-13 12:18:58 公開日:2022-09-12
# ロボット操作のためのマルチタスクトランスフォーマーperceiver-actor

Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation ( http://arxiv.org/abs/2209.05451v1 )

ライセンス: Link先を確認
Mohit Shridhar, Lucas Manuelli, Dieter Fox(参考訳) トランスフォーマーは、大規模なデータセットでスケールする能力によって、視覚と自然言語処理に革命をもたらした。 しかしロボット操作では、データは限定的かつ高価である。 正しい問題定式化を持つトランスフォーマーの恩恵を受けられるか? マルチタスク 6-dof 操作のための言語条件付きビヘイビアクローニングエージェントである peract を用いて,この問題を調査した。 PerActはPerceiver Transformerで言語目標とRGB-Dのボクセル観測を符号化し、"次の最高のボクセルアクションを検出する"ことで識別されたアクションを出力する。 2dイメージで動作するフレームワークとは異なり、voxelized observationとaction spaceは、6-dofポリシーを効率的に学習するための強力な構造的優先を提供する。 この定式化により、1つのマルチタスクトランスフォーマーを18のRLBenchタスク(249のバリエーション)と7つの現実世界タスク(18のバリエーション)に対して、タスク毎のデモからトレーニングする。 以上の結果から,peract は非構造化イメージ・ツー・アクションエージェントや3d convnet ベースラインを大きく上回っている。

Transformers have revolutionized vision and natural language processing with their ability to scale with large datasets. But in robotic manipulation, data is both limited and expensive. Can we still benefit from Transformers with the right problem formulation? We investigate this question with PerAct, a language-conditioned behavior-cloning agent for multi-task 6-DoF manipulation. PerAct encodes language goals and RGB-D voxel observations with a Perceiver Transformer, and outputs discretized actions by "detecting the next best voxel action". Unlike frameworks that operate on 2D images, the voxelized observation and action space provides a strong structural prior for efficiently learning 6-DoF policies. With this formulation, we train a single multi-task Transformer for 18 RLBench tasks (with 249 variations) and 7 real-world tasks (with 18 variations) from just a few demonstrations per task. Our results show that PerAct significantly outperforms unstructured image-to-action agents and 3D ConvNet baselines for a wide range of tabletop tasks.
翻訳日:2022-09-13 12:14:17 公開日:2022-09-12
# handmime: 模倣学習による手話指書き獲得

HandMime: Sign Language Fingerspelling Acquisition via Imitation Learning ( http://arxiv.org/abs/2209.05135v1 )

ライセンス: Link先を確認
Federico Tavella and Aphrodite Galata and Angelo Cangelosi(参考訳) 細かな動きを学ぶことはロボティクスの最も難しいトピックの1つだ。 これは特にロボットの手に当てはまる。 ロボットによる手話の獲得や、より具体的には、ロボットによる手話の獲得は、そのような課題の具体例と見なすことができる。 本稿では,追加情報を使わずに映像例からデクスタースモータの模倣を学習する手法を提案する。 各関節に単一のアクチュエータを備えたロボットハンドのURDFモデルを構築した。 トレーニング済みのディープビジョンモデルを利用して、RGBビデオから手の3Dポーズを抽出する。 次に,運動模倣のための最先端強化学習アルゴリズム(すなわち近位政策最適化)を用いて,実演から抽出した動きを再現する方針を訓練する。 参照運動に基づいて模擬を行うために最適なハイパーパラメータ群を同定する。 さらに,6種類の指で綴られた文字を一般化する手法を実証した。

Learning fine-grained movements is among the most challenging topics in robotics. This holds true especially for robotic hands. Robotic sign language acquisition or, more specifically, fingerspelling sign language acquisition in robots can be considered a specific instance of such challenge. In this paper, we propose an approach for learning dexterous motor imitation from videos examples, without the use of any additional information. We build an URDF model of a robotic hand with a single actuator for each joint. By leveraging pre-trained deep vision models, we extract the 3D pose of the hand from RGB videos. Then, using state-of-the-art reinforcement learning algorithms for motion imitation (namely, proximal policy optimisation), we train a policy to reproduce the movement extracted from the demonstrations. We identify the best set of hyperparameters to perform imitation based on a reference motion. Additionally, we demonstrate the ability of our approach to generalise over 6 different fingerspelled letters.
翻訳日:2022-09-13 12:13:59 公開日:2022-09-12
# ソフト拡散: 一般的な崩壊に対するスコアマッチング

Soft Diffusion: Score Matching for General Corruptions ( http://arxiv.org/abs/2209.05442v1 )

ライセンス: Link先を確認
Giannis Daras, Mauricio Delbracio, Hossein Talebi, Alexandros G. Dimakis, Peyman Milanfar(参考訳) 我々は、以前知られていた拡散モデルを一般化したより広範な腐敗過程を定義する。 これらの一般的な拡散を逆転するために,任意の線形腐敗過程のスコア関数を確実に学習し,celebaのアート結果の状態を得るソフトスコアマッチング(soft score matching)という新しい目的を提案する。 ソフトスコアマッチングは、ネットワークの劣化過程を組み込んでモデルを訓練し、腐敗後のクリーンイメージが拡散観察と一致することを予測します。 本研究の目的は,腐敗過程の家族に対して適切な規則性条件下での確率の勾配を学習することである。 さらに,一般拡散過程の汚職レベルを選択するための基本的手法と,モメンタムサンプリングと呼ばれる新しいサンプリング手法を開発する。 汚職はガウスのぼやけと低等級の付加雑音を伴って評価した。 提案手法はCelebA-64上でのFIDスコアを1.85ドルで達成し,従来の線形拡散モデルよりも優れていた。 また,バニラ雑音拡散に比べ,計算量的に有意な効果を示した。

We define a broader family of corruption processes that generalizes previously known diffusion models. To reverse these general diffusions, we propose a new objective called Soft Score Matching that provably learns the score function for any linear corruption process and yields state of the art results for CelebA. Soft Score Matching incorporates the degradation process in the network and trains the model to predict a clean image that after corruption matches the diffused observation. We show that our objective learns the gradient of the likelihood under suitable regularity conditions for the family of corruption processes. We further develop a principled way to select the corruption levels for general diffusion processes and a novel sampling method that we call Momentum Sampler. We evaluate our framework with the corruption being Gaussian Blur and low magnitude additive noise. Our method achieves state-of-the-art FID score $1.85$ on CelebA-64, outperforming all previous linear diffusion models. We also show significant computational benefits compared to vanilla denoising diffusion.
翻訳日:2022-09-13 12:13:25 公開日:2022-09-12
# 医療画像における機械学習の再現性

Reproducibility in machine learning for medical imaging ( http://arxiv.org/abs/2209.05097v1 )

ライセンス: Link先を確認
Olivier Colliot, Elina Thibeau-Sutre, Ninon Burgos(参考訳) 再現性は科学の基盤であり、発見の複製はそれらが知識となる過程である。 多くの科学分野が再現性危機にさらされていると考えられている。 これにより、研究再現性を改善するために様々なガイドラインが出版された。 この実践的な章は、医療画像の機械学習分野の研究者への再現性の導入を目的としている。 まず、異なる種類の再現性を区別する。 それぞれの目的は、それを定義すること、それを達成するための要件を説明すること、有用性について議論することである。 この章は再現性の利点に関する議論と、この概念と研究実践におけるその実践に対する非教義的なアプローチへの嘆願で終わる。

Reproducibility is a cornerstone of science, as the replication of findings is the process through which they become knowledge. It is widely considered that many fields of science are undergoing a reproducibility crisis. This has led to the publications of various guidelines in order to improve research reproducibility. This didactic chapter intends at being an introduction to reproducibility for researchers in the field of machine learning for medical imaging. We first distinguish between different types of reproducibility. For each of them, we aim at defining it, at describing the requirements to achieve it and at discussing its utility. The chapter ends with a discussion on the benefits of reproducibility and with a plea for a non-dogmatic approach to this concept and its implementation in research practice.
翻訳日:2022-09-13 12:13:08 公開日:2022-09-12
# Swarm Heuristics を用いた障害物回避格子経路の学習 : 順序木への単射探索

Learning Obstacle-Avoiding Lattice Paths using Swarm Heuristics: Exploring the Bijection to Ordered Trees ( http://arxiv.org/abs/2209.05187v1 )

ライセンス: Link先を確認
Victor Parque(参考訳) 格子パスは離散/グリッドマップの効率的なナビゲーションをモデル化する機能エンティティである。 本稿では,根付き順序木に対する単射性を用いて,最も効率のよい衝突のない格子経路を生成するための新しい手法を提案する。 凸および非凸形状の障害物を有する航法シナリオにおける10種類の最先端および関連する自然刺激群群ヒューリスティックスを用いた計算研究は、衝突のない格子路の描画における実用可能性と効率性を示している。 本手法は離散写像の計画と組合せ最適化のための高速アルゴリズムの考案に有効であると考えられる。

Lattice paths are functional entities that model efficient navigation in discrete/grid maps. This paper presents a new scheme to generate collision-free lattice paths with utmost efficiency using the bijective property to rooted ordered trees, rendering a one-dimensional search problem. Our computational studies using ten state-of-the-art and relevant nature-inspired swarm heuristics in navigation scenarios with obstacles with convex and non-convex geometry show the practical feasibility and efficiency in rendering collision-free lattice paths. We believe our scheme may find use in devising fast algorithms for planning and combinatorial optimization in discrete maps.
翻訳日:2022-09-13 12:12:57 公開日:2022-09-12
# 知識ベース質問応答:意味的パーシングの視点から

Knowledge Base Question Answering: A Semantic Parsing Perspective ( http://arxiv.org/abs/2209.04994v1 )

ライセンス: Link先を確認
Yu Gu, Vardaan Pahuja, Gong Cheng, Yu Su(参考訳) 近年のディープラーニングの進歩は意味解析の研究を大いに推進している。 web apiへの自然言語インターフェース、テキストからsqlへの生成など、多くのダウンストリームタスクで改善がなされている。 しかし,これらの課題と密接な関係にあるにもかかわらず,知識ベース(KBQA)に対する質問応答の研究は比較的緩やかに進んでいる。 KBQAには,スキーマレベルの複雑性とファクトレベルの複雑性という2つのユニークな課題があります。 本調査では,KBQAを意味解析の幅広い文献に位置づけ,既存のKBQAアプローチがどのような課題に対処しようとしているのかを包括的に説明する。 独特な課題にかかわらず、KBQAに関する既存の研究で見過ごされている意味解析の文献から、いまだ多くのインスピレーションを得ることができると論じる。 議論から,KBQA研究のボトルネックをよりよく理解し,特に事前学習された言語モデルの時代において,KBQAが意味解析の文献に沿うための将来性のある方向性に光を当てることができた。

Recent advances in deep learning have greatly propelled the research on semantic parsing. Improvement has since been made in many downstream tasks, including natural language interface to web APIs, text-to-SQL generation, among others. However, despite the close connection shared with these tasks, research on question answering over knowledge bases (KBQA) has comparatively been progressing slowly. We identify and attribute this to two unique challenges of KBQA, schema-level complexity and fact-level complexity. In this survey, we situate KBQA in the broader literature of semantic parsing and give a comprehensive account of how existing KBQA approaches attempt to address the unique challenges. Regardless of the unique challenges, we argue that we can still take much inspiration from the literature of semantic parsing, which has been overlooked by existing research on KBQA. Based on our discussion, we can better understand the bottleneck of current KBQA research and shed light on promising directions for KBQA to keep up with the literature of semantic parsing, particularly in the era of pre-trained language models.
翻訳日:2022-09-13 12:12:38 公開日:2022-09-12
# CTスキャンによる肺動脈セグメンテーションのためのマルチビュー多段階およびマルチウィンドウフレームワーク

A multi view multi stage and multi window framework for pulmonary artery segmentation from CT scans ( http://arxiv.org/abs/2209.03918v3 )

ライセンス: Link先を確認
ZeYu Liu, Yi Wang, Jing Wen, Yong Zhang, Hao Yin, Chao Guo, Zhongyu Wang(参考訳) これはPARSE2022 Challengeの最終結果の第9位の技術的報告である。 3d cnnネットワークを用いた2段階法を用いて肺動脈の分画問題を解決する。 粗いモデルはROIを見つけるために使われ、細かいモデルはセグメンテーション結果を洗練するために使用される。 また, セグメンテーション性能を向上させるため, マルチビュー・マルチウィンドウレベル手法を採用すると同時に, 不整合ラベリングの影響を軽減するため, 微調整戦略を採用する。

This is the technical report of the 9th place in the final result of PARSE2022 Challenge. We solve the segmentation problem of the pulmonary artery by using a two-stage method based on a 3D CNN network. The coarse model is used to locate the ROI, and the fine model is used to refine the segmentation result. In addition, in order to improve the segmentation performance, we adopt multi-view and multi-window level method, at the same time we employ a fine-tune strategy to mitigate the impact of inconsistent labeling.
翻訳日:2022-09-13 10:36:36 公開日:2022-09-12
# テキストベースゲームのための深層強化学習エージェントの解析

An Analysis of Deep Reinforcement Learning Agents for Text-based Games ( http://arxiv.org/abs/2209.04105v2 )

ライセンス: Link先を確認
Chen Chen, Yue Dai, Josiah Poon, Caren Han(参考訳) テキストベースゲーム(TBG)は、ユーザやコンピュータエージェントがテキストインタラクションを行い、ゲーム目標を達成する複雑な環境であり、TBGエージェント設計およびトレーニングプロセスにおいては、エージェントモデルの効率と性能のバランスをとることが大きな課題である。 TBGエージェントを標準化した環境での深層学習モジュールの性能を確認し,その性能を異なる評価タイプで検証することが,TBGエージェント研究においても重要である。 我々は,手作りルールのない標準化されたTBGエージェントを構築し,TBG評価タイプを正式に分類し,我々の環境における選択手法を解析した。

Text-based games(TBG) are complex environments which allow users or computer agents to make textual interactions and achieve game goals.In TBG agent design and training process, balancing the efficiency and performance of the agent models is a major challenge. Finding TBG agent deep learning modules' performance in standardized environments, and testing their performance among different evaluation types is also important for TBG agent research. We constructed a standardized TBG agent with no hand-crafted rules, formally categorized TBG evaluation types, and analyzed selected methods in our environment.
翻訳日:2022-09-13 10:36:25 公開日:2022-09-12
# F-COREF: 高速で高精度で容易に参照解決

F-COREF: Fast, Accurate and Easy to Use Coreference Resolution ( http://arxiv.org/abs/2209.04280v2 )

ライセンス: Link先を確認
Shon Otmazgin, Arie Cattan, Yoav Goldberg(参考訳) fastcorefは、高速で正確で使いやすい英語のコリファレンス解決のためのpythonパッケージです。 パッケージはpipインストール可能で、2つのモードがある。lingmessアーキテクチャに基づく正確なモード、最先端のコリファレンス精度を提供する、そして、この作業の焦点である実質的に高速なモデルであるf-corefである。 モデル{}は、V100 GPU上で2.8K OntoNotesの文書を25秒で処理できる(LingMessモデルでは6分、一般的なAllenNLPコア参照モデルでは12分)。 この高速化はLingMessモデルからのコンパクトモデルの蒸留と,余剰バッチと呼ばれる手法による効率的なバッチ化との組み合わせによって実現される。 https://github.com/shon-otmazgin/fastcoref

We introduce fastcoref, a python package for fast, accurate, and easy-to-use English coreference resolution. The package is pip-installable, and allows two modes: an accurate mode based on the LingMess architecture, providing state-of-the-art coreference accuracy, and a substantially faster model, F-coref, which is the focus of this work. \model{} allows to process 2.8K OntoNotes documents in 25 seconds on a V100 GPU (compared to 6 minutes for the LingMess model, and to 12 minutes of the popular AllenNLP coreference model) with only a modest drop in accuracy. The fast speed is achieved through a combination of distillation of a compact model from the LingMess model, and an efficient batching implementation using a technique we call leftover batching. https://github.com/shon-otmazgin/fastcoref
翻訳日:2022-09-13 10:36:15 公開日:2022-09-12
# TEACH:3D人間のための時間的行動構成

TEACH: Temporal Action Composition for 3D Humans ( http://arxiv.org/abs/2209.04066v2 )

ライセンス: Link先を確認
Nikos Athanasiou, Mathis Petrovich, Michael J. Black, G\"ul Varol(参考訳) 自然言語の一連の記述を前提として,テキストに意味的に対応する3次元の人間の動作を生成し,命令の時間的順序に従う。 特に、我々のゴールは一連のアクションの合成を可能にすることであり、これは時間的アクション合成と呼ばれる。 テキストコンディショルドモーション合成における現在の技術は、入力として1つのアクションまたは1つの文だけを取る。 これは、アクションシーケンスを含む適切なトレーニングデータが欠如していることに加えて、非自己回帰モデル定式化の計算の複雑さによっても原因である。 この作業では、両方の問題に対処します。 まず,BABELの動作テキストコレクションを利用して,ラベル付きアクションを多種多様に表現し,それらの間の遷移を連続して生成する。 次に、動作のシーケンス内で非自己回帰的に動作するTransformerベースのアプローチを設計する。 この階層的な定式化は、複数のベースラインと比較して、我々の実験で有効であることを示す。 我々のアプローチはTAACH(Temporal Action compositions for Human Motions)と呼ばれ、多種多様な行動のためのリアルな人間の動きと、言語記述からの時間的構成を生成する。 この新しいタスクの作業を促進するために、調査目的のコードを$\href{teach.is.tue.mpg.de}{\text{website}}$で公開しています。

Given a series of natural language descriptions, our task is to generate 3D human motions that correspond semantically to the text, and follow the temporal order of the instructions. In particular, our goal is to enable the synthesis of a series of actions, which we refer to as temporal action composition. The current state of the art in text-conditioned motion synthesis only takes a single action or a single sentence as input. This is partially due to lack of suitable training data containing action sequences, but also due to the computational complexity of their non-autoregressive model formulation, which does not scale well to long sequences. In this work, we address both issues. First, we exploit the recent BABEL motion-text collection, which has a wide range of labeled actions, many of which occur in a sequence with transitions between them. Next, we design a Transformer-based approach that operates non-autoregressively within an action, but autoregressively within the sequence of actions. This hierarchical formulation proves effective in our experiments when compared with multiple baselines. Our approach, called TEACH for "TEmporal Action Compositions for Human motions", produces realistic human motions for a wide variety of actions and temporal compositions from language descriptions. To encourage work on this new task, we make our code available for research purposes at our $\href{teach.is.tue.mpg.de}{\text{website}}$.
翻訳日:2022-09-13 10:35:34 公開日:2022-09-12
# 二重Q-Learningによる自然災害時の市民移住

Double Q-Learning for Citizen Relocation During Natural Hazards ( http://arxiv.org/abs/2209.03800v2 )

ライセンス: Link先を確認
Alysson Ribeiro da Silva(参考訳) 自然災害は、死亡率、転職率、復興の決定により、世界中の社会経済に重大な悪影響を及ぼす可能性がある。 ロボット工学は自然災害発生時の被害者の特定と救助に成功している。 しかし、自律ロボットは、人で構成される救助隊を待つことなく、自ら移動することで、市民の命を救えるようなソリューションを展開するための努力はほとんど行われていない。 強化学習アプローチはそのようなソリューションのデプロイに使用することができるが、そのデプロイで最も有名なアルゴリズムのひとつであるQラーニングは、学習ルーチンの実行時に発生するバイアスのある結果に悩まされている。 本研究は, 自然災害時の住民移動における二重Q-ラーニングの能力を, グリッド世界に基づくリスクシミュレーションエンジンにより評価する, 部分観測可能なマルコフ決定プロセスに基づく市民移住の解決策を採用するものである。 結果から,簡単なシナリオでは100%以上,ハードシナリオでは50%近い性能を示すことがわかった。

Natural disasters can cause substantial negative socio-economic impacts around the world, due to mortality, relocation, rates, and reconstruction decisions. Robotics has been successfully applied to identify and rescue victims during the occurrence of a natural hazard. However, little effort has been taken to deploy solutions where an autonomous robot can save the life of a citizen by itself relocating it, without the need to wait for a rescue team composed of humans. Reinforcement learning approaches can be used to deploy such a solution, however, one of the most famous algorithms to deploy it, the Q-learning, suffers from biased results generated when performing its learning routines. In this research a solution for citizen relocation based on Partially Observable Markov Decision Processes is adopted, where the capability of the Double Q-learning in relocating citizens during a natural hazard is evaluated under a proposed hazard simulation engine based on a grid world. The performance of the solution was measured as a success rate of a citizen relocation procedure, where the results show that the technique portrays a performance above 100% for easy scenarios and near 50% for hard ones.
翻訳日:2022-09-13 10:35:09 公開日:2022-09-12