このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220511となっている論文です。

PDF登録状況(公開日: 20220511)

TitleAuthorsAbstract論文公表日・翻訳日
# 一般確率論、一般化スペクトルヘドラ、テンソルノルムの不整合

Incompatibility in general probabilistic theories, generalized spectrahedra, and tensor norms ( http://arxiv.org/abs/2011.06497v3 )

ライセンス: Link先を確認
Andreas Bluhm, Anna Jen\v{c}ov\'a, Ion Nechita(参考訳) 本研究では,一般確率論(GPT)における不整合性の測定について検討する。 対応する測定値の等価な特徴をいくつか示す。 1つ目は、関連する写像の正の値である。 2つ目は、ある一般化されたスペクトルの包含と互換性に関するものである。 このために、自由スペクトル理論を順序ベクトル空間に拡張する。 第3の特徴づけは、二コトミック測度とバナッハ空間のテンソル交叉の比を結びつけるものである。 我々はこれらの特徴を利用して、異なるGPT、すなわちそれらの互換性領域に存在する非互換性の量を研究する。 中心対称 GPT に対して、この整合度は、関連するバナッハ空間のテンソル積の射影ノルムと射影ノルムの比として与えられることを示す。 これにより、いくつかのGPTの整合領域を完全に特徴づけることができ、関連するバナッハ空間の 1-積定数の観点から、整合度に関する最適普遍境界を得ることができる。 さらに, 3 qubit 以上の測定において, 最大不整合性に関する新たな境界を求める。

In this work, we investigate measurement incompatibility in general probabilistic theories (GPTs). We show several equivalent characterizations of compatible measurements. The first is in terms of the positivity of associated maps. The second relates compatibility to the inclusion of certain generalized spectrahedra. For this, we extend the theory of free spectrahedra to ordered vector spaces. The third characterization connects the compatibility of dichotomic measurements to the ratio of tensor crossnorms of Banach spaces. We use these characterizations to study the amount of incompatibility present in different GPTs, i.e. their compatibility regions. For centrally symmetric GPTs, we show that the compatibility degree is given as the ratio of the injective and the projective norm of the tensor product of associated Banach spaces. This allows us to completely characterize the compatibility regions of several GPTs, and to obtain optimal universal bounds on the compatibility degree in terms of the 1-summing constants of the associated Banach spaces. Moreover, we find new bounds on the maximal incompatibility present in more than three qubit measurements.
翻訳日:2023-04-24 07:37:37 公開日:2022-05-11
# 1時間長コヒーレンス時間によるアルカリスピンと希ガススピンの強いカップリング

Strong coupling of alkali spins to noble-gas spins with hour-long coherence time ( http://arxiv.org/abs/2102.02797v2 )

ライセンス: Link先を確認
Roy Shaham and Or Katz and Ofer Firstenberg(参考訳) 貴ガスの核スピンは、閉ざされた完全な電子シェルによる異常な孤立のため、環境条件下で何時間もコヒーレンスを維持することができる。 しかしこの分離は、光学的手段や他のスピンガスとの物理的結合によってそれらを操作し制御する能力を妨げている。 本研究では,貴ガススピンとアルカリ金属蒸気の光学的アクセス性スピンとの強いコヒーレント結合を実験的に達成する。 カップリングの基礎となる確率的スピン交換衝突は、2つの気体間のスピン励起のコヒーレントな周期的交換に蓄積する。 我々は,崩壊速度の10倍の結合率を求め,スピンのスペクトル応答の交差を回避した結果を観察し,磁場による結合の外部制御を示す。 これらの結果は、量子センシングおよび情報への応用のために、希ガススピンと効率的かつ迅速な相互作用の経路を開く。

Nuclear spins of noble gases can maintain coherence for hours at ambient conditions owing to their extraordinary isolation by the enclosing, complete electronic shells. This isolation, however, impedes the ability to manipulate and control them by optical means or by physical coupling to other spin gases. Here we experimentally achieve strong coherent coupling between noble-gas spins and the optically-accessible spins of alkali-metal vapor. Stochastic spin-exchange collisions, underlying the coupling, accumulate to a coherent periodic exchange of spin excitations between the two gases. We obtain a coupling rate 10 times higher than the decay rate, observe the resultant avoided crossing in the spectral response of the spins, and demonstrate the external control over the coupling by magnetic fields. These results open a route for efficient and rapid interfacing with noble-gas spins for applications in quantum sensing and information.
翻訳日:2023-04-12 19:53:12 公開日:2022-05-11
# Layer VQE: 雑音量子コンピュータにおける組合せ最適化のための変分アプローチ

Layer VQE: A Variational Approach for Combinatorial Optimization on Noisy Quantum Computers ( http://arxiv.org/abs/2102.05566v3 )

ライセンス: Link先を確認
Xiaoyuan Liu, Anthony Angone, Ruslan Shaydulin, Ilya Safro, Yuri Alexeev, Lukasz Cincio(参考訳) 短期量子デバイスにおける組合せ最適化は、量子優位性を示すための有望な道である。 しかし、これらのデバイスの能力はノイズやエラー率によって制約される。 本稿では,変分量子固有解法(VQE)に触発された反復層VQE(L-VQE)アプローチを提案する。 提案手法の可能性を実証するために,最大40量子ビット,352パラメータの回路をシミュレーションした大規模数値研究を行う。 ネットワーク内の複数のコミュニティを検出する問題に対する量子最適化ヒューリスティックスの評価を行い、新しい量子ビットフルーガルの定式化を導入する。 我々はL-VQEと量子近似最適化アルゴリズム(QAOA)を数値的に比較し、QAOAがより深い回路を必要としながら低い近似比を達成することを示した。 L-VQE は有限サンプリング誤差に対してより堅牢であり,標準的な VQE 手法と比較して解を見つける確率が高いことを示す。 シミュレーションの結果,L-VQEは現実的なハードウェアノイズ下でよく動作することがわかった。

Combinatorial optimization on near-term quantum devices is a promising path to demonstrating quantum advantage. However, the capabilities of these devices are constrained by high noise or error rates. In this paper, we propose an iterative Layer VQE (L-VQE) approach, inspired by the Variational Quantum Eigensolver (VQE). We present a large-scale numerical study, simulating circuits with up to 40 qubits and 352 parameters, that demonstrates the potential of the proposed approach. We evaluate quantum optimization heuristics on the problem of detecting multiple communities in networks, for which we introduce a novel qubit-frugal formulation. We numerically compare L-VQE with Quantum Approximate Optimization Algorithm (QAOA) and demonstrate that QAOA achieves lower approximation ratios while requiring significantly deeper circuits. We show that L-VQE is more robust to finite sampling errors and has a higher chance of finding the solution as compared with standard VQE approaches. Our simulation results show that L-VQE performs well under realistic hardware noise.
翻訳日:2023-04-12 00:50:47 公開日:2022-05-11
# 人身売買に悪影響を与えるオペレーション研究と分析--学術文献の体系的レビュー

Operations Research and Analytics to Combat Human Trafficking: A Systematic Review of Academic Literature ( http://arxiv.org/abs/2103.16476v4 )

ライセンス: Link先を確認
Geri L. Dimas, Renata A. Konrad, Kayse Lee Maass, Andrew C. Trapp(参考訳) 人身売買 (human trafficking) は、世界各国で起きている社会的、経済的、人権の問題である。 近年、オペレーションズ・リサーチ・アナリティクスのドメインから反人身売買の研究が増えているが、この文献の体系的なレビューは存在しない。 我々は、このギャップを埋めるために、抗人身売買ドメインに関連するオペレーションリサーチ・アナリティクス研究の身体を特定し分類する体系的な文献レビューを提供することにより、現在までの分野の集団的影響を解明する。 本研究は,方法論,理論的アプローチ,データソース,トラフィック状況,対象地域,被害者生存率,そして確立された4Ps原則に焦点をあてるために,142の研究を分類する。 これらの知見を用いて,現在の文献が人身売買のグローバル人口動態とどの程度一致しているかを考察し,既存の研究ギャップを特定し,運用研究と分析研究者のための議題を提案する。

Human trafficking is a widespread and compound social, economic, and human rights issue occurring in every region of the world. While there have been an increasing number of anti-human trafficking works from the Operations Research and Analytics domains in recent years, no systematic review of this literature currently exists. We fill this gap by providing a systematic literature review that identifies and classifies the body of Operations Research and Analytics research related to the anti-human trafficking domain, thereby illustrating the collective impact of the field to date. We classify 142 studies to identify current trends in methodologies, theoretical approaches, data sources, trafficking contexts, target regions, victim-survivor demographics, and focus within the well-established 4Ps principles. Using these findings, we discuss the extent to which the current literature aligns with the global demographics of human trafficking and identify existing research gaps to propose an agenda for Operations Research and Analytics researchers.
翻訳日:2023-04-06 03:31:35 公開日:2022-05-11
# 音のついた光学格子

An optical lattice with sound ( http://arxiv.org/abs/2104.13922v3 )

ライセンス: Link先を確認
Yudan Guo, Ronen M. Kroeze, Brendan P. Marsh, Sarang Gopalakrishnan, Jonathan Keeling, and Benjamin L. Lev(参考訳) 量子音波 -- フォノン -- は結晶材料の弾性応答を制御し、その熱力学的性質と電気的応答(例えば電子を超伝導クーパー対に結合させること)を決定する重要な役割を果たす。 格子フォノンと弾性の物理学は、周期的な光ポテンシャルで中性原子で構成された量子固体のシミュレータには欠落している:実際の固体とは異なり、従来の光学格子は無限に硬いため無音である。 したがって、結晶の光学格子的実現は、実際の物質の低温特性を決定する中心的な動的自由度を欠いている。 そこで我々はBose-Einstein Condensate (BEC) を共焦点光共振器に結合したフォノンモードの光学格子を生成する。 アクティブ量子ガス顕微鏡の役割を担い、多モードキャビティQEDシステムはフォノンを撮像し、短距離光子を介する原子-原子相互作用を通じてフォノンをサポートする結晶化を誘導する。 動的感受性測定により、フォノンの分散関係が明らかとなり、これらの集合励起はBEC-光子結合強度に依存する音速を示す。 この結果は、量子固体の弾性のリッチな物理学を探求する方法であり、量子融解遷移から量子状態におけるエキゾチックな「フラクタルトニック」な位相的欠陥まで幅広い。

Quantised sound waves -- phonons -- govern the elastic response of crystalline materials, and also play an integral part in determining their thermodynamic properties and electrical response (e.g., by binding electrons into superconducting Cooper pairs). The physics of lattice phonons and elasticity is absent in simulators of quantum solids constructed of neutral atoms in periodic light potentials: unlike real solids, traditional optical lattices are silent because they are infinitely stiff. Optical-lattice realisations of crystals therefore lack some of the central dynamical degrees of freedom that determine the low-temperature properties of real materials. Here, we create an optical lattice with phonon modes using a Bose-Einstein condensate (BEC) coupled to a confocal optical resonator. Playing the role of an active quantum gas microscope, the multimode cavity QED system both images the phonons and induces the crystallisation that supports phonons via short-range, photon-mediated atom-atom interactions. Dynamical susceptibility measurements reveal the phonon dispersion relation, showing that these collective excitations exhibit a sound speed dependent on the BEC-photon coupling strength. Our results pave the way for exploring the rich physics of elasticity in quantum solids, ranging from quantum melting transitions to exotic ``fractonic'' topological defects in the quantum regime.
翻訳日:2023-04-02 04:21:15 公開日:2022-05-11
# 量子・古典的ベイズエージェント

Quantum and Classical Bayesian Agents ( http://arxiv.org/abs/2106.09057v2 )

ライセンス: Link先を確認
John B. DeBrota and Peter J. Love(参考訳) 量子ベイズ理論(qbist)に基づく量子力学と古典力学のどちらかを採用する合理的意思決定エージェントをモデル化する一般的なアプローチについて述べる。 1つのエージェントの性質が他のエージェントに影響を与えるかもしれないスキームの付加的な要素により、我々は複数の相互作用する量子および古典ベイズエージェントを扱う柔軟な枠組みに到達する。 量子エージェントと古典エージェントは、外因性源から信号を受信し、2つの相互作用する古典エージェント、2つの相互作用する量子エージェント、そして、古典エージェントと量子エージェントの間の相互作用である。 量子論の複数の相互作用するユーザの一貫した扱いにより、既存のマルチエージェントプロトコルを適切に解釈することができ、量子アルゴリズム設計などの他の分野における新しいアプローチを提案することができる。

We describe a general approach to modeling rational decision-making agents who adopt either quantum or classical mechanics based on the Quantum Bayesian (QBist) approach to quantum theory. With the additional ingredient of a scheme by which the properties of one agent may influence another, we arrive at a flexible framework for treating multiple interacting quantum and classical Bayesian agents. We present simulations in several settings to illustrate our construction: quantum and classical agents receiving signals from an exogenous source, two interacting classical agents, two interacting quantum agents, and interactions between classical and quantum agents. A consistent treatment of multiple interacting users of quantum theory may allow us to properly interpret existing multi-agent protocols and could suggest new approaches in other areas such as quantum algorithm design.
翻訳日:2023-03-26 13:00:04 公開日:2022-05-11
# 量子マイクロ波回路を用いたAl-InAs界面における$p \pm ip$ペアリングの検出

Detecting induced $p \pm ip$ pairing at the Al-InAs interface with a quantum microwave circuit ( http://arxiv.org/abs/2107.03695v3 )

ライセンス: Link先を確認
D. Phan and J. Senior and A. Ghazaryan and M. Hatefipour and W. M. Strickland and J. Shabani and M. Serbyn and A. P. Higginbotham(参考訳) 超伝導体-半導体ハイブリッドデバイスは、量子情報処理へのいくつかの提案の核心にあるが、基本的な特性は分かっていない。 2次元Al-InAsハイブリッド系を共振マイクロ波回路に埋め込み,印加磁場による超伝導の破壊を予測した。 ハイブリッドシステムの2成分の性質から強い指紋が得られ、inasにおけるバンド内$p \pm i p$ペアリングの寄与、磁場によるボゴリューボフ-フェルミ表面の出現などを含む理論と定量的に比較した。 AlおよびInAsのコントリビューションを分離して解決することで、InAsのキャリア密度とモビリティを決定することができる。

Superconductor-semiconductor hybrid devices are at the heart of several proposed approaches to quantum information processing, but their basic properties remain to be understood. We embed a two-dimensional Al-InAs hybrid system in a resonant microwave circuit, probing the breakdown of superconductivity due to an applied magnetic field. We find a strong fingerprint from the two-component nature of the hybrid system, and quantitatively compare with a theory that includes the contribution of intraband $p \pm i p$ pairing in the InAs, as well as the emergence of Bogoliubov-Fermi surfaces due to magnetic field. Separately resolving the Al and InAs contributions allows us to determine the carrier density and mobility in the InAs.
翻訳日:2023-03-23 02:19:55 公開日:2022-05-11
# 非対称量子ラビモデルの一般対称性作用素

General symmetry operators of the asymmetric quantum Rabi model ( http://arxiv.org/abs/2107.08937v2 )

ライセンス: Link先を確認
You-Fei Xie and Qing-Hu Chen(参考訳) 自明な対称性を持たない非対称量子 Rabi モデルにおける真のレベル交差は、量子ビットバイアスが空洞周波数の倍である場合、エネルギースペクトルで表される。 本研究では、ボゴリューボフ作用素のアプローチにおいて、任意の倍数に対して階層的に階層的に隠れ対称性に関連する対称性作用素を導出することができる。 文献中の小倍数に対する対称性作用素は、我々の一般的なスキームで非常に容易に再現できる。 さらに、一般パリティ作用素は対称性作用素を通じて定義され、これは自然に対称モデルのよく知られたパリティ作用素を含む。 我々は、このアプローチを他の非対称ラビモデルへ直接拡張して、関連する対称性作用素を見つけることができると信じている。

The true level crossing in the asymmetric quantum Rabi model without any obvious symmetry can be exhibited in the energy spectrum if the qubit bias is a multiple of the cavity frequency, which should imply the existence of the hidden symmetry. In this work, within a Bogoliubov operator approach, we can readily derive the symmetry operators associated with the hidden symmetry hierarchically for arbitrary multiples. The symmetry operators for small multiples in the literature can be extremely easily reproduced in our general scheme. In addition, a general parity operator is defined through the symmetry operator, which naturally includes the well-known parity operator of the symmetric model. We believe that the present approach can be straightforwardly extended to other asymmetric Rabi models to find the relevant symmetry operators.
翻訳日:2023-03-21 21:20:14 公開日:2022-05-11
# 任意の正と負の重み付けに対する分散量子位相センシング

Distributed quantum phase sensing for arbitrary positive and negative weights ( http://arxiv.org/abs/2108.04119v4 )

ライセンス: Link先を確認
Changhun Oh, Liang Jiang, and Changhyoup Lee(参考訳) 未知の多重パラメータの重み付き線形結合として定義される大域パラメータの推定は、量子資源を用いて拡張することができる。 有利な量子戦略は、重み分布によって異なり、与えられたセンシングシナリオに対する最大量子優位を達成する最適なスキームの研究を必要とする。 本研究では,正および負の符号を持つ重みの任意の分布に対する変位がゼロのガウス状態を用いた最適分散量子位相検出法を提案する。 最適スキームの推定精度を導出し、線形ビームスプリッターネットワークに注入された圧縮状態を用いて損失のないホモダイン検出を行うことにより達成可能であることを示す。 興味深いことに、最適スキームはガウス状態の絡み合いを、重みの等しい符号が割り当てられたモードの中でのみ利用し、反対の重みの符号でモードを分離する。 また, 非ガウスプローブ状態を用いた場合と比較して, 2モードの場合に着目し, より深い知見を提供する。 この研究は、任意の重み分布を持つ様々な物理パラメータを考慮した量子強化分散センシングスキームのさらなる研究を動機付けることを期待する。

Estimation of a global parameter defined as a weighted linear combination of unknown multiple parameters can be enhanced by using quantum resources. Advantageous quantum strategies may vary depending on the weight distribution, requiring the study of optimal schemes achieving a maximal quantum advantage for a given sensing scenarios. In this work, we propose an optimal distributed quantum phase sensing scheme using Gaussian states with zero displacement for an arbitrary distribution of the weights with positive and negative signs. The estimation precision of the optimal scheme is derived, and shown to be achievable by using squeezed states injected into linear beam-splitter networks and performing homodyne detection on them in the absence of loss. Interestingly, the optimal scheme exploits entanglement of Gaussian states only among the modes assigned with equal signs of the weights, but separates the modes with opposite weight signs. We also provide a deeper understanding of our finding by focusing on the two-mode case, in comparison with the cases using non-Gaussian probe states. We expect this work to motivate further studies on quantum-enhanced distributed sensing schemes considering various types of physical parameters with an arbitrary weight distribution.
翻訳日:2023-03-18 23:38:14 公開日:2022-05-11
# 開量子系に対する正準ハミルトニアン

A canonical Hamiltonian for open quantum systems ( http://arxiv.org/abs/2108.08316v4 )

ライセンス: Link先を確認
Patrick Hayden, Jonathan Sorce(参考訳) 開量子系が当初はその環境とは無関係な場合、その力学はリンドブラッド型マスター方程式を用いて記述することができる。 マスター方程式は、有効ハミルトニアンで表されるユニタリピースと、ハーミシティ保存超作用素で表される散逸片に分けられるが、開系力学をユニタリおよび散逸片に分割することは、一様でない。 有限次元量子系に対しては、散逸超作用素の空間上のノルムを指定し、散逸子を最小とする標準ハミルトニアンを定義することで、この非特異性を解決する。 このように定義される標準ハミルトニアンは、リンドブラッドが最初に定義したハミルトニアンと同値であり、散逸子のジャンプ作用素がトレースレスであることを要求して一意に特定されることを示し、マルコフのマスター方程式の特別な場合において知られている特異性結果を拡張する。 その環境に弱結合した系に対して、摂動論における任意の順序に対する正準実効ハミルトニアンを計算するための再帰的公式を与える。

If an open quantum system is initially uncorrelated from its environment, then its dynamics can be written in terms of a Lindblad-form master equation. The master equation is divided into a unitary piece, represented by an effective Hamiltonian, and a dissipative piece, represented by a hermiticity-preserving superoperator; however, the division of open system dynamics into unitary and dissipative pieces is non-unique. For finite-dimensional quantum systems, we resolve this non-uniqueness by specifying a norm on the space of dissipative superoperators and defining the canonical Hamiltonian to be the one whose dissipator is minimal. We show that the canonical Hamiltonian thus defined is equivalent to the Hamiltonian initially defined by Lindblad, and that it is uniquely specified by requiring the dissipator's jump operators to be traceless, extending a uniqueness result known previously in the special case of Markovian master equations. For a system weakly coupled to its environment, we give a recursive formula for computing the canonical effective Hamiltonian to arbitrary orders in perturbation theory, which we can think of as a perturbative scheme for renormalizing the system's bare Hamiltonian.
翻訳日:2023-03-18 03:19:42 公開日:2022-05-11
# 閉じ込められたイオン系の準エネルギー作用素と一般化された圧縮状態

Quasienergy operators and generalized squeezed states for systems of trapped ions ( http://arxiv.org/abs/2108.11628v2 )

ライセンス: Link先を確認
Bogdan M. Mihalcea(参考訳) 時間依存量子ハミルトン関数の集団多体力学は、複数の自由度を示す力学系、この場合(ポールとペニング)トラップについて研究されている。 量子安定性は離散準エネルギースペクトルによって特徴づけられるが、準エネルギー状態はシンプレクティックコヒーレント状態である。 我々は、システムに関連するコヒーレント状態(cs)を構築するために用いられるシンプレクティック群 ${\cal {sl}}(2, \mathbb r)$ のリー代数の生成子を導入する。 捕捉されたイオンは、量子ハミルトン関数を関連付ける調和振動子(HO)として扱われる。 リー代数生成器の関数としての運動量およびポテンシャルエネルギー作用素を求め、古典座標、運動量、運動量およびポテンシャルエネルギーの式と総エネルギーを供給する。 さらに,分布の非対称性と平坦性パラメータとともに,座標と運動量の分散を推算する。 レーザー放射との相互作用は、同一の2レベル原子の系に対しても検討される。 ディックモデルに対するハミルトン関数は導出される。 光学系は、外部レーザー場との相互作用を行うHO (trapped ion) としてモデル化され、電磁場(EM)の圧縮状態を設計するために使用される。 我々は、イオンダイナミクスとemフィールドの両方に関連するコヒーレントおよびスクイーズ状態を考える。 このようなアプローチにより、群論を用いてコンパクトで賢い方法でCSを構築することができる。

Collective many-body dynamics for time-dependent quantum Hamiltonian functions is investigated for a dynamical system that exhibits multiple degrees of freedom, in this case a combined (Paul and Penning) trap. Quantum stability is characterized by a discrete quasienergy spectrum, while the quasienergy states are symplectic coherent states. We introduce the generators of the Lie algebra of the symplectic group ${\cal {SL}}(2, \mathbb R)$, which we use to build the coherent states (CS) associated to the system under investigation. The trapped ion is treated as a harmonic oscillator (HO) to which we associate the quantum Hamilton function. We obtain the kinetic and potential energy operators as functions of the Lie algebra generators and supply the expressions for the classical coordinate, momentum, kinetic and potential energy, as well as the total energy. In addition, we also infer the dispersions for the coordinate and momentum, together with the asymmetry and the flatness parameter for the distribution. The system interaction with laser radiation is also examined for a system of identical two-level atoms. The Hamilton function for the Dicke model is derived. The optical system is modelled as a HO (trapped ion) that undergoes interaction with an external laser field and we use it to engineer a squeezed state of the electromagnetic (EM) field. We consider coherent and squeezed states associated to both ion dynamics and to the EM field. Such an approach enables one to build CS in a compact and smart manner by use of the group theory.
翻訳日:2023-03-17 03:17:45 公開日:2022-05-11
# quantum lego:テンソルネットワークから量子誤り訂正コードを構築する

Quantum Lego: Building Quantum Error Correction Codes from Tensor Networks ( http://arxiv.org/abs/2109.08158v2 )

ライセンス: Link先を確認
ChunJun Cao and Brad Lackey(参考訳) 単純なコードや状態から複雑な量子誤り訂正符号を生成するフレキシブルでグラフィカルなフレームワークを導入し、コードの結合を一般化します。 具体的には、複雑なコード構造を、単純なコードや状態のテンソルをモジュラ形式で構築したテンソルネットワークとして表現する。 演算子プッシュとして知られる局所的な動きの集合を用いて、ネットワーク内の演算子のフローをトレースすることで、超越的な非クリフォードゲートのようなより複雑な符号の性質を導出することができる。 このフレームワークは、構築する任意のコードにネットワークジオメトリを内包し、qubitsとquudits上での安定化コードおよび非安定化コードを構築するのに有効である。 収縮可能なテンソルネットワークでは、収縮のシーケンスはデコード/エンコード回路も構成する。 フレームワークのさまざまな機能を強調し、チュートリアルを提供するために、簡単な安定化コードを組み合わせて非自明なコードを構築する例をいくつか紹介します。 これらの例として、トーリック符号とその変種、超越的非クリフォード作用素を持つホログラフィック符号、3d安定化符号、その他の興味深い性質を持つ安定化符号がある。 驚くべきことに、表面符号はテンソルネットワーク符号化マップの「二重化」後に2d Bacon-Shor符号と等価である。

We introduce a flexible and graphically intuitive framework that constructs complex quantum error correction codes from simple codes or states, generalizing code concatenation. More specifically, we represent the complex code constructions as tensor networks built from the tensors of simple codes or states in a modular fashion. Using a set of local moves known as operator pushing, one can derive properties of the more complex codes, such as transversal non-Clifford gates, by tracing the flow of operators in the network. The framework endows a network geometry to any code it builds and is valid for constructing stabilizer codes as well as non-stabilizer codes over qubits and qudits. For a contractible tensor network, the sequence of contractions also constructs a decoding/encoding circuit. To highlight the framework's range of capabilities and to provide a tutorial, we lay out some examples where we glue together simple stabilizer codes to construct non-trivial codes. These examples include the toric code and its variants, a holographic code with transversal non-Clifford operators, a 3d stabilizer code, and other stabilizer codes with interesting properties. Surprisingly, we find that the surface code is equivalent to the 2d Bacon-Shor code after "dualizing" its tensor network encoding map.
翻訳日:2023-03-14 21:01:44 公開日:2022-05-11
# 変分量子固有解法のベンチマーク問題としての親ハミルトン

Parent Hamiltonian as a benchmark problem for variational quantum eigensolvers ( http://arxiv.org/abs/2109.11759v2 )

ライセンス: Link先を確認
Fumiyoshi Kobayashi, Kosuke Mitarai, Keisuke Fujii(参考訳) 雑音中規模量子デバイスの有望な応用として注目される変分量子固有ソルバ(vqe)は、ansatzと呼ばれる量子回路のパラメータを可変に最適化することで、与えられたハミルトニアンの基底状態を見つける。 最適化の難しさは問題ハミルトニアンとアンサッツの構造の複雑さに依存するため、vqeの最適化器の性能を系統的に分析することは困難であった。 この問題を解決するために,低深さパラメータ化量子回路の親ハミルトニアンの概念を用いて,基底状態が与えられたアンザッツで達成可能であることを保証したベンチマーク問題を構築する手法を提案する。 解から初期パラメータの距離を変化させることにより、複数の最適化器の収束を比較し、収束エネルギーが距離に応じてしきい値のような振舞いを示した。 この研究は、vqeのオプティマイザを分析する体系的な方法を提供し、ansatzとその初期パラメータの設計に寄与する。

Variational quantum eigensolver (VQE), which attracts attention as a promising application of noisy intermediate-scale quantum devices, finds a ground state of a given Hamiltonian by variationally optimizing the parameters of quantum circuits called ansatz. Since the difficulty of the optimization depends on the complexity of the problem Hamiltonian and the structure of the ansatz, it has been difficult to analyze the performance of optimizers for the VQE systematically. To resolve this problem, we propose a technique to construct a benchmark problem whose ground state is guaranteed to be achievable with a given ansatz by using the idea of parent Hamiltonian of low-depth parameterized quantum circuits. We compare the convergence of several optimizers by varying the distance of the initial parameters from the solution and find that the converged energies showed a threshold-like behavior depending on the distance. This work provides a systematic way to analyze optimizers for VQE and contribute to the design of ansatz and its initial parameters.
翻訳日:2023-03-13 21:07:00 公開日:2022-05-11
# 絡み合い依存複雑性を持つ近似量子状態準備

Approximated quantum-state preparation with entanglement dependent complexity ( http://arxiv.org/abs/2111.03132v2 )

ライセンス: Link先を確認
Israel F. Araujo, Carsten Blank, Adenilton J. da Silva(参考訳) 量子コンピューティングにおけるユビキタスは、データを量子状態にエンコードするステップである。 この過程は量子状態準備と呼ばれ、非構造化データの複雑さは量子ビット数で指数関数的である。 いくつかの研究は、例えば、固定深度回路を管理可能な複雑さで訓練する変分法を用いてこの問題に対処している。 これらの方法は、バックプロパゲーション技術や不毛高原の欠如として限界がある。 本研究は,計算複雑性を古典コンピュータにオフロードすることで,状態準備回路の深さを削減するアルゴリズムを提案する。 初期化量子状態は正確あるいは近似であり、近似は元の状態の初期化よりも今日の量子プロセッサの方が優れていることを示す。 提案手法は,量子状態における分布の初期化と,量子機械学習タスクのための近似ローディングイメージを許容できることを実験的に検証した。 実際、IBMQデバイスに関する我々の実験は、NISQ時代を通して量子コンピューティングの実験者を支援する可能性が高いことを示している。

Ubiquitous in quantum computing is the step to encode data into a quantum state. This process is called quantum state preparation, and its complexity for non-structured data is exponential on the number of qubits. Several works address this problem, for instance, by using variational methods that train a fixed depth circuit with manageable complexity. These methods have their limitations as the lack of a back-propagation technique and barren plateaus. This work proposes an algorithm to reduce state preparation circuit depth by offloading computational complexity to a classical computer. The initialized quantum state can be exact or an approximation, and we show that the approximation is better on today's quantum processors than the initialization of the original state. We verified through experimental evaluation that the proposed method allows the initialization of distributions in a quantum state and approximate loading images for quantum machine learning tasks. Indeed, our experiments on IBMQ devices show that they are likely to be aiding experimenters of quantum computing throughout the NISQ era.
翻訳日:2023-03-09 04:13:44 公開日:2022-05-11
# 回路QEDにおけるパラメトリックダウンコンバージョンによる周期トリップ

Period tripling due to parametric down-conversion in circuit QED ( http://arxiv.org/abs/2111.06202v2 )

ライセンス: Link先を確認
Lisa Arndt and Fabian Hassler(参考訳) 離散時間遷移対称性の破れは、周期的に駆動される系の駆動力の周波数のごく一部で観測できる。 しかし、周期倍のパラメトリック不安定性を除いて、多周期駆動は不安定性閾値を導かない。 本稿では,量子真空ゆらぎを一般化して周期乗算を誘導できることを指摘する。 特に、回路QEDにおける周期的トリップ状態について議論し、マイクロ波セットアップを提案する。 本研究では, 弱い散逸や強い駆動に対しては, 周期的トリップ状態が生じる時間スケールを, 後続のデフォーカスの時間スケールから任意に分離できるという意味で, 非平衡相転移を示すことを示す。

Discrete time-translation symmetry breaking can be observed in periodically-driven systems oscillating at a fraction of the frequency of the driving force. However, with the exception of the parametric instability in period-doubling, multi-periodic driving does not lead to an instability threshold. In this paper, we point out that quantum vacuum fluctuations can be generically employed to induce period multiplication. In particular, we discuss the period-tripled states in circuit QED and propose a microwave setup. We show that for weak dissipation or strong driving, the system exhibits a non-equilibrium phase transition in the sense that the time scale over which the period-tripled state is generated can be arbitrarily separated from the time-scale of the subsequent dephasing.
翻訳日:2023-03-08 09:59:58 公開日:2022-05-11
# 可積分モデルにおける熱場二重状態の絡み合いダイナミクス

Entanglement dynamics of thermofield double states in integrable models ( http://arxiv.org/abs/2112.02008v2 )

ライセンス: Link先を確認
Gianluca Lagnese, Pasquale Calabrese, Lorenzo Piroli(参考訳) 積分可能なスピン鎖および量子場理論における熱場二重状態(TFD)の絡み合いダイナミクスについて検討する。 我々は、ハミルトニアン固有基底の自然選択に対して、TFD進化は、実空間表現において低絡み合いで単純な準粒子構造を示す初期状態からの量子クエンチとして解釈できることを示した。 標準的な量子クエンチに類似した半古典的図形に基づいて、離散的および連続的な可積分場理論の両方に有効で、大きな空間と時間スケールのスケーリング限界において正確なものとなるエンタングルメント力学の式を予想する。 数値実験が可能な可積分スピン鎖の2つの原型例で、我々の予想を検証した。 まず,XYモデルにおいて,系を自由フェルミオンにマッピングして得られた正確な結果と比較し,良好な一致を求める。 第二に、相互作用するXXZハイゼンベルクモデルにおいて、数値iTEBD計算に対して我々の予想をテストする。 後者については、概して良い一致が見受けられるが、ある程度のシステムパラメータとアクセス可能なシミュレーション時間内では、いくつかの小さな相違が見え、それは有限時間効果に帰着する。

We study the entanglement dynamics of thermofield double (TFD) states in integrable spin chains and quantum field theories. We show that, for a natural choice of the Hamiltonian eigenbasis, the TFD evolution may be interpreted as a quantum quench from an initial state which is low-entangled in the real-space representation and displays a simple quasiparticle structure. Based on a semiclassical picture analogous to the one developed for standard quantum quenches, we conjecture a formula for the entanglement dynamics, which is valid for both discrete and continuous integrable field theories, and expected to be exact in the scaling limit of large space and time scales. We test our conjecture in two prototypical examples of integrable spin chains, where numerical tests are possible. First, in the XY-model, we compare our predictions with exact results obtained by mapping the system to free fermions, finding excellent agreement. Second, we test our conjecture in the interacting XXZ Heisenberg model, against numerical iTEBD calculations. For the latter, we generally find good agreement, although, for some range of the system parameters and within the accessible simulation times, some small discrepancies are visible, which we attribute to finite-time effects.
翻訳日:2023-03-05 23:56:31 公開日:2022-05-11
# 乱れた量子電池による自己放電の促進

Enhancing self-discharging process with disordered quantum batteries ( http://arxiv.org/abs/2112.07317v2 )

ライセンス: Link先を確認
Mohammad B. Arjmandi, Hamidreza Mohammadi, Alan C. Santos(参考訳) 量子技術から生まれる最も重要なデバイスの一つは、量子電池である。 しかし、デコヒーレンス現象による量子電池の電荷浪費の過程である自己放出は、量子電池のエルゴトロピーと半減期の概念によって測定される性能を制限している。 本論文では,ハミルトニアンにおける障害項が導入した局所場ゆらぎが量子電池の性能に及ぼす影響について検討した。 その結果、障害項はデコヒーレンスの破壊的効果、すなわち自己放電を補うことができ、「エルゴトロピーの不整合ゲイン」手順によって量子電池の性能を向上させることが判明した。 乱れパラメータの強度を適切な値に調整し、量子バッテリの適切な初期状態を選択すると、自由ハミルトニアンに対して定義される自由エルゴトロピの量は、初期保存エルゴトロピの量を超える可能性がある。 さらに、障害パラメータの度合いを活用することで、量子バッテリーの半減期を向上させることができる。 本研究は、無秩序や多体効果を探求する量子電池の性能をさらに調査するための視点を開く。

One of the most important devices emerging from quantum technology are quantum batteries. However, self-discharging, the process of charge wasting of quantum batteries due to decoherence phenomenon, limits their performance, measured by the concept of ergotropy and half-life time of the quantum battery. The effects of local field fluctuation, introduced by disorder term in Hamiltonian of the system, on the performance of the quantum batteries is investigated in this paper. The results reveal that the disorder term could compensate disruptive effects of the decoherence, i.e. self-discharging, and hence improve the performance of the quantum battery via "incoherent gain of ergotropy" procedure. Adjusting the strength of disorder parameter to a proper value and choosing a suitable initial state of quantum battery, the amount of free ergotropy, defined with respect to free Hamiltonian, could exceed the amount of initial stored ergotropy. In addition harnessing the degree of disorder parameter could help to enhance the half-life time of the quantum battery. This study opens perspective to further investigation of the performance of quantum batteries that explore disorder and many-body effects.
翻訳日:2023-03-04 14:23:24 公開日:2022-05-11
# 量子多体スカーレッドシステムにおける量子情報スクランブル

Quantum Information Scrambling in Quantum Many-body Scarred Systems ( http://arxiv.org/abs/2201.01777v3 )

ライセンス: Link先を確認
Dong Yuan, Shun-Yao Zhang, Yu Wang, L.-M. Duan, Dong-Ling Deng(参考訳) 量子多体スカーレッドシステムは、周期的回復ダイナミクスをサポートし、エルゴード性を弱く破壊する特別な非熱的固有状態を持つ。 本稿では,量子多体散乱系における量子情報のスクランブルダイナミクスについて考察し,PXPモデルに着目した。 情報スクランブルの尺度として,out-of-time-ordered correlator (otoc) とholevo情報を用い,行列積演算子に基づく効率的な数値解法を適用し,最大41スピンの計算を行う。 OTOC情報とHolevo情報の両方が、光円錐の内部に線形の光円錐と周期的な振動を呈し、スカーレッド部分空間内の初期状態は、熱的または多体局在系とは対照的である。 オトックとホールボ情報の周期的復活は、量子カオスの異常な崩壊を意味し、以前の文献で研究された状態忠実性や局所観測性の復活ダイナミクスと等価ではない。 線形光円錐構造の形成を説明するために,現象論的モデルに基づく摂動型計算を提案する。 さらに,現在の実験技術を用いたRydberg-atom量子シミュレータを用いて,「PXP」モデルのOTOCおよびHolevo情報力学を計測し,実験パラメータを用いて測定可能なシグネチャを数値的に同定できることを示した。

Quantum many-body scarred systems host special non-thermal eigenstates that support periodic revival dynamics and weakly break the ergodicity. Here, we study the quantum information scrambling dynamics in quantum many-body scarred systems, with a focus on the "PXP" model. We use the out-of-time-ordered correlator (OTOC) and Holevo information as measures of the information scrambling, and apply an efficient numerical method based on matrix product operators to compute them up to 41 spins. We find that both the OTOC and Holevo information exhibit a linear light cone and periodic oscillations inside the light cone for initial states within the scarred subspace, which is in sharp contrast to thermal or many-body localized systems. The periodic revivals of OTOCs and Holevo information signify unusual breakdown of quantum chaos and are not equivalent to the revival dynamics of state fidelity or local observables studied in the previous literature. To explain the formation of the linear light cone structure, we provide a perturbation-type calculation based on a phenomenological model. In addition, we demonstrate that the OTOC and Holevo information dynamics of the "PXP" model can be measured using the Rydberg-atom quantum simulators with current experimental technologies, and numerically identify the measurable signatures using experimental parameters.
翻訳日:2023-03-02 05:22:55 公開日:2022-05-11
# 一般化スピンボソンモデルに対するボルン・マルコフ近似を超える量子回帰

Quantum regression beyond the Born-Markov approximation for generalized spin-boson models ( http://arxiv.org/abs/2201.12326v2 )

ライセンス: Link先を確認
Davide Lonigro, Dariusz Chru\'sci\'nski(参考訳) 開量子系に対する量子回帰公式は、その多時間相関関数の条件の無限階層から成り、全「システム+環境」進化への完全なアクセスを必要とし、cp分割可能性よりも強い要求を与える。 本稿では、cp分割可能性を分析し、マルチレベル振幅減衰進化をもたらす一般化スピンボーソン(gsb)モデルのクラスに対するボルン・マルコフ近似(例えば弱結合限界)を超えて量子回帰の妥当性をチェックする。

The quantum regression formula for an open quantum system consists in an infinite hierarchy of conditions for its multi-time correlation functions, thus requiring full access to the total "system+environment" evolution, and providing a stronger requirement than CP-divisibility. Here, we analyze CP-divisibility and check the validity of quantum regression beyond the Born-Markov approximation (e.g. weak coupling limit) for a class of generalized spin-boson (GSB) models giving rise to a multi-level amplitude-damping evolution; in all cases, it is possible to engineer the system-bath coupling in such a way that quantum regression is exactly satisfied.
翻訳日:2023-02-27 16:03:44 公開日:2022-05-11
# 格子ゲージ理論のユークリッド経路積分に対する量子サンプリング

Quantum sampling for the Euclidean path integral of lattice gauge theory ( http://arxiv.org/abs/2201.12556v2 )

ライセンス: Link先を確認
Arata Yamamoto(参考訳) ハミルトニアン形式主義は格子ゲージ理論の量子計算にはこれまで好まれていたが、経路積分形式主義は決して役に立たない。 経路積分形式主義の利点は古典格子シミュレーションとローレンツ不変性の証明によって蓄積された知識と経験である。 経路積分形式論における格子ゲージ理論の量子計算について論じる。 量子サンプリングアルゴリズムを用いてゲージ構成を生成し, 4次元ハイパーキューブ上でZ_2$格子ゲージ理論のベンチマーク試験を行った。

Although the Hamiltonian formalism is so far favored for quantum computation of lattice gauge theory, the path integral formalism would never be useless. The advantages of the path integral formalism are the knowledge and experience accumulated by classical lattice simulation and manifest Lorentz invariance. We discuss quantum computation of lattice gauge theory in the path integral formalism. We utilize a quantum sampling algorithm to generate gauge configurations, and demonstrate a benchmark test of $Z_2$ lattice gauge theory on a four-dimensional hypercube.
翻訳日:2023-02-27 09:00:55 公開日:2022-05-11
# 開量子系としての一般化フィボナッチ振動子

The Generalized Fibonacci Oscillator as an Open Quantum System ( http://arxiv.org/abs/2202.02196v2 )

ライセンス: Link先を確認
Franco Fagnola, Chul Ki Ko, Hyun Jae Yoo(参考訳) 我々はハミルトン$H_S$の開量子系を考え、そのスペクトルは一般化されたフィボナッチ列によって与えられ、逆温度$\beta$でボソン貯水池に弱結合される。 削減されたシステムの進化のジェネレータを見つけ、モデルのパラメータの観点からシステムの定常状態を明示的に計算し、ユニークで忠実であることが判明した。 もしハミルトニアン系がジェネリックであれば、不変状態への収束は指数関数的に速く、その系の量子的特徴がより大きい場合の低温のスペクトルギャップを明示的に計算し、さらに$H_S$のスペクトルに仮定する。

We consider an open quantum system with Hamiltonian $H_S$ whose spectrum is given by a generalized Fibonacci sequence weakly coupled to a Boson reservoir in equilibrium at inverse temperature $\beta$. We find the generator of the reduced system evolution and explicitly compute the stationary state of the system, that turns out to be unique and faithful, in terms of parameters of the model. If the system Hamiltonian is generic we show that convergence towards the invariant state is exponentially fast and compute explicitly the spectral gap for low temperatures, when quantum features of the system are more significant, under an additional assumption on the spectrum of $H_S$.
翻訳日:2023-02-26 20:51:57 公開日:2022-05-11
# リーマン勾配流による量子回路の最適化

Optimizing quantum circuits with Riemannian gradient flow ( http://arxiv.org/abs/2202.06976v2 )

ライセンス: Link先を確認
Roeland Wiersema, Nathan Killoran(参考訳) 変分量子アルゴリズムは、現在利用可能な量子コンピュータ上で実行できる有望なアルゴリズムのクラスである。 ほとんどの設定では、変分回路の自由パラメータはユークリッド幾何学のパラメータを更新する古典最適化器を用いて最適化される。 量子回路は特殊ユニタリ群の要素であるため、この群の構造に依存する別の最適化の観点を考えることができる。 本稿では,特殊ユニタリ群上のリーマン最適化スキームについて検討し,量子コンピュータ上での実装について述べる。 結果のリーマン勾配フローアルゴリズムは深部回路の最適化性に優れており、このアルゴリズムの近似バージョンを短期ハードウェア上で実行可能であることを示す。

Variational quantum algorithms are a promising class of algorithms that can be performed on currently available quantum computers. In most settings, the free parameters of a variational circuit are optimized using a classical optimizer that updates parameters in Euclidean geometry. Since quantum circuits are elements of the special unitary group, we can consider an alternative optimization perspective that depends on the structure of this group. In this work, we investigate a Riemannian optimization scheme over the special unitary group and we discuss its implementation on a quantum computer. We illustrate that the resulting Riemannian gradient-flow algorithm has favorable optimization properties for deep circuits and that an approximate version of this algorithm can be performed on near-term hardware.
翻訳日:2023-02-25 20:47:36 公開日:2022-05-11
# 正エネルギーを持つ大質量スピン-0粒子の相対論的自由運動時間

Relativistic free motion time of arrival operator for massive spin-0 particles with positive energy ( http://arxiv.org/abs/2203.00898v2 )

ライセンス: Link先を確認
Philip Caesar M. Flores and Eric A. Galapon(参考訳) aharonov-bohm のスピン-0粒子の到達時間演算子の相対論的バージョンは razavi によって [il nuovo cimento b \textbf{63}, 271 (1969)] で構築された。 この作用素はヒルベルト空間拡張によって詳細に研究される。 作用素の厳密なヒルベルト空間拡張は、ラザヴィの元々の結果を超えるような到着問題の時間についての洞察を与える。 これにより、一元到着を示す到着固有関数の時間を使用して到着分布の時間を構築することができる。 期待値も計算され、粒子は古典的に予想されるよりも早く、または遅く到達できることが示されている。 最後に、構築された到着分布時間と期待値とが特殊相対性理論と一致することを示す。

A relativistic version of the Aharonov-Bohm time of arrival operator for spin-0 particles was constructed by Razavi in [Il Nuovo Cimento B \textbf{63}, 271 (1969)]. We study the operator in detail by taking its rigged Hilbert space extension. It is shown that the rigged Hilbert space extension of the operator provides more insights into the time of arrival problem that goes beyond Razavi's original results. This allows us to use time of arrival eigenfunctions that exhibit unitary arrival to construct time of arrival distributions. The expectation value is also calculated and shown that particles can arrive earlier or later than expected classically. Lastly, the constructed time of arrival distribution, and expectation value are shown to be consistent with special relativity.
翻訳日:2023-02-23 08:11:29 公開日:2022-05-11
# ノイズ量子状態の情報回復性

Information recoverability of noisy quantum states ( http://arxiv.org/abs/2203.04862v2 )

ライセンス: Link先を確認
Xuanqiang Zhao, Benchi Zhao, Zihan Xia, Xin Wang(参考訳) 量子システムから古典情報を抽出することは、多くの量子アルゴリズムの重要なステップである。 しかし、量子ノイズが発生しやすいため、この情報は崩壊する可能性があり、量子力学下での歪みは十分に研究されていない。 本研究では,ノイズの多い量子状態から情報を取り出す方法を研究するための体系的枠組みを提案する。 ノイズの多い量子チャネルが与えられた場合、回復可能な古典情報の範囲を完全に特徴づける。 この条件により、チャネルの情報回復性を定量的に定量化することができる。 さらに,最小情報検索コストを解決し,それに対応する最適プロトコルとともに,半定型プログラミングにより効率的に計算可能とする。 本研究では,実際の量子ノイズに対する情報検索コストの限界を定め,それに対応するプロトコルを用いて地上エネルギー推定における誤差を緩和する。

Extracting classical information from quantum systems is an essential step of many quantum algorithms. However, this information could be corrupted as the systems are prone to quantum noises, and its distortion under quantum dynamics has not been adequately investigated. In this work, we introduce a systematic framework to study how well we can retrieve information from noisy quantum states. Given a noisy quantum channel, we fully characterize the range of recoverable classical information. This condition allows a natural measure quantifying the information recoverability of a channel. Moreover, we resolve the minimum information retrieving cost, which, along with the corresponding optimal protocol, is efficiently computable by semidefinite programming. As applications, we establish the limits on the information retrieving cost for practical quantum noises and employ the corresponding protocols to mitigate errors in ground state energy estimation.
翻訳日:2023-02-22 19:35:49 公開日:2022-05-11
# 時間と量子時計:最近の進歩を振り返って

Time and Quantum Clocks: a review of recent developments ( http://arxiv.org/abs/2203.12564v3 )

ライセンス: Link先を確認
M. Basil Altaie, Daniel Hodgson and Almut Beige(参考訳) 本稿では,量子物理学における時間の問題として,問題の短い歴史と量子観測可能時間を考える上での既知の異論について述べる。 オブザーバブルとして時間を扱う必要性は、未解決の問題によって詳しく説明されている。 時間の一貫した理論の欠如は、量子重力の完全な理論の定式化を妨げている。 従来の外部時間に加えて、量子時間の本質的な測定を考慮に入れるという、複数の著者による提案は説得力があると主張している。 最近、page and wootters (1983)の提案を復活させるため、いくつかの提案がなされており、オリジナルの提案の主な曖昧さを詳述し、解決し、その内容を理解するための新しいスコープを開く。 この新しいコントリビューションのアプローチは、従来の量子物理学のアプローチで適用された制限を超える必要性を露呈している。 時間を完全に無視するために呼び出される共変ループ量子重力の姿勢についても論じる。 このレビューは、相対性理論と量子物理学の統一という我々の展望を、この目標に必要な概念的基盤を提供することによって、改革する努力の一歩となるかもしれない。 故意に、最も明確な見通しで問題をシンプルに解決するためのアプローチを提示することを目的としているため、技術的な詳細は避けられている。 これらは、提供されたオリジナルの参照で調べることができる。

In this review we present the problem of time in quantum physics, including a short history of the problem and the known objections about considering time a quantum observable. The need to deal with time as an observable is elaborated through some unresolved problems. The lack of a consistent theory of time is currently hindering the formulation of a full-fledged theory of quantum gravity. It is argued that the proposal set forth by several authors of considering an intrinsic measurement of quantum time, besides having the conventional external time, is compelling. Recently several suggestions have been put forward to revive the proposal of Page and Wootters (1983), elaborating and resolving some of the main ambiguities of the original proposal and opening new scope for understanding its content. The approach followed in these new contributions exposes the need to go beyond the limitations enforced by the conventional approach of quantum physics. The attitude of covariant loop quantum gravity, in which it is called to completely ignore time, is also discussed. This review could be a step forward in an endeavour to reform our outlook of the unification of the theory of relativity and quantum physics by furnishing the conceptual ground needed for this goal. Intentionally, some technical details are avoided since we aim to present the approaches to resolve the problem in a simple way with the clearest possible outlook. These can be looked up in the original references provided.
翻訳日:2023-02-21 00:33:37 公開日:2022-05-11
# Prote\c{c}\~ao intelectual de obras produzidas por sistemas baseados em intelig\^encia artificial: uma vis\~ao tecnicista sobre o tema

Prote\c{c}\~ao intelectual de obras produzidas por sistemas baseados em intelig\^encia artificial: uma vis\~ao tecnicista sobre o tema ( http://arxiv.org/abs/2206.03215v1 )

ライセンス: Link先を確認
F\'abio Manoel Fran\c{c}a Lobato(参考訳) 人工知能(AI)の広範性は、我々の社会では疑わしい。 芸術においても、AIは存在する。 悪名高いケースは、2000年代に成功を収めたOutKastグループの「Hey Ya! この頃、音楽産業はリスナーの習慣の予測に基づいてストラテジズするデータに基づいて意思決定を始めた。 このケースは、芸術におけるAI応用の数え切れないほどの例の1つである。 ディープラーニングの出現により、絵画の芸術様式を正確に認識できるシステムの構築が可能になった。 例えば、Deepartは2つの \textit{inputs} から画像をカスタマイズします。 1) カスタマイズすべき画像 2)絵画の様式。 AIベースのシステムから特定のスタイルに従って曲を生成することも可能である。 このような可能性によって、そのような作品の知的財産に関する疑問が持ち上がる。 このとき、人工知能に基づくシステムから作成された作品の著作権を誰が所有するか。 AIの創造者にとって? このシステムの開発を補助した会社・法人は? ai自体が創造物なのか? このエッセイは、AIが制作した作品から著作権の適用性について議論する技術者の視点に貢献することを目的としている。

The pervasiveness of Artificial Intelligence (AI) is unquestionable in our society. Even in the arts, AI is present. A notorious case is the song "Hey Ya!" of the OutKast group, successful in the 2000s. At this time, the music industry began to make decisions based on data to strategize based on predictions of listeners' habits. This case is just one of the countless examples of AI applications in the arts. The advent of deep learning made it possible to build systems capable of accurately recognizing artistic style in paintings. Content generation is also possible; for example, Deepart customizes images from two \textit{inputs}: 1) an image to be customized; 2) a style of painting. The generation of songs according to specific styles from AI-based systems is also possible. Such possibilities raise questions about the intellectual property of such works. On this occasion, who owns the copyright of a work produced from a system based on Artificial Intelligence? To the creator of the AI? The company/corporation that subsidized the development of this system? Or AI itself as a creator? This essay aims to contribute with a technicist view on the discussion of copyright applicability from works produced by AI.
翻訳日:2023-02-19 17:32:49 公開日:2022-05-11
# 高等教育における適応型マイクロラーニングへのアプローチ

An Approach to Adaptive Microlearning in Higher Education ( http://arxiv.org/abs/2205.06337v1 )

ライセンス: Link先を確認
Ovidiu Gherman, Cristina Elena Turcu, Corneliu Octavian Turcu(参考訳) 社会と教育体系の現在の変化は、新しい技術の急速な発展とともに蓄積され、教育過程に固有の変化をもたらす。 多くの研究が、パンデミックが高等教育の急激な転換を引き起こしたことを示している。 したがって、パンデミック以前のデジタル技術が学習プロセスを補完するために使われた場合、それらは学習配信の主要な手段となる。 また、従来の研究が示すように、新しい教育戦略と教育・学習の方法が、新しい知識を習得し、新しいスキルを身につけるために、現在の世代の学生であるジェネレーションZに求められている。 教育過程のこの必要な進化において、世代Zの学習プロセスの有効性を高めるための可能な解決策は、マイクロラーニングを使用して従来の学習方法を拡張することである。 多くの研究が、今日の学生の学習と記憶に基づいて、マイクロラーニングが学習を促進することを示した。 近年,マイクロラーニングの教育における利用が増加傾向にある。 しかし,この手法を効果的にするためには,提案した目的を達成するための最適経路の導出方向を示すことによって,個々の知識構築を可能にする必要がある。 そこで本研究では,マイクロラーニングによるパーソナライズ学習のシステムを提案する。学習意欲を高めるだけでなく,学習背景における様々な欠陥を補うために,個々のニーズに応じた支援と指導を提供する。 また,我々は,高等教育部門からのケーススタディを提示する。 学生の行動分析と実際の学習モチベーションの結果として,学期中に収集された学生とデータからのフィードバックを,提案システムの改善に活用する。

Current changes in society and the education system, cumulated with the accelerated development of new technologies, entail inherent changes in the educational process. Numerous studies have shown that the pandemic has forced a rapid transformation of higher education. Thus, if before the pandemic digital technologies were used to supplement the learning process, now they are the main means of learning delivery. In addition, as previous research has shown, new pedagogical strategies and new ways of teaching and learning are needed for the current generation of students, the so-called Generation Z, to acquire new knowledge and develop new skills. In this necessary evolution of the educational process, a possible solution to increase the effectiveness of the learning process for the Generation Z students is to use microlearning to extend the traditional ways of learning. Many studies have shown that microlearning, based on how today's students learn and memorize, facilitates learning. In recent years there has been a growing trend in their use of microlearning in the educational process. But, in order to be effective, this approach must allow the individual knowledge building, by indicating a guiding direction of the optimal path to achieve the proposed objectives. We propose a system for personalized learning using microlearning, which provides support and guidance to students based on their individual needs, in order to increase their interest in learning, but also to compensate for various deficiencies in their educational background. We also present a case study from the higher education sector. Feedback from students and data collected during the semester as a result of the students' behavioural analysis and their real learning motivations will be used to improve the proposed system.
翻訳日:2023-02-19 16:51:14 公開日:2022-05-11
# 第1原理に基づく集合光マター状態における単一分子の動的挙動

Dynamic of Single Molecules in Collective Light-Matter States from First Principles ( http://arxiv.org/abs/2204.01602v2 )

ライセンス: Link先を確認
Christian Sch\"afer(参考訳) 分子の集合と共通のフォトニックモードとのコヒーレントな相互作用は強い光-物質結合をもたらすが、これは化学にとって非常に有益であることが証明され、分極性およびQED化学という研究トピックを呼んだ。 複雑な微視的化学反応と巨視的な分子数の組み合わせを考えると、既存のab initioアプローチは適用不可能である。 本稿では,単一分子のab initio表現を完全に保持しつつ,集合的性質を捉えるための単純なアプローチを提案する。 分子アンサンブルの大部分をdyadicグリーンテンソルに埋め込むことで、1つの分子のダイナミックスを計算的に安価で直感的に記述することができる。 導入される放射線-反応ポテンシャルは, 展望, 応用, 限界など, 徹底的に議論されている。 最初の応用は、より大きな分子のアンサンブルの一部である単一の分子の線形反応を示すものである。 そこで, 単純なプロトン・タンニングモデルを用いて, 化学反応における凝集結合の影響はエミッタ数に非自明な依存性を呈することを示した。 古典的電気力学、量子光学的記述、現実的な分子のab initio記述を橋渡しするこの研究は、qed化学とqed材料設計の急速な成長分野における将来の発展と研究のための光を導いてくれる。

The coherent interaction of a large collection of molecules with a common photonic mode results in strong light-matter coupling, a feature that proved highly beneficial for chemistry and termed the research topics polaritonic and QED chemistry. Considering complex microscopic chemical reactions in combination with a macroscopic number of molecules renders existing ab initio approaches inapplicable. In this work, I introduce a simple approach to capture the collective nature while retaining the full ab initio representation of single molecules. By embedding the majority of the molecular ensemble into the dyadic Green tensor, we obtain a computationally cheap and intuitive description of the dynamic of a single molecule in the ensemble - an approach that seems ideal for polaritonic chemistry. The introduced embedding radiation-reaction potential is thoroughly discussed, including prospects, applications and limitations. A first application demonstrates the linear response of single molecules that are part of a larger ensembles of molecules. Then, by virtue of a simple proton-tunneling model, I illustrate that the influence of collective strong coupling on chemical reactions features a nontrivial dependence on the number of emitters. Bridging classical electrodynamics, quantum optical descriptions and the ab initio description of realistic molecules, this work can serve as guiding light for future developments and investigations in the quickly growing fields of QED chemistry and QED material design.
翻訳日:2023-02-19 16:03:24 公開日:2022-05-11
# 未完成のインターネットを作る:ARPANETの初期における会計の転換

Making the Unaccountable Internet: The Changing Meaning of Accounting in the Early ARPANET ( http://arxiv.org/abs/2201.11884v3 )

ライセンス: Link先を確認
A. Feder Cooper and Gili Vidan(参考訳) 技術的システムのガバナンスに関する現代の懸念は、しばしば説明責任のための設計メカニズムの技術的実現可能性に関する物語と対立する。 近年のAI倫理文献では、これらの懸念は主にMLに関連して意図されているが、コンピュータ科学者が説明責任のあるシステムを設計することの意味を解き放つ必要がある状況もコンピュータ史の他の事例に現れている。 このような魅力的な物語の1つは、インターネットの標準的な歴史の中に見られ、元々のデザイナーが「End-to-End」アーキテクチャ原則へのコミットメントが、他の機能の実装を妨げたのかを強調している。 本稿では、説明責任に関する技術的に本質的な概念を批判し、意図しない結果として「数え切れないインターネット」を特徴づける。 1970年代から80年代にかけてのインターネットの初期設計に関するコメント要求(RFC)のコーパスにおいて、会計の意味の変化とその説明責任との関係について検討している。 我々は,会計の概念化の方法として,請求,測定,管理,政策の4つを特徴付け,これらの変化の意味を通じて説明責任の理解がどのように構成されたかを示した。 我々は、分散システムにおける共有リソースの会計に関する行政的・技術的メカニズムと、社会的・政治的・技術的カテゴリーとしての説明責任の概念の台頭を結びつけ、前者が後者を構成することを主張する。 この歴史を回復することは、インターネットを形成するプロセスを理解するために重要であるだけでなく、今日の他の技術システムの説明責任機構の設計に関わる複雑な政治的選択を解き放つ出発点でもある。

Contemporary concerns over the governance of technological systems often run up against narratives about the technical infeasibility of designing mechanisms for accountability. While in recent AI ethics literature these concerns have been deliberated predominantly in relation to ML, other instances in computing history also presented circumstances in which computer scientists needed to un-muddle what it means to design accountable systems. One such compelling narrative can be found in canonical histories of the Internet that highlight how its original designers' commitment to the "End-to-End" architectural principle precluded other features from being implemented, resulting in the fast-growing, generative, but ultimately unaccountable network we have today. This paper offers a critique of such technologically essentialist notions of accountability and the characterization of the "unaccountable Internet" as an unintended consequence. It explores the changing meaning of accounting and its relationship to accountability in a selected corpus of requests for comments (RFCs) concerning the early Internet's design from the 1970s and 80s. We characterize four ways of conceptualizing accounting: as billing, as measurement, as management, and as policy, and demonstrate how an understanding of accountability was constituted through these shifting meanings. We link together the administrative and technical mechanisms of accounting for shared resources in a distributed system and an emerging notion of accountability as a social, political, and technical category, arguing that the former is constitutive of the latter. Recovering this history is not only important for understanding the processes that shaped the Internet, but also serves as a starting point for unpacking the complicated political choices that are involved in designing accountability mechanisms for other technological systems today.
翻訳日:2023-02-19 14:32:00 公開日:2022-05-11
# 量子受信器を用いたテレビ・ビデオゲームストリーミング:Rydberg atom ベースの受信機における帯域幅と受信明度の検討

TV and Video Game Streaming with a Quantum Receiver: A Study on a Rydberg atom-based receivers bandwidth and reception clarity ( http://arxiv.org/abs/2205.02716v2 )

ライセンス: Link先を確認
Nikunjkumar Prajapati, Andrew Rotunno, Samuel Berweger, Matt Simons, Aly Artusio-Glimpse, Christopher L. Holloway(参考訳) 我々は、ライドバーグ原子受信機を用いて、ライブカラーアナログテレビやビデオゲーム信号を受け取る能力を示す。 従来の480i NSTCフォーマットのビデオ信号に期待される典型的な信号は、帯域幅が3MHz以上である。 ライドバーグ原子がこの種の信号を受信するために必要なビームサイズ、パワー、および検出方法を決定する。 ビームサイズは、原子が相互作用体積に残る平均時間に影響し、これは受信機の帯域幅に逆比例する。 我々は、小さなビーム径(100 {\mu}m未満)がより速い応答をもたらし、色受容を可能にすることを発見した。 ライドバーグ原子受信機でライブ480iビデオストリームを受信することで、ビームサイズが帯域幅に及ぼす影響を実証する。 最良の忠実度は、全幅85.mu}mのビーム幅を半マックスで達成した。

We demonstrate the ability to receive live color analog television and video game signals with the use of the Rydberg atom receiver. The typical signal expected for traditional 480i NSTC format video signals requires a bandwidth of over 3 MHz. We determine the beam sizes, powers, and detection method required for the Rydberg atoms to receive this type of signal. The beam size affects the average time the atoms remain in the interaction volume, which is inversely proportional to the bandwidth of the receiver. We find that small beam diameters (less than 100 {\mu}m) lead to much faster responses and allow for color reception. We demonstrate the effect of beam size on bandwidth by receiving a live 480i video stream with the Rydberg atom receiver. The best fidelity was achieved with a beam width of 85 {\mu}m full-width at half-max.
翻訳日:2023-02-14 06:11:02 公開日:2022-05-11
# フォトニック結晶導波路における量子ドットからの集団散乱

Collective scattering from quantum dots in a photonic crystal waveguide ( http://arxiv.org/abs/2205.04904v2 )

ライセンス: Link先を確認
Joel Q. Grim, Ian Welland, Samuel G. Carter, Allan S. Bracker, Andrew Yeats, Chul Soo Kim, Mijin Kim, Kha Tran, Igor Vurgaftman, Thomas L. Reinecke(参考訳) フォトニック結晶導波路に結合した2つのinas量子ドットからのレーザー光の散乱を実証し、ドットの光学的遷移を相互共鳴に歪調整することで達成した。 ドットを共鳴にチューニングする前後の透過レーザー光の強度と光子統計測定を行うことにより, 非線形性は集団散乱により向上することを示す。 少数の光子非線形性を操作する手段を提供するだけでなく、固体プラットフォームにおけるマルチエミッタ量子光学の新しい機会を確立する。

We demonstrate scattering of laser light from two InAs quantum dots coupled to a photonic crystal waveguide, which is achieved by strain-tuning the optical transitions of the dots into mutual resonance. By performing measurements of the intensity and photon statistics of transmitted laser light before and after tuning the dots into resonance, we show that the nonlinearity is enhanced by collective scattering. In addition to providing a means of manipulating few-photon optical nonlinearities, our approach establishes new opportunities for multi-emitter quantum optics in a solid-state platform.
翻訳日:2023-02-13 17:41:56 公開日:2022-05-11
# 勾配に基づく時間依存量子観測器からの分子ハミルトニアンと密度行列の再構成

Gradient-based reconstruction of molecular Hamiltonians and density matrices from time-dependent quantum observables ( http://arxiv.org/abs/2205.05251v1 )

ライセンス: Link先を確認
Wucheng Zhang, Ilia Tutunnikov, Ilya Sh. Averbukh, Roman V. Krems(参考訳) 我々は、未知のパラメータの組$\alpha$でパラメトリズされる時間に依存しないハミルトニアンの量子系を考える。 このシステムは、未知のパラメータのセットに依存する進化演算子によって、一般的な量子状態で準備される。 準備後、システムは時間とともに進化し、時間依存の観測可能な${\cal O}(t)$によって特徴づけられる。 純状態と混合状態のいずれであっても、系密度行列のすべての要素に対して、${\cal o}(t)$ と計算可観測値の間の勾配の閉形式式を得ることができることを示す。 これらの勾配は射影勾配降下(英語版)で$\alpha$,$P$と関連する密度行列を動的観測値から推測することができる。 このアプローチとランダム位相波動関数近似を組み合わせることで、多くの量子状態が力学に関与している問題における平均時間依存観測量から集団分布を推定できる勾配の閉形式式を得る。 このアプローチは、レーザー誘起時間依存分子アライメントから分子ガスの温度(はじめは室温での温度平衡)を決定することによって示される。

We consider a quantum system with a time-independent Hamiltonian parametrized by a set of unknown parameters $\alpha$. The system is prepared in a general quantum state by an evolution operator that depends on a set of unknown parameters $P$. After the preparation, the system evolves in time, and it is characterized by a time-dependent observable ${\cal O}(t)$. We show that it is possible to obtain closed-form expressions for the gradients of the distance between ${\cal O}(t)$ and a calculated observable with respect to $\alpha$, $P$ and all elements of the system density matrix, whether for pure or mixed states. These gradients can be used in projected gradient descent to infer $\alpha$, $P$ and the relevant density matrix from dynamical observables. We combine this approach with random phase wave function approximation to obtain closed-form expressions for gradients that can be used to infer population distributions from averaged time-dependent observables in problems with a large number of quantum states participating in dynamics. The approach is illustrated by determining the temperature of molecular gas (initially, in thermal equilibrium at room temperature) from the laser-induced time-dependent molecular alignment.
翻訳日:2023-02-13 12:44:28 公開日:2022-05-11
# 局所分類のための量子機械学習パイプラインの実装と実証評価

Implementation and Empirical Evaluation of a Quantum Machine Learning Pipeline for Local Classification ( http://arxiv.org/abs/2205.05333v1 )

ライセンス: Link先を確認
Enrico Zardini, Enrico Blanzieri, Davide Pastorello(参考訳) 現在の時代には、量子リソースは非常に限られており、量子機械学習(qml)モデルの使用が困難になっている。 教師付きタスクに関して、実行可能なアプローチは量子局所性(quantum locality)技術を導入し、モデルが考慮された要素の近傍にのみ集中できるようにすることである。 有名な局所性手法はk-nearest neighbors (k-NN)アルゴリズムであり、いくつかの量子変種が提案されている。 しかしながら、他のQMLモデルの予備的なステップとしてはまだ採用されていないが、古典的なモデルはすでに成功している。 本稿では,本稿で紹介する。 i) ローカル分類のためのQMLパイプラインのPythonの実装、および (ii)広範な実証的評価。 具体的には、Qiskitを用いて開発された量子パイプラインは、量子k-NNと量子二項分類器からなる。 その結果、量子パイプラインの古典的等価性(正確性の観点からは)は、QML領域への局所性の適用の妥当性だけでなく、確率変動に対する選択された量子k-NNの強い感度や、ランダムフォレストのような古典的ベースライン法の性能も示している。

In the current era, quantum resources are extremely limited, and this makes difficult the usage of quantum machine learning (QML) models. Concerning the supervised tasks, a viable approach is the introduction of a quantum locality technique, which allows the models to focus only on the neighborhood of the considered element. A well-known locality technique is the k-nearest neighbors (k-NN) algorithm, of which several quantum variants have been proposed. Nevertheless, they have not been employed yet as a preliminary step of other QML models, whereas the classical counterpart has already proven successful. In this paper, we present (i) an implementation in Python of a QML pipeline for local classification, and (ii) its extensive empirical evaluation. Specifically, the quantum pipeline, developed using Qiskit, consists of a quantum k-NN and a quantum binary classifier. The results have shown the quantum pipeline's equivalence (in terms of accuracy) to its classical counterpart in the ideal case, the validity of locality's application to the QML realm, but also the strong sensitivity of the chosen quantum k-NN to probability fluctuations and the better performance of classical baseline methods like the random forest.
翻訳日:2023-02-13 12:38:58 公開日:2022-05-11
# 相関テンソルに基づくn量子ビットシステムの必要十分絡み合い基準

A Necessary and Sufficient Entanglement Criterion of N-qubit System Based on Correlation Tensor ( http://arxiv.org/abs/2205.05323v1 )

ライセンス: Link先を確認
Feng-Lin Wu and Si-Yuan Liu and Wen-Li Yang and Shao-Ming Fei and Heng Fan(参考訳) 量子力学と量子情報処理の基礎の絡み合い特性の研究において大きな進歩が達成されている。 しかし、N量子系においても、絡み合い基準の問題は十分に解決されていない。 本稿では, 状態分解法と高次特異値分解法(hosvd)を用いて, 一般の n-量子ビットシステムに対して必要かつ十分な絡み合い基準を提案する。 一例として,白色雑音を用いたマルチキュービットW状態の研究に本手法を適用した。 我々は分離性臨界点を得るだけでなく、既知の結果よりも厳密であり、分解のための分離状態のアンサンブルも得る。 その他の例は、我々の基準が正確であることを示すために提示され、これはよく知られた正部分転置基準よりも厳密である。 2キュービットの場合、同様の結果が1つの因子までもたらされるエンタングルメント測度を提供することができる。 以上の結果から,より一般的な場合の絡み合い分離性基準の解法が確立された。

Great advances have been achieved in studying characteristics of entanglement for fundamentals of quantum mechanics and quantum information processing. However, even for N-qubit systems, the problem of entanglement criterion has not been well solved. In this Letter, using the method of state decomposition and high order singular value decomposition (HOSVD), we propose a necessary and sufficient entanglement criterion for general N-qubit systems. As an example, we apply our method to study the multi-qubit W state with white noise. We not only obtain the separability critical point, which is tight and thus better than known results, but also the separate states ensemble for decomposition. More examples are presented to show our criterion is accurate, which is tighter than the well-known positive partial transpose criterion. For two-qubit case, we can provide an entanglement measurer which gives similar results with concurrence up to a factor. Our results pave the way to solve the entanglement-separability criterion for more general cases.
翻訳日:2023-02-13 12:38:38 公開日:2022-05-11
# 有限温度における位相系のリンドブラッドダイナミクスに対するウルマンホロノミー

Uhlmann holonomy against Lindblad dynamics of topological systems at finite temperatures ( http://arxiv.org/abs/2205.05658v1 )

ライセンス: Link先を確認
Yan He and Chih-Chun Chien(参考訳) 密度行列の純状態としてホロノミーを反映したウルマン位相はパラメータ空間のループを横切るが、有限温度で複数の系の位相的性質を特徴づけるために用いられる。 su-schrieffer-heeger(ssh)モデル、kitaev chain、bernevig-hughes-zhang(bhz)モデルを含む3つの位相系のlindblad方程式によって記述された量子力学における様々な系環境結合に対するuulmannホロノミーをテストする。 ウルマン位相は、初期状態が位相的であり、リンドブラッドジャンプ作用素の特定の種類のみが存在する場合、全ての例において量子化される。 したがって、量子力学における環境効果に対する有限温度での位相的保護は、システム-環境結合の制限されたクラスに限られる。

The Uhlmann phase, which reflects the holonomy as the purified state of a density matrix traverses a loop in the parameter space, has been used to characterize topological properties of several systems at finite temperatures. We test the Uhlmann holonomy against various system-environment couplings in quantum dynamics described by the Lindblad equations of three topological systems, including the Su-Schrieffer-Heeger (SSH) model, Kitaev chain, and Bernevig-Hughes-Zhang (BHZ) model. The Uhlmann phase is shown to remain quantized in all the examples if the initial state is topological and only certain types of the Lindblad jump operators are present. Topological protection at finite temperatures against environmental effects in quantum dynamics is therefore demonstrated albeit only for a restricted class of system-environment couplings.
翻訳日:2023-02-13 12:32:02 公開日:2022-05-11
# 量子光学分野におけるエンタングルメントインジケータの改良

Improved entanglement indicators for quantum optical fields ( http://arxiv.org/abs/2205.05641v1 )

ライセンス: Link先を確認
Bianka Woloncewicz, Tamoghna Das, Marek \.Zukowski(参考訳) 4つのモード(相互直交偏光モードが2つの異なる観測値に伝播する2つのビーム)の分離性条件のより良いバージョンが与えられる。 この条件はストークス作用素の分散を含む。 これらは標準量子光学ストークス可観測器と正規化ストークス可観測器の両方に定式化されている。

Better versions of separability conditions for four mode (two beams with two pairs of mutually orthogonal polarization modes propagating to two different observes) optical fields are given. The conditions involve the variances of the Stokes operators. They are formulated both for the standard quantum optical Stokes observables and for the normalized Stokes observables.
翻訳日:2023-02-13 12:31:44 公開日:2022-05-11
# ウィグナー分子とハイブリッド量子ビット

Wigner molecules and hybrid qubits ( http://arxiv.org/abs/2205.05620v1 )

ライセンス: Link先を確認
Constantine Yannouleas, Uzi Landman(参考訳) 光学的多体ハミルトンの正確な対角化は、体系的なフル・コンフィグレーション・インタラクション(FCI)計算によって、GaAs非対称の二重量子ドットに基づく3電子ハイブリッド量子ビットの分解関数としてスペクトルを予測することができる。 さらに、強い電子間相関の結果、左右の井戸の異なる電子占有率に関連する状態間の交差を避けることを含むこれらの分光パターンは、ウィグナー分子の形成に不可分に関係していることが示されている。 これらの物理的実体は、以前に使用されていた独立粒子やハバード型ハイブリッド量子ビットの理論モデルでは捉えられない。 我々は最近の実験結果と顕著な一致を報告した。 さらに、現在のマルチウェル量子ドットのFCI法は、Si/SiGeハイブリッド量子ビットに容易に拡張することができ、ワイナー分子の中心的な役割も最近実験的に確認された。

It is demonstrated that exact diagonalization of the microscopic many-body Hamiltonian via systematic full configuration-interaction (FCI) calculations is able to predict the spectra as a function of detuning of three-electron hybrid qubits based on GaAs asymmetric double quantum dots. It is further shown that, as a result of strong inter-electron correlations, these spectroscopic patterns, including avoided crossings between states associated with different electron occupancies of the left and right wells, are inextricably related to the formation of Wigner molecules. These physical entities cannot be captured by the previously employed independent-particle or Hubbard-type theoretical modeling of the hybrid qubit. We report remarkable agreement with recent experimental results. Moreover, the present FCI methodology for multi-well quantum dots can be straightforwardly extended to treat Si/SiGe hybrid qubits, where the central role of Wigner molecules was recently experimentally confirmed as well.
翻訳日:2023-02-13 12:31:39 公開日:2022-05-11
# 古典的及び量子広帯域合成開口における信号処理技術の進歩

An Overview of Advances in Signal Processing Techniques for Classical and Quantum Wideband Synthetic Apertures ( http://arxiv.org/abs/2205.05602v1 )

ライセンス: Link先を確認
Peter Vouras, Kumar Vijay Mishra, Alexandra Artusio-Glimpse, Samuel Pinilla, Angeliki Xenaki, David W. Griffith and Karen Egiazarian(参考訳) 合成開口(SA)システムの急速な発展は、単一センサの物理的次元から本質的に可能なよりも大きな角分解能を持つ大きな開口を発生させるが、いくつかの信号処理応用において新たな研究の道が開かれた。 SAは機械式ポインターを使用して、アンテナを宇宙空間に移動させたり、センサーの分散ネットワークを配置したりすることができる。 新しいハードウェア技術の出現により、SAは近年より密集する傾向にある。 近年、高周波数帯域が開通し、SA帯域幅が広くなった。 一般に、空間と帯域幅の広いSAのポテンシャルを利用するためには、新しい技術とセットアップが必要である。 本稿では,このような空間的およびスペクトル的広帯域SAシステムにおける信号処理の動向について概説する。 このガイドは、新参者がsa分析における最も重要な問題をナビゲートすることを支援し、この分野における新しい理論の開発をさらに支援することを目的としている。 特に,広帯域SAレーダ,チャネル音響,ソナー,ラジオメトリー,光学応用の理論的枠組みと実践的基盤について述べる。 古典的なSAの応用とは別に、現在活発な研究が行われているが開発初期段階にあるSAの量子電場センシングプローブについても論じる。

Rapid developments in synthetic aperture (SA) systems, which generate a larger aperture with greater angular resolution than is inherently possible from the physical dimensions of a single sensor alone, are leading to novel research avenues in several signal processing applications. The SAs may either use a mechanical positioner to move an antenna through space or deploy a distributed network of sensors. With the advent of new hardware technologies, the SAs tend to be denser nowadays. The recent opening of higher frequency bands has led to wide SA bandwidths. In general, new techniques and setups are required to harness the potential of wide SAs in space and bandwidth. Herein, we provide a brief overview of emerging signal processing trends in such spatially and spectrally wideband SA systems. This guide is intended to aid newcomers in navigating the most critical issues in SA analysis and further supports the development of new theories in the field. In particular, we cover the theoretical framework and practical underpinnings of wideband SA radar, channel sounding, sonar, radiometry, and optical applications. Apart from the classical SA applications, we also discuss the quantum electric-field-sensing probes in SAs that are currently undergoing active research but remain at nascent stages of development.
翻訳日:2023-02-13 12:31:23 公開日:2022-05-11
# 量子スピン鎖における半完全復活の一般化

Generalized Almost Complete Revivals in quantum spin chains ( http://arxiv.org/abs/2205.05584v1 )

ライセンス: Link先を確認
Igor Ermakov(参考訳) ほぼ完全なリバイバルの概念が最近導入されている。 量子多体系において局所観測可能は、所定時間における最大値のほぼ完全な復元を示すことができる。 本稿では,ブロッホ球面上の任意の点から任意の点への再生が可能であるように元の手順を拡張する。 さらに,提案手法では,復元と崩壊の場所が必ずしも同じとは限らない。 また、スピンが1/2ドル以上になると、ほぼ完全なリバイバルが1ドル/s$で抑えられることも示しています。

The conception of almost complete revivals has been introduced recently. In a quantum many-body system local observable may exhibit an almost complete revival to its maximal value at the predetermined moment of time. In this paper we extend the original procedure such that the revival may be from an arbitrary point on the Bloch sphere to the arbitrary point. Furthermore in the proposed procedure the reviving and collapsing sites are not necessarily the same. We also demonstrate that for spins $S$ higher than $1/2$ almost complete revivals are suppressed as $1/S$.
翻訳日:2023-02-13 12:31:04 公開日:2022-05-11
# 単一光子に基づく半量子対話

Semi-quantum dialogue based on single photons ( http://arxiv.org/abs/2205.05568v1 )

ライセンス: Link先を確認
Tian-Yu Ye, Chong-Qiang Ye(参考訳) 本稿では,量子キャリアとして単一光子を用いる2つの半量子対話(SQD)プロトコルを提案する。 第1のSQDプロトコルにおける外部イブからのアクティブアタックに対するセキュリティは、現在の半量子鍵分配(SQKD)プロトコル、古典的なワンタイムパッド暗号化、古典的なパーティのランダム化操作、およびデコイ光子技術の完全堅牢性によって保証される。 最初のsqdプロトコルの情報漏洩問題は、メッセージを運ぶ単一光子に関する古典党の古典的基礎測定によって克服され、量子党と初期状態を共有する。 第2のSQDプロトコルにおけるEveからのアクティブアタックに対するセキュリティは、古典的なパーティのランダム化操作、現在のSQKDプロトコルの完全ロバスト性、および古典的なワンタイムパッド暗号化によって保証される。 第2のSQDプロトコルの情報漏洩問題は、隣接する2つの単一の光子に対して量子パーティの古典的基底測定によって克服され、量子パーティと最初の状態を共有する。 従来の情報漏洩耐性QDプロトコルと比較して、提案されたSQDプロトコルの利点は、量子能力を持つために1つのパーティしか必要としないことである。 既存のSQDプロトコルと比較して、提案されたSQDプロトコルの利点は、量子キャリアとして2光子の絡み合った状態ではなく、単一の光子しか使わないことである。 提案したSQDプロトコルは、現在の量子技術で実装できる。

In this paper, we propose two semi-quantum dialogue (SQD) protocols by using single photons as the quantum carriers, where one requires the classical party to possess the measurement capability and the other does not have this requirement. The security towards active attacks from an outside Eve in the first SQD protocol is guaranteed by the complete robustness of present semi-quantum key distribution (SQKD) protocols, the classical one-time pad encryption, the classical party's randomization operation and the decoy photon technology. The information leakage problem of the first SQD protocol is overcome by the classical party' classical basis measurements on the single photons carrying messages which makes him share their initial states with the quantum party. The security towards active attacks from Eve in the second SQD protocol is guaranteed by the classical party's randomization operation, the complete robustness of present SQKD protocol and the classical one-time pad encryption. The information leakage problem of the second SQD protocol is overcome by the quantum party' classical basis measurements on each two adjacent single photons carrying messages which makes her share their initial states with the classical party. Compared with the traditional information leakage resistant QD protocols, the advantage of the proposed SQD protocols lies in that they only require one party to have quantum capabilities. Compared with the existing SQD protocol, the advantage of the proposed SQD protocols lies in that they only employ single photons rather than two-photon entangled states as the quantum carriers. The proposed SQD protocols can be implemented with present quantum technologies.
翻訳日:2023-02-13 12:30:57 公開日:2022-05-11
# 単一粒子を用いた円形半量子秘密共有

Circular semi-quantum secret sharing using single particles ( http://arxiv.org/abs/2205.05558v1 )

ライセンス: Link先を確認
Chong-Qiang Ye, Tian-Yu Ye(参考訳) 半量子秘密共有(SQSS)は半量子暗号の重要な分岐であり、全てのパーティが量子能力を持つ必要があるわけではないという点で量子秘密共有(QSS)とは異なる。 従来のsqssプロトコルには,(1)製品状態や絡み合った状態を初期量子資源として採用する,(2)量子パーティが生成する粒子をツリー型で送信する,(3)古典的パーティに測定能力を持つように要求する,という3つの共通的な特徴がある。 本稿では, 単一粒子を持つ2つの円形SQSSプロトコルを提案する。 従来のSQSSプロトコルと比較して、提案したSQSSプロトコルは、(1)製品状態や絡み合った状態ではなく、単一粒子を初期量子資源として採用し、(2)量子パーティによって生成された粒子を円形に送信し、(3)第2のプロトコルは古典的粒子を測定能力から解放する。 提案したSQSSプロトコルは、測度回帰攻撃、インターセプト回帰攻撃、エンタングル測度攻撃など、盗聴器からの有名な攻撃に対して堅牢であり、現在の量子技術で実現可能である。

Semi-quantum secret sharing (SQSS) is an important branch of semi-quantum cryptography, and differs from quantum secret sharing (QSS) in that not all parties are required to possess quantum capabilities. All previous SQSS protocols have three common features: (1) they adopt product states or entangled states as initial quantum resource; (2) the particles prepared by quantum party are transmitted in a tree-type way; and (3) they require the classical parties to possess the measurement capability. In this paper, two circular SQSS protocols with single particles are suggested, where the first one requires the classical parties to possess the measurement capability while the second one does not have this requirement. Compared with the previous SQSS protocols, the proposed SQSS protocols have some distinct features: (1) they adopt single particles rather than product states or entangled states as initial quantum resource; (2) the particles prepared by quantum party are transmitted in a circular way; and (3) the second protocol releases the classical parties from the measurement capability. The proposed SQSS protocols are robust against some famous attacks from an eavesdropper, such as the measure-resend attack, the intercept-resend attack and the entangle-measure attack, and are feasible with present quantum technologies in reality.
翻訳日:2023-02-13 12:30:24 公開日:2022-05-11
# 非均一偏微分方程式量子アルゴリズムの代替

Alternatives to a nonhomogeneous partial differential equation quantum algorithm ( http://arxiv.org/abs/2205.05541v1 )

ライセンス: Link先を確認
Alexandre C. Ricardo, Gabriel P. L. M. Fernandes, Eduardo I. Duzzioni, Vivaldo L. Campo Jr, and Celso J. Villas-B\^oas(参考訳) 最近 j. m. arrazolaらです [Phys. A 100, 032306 (2019)] は $A\psi(\textbf{r})=f(\textbf{r})$ という形の非等質線型偏微分方程式を解くための量子アルゴリズムを提案した。 その不均一解は、演算子$A$を特別な補助モードの調製と測定と共に反転させることによって得られる。 本研究では,初期補助状態の作成コストを低減し,特定の入力セットに対するアルゴリズムの精度を向上させるため,その構造の変更を提案する。 これらの成果により、今日の技術に基づく量子アルゴリズムの実験的な実装が容易になる。

Recently J. M. Arrazola et al. [Phys. Rev. A 100, 032306 (2019)] proposed a quantum algorithm for solving nonhomogeneous linear partial differential equations of the form $A\psi(\textbf{r})=f(\textbf{r})$. Its nonhomogeneous solution is obtained by inverting the operator $A$ along with the preparation and measurement of special ancillary modes. In this work we suggest modifications in its structure to reduce the costs of preparing the initial ancillary states and improve the precision of the algorithm for a specific set of inputs. These achievements enable easier experimental implementation of the quantum algorithm based on nowadays technology.
翻訳日:2023-02-13 12:29:57 公開日:2022-05-11
# 空間多重化による2フィールド量子鍵分布の送受信

Sending-or-Not-Sending Twin-Field Quantum Key Distribution with Additional Space Multiplexing ( http://arxiv.org/abs/2205.05527v1 )

ライセンス: Link先を確認
Hai Xu, Xiao-Long Hu, Cong Jiang, Zong-Wen Yu, Xiang-Bin Wang(参考訳) フォック空間におけるsns(send-or-not-sending)双界量子鍵分布(tf-qkd)における光子偏光などの物理量の多重化を提案する。 光子偏光のような追加空間を多重化することで、観測結果に応じて選択イベントを追加量にポストすることができる。 これにより、SNSプロトコルの選択したイベントにおけるビットフリップエラー率を圧縮する。 計算により,実効TF-QKDでは,空間多重化による性能向上が期待できることがわかった。

We propose to multiplex additional physical quantity such as photon polarization in Sending-or-Not-Sending (SNS) Twin-Field quantum key distribution (TF-QKD) in Fock space. Through multiplexing additional space such as photon polarization, we can post select events according to the outcome of observation to the additional quantity. This compresses the bit-flip error rate in the post selected events of SNS protocol. Calculation shows that the method using additional space multiplexing can improve the performance a lot in practical TF-QKD.
翻訳日:2023-02-13 12:29:46 公開日:2022-05-11
# 進化的プログラムと粒子群最適化のハイブリッドによる効率的なアンテナ最適化

Efficient Antenna Optimization Using a Hybrid of Evolutionary Programing and Particle Swarm Optimization ( http://arxiv.org/abs/2205.05759v1 )

ライセンス: Link先を確認
Ahmad Hoorfar, Shamsha Lakhani(参考訳) 本稿では,進化的プログラミング(EP)と粒子群最適化(PSO)を併用して,アンテナアレイと準曲面の数値的大域的最適化を行う。 ハイブリッドEP-PSOアルゴリズムは、Swarm方向を標準の自己適応EPアルゴリズムに組み込んだ進化最適化手法を用いる。 例えば、このハイブリッド手法を2つのアンテナ問題に適用した: 非一様空間(周期的)線形アレイのサイドローブレベル低減と、部分反射メタ曲面を装填したプリントアンテナのビーム整形である。 提案するハイブリッドep-pso法とepのみおよびpsoのみ法の比較を行い,複合アンテナ設計におけるこのハイブリッド手法の有効性を実証した。

In this paper, we present a hybrid of Evolutionary Programming (EP) and Particle Swarm Optimization (PSO) algorithms for numerically efficient global optimization of antenna arrays and metasurfaces. The hybrid EP-PSO algorithm uses an evolutionary optimization approach that incorporates swarm directions in the standard self-adaptive EP algorithm. As examples, we have applied this hybrid technique to two antenna problems: the side-lobe-level reduction of a non-uniform spaced (aperiodic) linear array and the beam shaping of a printed antenna loaded with a partially reflective metasurface. Detailed comparisons between the proposed hybrid EP-PSO technique and EP-only and PSO-only techniques are given, demonstrating the efficiency of this hybrid technique in the complex antenna design problems.
翻訳日:2023-02-13 12:22:44 公開日:2022-05-11
# ボソニック分解チャネルの量子容量とプライベート容量の厳密解

Exact solution for the quantum and private capacities of bosonic dephasing channels ( http://arxiv.org/abs/2205.05736v1 )

ライセンス: Link先を確認
Ludovico Lami, Mark M. Wilde(参考訳) ノイズの多い量子チャネルの容量は、量子通信回線間での情報伝達の究極の速度を捉え、量子容量はフォールトトレラントな量子計算プラットフォームのオーバーヘッドを決定する上で重要な役割を果たす。 多くの応用の中心となるボソニック系では、超伝導回路や光ファイバー通信チャネルに影響を及ぼすノイズをモデル化する非ガウスチャネルの重要なクラスであるボソニックデファッシングチャネルでは、これらのキャパシティの閉じた公式は知られていなかった。 ここでは、全てのボソニックデファスティングチャネルの量子、プライベート、双方向の補助量子、および秘密鍵合意容量を、初めて正確に計算する。 それらの分布が一様分布に対するチャネルの基礎となる分布の相対エントロピーに等しいことが証明される。 この結果は,[jiang & chen, quantum and nonlinear optics 244, 2010]が提唱した,10年以上にわたって開かれてきた問題を解くものだ。

The capacities of noisy quantum channels capture the ultimate rates of information transmission across quantum communication lines, and the quantum capacity plays a key role in determining the overhead of fault-tolerant quantum computation platforms. In the case of bosonic systems, central to many applications, no closed formulas for these capacities were known for bosonic dephasing channels, a key class of non-Gaussian channels modelling, e.g., noise affecting superconducting circuits or fiber-optic communication channels. Here we provide the first exact calculation of the quantum, private, two-way assisted quantum, and secret-key agreement capacities of all bosonic dephasing channels. We prove that that they are equal to the relative entropy of the distribution underlying the channel to the uniform distribution. Our result solves a problem that has been open for over a decade, having been posed originally by [Jiang & Chen, Quantum and Nonlinear Optics 244, 2010].
翻訳日:2023-02-13 12:22:24 公開日:2022-05-11
# 説明例付きフーリエ変換を用いた3量子ビット円量子畳み込み計算

3-Qubit Circular Quantum Convolution Computation using Fourier Transform with Illustrative Examples ( http://arxiv.org/abs/2205.05727v1 )

ライセンス: Link先を確認
Artyom M. Grigoryan and Sos S. Agaian(参考訳) 本稿では,3量子重ね合わせで表される信号の1次元円形畳み込みの計算例について述べる。 このケースは、一方の信号の離散フーリエ変換を事前に知って計算し、他方の信号のQFTのみを算出する場合に考慮される。 多くの線形時間不変系とフィルタの周波数特性はよく知られている。 したがって、量子計算においてこれらの系に畳み込み法が用いられる。 理想的ローパスフィルタとハイパスフィルタが考慮され、畳み込みのための量子スキームが提示される。 フーリエ変換の方法は、1つの加算量子ビットと共に、逆量子フーリエ変換の量子重ね合わせを準備するために用いられる。

In this work, we describe examples for calculating the 1-D circular convolution of signals represented by 3-qubit superpositions. The case is considered, when the discrete Fourier transform of one of the signals is known and calculated in advance and only the QFT of another signal is calculated. The frequency characteristics of many linear time-invariant systems and filters are well known. Therefore, the considered method of convolution can be used for these systems in quantum computation. The ideal low pass and high pass filters are considered and quantum schemes for convolution are presented. The method of the Fourier transform is used with one addition qubit to prepare the quantum superposition for the inverse quantum Fourier transform.
翻訳日:2023-02-13 12:22:03 公開日:2022-05-11
# 量子回路複雑性の線形成長の短い証明

Short Proofs of Linear Growth of Quantum Circuit Complexity ( http://arxiv.org/abs/2205.05668v1 )

ライセンス: Link先を確認
Zhi Li(参考訳) 量子ゲートの複雑さは、それを構築するための基本ゲートの最小数として定義され、量子情報と計算において重要な概念である。 近年、ランダム量子回路から構築される量子ゲートの複雑さは、ほぼ確実にビルディングブロックの数で線形に増加することが示されている。 本稿では、この事実の短い2つの証明を提供する。 また、量子回路の複雑性成長の離散バージョンについても論じる。

The complexity of a quantum gate, defined as the minimal number of elementary gates to build it, is an important concept in quantum information and computation. It is shown recently that the complexity of quantum gates built from random quantum circuits almost surely grows linearly with the number of building blocks. In this article, we provide two short proofs of this fact. We also discuss a discrete version of quantum circuit complexity growth.
翻訳日:2023-02-13 12:20:30 公開日:2022-05-11
# GPT-3による音楽説明の生成に向けて

Towards the Generation of Musical Explanations with GPT-3 ( http://arxiv.org/abs/2206.08264v1 )

ライセンス: Link先を確認
Stephen James Krol and Maria Teresa Llano and Jon McCormack(参考訳) Open AIの言語モデルであるGPT-3は、多くの異なるドメインでのアプリケーションを含む多くのNLPタスクに対して大きな可能性を示している。 本研究は,GPT-3による楽曲のテキスト表現をきっかけに,テキストによる説明を通じて音楽決定を伝達する能力に関する最初の研究である。 人間とAI音楽のパートナーシップにおける対話の実現は、より魅力的で創造的な人間とAIのインタラクションに向けた重要なステップである。 以上の結果から,GPT-3は音楽的決定を真に理解するために必要な知能を欠いていることが明らかとなった。 より良いパフォーマンスを達成するための大きな障壁は、アーティストが音楽作品のために行う創造的なプロセスの説明を含むデータの欠如である。 このようなリソースは、AI音楽システムの理解とコラボレーションに役立つと考えています。

Open AI's language model, GPT-3, has shown great potential for many NLP tasks, with applications in many different domains. In this work we carry out a first study on GPT-3's capability to communicate musical decisions through textual explanations when prompted with a textual representation of a piece of music. Enabling a dialogue in human-AI music partnerships is an important step towards more engaging and creative human-AI interactions. Our results show that GPT-3 lacks the necessary intelligence to really understand musical decisions. A major barrier to reach a better performance is the lack of data that includes explanations of the creative process carried out by artists for musical pieces. We believe such a resource would aid the understanding and collaboration with AI music systems.
翻訳日:2023-02-13 12:14:09 公開日:2022-05-11
# 暗号通貨バブル検出:新しい株式市場データセット、金融タスクとハイパーボリックモデル

Cryptocurrency Bubble Detection: A New Stock Market Dataset, Financial Task & Hyperbolic Models ( http://arxiv.org/abs/2206.06320v1 )

ライセンス: Link先を確認
Ramit Sawhney, Shivam Agarwal, Vivek Mittal, Paolo Rosso, Vikram Nanda, Sudheer Chava(参考訳) ソーシャルメディア上の情報の急速な拡散は、量的取引と投資に影響を及ぼす。 暗号通貨やミーム株などの高揮発性資産の投機的取引が人気を増していることは、金融界で新たな課題となっている。 このような「バブル」の調査 - 市場の突然の異常な行動の期間は、投資家の行動や市場のダイナミクスをよりよく理解する上で重要である。 しかし、高ボラティリティと大量のカオス的なソーシャルメディアテキスト、特に暗号通貨のような未探索資産は、既存の手法に挑戦する。 暗号化コインのnlpに向けた第一歩として,バブル検出のための新たなマルチスパン識別タスクであるcryptobubblesと,5年間で200万以上のツィートにまたがる9つの取引所から400以上のcryptocoinのデータセットを公開します。 さらに,このマルチスパン識別タスクに適したシーケンス・ツー・シークエンス双曲モデルのセットを,ソーシャルメディア上での暗号通貨のパワーローダイナミクスとユーザの行動に基づいて開発する。 当社は、ソーシャルメディアの誇大宣伝による取引量の増加を目にする29の「ミーム株」に関するReddit投稿のテストセットにおいて、ゼロショット設定下でのモデルの有効性をさらに検証する。 Reddit と Twitter における定量的,質的,ゼロショット分析を通じて,CryptoBubbles と hyperbolic model の実用性を示す。

The rapid spread of information over social media influences quantitative trading and investments. The growing popularity of speculative trading of highly volatile assets such as cryptocurrencies and meme stocks presents a fresh challenge in the financial realm. Investigating such "bubbles" - periods of sudden anomalous behavior of markets are critical in better understanding investor behavior and market dynamics. However, high volatility coupled with massive volumes of chaotic social media texts, especially for underexplored assets like cryptocoins pose a challenge to existing methods. Taking the first step towards NLP for cryptocoins, we present and publicly release CryptoBubbles, a novel multi-span identification task for bubble detection, and a dataset of more than 400 cryptocoins from 9 exchanges over five years spanning over two million tweets. Further, we develop a set of sequence-to-sequence hyperbolic models suited to this multi-span identification task based on the power-law dynamics of cryptocurrencies and user behavior on social media. We further test the effectiveness of our models under zero-shot settings on a test set of Reddit posts pertaining to 29 "meme stocks", which see an increase in trade volume due to social media hype. Through quantitative, qualitative, and zero-shot analyses on Reddit and Twitter spanning cryptocoins and meme-stocks, we show the practical applicability of CryptoBubbles and hyperbolic models.
翻訳日:2023-02-13 12:13:58 公開日:2022-05-11
# Fence MusicalとComputerがドキュメンタリーを公開

The Beyond the Fence Musical and Computer Says Show Documentary ( http://arxiv.org/abs/2206.03224v1 )

ライセンス: Link先を確認
Simon Colton, Maria Teresa Llano, Rose Hepworth, John Charnley, Catherine V. Gale, Archie Baron, Francois Pachet, Pierre Roy, Pablo Gervas, Nick Collins, Bob Sturm, Tillman Weyde, Daniel Wolff, James Robert Lloyd(参考訳) 2015年から2016年初頭にかけて、コンピュテーショナル・クリエイティビティの研究と実践の文化的な応用が飛躍的に進み、複数の計算システムが新しいミュージカル・プロダクションのためのアドバイスと資料を提供するプロジェクトとなった。 2016年2月から3月にかけて、ロンドンのウエスト・エンドにあるアーツ・シアターで「コンピュータによって考案され、コンピュータによって実質的に製作された世界初のコンピュータミュージカル」として上演された。 分析的および生成的サブプロジェクトへの様々な計算的アプローチがミュージカル化に使われ、これらの取り組みは『Computer Says Show』というタイトルでSkyArtsで放送されたウィンスパン・プロダクションのドキュメンタリー映画2本に収録された。 このプロジェクトの概念と実行の詳細には、ミュージカルを書く上で創造的な責任を負ったシステムの詳細と、彼らが行った貢献が含まれている。 また、音楽の創造的な側面を総合的にコントロールする2人の(人間)作家からの視点を含め、プロジェクトの影響の詳細も提供します。

During 2015 and early 2016, the cultural application of Computational Creativity research and practice took a big leap forward, with a project where multiple computational systems were used to provide advice and material for a new musical theatre production. Billed as the world's first 'computer musical... conceived by computer and substantially crafted by computer', Beyond The Fence was staged in the Arts Theatre in London's West End during February and March of 2016. Various computational approaches to analytical and generative sub-projects were used to bring about the musical, and these efforts were recorded in two 1-hour documentary films made by Wingspan Productions, which were aired on SkyArts under the title Computer Says Show. We provide details here of the project conception and execution, including details of the systems which took on some of the creative responsibility in writing the musical, and the contributions they made. We also provide details of the impact of the project, including a perspective from the two (human) writers with overall control of the creative aspects the musical.
翻訳日:2023-02-13 12:13:33 公開日:2022-05-11
# 強境界電子ホール対の電荷分離における駆動力と非平衡ビブロニックダイナミクス

Driving Force and Nonequilibrium Vibronic Dynamics in Charge Separation of Strongly Bound Electron-Hole Pairs ( http://arxiv.org/abs/2205.06623v1 )

ライセンス: Link先を確認
Alejandro D. Somoza, Nicola Lorenzoni, James Lim, Susana F. Huelga, Martin B. Plenio(参考訳) 有機太陽電池の電子ホール対は、クーロン結合エネルギーが室温の熱エネルギーを超えるにもかかわらず効率的に解離する。 電荷分離にかかわる電子状態は、複数の弱減衰モードを含む構造的な振動環境に結合する。 このような大規模で空間的に拡張された電子振動系(vibronic)システムの非摂動シミュレーションは、いまだに優れた課題である。 現在の手法では、効果的な1次元クーロンポテンシャルや非構造環境を考慮してこの困難を回避している。 ここでは,1,2,3次元ドナー・アクセプタネットワークにおける電荷分離のダイナミクスに対して,オープン量子系の非摂動シミュレーション法を拡張し,適用する。 これにより、過度な振動運動が効率的な長距離電荷分離を誘導する正確な条件を特定できる。 超高速電荷分離の包括的図は,電子結合とビブロンカップリングによるメカニズムの違いが,広範囲の駆動力に対してどのようによく区別されているか,大規模ビブロン系においてエントロピー効果がどのように現れるかを示すものである。 これらの結果から,有機太陽光発電における電子的およびビブロニック的寄与の相対的重要性を定量化し,人工ナノ構造における効率的な電荷分離経路の設計のためのツールボックスを提供する。

Electron-hole pairs in organic photovoltaics dissociate efficiently despite their Coulomb-binding energy exceeding thermal energy at room temperature. The electronic states involved in charge separation couple to structured vibrational environments containing multiple underdamped modes. The non-perturbative simulations of such large, spatially extended electronic-vibrational (vibronic) systems remains an outstanding challenge. Current methods bypass this difficulty by considering effective one-dimensional Coulomb potentials or unstructured environments. Here we extend and apply a recently developed method for the non-perturbative simulation of open quantum systems to the dynamics of charge separation in one, two and three-dimensional donor-acceptor networks. This allows us to identify the precise conditions in which underdamped vibrational motion induces efficient long-range charge separation. Our analysis provides a comprehensive picture of ultrafast charge separation by showing how different mechanisms driven either by electronic or vibronic couplings are well differentiated for a wide range of driving forces and how entropic effects become apparent in large vibronic systems. These results allow us to quantify the relative importance of electronic and vibronic contributions in organic photovoltaics and provide a toolbox for the design of efficient charge separation pathways in artificial nanostructures.
翻訳日:2023-02-13 12:12:53 公開日:2022-05-11
# 傾斜したワイル半金属の高次高調波発生

High-order harmonic generations in tilted Weyl semimetals ( http://arxiv.org/abs/2205.06616v1 )

ライセンス: Link先を確認
Zi-Yuan Li, Qi Li, and Zhou Li(参考訳) 2種類のワイルコーンとの比較により高次高調波発生(HHGs)について検討した。 双曲型電子ポケット構造のため、高次の強い非中心対称世代は単一のタイプIIワイル点、特に周波数0で観測される。 このような顕著なDC信号はスペクトル分解後のバンド内遷移に起因することが証明された。 弱いパルス電場の下では、非タイル型ワイルコーンの線形光学応答は久保理論と一致している。 より数値的なシミュレーションにより、ゼロでない化学ポテンシャルは、わずかに傾いたシステムから過度に傾いたシステムまで、偶数次世代を増大させることができると結論づける。 動的対称性を考慮すると、タイプiとタイプiiのワイルコーンは円偏光下で異なる選択的応答を示す。 最後に、2対のワイル点を含むより現実的なモデルを用いて、反対のキラル性を持つペアのワイル点が全体の偶数世代を抑制することを実証する。

We investigate high-order harmonic generations (HHGs) under the comparison of Weyl cones in two types. Due to the hyperboloidal electron pocket structure, strong noncentrosymmetrical generations in high orders are observed around a single type-II Weyl point, especially at frequency zero. Such remarkable DC signal is proved to have attributions from the intraband transition after spectral decomposition. Under weak pulse electric field , the linear optical response of a non-tilted Weyl cone is consistent with the Kubo theory. With more numerical simulations, we conclude the non-zero chemical potential can enhance the even-order generations, from the slightly tilted system to the over-tilted systems. In consideration of dynamical symmetries, type-I and -II Weyl cones also show different selective responses under the circularly polarized light. Finally, using a more realistic model containing two pairs of Weyl points, we demonstrate the paired Weyl points with opposite chirality could suppress the overall even-order generations.
翻訳日:2023-02-13 12:12:34 公開日:2022-05-11
# グラフニューラルネットワークのベンチマーク

Benchmarking Graph Neural Networks ( http://arxiv.org/abs/2003.00982v4 )

ライセンス: Link先を確認
Vijay Prakash Dwivedi, Chaitanya K. Joshi, Anh Tuan Luu, Thomas Laurent, Yoshua Bengio, Xavier Bresson(参考訳) ここ数年、グラフニューラルネットワーク(GNN)は、グラフ上のデータから分析および学習するための標準ツールキットとなっている。 この新興分野は、コンピュータ科学、数学、生物学、物理学、化学に応用された有望な技術の広範な成長を目撃している。 しかし、成功した分野が主流で信頼できるものになるためには、進捗を定量化するためにベンチマークを開発する必要がある。 この結果、2020年3月にベンチマークフレームワークをリリースしました。 一 数学的及び実世界のグラフの多様なコレクションからなる。 二 同一のパラメータ予算と公正なモデル比較を行い、重要なアーキテクチャを特定すること。 三 オープンソースの、使いやすく、再現しやすいコード基盤を有すること。 iv) 研究者が新しい理論のアイデアを試すには柔軟である。 2022年5月時点で、GitHubリポジトリは1,800のスターと339のフォークに到達しており、GNNコミュニティが広く使用しているオープンソースフレームワークの有用性を実証している。 本稿では,上記のフレームワークの特徴を簡潔に表現し,一般的な亜鉛と類似した中規模の分子データセット aqsol を追加し,実世界の化学ターゲットを用いて,このフレームワークを新たなgnn設計と洞察を探求するためにどのように活用できるかを論じた。 このベンチマークで導入されたグラフ位置エンコーディング(PE)のケースを検証した結果,トランスフォーマーやGNNのより強力なPEを,堅牢な実験環境で探索することへの関心が高まった。

In the last few years, graph neural networks (GNNs) have become the standard toolkit for analyzing and learning from data on graphs. This emerging field has witnessed an extensive growth of promising techniques that have been applied with success to computer science, mathematics, biology, physics and chemistry. But for any successful field to become mainstream and reliable, benchmarks must be developed to quantify progress. This led us in March 2020 to release a benchmark framework that i) comprises of a diverse collection of mathematical and real-world graphs, ii) enables fair model comparison with the same parameter budget to identify key architectures, iii) has an open-source, easy-to-use and reproducible code infrastructure, and iv) is flexible for researchers to experiment with new theoretical ideas. As of May 2022, the GitHub repository has reached 1,800 stars and 339 forks, which demonstrates the utility of the proposed open-source framework through the wide usage by the GNN community. In this paper, we present an updated version of our benchmark with a concise presentation of the aforementioned framework characteristics, an additional medium-sized molecular dataset AQSOL, similar to the popular ZINC, but with a real-world measured chemical target, and discuss how this framework can be leveraged to explore new GNN designs and insights. As a proof of value of our benchmark, we study the case of graph positional encoding (PE) in GNNs, which was introduced with this benchmark and has since spurred interest of exploring more powerful PE for Transformers and GNNs in a robust experimental setting.
翻訳日:2022-12-27 04:31:55 公開日:2022-05-11
# DMT:半監督学習のための動的相互訓練

DMT: Dynamic Mutual Training for Semi-Supervised Learning ( http://arxiv.org/abs/2004.08514v4 )

ライセンス: Link先を確認
Zhengyang Feng, Qianyu Zhou, Qiqi Gu, Xin Tan, Guangliang Cheng, Xuequan Lu, Jianping Shi, Lizhuang Ma(参考訳) 近年の半教師あり学習手法は、疑似監督を中核概念、特に擬似ラベルを生成する自己学習手法として用いている。 しかし、偽のラベルは信頼できない。 自己学習法は通常、低信頼の擬似ラベルをフィルタするために単一モデル予測の信頼性に依存し、したがって高信頼の誤りを残し、多くの低信頼の正しいラベルを浪費する。 本稿では,モデルが自身のエラーに対して対処することが困難であることを指摘する。 代わりに、異なるモデル間のモデル間不一致を活用することが、擬似ラベルエラーを見つける鍵となる。 この新たな視点では,動的重み付け損失関数による2つの異なるモデル間の相互学習を動的相互訓練 (dmt) と呼ぶ。 2つの異なるモデルからの予測を比較してモデル間不一致を定量化し、トレーニングにおける動的再重み付け損失と比較する。 画像分類とセマンティックセグメンテーションの両方において,DMTが最先端の性能を達成することを示す。 私たちのコードはhttps://github.com/voldemortX/DST-CBC でリリースされています。

Recent semi-supervised learning methods use pseudo supervision as core idea, especially self-training methods that generate pseudo labels. However, pseudo labels are unreliable. Self-training methods usually rely on single model prediction confidence to filter low-confidence pseudo labels, thus remaining high-confidence errors and wasting many low-confidence correct labels. In this paper, we point out it is difficult for a model to counter its own errors. Instead, leveraging inter-model disagreement between different models is a key to locate pseudo label errors. With this new viewpoint, we propose mutual training between two different models by a dynamically re-weighted loss function, called Dynamic Mutual Training (DMT). We quantify inter-model disagreement by comparing predictions from two different models to dynamically re-weight loss in training, where a larger disagreement indicates a possible error and corresponds to a lower loss value. Extensive experiments show that DMT achieves state-of-the-art performance in both image classification and semantic segmentation. Our codes are released at https://github.com/voldemortX/DST-CBC .
翻訳日:2022-12-12 05:27:36 公開日:2022-05-11
# 物質移動学習と感度解析を用いた物理インフォームドディープコロケーション法による非均一媒体の3次元ポテンシャル問題の解析

Analysis of three dimensional potential problems in non-homogeneous media with physics-informed deep collocation method using material transfer learning and sensitivity analysis ( http://arxiv.org/abs/2010.12060v2 )

ライセンス: Link先を確認
Hongwei Guo, Xiaoying Zhuang, Pengwan Chen, Naif Alajlan and Timon Rabczuk(参考訳) 本研究では,非均一媒体における3次元ポテンシャル問題に対する深層コロケーション法を提案する。 このアプローチは、非均一偏微分方程式の解を最適化問題に還元する物質移動学習を伴う物理情報ニューラルネットワークを利用する。 我々は、スムーズなアクティベーション関数、コロケーション点生成のためのサンプリング方法、最適化器の組み合わせを含む、物理情報ニューラルネットワークの異なるコフィギュレーションを試験した。 物質移動学習技術は, 物質次数やパラメータの異なる非均一媒質に応用され, 提案手法の汎用性と堅牢性を高めた。 ネットワーク構成の最も影響力のあるパラメータを特定するために,グローバルな感度解析を行った。 最後に、DCMの収束証明を提供する。 このアプローチはいくつかのベンチマーク問題を通じて検証され、異なる素材のバリエーションをテストする。

In this work, we present a deep collocation method for three dimensional potential problems in nonhomogeneous media. This approach utilizes a physics informed neural network with material transfer learning reducing the solution of the nonhomogeneous partial differential equations to an optimization problem. We tested different cofigurations of the physics informed neural network including smooth activation functions, sampling methods for collocation points generation and combined optimizers. A material transfer learning technique is utilised for nonhomogeneous media with different material gradations and parameters, which enhance the generality and robustness of the proposed method. In order to identify the most influential parameters of the network configuration, we carried out a global sensitivity analysis. Finally, we provide a convergence proof of our DCM. The approach is validated through several benchmark problems, also testing different material variations.
翻訳日:2022-10-11 11:46:41 公開日:2022-05-11
# インフォメーションサブサンプリングのための最大サンプル条件付き確率

Maximum sampled conditional likelihood for informative subsampling ( http://arxiv.org/abs/2011.05988v3 )

ライセンス: Link先を確認
HaiYing Wang and Jae Kwang Kim(参考訳) サブサンプリングは、計算資源が限られているときに大量のデータセットから情報を抽出する計算学的に効果的な手法である。 サブサンプルを全データから取り出した後、ほとんどの利用可能な方法は、逆確率重み付き(IPW)客観的関数を使ってモデルパラメータを推定する。 IPW推定器は、選択したサブサンプルの情報を十分に活用していない。 本稿では,サンプルデータに基づく最大条件付き確率推定器(MSCLE)を提案する。 我々は,MSCLEの漸近正規性を確立し,その漸近分散共分散行列がIPW推定器を含む漸近的非偏差推定器群の中で最小であることを証明した。 さらに、L-最適サブサンプリング確率による漸近的な結果について議論し、一般化線形モデルによる推定手順を説明する。 提案手法の実用性を評価するための数値実験を行った。

Subsampling is a computationally effective approach to extract information from massive data sets when computing resources are limited. After a subsample is taken from the full data, most available methods use an inverse probability weighted (IPW) objective function to estimate the model parameters. The IPW estimator does not fully utilize the information in the selected subsample. In this paper, we propose to use the maximum sampled conditional likelihood estimator (MSCLE) based on the sampled data. We established the asymptotic normality of the MSCLE and prove that its asymptotic variance covariance matrix is the smallest among a class of asymptotically unbiased estimators, including the IPW estimator. We further discuss the asymptotic results with the L-optimal subsampling probabilities and illustrate the estimation procedure with generalized linear models. Numerical experiments are provided to evaluate the practical performance of the proposed method.
翻訳日:2022-09-27 01:13:11 公開日:2022-05-11
# Contrastive Graph Convolutional Network を用いたハイパースペクトル画像分類

Hyperspectral Image Classification With Contrastive Graph Convolutional Network ( http://arxiv.org/abs/2205.11237v1 )

ライセンス: Link先を確認
Wentao Yu, Sheng Wan, Guangyu Li, Jian Yang, Chen Gong(参考訳) 近年,グラフ畳み込みネットワーク (GCN) がハイパースペクトル画像 (HSI) 分類で広く利用されている。 しかし、ラベル付きピクセルの数はHSIでは非常に限られているため、利用可能な監視情報は通常不十分であり、既存のGCNベースのメソッドの表現能力は必然的に低下する。 本稿では,コントラストグラフ畳み込みネットワーク(ConGCN, Contrastive Graph Convolutional Network, コントラストグラフ畳み込みネットワーク)と呼ばれるスペクトル情報と空間関係の両方に含まれる監視信号を調べるために, コントラスト学習を用いたGCNモデルを提案する。 まず、スペクトル情報から十分な監視信号をマイニングするために、同一のノードの異なるビューと同一のランドカバーカテゴリのノードとの一致を最大化するために、半教師付きコントラスト損失関数を利用する。 第二に、HSIにおける貴重な空間関係を抽出するために、グラフ生成損失関数を利用して、グラフトポロジに含まれる補助的な監視信号を調べる。 さらに,HSIのスペクトル空間的先行を柔軟に組み込むことにより,その後のコントラスト表現学習を支援する適応グラフ拡張手法を考案した。 4つの典型的なベンチマークデータセットの広範な実験結果は、質的および定量的にcongcnの有効性を確証している。

Recently, Graph Convolutional Network (GCN) has been widely used in Hyperspectral Image (HSI) classification due to its satisfactory performance. However, the number of labeled pixels is very limited in HSI, and thus the available supervision information is usually insufficient, which will inevitably degrade the representation ability of most existing GCN-based methods. To enhance the feature representation ability, in this paper, a GCN model with contrastive learning is proposed to explore the supervision signals contained in both spectral information and spatial relations, which is termed Contrastive Graph Convolutional Network (ConGCN), for HSI classification. First, in order to mine sufficient supervision signals from spectral information, a semi-supervised contrastive loss function is utilized to maximize the agreement between different views of the same node or the nodes from the same land cover category. Second, to extract the precious yet implicit spatial relations in HSI, a graph generative loss function is leveraged to explore supplementary supervision signals contained in the graph topology. In addition, an adaptive graph augmentation technique is designed to flexibly incorporate the spectral-spatial priors of HSI, which helps facilitate the subsequent contrastive representation learning. The extensive experimental results on four typical benchmark datasets firmly demonstrate the effectiveness of the proposed ConGCN in both qualitative and quantitative aspects.
翻訳日:2022-05-29 20:40:02 公開日:2022-05-11
# dual branch prior-segnet:プランニングスキャンと補助セグメンテーション損失を用いた介入型cbctのためのcnn

Dual Branch Prior-SegNet: CNN for Interventional CBCT using Planning Scan and Auxiliary Segmentation Loss ( http://arxiv.org/abs/2205.10353v1 )

ライセンス: Link先を確認
Philipp Ernst, Suhita Ghosh, Georg Rose, Andreas N\"urnberger(参考訳) 本稿では,高品質プランニングスキャンを組み込んだsparse view interventional cbct再構成のためのdual branch prior-netの拡張を提案する。 追加のヘッドは、セグメント介入機器を学習し、リコンストラクションタスクをガイドする。 事前スキャンは、訓練中に最大+-5degでミスアライメントされる。 実験の結果,提案モデルであるDual Branch Prior-SegNetは, >2.8dB PSNRで評価されたモデルよりも有意に優れていた。 堅牢な wrt も保持する。 回転は+-5.5degまで。

This paper proposes an extension to the Dual Branch Prior-Net for sparse view interventional CBCT reconstruction incorporating a high quality planning scan. An additional head learns to segment interventional instruments and thus guides the reconstruction task. The prior scans are misaligned by up to +-5deg in-plane during training. Experiments show that the proposed model, Dual Branch Prior-SegNet, significantly outperforms any other evaluated model by >2.8dB PSNR. It also stays robust wrt. rotations of up to +-5.5deg.
翻訳日:2022-05-29 20:38:02 公開日:2022-05-11
# (参考訳) MAS2HP:2次元HPモデルにおけるタンパク質構造予測のためのマルチエージェントシステム

MAS2HP: A Multi Agent System to predict protein structure in 2D HP model ( http://arxiv.org/abs/2205.08451v1 )

ライセンス: CC BY 4.0
Hossein Parineh, Nasser Mozayani(参考訳) タンパク質構造予測 (psp) は計算生物学の分野で未解決の問題である。 タンパク質構造予測の問題はタンパク質のネイティブコンフォメーションを予測することであり、そのアミノ酸の配列は知られている。 現在のコンピュータシステムの処理限界に関して、タンパク質の全ての原子シミュレーションは一般的に実践的ではなく、いくつかのタンパク質の縮小モデルが提案されている。 さらに, 還元モデルにおいても計算が本質的に困難であることから, 主に人工知能に基づく計算手法が提案されている。 エージェントベースモデリングは、相互作用するアイテムからなるシステムの比較的新しいモデリング方法である。 本稿では,2次元疎水性-親水性モデルにおけるエージェントベースモデリング(ABM)を用いたタンパク質構造予測の新しい手法を提案する。 先述の論文で紹介された最初のステップは一次エネルギーを得るために線形配列を偏らせることであり、次のステップは、事前定義されたルールセットでabmを使用し、可能な限りの時間とステップで最適なコンフォーメーションを見つけることである。 この方法はNETLOGOで実装された。 我々はこのアルゴリズムを2次元疎水性-親水性格子モデルにおいて20-50メルのベンチマークシーケンスで検証した。 提案手法は,他のアルゴリズムと比較して,非常に短い時間で最もよく知られたコンフォメーションを見つけることができる。 pspシミュレーションの大きな問題は、シーケンス長が増加すると、有効な構造を予測するのに費やされる時間が指数関数的に増加することである。 対照的にmas2hpを用いることで、使用時間に対するシーケンス長の増加が指数関数的に線形に変化した。

Protein Structure Prediction (PSP) is an unsolved problem in the field of computational biology. The problem of protein structure prediction is about predicting the native conformation of a protein, while its sequence of amino acids is known. Regarding processing limitations of current computer systems, all-atom simulations for proteins are typically unpractical; several reduced models of proteins have been proposed. Additionally, due to intrinsic hardness of calculations even in reduced models, many computational methods mainly based on artificial intelligence have been proposed to solve the problem. Agent-based modeling is a relatively new method for modeling systems composed of interacting items. In this paper we proposed a new approach for protein structure prediction by using agent-based modeling (ABM) in two dimensional hydrophobic-hydrophilic model. We broke the whole process of protein structure prediction into two steps: the first step, which was introduced in our previous paper, is about biasing the linear sequence to gain a primary energy, and the next step, which will be explained in this paper, is about using ABM with a predefined set of rules, to find the best conformation in the least possible amount of time and steps. This method was implemented in NETLOGO. We have tested this algorithm on several benchmark sequences ranging from 20 to 50-mers in two dimensional Hydrophobic-Hydrophilic lattice models. Comparing to the result of the other algorithms, our method is capable of finding the best known conformations in a significantly shorter time. A major problem in PSP simulation is that as the sequence length increases the time consumed to predict a valid structure will exponentially increase. In contrast, by using MAS2HP the effect of increase in sequence length on spent time has changed from exponentially to linear.
翻訳日:2022-05-22 13:20:19 公開日:2022-05-11
# (参考訳) 技術者のための量子機械学習入門

An Introduction to Quantum Machine Learning for Engineers ( http://arxiv.org/abs/2205.09510v1 )

ライセンス: CC BY 4.0
Osvaldo Simeone(参考訳) 現在のノイズの多い中間スケール量子(NISQ)時代には、ゲートベースの量子コンピュータをプログラムするための支配的なパラダイムとして量子機械学習が登場しつつある。 量子機械学習では、量子回路のゲートはパラメータ化され、パラメータはデータと回路の出力の測定に基づいて古典的な最適化によって調整される。 パラメタライズド量子回路(PQC)は組合せ最適化問題を効率的に解決し、確率的生成モデルを実装し、推論(分類と回帰)を行う。 このモノグラフは、確率と線形代数の背景を持つエンジニアの聴衆に対して、自己完結した量子機械学習入門を提供する。 量子演算と測定を記述するのに必要な背景、概念、ツールを最初に記述する。 次に、パラメトリゼーション量子回路、変分量子固有解法、および教師なしおよび教師なし量子機械学習の定式化をカバーする。

In the current noisy intermediate-scale quantum (NISQ) era, quantum machine learning is emerging as a dominant paradigm to program gate-based quantum computers. In quantum machine learning, the gates of a quantum circuit are parametrized, and the parameters are tuned via classical optimization based on data and on measurements of the outputs of the circuit. Parametrized quantum circuits (PQCs) can efficiently address combinatorial optimization problems, implement probabilistic generative models, and carry out inference (classification and regression). This monograph provides a self-contained introduction to quantum machine learning for an audience of engineers with a background in probability and linear algebra. It first describes the necessary background, concepts, and tools necessary to describe quantum operations and measurements. Then, it covers parametrized quantum circuits, the variational quantum eigensolver, as well as unsupervised and supervised quantum machine learning formulations.
翻訳日:2022-05-22 13:09:29 公開日:2022-05-11
# (参考訳) スマートかつ継続的なコミッショニングのためのオントロジーのレビュー

A review of ontologies for smart and continuous commissioning ( http://arxiv.org/abs/2205.07636v1 )

ライセンス: CC BY-SA 4.0
Sara Gilani, Caroline Quinn, J.J. McArthur (Faculty of Engineering and Architectural Science, Ryerson University, Toronto, Canada)(参考訳) 建築物のスマートかつ連続的なコミッショニング(SCCx)は、設計と運用性能のギャップを著しく減らす可能性がある。 オントロジは、マシンによるデータの可読性と推論を促進するため、SCCxにおいて重要な役割を果たす。 オントロジーの理解を深めるためには、それらを SCCx に組み込む必要がある。 本稿では,2014年以降のsccx領域におけるデータオントロジーの構築に関する最新研究を,データ型の構築,一般的なアプローチ,アプリケーションに基づいて分類することで批判的に評価する。 情報モデリングと構築管理システムの2つの主要領域のデータ型は,既存のオントロジーの大部分で検討されている。 既存のオントロジーの批判的分析から,(1)鍵性能指標計算,(2)建築性能の改善,(3)故障検出と診断の3つの主な応用が明らかである。 文献レビューに見られる大きなギャップは、SCCxの全体論的なオントロジーと、そのようなアプローチをどのように評価すべきかについての洞察である。 本研究は,SCCx関連データ型の同定,オントロジー性能の評価,オープンソースアプローチの創出など,今後の研究の必要性を示唆するものである。

Smart and continuous commissioning (SCCx) of buildings can result in a significant reduction in the gap between design and operational performance. Ontologies play an important role in SCCx as they facilitate data readability and reasoning by machines. A better understanding of ontologies is required in order to develop and incorporate them in SCCx. This paper critically reviews the state-of-the-art research on building data ontologies since 2014 within the SCCx domain through sorting them based on building data types, general approaches, and applications. The data types of two main domains of building information modeling and building management system have been considered in the majority of existing ontologies. Three main applications are evident from a critical analysis of existing ontologies: (1) key performance indicator calculation, (2) building performance improvement, and (3) fault detection and diagnosis. The key gaps found in the literature review are a holistic ontology for SCCx and insight on how such approaches should be evaluated. Based on these findings, this study provides recommendations for future necessary research including: identification of SCCx-related data types, assessment of ontology performance, and creation of open-source approaches.
翻訳日:2022-05-22 13:08:28 公開日:2022-05-11
# (参考訳) データ前処理、ニューラルネットワークモデル、トレーディング戦略を含む金融時系列データと互換性のあるディープニューラルネットワークフレームワーク

Compatible deep neural network framework with financial time series data, including data preprocessor, neural network model and trading strategy ( http://arxiv.org/abs/2205.08382v1 )

ライセンス: CC BY 4.0
Mohammadmahdi Ghahramani, Hamid Esmaeili Najafabadi(参考訳) 経験から、株式と暗号通貨市場の取引は高い利益をもたらす可能性があることが示されている。 この光の中で、最近、市場行動の解釈と予測に機械学習とディープラーニングを適用する方法について、かなりの努力が注がれている。 この研究は、新しいディープニューラルネットワークアーキテクチャと、それらをモデルに供給する前に財務データを準備する方法の新しいアイデアを紹介する。 データ準備部では、まず技術的な指標を使って多くの機能を生成し、それから機能エンジニアリングにXGBoostモデルを適用する。 データを3つのカテゴリに分割し、分離したオートエンコーダを用いて、2番目のステップでハイレベルな混合特徴を抽出する。 このデータ前処理は価格変動を予測するために導入される。 モデリングに関しては、異なる畳み込み層、長い短期記憶ユニット、およびいくつかの完全接続層がバイナリ分類を行うように設計されている。 この研究は、訓練されたモデル出力を活用するためのトレーディング戦略も導入している。 この手法を評価するために3つの異なるデータセットが使用され、その結果、このフレームワークが有益でロバストな予測を私たちに提供できることが示されている。

Experience has shown that trading in stock and cryptocurrency markets has the potential to be highly profitable. In this light, considerable effort has been recently devoted to investigate how to apply machine learning and deep learning to interpret and predict market behavior. This research introduces a new deep neural network architecture and a novel idea of how to prepare financial data before feeding them to the model. In the data preparation part, the first step is to generate many features using technical indicators and then apply the XGBoost model for feature engineering. Splitting data into three categories and using separate autoencoders, we extract high-level mixed features at the second step. This data preprocessing is introduced to predict price movements. Regarding modeling, different convolutional layers, an long short-term memory unit, and several fully-connected layers have been designed to perform binary classification. This research also introduces a trading strategy to exploit the trained model outputs. Three different datasets are used to evaluate this method, where results indicate that this framework can provide us with profitable and robust predictions.
翻訳日:2022-05-22 13:07:25 公開日:2022-05-11
# Sparse View Cone Beam Computed Tomography ボリューム再構成のための2次元UNet

Primal-Dual UNet for Sparse View Cone Beam Computed Tomography Volume Reconstruction ( http://arxiv.org/abs/2205.07866v1 )

ライセンス: Link先を確認
Philipp Ernst, Soumick Chatterjee, Georg Rose, Andreas N\"urnberger(参考訳) 本稿では,スパースビューct再構成のための初歩的unetをコーンビーム投影に適用し,スライスではなくボリューム全体の再構成を行うように修正した。 実験の結果,提案手法のPSNRは直接FDK再構成と比較して10dB増加し,修正されたPrimal-Dual Networkに比べて約3dB向上した。 提示されたネットワークは最適化されていない。 メモリ消費やハイパーパラメータは概念実証としてのみ機能し、低解像度のプロジェクションやボリュームに限定される。

In this paper, the Primal-Dual UNet for sparse view CT reconstruction is modified to be applicable to cone beam projections and perform reconstructions of entire volumes instead of slices. Experiments show that the PSNR of the proposed method is increased by 10dB compared to the direct FDK reconstruction and almost 3dB compared to the modified original Primal-Dual Network when using only 23 projections. The presented network is not optimized wrt. memory consumption or hyperparameters but merely serves as a proof of concept and is limited to low resolution projections and volumes.
翻訳日:2022-05-22 11:18:13 公開日:2022-05-11
# マルチモーダル感情検出アルゴリズムのバイアスと公正性

Bias and Fairness on Multimodal Emotion Detection Algorithms ( http://arxiv.org/abs/2205.08383v1 )

ライセンス: Link先を確認
Matheus Schmitz, Rehan Ahmed, Jimi Cao(参考訳) 多くの研究で、機械学習アルゴリズムは人種や性別などの保護された属性をラッチし、1つまたは複数のグループに対して体系的に差別する予測を生成することが示されている。 これまで、偏見と公平性の研究の大半は、単調なモデルに関するものだった。 本研究では,感情認識システムに存在するバイアスを,活用されたモダリティと関連づけて検討し,マルチモーダルアプローチがシステムのバイアスや公平性に与える影響について検討する。 我々は、音声、テキスト、ビデオのモダリティ、およびそれらすべての多様性の組み合わせを考慮し、テキストだけではバイアスが少ないこと、モデルのパフォーマンスの大部分を考慮し、モデルパフォーマンスと並行してバイアスと公平性が望まれるマルチモーダル感情認識システムの価値に対する疑問を提起する。

Numerous studies have shown that machine learning algorithms can latch onto protected attributes such as race and gender and generate predictions that systematically discriminate against one or more groups. To date the majority of bias and fairness research has been on unimodal models. In this work, we explore the biases that exist in emotion recognition systems in relationship to the modalities utilized, and study how multimodal approaches affect system bias and fairness. We consider audio, text, and video modalities, as well as all possible multimodal combinations of those, and find that text alone has the least bias, and accounts for the majority of the models' performances, raising doubts about the worthiness of multimodal emotion recognition systems when bias and fairness are desired alongside model performance.
翻訳日:2022-05-22 10:58:29 公開日:2022-05-11
# CV4Code:Visual Code Representationによるソースコード理解

CV4Code: Sourcecode Understanding via Visual Code Representations ( http://arxiv.org/abs/2205.08585v1 )

ライセンス: Link先を確認
Ruibo Shi, Lili Tao, Rohan Saphal, Fran Silavong, Sean J. Moran(参考訳) ソースコード理解のためのコンパクトで効果的なコンピュータビジョン手法CV4Codeを提案する。 本手法は,各スニペットを2次元画像として扱うことで,コードスニペットから得られるコンテキスト情報と構造情報を活用し,そのコンテキストを自然にエンコードし,その基盤となる構造情報を明示的な空間表現で保持する。 画像としてスニペットを符号化するために,ソースコード画像の高速生成を容易にするASCII符号点に基づく画像表現を提案し,RGB画素表現から生じる符号化の冗長性を排除した。 さらに、ソースコードを画像として扱うため、語彙解析(分岐)も構文木解析も必要とせず、提案されたメソッドを特定のプログラミング言語に依存せず、アプリケーションパイプラインの観点から軽量にする。 CV4Codeは抽象構文木(AST)に依存するメソッドでは不可能な、構文的に正しくないコードをデファチュアライズすることができる。 本稿では,畳み込みネットワークとトランスフォーマーネットワークを学習して,その2次元表現から直接ソースコードの関数的タスク,すなわちその2次元表現を予測し,潜在空間からの埋め込みを用いて検索設定における2つのコードスニペットの類似度スコアを導出することにより,cv4codeの有効性を示す。 実験の結果,同じタスクとデータ構成を持つ他のメソッドと比較して,最先端のパフォーマンスを実現することができた。 ソースコード理解を画像処理タスクの一形態として扱うことのメリットを初めて示す。

We present CV4Code, a compact and effective computer vision method for sourcecode understanding. Our method leverages the contextual and the structural information available from the code snippet by treating each snippet as a two-dimensional image, which naturally encodes the context and retains the underlying structural information through an explicit spatial representation. To codify snippets as images, we propose an ASCII codepoint-based image representation that facilitates fast generation of sourcecode images and eliminates redundancy in the encoding that would arise from an RGB pixel representation. Furthermore, as sourcecode is treated as images, neither lexical analysis (tokenisation) nor syntax tree parsing is required, which makes the proposed method agnostic to any particular programming language and lightweight from the application pipeline point of view. CV4Code can even featurise syntactically incorrect code which is not possible from methods that depend on the Abstract Syntax Tree (AST). We demonstrate the effectiveness of CV4Code by learning Convolutional and Transformer networks to predict the functional task, i.e. the problem it solves, of the source code directly from its two-dimensional representation, and using an embedding from its latent space to derive a similarity score of two code snippets in a retrieval setup. Experimental results show that our approach achieves state-of-the-art performance in comparison to other methods with the same task and data configurations. For the first time we show the benefits of treating sourcecode understanding as a form of image processing task.
翻訳日:2022-05-22 10:58:13 公開日:2022-05-11
# 単純なコントラストグラフクラスタリング

Simple Contrastive Graph Clustering ( http://arxiv.org/abs/2205.07865v1 )

ライセンス: Link先を確認
Yue Liu, Xihong Yang, Sihang Zhou, Xinwang Liu(参考訳) コントラスト学習は最近、その有望なパフォーマンスでディープグラフクラスタリングに多くの注目を集めている。 しかし、複雑なデータ拡張と時間を要するグラフ畳み込み操作は、これらの方法の効率を損なう。 この問題を解決するために,ネットワークアーキテクチャ,データ拡張,目的関数の観点から既存の手法を改善するための単純なコントラストグラフクラスタリング(SCGC)アルゴリズムを提案する。 アーキテクチャに関しては,ネットワークには前処理とネットワークバックボーンという2つの主要な部分がある。 単純なローパス復調操作は、独立処理として隣接情報集約を行い、バックボーンには2つの多層パーセプトロン(MLP)のみを含む。 データ拡張のために、グラフに複雑な操作を導入する代わりに、パラメータの共有されていないシアムエンコーダを設計し、ノード埋め込みを直接破壊することで、同じ頂点の2つの拡張ビューを構築する。 最後に、目的関数について、さらにクラスタリング性能を向上させるために、学習ネットワークの識別能力を高めるために、新たなクロスビュー構造一貫性目的関数を設計する。 7つのベンチマークデータセットの大規模な実験結果から,提案アルゴリズムの有効性と優位性を検証した。 重要な点として、我々のアルゴリズムは、最近のコントラストの高いディープクラスタリング競合よりも、平均して7倍のスピードアップを達成している。

Contrastive learning has recently attracted plenty of attention in deep graph clustering for its promising performance. However, complicated data augmentations and time-consuming graph convolutional operation undermine the efficiency of these methods. To solve this problem, we propose a Simple Contrastive Graph Clustering (SCGC) algorithm to improve the existing methods from the perspectives of network architecture, data augmentation, and objective function. As to the architecture, our network includes two main parts, i.e., pre-processing and network backbone. A simple low-pass denoising operation conducts neighbor information aggregation as an independent pre-processing, and only two multilayer perceptrons (MLPs) are included as the backbone. For data augmentation, instead of introducing complex operations over graphs, we construct two augmented views of the same vertex by designing parameter un-shared siamese encoders and corrupting the node embeddings directly. Finally, as to the objective function, to further improve the clustering performance, a novel cross-view structural consistency objective function is designed to enhance the discriminative capability of the learned network. Extensive experimental results on seven benchmark datasets validate our proposed algorithm's effectiveness and superiority. Significantly, our algorithm outperforms the recent contrastive deep clustering competitors with at least seven times speedup on average.
翻訳日:2022-05-22 10:57:26 公開日:2022-05-11
# (参考訳) 大規模言語モデルを用いた文脈認識短縮拡張

Context-Aware Abbreviation Expansion Using Large Language Models ( http://arxiv.org/abs/2205.03767v3 )

ライセンス: CC BY 4.0
Shanqing Cai, Subhashini Venugopalan, Katrin Tomanek, Ajit Narayanan, Meredith Ringel Morris, Michael P. Brenner(参考訳) 重度運動障害のある人に対するAAC(Augmentative and Alternative Communication)におけるテキスト入力の高速化の必要性から,フレーズを単語初期文字として積極的に省略するパラダイムを提案する。 我々のアプローチは、事前訓練された大言語モデル(LLM)のパワーで会話コンテキストを活用することで、略語をフルフレーズに拡張することである。 4つの公開会話データセットのゼロショット、少数ショット、微調整実験により、ダイアログの初期回転に対する応答に対して、64Bパラメータを持つLLMは、省略長が最大10までのフレーズの70%以上を正確に拡張できることを示す。 単一の会話の形に少量の文脈を含めると、文脈を持たない場合に比べて略語拡大の精度が2倍以上になる。 さらに、騒音データに対する微調整により、タイポノイズに対するモデルのロバスト性を高めることができる。

Motivated by the need for accelerating text entry in augmentative and alternative communication (AAC) for people with severe motor impairments, we propose a paradigm in which phrases are abbreviated aggressively as primarily word-initial letters. Our approach is to expand the abbreviations into full-phrase options by leveraging conversation context with the power of pretrained large language models (LLMs). Through zero-shot, few-shot, and fine-tuning experiments on four public conversation datasets, we show that for replies to the initial turn of a dialog, an LLM with 64B parameters is able to exactly expand over 70% of phrases with abbreviation length up to 10, leading to an effective keystroke saving rate of up to about 77% on these exact expansions. Including a small amount of context in the form of a single conversation turn more than doubles abbreviation expansion accuracies compared to having no context, an effect that is more pronounced for longer phrases. Additionally, the robustness of models against typo noise can be enhanced through fine-tuning on noisy data.
翻訳日:2022-05-15 04:43:04 公開日:2022-05-11
# (参考訳) 柔軟な動的ストリーム分析のためのエッジクラウド統合フレームワーク

An Edge-Cloud Integrated Framework for Flexible and Dynamic Stream Analytics ( http://arxiv.org/abs/2205.04622v2 )

ライセンス: CC BY 4.0
Xin Wang, Azim Khan, Jianwu Wang, Aryya Gangopadhyay, Carl E. Busart, Jade Freeman(参考訳) IoT(Internet of Things)やエッジコンピューティング,クラウドコンピューティングの普及に伴い,IoTセンサデータ上でのリアルタイムトレンド予測やオブジェクト検出など,ストリーム分析アプリケーションの開発がますます進んでいる。 ストリーム分析の一般的なタイプの1つは、recurrent neural network(rnn)のディープラーニングモデルに基づく時系列あるいはシーケンスデータ予測と予測である。 処理対象のデータが前もって利用可能で変更されないと仮定した従来の分析とは違って、ストリーム分析では、継続的に生成されるデータと、データトレンド/分散(コンセプトドリフト)が変更され、予測/予測精度が時間とともに低下する可能性がある。 もうひとつの課題は,ストリーム分析に最適なリソースプロビジョニングを提供することによる,全体的なレイテンシの向上だ。 本稿では,rnnベースのストリーム分析において,エッジリソースとクラウドリソースを最大限に活用し,精度とレイテンシを向上させる方法について検討する。 本稿では,エッジ上の低レイテンシ推論とクラウド上の高容量トレーニングをサポートするハイブリッドストリーム分析のための,エッジクラウド統合フレームワークを提案する。 我々は,エッジ中心,クラウド中心,エッジクラウド統合といったハイブリッド学習フレームワークの柔軟な展開について検討する。 さらに,このハイブリッド学習フレームワークは,過去のデータに基づいて事前学習したrnnモデルと,最新のデータに基づいて周期的に再訓練された別のrnnモデルから推定結果を動的に結合することができる。 実世界とシミュレートされたストリームデータセットを用いて,提案するエッジクラウドデプロイメントが,レイテンシの観点から3つのデプロイメントタイプの中で最も優れていることを示す。 実験では,3つのコンセプトドリフトシナリオすべてにおいて,動的学習手法が最善の学習手法であることを示す。

With the popularity of Internet of Things (IoT), edge computing and cloud computing, more and more stream analytics applications are being developed including real-time trend prediction and object detection on top of IoT sensing data. One popular type of stream analytics is the recurrent neural network (RNN) deep learning model based time series or sequence data prediction and forecasting. Different from traditional analytics that assumes data to be processed are available ahead of time and will not change, stream analytics deals with data that are being generated continuously and data trend/distribution could change (aka concept drift), which will cause prediction/forecasting accuracy to drop over time. One other challenge is to find the best resource provisioning for stream analytics to achieve good overall latency. In this paper, we study how to best leverage edge and cloud resources to achieve better accuracy and latency for RNN-based stream analytics. We propose a novel edge-cloud integrated framework for hybrid stream analytics that support low latency inference on the edge and high capacity training on the cloud. We study the flexible deployment of our hybrid learning framework, namely edge-centric, cloud-centric and edge-cloud integrated. Further, our hybrid learning framework can dynamically combine inference results from an RNN model pre-trained based on historical data and another RNN model re-trained periodically based on the most recent data. Using real-world and simulated stream datasets, our experiments show the proposed edge-cloud deployment is the best among all three deployment types in terms of latency. For accuracy, the experiments show our dynamic learning approach performs the best among all learning approaches for all three concept drift scenarios.
翻訳日:2022-05-14 21:50:40 公開日:2022-05-11
# (参考訳) 周波数アテンションを用いた対人検知器に対する対人パッチのパワーアップ

Using Frequency Attention to Make Adversarial Patch Powerful Against Person Detector ( http://arxiv.org/abs/2205.04638v2 )

ライセンス: CC BY 4.0
Xiaochun Lei, Chang Lu, Zetao Jiang, Zhaoting Gong, Xiang Cai, Linjun Lu(参考訳) ディープニューラルネットワーク(DNN)は敵の攻撃に対して脆弱である。 特に、対象検出器は、画像に特定の逆パッチを適用することで攻撃される。 しかし、前処理中にパッチが縮小するので、敵のパッチを用いて物体検出器を攻撃する既存のアプローチは、中小規模のターゲットに対する攻撃成功率を低下させる。 本稿では、パッチ生成を誘導する周波数領域アテンションモジュールである周波数モジュール(FRAN)を提案する。 敵パッチの攻撃能力を最適化するために周波数領域注意を導入した最初の研究である。 本手法は,大規模標的の攻撃成功率を低下させることなく,ヨーロフ3を攻撃しながら人間検出器を騙すための最先端攻撃法よりも,中小ターゲットの攻撃成功率を4.18%,3.89%向上させる。

Deep neural networks (DNNs) are vulnerable to adversarial attacks. In particular, object detectors may be attacked by applying a particular adversarial patch to the image. However, because the patch shrinks during preprocessing, most existing approaches that employ adversarial patches to attack object detectors would diminish the attack success rate on small and medium targets. This paper proposes a Frequency Module(FRAN), a frequency-domain attention module for guiding patch generation. This is the first study to introduce frequency domain attention to optimize the attack capabilities of adversarial patches. Our method increases the attack success rates of small and medium targets by 4.18% and 3.89%, respectively, over the state-of-the-art attack method for fooling the human detector while assaulting YOLOv3 without reducing the attack success rate of big targets.
翻訳日:2022-05-14 21:07:49 公開日:2022-05-11
# (参考訳) セマンティックセグメンテーションのためのSTDC-MAネットワーク

STDC-MA Network for Semantic Segmentation ( http://arxiv.org/abs/2205.04639v2 )

ライセンス: CC BY 4.0
Xiaochun Lei, Linjun Lu, Zetao Jiang, Zhaoting Gong, Chang Lu, Jiaming Liang(参考訳) セマンティクスセグメンテーションは、空間的およびセマンティクス情報を高い要求する方法で、自動運転とインテリジェントトランスポーテーションに広く適用されている。 ここではこれらの要求を満たすためにSTDC-MAネットワークを提案する。 第一に、STDC-Seg構造は軽量で効率的な構造を確保するためにSTDC-MAで使用される。 次に、機能アライメントモジュール(fam)を用いて、高レベル特徴と低レベル特徴のオフセットを理解し、高レベル特徴マップのアップサンプリングに関連する画素オフセットの問題を解決する。 提案手法は,高次特徴と低次特徴との効果的な融合を実現する。 1つの画像の2つの異なる入力サイズから注目領域間の関係を明らかにするために階層的多スケール注意機構を採用する。 この関係を通じて、多くの注意を払っている領域をセグメント化結果に統合し、入力画像の非集中領域を減らし、マルチスケール特徴の有効利用を改善する。 STDC-MAは、小さなオブジェクトのセグメンテーション精度を改善しつつ、STDC-Segネットワークとしてセグメンテーション速度を維持する。 STDC-MAはCityscapesの検証セットで検証された。 STDC-MAのセグメンテーション結果は、0.5xスケールの入力で76.81% mIOUに達し、STDC-Segよりも3.61%高い。

Semantic segmentation is applied extensively in autonomous driving and intelligent transportation with methods that highly demand spatial and semantic information. Here, an STDC-MA network is proposed to meet these demands. First, the STDC-Seg structure is employed in STDC-MA to ensure a lightweight and efficient structure. Subsequently, the feature alignment module (FAM) is applied to understand the offset between high-level and low-level features, solving the problem of pixel offset related to upsampling on the high-level feature map. Our approach implements the effective fusion between high-level features and low-level features. A hierarchical multiscale attention mechanism is adopted to reveal the relationship among attention regions from two different input sizes of one image. Through this relationship, regions receiving much attention are integrated into the segmentation results, thereby reducing the unfocused regions of the input image and improving the effective utilization of multiscale features. STDC- MA maintains the segmentation speed as an STDC-Seg network while improving the segmentation accuracy of small objects. STDC-MA was verified on the verification set of Cityscapes. The segmentation result of STDC-MA attained 76.81% mIOU with the input of 0.5x scale, 3.61% higher than STDC-Seg.
翻訳日:2022-05-14 20:57:54 公開日:2022-05-11
# (参考訳) 部分閉塞が歩行者検出性に及ぼす影響

The Impact of Partial Occlusion on Pedestrian Detectability ( http://arxiv.org/abs/2205.04812v2 )

ライセンス: CC BY 4.0
Shane Gilroy, Darragh Mullins, Edward Jones, Ashkan Parsi and Martin Glavin(参考訳) 脆弱な道路利用者のロバスト検出は、自動運転車を異種交通に配備するための安全上重要な要件である。 最も複雑な課題の1つは、対象の物体が、他の前景の物体の障害物によって、センサーに部分的にしか利用できない部分閉塞である。 多くの主要な歩行者検出ベンチマークは部分閉塞に対するアノテーションを提供しているが、それぞれのベンチマークは閉塞の発生と重症度の定義で大きく異なる。 近年の研究では、これらの症例では高い主観性が咬合レベルを分類するために用いられており、咬合は部分的および重閉塞などの2~3つの広いカテゴリに分類される。 これにより、どのベンチマークが使われているかによって、歩行者検出モデルのパフォーマンスが不正確または矛盾していることを報告できる。 本研究は, 歩行者検出モデルの客観的評価を容易にするため, 部分閉塞歩行者検出のための新しい客観的ベンチマークを提案する。 7つの歩行者検出モデルを用いて,0~99%の閉塞レベルについて評価を行った。 その結果, 歩行者検出性能は低下し, 歩行者咬合レベルが上昇するにつれて偽陰性検出数が増加することがわかった。 人気の高い歩行者検出ルーチン7つのうち、CenterNetは、SSDliteに続いて、全体的なパフォーマンスが最も高い。 RetinaNetの全体的な検出性能は、オクルージョンレベルの範囲で最低である。

Robust detection of vulnerable road users is a safety critical requirement for the deployment of autonomous vehicles in heterogeneous traffic. One of the most complex outstanding challenges is that of partial occlusion where a target object is only partially available to the sensor due to obstruction by another foreground object. A number of leading pedestrian detection benchmarks provide annotation for partial occlusion, however each benchmark varies greatly in their definition of the occurrence and severity of occlusion. Recent research demonstrates that a high degree of subjectivity is used to classify occlusion level in these cases and occlusion is typically categorized into 2 to 3 broad categories such as partially and heavily occluded. This can lead to inaccurate or inconsistent reporting of pedestrian detection model performance depending on which benchmark is used. This research introduces a novel, objective benchmark for partially occluded pedestrian detection to facilitate the objective characterization of pedestrian detection models. Characterization is carried out on seven popular pedestrian detection models for a range of occlusion levels from 0-99%. Results demonstrate that pedestrian detection performance degrades, and the number of false negative detections increase as pedestrian occlusion level increases. Of the seven popular pedestrian detection routines characterized, CenterNet has the greatest overall performance, followed by SSDlite. RetinaNet has the lowest overall detection performance across the range of occlusion levels.
翻訳日:2022-05-14 15:05:09 公開日:2022-05-11
# (参考訳) NLP研究における気候意識

Towards Climate Awareness in NLP Research ( http://arxiv.org/abs/2205.05071v2 )

ライセンス: CC BY 4.0
Daniel Hershcovich, Nicolas Webersinke, Mathias Kraus, Julia Anna Bingler and Markus Leippold(参考訳) AIの気候の影響、特にNLPの研究は、計算モデルのトレーニングと実行にますます使われている膨大な量のエネルギーを考えると、深刻な問題となっている。 これにより、効率の良いNLPに焦点が当てられる。 しかし、この重要なイニシアチブは、NLP研究の系統的な気候報告を可能にする単純なガイドラインを欠いている。 われわれは、この欠落が、環境影響のより徹底的な調査を可能にする、NLPレポートの重要人物がほとんどいない理由の1つだと論じている。 本稿では,実験と基礎となるコンピュータハードウェアに関する限られた情報のみを有効利用することを目的とした,気候評価モデルカードを提案する。 このステップがnlp研究の環境影響に対する認識を高める上で不可欠である理由を説明し,より詳細な議論への道筋を開く。

The climate impact of AI, and NLP research in particular, has become a serious issue given the enormous amount of energy that is increasingly being used for training and running computational models. Consequently, increasing focus is placed on efficient NLP. However, this important initiative lacks simple guidelines that would allow for systematic climate reporting of NLP research. We argue that this deficiency is one of the reasons why very few publications in NLP report key figures that would allow a more thorough examination of environmental impact. As a remedy, we propose a climate performance model card with the primary purpose of being practically usable with only limited information about experiments and the underlying computer hardware. We describe why this step is essential to increase awareness about the environmental impact of NLP research and, thereby, paving the way for more thorough discussions.
翻訳日:2022-05-14 09:32:10 公開日:2022-05-11
# (参考訳) 説明可能な計算創造性

Explainable Computational Creativity ( http://arxiv.org/abs/2205.05682v1 )

ライセンス: CC BY 4.0
Maria Teresa Llano and Mark d'Inverno and Matthew Yee-King and Jon McCormack and Alon Ilsar and Alison Pease and Simon Colton(参考訳) コンピュータ・クリエイティビティ(cc)分野のシステムとのヒューマンコラボレーションは、しばしば浅い相互作用に制限され、そこでは、システムや人間の創造プロセスは、ユーザーからの(あるいはほとんど)介入なしに、そしてどのように展開する決定が行われるかについての議論なしに、独立して実行される。 フルイットフルな共同創造には、アイデアの議論、前/その他の作業との比較、漸進的な改善と修正などを含む継続的な対話が必要です。 これらの相互作用にとって、コミュニケーションは本質的な要素である。 つまり、ccシステムに対して声を出して、プロセスと意思決定を説明し、創造的な協力者から真剣に考慮されるようにアイデアをサポートし、創造的なプロセスをさらに改善するためにこれらの議論から学ぶという、彼らのプロセスとユーザの間の双方向コミュニケーションチャネルを可能にするということだ。 そこで本研究では,ccシステムのための設計原則のセットを提案する。

Human collaboration with systems within the Computational Creativity (CC) field is often restricted to shallow interactions, where the creative processes, of systems and humans alike, are carried out in isolation, without any (or little) intervention from the user, and without any discussion about how the unfolding decisions are taking place. Fruitful co-creation requires a sustained ongoing interaction that can include discussions of ideas, comparisons to previous/other works, incremental improvements and revisions, etc. For these interactions, communication is an intrinsic factor. This means giving a voice to CC systems and enabling two-way communication channels between them and their users so that they can: explain their processes and decisions, support their ideas so that these are given serious consideration by their creative collaborators, and learn from these discussions to further improve their creative processes. For this, we propose a set of design principles for CC systems that aim at supporting greater co-creation and collaboration with their human collaborators.
翻訳日:2022-05-14 06:08:44 公開日:2022-05-11
# (参考訳) 共同創設者の毛布の下での因果発見

Causal discovery under a confounder blanket ( http://arxiv.org/abs/2205.05715v1 )

ライセンス: CC BY 4.0
David Watson and Ricardo Silva(参考訳) 観測データから因果関係を推定することは容易ではないが、高次元では特に難しい。 これらの用途では、因果探索アルゴリズムは一般的にパラメトリックな制限や極端な空間的制約を必要とする。 これらの仮定を緩和し、より専門的な問題に焦点をあてる。すなわち、因果的に(おそらく大きい)共芽体の集合、すなわち$\textit{confounder blanket}$から導かれる変数の有向非巡回部分グラフを復元する。 これは、動的生体分子サブシステムに因果関係の背景情報を提供する遺伝データを提供する場合など、多くの設定で有用である。 情報的回答が見つかれば実際に満足しなければならないという構造的仮定の下では、多項式時間の複雑さを維持しながら、低あるいは高間隔のグラフを許容する。 これらの条件下で因果関係を同定するための健全で完全なアルゴリズムを導出し、線形および非線形システムに対して証明可能な誤差制御を伴うテスト手順を実装する。 我々は様々なシミュレーション設定にアプローチを示します。

Inferring causal relationships from observational data is rarely straightforward, but the problem is especially difficult in high dimensions. For these applications, causal discovery algorithms typically require parametric restrictions or extreme sparsity constraints. We relax these assumptions and focus on an important but more specialized problem, namely recovering a directed acyclic subgraph of variables known to be causally descended from some (possibly large) set of confounding covariates, i.e. a $\textit{confounder blanket}$. This is useful in many settings, for example when studying a dynamic biomolecular subsystem with genetic data providing causally relevant background information. Under a structural assumption that, we argue, must be satisfied in practice if informative answers are to be found, our method accommodates graphs of low or high sparsity while maintaining polynomial time complexity. We derive a sound and complete algorithm for identifying causal relationships under these conditions and implement testing procedures with provable error control for linear and nonlinear systems. We demonstrate our approach on a range of simulation settings.
翻訳日:2022-05-14 05:56:07 公開日:2022-05-11
# (参考訳) 構造化、フレキシブル、ロバスト:分散推論タスクにおける人間のような振る舞いに向けた大規模言語モデルのベンチマークと改善

Structured, flexible, and robust: benchmarking and improving large language models towards more human-like behavior in out-of-distribution reasoning tasks ( http://arxiv.org/abs/2205.05718v1 )

ライセンス: CC BY 4.0
Katherine M. Collins, Catherine Wong, Jiahai Feng, Megan Wei, and Joshua B. Tenenbaum(参考訳) 私たちは物語を語り、説明し、言葉を通じて私たちの信念と目標を表現します。 明らかな証拠は、言語が学習の構造化に発達的な役割を担っていることを示唆している。 言語だけで統計パターンを学習することで、人間のような思考のどれ程を捉えることができるのか? 我々はまず,人間と分布型大言語モデル(LLM)を比較するための新しい課題ベンチマークを提出する。 本ベンチマークは,2つの問題解決領域(計画と説明生成)を含み,言語で表現された新たな分散問題への一般化が要求される。 このベンチマークでは、人間はLSMよりもはるかに堅牢であることが分かりました。 次に、構造的シンボリック推論モジュールで分散LLMを増強するハイブリッドParse-and-Solveモデルを提案する。 このモデルは配布外計画問題への堅牢な適応を示し、人間的な推論のためのハイブリッドAIモデルの可能性を実証している。

Human language offers a powerful window into our thoughts -- we tell stories, give explanations, and express our beliefs and goals through words. Abundant evidence also suggests that language plays a developmental role in structuring our learning. Here, we ask: how much of human-like thinking can be captured by learning statistical patterns in language alone? We first contribute a new challenge benchmark for comparing humans and distributional large language models (LLMs). Our benchmark contains two problem-solving domains (planning and explanation generation) and is designed to require generalization to new, out-of-distribution problems expressed in language. We find that humans are far more robust than LLMs on this benchmark. Next, we propose a hybrid Parse-and-Solve model, which augments distributional LLMs with a structured symbolic reasoning module. We find that this model shows more robust adaptation to out-of-distribution planning problems, demonstrating the promise of hybrid AI models for more human-like reasoning.
翻訳日:2022-05-14 05:14:40 公開日:2022-05-11
# (参考訳) 単一のビデオからの多様なビデオ生成

Diverse Video Generation from a Single Video ( http://arxiv.org/abs/2205.05725v1 )

ライセンス: CC BY 4.0
Niv Haim, Ben Feinstein, Niv Granot, Assaf Shocher, Shai Bagon, Tali Dekel, Michal Irani(参考訳) GANは、単一のビデオでトレーニングされた生成および操作タスクを実行することができる。 しかし、これらの単一のビデオGANは、単一のビデオでトレーニングするのに不合理な時間を必要とし、ほとんど実用的ではない。 本稿では,単一のビデオから生成するためのGANの必要性を問うとともに,様々な生成および操作タスクのための非パラメトリックベースラインを導入する。 我々は、古典的な時空パッチ・アレスト近傍アプローチを復活させ、学習することなくスケーラブルな無条件生成モデルに適用する。 この単純なベースラインは、視覚的品質と現実主義(量的および質的評価によって確認される)におけるシングルビデオganを驚くほど上回っており、不釣り合いに高速である(ランタイムは数日から数秒に短縮される)。 われわれのアプローチは簡単にフルHDビデオにスケールできる。 また、ビデオの類似や時空間再ターゲティングのデモにも、同じフレームワークを使用します。 これらの観察から、古典的なアプローチはこれらのタスクにおいて、重い深層学習機械を著しく上回っていることが分かる。 これにより、シングルビデオ生成と操作タスクの新たなベースラインが設定され、重要ではない – 単一のビデオからさまざまな生成が、初めて現実的に可能になった。

GANs are able to perform generation and manipulation tasks, trained on a single video. However, these single video GANs require unreasonable amount of time to train on a single video, rendering them almost impractical. In this paper we question the necessity of a GAN for generation from a single video, and introduce a non-parametric baseline for a variety of generation and manipulation tasks. We revive classical space-time patches-nearest-neighbors approaches and adapt them to a scalable unconditional generative model, without any learning. This simple baseline surprisingly outperforms single-video GANs in visual quality and realism (confirmed by quantitative and qualitative evaluations), and is disproportionately faster (runtime reduced from several days to seconds). Our approach is easily scaled to Full-HD videos. We also use the same framework to demonstrate video analogies and spatio-temporal retargeting. These observations show that classical approaches significantly outperform heavy deep learning machinery for these tasks. This sets a new baseline for single-video generation and manipulation tasks, and no less important -- makes diverse generation from a single video practically possible for the first time.
翻訳日:2022-05-14 05:04:52 公開日:2022-05-11
# (参考訳) 文法エラーは頻度が高いもの、重要なもの

Some Grammatical Errors are Frequent, Others are Important ( http://arxiv.org/abs/2205.05730v1 )

ライセンス: CC BY 4.0
Leshem Choshen, Ofir Shifman, Omri Abend(参考訳) 文法的誤り訂正では、システムは正しい誤りの数によって評価される。 しかし、すべてのエラータイプが等しく重要であるかどうかを誰も評価していない。 ヒトに対する異なる文法的誤り型の重要性を定量化する手法を提案および適用する。 いくつかの稀なエラーは混乱していると見なされるが、他の一般的なエラーはそうではない。 これはシステムと評価の両方を改善するための可能な方向に影響する。

In Grammatical Error Correction, systems are evaluated by the number of errors they correct. However, no one has assessed whether all error types are equally important. We provide and apply a method to quantify the importance of different grammatical error types to humans. We show that some rare errors are considered disturbing while other common ones are not. This affects possible directions to improve both systems and their evaluation.
翻訳日:2022-05-14 04:54:51 公開日:2022-05-11
# (参考訳) 小児・青年精神科における計算行動認識:統計的・機械学習分析計画

Computational behavior recognition in child and adolescent psychiatry: A statistical and machine learning analysis plan ( http://arxiv.org/abs/2205.05737v1 )

ライセンス: CC BY 4.0
Nicole N. L{\o}nfeldt, Flavia D. Frumosu, A.-R. Cecilie Mora-Jensen, Nicklas Leander Lund, Sneha Das, A. Katrine Pagsberg, Line K. H. Clemmensen(参考訳) モチベーション: 行動観察は心理的現象の研究と評価において重要な資源であるが、費用がかかり、時間がかかり、バイアスに敏感である。 そこで我々は,人工知能(AI)ツールを用いた心理療法と研究のために,人間の行動のコーディングを自動化することを目的とする。 ここでは,分析計画を提案する。 方法: 強迫性障害(ocd)25名, 精神診断(no-ocd)のない12名を対象に, 金本位制半構造化診断面接のビデオ分析を行う。 年齢は8歳から17歳。 ビデオから特徴を抽出し、行動の評価を計算し、特定の行動コーディングマニュアルを使用するように訓練されたメンタルヘルスの専門家が作成した行動の評価と比較する。 我々は多変量分散分析(manova)を用いてocd診断が計算から派生した行動評価に及ぼす影響をテストする。 生成された機能を使ってバイナリ分類モデルを構築し、OCD/no-OCDクラスを分類する。 考察:ここでは,データの事前処理,分析,および結果の公開とその解釈に関する事前定義された計画を示す。 提案された研究の課題は、AIアプローチが視覚のみに基づく行動評価を導き出そうとするのに対して、人間は行動を評価するために視覚的、パラ言語的、言語的手がかりを使用することである。 もうひとつの課題は、子供ではなく主に大人に訓練された身体および顔の動きの検出に機械学習モデルを使用することだ。 もしaiツールが有望な結果を示すなら、この事前登録分析計画は解釈バイアスを減らすのに役立つかもしれない。 治験登録:臨床試験.gov - h-18010607

Motivation: Behavioral observations are an important resource in the study and evaluation of psychological phenomena, but it is costly, time-consuming, and susceptible to bias. Thus, we aim to automate coding of human behavior for use in psychotherapy and research with the help of artificial intelligence (AI) tools. Here, we present an analysis plan. Methods: Videos of a gold-standard semi-structured diagnostic interview of 25 youth with obsessive-compulsive disorder (OCD) and 12 youth without a psychiatric diagnosis (no-OCD) will be analyzed. Youth were between 8 and 17 years old. Features from the videos will be extracted and used to compute ratings of behavior, which will be compared to ratings of behavior produced by mental health professionals trained to use a specific behavioral coding manual. We will test the effect of OCD diagnosis on the computationally-derived behavior ratings using multivariate analysis of variance (MANOVA). Using the generated features, a binary classification model will be built and used to classify OCD/no-OCD classes. Discussion: Here, we present a pre-defined plan for how data will be pre-processed, analyzed and presented in the publication of results and their interpretation. A challenge for the proposed study is that the AI approach will attempt to derive behavioral ratings based solely on vision, whereas humans use visual, paralinguistic and linguistic cues to rate behavior. Another challenge will be using machine learning models for body and facial movement detection trained primarily on adults and not on children. If the AI tools show promising results, this pre-registered analysis plan may help reduce interpretation bias. Trial registration: ClinicalTrials.gov - H-18010607
翻訳日:2022-05-14 04:49:13 公開日:2022-05-11
# (参考訳) DisARM: 有害なミームを狙った被害者を検知

DISARM: Detecting the Victims Targeted by Harmful Memes ( http://arxiv.org/abs/2205.05738v1 )

ライセンス: CC BY 4.0
Shivam Sharma, Md. Shad Akhtar, Preslav Nakov, Tanmoy Chakraborty(参考訳) インターネットミームは、ウェブ上でのコミュニケーション手段としてますます人気が高まっている。 通常、ユーモアを誘発することを目的としているが、憎しみ、荒らし、サイバーいじめ、特定の個人、コミュニティ、社会を政治的、社会文化的、心理的な理由から標的にするためにますます使われてきた。 これまでの研究は有害で憎悪的で攻撃的なミームの発見に重点を置いてきたが、攻撃対象を特定することは依然として困難で未調査の分野である。 ここではこのギャップを埋めることを目指しています。 特に、対象者の名前、組織、コミュニティ(ies)など、各ミームに被害者をアノテートするデータセットを作成します。 次に、名前付きエンティティ認識と人物識別を用いて、ミームが参照しているすべてのエンティティを検知するフレームワークであるdisARM(hARmful Memesが対象とするvIctimSの検出)を提案し、ミームがこれらのエンティティを害するかどうかを分類するために、新しいコンテキスト化されたマルチモーダルディープニューラルネットワークを組み込む。 3つのテストの設定でいくつかの系統的な実験を行いました。 (a)すべて訓練中に見られる。 (b)訓練上の有害な標的とは見なされず、 (c)訓練では全く見られなかった。 評価結果から,disARMは10の単一モード・マルチモーダルシステムより有意に優れていた。 最後に、 DisARM は解釈可能であり、相対的に一般化可能であり、有害なターゲット識別に対する相対誤差を複数の強力なマルチモーダルライバルに対して最大9ポイントまで低減できることを示す。

Internet memes have emerged as an increasingly popular means of communication on the Web. Although typically intended to elicit humour, they have been increasingly used to spread hatred, trolling, and cyberbullying, as well as to target specific individuals, communities, or society on political, socio-cultural, and psychological grounds. While previous work has focused on detecting harmful, hateful, and offensive memes, identifying whom they attack remains a challenging and underexplored area. Here we aim to bridge this gap. In particular, we create a dataset where we annotate each meme with its victim(s) such as the name of the targeted person(s), organization(s), and community(ies). We then propose DISARM (Detecting vIctimS targeted by hARmful Memes), a framework that uses named entity recognition and person identification to detect all entities a meme is referring to, and then, incorporates a novel contextualized multimodal deep neural network to classify whether the meme intends to harm these entities. We perform several systematic experiments on three test setups, corresponding to entities that are (a) all seen while training, (b) not seen as a harmful target on training, and (c) not seen at all on training. The evaluation results show that DISARM significantly outperforms ten unimodal and multimodal systems. Finally, we show that DISARM is interpretable and comparatively more generalizable and that it can reduce the relative error rate for harmful target identification by up to 9 points absolute over several strong multimodal rivals.
翻訳日:2022-05-14 04:41:21 公開日:2022-05-11
# (参考訳) 質問によるビデオ検索の学習

Learning to Retrieve Videos by Asking Questions ( http://arxiv.org/abs/2205.05739v1 )

ライセンス: CC BY 4.0
Avinash Madasu, Junier Oliva, Gedas Bertasius(参考訳) 従来のテキストからビデオへの検索システムの大部分は静的な環境で動作する。 これは、初期クエリに曖昧さがある場合、サブ最適であり、多くの誤った検索ビデオにつながる可能性がある。 この制限を克服するために,複数ラウンドのダイアログを介してaiエージェントと対話できる対話(vired)を用いたビデオ検索のための新しいフレームワークを提案する。 このフレームワークの重要な貢献は,ビデオ検索性能を最大化する質問を学習する,新しいマルチモーダル質問生成器である。 マルチモーダル質問生成器は i) ユーザとのインタラクションの最終ラウンド中に検索したビデオ候補と (ii)全対話を文書化したテキストに基づく対話履歴は,映像検索に関連する視覚的・言語的手がかりを取り入れた質問を生成する。 さらに,最大有意な質問を生成するために,質問生成者を誘導するigs(information-guided supervisor)を提案する。 AVSDデータセット上での対話型ViReDフレームワークの有効性を検証し,従来の非対話型ビデオ検索システムよりも対話型手法の方が優れた性能を示した。 さらに,提案手法は実際の人間との相互作用を含む現実世界の環境にも一般化し,枠組みの堅牢性や汎用性を実証する。

The majority of traditional text-to-video retrieval systems operate in static environments, i.e., there is no interaction between the user and the agent beyond the initial textual query provided by the user. This can be suboptimal if the initial query has ambiguities, which would lead to many falsely retrieved videos. To overcome this limitation, we propose a novel framework for Video Retrieval using Dialog (ViReD), which enables the user to interact with an AI agent via multiple rounds of dialog. The key contribution of our framework is a novel multimodal question generator that learns to ask questions that maximize the subsequent video retrieval performance. Our multimodal question generator uses (i) the video candidates retrieved during the last round of interaction with the user and (ii) the text-based dialog history documenting all previous interactions, to generate questions that incorporate both visual and linguistic cues relevant to video retrieval. Furthermore, to generate maximally informative questions, we propose an Information-Guided Supervision (IGS), which guides the question generator to ask questions that would boost subsequent video retrieval accuracy. We validate the effectiveness of our interactive ViReD framework on the AVSD dataset, showing that our interactive method performs significantly better than traditional non-interactive video retrieval systems. Furthermore, we also demonstrate that our proposed approach also generalizes to the real-world settings that involve interactions with real humans, thus, demonstrating the robustness and generality of our framework
翻訳日:2022-05-14 04:13:52 公開日:2022-05-11
# (参考訳) ニューラルネットワークに対する個別公平性保証

Individual Fairness Guarantees for Neural Networks ( http://arxiv.org/abs/2205.05763v1 )

ライセンス: CC BY 4.0
Elias Benussi (1), Andrea Patane (1), Matthew Wicker (1), Luca Laurenti (2) and Marta Kwiatkowska (1) ((1) University of Oxford, (2) TU Delft)(参考訳) フィードフォワードニューラルネットワーク(NN)の個々人の公正性(IF)を認証する問題を考察する。 特に、$\epsilon$-$\delta$-if の定式化は、nn とデータから学習した類似度メトリックが与えられたとき、任意の$\epsilon$類似の個人間の出力の差が最大決定許容値 $\delta \geq 0$ によって制限されることを要求する。 マハラノビス距離を含む様々な指標を用いて、nnの非線形性を入力空間上でグローバルに下・上限に分割線形関数を用いて最適化問題を近似する手法を提案する。 我々は、この計算を混合整数線形計画問題の解としてエンコードし、フェアネスベンチマークに広く用いられている4つのデータセット上でIF保証を計算するのに使用できることを示した。 この定式化は、NN損失を変更することで、トレーニング時のモデルの公平性を促進できることを示すとともに、我々のアプローチが最先端の手法よりもはるかに公平なNNを生成することを実証的に確認する。

We consider the problem of certifying the individual fairness (IF) of feed-forward neural networks (NNs). In particular, we work with the $\epsilon$-$\delta$-IF formulation, which, given a NN and a similarity metric learnt from data, requires that the output difference between any pair of $\epsilon$-similar individuals is bounded by a maximum decision tolerance $\delta \geq 0$. Working with a range of metrics, including the Mahalanobis distance, we propose a method to overapproximate the resulting optimisation problem using piecewise-linear functions to lower and upper bound the NN's non-linearities globally over the input space. We encode this computation as the solution of a Mixed-Integer Linear Programming problem and demonstrate that it can be used to compute IF guarantees on four datasets widely used for fairness benchmarking. We show how this formulation can be used to encourage models' fairness at training time by modifying the NN loss, and empirically confirm our approach yields NNs that are orders of magnitude fairer than state-of-the-art methods.
翻訳日:2022-05-14 03:58:22 公開日:2022-05-11
# (参考訳) 深層学習と合成メディア

Deep Learning and Synthetic Media ( http://arxiv.org/abs/2205.05764v1 )

ライセンス: CC BY 4.0
Rapha\"el Milli\`ere(参考訳) ディープラーニングアルゴリズムは、オーディオビジュアルメディアの作り方を急速に変化させている。 ディープ・ラーニング(deep learning)で生成された合成オーディオ・ビジュアル・メディアは、しばしば「ディープフェイクス(deepfakes)」というラベルで口頭で表現され、多くの印象的な特徴を持っている。 この技術開発によって引き起こされた倫理的懸念に多くの注意が向けられている。 ここでは、合成オーディオヴィジュアルメディアの概念に関する一連の問題、オーディオヴィジュアルメディアのより広い分類分野における位置づけ、そして、より伝統的なメディア合成手法とどのように異なるかに焦点を当てる。 メディア操作と生成のための深層学習パイプラインの重要な特徴をレビューした後、このようなパイプラインで生成された「ディープフェイク」と関連する合成メディアは、従来の方法よりも漸進的な改善を提供するだけでなく、従来の分類学的区別に挑戦し、真に新しい種類のオーディオビジュアルメディアへの道を拓いていると論じる。

Deep learning algorithms are rapidly changing the way in which audiovisual media can be produced. Synthetic audiovisual media generated with deep learning - often subsumed colloquially under the label "deepfakes" - have a number of impressive characteristics; they are increasingly trivial to produce, and can be indistinguishable from real sounds and images recorded with a sensor. Much attention has been dedicated to ethical concerns raised by this technological development. Here, I focus instead on a set of issues related to the notion of synthetic audiovisual media, its place within a broader taxonomy of audiovisual media, and how deep learning techniques differ from more traditional approaches to media synthesis. After reviewing important etiological features of deep learning pipelines for media manipulation and generation, I argue that "deepfakes" and related synthetic media produced with such pipelines do not merely offer incremental improvements over previous methods, but challenge traditional taxonomical distinctions, and pave the way for genuinely novel kinds of audiovisual media.
翻訳日:2022-05-14 03:26:42 公開日:2022-05-11
# (参考訳) MEWS:リアルタイムソーシャルメディア操作検出と分析

MEWS: Real-time Social Media Manipulation Detection and Analysis ( http://arxiv.org/abs/2205.05783v1 )

ライセンス: CC BY 4.0
Trenton W. Ford, Michael Yankoski, Michael Yankoski, Tom Henry, Farah Khashman, Katherine R. Dearstyne and Tim Weninger(参考訳) 本稿ではMEWS(Misinformation Early Warning System)のベータバージョンについて述べる。 ソーシャルメディアプラットフォーム上に出現し拡散するソーシャルメディアイメージ間の関係を、ほぼリアルタイムで判断するために使用される、摂取、操作検出、グラフ化アルゴリズムの様々な側面について記述する。 これらの様々な技術を単一の処理パイプラインに組み合わせることで、MEWSは操作されたメディアアイテムを発生時に識別し、特定のアイテムが個々のソーシャルメディアプラットフォーム、あるいは複数のプラットフォーム上でトレンドになり始めたときを特定することができる。 操作されたコンテンツの急速な拡散に続く新しい操作の出現は、偽情報キャンペーンを示唆している。

This article presents a beta-version of MEWS (Misinformation Early Warning System). It describes the various aspects of the ingestion, manipulation detection, and graphing algorithms employed to determine--in near real-time--the relationships between social media images as they emerge and spread on social media platforms. By combining these various technologies into a single processing pipeline, MEWS can identify manipulated media items as they arise and identify when these particular items begin trending on individual social media platforms or even across multiple platforms. The emergence of a novel manipulation followed by rapid diffusion of the manipulated content suggests a disinformation campaign.
翻訳日:2022-05-14 02:57:51 公開日:2022-05-11
# (参考訳) 確率回路上の制約緩和によるクレダルベイズネットワークのロバスト性保証

Robustness Guarantees for Credal Bayesian Networks via Constraint Relaxation over Probabilistic Circuits ( http://arxiv.org/abs/2205.05793v1 )

ライセンス: CC BY 4.0
Hjalmar Wijk, Benjie Wang, Marta Kwiatkowska(参考訳) 多くの領域において、分布シフトを受ける決定関数の性能(例えば予測精度)と環境の不確実性に関する最悪の保証が重要である。 本研究では,不確実性がパラメータのクレダル集合によって表現される環境の形式的パラメトリックモデルであるクレダルベイズネットワークに関して,決定関数のロバスト性を定量化する手法を開発した。 特に,最大限界確率(MARmax)問題,すなわち,干潟集合のパラメータに対して得られる事象の最大確率(誤分類など)を決定する問題に対処する。 確率回路上の制約付き最適化問題に問題を忠実に伝達する手法を開発した。 簡単な制約緩和を行うことで、回路の大きさの線形時間におけるmarmax上の保証された上限を得る方法を示す。 さらに理論上、この制約緩和を元のベイズネットワーク構造の観点から特徴づけ、境界の厳密性についての洞察を与える。 提案手法を実装し,上界が密接に近く,他の手法と比較してスケーラビリティが向上していることを示す実験的な証拠を提供する。

In many domains, worst-case guarantees on the performance (e.g., prediction accuracy) of a decision function subject to distributional shifts and uncertainty about the environment are crucial. In this work we develop a method to quantify the robustness of decision functions with respect to credal Bayesian networks, formal parametric models of the environment where uncertainty is expressed through credal sets on the parameters. In particular, we address the maximum marginal probability (MARmax) problem, that is, determining the greatest probability of an event (such as misclassification) obtainable for parameters in the credal set. We develop a method to faithfully transfer the problem into a constrained optimization problem on a probabilistic circuit. By performing a simple constraint relaxation, we show how to obtain a guaranteed upper bound on MARmax in linear time in the size of the circuit. We further theoretically characterize this constraint relaxation in terms of the original Bayesian network structure, which yields insight into the tightness of the bound. We implement the method and provide experimental evidence that the upper bound is often near tight and demonstrates improved scalability compared to other methods.
翻訳日:2022-05-14 02:53:27 公開日:2022-05-11
# (参考訳) 平均回帰マルコフ決定過程に対する確率的一階法

Stochastic first-order methods for average-reward Markov decision processes ( http://arxiv.org/abs/2205.05800v1 )

ライセンス: CC BY 4.0
Tianjiao Li, Feiyang Wu and Guanghui Lan(参考訳) 平均回帰マルコフ決定過程 (amdps) の問題を調査し, 政策評価と最適化に強い理論的保証を持つ新しい一階法を開発した。 既存のオン・ポリティクス評価手法は、最適化されていない収束率と、不十分なランダムな政策、例えば決定論的政策、探査の欠如に苦しむ。 そこで本研究では,ランダム化ポリシーに対する線形関数近似と最適収束保証を併用した新しい分散分散分散時間差法(vrtd)と,同等の収束保証を満たさない不完全分散時間差法(evrtd)を開発した。 さらに,政策最適化の全体的サンプル複雑性を改善する上で不可欠な,政策評価のバイアスに基づく線形収束率を確立する。 一方、割引MDPの政策勾配法に関する有限サンプル分析における集中的な研究と比較して、AMDPの政策勾配法に関する既存の研究は、基礎となるマルコフ過程(例えば、Abbasi-Yadkori et al., 2019)の制約的な仮定の下での後悔境界に主に焦点を絞っている。 この目的に向けて,確率的政策ミラー降下 (spmd) の平均回帰型 (lan, 2022) を開発した。 我々は、生成モデル(ユニチェーン仮定)とマルコフ雑音モデル(エルゴード仮定)の両方の下でポリシー勾配法を用いてAMDPを解くために、最初の$\widetilde{\mathcal{O}}(\epsilon^{-2})$サンプル複雑性を確立する。 この境界は正規化AMDPを解くために$\widetilde{\mathcal{O}}(\epsilon^{-1})$にさらに改善することができる。 我々の理論上の利点は数値実験によって裏付けられる。

We study the problem of average-reward Markov decision processes (AMDPs) and develop novel first-order methods with strong theoretical guarantees for both policy evaluation and optimization. Existing on-policy evaluation methods suffer from sub-optimal convergence rates as well as failure in handling insufficiently random policies, e.g., deterministic policies, for lack of exploration. To remedy these issues, we develop a novel variance-reduced temporal difference (VRTD) method with linear function approximation for randomized policies along with optimal convergence guarantees, and an exploratory variance-reduced temporal difference (EVRTD) method for insufficiently random policies with comparable convergence guarantees. We further establish linear convergence rate on the bias of policy evaluation, which is essential for improving the overall sample complexity of policy optimization. On the other hand, compared with intensive research interest in finite sample analysis of policy gradient methods for discounted MDPs, existing studies on policy gradient methods for AMDPs mostly focus on regret bounds under restrictive assumptions on the underlying Markov processes (see, e.g., Abbasi-Yadkori et al., 2019), and they often lack guarantees on the overall sample complexities. Towards this end, we develop an average-reward variant of the stochastic policy mirror descent (SPMD) (Lan, 2022). We establish the first $\widetilde{\mathcal{O}}(\epsilon^{-2})$ sample complexity for solving AMDPs with policy gradient method under both the generative model (with unichain assumption) and Markovian noise model (with ergodic assumption). This bound can be further improved to $\widetilde{\mathcal{O}}(\epsilon^{-1})$ for solving regularized AMDPs. Our theoretical advantages are corroborated by numerical experiments.
翻訳日:2022-05-14 02:31:55 公開日:2022-05-11
# (参考訳) 次元適応型機械学習に基づく量子状態再構成

Dimension-adaptive machine-learning-based quantum state reconstruction ( http://arxiv.org/abs/2205.05804v1 )

ライセンス: CC BY 4.0
Sanjaya Lohani, Sangita Regmi, Joseph M. Lukens, Ryan T. Glasser, Thomas A. Searles, Brian T. Kirby(参考訳) 我々は,$m$ qubitsのみをトレーニングした機械学習ベースの再構成システムを用いて,$m$ qubitsのシステム上で量子状態再構成を行うアプローチを提案する。 このアプローチは、トレーニングに使用されるモデルの次元と考慮中のシステムの次元を正確に一致させる必要性を取り除く。 我々は,1,2,3量子ビットのランダムサンプリングシステムに対して,少なくとも1つの追加量子ビットを含むシステムにのみ訓練された機械学習ベースの手法を用いて量子状態再構成を行う手法を実証した。 このテクニックは、次元可変状態再構成のために単一のニューラルネットワークを活用して、各ヒルベルト空間のための専用の機械学習システムをトレーニングする必要をなくし、リソースの全体的な節約を提供することができる。

We introduce an approach for performing quantum state reconstruction on systems of $n$ qubits using a machine-learning-based reconstruction system trained exclusively on $m$ qubits, where $m\geq n$. This approach removes the necessity of exactly matching the dimensionality of a system under consideration with the dimension of a model used for training. We demonstrate our technique by performing quantum state reconstruction on randomly sampled systems of one, two, and three qubits using machine-learning-based methods trained exclusively on systems containing at least one additional qubit. The reconstruction time required for machine-learning-based methods scales significantly more favorably than the training time; hence this technique can offer an overall savings of resources by leveraging a single neural network for dimension-variable state reconstruction, obviating the need to train dedicated machine-learning systems for each Hilbert space.
翻訳日:2022-05-14 02:30:29 公開日:2022-05-11
# (参考訳) suber: 字幕品質の自動評価のための指標

SubER: A Metric for Automatic Evaluation of Subtitle Quality ( http://arxiv.org/abs/2205.05805v1 )

ライセンス: CC BY-SA 4.0
Patrick Wilken, Panayota Georgakopoulou, Evgeny Matusov(参考訳) 本稿では, 自動生成字幕の品質評価について, 機械翻訳音声や翻訳音声の品質だけでなく, 線分節や字幕タイミングの質についても検討する。 本稿では,これらすべての字幕特性を考慮に入れたシフト付き編集距離に基づく新しい指標SubERを提案する。 書き起こし、翻訳、字幕品質を評価するための既存の指標と比較する。 編集後シナリオにおける注意深い人的評価は、新しい指標が編集後作業と人的評価スコアとの相関が高く、WERやBLEUのような字幕テキストのみを考慮したベースラインメトリクスよりも優れており、セグメンテーションとタイミング機能を統合するための既存の方法であることを示している。

This paper addresses the problem of evaluating the quality of automatically generated subtitles, which includes not only the quality of the machine-transcribed or translated speech, but also the quality of line segmentation and subtitle timing. We propose SubER - a single novel metric based on edit distance with shifts that takes all of these subtitle properties into account. We compare it to existing metrics for evaluating transcription, translation, and subtitle quality. A careful human evaluation in a post-editing scenario shows that the new metric has a high correlation with the post-editing effort and direct human assessment scores, outperforming baseline metrics considering only the subtitle text, such as WER and BLEU, and existing methods to integrate segmentation and timing features.
翻訳日:2022-05-14 02:15:45 公開日:2022-05-11
# 代数機械学習と化学への応用

Algebraic Machine Learning with an Application to Chemistry ( http://arxiv.org/abs/2205.05795v1 )

ライセンス: Link先を確認
Ezzeddine El Sai, Parker Gara, Markus J. Pflaum(参考訳) 科学応用で使われるデータがより複雑になるにつれて、その幾何学やトポロジーの研究は、データ分析プロセスにおいてますます普及している。 これは例えば、永続ホモロジーのようなトポロジカルツールへの関心が高まる中で見られる。 しかし、トポロジカルツールは本質的に、データの基本空間に関する粗い情報のみを提供することに限られている。 一方、より幾何学的なアプローチは、基礎となる空間が滑らかな多様体であると主張する多様体仮説に優先的に依拠する。 この仮定は、基礎空間が特異点を含む多くの物理モデルに対して失敗する。 本稿では,スムーズな仮定を必要とせず,微粒な幾何学的情報を捉える機械学習パイプラインを開発する。 この手法は微分幾何学や滑らかな多様体の代わりに代数幾何学や代数多様体の範囲内で働く。 バラエティ仮説の設定では、サンプルデータを用いて基礎となるバラエティを見つけることが学習問題となる。 我々は、この学習問題を、固有値計算の観点で解決する最大Aポストエリオリ最適化問題に投入した。 基礎となる多様体を見出し, gr\"obner基底と数値解法を用いてその幾何学的情報を明らかにする。 特に,基礎となる多様体の特異点近傍にある点を数値的に検出するためのヒューリスティックを提案する。

As data used in scientific application become more complex, studying their geometry and topology has become an increasingly prevalent part of the data analysis process. This can be seen for example with the growing interest in topological tools such as persistent homology. However, on the one hand, topological tools are inherently limited to providing only coarse information about the underlying space of the data. On the other hand, more geometric approaches rely predominately on the manifold hypothesis, which asserts that the underlying space is a smooth manifold. This assumption fails for many physical models where the underlying space contains singularities. In this paper we develop a machine learning pipeline that captures fine-grain geometric information without having to rely on any smoothness assumptions. Our approach involves working within the scope of algebraic geometry and algebraic varieties instead of differential geometry and smooth manifolds. In the setting of the variety hypothesis, the learning problem becomes to find the underlying variety using sample data. We cast this learning problem into a Maximum A Posteriori optimization problem which we solve in terms of an eigenvalue computation. Having found the underlying variety, we explore the use of Gr\"obner bases and numerical methods to reveal information about its geometry. In particular, we propose a heuristic for numerically detecting points lying near the singular locus of the underlying variety.
翻訳日:2022-05-13 14:47:16 公開日:2022-05-11
# eFedDNN: 軌道モード推論のためのアンサンブルに基づくフェデレーションディープニューラルネットワーク

eFedDNN: Ensemble based Federated Deep Neural Networks for Trajectory Mode Inference ( http://arxiv.org/abs/2205.05756v1 )

ライセンス: Link先を確認
Daniel Opoku Mensah and Godwin Badu-Marfo and Ranwa Al Mallah and Bilal Farooq(参考訳) スマートモビリティシステムにおける最も重要なデータソースとして、GPSトラジェクトリは、ユーザの移動モードを特定するのに役立つ。 しかし、これらのGPSデータセットにはユーザーの個人情報(例えば、自宅の位置)が含まれており、多くのユーザーが第三者とプライベート情報を共有できない。 したがって、ユーザのプライバシーを保護しながら旅行モードを識別することは重要な問題である。 この課題に対処するために、私たちは、ユーザのローカルトレーニングされたモデルにアクセスすることによって、堅牢なグローバルモデルを協調的にトレーニングすることを目的とした、プライバシ保存型機械学習技術であるfederated learning(fl)を使用します。 具体的には,新しいアンサンブルに基づくフェデレートディープニューラルネットワーク(eFedDNN)を設計した。 このアンサンブル法は,ユーザがFLを用いて学習した異なるモデルの出力を組み合わせ,文献で報告された同等のモデルを上回る精度を示す。 モントリオールの実際のオープンアクセスデータセットに関する大規模な実験的研究は、提案した推論モデルが、プライバシーを損なうことなく、ユーザの移動モードを正確に識別できることを示した。

As the most significant data source in smart mobility systems, GPS trajectories can help identify user travel mode. However, these GPS datasets may contain users' private information (e.g., home location), preventing many users from sharing their private information with a third party. Hence, identifying travel modes while protecting users' privacy is a significant issue. To address this challenge, we use federated learning (FL), a privacy-preserving machine learning technique that aims at collaboratively training a robust global model by accessing users' locally trained models but not their raw data. Specifically, we designed a novel ensemble-based Federated Deep Neural Network (eFedDNN). The ensemble method combines the outputs of the different models learned via FL by the users and shows an accuracy that surpasses comparable models reported in the literature. Extensive experimental studies on a real-world open-access dataset from Montreal demonstrate that the proposed inference model can achieve accurate identification of users' mode of travel without compromising privacy.
翻訳日:2022-05-13 14:30:05 公開日:2022-05-11
# 『十分な情報がない』:自動意思決定における情報フェアネスと信頼感の知覚に及ぼす説明の影響

"There Is Not Enough Information": On the Effects of Explanations on Perceptions of Informational Fairness and Trustworthiness in Automated Decision-Making ( http://arxiv.org/abs/2205.05758v1 )

ライセンス: Link先を確認
Jakob Schoeffer, Niklas Kuehl, Yvette Machowski(参考訳) 自動意思決定システム(ADS)は、連続的な意思決定にますます利用されている。 これらのシステムは、しばしば洗練されたが不透明な機械学習モデルに依存しており、与えられた決定がどのように到達したかを理解することができない。 本研究は,情報公平性(プロセスとその成果の適切な情報提供や説明を行うか否か)に対する人々の認識と,システムに関する様々な種類の情報を提供する場合の基盤となるADSの信頼性を評価するために,人間による研究を行う。 より具体的には、自動融資承認の領域でADSをインスタンス化し、文献で一般的に使用されるさまざまな説明を生成する。 参加者が見ることのできる情報の量をランダム化するために、あるグループに他のグループと同じ説明と追加の説明を加える。 定量的分析から、人々の(自己評価された)AIリテラシーだけでなく、さまざまな情報量も、知覚された情報公正性に大きく影響し、その結果、ADSの信頼感に肯定的に関係していることが明らかとなった。 定性的フィードバックの包括的分析は、説明のために人々のデシラタに光を当てる (i)一貫性(人々の期待と異なる説明の両方) (二)特徴と結果の単調な関係の開示、及び (iii)推薦の実施性。

Automated decision systems (ADS) are increasingly used for consequential decision-making. These systems often rely on sophisticated yet opaque machine learning models, which do not allow for understanding how a given decision was arrived at. In this work, we conduct a human subject study to assess people's perceptions of informational fairness (i.e., whether people think they are given adequate information on and explanation of the process and its outcomes) and trustworthiness of an underlying ADS when provided with varying types of information about the system. More specifically, we instantiate an ADS in the area of automated loan approval and generate different explanations that are commonly used in the literature. We randomize the amount of information that study participants get to see by providing certain groups of people with the same explanations as others plus additional explanations. From our quantitative analyses, we observe that different amounts of information as well as people's (self-assessed) AI literacy significantly influence the perceived informational fairness, which, in turn, positively relates to perceived trustworthiness of the ADS. A comprehensive analysis of qualitative feedback sheds light on people's desiderata for explanations, among which are (i) consistency (both with people's expectations and across different explanations), (ii) disclosure of monotonic relationships between features and outcome, and (iii) actionability of recommendations.
翻訳日:2022-05-13 14:26:35 公開日:2022-05-11
# バイアス測定の非バイアス化

De-biasing "bias" measurement ( http://arxiv.org/abs/2205.05770v1 )

ライセンス: Link先を確認
Kristian Lum, Yunfeng Zhang, Amanda Bower(参考訳) モデルのパフォーマンスが社会的または文化的に関係のあるグループ、例えば人種、性別、あるいは多くのグループの交差点で異なる場合、それはしばしば「バイアスド」と呼ばれる。 過去数年間のアルゴリズムフェアネスの研究の多くは、モデルフェアネスの様々な定義(グループワイドのモデル性能格差が欠如している)の開発と、そのような「バイアス」の排除に重点を置いてきたが、厳密な測定を行う作業ははるかに少ない。 実際には、多面的意思決定プロセスへの入力として機能しうる、高品質で人間の消化可能なモデル性能の相違と関連する不確実性の定量化が重要である。 本稿では,集団モデルの性能差を測定するために用いられる指標の多くが,それらが表す基礎となる量の統計的偏りの推定値であることを示す。 これは、特にメンバー数が少ないカテゴリからなる敏感な変数の場合、異なる次元に沿った相対的なグループ毎のモデルパフォーマンスの差について誤解を招く結果をもたらす可能性がある。 本稿では,グループ間のモデル性能のばらつきの非バイアス推定と不確実性定量化を行う「二重補正分散推定器」を提案する。 概念的にはシンプルで、統計ソフトウェアパッケージや数値最適化なしで容易に実装できる。 シミュレーションにより本手法の有効性を実証し,モデル群別モデル性能差の統計的偏差は群間モデル性能差の統計的に有意であることを示す一方で,モデル性能の統計的偏差を推定した群別モデル性能差は,もはや統計的に有意ではないことを示す。

When a model's performance differs across socially or culturally relevant groups--like race, gender, or the intersections of many such groups--it is often called "biased." While much of the work in algorithmic fairness over the last several years has focused on developing various definitions of model fairness (the absence of group-wise model performance disparities) and eliminating such "bias," much less work has gone into rigorously measuring it. In practice, it important to have high quality, human digestible measures of model performance disparities and associated uncertainty quantification about them that can serve as inputs into multi-faceted decision-making processes. In this paper, we show both mathematically and through simulation that many of the metrics used to measure group-wise model performance disparities are themselves statistically biased estimators of the underlying quantities they purport to represent. We argue that this can cause misleading conclusions about the relative group-wise model performance disparities along different dimensions, especially in cases where some sensitive variables consist of categories with few members. We propose the "double-corrected" variance estimator, which provides unbiased estimates and uncertainty quantification of the variance of model performance across groups. It is conceptually simple and easily implementable without statistical software package or numerical optimization. We demonstrate the utility of this approach through simulation and show on a real dataset that while statistically biased estimators of model group-wise model performance disparities indicate statistically significant between-group model performance disparities, when accounting for statistical bias in the estimator, the estimated group-wise disparities in model performance are no longer statistically significant.
翻訳日:2022-05-13 14:26:12 公開日:2022-05-11
# 注意強化残差畳み込みニューラルネットワークによるCSIを用いた屋内位置推定

CSI-based Indoor Localization via Attention-Augmented Residual Convolutional Neural Network ( http://arxiv.org/abs/2205.05775v1 )

ライセンス: Link先を確認
Bowen Zhang and Houssem Sifaou and Geoffrey Ye Li(参考訳) 深層学習はチャネル状態情報(CSI)-フィンガープリント屋内ローカライゼーションシステムに広く採用されている。 これらのシステムは通常、高次元CSIから物理位置へのマッピングを学習する測位ネットワークと、歴史的CSIを使用して測位誤差を低減するトラッキングシステムという2つの主要な部分から構成される。 本稿では,高精度で汎用性の高い新しいローカライズシステムを提案する。 一方、既存の畳み込みニューラルネットワーク(CNN)ベースの位置決めネットワークの受容領域は制限されており、CSIの有用な情報としての性能は十分に調査されていない。 そこで本研究では,csiにおける局所情報とグローバルコンテキストを徹底的に活用するための注意喚起残差cnnを提案する。 一方、トラッキングシステムの汎用性を考慮すると、トラッキングシステムをcsi環境から切り離し、すべての環境における1つのトラッキングシステムを可能にする。 具体的には,追跡問題をデノージングタスクとして再設計し,事前の深い軌道で解決する。 さらに,慣性測定ユニットの精度差がトラッキング性能に悪影響を及ぼすかを調査し,プラグ・アンド・プレイを用いて精度差問題を解決する。 実験では,既存の手法よりも性能向上と汎用性向上に優れることを示す。

Deep learning has been widely adopted for channel state information (CSI)-fingerprinting indoor localization systems. These systems usually consist of two main parts, i.e., a positioning network that learns the mapping from high-dimensional CSI to physical locations and a tracking system that utilizes historical CSI to reduce the positioning error. This paper presents a new localization system with high accuracy and generality. On the one hand, the receptive field of the existing convolutional neural network (CNN)-based positioning networks is limited, restricting their performance as useful information in CSI is not explored thoroughly. As a solution, we propose a novel attention-augmented Residual CNN to utilize the local information and global context in CSI exhaustively. On the other hand, considering the generality of a tracking system, we decouple the tracking system from the CSI environments so that one tracking system for all environments becomes possible. Specifically, we remodel the tracking problem as a denoising task and solve it with deep trajectory prior. Furthermore, we investigate how the precision difference of inertial measurement units will adversely affect the tracking performance and adopt plug-and-play to solve the precision difference problem. Experiments show the superiority of our methods over existing approaches in performance and generality improvement.
翻訳日:2022-05-13 14:25:44 公開日:2022-05-11
# ハイパーグラフ分割による局所モチーフクラスタリング

Local Motif Clustering via (Hyper)Graph Partitioning ( http://arxiv.org/abs/2205.06176v1 )

ライセンス: Link先を確認
Adil Chhabra, Marcelo Fonseca Faraj and Christian Schulz(参考訳) グラフ上で広く使われている操作は局所クラスタリングである。すなわち、グラフ全体を処理することなく、シードノード周辺のよく特性化されたコミュニティを抽出する。 近年,局所的モチーフクラスタリングが提案されている。モチーフの分布に基づく局所クラスタを探索する。 この局所クラスタリングの観点は比較的新しいため、これまでエッジベースの局所クラスタリングに用いられてきた統計的および数値的手法の拡張が提案されている。 本研究では,シードノード周辺のモチーフ分布を表現するハイパーグラフとグラフモデルを構築した。 グラフ分割のための高度な組合せアルゴリズムを用いてこれらのモデルを解く。 トライアングルモチーフを用いた広範囲な実験において、我々のアルゴリズムは平均3分の1のモチーフコンダクタンス値でコミュニティを計算し、最先端ツールMAPPRが計算したコミュニティと比較して平均6.3倍高速である。

A widely-used operation on graphs is local clustering, i.e., extracting a well-characterized community around a seed node without the need to process the whole graph. Recently local motif clustering has been proposed: it looks for a local cluster based on the distribution of motifs. Since this local clustering perspective is relatively new, most approaches proposed for it are extensions of statistical and numerical methods previously used for edge-based local clustering, while the available combinatorial approaches are still few and relatively simple. In this work, we build a hypergraph and a graph model which both represent the motif-distribution around the seed node. We solve these models using sophisticated combinatorial algorithms designed for (hyper)graph partitioning. In extensive experiments with the triangle motif, we observe that our algorithm computes communities with a motif conductance value being one third on average in comparison against the communities computed by the state-of-the-art tool MAPPR while being 6.3 times faster on average.
翻訳日:2022-05-13 14:25:03 公開日:2022-05-11
# 単一クラス監視によるマルチクラス3dオブジェクト検出

Multi-Class 3D Object Detection with Single-Class Supervision ( http://arxiv.org/abs/2205.05703v1 )

ライセンス: Link先を確認
Mao Ye, Chenxi Liu, Maoqing Yao, Weiyue Wang, Zhaoqi Leng, Charles R. Qi, Dragomir Anguelov(参考訳) 多くのロボティクスアプリケーションでは、マルチクラスの3D検出器が必要であるが、完全なラベル付きデータセットによるトレーニングは、ラベル付けコストがかかる可能性がある。 別のアプローチとして、非結合データサンプルに単一クラスラベルをターゲットとするものがある。 本稿では,これらの単一クラスラベル付きデータを用いて,マルチクラス3Dオブジェクト検出モデルのトレーニングに関心がある。 まず、部分監督や半監督といった関連する概念に関して、Single-Class Supervision(SCS)の設定のユニークなスタンスを詳述することから始める。 次に,マルチクラスバージョンのレンジスパースネット(rsn)をトレーニングするケーススタディに基づいて,教師付き学習から疑似ラベル付けまで,アルゴリズムのスペクトルを適応させ,scs設定の特性を十分に活用し,最も効果的なアルゴリズムと実践を特定するために広範なアブレーション研究を行う。 Waymo Open Datasetでの実証実験は、SCSの下での適切なトレーニングが、ラベルのコストを節約しながら、完全な監視トレーニングに近づいたり、マッチしたりできることを示している。

While multi-class 3D detectors are needed in many robotics applications, training them with fully labeled datasets can be expensive in labeling cost. An alternative approach is to have targeted single-class labels on disjoint data samples. In this paper, we are interested in training a multi-class 3D object detection model, while using these single-class labeled data. We begin by detailing the unique stance of our "Single-Class Supervision" (SCS) setting with respect to related concepts such as partial supervision and semi supervision. Then, based on the case study of training the multi-class version of Range Sparse Net (RSN), we adapt a spectrum of algorithms -- from supervised learning to pseudo-labeling -- to fully exploit the properties of our SCS setting, and perform extensive ablation studies to identify the most effective algorithm and practice. Empirical experiments on the Waymo Open Dataset show that proper training under SCS can approach or match full supervision training while saving labeling costs.
翻訳日:2022-05-13 14:24:47 公開日:2022-05-11
# 深層学習BERTモデルとTVP-VARモデルに基づく中国の投資家感情・株式市場流動性・ボラティリティの経時変化に関する研究

A time-varying study of Chinese investor sentiment, stock market liquidity and volatility: Based on deep learning BERT model and TVP-VAR model ( http://arxiv.org/abs/2205.05719v1 )

ライセンス: Link先を確認
Chenrui Zhang, Xinyi Wu, Hailu Deng, Huiwei Zhang(参考訳) 2018年1月1日から2019年12月31日まで、イーストモニーのウェブサイトにある深セン株指数バーの注釈データに基づいて。 本稿では,深層学習bertモデルを用いて組込み投資家感情を抽出し,tvp-varモデルを用いて投資感情,株式市場流動性,ボラティリティの時間的変動関係について検討する。 その結果、投資家の感情が株式市場の流動性とボラティリティに与える影響が強くなっている。 逆効果は比較的小さいが、株式市場の状態とともにより発音される。 いずれの場合も、反応は短期的には中長期よりも顕著であり、その影響は非対称であり、市場が下向きの渦巻状態にある場合には衝撃が強くなる。

Based on the commentary data of the Shenzhen Stock Index bar on the EastMoney website from January 1, 2018 to December 31, 2019. This paper extracts the embedded investor sentiment by using a deep learning BERT model and investigates the time-varying linkage between investment sentiment, stock market liquidity and volatility using a TVP-VAR model. The results show that the impact of investor sentiment on stock market liquidity and volatility is stronger. Although the inverse effect is relatively small, it is more pronounced with the state of the stock market. In all cases, the response is more pronounced in the short term than in the medium to long term, and the impact is asymmetric, with shocks stronger when the market is in a downward spiral.
翻訳日:2022-05-13 14:20:36 公開日:2022-05-11
# Tiny Robot Learning:資源制約型ロボットにおける機械学習の課題と方向性

Tiny Robot Learning: Challenges and Directions for Machine Learning in Resource-Constrained Robots ( http://arxiv.org/abs/2205.05748v1 )

ライセンス: Link先を確認
Sabrina M. Neuman, Brian Plancher, Bardienus P. Duisterhof, Srivatsan Krishnan, Colby Banbury, Mark Mazumder, Shvetank Prakash, Jason Jabbour, Aleksandra Faust, Guido C.H.E. de Croon, and Vijay Janapa Reddi(参考訳) 機械学習(ML)は、コンピュータシステムにまたがる普及したツールとなっている。 MLシステム設計の課題をストレステストする新たなアプリケーションは、リソースに制約された低コストの自律ロボットにMLをデプロイする、小さなロボット学習である。 ロボット学習は組み込みシステム、ロボット工学、MLの交差点にあり、これらの領域の課題を複雑にしている。 小型ロボット学習は、サイズ、重量、面積、パワー(SWAP)の制約、センサー、アクチュエータ、計算ハードウェアの制限、エンドツーエンドのシステムトレードオフ、デプロイメントシナリオの多様化といった課題に直面する。 簡潔なロボット学習は、これらの課題を念頭に設計するMLモデルを必要とし、総合的なMLシステム設計とアジャイル開発のための自動エンドツーエンド設計ツールの必要性を明らかにするための十字架を提供する。 本稿では,小型ロボットの学習空間を簡潔に調査し,重要な課題を詳述し,MLシステム設計における将来的な仕事の機会を提案する。

Machine learning (ML) has become a pervasive tool across computing systems. An emerging application that stress-tests the challenges of ML system design is tiny robot learning, the deployment of ML on resource-constrained low-cost autonomous robots. Tiny robot learning lies at the intersection of embedded systems, robotics, and ML, compounding the challenges of these domains. Tiny robot learning is subject to challenges from size, weight, area, and power (SWAP) constraints; sensor, actuator, and compute hardware limitations; end-to-end system tradeoffs; and a large diversity of possible deployment scenarios. Tiny robot learning requires ML models to be designed with these challenges in mind, providing a crucible that reveals the necessity of holistic ML system design and automated end-to-end design tools for agile development. This paper gives a brief survey of the tiny robot learning space, elaborates on key challenges, and proposes promising opportunities for future work in ML system design.
翻訳日:2022-05-13 14:19:29 公開日:2022-05-11
# データサイエンティストと対象者間のモデルパフォーマンスコミュニケーションのための可視化ガイドライン

Visualization Guidelines for Model Performance Communication Between Data Scientists and Subject Matter Experts ( http://arxiv.org/abs/2205.05749v1 )

ライセンス: Link先を確認
Ashley Suh, Gabriel Appleby, Erik W. Anderson, Luca Finelli, Remco Chang, Dylan Cashman(参考訳) モデルのパフォーマンスの複雑さを示すことは、データサイエンティストと主題の専門家のコラボレーションを脅かすコミュニケーションボトルネックである。 正確さとエラーのメトリクスだけでは、モデル全体、そのリスク、強み、限界などを伝えることができません。 結果として、弱点が明確に理解されていない場合、モデルが予期せぬ方法で失敗する可能性がある。 あるいは、被写体の専門家は、慣れ親しんだが疑わしいサブスタンダードな手法を好まないため、モデルは使われないかもしれない。 本稿では,データ科学者と対象者間のコミュニケーションの媒体として可視化の有効利用を提案する。 本研究は,モデル性能コミュニケーションにおける共通プラクティスと,課題の専門家と意思決定者との理解のギャップについて論じる。 我々は,データ科学者と同一組織における課題専門家の両方のインタビューに基づいて,一連のコミュニケーションガイドラインとモデルパフォーマンスのコミュニケーションのための視覚化を導出する。 本研究は, モデルパフォーマンスのプレゼンテーションにおけるガイドラインの有効性を評価するために, 課題の専門家とともに追跡研究を行う。 提案ガイドラインにより,提案モデルのトレードオフを主題の専門家に認識させることができた。 参加者は、現在のコミュニケーション方法がモデルのパフォーマンスをしっかりと理解せず、モデルの使用に対する信頼性を損なう可能性があることに気づきました。

Presenting the complexities of a model's performance is a communication bottleneck that threatens collaborations between data scientists and subject matter experts. Accuracy and error metrics alone fail to tell the whole story of a model - its risks, strengths, and limitations - making it difficult for subject matter experts to feel confident in deciding to use a model. As a result, models may fail in unexpected ways if their weaknesses are not clearly understood. Alternatively, models may go unused, as subject matter experts disregard poorly presented models in favor of familiar, yet arguably substandard methods. In this paper, we propose effective use of visualization as a medium for communication between data scientists and subject matter experts. Our research addresses the gap between common practices in model performance communication and the understanding of subject matter experts and decision makers. We derive a set of communication guidelines and recommended visualizations for communicating model performance based on interviews of both data scientists and subject matter experts at the same organization. We conduct a follow-up study with subject matter experts to evaluate the efficacy of our guidelines in presentations of model performance with and without our recommendations. We find that our proposed guidelines made subject matter experts more aware of the tradeoffs of the presented model. Participants realized that current communication methods left them without a robust understanding of the model's performance, potentially giving them misplaced confidence in the use of the model.
翻訳日:2022-05-13 14:19:10 公開日:2022-05-11
# LSI: 学習された二次インデックス構造

LSI: A Learned Secondary Index Structure ( http://arxiv.org/abs/2205.05769v1 )

ライセンス: Link先を確認
Andreas Kipf, Dominik Horn, Pascal Pfeil, Ryan Marcus, Tim Kraska(参考訳) 学習された索引構造は、B木などの伝統的な指標と比較して、良好なルックアップ性能と空間消費を実現することが示されている。 しかし、ほとんどの学習されたインデックス研究は、ベースデータをソートするプライマリインデックス設定に焦点を当てている。 本研究では,学習指標がセカンダリインデックス設定において優位性を維持するかどうかを検討する。 本研究では,未分類データのインデックス化に学習指標を使用する最初の試みであるLearnered secondary Index(LSI)を紹介する。 LSIは、学習したインデックスを置換ベクトル上に構築することで、ランダムアクセスを使用して、未分類のベースデータ上でバイナリ検索を行うことができる。 さらに,lsiを指紋ベクターで拡張し,等式検索を高速化する。 LSIは最先端のセカンダリインデックスに匹敵するルックアップ性能を実現し,空間効率を最大6倍に向上することを示す。

Learned index structures have been shown to achieve favorable lookup performance and space consumption compared to their traditional counterparts such as B-trees. However, most learned index studies have focused on the primary indexing setting, where the base data is sorted. In this work, we investigate whether learned indexes sustain their advantage in the secondary indexing setting. We introduce Learned Secondary Index (LSI), a first attempt to use learned indexes for indexing unsorted data. LSI works by building a learned index over a permutation vector, which allows binary search to performed on the unsorted base data using random access. We additionally augment LSI with a fingerprint vector to accelerate equality lookups. We show that LSI achieves comparable lookup performance to state-of-the-art secondary indexes while being up to 6x more space efficient.
翻訳日:2022-05-13 14:18:48 公開日:2022-05-11
# スタークラフトにおける自動カリキュラム学習による1人の人間デモから複数の異種アクターをガイドする学習II

Learning to Guide Multiple Heterogeneous Actors from a Single Human Demonstration via Automatic Curriculum Learning in StarCraft II ( http://arxiv.org/abs/2205.05784v1 )

ライセンス: Link先を確認
Nicholas Waytowich, James Hare, Vinicius G. Goecks, Mark Mittrick, John Richardson, Anjon Basak, Derrik E. Asher(参考訳) 伝統的に、直接行動クローニングによる人間のデモンストレーションからの学習は、エージェントが動作している時に遭遇する最も可能性の高いシナリオをカバーする大量の高品質なデータにアクセスできるため、高性能なポリシーにつながる可能性がある。 しかし、現実のシナリオでは、専門家のデータは限られており、人間の専門家が示さなかった状況を扱うのに十分な行動方針を学習するエージェントを訓練することが望まれる。 もう一つの選択肢は、深い強化学習を通さずにこれらのポリシーを学習することであるが、StarCraft IIのような高次元の状態や行動空間を持つ複雑なタスクにおいて、高い計算時間を必要とする。 自動カリキュラム学習は、エージェントの現在の能力に応じて解決すべき課題の難易度を調整することにより、深層強化学習を高速化する技術によって構成された最近のメカニズムである。 しかし、適切なカリキュラムを設計することは、十分に複雑なタスクには困難であり、訓練中のエージェント探索を導く方法として人間のデモンストレーションを活用する。 本研究では,複数の異種アクターを指揮する深層強化学習エージェントを訓練し,タスクの開始位置と全体的な難易度を1人の人間による実演から自動生成するカリキュラムで制御することを目的とする。 自動カリキュラム学習により訓練されたエージェントは、最先端の強化学習ベースラインを上回り、実戦シナリオをモデル化したStarCraft IIのシミュレーションコマンドと制御タスクにおいて、人間の専門家のパフォーマンスに匹敵することを示す。

Traditionally, learning from human demonstrations via direct behavior cloning can lead to high-performance policies given that the algorithm has access to large amounts of high-quality data covering the most likely scenarios to be encountered when the agent is operating. However, in real-world scenarios, expert data is limited and it is desired to train an agent that learns a behavior policy general enough to handle situations that were not demonstrated by the human expert. Another alternative is to learn these policies with no supervision via deep reinforcement learning, however, these algorithms require a large amount of computing time to perform well on complex tasks with high-dimensional state and action spaces, such as those found in StarCraft II. Automatic curriculum learning is a recent mechanism comprised of techniques designed to speed up deep reinforcement learning by adjusting the difficulty of the current task to be solved according to the agent's current capabilities. Designing a proper curriculum, however, can be challenging for sufficiently complex tasks, and thus we leverage human demonstrations as a way to guide agent exploration during training. In this work, we aim to train deep reinforcement learning agents that can command multiple heterogeneous actors where starting positions and overall difficulty of the task are controlled by an automatically-generated curriculum from a single human demonstration. Our results show that an agent trained via automated curriculum learning can outperform state-of-the-art deep reinforcement learning baselines and match the performance of the human expert in a simulated command and control task in StarCraft II modeled over a real military scenario.
翻訳日:2022-05-13 14:18:35 公開日:2022-05-11
# RITA:生成タンパク質配列モデルのスケールアップに関する研究

RITA: a Study on Scaling Up Generative Protein Sequence Models ( http://arxiv.org/abs/2205.05789v1 )

ライセンス: Link先を確認
Daniel Hesslow, Niccol\'o Zanichelli, Pascal Notin, Iacopo Poli and Debora Marks(参考訳) 本稿では、uniref-100データベースに属する2億8000万以上のタンパク質配列に基づいて、最大120億のパラメータを持つタンパク質配列の自己回帰生成モデルであるritaを紹介する。 このような生成モデルはタンパク質の設計を大いに加速する可能性を秘めている。 タンパク質ドメインにおける自己回帰トランスフォーマーのモデルサイズで機能がどのように進化するかを示す最初の体系的研究を行い、次回のアミノ酸予測、ゼロショット適合性、酵素機能予測においてRITAモデルを評価する。 我々は,研究コミュニティの利益のために,RITAモデルをオープンにリリースする。

In this work we introduce RITA: a suite of autoregressive generative models for protein sequences, with up to 1.2 billion parameters, trained on over 280 million protein sequences belonging to the UniRef-100 database. Such generative models hold the promise of greatly accelerating protein design. We conduct the first systematic study of how capabilities evolve with model size for autoregressive transformers in the protein domain: we evaluate RITA models in next amino acid prediction, zero-shot fitness, and enzyme function prediction, showing benefits from increased scale. We release the RITA models openly, to the benefit of the research community.
翻訳日:2022-05-13 14:18:08 公開日:2022-05-11
# 金属添加物製造時に発生する気孔分布の深部学習発電機

Deep-Learned Generators of Porosity Distributions Produced During Metal Additive Manufacturing ( http://arxiv.org/abs/2205.05794v1 )

ライセンス: Link先を確認
Francis Ogoke, Kyle Johnson, Michael Glinsky, Chris Laursen, Sharlotte Kramer, Amir Barati Farimani(参考訳) レーザー粉末層融合法は, 局所制御を増強した複雑な部品を大量生産できるため, 金属添加物製造法として広く採用されている。 しかし、am生成部品は好ましくない細孔性を受け、印刷部品の特性に負の影響を及ぼす。 したがって、効果的部品を作成するには細孔の制御が不可欠である。 ポーロシティ分布の正確な理解は、潜在的な疲労と障害ゾーンを正確にシミュレートするために不可欠である。 合成多孔質組織の生成に関するこれまでの研究は、高密度の等方性多孔質分布を生成することに成功したが、しばしばスペーサー、境界依存性の細孔分布を持つ場合に適用できない。 我々の研究は、生成問題を構成部品に分解することで、これらの制約を考慮し、このギャップを埋める。 生成的逆境ネットワークとマラート散乱変換に基づく自己相関法を組み合わせて, 個々の細孔形状と表面粗さの新たな実現法を構築し, 確率的に再構成して多孔質印刷部を実現する枠組みを提案する。 生成した部品は, 近接距離, 細孔体積, 細孔異方性, 散乱変換に基づく自己相関などの統計的および次元的指標に基づいて, 既存のポロシティ分布と比較する。

Laser Powder Bed Fusion has become a widely adopted method for metal Additive Manufacturing (AM) due to its ability to mass produce complex parts with increased local control. However, AM produced parts can be subject to undesirable porosity, negatively influencing the properties of printed components. Thus, controlling porosity is integral for creating effective parts. A precise understanding of the porosity distribution is crucial for accurately simulating potential fatigue and failure zones. Previous research on generating synthetic porous microstructures have succeeded in generating parts with high density, isotropic porosity distributions but are often inapplicable to cases with sparser, boundary-dependent pore distributions. Our work bridges this gap by providing a method that considers these constraints by deconstructing the generation problem into its constitutive parts. A framework is introduced that combines Generative Adversarial Networks with Mallat Scattering Transform-based autocorrelation methods to construct novel realizations of the individual pore geometries and surface roughness, then stochastically reconstruct them to form realizations of a porous printed part. The generated parts are compared to the existing experimental porosity distributions based on statistical and dimensional metrics, such as nearest neighbor distances, pore volumes, pore anisotropies and scattering transform based auto-correlations.
翻訳日:2022-05-13 14:17:58 公開日:2022-05-11
# 点雲の表面表現

Surface Representation for Point Clouds ( http://arxiv.org/abs/2205.05740v1 )

ライセンス: Link先を確認
Haoxi Ran, Jun Liu, Chengjie Wang(参考訳) ほとんどの先行研究は座標による点雲の形状を表している。 しかし、局所幾何学を直接記述するには不十分である。 本稿では, 点雲の局所構造を記述する新しい表現である, \textbf{RepSurf} (representative surfaces) を提案する。 我々は,三角形メッシュに触発されたrepsurf,三角形repsurf,傘repsurfの2つの変種と,コンピュータグラフィックスにおける傘曲率について検討した。 RepSurfの表現は、表面再構成後の予め定義された幾何学的先行値によって計算する。 repsurfは、不規則な点との無償のコラボレーションにより、ほとんどのポイントクラウドモデルのためのプラグアンドプレイモジュールとなる。 PointNet++(SSGバージョン)のシンプルなベースラインに基づいて、Umbrella RepSurfは、パフォーマンスと効率の観点から、さまざまなベンチマークの分類、セグメンテーション、検出において、これまでの最先端をはるかに上回っている。 パラメータの約 \textbf{0.008M} , \textbf{0.04G} FLOPs および \textbf{1.12ms} の推論時間の増加に伴い,ModelNet40では \textbf{94.7\%} (+0.5\%) , ScanObjectNNでは \textbf{84.6\%} (+1.8\%) , S3DIS 6-foldでは \textbf{74.3\%} (+0.8\%) mIoU, ScanNetでは \textb{70.0\%} (+1.6\%) mIoU が得られる。 検出のために、RepSurf を用いた過去の最先端検出器は、ScanNetV2 上で \textbf{71.2\%} (+2.1\%) mAP$\mathit{_{25}}$, \textbf{54.8\%} (+2.0\%) mAP$\mathit{_{50}}$, SUN RGB-D 上で \textbf{64.9\%} (+1.9\%) mAP$\mathit{_{_{25}}$, \textbf{47.7\%} (+2.5\%) mAP$\mathit{_{50}}$を得る。 私たちの軽量なTriangular RepSurfは、これらのベンチマークでも優れた性能を発揮しています。 コードは \url{https://github.com/hancyran/RepSurf} で公開されている。

Most prior work represents the shapes of point clouds by coordinates. However, it is insufficient to describe the local geometry directly. In this paper, we present \textbf{RepSurf} (representative surfaces), a novel representation of point clouds to \textbf{explicitly} depict the very local structure. We explore two variants of RepSurf, Triangular RepSurf and Umbrella RepSurf inspired by triangle meshes and umbrella curvature in computer graphics. We compute the representations of RepSurf by predefined geometric priors after surface reconstruction. RepSurf can be a plug-and-play module for most point cloud models thanks to its free collaboration with irregular points. Based on a simple baseline of PointNet++ (SSG version), Umbrella RepSurf surpasses the previous state-of-the-art by a large margin for classification, segmentation and detection on various benchmarks in terms of performance and efficiency. With an increase of around \textbf{0.008M} number of parameters, \textbf{0.04G} FLOPs, and \textbf{1.12ms} inference time, our method achieves \textbf{94.7\%} (+0.5\%) on ModelNet40, and \textbf{84.6\%} (+1.8\%) on ScanObjectNN for classification, while \textbf{74.3\%} (+0.8\%) mIoU on S3DIS 6-fold, and \textbf{70.0\%} (+1.6\%) mIoU on ScanNet for segmentation. For detection, previous state-of-the-art detector with our RepSurf obtains \textbf{71.2\%} (+2.1\%) mAP$\mathit{_{25}}$, \textbf{54.8\%} (+2.0\%) mAP$\mathit{_{50}}$ on ScanNetV2, and \textbf{64.9\%} (+1.9\%) mAP$\mathit{_{25}}$, \textbf{47.7\%} (+2.5\%) mAP$\mathit{_{50}}$ on SUN RGB-D. Our lightweight Triangular RepSurf performs its excellence on these benchmarks as well. The code is publicly available at \url{https://github.com/hancyran/RepSurf}.
翻訳日:2022-05-13 13:08:56 公開日:2022-05-11
# 低リソース音声認識のためのメタ学習の改善

Improved Meta Learning for Low Resource Speech Recognition ( http://arxiv.org/abs/2205.06182v1 )

ライセンス: Link先を確認
Satwinder Singh, Ruili Wang, Feng Hou(参考訳) 本稿では,従来のモデル非依存メタ学習(MAML)アプローチを改善する低リソース音声認識のための新しいメタ学習フレームワークを提案する。 MAMLはシンプルだが強力なメタ学習アプローチである。 しかし、MAMLは、トレーニング不安定性や収束速度の遅いといったいくつかのコア欠陥を提示する。 これらの問題に対処するために、我々はマルチステップロス(MSL)を採用する。 MSLは、MAMLの内ループの各ステップにおける損失を計算し、重み付けされた重要ベクトルと組み合わせることを目的としている。 重要なベクトルは、最後のステップでの損失が前のステップよりも重要であることを保証します。 実験により,MSLはトレーニング手順の安定性を著しく向上し,システム全体の精度も向上することが示された。 提案方式は,MAMLに基づく低リソースASRシステムにおいて,文字誤り率や安定した訓練行動で性能を向上する。

We propose a new meta learning based framework for low resource speech recognition that improves the previous model agnostic meta learning (MAML) approach. The MAML is a simple yet powerful meta learning approach. However, the MAML presents some core deficiencies such as training instabilities and slower convergence speed. To address these issues, we adopt multi-step loss (MSL). The MSL aims to calculate losses at every step of the inner loop of MAML and then combines them with a weighted importance vector. The importance vector ensures that the loss at the last step has more importance than the previous steps. Our empirical evaluation shows that MSL significantly improves the stability of the training procedure and it thus also improves the accuracy of the overall system. Our proposed system outperforms MAML based low resource ASR system on various languages in terms of character error rates and stable training behavior.
翻訳日:2022-05-13 13:05:41 公開日:2022-05-11
# 音声・視覚多人数音声認識とアクティブ話者選択について

A Closer Look at Audio-Visual Multi-Person Speech Recognition and Active Speaker Selection ( http://arxiv.org/abs/2205.05684v1 )

ライセンス: Link先を確認
Otavio Braga, Olivier Siohan(参考訳) 音声・視覚自動音声認識は、雑音条件下での頑健なASRに対する有望なアプローチである。 しかし、近年まで、単一の話し手の映像が音声と一致していると仮定し、複数の人が画面に映っているときの推測時にアクティブな話者を選択することは別個の問題として、孤立して研究されてきた。 代替として、近年の研究では、話者選択問題を直接完全に微分可能なモデルに焼き込むことで、2つの問題を同時に注意メカニズムで解決する提案がなされている。 興味深い発見は、トレーニング時にこの対応が明示的に提供されないにもかかわらず、注意が間接的に音声と発話面の関係を学習することであった。 本研究は, この関係をさらに調査し, 両問題間の相互作用について検討する。 5万時間以上のyoutube公開動画をトレーニングデータとして実験を行い、まず、アクティブな話者選択タスクにおける注意層の精度を評価した。 第2に,様々な雑音条件下でのハード決定境界と並列面のトラック数を利用して,エンド・ツー・エンド・モデルが少なくとも大きな2ステップ・システムとして機能することを示す。

Audio-visual automatic speech recognition is a promising approach to robust ASR under noisy conditions. However, up until recently it had been traditionally studied in isolation assuming the video of a single speaking face matches the audio, and selecting the active speaker at inference time when multiple people are on screen was put aside as a separate problem. As an alternative, recent work has proposed to address the two problems simultaneously with an attention mechanism, baking the speaker selection problem directly into a fully differentiable model. One interesting finding was that the attention indirectly learns the association between the audio and the speaking face even though this correspondence is never explicitly provided at training time. In the present work we further investigate this connection and examine the interplay between the two problems. With experiments involving over 50 thousand hours of public YouTube videos as training data, we first evaluate the accuracy of the attention layer on an active speaker selection task. Secondly, we show under closer scrutiny that an end-to-end model performs at least as well as a considerably larger two-step system that utilizes a hard decision boundary under various noise conditions and number of parallel face tracks.
翻訳日:2022-05-13 13:02:58 公開日:2022-05-11
# 低次元線形モデルのシステム同定によるブリッジングモデルの安全性とモデルフリー強化学習

Bridging Model-based Safety and Model-free Reinforcement Learning through System Identification of Low Dimensional Linear Models ( http://arxiv.org/abs/2205.05787v1 )

ライセンス: Link先を確認
Zhongyu Li, Jun Zeng, Akshay Thirugnanam, Koushil Sreenath(参考訳) 動的ロボットのモデルベース安全性とモデルフリー強化学習(RL)は、モデルベース手法が正式な安全保証を提供することができるのに対して、RLベースの手法は、フルオーダーシステムダイナミクスから学習することでロボットの俊敏性を活用することができるため、魅力的である。 しかし、この問題に対処する現在のアプローチは主に単純なシステムに限られている。 本稿では、RLポリシーで制御されるシステムの低次元モデルを明確に見つけ、そのモデルに安定性と安全性の保証を適用することにより、モデルベース安全性とモデルフリー強化学習を組み合わせる新しい手法を提案する。 複合型二足歩行ロボットcassieを例として,ハイブリッドダイナミクスとアンダーアクチュレーションを備えた高次元非線形システムと,そのrlベースの歩行制御器を用いた。 低次元力学モデルは閉ループ系の力学を捉えるのに十分であることを示す。 このモデルが線形であり,漸近安定であり,すべての次元の制御入力にまたがって分離されることを示す。 さらに、異なるRL制御ポリシーを用いても、そのような線形性が存在することを実証する。 このような結果は、rlと最適制御の関係を理解するための興味深い方向を示している: rlが訓練中に非線形システムを線形化する傾向があるかどうか。 さらに,本手法では,制御バリア機能を有するモデル予測制御など,安全クリティカルな最適制御フレームワークによる保証をcassieを用いた自律ナビゲーションの例として実現し,rlベースの制御による機敏さを活用できることを示す。

Bridging model-based safety and model-free reinforcement learning (RL) for dynamic robots is appealing since model-based methods are able to provide formal safety guarantees, while RL-based methods are able to exploit the robot agility by learning from the full-order system dynamics. However, current approaches to tackle this problem are mostly restricted to simple systems. In this paper, we propose a new method to combine model-based safety with model-free reinforcement learning by explicitly finding a low-dimensional model of the system controlled by a RL policy and applying stability and safety guarantees on that simple model. We use a complex bipedal robot Cassie, which is a high dimensional nonlinear system with hybrid dynamics and underactuation, and its RL-based walking controller as an example. We show that a low-dimensional dynamical model is sufficient to capture the dynamics of the closed-loop system. We demonstrate that this model is linear, asymptotically stable, and is decoupled across control input in all dimensions. We further exemplify that such linearity exists even when using different RL control policies. Such results point out an interesting direction to understand the relationship between RL and optimal control: whether RL tends to linearize the nonlinear system during training in some cases. Furthermore, we illustrate that the found linear model is able to provide guarantees by safety-critical optimal control framework, e.g., Model Predictive Control with Control Barrier Functions, on an example of autonomous navigation using Cassie while taking advantage of the agility provided by the RL-based controller.
翻訳日:2022-05-13 13:01:55 公開日:2022-05-11
# (参考訳) 非正規強化学習に対する状態分布マッチングアプローチ

A State-Distribution Matching Approach to Non-Episodic Reinforcement Learning ( http://arxiv.org/abs/2205.05212v1 )

ライセンス: CC BY 4.0
Archit Sharma, Rehaan Ahmad, Chelsea Finn(参考訳) 強化学習(RL)は試行錯誤による学習の枠組みを提供するが、RLアルゴリズムを現実世界に翻訳することは依然として困難である。 現実の応用への大きなハードルは、人間やロボットのような具体化されたエージェントが遭遇する現実世界の連続的および非エポゾディックな性質とは対照的に、試行錯誤後に環境がリセットされるエピソード的な環境におけるアルゴリズムの開発から生じる。 以前の作業では、フォワードポリシーがタスクを解決し、後方ポリシーが環境をリセットする、という交互なアプローチが検討されてきたが、下位ポリシーがエージェントをリセットすべき初期状態分布は何か? そこで本研究では,いくつかの実演を想定して,提示された実演における状態分布に合致する後方方針を訓練する新しいメダリストであるメダリストを提案する。 これによりエージェントはタスク関連状態に近い状態となり、フォワードポリシーのために簡単で難しい開始状態が混在する。 実験の結果,MEDAL は EARL ベンチマークから得られた3つの疎逆連続制御タスクにおいて,従来の手法と一致し,性能に優れることがわかった。

While reinforcement learning (RL) provides a framework for learning through trial and error, translating RL algorithms into the real world has remained challenging. A major hurdle to real-world application arises from the development of algorithms in an episodic setting where the environment is reset after every trial, in contrast with the continual and non-episodic nature of the real-world encountered by embodied agents such as humans and robots. Prior works have considered an alternating approach where a forward policy learns to solve the task and the backward policy learns to reset the environment, but what initial state distribution should the backward policy reset the agent to? Assuming access to a few demonstrations, we propose a new method, MEDAL, that trains the backward policy to match the state distribution in the provided demonstrations. This keeps the agent close to the task-relevant states, allowing for a mix of easy and difficult starting states for the forward policy. Our experiments show that MEDAL matches or outperforms prior methods on three sparse-reward continuous control tasks from the EARL benchmark, with 40% gains on the hardest task, while making fewer assumptions than prior works.
翻訳日:2022-05-13 08:55:56 公開日:2022-05-11
# (参考訳) VAEとGANを一般化した統一f分割フレームワーク

A Unified f-divergence Framework Generalizing VAE and GAN ( http://arxiv.org/abs/2205.05214v1 )

ライセンス: CC BY 4.0
Jaime Roquero Gimenez and James Zou(参考訳) 確率距離の多様な尺度を柔軟に取り入れる深層生成モデルの開発は重要な研究分野である。 本稿では, VAEとf-GANの両方を組み込んだf-divergence生成モデルの統一的な数学的枠組みを開発し,一般のf-divergencesによる学習を可能にする。 f-GMにより、ネットワークの構造や学習手順を変更することなく、実験者がf分割関数を柔軟に設計することができる。 f-GMは、ジェネレータ、推論ネットワーク、密度推定器の3つのコンポーネントを共同でモデル化する。 したがって、潜在変数のサンプリング、後方推定、および任意のデータムの可能性の評価を同時に行うことができる。 f-GM はエンコーダ・デコーダ GAN のクラスに属する:我々の密度推定器は、潜在符号と観測空間の結合空間におけるサンプル間の判別器の役割を担っていると解釈できる。 本稿では,f-GM が標準 VAE と f-GAN を特殊ケースとして自然に単純化し,異なるエンコーダ・デコーダ GAN アーキテクチャ間の接続を示す。 f-GMは一般的なネットワークアーキテクチャとオプティマイザと互換性がある。 我々はこれを応用して、f-発散の異なる選択のモード崩壊や画像のシャープネスといった効果を実験的に探索する。

Developing deep generative models that flexibly incorporate diverse measures of probability distance is an important area of research. Here we develop an unified mathematical framework of f-divergence generative model, f-GM, that incorporates both VAE and f-GAN, and enables tractable learning with general f-divergences. f-GM allows the experimenter to flexibly design the f-divergence function without changing the structure of the networks or the learning procedure. f-GM jointly models three components: a generator, a inference network and a density estimator. Therefore it simultaneously enables sampling, posterior inference of the latent variable as well as evaluation of the likelihood of an arbitrary datum. f-GM belongs to the class of encoder-decoder GANs: our density estimator can be interpreted as playing the role of a discriminator between samples in the joint space of latent code and observed space. We prove that f-GM naturally simplifies to the standard VAE and to f-GAN as special cases, and illustrates the connections between different encoder-decoder GAN architectures. f-GM is compatible with general network architecture and optimizer. We leverage it to experimentally explore the effects -- e.g. mode collapse and image sharpness -- of different choices of f-divergence.
翻訳日:2022-05-13 08:34:37 公開日:2022-05-11
# (参考訳) 条件付きDSVAEによるゼロショット音声変換の改善に向けて

Towards Improved Zero-shot Voice Conversion with Conditional DSVAE ( http://arxiv.org/abs/2205.05227v1 )

ライセンス: CC BY 4.0
Jiachen Lian and Chunlei Zhang and Gopala Krishna Anumanchipalli and Dong Yu(参考訳) ゼロショットノンパラレル音声変換(VC)には,コンテンツと発話スタイルの情報の分離が不可欠である。 本研究は,情報分解のバックボーンとして,不連続な逐次変分オートエンコーダ(dsvae)を用いた新しい枠組みについて検討した。 ゼロショットVCでは、ある発話からコンテンツ埋め込みと話者埋め込みを同時に切り離すことが可能であることを示した。 そこで本研究では,DSVAEベースラインにおけるコンテンツブランチの事前分布に関する懸念を提起し,方向性を継続する。 ランダム初期化事前分布は,学習過程中の音声構造情報を減らすためにコンテンツ埋め込みを強制するが,これは望ましい性質ではない。 ここでは、より多くの音声情報を保存したより優れたコンテンツ埋め込みの実現を目指す。 条件付きdsvaeは,事前モデリングの条件としてコンテンツバイアスを許容し,後方分布からサンプリングしたコンテンツ埋め込みを再構成する新しいモデルである。 VCTKデータセットを用いた実験では、条件付きDSVAEから導出されるコンテンツ埋め込みがランダム性を克服し、より優れた音素分類精度、安定した発声、および競合するDSVAEベースラインと比較してゼロショットVC性能を実現することを示した。

Disentangling content and speaking style information is essential for zero-shot non-parallel voice conversion (VC). Our previous study investigated a novel framework with disentangled sequential variational autoencoder (DSVAE) as the backbone for information decomposition. We have demonstrated that simultaneous disentangling content embedding and speaker embedding from one utterance is feasible for zero-shot VC. In this study, we continue the direction by raising one concern about the prior distribution of content branch in the DSVAE baseline. We find the random initialized prior distribution will force the content embedding to reduce the phonetic-structure information during the learning process, which is not a desired property. Here, we seek to achieve a better content embedding with more phonetic information preserved. We propose conditional DSVAE, a new model that enables content bias as a condition to the prior modeling and reshapes the content embedding sampled from the posterior distribution. In our experiment on the VCTK dataset, we demonstrate that content embeddings derived from the conditional DSVAE overcome the randomness and achieve a much better phoneme classification accuracy, a stabilized vocalization and a better zero-shot VC performance compared with the competitive DSVAE baseline.
翻訳日:2022-05-13 08:23:01 公開日:2022-05-11
# (参考訳) コスト予算配分による階層的制約付き確率的最短経路計画

Hierarchical Constrained Stochastic Shortest Path Planning via Cost Budget Allocation ( http://arxiv.org/abs/2205.05228v1 )

ライセンス: CC BY 4.0
Sungkweon Hong and Brian C. Williams(参考訳) 確率的逐次決定は、各ハイレベルなアクションがプリミティブな状態とアクションでさらに計画される問題において階層的な構造を必要とすることが多い。 さらに、多くの現実世界のアプリケーションでは、リスク測定や燃料消費といった二次コストの制約を満たす計画が必要となる。 本稿では,これら2つの重要な要件を満たす階層的制約付き確率的最短経路問題(hc-ssp)を提案する。 HC-SSPは多くの実世界のアプリケーションでそのような計画要件をモデル化するための有用なフレームワークを提供するが、結果として生じる問題は複雑化しており、ユーザがリアルタイムでリスクに敏感なアプリケーションに適用できないような最適なソリューションを見つけるのが困難である。 この問題に対処するため,提案アルゴリズムでは,分岐とバウンドのスキームに基づく下層計画問題に対して,コスト予算を反復的に割り当て,実現可能な解を高速かつ漸進的に更新するアルゴリズムを提案する。 提案手法を避難シナリオで実証し,最先端の数学的プログラミング手法よりも優れていることを示す。

Stochastic sequential decision making often requires hierarchical structure in the problem where each high-level action should be further planned with primitive states and actions. In addition, many real-world applications require a plan that satisfies constraints on the secondary costs such as risk measure or fuel consumption. In this paper, we propose a hierarchical constrained stochastic shortest path problem (HC-SSP) that meets those two crucial requirements in a single framework. Although HC-SSP provides a useful framework to model such planning requirements in many real-world applications, the resulting problem has high complexity and makes it difficult to find an optimal solution fast which prevents user from applying it to real-time and risk-sensitive applications. To address this problem, we present an algorithm that iteratively allocates cost budget to lower level planning problems based on branch-and-bound scheme to find a feasible solution fast and incrementally update the incumbent solution. We demonstrate the proposed algorithm in an evacuation scenario and prove the advantage over a state-of-the-art mathematical programming based approach.
翻訳日:2022-05-13 08:09:22 公開日:2022-05-11
# (参考訳) 多段階強化学習のための協調政策の開発

Developing cooperative policies for multi-stage reinforcement learning tasks ( http://arxiv.org/abs/2205.05230v1 )

ライセンス: CC BY 4.0
Jordan Erskine, Chris Lehnert(参考訳) 多くの階層的強化学習アルゴリズムは、より高い推論レベルでタスクを解決するために、一連の独立したスキルを基礎として利用している。 これらのアルゴリズムは、独立ではなく協力的なスキルを使う価値を考慮しない。 本稿では,連続エージェントが長期水平多段階タスクを協調的に解決できる協調的協調政策(CCP)手法を提案する。 この方法は、各エージェントのポリシーを変更して、現在のエージェントと次のエージェントの批評家の両方を最大化する。 批評家を協調的に最大化することで、各エージェントはそのタスクに有益な行動を取ることができる。 この手法をマルチルームmazeドメインとpeg in hole manipulationドメインで使用することにより,協調ポリシは,複数のナイーブポリシ,ドメイン全体でトレーニングされた1つのエージェント,その他の逐次hrlアルゴリズムを上回ることができた。

Many hierarchical reinforcement learning algorithms utilise a series of independent skills as a basis to solve tasks at a higher level of reasoning. These algorithms don't consider the value of using skills that are cooperative instead of independent. This paper proposes the Cooperative Consecutive Policies (CCP) method of enabling consecutive agents to cooperatively solve long time horizon multi-stage tasks. This method is achieved by modifying the policy of each agent to maximise both the current and next agent's critic. Cooperatively maximising critics allows each agent to take actions that are beneficial for its task as well as subsequent tasks. Using this method in a multi-room maze domain and a peg in hole manipulation domain, the cooperative policies were able to outperform a set of naive policies, a single agent trained across the entire domain, as well as another sequential HRL algorithm.
翻訳日:2022-05-13 07:52:03 公開日:2022-05-11
# (参考訳) バウンディングボックスによるサルエント物体検出

Salient Object Detection via Bounding-box Supervision ( http://arxiv.org/abs/2205.05245v1 )

ライセンス: CC BY 4.0
Mengqi He, Jing Zhang, Wenxin Yu(参考訳) 完全教師付き塩分検出モデルの成功は、多数のピクセル単位のラベルに依存する。 本稿では,ラベル付け作業の軽減を図るため,バウンディングボックスに基づく弱教師付きサリエンシ検出について検討する。 境界ボックスアノテーションを考慮すれば、境界ボックス内のピクセルには広範なラベリングノイズが含まれている可能性がある。 しかし、大量の背景が除外されているため、前景境界ボックス領域は、より複雑な背景を含まないため、収穫した前景領域のみを用いて手作りの特徴に基づく塩分検出を行うことができる。 従来の手工芸品の特徴が十分に表現されていないため, ノイズの多いサリエンシマップに導かれるため, さらに, 予測構造を正規化するために, 構造に配慮した自己監督的損失を導入する。 また、バウンディングボックス外の画素は背景であるべきであり、正確な背景領域を正確にローカライズするために部分クロスエントロピー損失関数を用いることができる。 6つのベンチマークRGBサリエンシデータセットの実験結果から,本モデルの有効性が示された。

The success of fully supervised saliency detection models depends on a large number of pixel-wise labeling. In this paper, we work on bounding-box based weakly-supervised saliency detection to relieve the labeling effort. Given the bounding box annotation, we observe that pixels inside the bounding box may contain extensive labeling noise. However, as a large amount of background is excluded, the foreground bounding box region contains a less complex background, making it possible to perform handcrafted features-based saliency detection with only the cropped foreground region. As the conventional handcrafted features are not representative enough, leading to noisy saliency maps, we further introduce structure-aware self-supervised loss to regularize the structure of the prediction. Further, we claim that pixels outside the bounding box should be background, thus partial cross-entropy loss function can be used to accurately localize the accurate background region. Experimental results on six benchmark RGB saliency datasets illustrate the effectiveness of our model.
翻訳日:2022-05-13 07:36:40 公開日:2022-05-11
# (参考訳) 機械学習実践における評価ギャップ

Evaluation Gaps in Machine Learning Practice ( http://arxiv.org/abs/2205.05256v1 )

ライセンス: CC BY 4.0
Ben Hutchinson, Negar Rostamzadeh, Christina Greer, Katherine Heller, Vinodkumar Prabhakaran(参考訳) 機械学習(ML)モデルのアプリケーションエコシステムに対する適切性に対する信頼性の高い判断を形成することは、その責任を負う上で重要であり、害、利益、責任を含む幅広い要因を検討する必要がある。 しかし実際には、MLモデルの評価は、限られた範囲の非文脈化予測行動のみに焦点を当てることが多い。 評価対象の理想化範囲と実際の評価対象の狭間における評価ギャップについて検討した。 コンピュータビジョンと自然言語処理のコミュニティにおける最近の著名なカンファレンスの論文の実証研究を通じて、我々はいくつかの評価手法に焦点をあてた。 これらの手法で使用されるメトリクスとテストデータ分布を考慮し、フィールドにどの特性が集中しているかを注意し、評価中に頻繁に無視されるか、あるいは傍観される性質を明らかにする。 これらの特性を研究することで、機械学習分野が規範的な影響を持つコミットメントの範囲を暗黙的に仮定することを示し、これには連続性へのコミットメント、文脈からの抽象可能性、影響の定量性、評価におけるモデル入力の限られた役割、異なる障害モードの等価性が含まれる。 これらの仮定に光を当てることで、MLモデルの信頼性をしっかりと検証するための、より文脈化された評価手法への道を指して、MLシステムコンテキストに対する彼らの適切性に疑問を呈することができる。

Forming a reliable judgement of a machine learning (ML) model's appropriateness for an application ecosystem is critical for its responsible use, and requires considering a broad range of factors including harms, benefits, and responsibilities. In practice, however, evaluations of ML models frequently focus on only a narrow range of decontextualized predictive behaviours. We examine the evaluation gaps between the idealized breadth of evaluation concerns and the observed narrow focus of actual evaluations. Through an empirical study of papers from recent high-profile conferences in the Computer Vision and Natural Language Processing communities, we demonstrate a general focus on a handful of evaluation methods. By considering the metrics and test data distributions used in these methods, we draw attention to which properties of models are centered in the field, revealing the properties that are frequently neglected or sidelined during evaluation. By studying these properties, we demonstrate the machine learning discipline's implicit assumption of a range of commitments which have normative impacts; these include commitments to consequentialism, abstractability from context, the quantifiability of impacts, the limited role of model inputs in evaluation, and the equivalence of different failure modes. Shedding light on these assumptions enables us to question their appropriateness for ML system contexts, pointing the way towards more contextualized evaluation methodologies for robustly examining the trustworthiness of ML models
翻訳日:2022-05-13 07:24:33 公開日:2022-05-11
# (参考訳) 単目的・多目的凸最適化のための新しい運動量係数をもつ大域収束高速反復収縮保持アルゴリズム

A globally convergent fast iterative shrinkage-thresholding algorithm with a new momentum factor for single and multi-objective convex optimization ( http://arxiv.org/abs/2205.05262v1 )

ライセンス: CC BY 4.0
Hiroki Tanabe, Ellen H. Fukuda, and Nobuo Yamashita(参考訳) 微分可能関数と凸関数の和で表される目的関数を最小化する凸合成最適化は、機械学習や信号/画像処理で広く使われている。 Fast Iterative Shrinkage Thresholding Algorithm (FISTA) はこの問題を解く典型的な方法であり、大域収束率は$O(1 / k^2)$である。 近年、これはO(1 / k^2)$大域収束率の証明とともに多目的最適化に拡張されている。 しかし、その運動量係数は古典的であり、イテレートの収束は証明されていない。 本研究では,追加のハイパーパラメータ$(a, b)$を導入することで,単一目的の場合においても新しい一般運動量係数を持つ加速度近位勾配法を提案する。 提案手法はまた,任意の$(a,b)$に対して大域収束率$O(1/k^2)$を持ち,さらに,a$が正のとき,生成した反復列が弱パレート解に収束することを示す。 さらに、様々な$(a,b)$で数値結果を報告し、これらの選択のいくつかが古典的な運動量因子よりも良い結果をもたらすことを示す。

Convex-composite optimization, which minimizes an objective function represented by the sum of a differentiable function and a convex one, is widely used in machine learning and signal/image processing. Fast Iterative Shrinkage Thresholding Algorithm (FISTA) is a typical method for solving this problem and has a global convergence rate of $O(1 / k^2)$. Recently, this has been extended to multi-objective optimization, together with the proof of the $O(1 / k^2)$ global convergence rate. However, its momentum factor is classical, and the convergence of its iterates has not been proven. In this work, introducing some additional hyperparameters $(a, b)$, we propose another accelerated proximal gradient method with a general momentum factor, which is new even for the single-objective cases. We show that our proposed method also has a global convergence rate of $O(1/k^2)$ for any $(a,b)$, and further that the generated sequence of iterates converges to a weak Pareto solution when $a$ is positive, an essential property for the finite-time manifold identification. Moreover, we report numerical results with various $(a,b)$, showing that some of these choices give better results than the classical momentum factors.
翻訳日:2022-05-13 06:53:35 公開日:2022-05-11
# (参考訳) 物理概念のための教師なし機械学習

Unsupervised machine learning for physical concepts ( http://arxiv.org/abs/2205.05279v1 )

ライセンス: CC BY 4.0
Ruyu Yang(参考訳) 近年、科学者の科学研究を支援するために機械学習が用いられている。 人間の科学的理論は一連の概念に基づいている。 実験データから概念を学習する方法は、重要な第一歩となるでしょう。 教師なし機械学習を用いて解釈可能な物理概念を抽出するハイブリッド手法を提案する。 この方法は2つの段階からなる。 まず、実験データのベッチ数を見つける必要があります。 次に,ベッチ数から有意な物理変数を抽出するために,変分オートエンコーダネットワークを用いる。 おもちゃのモデルでプロトコルをテストし、その仕組みを示します。

In recent years, machine learning methods have been used to assist scientists in scientific research. Human scientific theories are based on a series of concepts. How machine learns the concepts from experimental data will be an important first step. We propose a hybrid method to extract interpretable physical concepts through unsupervised machine learning. This method consists of two stages. At first, we need to find the Betti numbers of experimental data. Secondly, given the Betti numbers, we use a variational autoencoder network to extract meaningful physical variables. We test our protocol on toy models and show how it works.
翻訳日:2022-05-13 05:52:28 公開日:2022-05-11
# (参考訳) 協調学習確率的u-netによる空中超音波を用いた可視・視認性:プライバシーを意識した人間の分節化

Invisible-to-Visible: Privacy-Aware Human Segmentation using Airborne Ultrasound via Collaborative Learning Probabilistic U-Net ( http://arxiv.org/abs/2205.05293v1 )

ライセンス: CC BY 4.0
Risako Tanigawa, Yasunori Ishii, Kazuki Kozuka and Takayoshi Yamashita(参考訳) カラー画像は視覚的に容易に理解でき、色やテクスチャといった多くの情報を得ることができる。 セグメンテーションなどのタスクで、高度に広く使われている。 一方,屋内の個人セグメンテーションでは,プライバシを考慮した個人データを収集する必要がある。 本研究では,見えない情報,特に空中超音波による人体セグメンテーションのための新しい課題を提案する。 まず、超音波を反射型超音波指向性画像(ultrasound image)に変換し、目に見えない情報からセグメンテーションを行う。 超音波画像は人の位置を大まかに識別できるが、詳細な形状は曖昧である。 そこで本研究では,超音波とセグメント画像を同時に使用し,潜在空間のパラメータを比較することで超音波とセグメント画像の確率分布を閉じる協調学習確率的u-netを提案する。 推論では、超音波画像のみを使用してセグメント化結果を得ることができる。 性能検証の結果,提案手法は従来の確率的u-netや他の変分オートエンコーダモデルよりも高精度に人間のセグメンテーションを推定できた。

Color images are easy to understand visually and can acquire a great deal of information, such as color and texture. They are highly and widely used in tasks such as segmentation. On the other hand, in indoor person segmentation, it is necessary to collect person data considering privacy. We propose a new task for human segmentation from invisible information, especially airborne ultrasound. We first convert ultrasound waves to reflected ultrasound directional images (ultrasound images) to perform segmentation from invisible information. Although ultrasound images can roughly identify a person's location, the detailed shape is ambiguous. To address this problem, we propose a collaborative learning probabilistic U-Net that uses ultrasound and segmentation images simultaneously during training, closing the probabilistic distributions between ultrasound and segmentation images by comparing the parameters of the latent spaces. In inference, only ultrasound images can be used to obtain segmentation results. As a result of performance verification, the proposed method could estimate human segmentations more accurately than conventional probabilistic U-Net and other variational autoencoder models.
翻訳日:2022-05-13 05:41:38 公開日:2022-05-11
# (参考訳) サブスペース学習機械(SLM)の方法論と性能

Subspace Learning Machine (SLM): Methodology and Performance ( http://arxiv.org/abs/2205.05296v1 )

ライセンス: CC BY 4.0
Hongyu Fu, Yijing Yang, Vinod K. Mishra, C.-C. Jay Kuo(参考訳) 本研究では,feedforward multilayer perceptron (ff-mlp) , decision tree (dt) およびextreme learning machine (elm) に触発されて,subspace learning machine (slm) と呼ばれる新しい分類モデルを提案する。 slm はまず、各入力特徴の判別力を調べることにより、識別部分空間 $s^0$ を識別する。 次に、$S^0$ の関数の確率的射影を使って 1D の部分空間を生成し、それぞれに最適な分割を求める。 これは超平面で$s^0$を分配することと同値である。 最高の$q$パーティションを選択し、その間に$2q$パーティションされたサブスペースが生成される。 決定ツリーのルートノードと2q$サブスペースの交差点に$S^0$を、深さ1の子ノードに割り当てます。 分割処理は各子ノードに再帰的に適用され、SLMツリーを構築する。 子ノードのサンプルが十分に純粋な場合、分割処理が終了し、各葉ノードが予測を行う。 このアイデアは回帰に一般化することができ、サブスペース学習回帰器(SLR)へと導かれる。 さらに、SLM/SLR木のアンサンブルはより強力な予測因子となる。 SLM/SLR木,アンサンブル,古典型分類器/回帰器間の性能ベンチマーク実験を行った。

Inspired by the feedforward multilayer perceptron (FF-MLP), decision tree (DT) and extreme learning machine (ELM), a new classification model, called the subspace learning machine (SLM), is proposed in this work. SLM first identifies a discriminant subspace, $S^0$, by examining the discriminant power of each input feature. Then, it uses probabilistic projections of features in $S^0$ to yield 1D subspaces and finds the optimal partition for each of them. This is equivalent to partitioning $S^0$ with hyperplanes. A criterion is developed to choose the best $q$ partitions that yield $2q$ partitioned subspaces among them. We assign $S^0$ to the root node of a decision tree and the intersections of $2q$ subspaces to its child nodes of depth one. The partitioning process is recursively applied at each child node to build an SLM tree. When the samples at a child node are sufficiently pure, the partitioning process stops and each leaf node makes a prediction. The idea can be generalized to regression, leading to the subspace learning regressor (SLR). Furthermore, ensembles of SLM/SLR trees can yield a stronger predictor. Extensive experiments are conducted for performance benchmarking among SLM/SLR trees, ensembles and classical classifiers/regressors.
翻訳日:2022-05-13 05:30:25 公開日:2022-05-11
# (参考訳) インクリメンタルソース精度推定による弱監視

Weak Supervision with Incremental Source Accuracy Estimation ( http://arxiv.org/abs/2205.05302v1 )

ライセンス: CC BY 4.0
Richard Gresham Correro(参考訳) リアルタイムデータにラベルを生成したいという欲求により,弱監督源の依存性構造と精度を漸進的に推定する手法を開発した。 提案手法は,まず管理ソースに関連付けられた依存関係構造を推定し,新たなデータ受信時に推定ソースの精度を反復的に更新する。 公開データセットとヒューリスティック関数を用いてトレーニングされた既成の分類モデルを用いて,本手法が既存のオフライン手法と一致する精度で確率ラベルを生成することを示す。

Motivated by the desire to generate labels for real-time data we develop a method to estimate the dependency structure and accuracy of weak supervision sources incrementally. Our method first estimates the dependency structure associated with the supervision sources and then uses this to iteratively update the estimated source accuracies as new data is received. Using both off-the-shelf classification models trained using publicly-available datasets and heuristic functions as supervision sources we show that our method generates probabilistic labels with an accuracy matching that of existing off-line methods.
翻訳日:2022-05-13 05:09:39 公開日:2022-05-11
# (参考訳) 説明可能な意思決定アルゴリズムと説明可能な意思決定アルゴリズムの対立

The Conflict Between Explainable and Accountable Decision-Making Algorithms ( http://arxiv.org/abs/2205.05306v1 )

ライセンス: CC BY 4.0
Gabriel Lima, Nina Grgi\'c-Hla\v{c}a, Jin Keun Jeong, Meeyoung Cha(参考訳) 意思決定アルゴリズムは、誰が医療プログラムに登録され、雇用されるべきかといった重要な決定に使われています。 これらのシステムは、現在高リスクシナリオにデプロイされているが、多くは彼らの決定を説明することができない。 この制限により、説明可能な人工知能(XAI)イニシアチブは、法的要件に準拠し、信頼を促進し、説明責任を維持するためにアルゴリズムを説明できるようにする。 本稿では,自律型AIシステムによって引き起こされる責任問題の解決に,説明可能性がどの程度役立つのかを問う。 ポストホックな説明を提供するxaiシステムは非難に値するエージェントと見なすことができ、意思決定プロセスにおいて開発者の責任を負うことができると提案する。 さらに,xaiは,説明可能なアルゴリズムを制御しているという誤った認識により,アルゴリズム的意思決定(すなわち患者)を受けるような,脆弱な利害関係者に対する責任の帰属を誤ったものにする可能性がある。 この説明可能性と説明責任の対立は、デザイナーがアルゴリズムと患者を道徳的および法的スケープゴートとして使用する場合、さらに悪化する可能性がある。 我々は,アルゴリズムによる意思決定の社会技術的プロセスにおいて,この緊張にどのようにアプローチするか,デザイナーが責任を負うことを防ぐための厳しい規制を守るための一連の勧告で結論付けた。

Decision-making algorithms are being used in important decisions, such as who should be enrolled in health care programs and be hired. Even though these systems are currently deployed in high-stakes scenarios, many of them cannot explain their decisions. This limitation has prompted the Explainable Artificial Intelligence (XAI) initiative, which aims to make algorithms explainable to comply with legal requirements, promote trust, and maintain accountability. This paper questions whether and to what extent explainability can help solve the responsibility issues posed by autonomous AI systems. We suggest that XAI systems that provide post-hoc explanations could be seen as blameworthy agents, obscuring the responsibility of developers in the decision-making process. Furthermore, we argue that XAI could result in incorrect attributions of responsibility to vulnerable stakeholders, such as those who are subjected to algorithmic decisions (i.e., patients), due to a misguided perception that they have control over explainable algorithms. This conflict between explainability and accountability can be exacerbated if designers choose to use algorithms and patients as moral and legal scapegoats. We conclude with a set of recommendations for how to approach this tension in the socio-technical process of algorithmic decision-making and a defense of hard regulation to prevent designers from escaping responsibility.
翻訳日:2022-05-13 05:00:46 公開日:2022-05-11
# (参考訳) Deep Depth Completion: 調査

Deep Depth Completion: A Survey ( http://arxiv.org/abs/2205.05335v1 )

ライセンス: CC BY 4.0
Junjie Hu, Chenyu Bao, Mete Ozay, Chenyou Fan, Qing Gao, Honghai Liu, Tin Lun Lam(参考訳) 深度補正は、深度センサから取得したスパースマップから高密度画素幅の深さを予測することを目的としている。 自動運転、3D再構築、拡張現実、ロボットナビゲーションなど、さまざまな応用において重要な役割を果たす。 このタスクの最近の成功は、ディープラーニングベースのソリューションによって実証され、支配されている。 本稿では,本論文で初めて,読者が研究動向をより深く把握し,現在の進歩を明確に理解するための総合的な文献レビューを行う。 本研究では,ネットワークアーキテクチャ,損失関数,ベンチマークデータセット,学習戦略の設計的側面から,既存の手法を分類する新しい分類法を提案する。 また,屋内データセットと屋外データセットを含む2つのベンチマークデータセットにおけるモデル性能の定量的比較を行った。 最後に,先行研究の課題を議論し,今後の研究方向性に関する洞察を読者に提供する。

Depth completion aims at predicting dense pixel-wise depth from a sparse map captured from a depth sensor. It plays an essential role in various applications such as autonomous driving, 3D reconstruction, augmented reality, and robot navigation. Recent successes on the task have been demonstrated and dominated by deep learning based solutions. In this article, for the first time, we provide a comprehensive literature review that helps readers better grasp the research trends and clearly understand the current advances. We investigate the related studies from the design aspects of network architectures, loss functions, benchmark datasets, and learning strategies with a proposal of a novel taxonomy that categorizes existing methods. Besides, we present a quantitative comparison of model performance on two widely used benchmark datasets, including an indoor and an outdoor dataset. Finally, we discuss the challenges of prior works and provide readers with some insights for future research directions.
翻訳日:2022-05-13 04:39:36 公開日:2022-05-11
# (参考訳) マルチタスクガウスベイズネットワークの学習

Learning Multitask Gaussian Bayesian Networks ( http://arxiv.org/abs/2205.05343v1 )

ライセンス: CC BY 4.0
Shuai Liu, Yixuan Qiu, Baojuan Li, Huaning Wang and Xiangyu Chang(参考訳) 大うつ病(MDD)は、脳の機能的接続変化の研究を必要とするが、この変化は、静止状態の機能的磁気共鳴画像(rs-fMRI)データによって発見できる。 単一のMDD患者に対する脳機能的接続の変化を特定することの問題点を考察する。 fMRIスキャンで収集されるデータの量は、個々の分析に十分な情報を提供するには限られているため、これは特に困難である。 さらに、RS-fMRIデータは通常、不完全性、疎性、変動性、高次元性、高雑音の特徴を持つ。 これらの課題に対処するために,MDD患者に対する個別の疾患誘発変化を識別できるマルチタスクガウスベイズネットワーク(MTGBN)を提案する。 このような疾患によって引き起こされる変化は、観測からシステムの構造理解までのネットワーク構造を関連するタスクから学ぶためのツールと、ある程度の類似性を示していると仮定する。 まず、各患者をタスクとして観察クラスに分類し、事前知識をエンコードするデフォルト共分散行列を共有するすべてのタスクから学習することで、このデータクラスのガウスベイズネットワーク(gbns)を学習する。 この設定は、限られたデータからより多くの情報を学ぶのに役立つ。 次に、完全確率関数の閉形式式を導出し、モンテカルロ予想最大化(MCEM)アルゴリズムを用いて、ほぼ最高のベイズネットワーク構造を効率的に探索する。 最後に,シミュレーションおよび実世界のrs-fMRIデータを用いて,本手法の性能を評価する。

Major depressive disorder (MDD) requires study of brain functional connectivity alterations for patients, which can be uncovered by resting-state functional magnetic resonance imaging (rs-fMRI) data. We consider the problem of identifying alterations of brain functional connectivity for a single MDD patient. This is particularly difficult since the amount of data collected during an fMRI scan is too limited to provide sufficient information for individual analysis. Additionally, rs-fMRI data usually has the characteristics of incompleteness, sparsity, variability, high dimensionality and high noise. To address these problems, we proposed a multitask Gaussian Bayesian network (MTGBN) framework capable for identifying individual disease-induced alterations for MDD patients. We assume that such disease-induced alterations show some degrees of similarity with the tool to learn such network structures from observations to understanding of how system are structured jointly from related tasks. First, we treat each patient in a class of observation as a task and then learn the Gaussian Bayesian networks (GBNs) of this data class by learning from all tasks that share a default covariance matrix that encodes prior knowledge. This setting can help us to learn more information from limited data. Next, we derive a closed-form formula of the complete likelihood function and use the Monte-Carlo Expectation-Maximization(MCEM) algorithm to search for the approximately best Bayesian network structures efficiently. Finally, we assess the performance of our methods with simulated and real-world rs-fMRI data.
翻訳日:2022-05-13 03:46:29 公開日:2022-05-11
# (参考訳) 変分オートエンコーダを用いたMMSEチャネル推定

Variational Autoencoder Leveraged MMSE Channel Estimation ( http://arxiv.org/abs/2205.05345v1 )

ライセンス: CC BY 4.0
Michael Baur, Benedikt Fesl, Michael Koller, Wolfgang Utschick(参考訳) 本稿では,データ駆動チャネル推定のための変分オートエンコーダ(vae)を提案する。 真かつ未知のチャネル分布は、vaeによって新しい方法で条件付きガウス分布としてモデル化され、各第1および第2次条件付きモーメントによってパラメータ化される。 その結果、vaeの潜在サンプルに条件づけられた変種における線形最小平均二乗誤差(lmmse)推定器は最適なmse推定器に近似することがわかった。 さらに,VAEに基づくチャネル推定器がMMSEチャネル推定器を近似する方法について論じる。 本稿では,トレーニングと推定に使用するデータが異なる3種類のVAE推定器を提案する。 まず,推定時にVAEの入力時に完全に既知のチャネル状態が与えられると,推定シナリオのベンチマーク結果として機能する推定器が得られることを示す。 次に,訓練段階においてのみ,あるいは全く必要とされない完全既知のチャネル状態情報が必要となるような,実現可能なアプローチを提案する。 3GPP と QuaDRiGa のチャネルデータによるシミュレーション結果から,他のチャネル推定法と比較して,実用的アプローチとVAE 手法の優位性が小さいことを示す。

We propose to utilize a variational autoencoder (VAE) for data-driven channel estimation. The underlying true and unknown channel distribution is modeled by the VAE as a conditional Gaussian distribution in a novel way, parameterized by the respective first and second order conditional moments. As a result, it can be observed that the linear minimum mean square error (LMMSE) estimator in its variant conditioned on the latent sample of the VAE approximates an optimal MSE estimator. Furthermore, we argue how a VAE-based channel estimator can approximate the MMSE channel estimator. We propose three variants of VAE estimators that differ in the data used during training and estimation. First, we show that given perfectly known channel state information at the input of the VAE during estimation, which is impractical, we obtain an estimator that can serve as a benchmark result for an estimation scenario. We then propose practically feasible approaches, where perfectly known channel state information is only necessary in the training phase or is not needed at all. Simulation results on 3GPP and QuaDRiGa channel data attest a small performance loss of the practical approaches and the superiority of our VAE approaches in comparison to other related channel estimation methods.
翻訳日:2022-05-13 03:45:14 公開日:2022-05-11
# (参考訳) パーキンソン病の複雑な2面スマートウォッチ検査を機械学習精度を保つ効率的な片面検査に還元する

Reducing a complex two-sided smartwatch examination for Parkinson's Disease to an efficient one-sided examination preserving machine learning accuracy ( http://arxiv.org/abs/2205.05361v1 )

ライセンス: CC BY 4.0
Alexander Brenner, Michael Fujarski, Tobias Warnecke and Julian Varghese(参考訳) 近年、スマートコンシューマデバイスからのセンサは、運動障害の識別においてデジタルバイオマーカーとして機能する可能性が高まっている。 広く利用可能なスマートウォッチの使用により、私たちはParkinson's Disease (PD)の研究に先立ち、技術に基づく評価を行う参加者を記録しました。 対象は、PD患者、差動診断(DD)、健康管理(HC)など504名で、2つのスマートウォッチと2つのスマートフォンを総合的に利用した。 我々の知る限りでは、この研究は2手同期スマートウォッチの最大のPDサンプルサイズを提供した。 PDスクリーニングにおける今後のホームベースアセスメントシステムを確立するため,一方の尺度のみを用いて大幅に削減されたアセスメントに基づいてシステムの性能を体系的に評価し,分類精度を維持できるかどうかを検討した。

Sensors from smart consumer devices have demonstrated high potential to serve as digital biomarkers in the identification of movement disorders in recent years. With the usage of broadly available smartwatches we have recorded participants performing technology-based assessments in a prospective study to research Parkinson's Disease (PD). In total, 504 participants, including PD patients, differential diagnoses (DD) and healthy controls (HC), were captured with a comprehensive system utilizing two smartwatches and two smartphones. To the best of our knowledge, this study provided the largest PD sample size of two-hand synchronous smartwatch measurements. To establish a future easy-to use home-based assessment system in PD screening, we systematically evaluated the performance of the system based on a significantly reduced set of assessments with only one-sided measures and assessed, whether we can maintain classification accuracy.
翻訳日:2022-05-13 03:32:31 公開日:2022-05-11
# (参考訳) CVTT: 時間を通してのクロスバリデーション

CVTT: Cross-Validation Through Time ( http://arxiv.org/abs/2205.05393v1 )

ライセンス: CC BY 4.0
Sergey Kolesnikov, Mikhail Andronov(参考訳) 推薦システム評価の実践的側面は,研究コミュニティにおいて活発に議論されているトピックである。 現在の評価手法の多くは、モデル比較の簡単なアプローチとして、単一値のメトリクスにパフォーマンスをもたらすが、これは時間とともにメソッドの安定したパフォーマンスを強く仮定することに基づいている。 本稿では,手法の連続的な性能をなくすことで,共同データ・メソッド効果の貴重な洞察を失う可能性があると論じる。 本稿では,クロスバリデーション思考時間(CVTT)手法を提案し,より詳細な評価を行い,時間とともにクロスバリデーションのパフォーマンスをモデル化する。 提案手法を用いて、一般的なRecSysアルゴリズムの性能を様々なメトリクスやデータセットに対して詳細に分析する。 また、モデルの性能への影響を分析するために、いくつかのデータ準備と評価戦略を比較した。 その結果、モデルの性能は時間とともに大きく変化し、データと評価のセットアップがそれに顕著な影響を与えうることがわかった。

The practical aspects of evaluating recommender systems is an actively discussed topic in the research community. While many current evaluation techniques bring performance down to a single-value metric as a straightforward approach for model comparison, it is based on a strong assumption of the methods' stable performance over time. In this paper, we argue that leaving out a method's continuous performance can lead to losing valuable insight into joint data-method effects. We propose the Cross-Validation Thought Time (CVTT) technique to perform more detailed evaluations, which focus on model cross-validation performance over time. Using the proposed technique, we conduct a detailed analysis of popular RecSys algorithms' performance against various metrics and datasets. We also compare several data preparation and evaluation strategies to analyze their impact on model performance. Our results show that model performance can vary significantly over time, and both data and evaluation setup can have a marked effect on it.
翻訳日:2022-05-13 03:27:31 公開日:2022-05-11
# (参考訳) 確率的変分平滑化モデルチェック

Stochastic Variational Smoothed Model Checking ( http://arxiv.org/abs/2205.05398v1 )

ライセンス: CC BY 4.0
Luca Bortolussi, Francesca Cairoli, Ginevra Carbone, Paolo Pulcini(参考訳) パラメトリック確率モデルのモデルチェックは、モデルのパラメータの関数としてある性質の満足度確率をチェックするものとして表現することができる。 smoothed model checking (smmc) はガウス過程(gp)を利用して、シミュレーションによって得られた限られた観測集合からパラメータ空間全体の満足度関数を推定する。 このアプローチは、統計的に不確実性の定量化を伴う正確な再構成を提供する。 しかし、GPのスケーラビリティの問題を継承している。 本稿では、確率論的機械学習の最近の進歩を利用して、この制限を推し進め、ベイジアン推定のsmMCを大規模データセットにスケーラブルにし、パラメータ集合の次元の観点からより大きなモデルに適用できるようにする。 本稿では,SVI(Stochastic Variational Inference)を利用して,smMC問題の後部分布を近似する手法であるStochastic Variational Smoothed Model Checking (SV-smMC)を提案する。 SVIの強度と柔軟性により、SV-smMCはガウス過程(GP)とベイズニューラルネットワーク(BNN)の2つの代替確率モデルに適用できる。 さらに、SVIは推論を簡単に並列化し、GPUアクセラレーションを可能にする。 本稿では, SV-smMCのスケーラビリティ, 計算効率, 再構成された満足度関数の精度について, smMCとSV-smMCの性能を比較した。

Model-checking for parametric stochastic models can be expressed as checking the satisfaction probability of a certain property as a function of the parameters of the model. Smoothed model checking (smMC) leverages Gaussian Processes (GP) to infer the satisfaction function over the entire parameter space from a limited set of observations obtained via simulation. This approach provides accurate reconstructions with statistically sound quantification of the uncertainty. However, it inherits the scalability issues of GP. In this paper, we exploit recent advances in probabilistic machine learning to push this limitation forward, making Bayesian inference of smMC scalable to larger datasets, enabling its application to larger models in terms of the dimension of the parameter set. We propose Stochastic Variational Smoothed Model Checking (SV-smMC), a solution that exploits stochastic variational inference (SVI) to approximate the posterior distribution of the smMC problem. The strength and flexibility of SVI make SV-smMC applicable to two alternative probabilistic models: Gaussian Processes (GP) and Bayesian Neural Networks (BNN). Moreover, SVI makes inference easily parallelizable and it enables GPU acceleration. In this paper, we compare the performances of smMC against those of SV-smMC by looking at the scalability, the computational efficiency and at the accuracy of the reconstructed satisfaction function.
翻訳日:2022-05-13 03:15:32 公開日:2022-05-11
# (参考訳) 歩行者咬合レベル分類のための客観的手法

An Objective Method for Pedestrian Occlusion Level Classification ( http://arxiv.org/abs/2205.05412v1 )

ライセンス: CC BY 4.0
Shane Gilroy, Martin Glavin, Edward Jones and Darragh Mullins(参考訳) 歩行者検出は、自動運転車の運転支援システムの最も安全性に重要な特徴の一つである。 最も複雑な検出課題の1つは部分的閉塞であり、対象物体が他の前景物体による妨害によってセンサーに部分的にしか利用できない。 現在の歩行者検出ベンチマークでは、これらのシナリオにおけるアルゴリズム性能を評価するために部分閉塞のアノテーションを提供しているが、それぞれのベンチマークは、閉塞の発生と重症度の定義において大きく異なる。 加えて、現在の閉塞レベルアノテーション法は、人間のアノテーションによる高い主観性を含む。 これは、どのベンチマークが使用されるかによって、部分的に閉塞された歩行者に対するアルゴリズムの検出性能が不正確または一貫性のない報告につながる可能性がある。 本研究では,歩行者の咬合レベル分類のための新しい客観的手法を提案する。 閉塞レベル分類は、視認可能な歩行者キーポイントの識別と、新しい2次元体表面積推定法を用いて達成される。 実験の結果,提案手法は画像中の歩行者のピクセル単位の咬合レベルを反映しており,自己閉塞,切断,閉塞間歩行者などのエッジケースを含むあらゆる形態の咬合に有効であることがわかった。

Pedestrian detection is among the most safety-critical features of driver assistance systems for autonomous vehicles. One of the most complex detection challenges is that of partial occlusion, where a target object is only partially available to the sensor due to obstruction by another foreground object. A number of current pedestrian detection benchmarks provide annotation for partial occlusion to assess algorithm performance in these scenarios, however each benchmark varies greatly in their definition of the occurrence and severity of occlusion. In addition, current occlusion level annotation methods contain a high degree of subjectivity by the human annotator. This can lead to inaccurate or inconsistent reporting of an algorithm's detection performance for partially occluded pedestrians, depending on which benchmark is used. This research presents a novel, objective method for pedestrian occlusion level classification for ground truth annotation. Occlusion level classification is achieved through the identification of visible pedestrian keypoints and through the use of a novel, effective method of 2D body surface area estimation. Experimental results demonstrate that the proposed method reflects the pixel-wise occlusion level of pedestrians in images and is effective for all forms of occlusion, including challenging edge cases such as self-occlusion, truncation and inter-occluding pedestrians.
翻訳日:2022-05-13 02:54:11 公開日:2022-05-11
# (参考訳) ALIGNMEET:ミーティングアノテーション、アライメント、評価のための総合ツール

ALIGNMEET: A Comprehensive Tool for Meeting Annotation, Alignment, and Evaluation ( http://arxiv.org/abs/2205.05433v1 )

ライセンス: CC BY 4.0
Peter Pol\'ak, Muskaan Singh, Anna Nedoluzhko, Ond\v{r}ej Bojar(参考訳) 要約は難しい問題であり、さらに難しいのは、手動で要約を作成し、修正し、評価することだ。 会議設定において、入力が多人数対話であるときに問題の深刻度が増大する。 そこで本研究では,アノテーション,アライメント,評価の総合的なツールであるALIGNMEETについて紹介する。 このツールは、エラーを起こすリスクを軽減しつつ、高速なアノテーションのための効率的で明確なインターフェースを提供することを目的としている。 さらに,会議時間に関する総合的な品質評価を可能にする評価モードも追加する。 私たちの知る限りでは、そのようなツールは利用できません。 ツールをオープンソースとしてリリースしています。 PyPIから直接インストールすることもできる。

Summarization is a challenging problem, and even more challenging is to manually create, correct, and evaluate the summaries. The severity of the problem grows when the inputs are multi-party dialogues in a meeting setup. To facilitate the research in this area, we present ALIGNMEET, a comprehensive tool for meeting annotation, alignment, and evaluation. The tool aims to provide an efficient and clear interface for fast annotation while mitigating the risk of introducing errors. Moreover, we add an evaluation mode that enables a comprehensive quality evaluation of meeting minutes. To the best of our knowledge, there is no such tool available. We release the tool as open source. It is also directly installable from PyPI.
翻訳日:2022-05-13 02:37:22 公開日:2022-05-11
# (参考訳) 深層学習と弱信号解析を用いた新興技術の検出とその進化

Detecting Emerging Technologies and their Evolution using Deep Learning and Weak Signal Analysis ( http://arxiv.org/abs/2205.05449v1 )

ライセンス: CC BY 4.0
Ashkan Ebadi and Alain Auger and Yvan Gauthier(参考訳) 新興技術は経済に大きな影響を与え、戦略的安定に影響を及ぼす可能性がある。 しかし、新興技術の早期発見は依然として困難である。 新興テクノロジをタイムリーかつ信頼性の高い方法で識別するためには,関連する科学技術動向とその関連文献を総合的に検討する必要がある。 この試験は一般的にドメインの専門家によって行われ、洞察を得るためにかなりの時間と労力を要する。 S&Tトレンドから新興技術を特定するためのドメインエキスパートの使用は、大量の情報を分析し、アセスメントに主観性を導入する能力を制限する可能性がある。 意思決定支援システムは、環境の定常的かつ継続的な監視を通じて、正確で信頼性の高い証拠に基づく指標を提供し、セキュリティと経済の繁栄を変える可能性のある新興技術のシグナルを特定するのに役立つ。 例えば、超音速の研究分野は、最近、重要な技術、商業、および国家安全保障に影響を及ぼすいくつかの進歩を目撃している。 本研究では,深層学習と弱信号解析を利用して,超音速科学論文から将来の兆候を識別できる多層定量的手法を提案する。 提案されたフレームワークは、戦略的プランナーやドメインの専門家が新興技術トレンドを特定し監視するのに役立つ。

Emerging technologies can have major economic impacts and affect strategic stability. Yet, early identification of emerging technologies remains challenging. In order to identify emerging technologies in a timely and reliable manner, a comprehensive examination of relevant scientific and technological (S&T) trends and their related references is required. This examination is generally done by domain experts and requires significant amounts of time and effort to gain insights. The use of domain experts to identify emerging technologies from S&T trends may limit the capacity to analyse large volumes of information and introduce subjectivity in the assessments. Decision support systems are required to provide accurate and reliable evidence-based indicators through constant and continuous monitoring of the environment and help identify signals of emerging technologies that could alter security and economic prosperity. For example, the research field of hypersonics has recently witnessed several advancements having profound technological, commercial, and national security implications. In this work, we present a multi-layer quantitative approach able to identify future signs from scientific publications on hypersonics by leveraging deep learning and weak signal analysis. The proposed framework can help strategic planners and domain experts better identify and monitor emerging technology trends.
翻訳日:2022-05-13 02:23:17 公開日:2022-05-11
# (参考訳) イベント抽出のための低データ設定における粗粒データの利用

Utilizing coarse-grained data in low-data settings for event extraction ( http://arxiv.org/abs/2205.05468v1 )

ライセンス: CC BY 4.0
Osman Mutlu(参考訳) イベント情報抽出システムのテキストデータの注釈付けは難しく、高価で、エラーを起こしやすい。 より多くの文書に注釈をつけるのではなく、より入手しやすい粗粒度データ(文書や文ラベル)の統合の可能性を検討する。 トークン分類のメインタスクに加えて,文書と文のバイナリ分類という2つの補助タスクを備えたマルチタスクモデルを利用する。 上記の統合のために,様々なデータレジームを用いた一連の実験を行う。 その結果、余分な粗いデータを導入することで、改善と堅牢性が向上する一方で、いかなるイベントに関する情報も持たない負のドキュメントを追加するだけで利益が得られます。

Annotating text data for event information extraction systems is hard, expensive, and error-prone. We investigate the feasibility of integrating coarse-grained data (document or sentence labels), which is far more feasible to obtain, instead of annotating more documents. We utilize a multi-task model with two auxiliary tasks, document and sentence binary classification, in addition to the main task of token classification. We perform a series of experiments with varying data regimes for the aforementioned integration. Results show that while introducing extra coarse-grained data offers greater improvement and robustness, a gain is still possible with only the addition of negative documents that have no information on any event.
翻訳日:2022-05-13 02:06:03 公開日:2022-05-11
# (参考訳) DeepFilterNet2: 組み込みデバイスによるフルバンドオーディオのリアルタイム音声強調

DeepFilterNet2: Towards Real-Time Speech Enhancement on Embedded Devices for Full-Band Audio ( http://arxiv.org/abs/2205.05474v1 )

ライセンス: CC BY-SA 4.0
Hendrik Schr\"oter, Alberto N. Escalante-B., Tobias Rosenkranz, Andreas Maier(参考訳) ディープラーニングベースの音声強調は大幅に改善され、最近はフルバンドオーディオ(48kHz)にも拡張された。 しかし、多くのアプローチは計算の複雑さがかなり高く、時間的畳み込みや注意によるリアルタイム利用には大きな時間的バッファを必要とする。 どちらも、組み込みデバイスでは実現不可能なアプローチだ。 この研究はさらにDeepFilterNetを拡張し、効率的な音声強調(SE)を可能にする音声の調和構造を利用する。 トレーニング手順、データ拡張、ネットワーク構造におけるいくつかの最適化は、ノートブックのCore-i5 CPU上でのリアルタイム係数を0.04に抑えながら、最先端のSEパフォーマンスをもたらす。 これにより,組込みデバイス上でリアルタイムに動作可能なアルゴリズムが実現される。 deepfilternetフレームワークはオープンソースライセンスで入手することができる。

Deep learning-based speech enhancement has seen huge improvements and recently also expanded to full band audio (48 kHz). However, many approaches have a rather high computational complexity and require big temporal buffers for real time usage e.g. due to temporal convolutions or attention. Both make those approaches not feasible on embedded devices. This work further extends DeepFilterNet, which exploits harmonic structure of speech allowing for efficient speech enhancement (SE). Several optimizations in the training procedure, data augmentation, and network structure result in state-of-the-art SE performance while reducing the real-time factor to 0.04 on a notebook Core-i5 CPU. This makes the algorithm applicable to run on embedded devices in real-time. The DeepFilterNet framework can be obtained under an open source license.
翻訳日:2022-05-13 02:05:11 公開日:2022-05-11
# (参考訳) 連続表現学習のためのコントラスト教師付き蒸留

Contrastive Supervised Distillation for Continual Representation Learning ( http://arxiv.org/abs/2205.05476v1 )

ライセンス: CC BY 4.0
Tommaso Barletti, Niccolo' Biondi, Federico Pernici, Matteo Bruni, Alberto Del Bimbo(参考訳) 本稿では,ニューラルネットワークモデルを逐次学習し,視覚検索タスクにおける破滅的な忘れを軽減させる連続表現学習問題に対する新たなトレーニング手順を提案する。 Contrastive Supervised Distillation (CSD) と呼ばれる本手法は, 識別的特徴を学習しながら, 特徴忘れを減らす。 これは、学生モデルが教師モデルから対照的に学習される蒸留環境でラベル情報を活用することで達成される。 大規模な実験により、CSDは破滅的な忘れを軽減し、最先端の手法より優れていることが示されている。 また,視覚検索タスクで評価された特徴忘れは,分類タスクほど破滅的ではないことを示す。 コード・アット: https://github.com/niccobiondi/contrastivesuperviseddistillation。

In this paper, we propose a novel training procedure for the continual representation learning problem in which a neural network model is sequentially learned to alleviate catastrophic forgetting in visual search tasks. Our method, called Contrastive Supervised Distillation (CSD), reduces feature forgetting while learning discriminative features. This is achieved by leveraging labels information in a distillation setting in which the student model is contrastively learned from the teacher model. Extensive experiments show that CSD performs favorably in mitigating catastrophic forgetting by outperforming current state-of-the-art methods. Our results also provide further evidence that feature forgetting evaluated in visual retrieval tasks is not as catastrophic as in classification tasks. Code at: https://github.com/NiccoBiondi/ContrastiveSupervisedDistillation.
翻訳日:2022-05-13 01:53:13 公開日:2022-05-11
# (参考訳) 深層学習による結核とcovid-19の分類

Automatic Tuberculosis and COVID-19 cough classification using deep learning ( http://arxiv.org/abs/2205.05480v1 )

ライセンス: CC BY 4.0
Madhurananda Pahar, Marisa Klopper, Byron Reeve, Rob Warren, Grant Theron, Andreas Diacon and Thomas Niesler(参考訳) そこで本研究では,結核(tb)をcovid-19(covid-19-coough)と健康なcough(coough)と区別できる,ディープラーニングを用いた自動cough分類器を提案する。 TBとCOVID-19はどちらも呼吸器疾患で、有意な症状を呈し、毎年数千人の命が失われている。 coughオーディオ録音は、屋内と屋外の両方で収集され、世界中の被験者からスマートフォンを使ってアップロードされた。 データは、CNN、LSTM、Resnet50の訓練および評価に使用された1.68時間TBの生地、18.54分、47人のTB患者から1.69時間の健康的な生地、229人のCOVID-19患者、1498人の健康的な患者を含む。 これら3つの深い建築は、2.14時間のくしゃみ、2.91時間のスピーチ、2.79時間のノイズで事前訓練された。 SMOTEデータバランシング技術とF1スコアやAUCなどのパフォーマンス指標を用いて,データセットのクラス不均衡に対処した。 その結果,2級(tb対covid-19)のresnet50と3級(tb対covid-19対健康)のcough分類タスクから,0.9259と0.8631のf1-scoreの最高値が得られた。 ディープトランスファー学習の適用により、分類器の性能が向上し、クロスバリデーション・フォールドを一般化するにつれて、より堅牢になった。 彼らの業績は世界保健機関(WHO)が設定したTBトリアージテストの要求を上回る。 最高のパフォーマンスを生み出す特徴は、ヒトの耳によってTBとCOVID-19の生地の違いが認識できないことを示唆するMFCCのより高い順序を含んでいる。 このタイプのcoughオーディオ分類は非接触でコスト効率が高く、スマートフォンに簡単にデプロイできるため、tbとcovid-19スクリーニングの両方に優れたツールとなる。

We present a deep learning based automatic cough classifier which can discriminate tuberculosis (TB) coughs from COVID-19 coughs and healthy coughs. Both TB and COVID-19 are respiratory disease, have cough as a predominant symptom and claim thousands of lives each year. The cough audio recordings were collected at both indoor and outdoor settings and also uploaded using smartphones from subjects around the globe, thus contain various levels of noise. This cough data include 1.68 hours of TB coughs, 18.54 minutes of COVID-19 coughs and 1.69 hours of healthy coughs from 47 TB patients, 229 COVID-19 patients and 1498 healthy patients and were used to train and evaluate a CNN, LSTM and Resnet50. These three deep architectures were also pre-trained on 2.14 hours of sneeze, 2.91 hours of speech and 2.79 hours of noise for improved performance. The class-imbalance in our dataset was addressed by using SMOTE data balancing technique and using performance metrics such as F1-score and AUC. Our study shows that the highest F1-scores of 0.9259 and 0.8631 have been achieved from a pre-trained Resnet50 for two-class (TB vs COVID-19) and three-class (TB vs COVID-19 vs healthy) cough classification tasks, respectively. The application of deep transfer learning has improved the classifiers' performance and makes them more robust as they generalise better over the cross-validation folds. Their performances exceed the TB triage test requirements set by the world health organisation (WHO). The features producing the best performance contain higher order of MFCCs suggesting that the differences between TB and COVID-19 coughs are not perceivable by the human ear. This type of cough audio classification is non-contact, cost-effective and can easily be deployed on a smartphone, thus it can be an excellent tool for both TB and COVID-19 screening.
翻訳日:2022-05-13 01:41:43 公開日:2022-05-11
# (参考訳) 映像シーンセグメンテーションのためのシーン一貫性表現学習

Scene Consistency Representation Learning for Video Scene Segmentation ( http://arxiv.org/abs/2205.05487v1 )

ライセンス: CC BY 4.0
Haoqian Wu, Keyu Chen, Yanan Luo, Ruizhi Qiao, Bo Ren, Haozhe Liu, Weicheng Xie, Linlin Shen(参考訳) 映画やテレビ番組のような長期ビデオは様々なシーンで構成されており、それぞれが同じ意味のストーリーを共有する一連のショットを表している。 モデルがビデオのストーリーラインを理解して、シーンの開始と終了の場所を理解する必要があるため、長期的なビデオから適切なシーン境界を見つけることは難しい作業である。 そこで本稿では,ラベルのない長期ビデオからより優れたショット表現を学習するための,効果的な自己監視学習(SSL)フレームワークを提案する。 具体的には,シーンの一貫性を実現するためのSSLスキームを提案するとともに,モデルの一般化性を高めるためのデータ拡張とシャッフル手法を提案する。 先行手法のようにシーン境界特徴を明示的に学習する代わりに,ショット特徴の品質を検証するために,帰納的バイアスの少ないバニラ時間モデルを導入する。 本手法は,映像シーンセグメンテーションのタスクにおける最先端性能を実現する。 さらに,映像シーンセグメンテーション手法の性能を評価するための,より公平で合理的なベンチマークを提案する。 コードは利用可能である。

A long-term video, such as a movie or TV show, is composed of various scenes, each of which represents a series of shots sharing the same semantic story. Spotting the correct scene boundary from the long-term video is a challenging task, since a model must understand the storyline of the video to figure out where a scene starts and ends. To this end, we propose an effective Self-Supervised Learning (SSL) framework to learn better shot representations from unlabeled long-term videos. More specifically, we present an SSL scheme to achieve scene consistency, while exploring considerable data augmentation and shuffling methods to boost the model generalizability. Instead of explicitly learning the scene boundary features as in the previous methods, we introduce a vanilla temporal model with less inductive bias to verify the quality of the shot features. Our method achieves the state-of-the-art performance on the task of Video Scene Segmentation. Additionally, we suggest a more fair and reasonable benchmark to evaluate the performance of Video Scene Segmentation methods. The code is made available.
翻訳日:2022-05-13 01:23:39 公開日:2022-05-11
# (参考訳) ロボットをプロアクティブにする2つの方法:人間の意図を推論するか、未来を推論するか

Two ways to make your robot proactive: reasoning about human intentions, or reasoning about possible futures ( http://arxiv.org/abs/2205.05492v1 )

ライセンス: CC BY 4.0
Sera Buyukgoz, Jasmin Grosinger, Mohamed Chetouani and Alessandro Saffiotti(参考訳) 人間と空間を共有するロボットは、役に立つために積極的に行動する必要がある。 プロアクティブなロボットは、人間の利益を期待して、自身のイニシアチブで行動することができる。 本研究では,ロボットをアクティブにするための2つの方法を検討する。 1つの方法は人間の意図を認識し、あなたが交差しようとしているドアを開くなど、それらを満たすために行動することである。 もう1つの方法は、将来起こりうる脅威や機会を推論し、雨が予測されてから傘を取るように勧めるなど、予防や育児を行うことである。 本稿では,これら2種類の行動を実現するためのアプローチを提案する。 そこで我々は,意図と予測という2つの要因を推論することで,能動的ロボット行動を生成するシステムを提案する。 我々は,本システムについて,家庭内ロボットと人間を含む実例で紹介する。 まず、このユースケースを2つの別々のプロアクティブシステム、すなわちインテントベースと予測ベースで実行し、統合システムで実行します。 その結果, 統合システムでは, 能動性に必要とされる様々な側面を考慮に入れることができることがわかった。

Robots sharing their space with humans need to be proactive in order to be helpful. Proactive robots are able to act on their own initiative in an anticipatory way to benefit humans. In this work, we investigate two ways to make robots proactive. One way is to recognize humans' intentions and to act to fulfill them, like opening the door that you are about to cross. The other way is to reason about possible future threats or opportunities and to act to prevent or to foster them, like recommending you to take an umbrella since rain has been forecasted. In this paper, we present approaches to realize these two types of proactive behavior. We then present an integrated system that can generate proactive robot behavior by reasoning on both factors: intentions and predictions. We illustrate our system on a sample use case including a domestic robot and a human. We first run this use case with the two separate proactive systems, intention-based and prediction-based, and then run it with our integrated system. The results show that the integrated system is able to take into account a broader variety of aspects that are needed for proactivity.
翻訳日:2022-05-13 01:12:19 公開日:2022-05-11
# (参考訳) 微小循環解析のための深層学習とコンピュータビジョン技術 : レビュー

Deep Learning and Computer Vision Techniques for Microcirculation Analysis: A Review ( http://arxiv.org/abs/2205.05493v1 )

ライセンス: CC BY 4.0
Maged Abdalla Helmy Mohamed Abdou, Trung Tuyen Truong, Eric Jul, Paulo Ferreira(参考訳) 微小循環画像の解析は、敗血症のような生命を脅かす病気の早期の兆候を明らかにする可能性がある。 微小循環画像中の毛細血管密度と毛細血管分布を定量化することは、重症患者の生物学的マーカーとして使用できる。 これらの生物学的マーカーの定量化は、労働集約的であり、時間を要する。 様々な性能を持つコンピュータビジョン技術は、上記の課題に照らしてこれらの微小循環画像の解析を自動化するために使用できる。 本稿では,50以上の研究論文を調査し,マイクロサーキュレーション画像の解析を自動化するための最も重要かつ有望なコンピュータビジョンアルゴリズムについて述べる。 さらに, マイクロサーキュレーション画像の解析を行うため, 他研究者が現在使用している手法について検討する。 この調査は、他の研究者がマイクロ循環分析システムやアルゴリズムを開発するための技術ガイドブックとして機能するため、高い臨床関連性がある。

The analysis of microcirculation images has the potential to reveal early signs of life-threatening diseases like sepsis. Quantifying the capillary density and the capillary distribution in microcirculation images can be used as a biological marker to assist critically ill patients. The quantification of these biological markers is labor-intensive, time-consuming, and subject to interobserver variability. Several computer vision techniques with varying performance can be used to automate the analysis of these microcirculation images in light of the stated challenges. In this paper, we present a survey of over 50 research papers and present the most relevant and promising computer vision algorithms to automate the analysis of microcirculation images. Furthermore, we present a survey of the methods currently used by other researchers to automate the analysis of microcirculation images. This survey is of high clinical relevance because it acts as a guidebook of techniques for other researchers to develop their microcirculation analysis systems and algorithms.
翻訳日:2022-05-13 00:50:54 公開日:2022-05-11
# (参考訳) textmatcher: 画像とテキストを比較するクロスタッチニューラルネットワーク

TextMatcher: Cross-Attentional Neural Network to Compare Image and Text ( http://arxiv.org/abs/2205.05507v1 )

ライセンス: CC BY-SA 4.0
Valentina Arrigoni, Luisa Repele, Dario Marino Saccavino(参考訳) 単行テキストと候補テキストの書き起こしを含む画像が与えられた場合、その画像に表されるテキストが候補テキストに対応するかどうかを評価することが目的である。 この問題に特化して設計された最初の機械学習モデルを考案する。 提案したモデルであるTextMatcherは,画像とテキストの埋め込み表現にクロスアテンション機構を適用して2つの入力を比較し,エンドツーエンドでトレーニングする。 一般的なIAMデータセット上で,TextMatcherの実証性能を広範囲に評価した。 その結果、関連する問題のために設計されたベースラインや既存のモデルと比較して、TextMatcherは様々な設定で高いパフォーマンスを達成し、同時に推論時に高速に動作できることが判明した。 また,銀行列の自動処理に関する実世界のアプリケーションシナリオでtextmatcherを紹介する。

We study a novel multimodal-learning problem, which we call text matching: given an image containing a single-line text and a candidate text transcription, the goal is to assess whether the text represented in the image corresponds to the candidate text. We devise the first machine-learning model specifically designed for this problem. The proposed model, termed TextMatcher, compares the two inputs by applying a cross-attention mechanism over the embedding representations of image and text, and it is trained in an end-to-end fashion. We extensively evaluate the empirical performance of TextMatcher on the popular IAM dataset. Results attest that, compared to a baseline and existing models designed for related problems, TextMatcher achieves higher performance on a variety of configurations, while at the same time running faster at inference time. We also showcase TextMatcher in a real-world application scenario concerning the automatic processing of bank cheques.
翻訳日:2022-05-13 00:10:01 公開日:2022-05-11
# (参考訳) 時系列予測のための効率的な自動ディープラーニング

Efficient Automated Deep Learning for Time Series Forecasting ( http://arxiv.org/abs/2205.05511v1 )

ライセンス: CC BY 4.0
Difan Deng, Florian Karl, Frank Hutter, Bernd Bischl, Marius Lindauer(参考訳) 近年、自動機械学習(automl)、特に自動ディープラーニング(autodl)システムの効率が大幅に向上しているが、最近の研究は表型、画像、nlpのタスクに焦点を当てている。 これまでのところ、こうしたタスクに異なる新しいアーキテクチャを適用する大きな成功にもかかわらず、時系列予測のための一般的なAutoDLフレームワークにはほとんど注意が払われていない。 本稿では,時系列予測のためのデータ処理パイプライン全体のニューラルアーキテクチャとハイパーパラメータの協調最適化のための効率的な手法を提案する。 一般的なnas検索空間とは対照的に、我々は様々な最先端アーキテクチャをカバーする新しいニューラルネットワーク検索空間を設計し、様々なdlアプローチで効率的なマクロ検索を可能にした。 このような大きな構成空間を効率的に探索するために,マルチフィデリティ最適化を伴うベイズ最適化を用いる。 異なる予測データセット上で効率の良い多重忠実度最適化を実現するために,様々な予算タイプを実証的に検討する。 さらに,提案システムであるauto-pytorch-tsをいくつかの確立されたベースラインと比較し,複数のデータセットで比較した。

Recent years have witnessed tremendously improved efficiency of Automated Machine Learning (AutoML), especially Automated Deep Learning (AutoDL) systems, but recent work focuses on tabular, image, or NLP tasks. So far, little attention has been paid to general AutoDL frameworks for time series forecasting, despite the enormous success in applying different novel architectures to such tasks. In this paper, we propose an efficient approach for the joint optimization of neural architecture and hyperparameters of the entire data processing pipeline for time series forecasting. In contrast to common NAS search spaces, we designed a novel neural architecture search space covering various state-of-the-art architectures, allowing for an efficient macro-search over different DL approaches. To efficiently search in such a large configuration space, we use Bayesian optimization with multi-fidelity optimization. We empirically study several different budget types enabling efficient multi-fidelity optimization on different forecasting datasets. Furthermore, we compared our resulting system, dubbed Auto-PyTorch-TS, against several established baselines and show that it significantly outperforms all of them across several datasets.
翻訳日:2022-05-12 23:56:58 公開日:2022-05-11
# (参考訳) 友人の近さと反事実の近さ: 抽象的な設定において、最も近いものから学ぶことを改善する

Keep Your Friends Close and Your Counterfactuals Closer: Improved Learning From Closest Rather Than Plausible Counterfactual Explanations in an Abstract Setting ( http://arxiv.org/abs/2205.05515v1 )

ライセンス: CC BY 4.0
Ulrike Kuhl and Andr\'e Artelt and Barbara Hammer(参考訳) 対実的説明(CFE)は、モデル入力の変更が特定の方法で予測を変更したことを強調している。 CFEは、説明可能な人工知能(XAI)のための心理的基盤のソリューションとして、かなりの注目を集めている。 最近の技術革新は、自動生成cfeの計算可能性の概念を導入し、その頑健性を高める。 しかし,このような制約がユーザエクスペリエンスや行動に与える影響は,まだ不明である。 本研究では,初級ユーザを対象とした反復学習設計において,計算可能なCFEの客観的および主観的ユーザビリティを評価する。 私たちは、抽象的なシナリオを中心に展開する、ゲームのような新しい実験デザインに依存しています。 以上の結果から,初歩的なユーザは,望まれる結果につながる最小限の変更を生み出す最も近いCFEよりも,計算上妥当なメリットが少ないことがわかった。 ゲーム後調査における回答は,両グループ間の主観的ユーザエクスペリエンスの差異を示さなかった。 心理学的妥当性を比較的類似性として考えると、最も近い条件のユーザがCFEを計算学的に妥当なものよりも心理的に妥当な体験をしているという事実によって説明できる。 要約すると、我々の研究は、XAIアプローチの設計段階において、人間の行動、嗜好、精神モデルを組み込むことの必要性を批判的に確認し、計算の可否と心理的可否の定義の微妙な相違を強調している。 再現可能な研究の関心事として、すべてのソースコード、取得したユーザデータ、現在の研究の評価スクリプトが利用可能である。

Counterfactual explanations (CFEs) highlight what changes to a model's input would have changed its prediction in a particular way. CFEs have gained considerable traction as a psychologically grounded solution for explainable artificial intelligence (XAI). Recent innovations introduce the notion of computational plausibility for automatically generated CFEs, enhancing their robustness by exclusively creating plausible explanations. However, practical benefits of such a constraint on user experience and behavior is yet unclear. In this study, we evaluate objective and subjective usability of computationally plausible CFEs in an iterative learning design targeting novice users. We rely on a novel, game-like experimental design, revolving around an abstract scenario. Our results show that novice users actually benefit less from receiving computationally plausible rather than closest CFEs that produce minimal changes leading to the desired outcome. Responses in a post-game survey reveal no differences in terms of subjective user experience between both groups. Following the view of psychological plausibility as comparative similarity, this may be explained by the fact that users in the closest condition experience their CFEs as more psychologically plausible than the computationally plausible counterpart. In sum, our work highlights a little-considered divergence of definitions of computational plausibility and psychological plausibility, critically confirming the need to incorporate human behavior, preferences and mental models already at the design stages of XAI approaches. In the interest of reproducible research, all source code, acquired user data, and evaluation scripts of the current study are available: https://github.com/ukuhl/PlausibleAlienZoo
翻訳日:2022-05-12 23:33:26 公開日:2022-05-11
# (参考訳) 凍結言語モデルを用いた臨床即興学習

Clinical Prompt Learning with Frozen Language Models ( http://arxiv.org/abs/2205.05535v1 )

ライセンス: CC BY 4.0
Niall Taylor, Yi Zhang, Dan Joyce, Alejo Nevado-Holgado, Andrey Kormilitzin(参考訳) プロンプトラーニングは、自然言語処理(nlp)の分野で新しいパラダイムであり、多くの自然言語タスクにおいて印象的なパフォーマンスを示し、ベンチマークテキストデータセットをフル、少数、ゼロショットのトレーニング評価設定で提供する。 近年,大規模だが凍結した事前学習言語モデル (PLM) が,より小型だが微調整されたモデルよりも高速に学習できることが観察されている。 しかし、近年のNLPの動向と同様に、GPT-3のような最大のPLMでも、特定のドメイン(例えば医療用テキスト)では性能が良くなく、また、ステート・オブ・ザ・アート(SoTA)を達成するための一般的な実践は、下流タスクにおけるPLMの事前訓練と微調整によって構成されている。 非GPU環境においてデータが頻繁に保持される臨床環境では、微調整の大きなPLMへの依存が問題であり、特殊なドメインモデルを訓練するより効率的な手法が不可欠である。 臨床的に有意な意思決定課題における即時学習の有効性について検討し,従来の微調整法と直接比較した。 結果の一部はプロンプト学習文献と一致しており、トレーニング可能なパラメータが大幅に少なくなり、トレーニングデータが少なく、従来の微調整とマッチしたり改善したりすることができる。 そこで我々は,即時学習が臨床環境に適用可能な計算資源コストを低減し,PLMの増大に伴う微調整の代替となることを論じる。 この研究で提示された実験を再現するための補完コードは、https://github.com/NtaylorOX/Public_Clinical_Promptにある。

Prompt learning is a new paradigm in the Natural Language Processing (NLP) field which has shown impressive performance on a number of natural language tasks with common benchmarking text datasets in full, few-shot, and zero-shot train-evaluation setups. Recently, it has even been observed that large but frozen pre-trained language models (PLMs) with prompt learning outperform smaller but fine-tuned models. However, as with many recent NLP trends, the performance of even the largest PLMs such as GPT-3 do not perform well on specialized domains (e.g. medical text), and the common practice to achieve State of the Art (SoTA) results still consists of pre-training and fine-tuning the PLMs on downstream tasks. The reliance on fine-tuning large PLMs is problematic in clinical settings where data is often held in non-GPU environments, and more resource efficient methods of training specialized domain models is crucial. We investigated the viability of prompt learning on clinically meaningful decision tasks and directly compared with more traditional fine-tuning methods. Results are partially in line with the prompt learning literature, with prompt learning able to match or improve on traditional fine-tuning with substantially fewer trainable parameters and requiring less training data. We argue that prompt learning therefore provides lower computational resource costs applicable to clinical settings, that can serve as an alternative to fine-tuning ever increasing in size PLMs. Complementary code to reproduce experiments presented in this work can be found at: https://github.com/NtaylorOX/Public_Clinical_Prompt.
翻訳日:2022-05-12 22:53:36 公開日:2022-05-11
# (参考訳) 科学データに対するネットワーク内キャッシュのアクセス動向

Access Trends of In-network Cache for Scientific Data ( http://arxiv.org/abs/2205.05563v1 )

ライセンス: CC BY-SA 4.0
Ruize Han, Alex Sim, Kesheng Wu, Inder Monga, Chin Guok, Frank W\"urthwein, Diego Davila, Justas Balcas, Harvey Newman(参考訳) 科学的なコラボレーションは、自分たちの仕事のために大量のデータに依存しており、その多くは、そのデータを世界中のユーザコミュニティに複製するために階層化されたシステムを使用している。 コミュニティ内の各ユーザは、分析タスクのために異なるデータのサブセットを選択することが多いが、研究グループのメンバーは、しばしば同様のデータオブジェクトを必要とする関連する研究トピックに取り組んでいる。 したがって、かなりの量のデータ共有が可能となる。 本研究では,南カリフォルニアペタバイトスケールキャッシュとして知られるフェデレーションストレージキャッシュのアクセストレースについて検討する。 このキャッシュシステムによるアクセスパターンとネットワークトラフィック削減の可能性を調べることにより、キャッシュ利用の予測可能性と、より一般的なネットワーク内データキャッシュの可能性を検討することを目的とする。 本研究は,この分散ストレージキャッシュにより,研究期間中にネットワークトラフィックを2.35パーセント削減できることを示す。 さらに, 機械学習モデルにより, 0.88 の精度でキャッシュ利用を予測できることを示した。 これは、そのようなキャッシュの使用が予測可能であり、ネットワーク内キャッシュのような複雑なネットワークリソースを管理するのに有用であることを示している。

Scientific collaborations are increasingly relying on large volumes of data for their work and many of them employ tiered systems to replicate the data to their worldwide user communities. Each user in the community often selects a different subset of data for their analysis tasks; however, members of a research group often are working on related research topics that require similar data objects. Thus, there is a significant amount of data sharing possible. In this work, we study the access traces of a federated storage cache known as the Southern California Petabyte Scale Cache. By studying the access patterns and potential for network traffic reduction by this caching system, we aim to explore the predictability of the cache uses and the potential for a more general in-network data caching. Our study shows that this distributed storage cache is able to reduce the network traffic volume by a factor of 2.35 during a part of the study period. We further show that machine learning models could predict cache utilization with an accuracy of 0.88. This demonstrates that such cache usage is predictable, which could be useful for managing complex networking resources such as in-network caching.
翻訳日:2022-05-12 22:27:04 公開日:2022-05-11
# (参考訳) 重金属音楽における悲鳴検出

Scream Detection in Heavy Metal Music ( http://arxiv.org/abs/2205.05580v1 )

ライセンス: CC BY 4.0
Vedant Kalbag, Alexander Lerch(参考訳) 悲鳴やグロールのようなハーシュのボーカル効果は、伝統的に歌われたボーカルよりもヘビーメタルのボーカルでより一般的である。 本稿では,重金属音楽における極端な発声手法の検出と分類の問題,特に異なる発声技法の同定について考察する。 分類のための入力表現として,ケプストラム,スペクトル,時間的特徴を含む様々な特徴表現の適合性について検討した。 この作品の主な貢献は (i)多種多様なジャンルのヘビーメタル曲280分以上からなる手作業による注釈付きデータセットで、ヘビーメタル音楽における異種の極端声技術の発生を統計的に分析したもの (ii)重金属声帯分類のための入力特徴表現の系統的検討

Harsh vocal effects such as screams or growls are far more common in heavy metal vocals than the traditionally sung vocal. This paper explores the problem of detection and classification of extreme vocal techniques in heavy metal music, specifically the identification of different scream techniques. We investigate the suitability of various feature representations, including cepstral, spectral, and temporal features as input representations for classification. The main contributions of this work are (i) a manually annotated dataset comprised of over 280 minutes of heavy metal songs of various genres with a statistical analysis of occurrences of different extreme vocal techniques in heavy metal music, and (ii) a systematic study of different input feature representations for the classification of heavy metal vocals
翻訳日:2022-05-12 22:15:41 公開日:2022-05-11
# パラメトリック近似最適化に基づく微分方程式の自動解法

Automated differential equation solver based on the parametric approximation optimization ( http://arxiv.org/abs/2205.05383v1 )

ライセンス: Link先を確認
Alexander Hvatov and Tatiana Tikhonova(参考訳) 微分方程式解の数値解法は、その方法が正しい問題に適用された場合、解に向かって収束する離散場を得ることができる。 それにもかかわらず、数値的手法は方程式の制限されたクラスを持ち、与えられたパラメータ集合や範囲との収束が証明される。 少数の「チープで汚い」数値法のみが、より低い近似順序価格でパラメータチューニングをせずに幅広い種類の方程式に収束する。 本稿では,最適化アルゴリズムを用いてパラメータ化近似を用いた解を求める手法を提案する。 その結果は専門家ほど正確ではないかもしれない。 しかし、アルゴリズムのパラメータが変更されることなく、多種多様な方程式を自動で解くことができる。

The numerical methods for differential equation solution allow obtaining a discrete field that converges towards the solution if the method is applied to the correct problem. Nevertheless, the numerical methods have the restricted class of the equations, on which the convergence with a given parameter set or range is proved. Only a few "cheap and dirty" numerical methods converge on a wide class of equations without parameter tuning with the lower approximation order price. The article presents a method that uses an optimization algorithm to obtain a solution using the parameterized approximation. The result may not be as precise as an expert one. However, it allows solving the wide class of equations in an automated manner without the algorithm's parameters change.
翻訳日:2022-05-12 22:01:35 公開日:2022-05-11
# DNAデータ保存, シークエンシングDNA

DNA data storage, sequencing data-carrying DNA ( http://arxiv.org/abs/2205.05488v1 )

ライセンス: Link先を確認
Jasmine Quah, Omer Sella, Thomas Heinis(参考訳) DNAはその密度、耐久性、持続可能性のために次のアーカイブ記憶媒体として有力候補である。 生命科学において自然に発生するDNAを解析するために、何十年にもわたって開発されてきた技術を利用して、データの読み書きを行う。 それまで見えなかった生物学的DNAの精度を高めるために、シークエンシングはベースコールとして知られるディープラーニングモデルの拡張とトレーニングに依存している。 このモデル複雑性の増大は、計算とデータセットの両方において、かなりのリソースを必要とする。 また、dnaを記憶媒体とするコンパクトな読み取りヘッドの可能性も排除している。 私たちは、DNAデータ保存のために生命科学のシークエンシングモデルを盲目的に使用するのをやめる必要があると論じています。 ライフサイエンスの応用ではDNAを制御できませんが、DNAデータストレージの場合、その書き方や特定の書き込みヘッドを制御します。 具体的には、データ転送DNAをアライメントマーカーとエラー訂正コードで変調して組み込んで、より高い忠実性を確保し、機械学習モデルが実行するいくつかの作業を実行することができる。 本稿では,深部モデルサイズと誤り訂正符号の精度トレードオフについて検討する。 モデルサイズが107MBから始めて, モデル圧縮による精度の低下を, DNA配列の単純な誤り訂正符号を用いて補償できることを示す。 実験では, モデルのサイズが大幅に減少しても, 使用する誤り訂正符号に不適切なペナルティが生じることがなく, 携帯型データ搬送型DNA読取ヘッドへの道が開かれた。 また,モデル圧縮と誤り訂正符号の併用により,圧縮や誤り訂正符号を使わずに読み出し精度が向上することを示す。

DNA is a leading candidate as the next archival storage media due to its density, durability and sustainability. To read (and write) data DNA storage exploits technology that has been developed over decades to sequence naturally occurring DNA in the life sciences. To achieve higher accuracy for previously unseen, biological DNA, sequencing relies on extending and training deep machine learning models known as basecallers. This growth in model complexity requires substantial resources, both computational and data sets. It also eliminates the possibility of a compact read head for DNA as a storage medium. We argue that we need to depart from blindly using sequencing models from the life sciences for DNA data storage. The difference is striking: for life science applications we have no control over the DNA, however, in the case of DNA data storage, we control how it is written, as well as the particular write head. More specifically, data-carrying DNA can be modulated and embedded with alignment markers and error correcting codes to guarantee higher fidelity and to carry out some of the work that the machine learning models perform. In this paper, we study accuracy trade-offs between deep model size and error correcting codes. We show that, starting with a model size of 107MB, the reduced accuracy from model compression can be compensated by using simple error correcting codes in the DNA sequences. In our experiments, we show that a substantial reduction in the size of the model does not incur an undue penalty for the error correcting codes used, therefore paving the way for portable data-carrying DNA read head. Crucially, we show that through the joint use of model compression and error correcting codes, we achieve a higher read accuracy than without compression and error correction codes.
翻訳日:2022-05-12 22:01:26 公開日:2022-05-11
# トレーニングラベルの重要事項の選択:定量的MRIパラメータ推定におけるディープラーニングの最適活用法

Choice of training label matters: how to best use deep learning for quantitative MRI parameter estimation ( http://arxiv.org/abs/2205.05587v1 )

ライセンス: Link先を確認
Sean C. Epstein, Timothy J. P. Bray, Margaret Hall-Craggs and Hui Zhang(参考訳) 定量的MRIのパラメータ推定手法として,ディープラーニング(DL)が普及している。 教師付き学習または自己教師付き学習のいずれかに依存する、さまざまな競合実装が提案されている。 自己監督的なアプローチは、しばしば教師なし(unsupervised)と呼ばれ、オートエンコーダ(auto-encoder)に基づいて緩やかに行われている。 これら2つの学習パラダイムは、異なる強みを持つことが示されている。 特に、自己教師型アプローチは、監督型アプローチよりも低いバイアスパラメータ推定を提供している。 この結果は直観に反する - 教師付きラベルに事前知識を組み込むことで、理論的には、精度が向上するはずだ。 本研究では,この教師付きアプローチの明らかな限界が,基礎訓練ラベルのナイーブな選択に起因していることを示す。 故意に基礎的でないラベルをトレーニングすることにより,教師あり学習フレームワーク内で,自己教師あり手法に関連する低バイアスパラメータ推定を再現し,改良できることを示す。 このアプローチは、教師付き学習に基づく単一の統一的なディープラーニングパラメータ推定フレームワークのステージを設定し、トレーニングラベルを注意深く調整することでバイアスと分散のトレードオフが生まれる。

Deep learning (DL) is gaining popularity as a parameter estimation method for quantitative MRI. A range of competing implementations have been proposed, relying on either supervised or self-supervised learning. Self-supervised approaches, sometimes referred to as unsupervised, have been loosely based on auto-encoders, whereas supervised methods have, to date, been trained on groundtruth labels. These two learning paradigms have been shown to have distinct strengths. Notably, self-supervised approaches have offered lower-bias parameter estimates than their supervised alternatives. This result is counterintuitive - incorporating prior knowledge with supervised labels should, in theory, lead to improved accuracy. In this work, we show that this apparent limitation of supervised approaches stems from the naive choice of groundtruth training labels. By training on labels which are deliberately not groundtruth, we show that the low-bias parameter estimation previously associated with self-supervised methods can be replicated - and improved on - within a supervised learning framework. This approach sets the stage for a single, unifying, deep learning parameter estimation framework, based on supervised learning, where trade-offs between bias and variance are made by careful adjustment of training label.
翻訳日:2022-05-12 22:01:00 公開日:2022-05-11
# 物質のコントラスト学習段階のための簡易な枠組み

A simple framework for contrastive learning phases of matter ( http://arxiv.org/abs/2205.05607v1 )

ライセンス: Link先を確認
Xiao-Qi Han, Sheng-Song Xu, Zhen Feng, Rong-Qiang He, and Zhong-Yi Lu(参考訳) 凝縮マッター物理学における主なタスクは、物質の相と対応する相転移を認識し、分類し、特徴付けることである。 この新しい分野における多くの調査にもかかわらず、通常、異なるシナリオに対して異なる方法とテクニックが必要である。 本稿では,視覚表現のコントラスト学習における最近の発展に触発された,物体のコントラスト学習のためのシンプルなフレームワークであるSimCLPを提案する。 本稿では,古典的,量子的,単粒子的,多体的,従来的,トポロジ的など,いくつかの代表的なシステムにおけるこのフレームワークの成功例を示す。 SimCLPは柔軟で、手動の特徴工学や事前知識といった通常の負担を伴わない。 唯一の前提条件は、十分な状態設定を準備することだ。 さらに、表現ベクトルとラベルを生成し、それゆえ他の問題に取り組むのに役立つ。 従ってsimclpは、未探索の相転移を識別するための汎用的なツールを開発するための代替手段となる。

A main task in condensed-matter physics is to recognize, classify, and characterize phases of matter and the corresponding phase transitions, for which machine learning provides a new class of research tools due to the remarkable development in computing power and algorithms. Despite much exploration in this new field, usually different methods and techniques are needed for different scenarios. Here, we present SimCLP: a simple framework for contrastive learning phases of matter, which is inspired by the recent development in contrastive learning of visual representations. We demonstrate the success of this framework on several representative systems, including classical and quantum, single-particle and many-body, conventional and topological. SimCLP is flexible and free of usual burdens such as manual feature engineering and prior knowledge. The only prerequisite is to prepare enough state configurations. Furthermore, it can generate representation vectors and labels and hence help tackle other problems. SimCLP therefore paves an alternative way to the development of a generic tool for identifying unexplored phase transitions.
翻訳日:2022-05-12 22:00:38 公開日:2022-05-11
# プロセスおよび温度スケーラブル形状に基づくCMOSアナログ回路の理論と実装

Theory and Implementation of Process and Temperature Scalable Shape-based CMOS Analog Circuits ( http://arxiv.org/abs/2205.05664v1 )

ライセンス: Link先を確認
Pratik Kumar, Ankita Nandi, Shantanu Chakrabartty, Chetan Singh Thakur(参考訳) アナログコンピューティングは、高い計算密度とエネルギー効率を達成する可能性から、デジタルコンピューティングにとって魅力的なものである。 しかし、デバイス間のばらつきと、既存の設計をプロセスノードに移植する際の課題は、機械学習(ML)アプリケーションにおけるアナログ計算の潜在能力を最大限活用する上で大きな障害となっている。 本研究は、アナログMLプロセッサをデジタル設計に類似した設計を行うための新しいアナログコンピューティングフレームワークを提案する。 私たちの研究の中心は形状ベースのアナログコンピューティング(S-AC)です。 デバイスプリミティブを使用して、他の非線形形状を導出できるロバストなプロト関数を生成する。 S-ACパラダイムにより、ユーザーは計算精度をシリコン回路領域と電力でトレードオフできる。 これにより、ユーザーは真の電力効率でスケーラブルなアナログアーキテクチャを構築でき、同じ合成アナログ回路はトランジスタの様々なバイアス状態を横断し、同時にプロセスノードにわたってスケールすることができる。 概念実証として、平面CMOS 180nmとFinFET 7nmプロセスノードで標準MLタスクを実行するためによく使われる数学的関数の実装を示す。 合成形状に基づくMLアーキテクチャは、異なるプロセスノードにおける標準データセットの分類精度について実証されている。

Analog computing is attractive to its digital counterparts due to its potential for achieving high compute density and energy efficiency. However, the device-to-device variability and challenges in porting existing designs to advance process nodes have posed a major hindrance in harnessing the full potential of analog computations for Machine Learning (ML) applications. This work proposes a novel analog computing framework for designing an analog ML processor similar to that of a digital design - where the designs can be scaled and ported to advanced process nodes without architectural changes. At the core of our work lies shape-based analog computing (S-AC). It utilizes device primitives to yield a robust proto-function through which other non-linear shapes can be derived. S-AC paradigm also allows the user to trade off computational precision with silicon circuit area and power. Thus allowing users to build a truly power-efficient and scalable analog architecture where the same synthesized analog circuit can operate across different biasing regimes of transistors and simultaneously scale across process nodes. As a proof of concept, we show the implementation of commonly used mathematical functions for carrying standard ML tasks in both planar CMOS 180nm and FinFET 7nm process nodes. The synthesized Shape-based ML architecture has been demonstrated for its classification accuracy on standard data sets at different process nodes.
翻訳日:2022-05-12 22:00:24 公開日:2022-05-11
# (参考訳) フェデレーション学習におけるブロックチェーンベースのセキュアクライアント選択

Blockchain-based Secure Client Selection in Federated Learning ( http://arxiv.org/abs/2205.05611v1 )

ライセンス: CC BY 4.0
Truc Nguyen, Phuc Thai, Tre' R. Jeter, Thang N. Dinh, My T. Thai(参考訳) 大規模分散学習における連合学習(federated learning, fl)の可能性は大きいが、現在のシステムは、クライアントがトレーニングしたローカルモデルが中央サーバに露出しているという事実から、いくつかのプライバシの問題にさらされている。 その結果,サーバからローカルモデルを隠蔽するために,FLのセキュアアグリゲーションプロトコルが開発された。 しかし,クライアント選択プロセスの操作により,サーバはセキュアなアグリゲーションを回避して被害者のローカルモデルを学ぶことができ,セキュアなアグリゲーションだけではプライバシ保護には不十分であることを示す。 この問題に取り組むため,我々はブロックチェーン技術を利用して検証可能なクライアント選択プロトコルを提案する。 ブロックチェーンの不変性と透明性のため、提案プロトコルはクライアントのランダムな選択を強制し、サーバがその判断で選択プロセスを制御できないようにする。 この攻撃に対して当社のプロトコルが安全であることを示すセキュリティ証明を提示する。 さらに、ethereumライクなブロックチェーンでいくつかの実験を行い、ソリューションの実現性と実用性を実証しました。

Despite the great potential of Federated Learning (FL) in large-scale distributed learning, the current system is still subject to several privacy issues due to the fact that local models trained by clients are exposed to the central server. Consequently, secure aggregation protocols for FL have been developed to conceal the local models from the server. However, we show that, by manipulating the client selection process, the server can circumvent the secure aggregation to learn the local models of a victim client, indicating that secure aggregation alone is inadequate for privacy protection. To tackle this issue, we leverage blockchain technology to propose a verifiable client selection protocol. Owing to the immutability and transparency of blockchain, our proposed protocol enforces a random selection of clients, making the server unable to control the selection process at its discretion. We present security proofs showing that our protocol is secure against this attack. Additionally, we conduct several experiments on an Ethereum-like blockchain to demonstrate the feasibility and practicality of our solution.
翻訳日:2022-05-12 21:57:32 公開日:2022-05-11
# RLOP:数理的観点からみたオプション価格のRL法

RLOP: RL Methods in Option Pricing from a Mathematical Perspective ( http://arxiv.org/abs/2205.05600v1 )

ライセンス: Link先を確認
Ziheng Chen(参考訳) 抽象 この研究では、ポートフォリオの複製を通じてオプション価格のRLメソッドを可能にする数学の観点から、修正QLBSとRLOPモデルという2つの環境を構築します。 環境仕様(ソースコードはhttps://github.com/owen8877/rlop)、学習アルゴリズム、ニューラルネットワークによるエージェントパラメータ化を実装しています。 学習した最適ヘッジ戦略をbs予測と比較する。 様々な要因が最適価格と位置にどのように影響するかを考察・検討した。

Abstract In this work, we build two environments, namely the modified QLBS and RLOP models, from a mathematics perspective which enables RL methods in option pricing through replicating by portfolio. We implement the environment specifications (the source code can be found at https://github.com/owen8877/RLOP), the learning algorithm, and agent parametrization by a neural network. The learned optimal hedging strategy is compared against the BS prediction. The effect of various factors is considered and studied based on how they affect the optimal price and position.
翻訳日:2022-05-12 21:40:11 公開日:2022-05-11
# 不確実性量子化による暗号化ネットワークトラフィックアプリケーションラベリングのための拡張型機械学習

Extensible Machine Learning for Encrypted Network Traffic Application Labeling via Uncertainty Quantification ( http://arxiv.org/abs/2205.05628v1 )

ライセンス: Link先を確認
Steven Jorgensen, John Holodnak, Jensen Dempsey, Karla de Souza, Ananditha Raghunath, Vernon Rivet, Noah DeMoes, Andr\'es Alejos, and Allan Wollaber (MIT Lincoln Laboratory)(参考訳) 暗号化されたネットワークトラフィックの増加に伴い、サイバーセキュリティアナリストは、ネットワーク上のトラフィックを解明するマシンラーニング(ML)技術に目を向けている。 しかし、既知のトラフィック機能がネットワーク間でシフトし、トレーニングセットの配布外にある新しいトラフィックが出現するにつれて、MLモデルは不安定になる可能性がある。 この動的環境に確実に適応するためには、MLモデルは、サイバーセキュリティ領域でほとんど注目を集めていない予測に文脈化された不確実性定量化を提供する必要がある。 不確かさの定量化は、モデルがそのラベルの割り当てでどのクラスを選択するべきかが不確かで、トラフィックが事前訓練されたクラスに属さない場合にも必要である。 ラベル付き仮想プライベートネットワーク(VPN)暗号化ネットワークトラフィックを10のアプリケーションで生成し,5つのアプリケーションカテゴリに対応する,新たなパブリックなネットワークトラフィックデータセットを提案する。 また、控えめなデータ要件で迅速にトレーニングし、キャリブレーションされた予測確率と解釈可能な ‘out-of-distribution'' (OOD)スコアを提供し、新しいトラフィックサンプルをフラグ付けするMLフレームワークを提案する。 我々は,いわゆるマハラノビス距離のp値から校正OOD値を計算する方法について述べる。 我々は,本フレームワークがデータセット上で0.98のF1スコアを達成し,(1)類似アプリケーションのデータ,(2)既存カテゴリのアプリケーショントラフィック,(3)新しいカテゴリのアプリケーショントラフィックなど,企業ネットワークに拡張可能であることを実証した。 モデルは不確実なトラフィックを正しくフラグ付けし、再トレーニングすると、新しいデータを正確に組み込む。 また、特定の暗号化プロトコルで発生するパケットサイズを均一にする際の性能(F1スコア0.97)も示す。

With the increasing prevalence of encrypted network traffic, cyber security analysts have been turning to machine learning (ML) techniques to elucidate the traffic on their networks. However, ML models can become stale as known traffic features can shift between networks and as new traffic emerges that is outside of the distribution of the training set. In order to reliably adapt in this dynamic environment, ML models must additionally provide contextualized uncertainty quantification to their predictions, which has received little attention in the cyber security domain. Uncertainty quantification is necessary both to signal when the model is uncertain about which class to choose in its label assignment and when the traffic is not likely to belong to any pre-trained classes. We present a new, public dataset of network traffic that includes labeled, Virtual Private Network (VPN)-encrypted network traffic generated by 10 applications and corresponding to 5 application categories. We also present an ML framework that is designed to rapidly train with modest data requirements and provide both calibrated, predictive probabilities as well as an interpretable ``out-of-distribution'' (OOD) score to flag novel traffic samples. We describe how to compute a calibrated OOD score from p-values of the so-called relative Mahalanobis distance. We demonstrate that our framework achieves an F1 score of 0.98 on our dataset and that it can extend to an enterprise network by testing the model: (1) on data from similar applications, (2) on dissimilar application traffic from an existing category, and (3) on application traffic from a new category. The model correctly flags uncertain traffic and, upon retraining, accurately incorporates the new data. We additionally demonstrate good performance (F1 score of 0.97) when packet sizes are made to be uniform, as occurs for certain encryption protocols.
翻訳日:2022-05-12 21:40:01 公開日:2022-05-11
# Smooth and strong-convex-Strongly-Concave Minimax Optimizationのための第1次最適アルゴリズム

The First Optimal Algorithm for Smooth and Strongly-Convex-Strongly-Concave Minimax Optimization ( http://arxiv.org/abs/2205.05653v1 )

ライセンス: Link先を確認
Dmitry Kovalev, Alexander Gasnikov(参考訳) 本稿では,スムーズかつ強凸・強凸極小最適化問題を再考する。 zhang et al. (2021) と ibrahim et al. (2020) は、下限の $\omega\left (\sqrt{\kappa_x\kappa_y} \log \frac{1}{\epsilon}\right) を、$\epsilon$-accurate の解を見つけるのに必要な勾配評価の数に基づいて定式化した。 lin et al. (2020) と wang と li (2020) のアルゴリズムは勾配評価複雑性$\mathcal{o}\left( \sqrt{\kappa_x\kappa_y}\log^3\frac{1}{\epsilon}\right)$ と $\mathcal{o}\left( \sqrt{\kappa_x\kappa_y}\log^3 (\kappa_x\kappa_y)\log\frac{1}{\epsilon}\right)$ を持つ。 この根本的な問題は、$\mathcal{O}\left(\sqrt{\kappa_x\kappa_y}\log\frac{1}{\epsilon}\right)$グラデーション評価の複雑さによって解決する。 アルゴリズムを3つのステップで設計します (i)点共役関数による最小化問題として元の問題を再構成する。 (ii) 近似点アルゴリズムの特定の変種を再構成問題に適用する。 3) 単調包摂における演算子ノルム低減のための最適アルゴリズムを用いて, 近似演算子を不正確に計算する。

In this paper, we revisit the smooth and strongly-convex-strongly-concave minimax optimization problem. Zhang et al. (2021) and Ibrahim et al. (2020) established the lower bound $\Omega\left(\sqrt{\kappa_x\kappa_y} \log \frac{1}{\epsilon}\right)$ on the number of gradient evaluations required to find an $\epsilon$-accurate solution, where $\kappa_x$ and $\kappa_y$ are condition numbers for the strong convexity and strong concavity assumptions. However, the existing state-of-the-art methods do not match this lower bound: algorithms of Lin et al. (2020) and Wang and Li (2020) have gradient evaluation complexity $\mathcal{O}\left( \sqrt{\kappa_x\kappa_y}\log^3\frac{1}{\epsilon}\right)$ and $\mathcal{O}\left( \sqrt{\kappa_x\kappa_y}\log^3 (\kappa_x\kappa_y)\log\frac{1}{\epsilon}\right)$, respectively. We fix this fundamental issue by providing the first algorithm with $\mathcal{O}\left(\sqrt{\kappa_x\kappa_y}\log\frac{1}{\epsilon}\right)$ gradient evaluation complexity. We design our algorithm in three steps: (i) we reformulate the original problem as a minimization problem via the pointwise conjugate function; (ii) we apply a specific variant of the proximal point algorithm to the reformulated problem; (iii) we compute the proximal operator inexactly using the optimal algorithm for operator norm reduction in monotone inclusions.
翻訳日:2022-05-12 21:39:30 公開日:2022-05-11
# パノラマイメージングの展望とシーン理解への応用

Review on Panoramic Imaging and Its Applications in Scene Understanding ( http://arxiv.org/abs/2205.05570v1 )

ライセンス: Link先を確認
Shaohua Gao, Kailun Yang, Hao Shi, Kaiwei Wang, Jian Bai(参考訳) 高速通信と人工知能技術の急速な発展により、現実世界のシーンに対する人間の認識は、より小さな視野(FoV)と低次元のシーン検出装置の使用に限定されなくなった。 パノラマイメージングは、環境認識と測定のための次世代の知的機器として出現する。 しかし、大規模な写真撮影の必要性を満たしながら、パノラマイメージング機器は高解像度、盲目領域、小型化、多次元の知的知覚を有することが期待されており、次世代のインテリジェント機器に向けた人工知能手法と組み合わせることで、360度現実環境をより深く理解し、より全体論的に認識することができる。 幸いなことに、自由曲面、薄板光学、メタサーフェスの最近の進歩は、環境に対する人間の知覚に対処するための革新的なアプローチを提供し、従来の光学イメージングを超えて有望なアイデアを提供する。 本稿では,パノラマイメージングシステムの基本原則を紹介し,パノラマイメージングシステムのアーキテクチャ,特徴,機能について述べる。 その後,パノラマイメージングにおける自由曲面,薄板光学,メタサーフェスの幅広い応用可能性と優れた設計可能性について詳細に論じる。 次に,パノラマイメージングシステムの性能向上に寄与する手法について,詳細な解析を行った。 さらに,シーン理解におけるパノラマ画像の応用について,自律運転とロボット工学,パノラマ意味画像分割,パノラマ深度推定,パノラマ視覚定位など,詳細な分析を行う。 最後に,パノラマイメージング機器の将来の可能性と研究の方向性について考察した。

With the rapid development of high-speed communication and artificial intelligence technologies, human perception of real-world scenes is no longer limited to the use of small Field of View (FoV) and low-dimensional scene detection devices. Panoramic imaging emerges as the next generation of innovative intelligent instruments for environmental perception and measurement. However, while satisfying the need for large-FoV photographic imaging, panoramic imaging instruments are expected to have high resolution, no blind area, miniaturization, and multi-dimensional intelligent perception, and can be combined with artificial intelligence methods towards the next generation of intelligent instruments, enabling deeper understanding and more holistic perception of 360-degree real-world surrounding environments. Fortunately, recent advances in freeform surfaces, thin-plate optics, and metasurfaces provide innovative approaches to address human perception of the environment, offering promising ideas beyond conventional optical imaging. In this review, we begin with introducing the basic principles of panoramic imaging systems, and then describe the architectures, features, and functions of various panoramic imaging systems. Afterwards, we discuss in detail the broad application prospects and great design potential of freeform surfaces, thin-plate optics, and metasurfaces in panoramic imaging. We then provide a detailed analysis on how these techniques can help enhance the performance of panoramic imaging systems. We further offer a detailed analysis of applications of panoramic imaging in scene understanding for autonomous driving and robotics, spanning panoramic semantic image segmentation, panoramic depth estimation, panoramic visual localization, and so on. Finally, we cast a perspective on future potential and research directions for panoramic imaging instruments.
翻訳日:2022-05-12 21:38:17 公開日:2022-05-11
# HULC:Pose Manifold SmplingとDense Contact Guidanceを用いた3次元モーションキャプチャ

HULC: 3D Human Motion Capture with Pose Manifold Sampling and Dense Contact Guidance ( http://arxiv.org/abs/2205.05677v1 )

ライセンス: Link先を確認
Soshi Shimada, Vladislav Golyanik, Patrick P\'erez, Weipeng Xu, Christian Theobalt(参考訳) マーカーレスモノキュラー3dモーションキャプチャ(mocap)とシーンインタラクションは、拡張現実、ロボティクス、仮想アバター生成に関連する困難な研究テーマである。 単眼の奥行きの曖昧さのため、既存の手法で捉えた3d運動は、しばしば不正確な身体-感覚間の貫通、ジッター、体浮きといった深刻なアーティファクトを含む。 これらの問題に対処するために,シーン形状を認識した3次元ヒューマン・モキャップの新しいアプローチであるHULCを提案する。 HULCは3Dのポーズと体表面の密接な接触を推定し、3Dの局所化を改善した。 さらに, 誤った身体環境間ネットワークを解消する新しいポーズ多様体サンプリングに基づく3次元ポーズ軌道最適化を提案する。 提案手法は, 既存のシーン認識型モカプアルゴリズムに比べ, 構造的入力は少ないが, 物理的に表現可能なポーズを生成する: hulcは, 様々な実験や測定値において, 既存のアプローチを大幅に上回っている。

Marker-less monocular 3D human motion capture (MoCap) with scene interactions is a challenging research topic relevant for extended reality, robotics and virtual avatar generation. Due to the inherent depth ambiguity of monocular settings, 3D motions captured with existing methods often contain severe artefacts such as incorrect body-scene inter-penetrations, jitter and body floating. To tackle these issues, we propose HULC, a new approach for 3D human MoCap which is aware of the scene geometry. HULC estimates 3D poses and dense body-environment surface contacts for improved 3D localisations, as well as the absolute scale of the subject. Furthermore, we introduce a 3D pose trajectory optimisation based on a novel pose manifold sampling that resolves erroneous body-environment inter-penetrations. Although the proposed method requires less structured inputs compared to existing scene-aware monocular MoCap algorithms, it produces more physically-plausible poses: HULC significantly and consistently outperforms the existing approaches in various experiments and on different metrics.
翻訳日:2022-05-12 21:37:47 公開日:2022-05-11
# (参考訳) 臨床現場における糖尿病網膜症診断のための深層学習システムの有用性

Performance of a deep learning system for detection of referable diabetic retinopathy in real clinical settings ( http://arxiv.org/abs/2205.05554v1 )

ライセンス: CC BY-SA 4.0
Ver\'onica S\'anchez-Guti\'errez, Paula Hern\'andez-Mart\'inez, Francisco J. Mu\~noz-Negrete, Jonne Engelberts, Allison M. Luger, Mark J.J.P. van Grinsven(参考訳) 背景: RetCAD v.1.3.1 (Thirona, Nijmegen, オランダ) は, 3次病院検診プログラムにおいて, 定期的な臨床実践中に取得したカラー眼底画像のデータセット上で, 参照可能な糖尿病網膜症(DR)を自動的に検出し, この人工知能を応用した作業負荷の低減を解析した。 方法:2019年2月から12月までのスクリーニングプログラムに参加した糖尿病患者3189人の6325人の眼から,7195個の非骨髄性眼底画像を用いてソフトウェアの評価を行った。 ソフトウェアは各カラーフント画像に対してDR重度スコアを生成し、アイレベルスコアに組み合わせた。 このスコアは、レシーバ操作特性(ROC)曲線解析を用いて、人間の専門家によって設定された基準基準と比較された。 結果:人工知能(AI)ソフトウェアは、参照可能なDRを検出するために、ROC曲線(AUC)値0.988[0.981:0.993]の領域を達成し、DR用のRetCADソフトウェアの感度は90.53%、特異性は97.13%である。 作業負荷の96%削減は、偽陰性のわずか6件のコストで達成できた。 結論: AIソフトウェアは、参照可能なDRケースの大部分を正しく識別し、チェックが必要なケースの96%をワークロードで削減すると同時に、本当のケースがほとんどないため、トリアージの道具として使用することができる。

Background: To determine the ability of a commercially available deep learning system, RetCAD v.1.3.1 (Thirona, Nijmegen, The Netherlands) for the automatic detection of referable diabetic retinopathy (DR) on a dataset of colour fundus images acquired during routine clinical practice in a tertiary hospital screening program, analyzing the reduction of workload that can be released incorporating this artificial intelligence-based technology. Methods: Evaluation of the software was performed on a dataset of 7195 nonmydriatic fundus images from 6325 eyes of 3189 diabetic patients attending our screening program between February to December of 2019. The software generated a DR severity score for each colour fundus image which was combined into an eye-level score. This score was then compared with a reference standard as set by a human expert using receiver operating characteristic (ROC) curve analysis. Results: The artificial intelligence (AI) software achieved an area under the ROC curve (AUC) value of 0.988 [0.981:0.993] for the detection of referable DR. At the proposed operating point, the sensitivity of the RetCAD software for DR is 90.53% and specificity is 97.13%. A workload reduction of 96% could be achieved at the cost of only 6 false negatives. Conclusions: The AI software correctly identified the vast majority of referable DR cases, with a workload reduction of 96% of the cases that would need to be checked, while missing almost no true cases, so it may therefore be used as an instrument for triage.
翻訳日:2022-05-12 21:32:25 公開日:2022-05-11
# プロキシ差別とは何か?

What is Proxy Discrimination? ( http://arxiv.org/abs/2205.05265v1 )

ライセンス: Link先を確認
Michael Carl Tschantz(参考訳) プロキシ差別のほぼ普遍的な非難は、それが何であるかについての意見の相違を隠している。 本研究は,先行研究におけるプロキシとプロキシの識別に関する様々な概念を調査し,共通の枠組みで表現する。 これらの概念は、統計的依存関係、因果効果、意図に様々な影響を与える。 それぞれの表記法と概念全体の制限と使用について論じている。

The near universal condemnation of proxy discrimination hides a disagreement over what it is. This work surveys various notions of proxy and proxy discrimination found in prior work and represents them in a common framework. These notions variously turn on statistical dependencies, causal effects, and intentions. It discusses the limitations and uses of each notation and of the concept as a whole.
翻訳日:2022-05-12 21:20:31 公開日:2022-05-11
# 小児集中治療室におけるてんかん発作危険児のトリアージ支援のための機械学習

Machine Learning to Support Triage of Children at Risk for Epileptic Seizures in the Pediatric Intensive Care Unit ( http://arxiv.org/abs/2205.05389v1 )

ライセンス: Link先を確認
Raphael Azriel, Cecil D. Hahn, Thomas De Cooman, Sabine Van Huffel, Eric T. Payne, Kristin L. McBain, Danny Eytan and Joachim A. Behar(参考訳) 目的: 小児集中治療室(PICU)に入院した重度の小児ではてんかん発作が比較的多く, 診断・治療の標的となっている。 これらの発作のほとんどは、明らかな臨床症状を持たないが、死と死亡に大きな影響を与える。 PICU内の発作の危険にさらされていると考えられる子供たちは、連続脳波(cEEG)を用いて監視される。 cEEGモニタリングコストは非常に高く、利用可能なマシンの数が常に限られているため、臨床医はリソースを割り当てるために、認識されたリスクに応じて患者をトリアージすることに頼る必要がある。 本研究の目的は、心電図(ECG)と呼ばれるPICUのユビキタスに記録された信号を用いて、重度小児の発作リスク評価を改善するコンピュータ支援ツールを開発することである。 アプローチ:心電図記録から抽出した特徴と患者の臨床データをもとに,患者レベルの新しいデータ駆動モデルを開発した。 主な結果: 予測された特徴は年齢, 脳損傷, 発病原因, qrs領域であった。 先行臨床データを持たない患者に対しては,ECG記録1時間を用いて,ランダム森林分類器の分類性能は,受信操作特性曲線(AUROC)スコア0.84の範囲に到達した。 ECGの特徴と臨床歴を組み合わせると、AUROCは0.87に達した。 意義: 実際の臨床シナリオから, 臨床診断支援トリアージツールは, 臨床標準よりも59%以上, 肯定的な予測値を向上させることができると推定した。

Objective: Epileptic seizures are relatively common in critically-ill children admitted to the pediatric intensive care unit (PICU) and thus serve as an important target for identification and treatment. Most of these seizures have no discernible clinical manifestation but still have a significant impact on morbidity and mortality. Children that are deemed at risk for seizures within the PICU are monitored using continuous-electroencephalogram (cEEG). cEEG monitoring cost is considerable and as the number of available machines is always limited, clinicians need to resort to triaging patients according to perceived risk in order to allocate resources. This research aims to develop a computer aided tool to improve seizures risk assessment in critically-ill children, using an ubiquitously recorded signal in the PICU, namely the electrocardiogram (ECG). Approach: A novel data-driven model was developed at a patient-level approach, based on features extracted from the first hour of ECG recording and the clinical data of the patient. Main results: The most predictive features were the age of the patient, the brain injury as coma etiology and the QRS area. For patients without any prior clinical data, using one hour of ECG recording, the classification performance of the random forest classifier reached an area under the receiver operating characteristic curve (AUROC) score of 0.84. When combining ECG features with the patients clinical history, the AUROC reached 0.87. Significance: Taking a real clinical scenario, we estimated that our clinical decision support triage tool can improve the positive predictive value by more than 59% over the clinical standard.
翻訳日:2022-05-12 21:20:27 公開日:2022-05-11
# グループスパルシリティを用いたリーク型reluニューラルネットワークの学習のための拡張ラグランジアンアルゴリズム

An Inexact Augmented Lagrangian Algorithm for Training Leaky ReLU Neural Network with Group Sparsity ( http://arxiv.org/abs/2205.05428v1 )

ライセンス: Link先を確認
Wei Liu, Xin Liu, Xiaojun Chen(参考訳) グループスパース正規化用語を用いたリーク型reluネットワークは近年広く利用されている。 しかし、そのようなネットワークのトレーニングは非滑らかな非凸最適化問題をもたらし、定常点を決定論的に計算するためのアプローチが欠如している。 本稿では,従来の最適化問題において,補助変数と追加制約を導入することで,まず多層合成項を解く。 新しいモデルは、空でない有界な解集合を持ち、その実現可能な集合は、マンガサリアン・オフショヴィッツ制約条件を満たす。 さらに,新しいモデルと本来の問題との関係を示す。 注目すべきは、新しいモデルを解くための不正確な拡張ラグランジアンアルゴリズムを提案し、アルゴリズムのKKT点への収束を示すことである。 数値実験により,本アルゴリズムは既知のアルゴリズムよりもばらばらなリーク型reluニューラルネットワークの訓練に有効であることが示された。

The leaky ReLU network with a group sparse regularization term has been widely used in the recent years. However, training such a network yields a nonsmooth nonconvex optimization problem and there exists a lack of approaches to compute a stationary point deterministically. In this paper, we first resolve the multi-layer composite term in the original optimization problem by introducing auxiliary variables and additional constraints. We show the new model has a nonempty and bounded solution set and its feasible set satisfies the Mangasarian-Fromovitz constraint qualification. Moreover, we show the relationship between the new model and the original problem. Remarkably, we propose an inexact augmented Lagrangian algorithm for solving the new model and show the convergence of the algorithm to a KKT point. Numerical experiments demonstrate that our algorithm is more efficient for training sparse leaky ReLU neural networks than some well-known algorithms.
翻訳日:2022-05-12 21:19:50 公開日:2022-05-11
# 校正は公平な要件か? 道徳哲学・意思決定論の観点からの議論

Is calibration a fairness requirement? An argument from the point of view of moral philosophy and decision theory ( http://arxiv.org/abs/2205.05512v1 )

ライセンス: Link先を確認
Michele Loi and Christoph Heitz(参考訳) 本稿では,機械学習文学における統計的公正性の2つの基準の道徳的分析について述べる。 1)グループ間の校正 2) グループ間での偽陽性と偽陰性率の等価性。 本稿では,いずれの尺度も支持する道徳的議論に焦点をあてる。 グループキャリブレーションと偽陽性と偽陰性率平等の対立は、実践者間のグループフェアネス定義に関する議論の中心的な問題の一つである。 徹底的な道徳分析のためには、公正という用語の意味を明確化し、適切に定義する必要がある。 我々の論文では、公平性は(非)差別と同等であり、これは集団公平性に関する議論における正当な理解である。 より具体的には、Lippert-Rasmussen教授のこの定義に対する扱いで使われるという意味で、プライマー・ファシエの誤った差別と等価である。 本稿では,集団校正の違反が不公平である場合もあれば,不公平ではない場合もあると論じる。 これは、既に文献で進歩している主張と一致しており、アルゴリズム的公正性は文脈に敏感な方法で定義されるべきである。 最も重要な実践的意味は、フェアネスが群間キャリブレーションや偽陽性/偽陰性率の等式を必要とする例に基づく議論は一般化しないということである。 グループキャリブレーションは、あるケースではフェアネス要件であるが、別のケースではそうではない。

In this paper, we provide a moral analysis of two criteria of statistical fairness debated in the machine learning literature: 1) calibration between groups and 2) equality of false positive and false negative rates between groups. In our paper, we focus on moral arguments in support of either measure. The conflict between group calibration vs. false positive and false negative rate equality is one of the core issues in the debate about group fairness definitions among practitioners. For any thorough moral analysis, the meaning of the term fairness has to be made explicit and defined properly. For our paper, we equate fairness with (non-)discrimination, which is a legitimate understanding in the discussion about group fairness. More specifically, we equate it with prima facie wrongful discrimination in the sense this is used in Prof. Lippert-Rasmussen's treatment of this definition. In this paper, we argue that a violation of group calibration may be unfair in some cases, but not unfair in others. This is in line with claims already advanced in the literature, that algorithmic fairness should be defined in a way that is sensitive to context. The most important practical implication is that arguments based on examples in which fairness requires between-group calibration, or equality in the false-positive/false-negative rates, do no generalize. For it may be that group calibration is a fairness requirement in one case, but not in another.
翻訳日:2022-05-12 21:19:36 公開日:2022-05-11
# 地中データからのホットエレクトロンフリーエネルギーの予測

Predicting hot electrons free energies from ground-state data ( http://arxiv.org/abs/2205.05591v1 )

ライセンス: Link先を確認
Chiheb Ben Mahmoud, Federico Grasselli, Michele Ceriotti(参考訳) 機械学習のポテンシャルは通常、原子位置のみに依存し、シミュレーション温度に依存しない、ボルン=オッペンハイマーエネルギー表面で訓練される。 これは金属において重要な熱励起電子の影響を無視し、温かい高密度物質の記述に必須である。 これらの効果の正確な物理的説明には、核が温度依存の電子自由エネルギーに移動する必要がある。 本研究では,任意の電子温度における自由エネルギーの機械学習予測手法を提案する。 本手法は, ガス巨星と褐色小星のコア条件下での金属液体水素のベンチマークを行う。

Machine-learning potentials are usually trained on the ground-state, Born-Oppenheimer energy surface, which depends exclusively on the atomic positions and not on the simulation temperature. This disregards the effect of thermally-excited electrons, that is important in metals, and essential to the description of warm dense matter. An accurate physical description of these effects requires that the nuclei move on a temperature-dependent electronic free energy. We propose a method to obtain machine-learning predictions of this free energy at an arbitrary electron temperature using exclusively training data from ground-state calculations, avoiding the need to train temperature-dependent potentials. We benchmark our method on metallic liquid hydrogen at the conditions of the core of gas giants and brown dwarfs.
翻訳日:2022-05-12 21:19:14 公開日:2022-05-11
# (参考訳) doublematch: セルフスーパービジョンによる半教師付き学習の改善

DoubleMatch: Improving Semi-Supervised Learning with Self-Supervision ( http://arxiv.org/abs/2205.05575v1 )

ライセンス: CC BY 4.0
Erik Wallin, Lennart Svensson, Fredrik Kahl, Lars Hammarstrand(参考訳) 教師付き学習の成功を受けて、半教師付き学習(SSL)がますます人気が高まっている。 SSLは、ラベル付きトレーニングセットに加えて、未ラベルデータの巨大なコレクションを使用してモデルを適合させる一連のメソッドである。 最近成功したsslメソッドのほとんどは、疑似ラベル法に基づいている: 自信のあるモデル予測がトレーニングラベルとして機能する。 これらの手法は多くのベンチマークデータセットで印象的な結果を示しているが、このアプローチの欠点は、ラベルのないデータがトレーニング中に使用されるわけではないことである。 本論文では,疑似ラベル法と自己教師付き損失を組み合わせた新しいsslアルゴリズムであるdoublematchを提案する。 本手法は,既存のSSL手法と比較してトレーニング時間を短縮しつつ,複数のベンチマークデータセット上で最先端の精度を実現する。 コードはhttps://github.com/walline/doublematch.comで入手できる。

Following the success of supervised learning, semi-supervised learning (SSL) is now becoming increasingly popular. SSL is a family of methods, which in addition to a labeled training set, also use a sizable collection of unlabeled data for fitting a model. Most of the recent successful SSL methods are based on pseudo-labeling approaches: letting confident model predictions act as training labels. While these methods have shown impressive results on many benchmark datasets, a drawback of this approach is that not all unlabeled data are used during training. We propose a new SSL algorithm, DoubleMatch, which combines the pseudo-labeling technique with a self-supervised loss, enabling the model to utilize all unlabeled data in the training process. We show that this method achieves state-of-the-art accuracies on multiple benchmark datasets while also reducing training times compared to existing SSL methods. Code is available at https://github.com/walline/doublematch.
翻訳日:2022-05-12 21:17:10 公開日:2022-05-11
# (参考訳) NTIRE 2022 効率的超解法への挑戦:方法と結果

NTIRE 2022 Challenge on Efficient Super-Resolution: Methods and Results ( http://arxiv.org/abs/2205.05675v1 )

ライセンス: CC BY 4.0
Yawei Li and Kai Zhang and Radu Timofte and Luc Van Gool and Fangyuan Kong and Mingxi Li and Songwei Liu and Zongcai Du and Ding Liu and Chenhui Zhou and Jingyi Chen and Qingrui Han and Zheyuan Li and Yingqi Liu and Xiangyu Chen and Haoming Cai and Yu Qiao and Chao Dong and Long Sun and Jinshan Pan and Yi Zhu and Zhikai Zong and Xiaoxiao Liu and Zheng Hui and Tao Yang and Peiran Ren and Xuansong Xie and Xian-Sheng Hua and Yanbo Wang and Xiaozhong Ji and Chuming Lin and Donghao Luo and Ying Tai and Chengjie Wang and Zhizhong Zhang and Yuan Xie and Shen Cheng and Ziwei Luo and Lei Yu and Zhihong Wen and Qi Wu1 and Youwei Li and Haoqiang Fan and Jian Sun and Shuaicheng Liu and Yuanfei Huang and Meiguang Jin and Hua Huang and Jing Liu and Xinjian Zhang and Yan Wang and Lingshun Long and Gen Li and Yuanfan Zhang and Zuowei Cao and Lei Sun and Panaetov Alexander and Yucong Wang and Minjie Cai and Li Wang and Lu Tian and Zheyuan Wang and Hongbing Ma and Jie Liu and Chao Chen and Yidong Cai and Jie Tang and Gangshan Wu and Weiran Wang and Shirui Huang and Honglei Lu and Huan Liu and Keyan Wang and Jun Chen and Shi Chen and Yuchun Miao and Zimo Huang and Lefei Zhang and Mustafa Ayazo\u{g}lu and Wei Xiong and Chengyi Xiong and Fei Wang and Hao Li and Ruimian Wen and Zhijing Yang and Wenbin Zou and Weixin Zheng and Tian Ye and Yuncheng Zhang and Xiangzhen Kong and Aditya Arora and Syed Waqas Zamir and Salman Khan and Munawar Hayat and Fahad Shahbaz Khan and Dandan Gaoand Dengwen Zhouand Qian Ning and Jingzhu Tang and Han Huang and Yufei Wang and Zhangheng Peng and Haobo Li and Wenxue Guan and Shenghua Gong and Xin Li and Jun Liu and Wanjun Wang and Dengwen Zhou and Kun Zeng and Hanjiang Lin and Xinyu Chen and Jinsheng Fang(参考訳) 本稿では,NTIRE 2022の高効率単一画像超解像問題について,提案手法と結果に着目して検討する。 課題のタスクは、低解像度画像と対応する高解像度画像のペアに基づいて、倍率$\times$4の入力画像を超解くことだった。 DIV2K検証セット上で少なくとも29.00dBのPSNRを維持しつつ、実行時、パラメータ、FLOP、アクティベーション、メモリ消費といったいくつかの指標に従って測定された効率の向上を達成するシングルイメージ超解像ネットワークを設計することを目的としていた。 IMDNは効率測定のベースラインとして設定されている。 課題はメイントラック(ランタイム)、サブトラック1(モデル複雑さ)、サブトラック2(オーバーパフォーマンス)の3トラックであった。 メイントラックでは,提案書の実際の実行時性能を評価した。 チームのランクは、検証セットとテストセット上の平均ランタイムの絶対値によって直接決定されました。 サブトラック1ではパラメータ数とFLOPが考慮された。 そして、この2つの指標の個々のランキングを要約して、このトラックの最終的なランキングを決定する。 サブトラック2では,実行時,パラメータカウント,FLOP,アクティベーション,メモリ消費といった5つの指標について検討した。 サブトラックと同様に、5つの指標のランキングがまとめられ、最終ランキングが決定される。 このチャレンジには303人の登録参加者が参加し、43チームが有効な応募を行った。 彼らは効率の良い単一画像の超解像で最先端の計測を行う。

This paper reviews the NTIRE 2022 challenge on efficient single image super-resolution with focus on the proposed solutions and results. The task of the challenge was to super-resolve an input image with a magnification factor of $\times$4 based on pairs of low and corresponding high resolution images. The aim was to design a network for single image super-resolution that achieved improvement of efficiency measured according to several metrics including runtime, parameters, FLOPs, activations, and memory consumption while at least maintaining the PSNR of 29.00dB on DIV2K validation set. IMDN is set as the baseline for efficiency measurement. The challenge had 3 tracks including the main track (runtime), sub-track one (model complexity), and sub-track two (overall performance). In the main track, the practical runtime performance of the submissions was evaluated. The rank of the teams were determined directly by the absolute value of the average runtime on the validation set and test set. In sub-track one, the number of parameters and FLOPs were considered. And the individual rankings of the two metrics were summed up to determine a final ranking in this track. In sub-track two, all of the five metrics mentioned in the description of the challenge including runtime, parameter count, FLOPs, activations, and memory consumption were considered. Similar to sub-track one, the rankings of five metrics were summed up to determine a final ranking. The challenge had 303 registered participants, and 43 teams made valid submissions. They gauge the state-of-the-art in efficient single image super-resolution.
翻訳日:2022-05-12 20:59:26 公開日:2022-05-11
# RustSEG -- ディープラーニングによる腐食の自動セグメンテーション

RustSEG -- Automated segmentation of corrosion using deep learning ( http://arxiv.org/abs/2205.05426v1 )

ライセンス: Link先を確認
B. Burton, W.T. Nash, N. Birbilis(参考訳) 腐食のインフラの検査は、資格のある技術者や検査官が手作業で行う作業である。 この検査作業は手間がかかり、遅く、しばしば複雑なアクセスを必要とする。 近年,深層学習に基づくアルゴリズムが腐食の自動検出における可能性と性能を明らかにしている。 しかし, 自動腐食検出のための画像のセグメンテーションに関する研究は, モデルトレーニングに必要な画素ごとのラベル付きデータセットが不足しているため, これまでに限られている。 ここでは,ピクセル単位のラベル付きデータセットを必要とせずに,腐食検出のための画像を正確にセグメント化することが可能な,新しいディープラーニング手法(rustseg)を提案する。 RustSEG法は、まずディープラーニング技術を用いて、画像中に腐食が存在するかどうか(すなわち分類タスク)を判定し、次に、腐食が存在する場合、元の画像のピクセルがその分類決定に寄与するかを調べる。 最後に、その予測をピクセルレベルのセグメンテーションマスクに洗練することができる。 理想的な場合、画像内の腐食の正確なマスクを生成でき、ピクセル単位のトレーニングデータ無しで腐食の自動セグメント化が可能であり、インフラ検査の大幅なハードルに対処できる。

The inspection of infrastructure for corrosion remains a task that is typically performed manually by qualified engineers or inspectors. This task of inspection is laborious, slow, and often requires complex access. Recently, deep learning based algorithms have revealed promise and performance in the automatic detection of corrosion. However, to date, research regarding the segmentation of images for automated corrosion detection has been limited, due to the lack of availability of per-pixel labelled data sets which are required for model training. Herein, a novel deep learning approach (termed RustSEG) is presented, that can accurately segment images for automated corrosion detection, without the requirement of per-pixel labelled data sets for training. The RustSEG method will first, using deep learning techniques, determine if corrosion is present in an image (i.e. a classification task), and then if corrosion is present, the model will examine what pixels in the original image contributed to that classification decision. Finally, the method can refine its predictions into a pixel-level segmentation mask. In ideal cases, the method is able to generate precise masks of corrosion in images, demonstrating that the automated segmentation of corrosion without per-pixel training data is possible, addressing a significant hurdle in automated infrastructure inspection.
翻訳日:2022-05-12 20:57:54 公開日:2022-05-11
# NMR:自律運転のためのニューラルマニフォールド表現

NMR: Neural Manifold Representation for Autonomous Driving ( http://arxiv.org/abs/2205.05551v1 )

ライセンス: Link先を確認
Unnikrishnan R. Nair, Sarthak Sharma, Midhun S. Menon, Srikanth Vidapanakal(参考訳) 自律運転は、シーンの意味論の時空間的性質についての効率的な推論を必要とする。 最近のアプローチは、エンドツーエンドのトレーニング可能なシステムにおいて、知覚、予測、計画を含む自動運転スタックの従来のモジュラーアーキテクチャを融合させることに成功した。 このようなシステムは、解釈可能な中間トレーサブルな射影表現を持つ共有潜在空間の埋め込みを要求する。 このようなデプロイに成功した表現のひとつが、Ego-frameにおけるシーンのBird's-Eye View(BEV)表現である。 しかしながら、非歪なBEVの基本的な仮定は、エゴ車周りの世界の局所的共計画性である。 この仮定は非常に制限的であり、道路は概して勾配を持っている。 結果として生じる歪みは、経路計画の非効率性と誤りをもたらす。 この制限を克服するために、我々は自律運転タスクの表現であるニューラルマニフォールド表現(NMR)を提案し、これは、エゴ車を中心にした有限地平線上の多様体上の意味論を推論し、道点を予測することを学習する。 周辺単眼像の潜伏高次元埋め込みと部分的エゴ・ベシクル状態に適用した反復的注意機構を用いてこれを行う。 この表現は、表面幾何学の認識と一致した動きと行動計画を生成するのに役立つ。 本稿では,BEV占有格子のエッジ適応被覆損失とそれに伴う誘導流場に基づくサンプリングアルゴリズムを提案し,計算オーバーヘッドを最小限に抑えながら表面多様体を生成する。 CARLAとSynTHIA-SFに対するアプローチの有効性を検証することを目的としている。

Autonomous driving requires efficient reasoning about the Spatio-temporal nature of the semantics of the scene. Recent approaches have successfully amalgamated the traditional modular architecture of an autonomous driving stack comprising perception, prediction, and planning in an end-to-end trainable system. Such a system calls for a shared latent space embedding with interpretable intermediate trainable projected representation. One such successfully deployed representation is the Bird's-Eye View(BEV) representation of the scene in ego-frame. However, a fundamental assumption for an undistorted BEV is the local coplanarity of the world around the ego-vehicle. This assumption is highly restrictive, as roads, in general, do have gradients. The resulting distortions make path planning inefficient and incorrect. To overcome this limitation, we propose Neural Manifold Representation (NMR), a representation for the task of autonomous driving that learns to infer semantics and predict way-points on a manifold over a finite horizon, centered on the ego-vehicle. We do this using an iterative attention mechanism applied on a latent high dimensional embedding of surround monocular images and partial ego-vehicle state. This representation helps generate motion and behavior plans consistent with and cognizant of the surface geometry. We propose a sampling algorithm based on edge-adaptive coverage loss of BEV occupancy grid and associated guidance flow field to generate the surface manifold while incurring minimal computational overhead. We aim to test the efficacy of our approach on CARLA and SYNTHIA-SF.
翻訳日:2022-05-12 20:57:33 公開日:2022-05-11
# ブラインド音源分離のためのガウススケール混合に基づく一般化高速マルチチャネル非負行列分解

Generalized Fast Multichannel Nonnegative Matrix Factorization Based on Gaussian Scale Mixtures for Blind Source Separation ( http://arxiv.org/abs/2205.05330v1 )

ライセンス: Link先を確認
Mathieu Fontaine (LTCI, RIKEN AIP), Kouhei Sekiguchi (RIKEN AIP), Aditya Nugraha (RIKEN AIP), Yoshiaki Bando (AIST, RIKEN AIP), Kazuyoshi Yoshii (RIKEN AIP)(参考訳) 本稿では,高速多チャンネル非負行列分解(fast multichannel non negative matrix factorization, fastmnmf)と呼ばれる,最先端の多彩なブラインド音源分離法の拡張について,統一的な視点から述べる。 そのような拡張を導出する一般的な方法は、確率関数の多変量複素ガウス分布をその重尾一般化(例えば、多変量複素ガウス分布 t とレプトルティック一般化ガウス分布)に置き換え、対応するパラメータ最適化アルゴリズムをテーラーメイクすることである。 ガウススケール混合(gsm)と呼ばれるより広いクラス、すなわち、分散が正のランダムスカラー(インパルス変数)によって摂動されるガウス分布の混合物を用いて、gsm-fastmnmfを提案し、インパルス変数の確率密度関数が解析式を持たない場合でも、期待最大化アルゴリズムを開発する。 既存の重み付きfastmnmf拡張はgsm-fastmnmfのインスタンスであり、正規逆ガウス分布、学生 t およびガウス分布を含む一般化双曲型分布に基づく新しいインスタンスを特殊ケースとして導出する。 実験の結果, 正規逆ガウスのFastMNMFは, 音声強調と分離において, 最先端のFastMNMF拡張およびIRRMAモデルよりも高い性能を示した。

This paper describes heavy-tailed extensions of a state-of-the-art versatile blind source separation method called fast multichannel nonnegative matrix factorization (FastMNMF) from a unified point of view. The common way of deriving such an extension is to replace the multivariate complex Gaussian distribution in the likelihood function with its heavy-tailed generalization, e.g., the multivariate complex Student's t and leptokurtic generalized Gaussian distributions, and tailor-make the corresponding parameter optimization algorithm. Using a wider class of heavy-tailed distributions called a Gaussian scale mixture (GSM), i.e., a mixture of Gaussian distributions whose variances are perturbed by positive random scalars called impulse variables, we propose GSM-FastMNMF and develop an expectationmaximization algorithm that works even when the probability density function of the impulse variables have no analytical expressions. We show that existing heavy-tailed FastMNMF extensions are instances of GSM-FastMNMF and derive a new instance based on the generalized hyperbolic distribution that include the normal-inverse Gaussian, Student's t, and Gaussian distributions as the special cases. Our experiments show that the normalinverse Gaussian FastMNMF outperforms the state-of-the-art FastMNMF extensions and ILRMA model in speech enhancement and separation in terms of the signal-to-distortion ratio.
翻訳日:2022-05-12 20:54:32 公開日:2022-05-11
# (参考訳) 縦長ユーザテキストから変化のモーメントを識別する

Identifying Moments of Change from Longitudinal User Text ( http://arxiv.org/abs/2205.05593v1 )

ライセンス: CC BY 4.0
Adam Tsakalidis, Federico Nanni, Anthony Hills, Jenny Chim, Jiayu Song, Maria Liakata(参考訳) オンラインプラットフォームで共有されているコンテンツを通じて観察される個人の行動やムードの変化の特定がますます重要になっている。 この話題に関する最新の研究は、どちらにも焦点を当てている。 (a)リスクのある個人、又は複数の役職が与えられた特定の精神状態のある個人を識別すること (b)ポストレベルで同等のラベルを提供する。 そのような作業の欠点は、強い時間的要素の欠如と、個人の軌道に沿って縦断的な評価を行えず、タイムリーな介入を可能にすることである。 ここでは、オンラインで共有されたコンテンツに基づいて個人の変化の瞬間を特定する新しいタスクを定義する。 私たちが考える変化は、突然の気分の変化(スイッチ)または段階的な気分の進行(エスカレーション)です。 変更の瞬間をキャプチャするための詳細なガイドラインと、手動で注釈付きユーザタイムライン(18.7Kの投稿)500のコーパスを作成しました。 我々は、関連するタスクからインスピレーションを得た様々なベースラインモデルを開発し、文脈を考慮した逐次モデリングによって最高のパフォーマンスが得られることを示す。 また,時間窓のレアイベントをキャプチャする新たなメトリクスも導入する。

Identifying changes in individuals' behaviour and mood, as observed via content shared on online platforms, is increasingly gaining importance. Most research to-date on this topic focuses on either: (a) identifying individuals at risk or with a certain mental health condition given a batch of posts or (b) providing equivalent labels at the post level. A disadvantage of such work is the lack of a strong temporal component and the inability to make longitudinal assessments following an individual's trajectory and allowing timely interventions. Here we define a new task, that of identifying moments of change in individuals on the basis of their shared content online. The changes we consider are sudden shifts in mood (switches) or gradual mood progression (escalations). We have created detailed guidelines for capturing moments of change and a corpus of 500 manually annotated user timelines (18.7K posts). We have developed a variety of baseline models drawing inspiration from related tasks and show that the best performance is obtained through context aware sequential modelling. We also introduce new metrics for capturing rare events in temporal windows.
翻訳日:2022-05-12 20:51:09 公開日:2022-05-11
# (参考訳) テキスト分類のための量子自己注意ニューラルネットワーク

Quantum Self-Attention Neural Networks for Text Classification ( http://arxiv.org/abs/2205.05625v1 )

ライセンス: CC BY 4.0
Guangxi Li, Xuanqiang Zhao, Xin Wang(参考訳) 量子コンピューティングの新たな方向性は、自然言語処理(NLP)を含むさまざまな人工知能分野における有意義な量子応用を確立することである。 構文解析に基づくいくつかの取り組みは量子NLP(QNLP)の研究の扉を開いたが、過剰な構文前処理や構文依存ネットワークアーキテクチャのような制限は、より大規模で現実的なデータセットでは実行不可能である。 本稿では,これらの制約を補う量子自己認識ニューラルネットワーク(QSANN)と呼ばれる,新しいシンプルなネットワークアーキテクチャを提案する。 具体的には,量子ニューラルネットワークに自己アテンション機構を導入し,ガウス射影量子自己アテンションを自己アテンションの知覚可能な量子バージョンとして利用する。 その結果、QSANNは大規模データセット上で有効でスケーラブルであり、短期量子デバイス上で実装可能な望ましい特性を有する。 特に、我々のQSANNは、構文解析に基づくQNLPモデルと、公開データセット上のテキスト分類タスクの数値実験において、単純な古典的自己アテンションニューラルネットワークより優れている。 さらに,本手法は低レベル量子雑音に対するロバスト性を示す。

An emerging direction of quantum computing is to establish meaningful quantum applications in various fields of artificial intelligence, including natural language processing (NLP). Although some efforts based on syntactic analysis have opened the door to research in Quantum NLP (QNLP), limitations such as heavy syntactic preprocessing and syntax-dependent network architecture make them impracticable on larger and real-world data sets. In this paper, we propose a new simple network architecture, called the quantum self-attention neural network (QSANN), which can make up for these limitations. Specifically, we introduce the self-attention mechanism into quantum neural networks and then utilize a Gaussian projected quantum self-attention serving as a sensible quantum version of self-attention. As a result, QSANN is effective and scalable on larger data sets and has the desirable property of being implementable on near-term quantum devices. In particular, our QSANN outperforms the best existing QNLP model based on syntactic analysis as well as a simple classical self-attention neural network in numerical experiments of text classification tasks on public data sets. We further show that our method exhibits robustness to low-level quantum noises.
翻訳日:2022-05-12 20:26:46 公開日:2022-05-11
# グラフ上での機械学習の公正性に関する調査

A Survey on Fairness for Machine Learning on Graphs ( http://arxiv.org/abs/2205.05396v1 )

ライセンス: Link先を確認
Manvi Choudhary and Charlotte Laclau and Christine Largeron(参考訳) 今日、グラフによってモデル化された複雑な現象の分析は、決定が社会的に強い影響をもたらす多くの現実世界のアプリケーションドメインにおいて重要な役割を果たす。 しかし、多くの研究や論文が、機械学習モデルが個人間の異なる扱いと不公平な結果をもたらす可能性があることを最近明らかにしている。 すなわち、(1)グラフデータは非iidであり、この仮定は、公正な機械学習における多くの既存の研究を無効にする可能性がある、(2)関係データと異なる種類の公平性を評価するのに適切なメトリック定義、(3)モデルの正確性と公平性の間の良好なトレードオフを見つけるのに困難となるアルゴリズム的挑戦である。 この調査は、リレーショナルデータに対する公平性に特化した最初の調査である。 グラフマイニングの公平性に関する最新技術の包括的なレビューと,オープンな課題と今後のトレンドの特定を目的とする。 特に,いくつかのアプリケーションドメインと関連するグラフマイニングタスクを,後続のエッジ予測とノード分類に焦点をあてて提示することから始める。 グラフマイニングプロセスのさまざまなレベルで潜在的なバイアスを評価するために提案されたさまざまな指標を思い出し、グラフに対する公正な機械学習の領域における最近の貢献を包括的に概観し、前処理、内処理、後処理モデルに分類する。 また,既存のグラフデータ,合成および実世界のベンチマークについても述べる。 最後に,グラフ上でのアルゴリズム的公正性の研究を推し進める5つの可能性を示す。

Nowadays, the analysis of complex phenomena modeled by graphs plays a crucial role in many real-world application domains where decisions can have a strong societal impact. However, numerous studies and papers have recently revealed that machine learning models could lead to potential disparate treatment between individuals and unfair outcomes. In that context, algorithmic contributions for graph mining are not spared by the problem of fairness and present some specific challenges related to the intrinsic nature of graphs: (1) graph data is non-IID, and this assumption may invalidate many existing studies in fair machine learning, (2) suited metric definitions to assess the different types of fairness with relational data and (3) algorithmic challenge on the difficulty of finding a good trade-off between model accuracy and fairness. This survey is the first one dedicated to fairness for relational data. It aims to present a comprehensive review of state-of-the-art techniques in fairness on graph mining and identify the open challenges and future trends. In particular, we start by presenting several sensible application domains and the associated graph mining tasks with a focus on edge prediction and node classification in the sequel. We also recall the different metrics proposed to evaluate potential bias at different levels of the graph mining process; then we provide a comprehensive overview of recent contributions in the domain of fair machine learning for graphs, that we classify into pre-processing, in-processing and post-processing models. We also propose to describe existing graph data, synthetic and real-world benchmarks. Finally, we present in detail five potential promising directions to advance research in studying algorithmic fairness on graphs.
翻訳日:2022-05-12 20:05:44 公開日:2022-05-11
# 訓練データ制限のある生成型逆ネットワークを用いた非定常確率場の生成

Generation of non-stationary stochastic fields using Generative Adversarial Networks with limited training data ( http://arxiv.org/abs/2205.05469v1 )

ライセンス: Link先を確認
Alhasan Abdellatif, Ahmed H. Elsheikh, Daniel Busby, Philippe Berthet(参考訳) 観測データに基づく地質相の生成の文脈では、すべての可能な条件に対応するサンプルはトレーニングセットでは一般に利用できないため、これらの実現は訓練された生成モデルの一般化能力に大きく依存する。 この問題は非定常場に適用するとより複雑になる。 本研究では,非定常的な空間モードを持つ地質学的チャネル化パターンのデータセットに対してGAN(Generative Adversarial Networks)モデルをトレーニングする際の問題点を考察し,与えられたトレーニングセットにない新しい空間モードにおける一般化能力を改善するための訓練と自己条件設定を検討する。 本手法は,空間条件(非定常写像)と実現条件の相関関係を,追加の損失項を使わずに効果的に学習し,実現段階においてコストのかかる最適化問題を解くことを可能にした。 実データと人工データに基づいてトレーニングされた我々のモデルは、ターゲットマップと強い相関を持つトレーニングサンプルを超えて、地質学的に賞賛できる実現を生成できた。

In the context of generating geological facies conditioned on observed data, samples corresponding to all possible conditions are not generally available in the training set and hence the generation of these realizations depends primary on the generalization capability of the trained generative model. The problem becomes more complex when applied on non-stationary fields. In this work, we investigate the problem of training Generative Adversarial Networks (GANs) models against a dataset of geological channelized patterns that has a few non-stationary spatial modes and examine the training and self-conditioning settings that improve the generalization capability at new spatial modes that were never seen in the given training set. The developed training method allowed for effective learning of the correlation between the spatial conditions (i.e. non-stationary maps) and the realizations implicitly without using additional loss terms or solving a costly optimization problem at the realization generation phase. Our models, trained on real and artificial datasets were able to generate geologically-plausible realizations beyond the training samples with a strong correlation with the target maps.
翻訳日:2022-05-12 20:05:17 公開日:2022-05-11
# 模倣による遅延強化学習

Delayed Reinforcement Learning by Imitation ( http://arxiv.org/abs/2205.05569v1 )

ライセンス: Link先を確認
Pierre Liotet, Davide Maran, Lorenzo Bisi, Marcello Restelli(参考訳) エージェントの観察や相互作用が遅れると、古典的な強化学習ツールは通常失敗する。 本稿では,この問題に対する単純かつ新しい効率的な解法を提案する。 遅延のない環境では、効率的なポリシーが知られ、容易に学習できると仮定するが、そのタスクは実践上の遅延に悩まされ、それらを考慮に入れたいと考える。 本稿では、遅延しないデモから遅延環境での動作方法を学ぶための模倣学習法に基づく新しいアルゴリズム、Delayed Imitation with Dataset Aggregation (DIDA)を提案する。 本稿では,DIDAの実践設計の指針となるアプローチに関する理論的分析を行う。 これらの結果は,遅延タスクと非遅延タスク間の性能を平滑性条件下で制限することにより,遅延強化学習文献にも一般的に興味を寄せている。 ロボットの移動,古典的制御,取引など,様々なタスクにおいて,DIDAが顕著なサンプル効率で高い性能が得られることを示す。

When the agent's observations or interactions are delayed, classic reinforcement learning tools usually fail. In this paper, we propose a simple yet new and efficient solution to this problem. We assume that, in the undelayed environment, an efficient policy is known or can be easily learned, but the task may suffer from delays in practice and we thus want to take them into account. We present a novel algorithm, Delayed Imitation with Dataset Aggregation (DIDA), which builds upon imitation learning methods to learn how to act in a delayed environment from undelayed demonstrations. We provide a theoretical analysis of the approach that will guide the practical design of DIDA. These results are also of general interest in the delayed reinforcement learning literature by providing bounds on the performance between delayed and undelayed tasks, under smoothness conditions. We show empirically that DIDA obtains high performances with a remarkable sample efficiency on a variety of tasks, including robotic locomotion, classic control, and trading.
翻訳日:2022-05-12 20:04:58 公開日:2022-05-11
# 深層アーキテクチャの接続性が重要 - きめ細かな分析

Deep Architecture Connectivity Matters for Its Convergence: A Fine-Grained Analysis ( http://arxiv.org/abs/2205.05662v1 )

ライセンス: Link先を確認
Wuyang Chen, Wei Huang, Xinyu Gong, Boris Hanin, Zhangyang Wang(参考訳) 人間またはオートmlアルゴリズムによって設計されたadvanced deep neural networks(dnn)はますます複雑になっている。 多様な操作は複雑な接続パターン、例えば様々な種類のスキップ接続によって接続される。 これらのトポロジカルな組成は実験的に有効であり、損失景観を滑らかにし、一般に勾配流を促進するために観察される。 しかしながら、dnnのキャパシティやトレーサビリティへの影響に関する原則的な理解を導出し、ある特定の接続パターンが他よりも優れている理由や側面を理解することは、いまだに不可能である。 本研究では,DNNの粒度勾配降下訓練における接続パターンがDNNの収束に与える影響を理論的に評価する。 広帯域ネットワークのニューラルネットワークガウス過程(NNGP)を解析することにより、NNGPカーネルのスペクトルが特定の接続パターンを介してどのように伝播し、それが収束率の境界にどのように影響するかを記述することができる。 この結果の実際的な含意として,"予期せぬ"接続パターンを単純に濾過することで,評価するモデル数を削減し,オーバーヘッドを伴わずに大規模ニューラルネットワークの探索を著しく高速化できることを示す。 コードはhttps://github.com/chenwydj/architecture_convergenceでリリースされる。

Advanced deep neural networks (DNNs), designed by either human or AutoML algorithms, are growing increasingly complex. Diverse operations are connected by complicated connectivity patterns, e.g., various types of skip connections. Those topological compositions are empirically effective and observed to smooth the loss landscape and facilitate the gradient flow in general. However, it remains elusive to derive any principled understanding of their effects on the DNN capacity or trainability, and to understand why or in which aspect one specific connectivity pattern is better than another. In this work, we theoretically characterize the impact of connectivity patterns on the convergence of DNNs under gradient descent training in fine granularity. By analyzing a wide network's Neural Network Gaussian Process (NNGP), we are able to depict how the spectrum of an NNGP kernel propagates through a particular connectivity pattern, and how that affects the bound of convergence rates. As one practical implication of our results, we show that by a simple filtration on "unpromising" connectivity patterns, we can trim down the number of models to evaluate, and significantly accelerate the large-scale neural architecture search without any overhead. Codes will be released at https://github.com/chenwydj/architecture_convergence.
翻訳日:2022-05-12 20:04:43 公開日:2022-05-11
# 外部バリデード治療選択

Externally Valid Treatment Choice ( http://arxiv.org/abs/2205.05561v1 )

ライセンス: Link先を確認
Christopher Adjaho and Timothy Christensen(参考訳) 本研究は, 対象個体群における福祉保障が, 実験個体群と類似する, または, 異なる可能性があるという観点から, 外部的に有効な学習治療(あるいは政策)ルールの問題を考える。 実験と対象個体間の潜在的な結果の分布と共変量の変化を許容する。 本論文の主な貢献は2つある。 まず,実験人口における社会福祉を最大化する政策が,潜在的成果の分配(共変量ではない)が変化した場合の社会福祉に最適である,というフォーマルな感覚を提供する。 したがって、実証的福祉の最大化など、実験的な集団において良好な後悔の保証を有する政策学習方法は、潜在的な成果における一連の変化に関して外部的に有効である。 第2に,潜在成果と共変量の同時分布の変化にロバストな政策学習手法を開発した。 本手法は実験データや観測データで用いることができる。

We consider the problem of learning treatment (or policy) rules that are externally valid in the sense that they have welfare guarantees in target populations that are similar to, but possibly different from, the experimental population. We allow for shifts in both the distribution of potential outcomes and covariates between the experimental and target populations. This paper makes two main contributions. First, we provide a formal sense in which policies that maximize social welfare in the experimental population remain optimal for the "worst-case" social welfare when the distribution of potential outcomes (but not covariates) shifts. Hence, policy learning methods that have good regret guarantees in the experimental population, such as empirical welfare maximization, are externally valid with respect to a class of shifts in potential outcomes. Second, we develop methods for policy learning that are robust to shifts in the joint distribution of potential outcomes and covariates. Our methods may be used with experimental or observational data.
翻訳日:2022-05-12 20:01:49 公開日:2022-05-11
# 並列数値法の正確性, 収束性, 再現性に対する効率的な要約アルゴリズム

An Efficient Summation Algorithm for the Accuracy, Convergence and Reproducibility of Parallel Numerical Methods ( http://arxiv.org/abs/2205.05339v1 )

ライセンス: Link先を確認
Farah Benmouhoub (UPVD), Pierre-Lo\"ic Garoche (ENAC), Matthieu Martel (UPVD)(参考訳) 現在、並列コンピューティングは、工学と科学の両方において、いくつかのアプリケーション分野においてユビキタスである。 計算はIEEE754標準で指定された浮動小数点演算に依存する。 この文脈では、どこでも使われる基本的な計算ブロックは、数列の和である。 この和は浮動小数点演算において多くの数値誤差を負う。 この問題を軽減するために,浮動小数点数の列を要約する新しい並列アルゴリズムを導入した。 このアルゴリズムはプロセッサの数で容易にスケールアップでき、最初に同じ指数の数を追加する。 本稿では, その効率性について, 精度, 収束性, 再現性など, 様々な特性について広範な分析を行った。 提案手法の有用性を示すために,シンプソン法,ヤコビ法,lu因子分解法,反復パワー法などの代表的な数値手法を選択した。

Nowadays, parallel computing is ubiquitous in several application fields, both in engineering and science. The computations rely on the floating-point arithmetic specified by the IEEE754 Standard. In this context, an elementary brick of computation, used everywhere, is the sum of a sequence of numbers. This sum is subject to many numerical errors in floating-point arithmetic. To alleviate this issue, we have introduced a new parallel algorithm for summing a sequence of floating-point numbers. This algorithm which scales up easily with the number of processors, adds numbers of the same exponents first. In this article, our main contribution is an extensive analysis of its efficiency with respect to several properties: accuracy, convergence and reproducibility. In order to show the usefulness of our algorithm, we have chosen a set of representative numerical methods which are Simpson, Jacobi, LU factorization and the Iterated power method.
翻訳日:2022-05-12 20:01:11 公開日:2022-05-11
# 終末対話行動分類のためのニューラルプロソディエンコーダ

A neural prosody encoder for end-ro-end dialogue act classification ( http://arxiv.org/abs/2205.05590v1 )

ライセンス: Link先を確認
Kai Wei, Dillon Knox, Martin Radfar, Thanh Tran, Markus Muller, Grant P. Strimel, Nathan Susanj, Athanasios Mouchtaris, Maurizio Omologo(参考訳) 対話行動分類(DAC)は,対話システムにおける言語理解にとって重要な課題である。 エネルギーやピッチなどの韻律的特徴はDACに有用であることが示されている。 その重要性にもかかわらず、音声信号から直接対話を推論するエンドツーエンド(E2E)DACモデルに韻律的特徴を統合するためのニューラルアプローチについてはほとんど研究されていない。 本研究では,発話中の異なるレベルに共起する韻律現象を特徴付ける必要性を考慮したE2Eニューラルアーキテクチャを提案する。 このアーキテクチャの新たな部分は、韻律的特徴の重要性を評価し、E2E DACに必要なコア情報を選択的に保持する学習可能なゲーティング機構である。 提案モデルでは,3つのベンチマークデータセットに対して,DACの精度を1.07%向上させる。

Dialogue act classification (DAC) is a critical task for spoken language understanding in dialogue systems. Prosodic features such as energy and pitch have been shown to be useful for DAC. Despite their importance, little research has explored neural approaches to integrate prosodic features into end-to-end (E2E) DAC models which infer dialogue acts directly from audio signals. In this work, we propose an E2E neural architecture that takes into account the need for characterizing prosodic phenomena co-occurring at different levels inside an utterance. A novel part of this architecture is a learnable gating mechanism that assesses the importance of prosodic features and selectively retains core information necessary for E2E DAC. Our proposed model improves DAC accuracy by 1.07% absolute across three publicly available benchmark datasets.
翻訳日:2022-05-12 19:59:23 公開日:2022-05-11
# 距離保存品質と線形割当ソートを用いたグリッドレイアウトの評価と生成の改善

Improved Evaluation and Generation of Grid Layouts using Distance Preservation Quality and Linear Assignment Sorting ( http://arxiv.org/abs/2205.04255v2 )

ライセンス: Link先を確認
Kai Uwe Barthel, Nico Hezel, Klaus Jung and Konstantin Schall(参考訳) 類似性によってソートされた画像は、より多くの画像を同時に見ることができ、ストックフォトエージェンシーやeコマースアプリケーションにとって非常に有用である。 視覚的に並べ替えられたグリッドレイアウトは、グリッドに近接する画像が、その類似性に可能な限り近いように配置しようとする。 このようなアレンジメントを評価するための様々な指標が存在するが、人間の知覚品質と測定値の相関に関する実験的な証拠は少ない。 本稿では,アレンジメントの品質評価のための新しい指標として,距離保存品質(dpq)を提案する。 広汎なユーザテストでは,DPQと画像検索タスクの品質と性能の相関が,他の指標と比較して強いことがわかった。 さらに,FLAS(Fast Linear Assignment Sorting)を,視覚的なグリッドレイアウト作成のための新しいアルゴリズムとして導入する。 FLASは、実行時間と計算資源を改善しながら、非常に優れたソート品質を実現する。

Images sorted by similarity enables more images to be viewed simultaneously, and can be very useful for stock photo agencies or e-commerce applications. Visually sorted grid layouts attempt to arrange images so that their proximity on the grid corresponds as closely as possible to their similarity. Various metrics exist for evaluating such arrangements, but there is low experimental evidence on correlation between human perceived quality and metric value. We propose Distance Preservation Quality (DPQ) as a new metric to evaluate the quality of an arrangement. Extensive user testing revealed stronger correlation of DPQ with user-perceived quality and performance in image retrieval tasks compared to other metrics. In addition, we introduce Fast Linear Assignment Sorting (FLAS) as a new algorithm for creating visually sorted grid layouts. FLAS achieves very good sorting qualities while improving run time and computational resources.
翻訳日:2022-05-12 19:59:11 公開日:2022-05-11
# (参考訳) ニューラルネットワーク圧縮のためのランダムチャネルプルーニングの再検討

Revisiting Random Channel Pruning for Neural Network Compression ( http://arxiv.org/abs/2205.05676v1 )

ライセンス: CC BY 4.0
Yawei Li, Kamil Adamczewski, Wen Li, Shuhang Gu, Radu Timofte, Luc Van Gool(参考訳) チャネル(または3Dフィルタ)プルーニングは、ニューラルネットワークの推論を加速する有効な方法である。 この現実的な問題を解決するアルゴリズムが急増しており、それぞれが何らかの方法で効果的であると主張されている。 しかし、アルゴリズムを直接比較するベンチマークは不足しており、主にアルゴリズムの複雑さと、特定のネットワーク構成やトレーニング手順のようなカスタム設定のためである。 チャネルプルーニングのさらなる発展には,公正なベンチマークが重要である。 一方、最近の研究では、プルーニングアルゴリズムによって発見されたチャネル構成は、事前訓練された重み付けと同じくらい重要であることが示されている。 これにより、チャネルプルーニングは新しい役割、すなわち最適なチャネル構成を探索する。 本稿では,ランダムな探索により,プルーンドモデルのチャネル構成を決定することを試みる。 提案手法は,異なる手法,すなわちランダムプルーニングと比較してどのように振る舞うかを比較する新しい方法を提供する。 この単純な戦略は他のチャネルプルーニング手法と比較して非常にうまく機能することを示す。 また,この条件下では,異なるチャネル重要度評価手法に驚くほど明確な勝者は存在せず,その研究成果を先進的なチャネル構成探索手法に傾けることができることを示した。

Channel (or 3D filter) pruning serves as an effective way to accelerate the inference of neural networks. There has been a flurry of algorithms that try to solve this practical problem, each being claimed effective in some ways. Yet, a benchmark to compare those algorithms directly is lacking, mainly due to the complexity of the algorithms and some custom settings such as the particular network configuration or training procedure. A fair benchmark is important for the further development of channel pruning. Meanwhile, recent investigations reveal that the channel configurations discovered by pruning algorithms are at least as important as the pre-trained weights. This gives channel pruning a new role, namely searching the optimal channel configuration. In this paper, we try to determine the channel configuration of the pruned models by random search. The proposed approach provides a new way to compare different methods, namely how well they behave compared with random pruning. We show that this simple strategy works quite well compared with other channel pruning methods. We also show that under this setting, there are surprisingly no clear winners among different channel importance evaluation methods, which then may tilt the research efforts into advanced channel configuration searching methods.
翻訳日:2022-05-12 19:56:29 公開日:2022-05-11
# DcnnGrasp:適応正規化学習による正確なGraspパターン認識を目指して

DcnnGrasp: Towards Accurate Grasp Pattern Recognition with Adaptive Regularizer Learning ( http://arxiv.org/abs/2205.05218v1 )

ライセンス: Link先を確認
Xiaoqin Zhang, Ziwei Huang, Jingjing Zheng, Shuo Wang, and Xianta Jiang(参考訳) パターン認識のタスクは、視覚情報に応じて対象物の適切な把握タイプを導出することを目的としている。 現在の最先端手法は、パターン認識に不可欠なオブジェクトのカテゴリ情報を無視している。 本稿では,物体分類と把握パターン認識の連成学習を実現するために,二分岐畳み込みニューラルネットワーク(DcnnGrasp)を提案する。 DcnnGraspは、パターン認識の有効性を向上させるために、オブジェクトカテゴリ分類を補助タスクとして利用する。 一方、適応正則化器を用いたジョイントクロスエントロピーと呼ばれる新たな損失関数は、後方を最大化し、モデル性能を大幅に向上させる。 さらに,新たな損失関数に基づいて,2つのタスクの協調学習を最大化するためのトレーニング戦略を提案する。 実験はrgb-d object dataset, hit-gprec dataset, amsterdam library of object images (aloi), columbia university image library (coil-100), meganepro dataset 1を含む5つの家庭用オブジェクトデータセットで実施された。 実験の結果,提案手法はいくつかの最先端手法を用いて,パターン認識における競合性能を実現することができた。 特に、rgb-dオブジェクトデータセットで新しいオブジェクトをテストする場合、この手法は世界的精度の点で、第2位を15%近く上回っていた。

The task of grasp pattern recognition aims to derive the applicable grasp types of an object according to the visual information. Current state-of-the-art methods ignore category information of objects which is crucial for grasp pattern recognition. This paper presents a novel dual-branch convolutional neural network (DcnnGrasp) to achieve joint learning of object category classification and grasp pattern recognition. DcnnGrasp takes object category classification as an auxiliary task to improve the effectiveness of grasp pattern recognition. Meanwhile, a new loss function called joint cross-entropy with an adaptive regularizer is derived through maximizing a posterior, which significantly improves the model performance. Besides, based on the new loss function, a training strategy is proposed to maximize the collaborative learning of the two tasks. The experiment was performed on five household objects datasets including the RGB-D Object dataset, Hit-GPRec dataset, Amsterdam library of object images (ALOI), Columbia University Image Library (COIL-100), and MeganePro dataset 1. The experimental results demonstrated that the proposed method can achieve competitive performance on grasp pattern recognition with several state-of-the-art methods. Specifically, our method even outperformed the second-best one by nearly 15% in terms of global accuracy for the case of testing a novel object on the RGB-D Object dataset.
翻訳日:2022-05-12 19:36:37 公開日:2022-05-11
# 時空間ハンドインハンド:周期計画型相互学習による時空間ビデオ超解法

Spatial-Temporal Space Hand-in-Hand: Spatial-Temporal Video Super-Resolution via Cycle-Projected Mutual Learning ( http://arxiv.org/abs/2205.05264v1 )

ライセンス: Link先を確認
Mengshun Hu and Kui Jiang and Liang Liao and Jing Xiao and Junjun Jiang and Zheng Wang(参考訳) 時空間ビデオ超解法(ST-VSR)は高解像度(HR)と高フレームレート(HFR)の超解像ビデオを生成することを目的としている。 直感的には、S-VSR(Spatial Video Super-Resolution)とT-VSR(T-VSR)の2つのサブタスクを直接組み合わせてST-VSRを完成させるが、相互関係は無視する。 具体的には 1)T-VSRからS-VSR:時間的相関は、より深い手がかりを持つ正確な空間的詳細表現に役立つ。 2) S-VSR から T-VSR へ : 空間情報が豊富で時間的予測の洗練に寄与する。 そこで本研究では,S-VSR と T-VSR の相互学習を通じて空間時間相関をフル活用する,ST-VSR のための一段階型Cycle-Projected Mutual Learning Network (CycMu-Net) を提案する。 具体的には、空間的特徴と時間的特徴が完全に融合して蒸留され、高品質な映像再構成を支援する反復的上下投影による相互情報の利用を提案する。 ベンチマークデータセットに関する広範な実験に加えて,提案するcycmu-netをs-vsrおよびt-vsrタスクと比較し,提案手法が最先端手法を大幅に上回っていることを示す。

Spatial-Temporal Video Super-Resolution (ST-VSR) aims to generate super-resolved videos with higher resolution(HR) and higher frame rate (HFR). Quite intuitively, pioneering two-stage based methods complete ST-VSR by directly combining two sub-tasks: Spatial Video Super-Resolution (S-VSR) and Temporal Video Super-Resolution(T-VSR) but ignore the reciprocal relations among them. Specifically, 1) T-VSR to S-VSR: temporal correlations help accurate spatial detail representation with more clues; 2) S-VSR to T-VSR: abundant spatial information contributes to the refinement of temporal prediction. To this end, we propose a one-stage based Cycle-projected Mutual learning network (CycMu-Net) for ST-VSR, which makes full use of spatial-temporal correlations via the mutual learning between S-VSR and T-VSR. Specifically, we propose to exploit the mutual information among them via iterative up-and-down projections, where the spatial and temporal features are fully fused and distilled, helping the high-quality video reconstruction. Besides extensive experiments on benchmark datasets, we also compare our proposed CycMu-Net with S-VSR and T-VSR tasks, demonstrating that our method significantly outperforms state-of-the-art methods.
翻訳日:2022-05-12 19:36:09 公開日:2022-05-11
# refine: クロスドメインマイニングのための微調整前の再ランダム化

ReFine: Re-randomization before Fine-tuning for Cross-domain Few-shot Learning ( http://arxiv.org/abs/2205.05282v1 )

ライセンス: Link先を確認
Jaehoon Oh, Sungnyun Kim, Namgyu Ho, Jin-Hwa Kim, Hwanjun Song, Se-Young Yun(参考訳) ソースドメインとターゲットドメインの極端に異なるターゲットサンプルがほとんどないクロスドメイン少ショットラーニング(CD-FSL)が最近注目されている。 CD-FSLでは、一般的に、一般的なラベル付きソースドメインデータセット上でニューラルネットワークを事前訓練し、ターゲットドメインデータに転送するトランスファーラーニングベースのアプローチが開発されている。 ラベル付きデータセットはターゲットデータに適切な初期パラメータを提供することができるが、ソースとターゲットのドメイン差はターゲットドメインの微調整を妨げる可能性がある。 本稿では,ターゲットデータに適応する前に,ソース領域に適合するパラメータを再分散する簡易かつ強力な手法を提案する。 再ランダム化は、ソース事前訓練されたモデルのソース固有のパラメータをリセットし、ターゲットドメインの微調整を容易にする。

Cross-domain few-shot learning (CD-FSL), where there are few target samples under extreme differences between source and target domains, has recently attracted huge attention. For CD-FSL, recent studies generally have developed transfer learning based approaches that pre-train a neural network on popular labeled source domain datasets and then transfer it to target domain data. Although the labeled datasets may provide suitable initial parameters for the target data, the domain difference between the source and target might hinder the fine-tuning on the target domain. This paper proposes a simple yet powerful method that re-randomizes the parameters fitted on the source domain before adapting to the target data. The re-randomization resets source-specific parameters of the source pre-trained model and thus facilitates fine-tuning on the target domain, improving few-shot performance.
翻訳日:2022-05-12 19:35:41 公開日:2022-05-11
# 境界トランスフォーマによる任意形状テキスト検出

Arbitrary Shape Text Detection via Boundary Transformer ( http://arxiv.org/abs/2205.05320v1 )

ライセンス: Link先を確認
Shi-Xue Zhang, Xiaobin Zhu, Chun Yang, Xu-Cheng Yin(参考訳) 任意形状テキスト検出は、様々なスケール、ランダムな回転、曲線形状などの複雑さと多様性のために難しい課題である。 本稿では,後処理をすることなくテキスト境界を正確にかつ直接特定できる境界変換器を備えた任意の形状のテキスト検出器を提案する。 本手法は主に境界変圧器モジュールと繰り返し最適化された境界変圧器モジュールからなる。 多層拡張畳み込みからなる境界提案モジュールは、境界トランスの最適化を導く一方、粗い境界提案を生成するために重要な事前情報(分類マップ、距離フィールド、方向フィールドを含む)を計算する。 境界トランスフォーマモジュールは、エンコーダ-デコーダ構造を採用しており、エンコーダは、単純な多層パーセプトロンネットワーク(mlp)である一方、残留接続のある多層トランスフォーマブロックで構成されている。 先行情報の指導の下,境界変圧器モジュールは,境界変形による粗境界提案を段階的に改良する。 さらに、エネルギー最小化制約と、各境界最適化ステップに対するエネルギー単調なエネルギー減少制約を導入する新しい境界エネルギー損失(BEL)を提案する。 公開および挑戦的なデータセットに関する大規模な実験は、我々の手法の最先端性能と有望な効率を実証している。

Arbitrary shape text detection is a challenging task due to its complexity and variety, e.g, various scales, random rotations, and curve shapes. In this paper, we propose an arbitrary shape text detector with a boundary transformer, which can accurately and directly locate text boundaries without any post-processing. Our method mainly consists of a boundary proposal module and an iteratively optimized boundary transformer module. The boundary proposal module consisting of multi-layer dilated convolutions will compute important prior information (including classification map, distance field, and direction field) for generating coarse boundary proposals meanwhile guiding the optimization of boundary transformer. The boundary transformer module adopts an encoder-decoder structure, in which the encoder is constructed by multi-layer transformer blocks with residual connection while the decoder is a simple multi-layer perceptron network (MLP). Under the guidance of prior information, the boundary transformer module will gradually refine the coarse boundary proposals via boundary deformation in an iterative manner. Furthermore, we propose a novel boundary energy loss (BEL) which introduces an energy minimization constraint and an energy monotonically decreasing constraint for every boundary optimization step. Extensive experiments on publicly available and challenging datasets demonstrate the state-of-the-art performance and promising efficiency of our method.
翻訳日:2022-05-12 19:35:24 公開日:2022-05-11
# 不確実性推定による船体軌道予測のための再帰的エンコーダ・デコーダネットワーク

Recurrent Encoder-Decoder Networks for Vessel Trajectory Prediction with Uncertainty Estimation ( http://arxiv.org/abs/2205.05404v1 )

ライセンス: Link先を確認
Samuele Capobianco, Nicola Forti, Leonardo M. Millefiori, Paolo Braca, and Peter Willett(参考訳) 船舶軌道予測のための最近の深層学習手法は, 過去の自動識別システム(AIS)データから複雑な海洋パターンを学習し, 数時間の予測地平線で将来の船舶位置のシーケンスを正確に予測することができる。 しかし、海上監視アプリケーションでは、精度の高い予測の不確実性を確実に定量化することが重要である。 本稿では,再帰的なエンコーダ・デコーダ・ニューラルネットの振舞いの予測だけでなく,ベイジアンモデルによる認識の不確かさの予測も行うことで,軌跡予測タスクのディープラーニングフレームワークを拡張した。 ラベル付きまたはラベル付き入力データに基づく2つの異なるモデルの予測性能を比較し,不確かさの定量化と精度の向上を,船(例えば,予定の目的地)の意図に関する追加情報を用いて強調する。

Recent deep learning methods for vessel trajectory prediction are able to learn complex maritime patterns from historical Automatic Identification System (AIS) data and accurately predict sequences of future vessel positions with a prediction horizon of several hours. However, in maritime surveillance applications, reliably quantifying the prediction uncertainty can be as important as obtaining high accuracy. This paper extends deep learning frameworks for trajectory prediction tasks by exploring how recurrent encoder-decoder neural networks can be tasked not only to predict but also to yield a corresponding prediction uncertainty via Bayesian modeling of epistemic and aleatoric uncertainties. We compare the prediction performance of two different models based on labeled or unlabeled input data to highlight how uncertainty quantification and accuracy can be improved by using, if available, additional information on the intention of the ship (e.g., its planned destination).
翻訳日:2022-05-12 19:35:03 公開日:2022-05-11
# 重み付けによる神経特徴の融合に基づくマルチラベルロゴ認識と検索

Multi-Label Logo Recognition and Retrieval based on Weighted Fusion of Neural Features ( http://arxiv.org/abs/2205.05419v1 )

ライセンス: Link先を確認
Marisa Bernabeu, Antonio Javier Gallego, Antonio Pertusa(参考訳) ロゴの分類は画像分類の特別な場合であり、テキスト、画像、または両方の組み合わせのみを含んでいる可能性がある。 本研究では,ロゴ画像のマルチラベル分類と類似性検索を行うシステムを提案する。 この方法は、その形状、色、ビジネスセクタ、意味論、一般的な特徴、またはユーザが確立した特徴の組み合わせに基づいて、最も類似したロゴを取得することができる。 これは、ロゴの特定の特性に特化している複数のラベルネットワークを用いて行われる。 これらのネットワークから抽出された特徴を組み合わせ、確立された検索基準に従って類似検索を行う。 ロゴのテキストは分類と無関係な場合があるため、前処理段階を施して削除し、全体的な性能を向上させる。 提案手法は,商標を索引付けする一連のメタデータを含む階層的ウィーン分類システムで構築されたEUTMデータセットを用いて評価される。 また、著名なロゴトポロジーとウィーンの比較を行い、デザイナーがそれらの対応を理解するのを助ける。 実験の結果, 定量的, 質的にも, 信頼性の高い結果が得られ, 最先端の成果を上回った。 また,ブランドのセマンティクスや分類は主観的であることが多いため,提案手法の信頼性を評価するため,グラフィックデザインの学生や専門家も調査した。

Logo classification is a particular case of image classification, since these may contain only text, images, or a combination of both. In this work, we propose a system for the multi-label classification and similarity search of logo images. The method allows obtaining the most similar logos on the basis of their shape, color, business sector, semantics, general characteristics, or a combination of such features established by the user. This is done by employing a set of multi-label networks specialized in certain characteristics of logos. The features extracted from these networks are combined to perform the similarity search according to the search criteria established. Since the text of logos is sometimes irrelevant for the classification, a preprocessing stage is carried out to remove it, thus improving the overall performance. The proposed approach is evaluated using the European Union Trademark (EUTM) dataset, structured with the hierarchical Vienna classification system, which includes a series of metadata with which to index trademarks. We also make a comparison between well known logo topologies and Vienna in order to help designers understand their correspondences. The experimentation carried out attained reliable performance results, both quantitatively and qualitatively, which outperformed the state-of-the-art results. In addition, since the semantics and classification of brands can often be subjective, we also surveyed graphic design students and professionals in order to assess the reliability of the proposed method.
翻訳日:2022-05-12 19:34:47 公開日:2022-05-11
# モバイルでの顔検出:5つの実装と分析

Face Detection on Mobile: Five Implementations and Analysis ( http://arxiv.org/abs/2205.05572v1 )

ライセンス: Link先を確認
Kostiantyn Khabarlak(参考訳) 多くのケースでは、スマートフォンや他の高ポータブルデバイス上での顔検出が不可欠である。 アプリケーションには、モバイルフェイスアクセス制御システム、ドライバステータストラッキング、感情認識などが含まれる。 モバイルデバイスは処理能力が限られており、顔検出アプリケーションが動作してもバッテリー寿命が長い。 したがって、アルゴリズムの品質と複雑さの適切なバランスを取ることが重要です。 この作業では、モバイルに5つのアルゴリズムを適用します。 これらのアルゴリズムは手作りまたはニューラルネットワークベースの機能に基づいており、Viola-Jones(Haar Cascade)、LPP、HOG、MCCNN、BlazeFaceが含まれる。 入力画像解像度の異なる異なるデバイス上でのこれらのアルゴリズムの推論時間を解析する。 我々は、モバイルの顔アクセス制御システムや、潜在的に他のモバイルアプリケーションに最適なアルゴリズムを提供する。 興味深いことに、ケースドアルゴリズムは顔のないシーンでは高速に動作し、BlazeFaceは空のシーンでは遅い。 この行動の発散は実際は役に立つかもしれない。

In many practical cases face detection on smartphones or other highly portable devices is a necessity. Applications include mobile face access control systems, driver status tracking, emotion recognition, etc. Mobile devices have limited processing power and should have long-enough battery life even with face detection application running. Thus, striking the right balance between algorithm quality and complexity is crucial. In this work we adapt 5 algorithms to mobile. These algorithms are based on handcrafted or neural-network-based features and include: Viola-Jones (Haar cascade), LBP, HOG, MTCNN, BlazeFace. We analyze inference time of these algorithms on different devices with different input image resolutions. We provide guidance, which algorithms are the best fit for mobile face access control systems and potentially other mobile applications. Interestingly, we note that cascaded algorithms perform faster on scenes without faces, while BlazeFace is slower on empty scenes. Exploiting this behavior might be useful in practice.
翻訳日:2022-05-12 19:33:34 公開日:2022-05-11
# TDT:完全注釈付きビデオなしで検知器の追跡を指導する

TDT: Teaching Detectors to Track without Fully Annotated Videos ( http://arxiv.org/abs/2205.05583v1 )

ライセンス: Link先を確認
Shuzhi Yu, Guanhang Wu, Chunhui Gu, Mohammed E. Fathy(参考訳) 近年,ジョイントモデルを用いて1回のフォワードパスにおける検出と外観の埋め込みの両方を予測するワンステージトラッカが注目され,マルチオブジェクトトラッキング(mot)ベンチマークで最先端の結果を得た。 しかし、彼らの成功は、追跡データに完全に注釈付けされたビデオが利用できることに依存しており、それは高価で入手が困難である。 これはモデル一般化を制限することができる。 比較として、別々に検出と埋め込みを行う2段階のアプローチは、データの注釈付けが容易であるため、より遅いが、トレーニングが容易である。 データ蒸留法による2つの世界のベストを組み合わせることを提案する。 具体的には、Re-IDデータセットに基づいて訓練された教師埋め込みを用いて、検出データセットの擬似外観埋め込みラベルを生成する。 次に、拡張データセットを使用して、これら擬似埋め込みを完全な畳み込み方式でレグレッションできる検出器を訓練する。 提案した1段階のソリューションは,2段階のソリューションと品質が一致するが,3倍高速である。 教師の組込み機はトレーニング中に追跡データを見ていないが,提案したトラッカーは,完全ラベル付き追跡データでトレーニングされた人気トラッカー(JDEなど)と競合する性能を発揮する。

Recently, one-stage trackers that use a joint model to predict both detections and appearance embeddings in one forward pass received much attention and achieved state-of-the-art results on the Multi-Object Tracking (MOT) benchmarks. However, their success depends on the availability of videos that are fully annotated with tracking data, which is expensive and hard to obtain. This can limit the model generalization. In comparison, the two-stage approach, which performs detection and embedding separately, is slower but easier to train as their data are easier to annotate. We propose to combine the best of the two worlds through a data distillation approach. Specifically, we use a teacher embedder, trained on Re-ID datasets, to generate pseudo appearance embedding labels for the detection datasets. Then, we use the augmented dataset to train a detector that is also capable of regressing these pseudo-embeddings in a fully-convolutional fashion. Our proposed one-stage solution matches the two-stage counterpart in quality but is 3 times faster. Even though the teacher embedder has not seen any tracking data during training, our proposed tracker achieves competitive performance with some popular trackers (e.g. JDE) trained with fully labeled tracking data.
翻訳日:2022-05-12 19:33:20 公開日:2022-05-11
# Video-ReTime: タイムリマッピングの速さを学習する

Video-ReTime: Learning Temporally Varying Speediness for Time Remapping ( http://arxiv.org/abs/2205.05609v1 )

ライセンス: Link先を確認
Simon Jenni, Markus Woodson, Fabian Caba Heilbron(参考訳) 本稿では,所望の目標時間に合わせて時間的に再マップされたビデオを生成する方法を提案する。 本手法は,ビデオ再生速度の時間変化を認識・正確に局所化するために,自己スーパービジョンを通してニューラルネットワークを訓練する。 動画を再生するために 1.個々のビデオフレームの遅さを推測するためにモデルを使用する。 2. 時間フレームのサブサンプリングを最適化し、モデルのスローネス予測と整合する。 本モデルは,従来の手法よりも高精度で,再生速度の変動を正確に検出できることを実証する。 さらに,対象時間を正確に制御し,より長い動画に対してよりロバストに実行できるようにするビデオ再見積の最適化を提案する。 本研究では,動画の速度向上,行動認識への伝達,ユーザ研究による質的評価を行った。

We propose a method for generating a temporally remapped video that matches the desired target duration while maximally preserving natural video dynamics. Our approach trains a neural network through self-supervision to recognize and accurately localize temporally varying changes in the video playback speed. To re-time videos, we 1. use the model to infer the slowness of individual video frames, and 2. optimize the temporal frame sub-sampling to be consistent with the model's slowness predictions. We demonstrate that this model can detect playback speed variations more accurately while also being orders of magnitude more efficient than prior approaches. Furthermore, we propose an optimization for video re-timing that enables precise control over the target duration and performs more robustly on longer videos than prior methods. We evaluate the model quantitatively on artificially speed-up videos, through transfer to action recognition, and qualitatively through user studies.
翻訳日:2022-05-12 19:32:58 公開日:2022-05-11
# (参考訳) 勾配圧縮による分散適応最適化について

On Distributed Adaptive Optimization with Gradient Compression ( http://arxiv.org/abs/2205.05632v1 )

ライセンス: CC BY 4.0
Xiaoyun Li, Belhal Karimi, Ping Li(参考訳) 勾配平均化と適応AMSGradアルゴリズムに基づく分散最適化フレームワークCompum-AMSについて検討する。 勾配伝達プロセスにおける通信コストを低減するために, 誤差フィードバックによるグラディエント圧縮を適用した。 COMP-AMSの収束解析により、圧縮された勾配平均化戦略は標準AMSGradと同じ収束率を示し、また、局所労働者数に対して線形スピードアップ効果を示す。 最近提案された分散適応方式のプロトコルと比較して、Compum-AMSはシンプルで便利である。 理論的知見を正当化するための数値実験を行い, 提案手法は, 通信量を大幅に削減した完全勾配AMSGradと同等のテスト精度を達成できることを実証した。 シンプルさと効率性により、Computer-AMSは適応勾配法のための分散トレーニングフレームワークとして役立つ。

We study COMP-AMS, a distributed optimization framework based on gradient averaging and adaptive AMSGrad algorithm. Gradient compression with error feedback is applied to reduce the communication cost in the gradient transmission process. Our convergence analysis of COMP-AMS shows that such compressed gradient averaging strategy yields same convergence rate as standard AMSGrad, and also exhibits the linear speedup effect w.r.t. the number of local workers. Compared with recently proposed protocols on distributed adaptive methods, COMP-AMS is simple and convenient. Numerical experiments are conducted to justify the theoretical findings, and demonstrate that the proposed method can achieve same test accuracy as the full-gradient AMSGrad with substantial communication savings. With its simplicity and efficiency, COMP-AMS can serve as a useful distributed training framework for adaptive gradient methods.
翻訳日:2022-05-12 19:26:26 公開日:2022-05-11
# repsr: 構造再パラメータ化とバッチ正規化を用いた効率的なvgg型超解像ネットワークの訓練

RepSR: Training Efficient VGG-style Super-Resolution Networks with Structural Re-Parameterization and Batch Normalization ( http://arxiv.org/abs/2205.05671v1 )

ライセンス: Link先を確認
Xintao Wang, Chao Dong, Ying Shan(参考訳) 本稿では,構造的再パラメータ化手法を用いて,効率的なVGG型超解像(SR)ネットワークのトレーニングについて検討する。 再パラメータ化の一般的なパイプラインは、まずマルチブランチトポロジーを持つネットワークをトレーニングし、効率的な推論のためにそれらを標準の3x3畳み込みにマージする。 本研究では,これらの設計を再検討し,SRネットワークの再パラメータ化に必要なコンポーネントについて検討する。 まず、バッチ正規化(BN)は、トレーニングを非線形にし、最終的なパフォーマンスを改善するために重要であることに気付きます。 しかし、BNは通常SRでは無視され、パフォーマンスを低下させ、不快な成果物を導入する。 BN問題の原因を慎重に分析し、単純で効果的な解決策を提案する。 特に,通常通りミニバッチ統計を持つsrネットワークをトレーニングし,その後,トレーニング期間中に人口統計を使用するように切り替えた。 我々は BN を SR に再導入することに成功したが、さらに SR に適した再パラメータ化可能なブロック、すなわち RepSR を設計した。 クリーンな残留経路と、改良されたBNと2つの拡張およびスクイーズ畳み込み経路で構成されている。 広範な実験により,従来のsr再パラメータ化法よりも優れた性能を,異なるモデルサイズで達成できることが実証された。 さらに、我々のRepSRは、従来のSR手法よりもパフォーマンスと実際の実行時間(スループット)のトレードオフが優れている。 コードはhttps://github.com/TencentARC/RepSR.comから入手できる。

This paper explores training efficient VGG-style super-resolution (SR) networks with the structural re-parameterization technique. The general pipeline of re-parameterization is to train networks with multi-branch topology first, and then merge them into standard 3x3 convolutions for efficient inference. In this work, we revisit those primary designs and investigate essential components for re-parameterizing SR networks. First of all, we find that batch normalization (BN) is important to bring training non-linearity and improve the final performance. However, BN is typically ignored in SR, as it usually degrades the performance and introduces unpleasant artifacts. We carefully analyze the cause of BN issue and then propose a straightforward yet effective solution. In particular, we first train SR networks with mini-batch statistics as usual, and then switch to using population statistics at the later training period. While we have successfully re-introduced BN into SR, we further design a new re-parameterizable block tailored for SR, namely RepSR. It consists of a clean residual path and two expand-and-squeeze convolution paths with the modified BN. Extensive experiments demonstrate that our simple RepSR is capable of achieving superior performance to previous SR re-parameterization methods among different model sizes. In addition, our RepSR can achieve a better trade-off between performance and actual running time (throughput) than previous SR methods. Codes will be available at https://github.com/TencentARC/RepSR.
翻訳日:2022-05-12 18:54:40 公開日:2022-05-11
# KOTEのユーザガイド: 韓国のオンラインコメントの感情データセット

User Guide for KOTE: Korean Online Comments Emotions Dataset ( http://arxiv.org/abs/2205.05300v1 )

ライセンス: Link先を確認
Duyoung Jeon and Junho Lee and Cheongtag Kim(参考訳) データから肯定的あるいは否定的な感情分析は、感情的意味の徹底的な検証の欠如にもかかわらず、テキストの感情的側面を認識するために主に用いられてきた。 近年、この限界を超えるために、単に原子価以上のラベルを付けたコーパスが建てられている。 しかし、ほとんどの韓国感情コーパスはインスタンス数が少なく、限られた範囲の感情をカバーしている。 KOTEデータセットを紹介する。 KOTEには50k(250k)の韓国のオンラインコメントが含まれており、それぞれ43の感情ラベルまたは1つの特別なラベル(NO EMOTION)をクラウドソーシング(Ps = 3,048)によって手動でラベル付けされている。 43の感情の感情分類は、単語埋め込み空間で表現された韓国感情概念のクラスター分析によって体系的に確立される。 また,コーパスにおける社会的差別の微調整と分析の結果について述べる。

Sentiment analysis that classifies data into positive or negative has been dominantly used to recognize emotional aspects of texts, despite the deficit of thorough examination of emotional meanings. Recently, corpora labeled with more than just valence are built to exceed this limit. However, most Korean emotion corpora are small in the number of instances and cover a limited range of emotions. We introduce KOTE dataset. KOTE contains 50k (250k cases) Korean online comments, each of which is manually labeled for 43 emotion labels or one special label (NO EMOTION) by crowdsourcing (Ps = 3,048). The emotion taxonomy of the 43 emotions is systematically established by cluster analysis of Korean emotion concepts expressed on word embedding space. After explaining how KOTE is developed, we also discuss the results of finetuning and analysis for social discrimination in the corpus.
翻訳日:2022-05-12 18:50:50 公開日:2022-05-11
# 長文文書からの問合せに基づくキーワード抽出

Query-Based Keyphrase Extraction from Long Documents ( http://arxiv.org/abs/2205.05391v1 )

ライセンス: Link先を確認
Martin Docekal, Pavel Smrz(参考訳) 自然言語処理におけるトランスフォーマーベースのアーキテクチャは、長い文書を処理する必要がある場合に問題となる入力サイズ制限を強制する。 本稿では,キーフレーズを抽出すべきトピックを定義するクエリとしてグローバルコンテキストを維持しながら,長い文書をチャンクすることで,キーフレーズ抽出におけるこの問題を克服する。 開発したシステムは、事前学習されたBERTモデルを用いて、与えられたテキストがキーフレーズを形成する確率を推定する。 InspecとSemEvalという2つの一般的なデータセットと、大きな新しいデータセットを用いて、さまざまなコンテキストサイズを実験した。 その結果,クエリの短いコンテキストでは,長いドキュメントのクエリを使わずに長いコンテキストを克服できることがわかった。

Transformer-based architectures in natural language processing force input size limits that can be problematic when long documents need to be processed. This paper overcomes this issue for keyphrase extraction by chunking the long documents while keeping a global context as a query defining the topic for which relevant keyphrases should be extracted. The developed system employs a pre-trained BERT model and adapts it to estimate the probability that a given text span forms a keyphrase. We experimented using various context sizes on two popular datasets, Inspec and SemEval, and a large novel dataset. The presented results show that a shorter context with a query overcomes a longer one without the query on long documents.
翻訳日:2022-05-12 18:50:35 公開日:2022-05-11
# KETOD:知識に富んだタスク指向対話

KETOD: Knowledge-Enriched Task-Oriented Dialogue ( http://arxiv.org/abs/2205.05589v1 )

ライセンス: Link先を確認
Zhiyu Chen, Bing Liu, Seungwhan Moon, Chinnadhurai Sankar, Paul Crook, William Yang Wang(参考訳) 対話システム研究における既存の研究は主にタスク指向の対話とチットチャットを別々のドメインとして扱う。 ユーザと自然にシームレスに会話できる人間のようなアシスタントを構築するためには,双方の対話を効果的に行う対話システムを構築することが重要である。 本研究では,タスク指向対話と知識接地型チットチャットを単一モデルに効果的に統合する方法を検討する。 そこで我々は,関連するエンティティ知識に基づいてタスク指向の対話をchit-chatで自然に強化する,ketod(knowledge-enriched task-oriented dialogue)という新しいデータセットを作成した。 また,提案課題に対して,SimpleToDPlus と Combiner という2つの新しいモデルを提案する。 自動評価と人的評価の両方の実験結果から,提案手法は,競争力のあるタスク指向対話性能を維持しつつ,知識に富んだ応答生成の性能を大幅に向上させることができることが示された。 われわれの新しいデータセットは将来の研究にとって貴重なリソースになるだろう。 私たちのデータセットとコードは、 \url{https://github.com/facebookresearch/ketod}で公開されている。

Existing studies in dialogue system research mostly treat task-oriented dialogue and chit-chat as separate domains. Towards building a human-like assistant that can converse naturally and seamlessly with users, it is important to build a dialogue system that conducts both types of conversations effectively. In this work, we investigate how task-oriented dialogue and knowledge-grounded chit-chat can be effectively integrated into a single model. To this end, we create a new dataset, KETOD (Knowledge-Enriched Task-Oriented Dialogue), where we naturally enrich task-oriented dialogues with chit-chat based on relevant entity knowledge. We also propose two new models, SimpleToDPlus and Combiner, for the proposed task. Experimental results on both automatic and human evaluations show that the proposed methods can significantly improve the performance in knowledge-enriched response generation while maintaining a competitive task-oriented dialog performance. We believe our new dataset will be a valuable resource for future studies. Our dataset and code are publicly available at \url{https://github.com/facebookresearch/ketod}.
翻訳日:2022-05-12 18:50:24 公開日:2022-05-11
# 臨床ノートからのオントロジに基づく希少疾患の表現型化

Ontology-Based and Weakly Supervised Rare Disease Phenotyping from Clinical Notes ( http://arxiv.org/abs/2205.05656v1 )

ライセンス: Link先を確認
Hang Dong, V\'ictor Su\'arez-Paniagua, Huayu Zhang, Minhong Wang, Arlene Casey, Emma Davidson, Jiaoyan Chen, Beatrice Alex, William Whiteley, Honghan Wu(参考訳) 計算テキスト表現型付け(compute text phenotyping)は、特定の疾患や特徴を有する患者を臨床ノートから識別する手法である。 機械学習やドメインの専門家によるデータアノテーションの必要性から、希少な疾患の特定は困難である。 本稿では,2方向変換器(BERTなど)から事前学習した文脈表現を用いたオントロジーと弱い監督手法を提案する。 オントロジーベースのフレームワークには2つのステップがある。 一 統一医療言語システム(UMLS)における概念への言及を文脈的にリンクすることで表現型を抽出し、名前付きエンティティ認識リンク(NER+L)ツール、SemEHR、カスタマイズされた規則及び文脈参照表現による弱い監督を行う。 (II) Orphanet Rare Disease Ontology (ORDO)におけるUMLS概念と希少疾患との整合性。 弱教師付きアプローチは、ドメインの専門家による注釈付きデータなしで、テキスト-UMLSリンクを改善するための表現型確認モデルを学ぶために提案される。 本研究は,米国と英国の2つの機関から排出サマリーと放射線学報告の3つの臨床データセットについて検討した。 MIMIC-III放電サマリーからレア疾患UMLS表現型を抽出し81.4%の精度と91.4%のリコールを得た。 パイプライン処理全体の臨床ノートは、ほとんどが構造化データ(icdコード)に格納されていないまれな疾患の症例を表面化することができる。 MIMIC-III, NHS Taysideの放射線検査所見は, 放電サマリーと一致していた。 我々は,弱い監督手法の有用性を議論し,今後の研究の方向性を提案する。

Computational text phenotyping is the practice of identifying patients with certain disorders and traits from clinical notes. Rare diseases are challenging to be identified due to few cases available for machine learning and the need for data annotation from domain experts. We propose a method using ontologies and weak supervision, with recent pre-trained contextual representations from Bi-directional Transformers (e.g. BERT). The ontology-based framework includes two steps: (i) Text-to-UMLS, extracting phenotypes by contextually linking mentions to concepts in Unified Medical Language System (UMLS), with a Named Entity Recognition and Linking (NER+L) tool, SemEHR, and weak supervision with customised rules and contextual mention representation; (ii) UMLS-to-ORDO, matching UMLS concepts to rare diseases in Orphanet Rare Disease Ontology (ORDO). The weakly supervised approach is proposed to learn a phenotype confirmation model to improve Text-to-UMLS linking, without annotated data from domain experts. We evaluated the approach on three clinical datasets of discharge summaries and radiology reports from two institutions in the US and the UK. Our best weakly supervised method achieved 81.4% precision and 91.4% recall on extracting rare disease UMLS phenotypes from MIMIC-III discharge summaries. The overall pipeline processing clinical notes can surface rare disease cases, mostly uncaptured in structured data (manually assigned ICD codes). Results on radiology reports from MIMIC-III and NHS Tayside were consistent with the discharge summaries. We discuss the usefulness of the weak supervision approach and propose directions for future studies.
翻訳日:2022-05-12 18:50:07 公開日:2022-05-11
# プロセスマイニングにおける確率的および非決定論的事象データ:プロセス分析技術における不確かさの埋め込み

Probabilistic and Non-Deterministic Event Data in Process Mining: Embedding Uncertainty in Process Analysis Techniques ( http://arxiv.org/abs/2205.04827v2 )

ライセンス: Link先を確認
Marco Pegoraro(参考訳) プロセスマイニングは、イベントログと呼ばれるデータベースで収集されたイベントデータを解析するプロセスサイエンスのサブフィールドである。 近年,プロセスマイニング分析の幅広い産業応用により,新たな種類のイベントデータが注目されている。 本稿では,不確実な事象データについて検討する。 このようなデータには、イベントログに記録された属性に関連付けられたインプレシションの量を記述するメタ属性が含まれている。 我々は,不確実事象データの例を示し,プロセスマイニングにおける不確実性に関する技術の現状を示し,この研究の方向性に関する課題を明らかにした。

Process mining is a subfield of process science that analyzes event data collected in databases called event logs. Recently, novel types of event data have become of interest due to the wide industrial application of process mining analyses. In this paper, we examine uncertain event data. Such data contain meta-attributes describing the amount of imprecision tied with attributes recorded in an event log. We provide examples of uncertain event data, present the state of the art in regard of uncertainty in process mining, and illustrate open challenges related to this research direction.
翻訳日:2022-05-12 18:48:30 公開日:2022-05-11
# メタチューリングテスト

The Meta-Turing Test ( http://arxiv.org/abs/2205.05268v1 )

ライセンス: Link先を確認
Toby Walsh(参考訳) チューリングのオリジナルの模倣ゲームにおいて、人間と機械の間に固有の非対称性を取り除くチューリングテストの代替案を提案する。 この新しいテストでは、人間と機械の両方がお互いを判断する。 これにより、単純な偽装に対してテストがより堅牢になる、と私たちは主張する。 また,テストをさらに改善するための改良も少なからず提案する。 これらの改良はチューリングのオリジナルの模倣ゲームにも適用できる。

We propose an alternative to the Turing test that removes the inherent asymmetry between humans and machines in Turing's original imitation game. In this new test, both humans and machines judge each other. We argue that this makes the test more robust against simple deceptions. We also propose a small number of refinements to improve further the test. These refinements could be applied also to Turing's original imitation game.
翻訳日:2022-05-12 18:47:44 公開日:2022-05-11
# ステレオ画像インパインティングのための反復幾何認識クロスガイダンスネットワーク

Iterative Geometry-Aware Cross Guidance Network for Stereo Image Inpainting ( http://arxiv.org/abs/2205.03825v2 )

ライセンス: Link先を確認
Ang Li, Shanshan Zhao, Qingjie Zhang, Qiuhong Ke(参考訳) 現在、単一の画像インパインティングは、深い畳み込みニューラルネットワークに基づく有望な結果を達成している。 しかし、欠落領域を持つステレオ画像のインペインティングは、十分に検討されていないため、重要ではあるが異なる問題である。 ステレオ画像インパインティングの重要な要件は、ステレオ一貫性である。 そこで我々は,IGGNet(Iterative Geometry-Aware Cross Guidance Network)を提案する。 IGGNetには、Geometry-Aware Attention (GAA)モジュールとIterative Cross Guidance (ICG)戦略という2つの重要な要素が含まれている。 GAAモジュールは、エピポーラ幾何学の手がかりに依存し、ある視点から別の視点への幾何学的ガイダンスを学ぶ。 しかし、既存の欠落領域からの学習指導は困難である。 この問題に対処するため、ICG戦略が提案され、2つのビューの欠落した領域を反復的に絞り込むことができる。 実験の結果,提案ネットワークは,最新のステレオイメージインペインティングモデルと最先端のシングルイメージインペインティングモデルよりも優れていることがわかった。

Currently, single image inpainting has achieved promising results based on deep convolutional neural networks. However, inpainting on stereo images with missing regions has not been explored thoroughly, which is also a significant but different problem. One crucial requirement for stereo image inpainting is stereo consistency. To achieve it, we propose an Iterative Geometry-Aware Cross Guidance Network (IGGNet). The IGGNet contains two key ingredients, i.e., a Geometry-Aware Attention (GAA) module and an Iterative Cross Guidance (ICG) strategy. The GAA module relies on the epipolar geometry cues and learns the geometry-aware guidance from one view to another, which is beneficial to make the corresponding regions in two views consistent. However, learning guidance from co-existing missing regions is challenging. To address this issue, the ICG strategy is proposed, which can alternately narrow down the missing regions of the two views in an iterative manner. Experimental results demonstrate that our proposed network outperforms the latest stereo image inpainting model and state-of-the-art single image inpainting models.
翻訳日:2022-05-12 18:47:39 公開日:2022-05-11
# (参考訳) プラットフォーム・ユーザ関係がアルゴリズム的説明責任をどのように形作るか--インドにおけるインスタントローンプラットフォームと金融ストレスユーザーを事例として

How Platform-User Power Relations Shape Algorithmic Accountability: A Case Study of Instant Loan Platforms and Financially Stressed Users in India ( http://arxiv.org/abs/2205.05661v1 )

ライセンス: CC BY 4.0
Divya Ramesh, Vaishnav Kameswaran, Ding Wang, Nithya Sambasivan(参考訳) 責任あるAIに必要な説明責任は、監査や説明責任といった透明性メカニズムを通じて促進される。 しかしながら、以前の研究は、これらのメカニズムの成功はグローバル・ノースの文脈に限られている可能性を示唆しており、様々な社会・政治条件における現在の介入の限界を理解することは、政策立案者がより広い説明責任を促進するのに不可欠である。 そこで我々は,グローバル・サウス・セッティングにおける,脆弱なユーザと高リスクなAIシステムとの間の既存のインタラクションにおける説明責任の仲介について検討した。 インドにおけるインスタントローンプラットフォームの利用者29名の質的研究について報告する。 その結果,インスタントローンの「ブーム」に対して,利用者は過酷な感情を抱いており,ローンプラットフォームに対する大きな義務を感じていた。 ユーザーは厳しい条件や条件を受け入れ、機密データを過度に共有し、未知の銀行に高い手数料を支払うことで義務を果たす。 ユーザは、虐待、繰り返し負債、差別、プライバシの害、自己損などの危害のリスクにもかかわらず、こうした行為を継続することで、ローンプラットフォームへの依存を示しました。 ユーザはローンプラットフォームに激怒する代わりに、ネガティブな経験の責任を負い、高いパワーを持つローンプラットフォームを説明責任から解放しました。 我々は、説明責任はプラットフォームとユーザ間の力関係によって形成されており、アルゴリズムによる説明責任の育成に純粋に技術的アプローチを採用することを政策立案者に警告する。 代わりに、ユーザエージェンシーを強化し、意味のある透明性を実現し、デザイナとユーザの関係を再構築し、より広い説明責任に対する実践者の批判的なリフレクションを促すような、配置された介入を要求します。 私たちは、インドのFinTechアプリケーションにAIを責任を持ってデプロイすることの意味で締めくくります。

Accountability, a requisite for responsible AI, can be facilitated through transparency mechanisms such as audits and explainability. However, prior work suggests that the success of these mechanisms may be limited to Global North contexts; understanding the limitations of current interventions in varied socio-political conditions is crucial to help policymakers facilitate wider accountability. To do so, we examined the mediation of accountability in the existing interactions between vulnerable users and a 'high-risk' AI system in a Global South setting. We report on a qualitative study with 29 financially-stressed users of instant loan platforms in India. We found that users experienced intense feelings of indebtedness for the 'boon' of instant loans, and perceived huge obligations towards loan platforms. Users fulfilled obligations by accepting harsh terms and conditions, over-sharing sensitive data, and paying high fees to unknown and unverified lenders. Users demonstrated a dependence on loan platforms by persisting with such behaviors despite risks of harms such as abuse, recurring debts, discrimination, privacy harms, and self-harm to them. Instead of being enraged with loan platforms, users assumed responsibility for their negative experiences, thus releasing the high-powered loan platforms from accountability obligations. We argue that accountability is shaped by platform-user power relations, and urge caution to policymakers in adopting a purely technical approach to fostering algorithmic accountability. Instead, we call for situated interventions that enhance agency of users, enable meaningful transparency, reconfigure designer-user relations, and prompt a critical reflection in practitioners towards wider accountability. We conclude with implications for responsibly deploying AI in FinTech applications in India and beyond.
翻訳日:2022-05-12 18:42:11 公開日:2022-05-11
# 協調型マルチエージェント強化学習のための分散フレームワーク

Efficient Distributed Framework for Collaborative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2205.05248v1 )

ライセンス: Link先を確認
Shuhan Qi, Shuhao Zhang, Xiaohan Hou, Jiajia Zhang, Xuan Wang, Jing Xiao(参考訳) 不完全な情報環境に対するマルチエージェント強化学習は研究者の注目を集めている。 しかし, サンプル収集が遅く, サンプル探索が不十分なため, 不安定なモデルイテレーションや訓練効率の低下など, マルチエージェント強化学習の課題がまだ残っている。 さらに、既存の分散フレームワークのほとんどは単エージェント強化学習のために提案されており、マルチエージェントには適していない。 本稿では,アクター-ワーク-ラーナーアーキテクチャに基づく分散MARLフレームワークを設計する。 このフレームワークでは、複数の非同期環境相互作用モジュールを同時にデプロイすることができ、サンプル収集速度とサンプルの多様性を大幅に改善する。 一方、コンピューティングリソースをフル活用するために、モデルイテレーションを環境相互作用から切り離し、ポリシーイテレーションを加速させます。 最後に,maca軍事シミュレーション環境および不完全情報特性を有するsmacリアルタイム戦略ゲーム環境における提案フレームワークの有効性を検証した。

Multi-agent reinforcement learning for incomplete information environments has attracted extensive attention from researchers. However, due to the slow sample collection and poor sample exploration, there are still some problems in multi-agent reinforcement learning, such as unstable model iteration and low training efficiency. Moreover, most of the existing distributed framework are proposed for single-agent reinforcement learning and not suitable for multi-agent. In this paper, we design an distributed MARL framework based on the actor-work-learner architecture. In this framework, multiple asynchronous environment interaction modules can be deployed simultaneously, which greatly improves the sample collection speed and sample diversity. Meanwhile, to make full use of computing resources, we decouple the model iteration from environment interaction, and thus accelerate the policy iteration. Finally, we verified the effectiveness of propose framework in MaCA military simulation environment and the SMAC 3D realtime strategy gaming environment with imcomplete information characteristics.
翻訳日:2022-05-12 18:13:06 公開日:2022-05-11
# グラフ畳み込みニューラルネットワークを用いた時空間関連表現とプロセスモニタリングへの応用

Spatial-temporal associations representation and application for process monitoring using graph convolution neural network ( http://arxiv.org/abs/2205.05250v1 )

ライセンス: Link先を確認
Hao Ren, Chunhua Yang, Xiaojun Liang, Zhiwen Chen, and Weihua Gui(参考訳) 産業プロセスデータは、動作条件の動的変化を反映しており、主に異なる時間における異なる変数間の動的関連の不規則な変化を指す。 そして、この関連したプロセス監視に関する知識は、常によりリッチな操作条件情報を持ち、現在の研究で十分な注意を払っていない動的な監視データにおいて暗黙的に存在します。 この目的のために,空間ベースグラフ畳み込みニューラルネットワーク(SGCN)に基づく新しいプロセス監視手法を提案し,時間とともに動作状態を表すために使用できる動的アソシエーションの特性について述べる。 Spatia-temporal graph は、時間とともに動的に変化するノード属性(動的エッジ特徴)の特徴を表現するために使われる。 そして、ある時点における変数の監視の間の関連を、特定の時点における静的グラフネットワークのスナップショットを定義するノード属性とみなすことができる。 最後に、グラフ構造とノード属性を含むスナップショットをモデル入力として使用し、集約および読み出しステップを備えた空間ベースの畳み込みグラフニューラルネットワークによるグラフ分類を実装する。 本手法の有効性と適用性は,本手法のベンチマークおよび実例適用実験により実証した。

Industrial process data reflects the dynamic changes of operation conditions, which mainly refer to the irregular changes in the dynamic associations between different variables in different time. And this related associations knowledge for process monitoring is often implicit in these dynamic monitoring data which always have richer operation condition information and have not been paid enough attention in current research. To this end, a new process monitoring method based on spatial-based graph convolution neural network (SGCN) is proposed to describe the characteristics of the dynamic associations which can be used to represent the operation status over time. Spatia-temporal graphs are firstly defined, which can be used to represent the characteristics of node attributes (dynamic edge features) dynamically changing with time. Then, the associations between monitoring variables at a certain time can be considered as the node attributes to define a snapshot of the static graph network at the certain time. Finally, the snapshot containing graph structure and node attributes is used as model inputs which are processed to implement graph classification by spatial-based convolution graph neural network with aggregate and readout steps. The feasibility and applicability of this proposed method are demonstrated by our experimental results of benchmark and practical case application.
翻訳日:2022-05-12 18:12:52 公開日:2022-05-11
# 階層型協調型ハイパーパラメータチューニング

Hierarchical Collaborative Hyper-parameter Tuning ( http://arxiv.org/abs/2205.05272v1 )

ライセンス: Link先を確認
Ahmad Esmaeili, Zahra Ghorrati, Eric Matson(参考訳) ハイパーパラメータチューニングは、マシンラーニングソリューションを構築する上で最も重要なステージのひとつだ。 本稿では,機械学習モデルにおける任意のハイパーパラメータの任意の集合に対する近似値を決定する分散手法の開発にマルチエージェントシステムを利用する方法を示す。 提案手法は,ハイパーパラメータ値の協調探索手法として,分散した階層型エージェントベースアーキテクチャを用いる。 提案したジェネリックモデルを用いてランダム化エージェントに基づくチューニング手法を開発し,その動作を機械学習とグローバル関数最適化の両方に適用した。 実験結果によると,提案モデルは,分類誤差と関数評価,特に高次元において,基礎となるランダム化調律戦略の2つを上回った。

Hyper-parameter Tuning is among the most critical stages in building machine learning solutions. This paper demonstrates how multi-agent systems can be utilized to develop a distributed technique for determining near-optimal values for any arbitrary set of hyper-parameters in a machine learning model. The proposed method employs a distributedly formed hierarchical agent-based architecture for the cooperative searching procedure of tuning hyper-parameter values. The presented generic model is used to develop a guided randomized agent-based tuning technique, and its behavior is investigated in both machine learning and global function optimization applications. According the empirical results, the proposed model outperformed both of its underlying randomized tuning strategies in terms of classification error and function evaluations, notably in higher number of dimensions.
翻訳日:2022-05-12 18:12:33 公開日:2022-05-11
# 組合せ帯域割り当てにおけるグループのランク付け

Ranked Prioritization of Groups in Combinatorial Bandit Allocation ( http://arxiv.org/abs/2205.05659v1 )

ライセンス: Link先を確認
Lily Xu, Arpita Biswas, Fei Fang, Milind Tambe(参考訳) レンジャーパトロールによる密猟の防止は絶滅危惧種の野生生物を保護し、国連の持続可能な開発目標15に直接貢献する。 コンビニアル・バンディットは限られたパトロール資源を割り当てるために使われてきたが、既存のアプローチでは、それぞれの場所が様々な割合で複数の種の生息地であることを見落としている。 一部の種がより脆弱な場合には、これらの動物により多くの保護を与える必要があるが、残念ながら、既存の組み合わせ型バンディットアプローチは重要な種を優先する手段を提供していない。 このギャップを埋めるために,(1)報奨の最大化と種に対する優先順位付けを両立させる新しい組合せバンディットの目的を提案する。 この目的をリプシッツ連続報酬関数の重み付き線形和として表現できることを示す。 2) 優先順位付けに基づく目標を最適化する組合せ動作を選択するアルゴリズムである rankcucb を提供し,漸近的な no-regret を達成することを証明した。 3) 実世界の野生生物保全データを用いて, 絶滅危惧種の成績が最大38%向上することを示す。 不正なロギングや過剰漁の防止など,他の課題への適応に加えて,本アルゴリズムでは,重み付き線形目的の一般組合せバンディット問題に対処する。

Preventing poaching through ranger patrols protects endangered wildlife, directly contributing to the UN Sustainable Development Goal 15 of life on land. Combinatorial bandits have been used to allocate limited patrol resources, but existing approaches overlook the fact that each location is home to multiple species in varying proportions, so a patrol benefits each species to differing degrees. When some species are more vulnerable, we ought to offer more protection to these animals; unfortunately, existing combinatorial bandit approaches do not offer a way to prioritize important species. To bridge this gap, (1) We propose a novel combinatorial bandit objective that trades off between reward maximization and also accounts for prioritization over species, which we call ranked prioritization. We show this objective can be expressed as a weighted linear sum of Lipschitz-continuous reward functions. (2) We provide RankedCUCB, an algorithm to select combinatorial actions that optimize our prioritization-based objective, and prove that it achieves asymptotic no-regret. (3) We demonstrate empirically that RankedCUCB leads to up to 38% improvement in outcomes for endangered species using real-world wildlife conservation data. Along with adapting to other challenges such as preventing illegal logging and overfishing, our no-regret algorithm addresses the general combinatorial bandit problem with a weighted linear objective.
翻訳日:2022-05-12 18:12:03 公開日:2022-05-11
# ニューロイメージングのための安全なフェデレーション学習

Secure Federated Learning for Neuroimaging ( http://arxiv.org/abs/2205.05249v1 )

ライセンス: Link先を確認
Dimitris Stripelis, Umang Gupta, Hamza Saleem, Nikhil Dhinagar, Tanmay Ghai, Rafael Sanchez, Chrysovalantis Anastasiou, Armaghan Asghar, Greg Ver Steeg, Srivatsan Ravi, Muhammad Naveed, Paul M. Thompson, Jose Luis Ambite(参考訳) バイオメディカルデータの量は急速に増え続けている。 しかし、セキュリティ、プライバシー、規制上の懸念から、共同分析のために複数のサイトからデータを収集する能力は依然として困難である。 本研究では,複数のデータソースに分散したニューラルネットワークのトレーニングを可能にする,セキュアなフェデレーション学習アーキテクチャであるmetisflを提案する。 各サイトは、しばらくの間、ニューラルネットワークをプライベートデータ上でトレーニングし、ニューラルネットワークパラメータ(ウェイト、勾配)をフェデレーションコントローラと共有し、ローカルモデルを集約し、結果のコミュニティモデルを各サイトに送信し、プロセスが繰り返される。 私たちのアーキテクチャは強力なセキュリティとプライバシを提供します。 まず、サンプルデータは決してサイトを離れない。 第二に、神経パラメータは送信前に暗号化され、コミュニティモデルは完全正則暗号で計算される。 最後に,情報理論的な手法を用いて,神経モデルからの情報漏洩を制限し,興味のあるサイトがメンバシップアタックを行うのを防ぐ。 私たちはこのアーキテクチャを神経画像で示します。 具体的には,複数の部位に分布する磁気共鳴イメージングデータセットから,アルツハイマー病を分類し,脳年齢を推定する訓練用ニューラルモデルについて検討した。

The amount of biomedical data continues to grow rapidly. However, the ability to collect data from multiple sites for joint analysis remains challenging due to security, privacy, and regulatory concerns. We present a Secure Federated Learning architecture, MetisFL, which enables distributed training of neural networks over multiple data sources without sharing data. Each site trains the neural network over its private data for some time, then shares the neural network parameters (i.e., weights, gradients) with a Federation Controller, which in turn aggregates the local models, sends the resulting community model back to each site, and the process repeats. Our architecture provides strong security and privacy. First, sample data never leaves a site. Second, neural parameters are encrypted before transmission and the community model is computed under fully-homomorphic encryption. Finally, we use information-theoretic methods to limit information leakage from the neural model to prevent a curious site from performing membership attacks. We demonstrate this architecture in neuroimaging. Specifically, we investigate training neural models to classify Alzheimer's disease, and estimate Brain Age, from magnetic resonance imaging datasets distributed across multiple sites, including heterogeneous environments where sites have different amounts of data, statistical distributions, and computational capabilities.
翻訳日:2022-05-12 18:08:17 公開日:2022-05-11
# CNN-LSTMを用いたマルチモーダルMRIと臨床データ融合による脳卒中患者の予後予測

CNN-LSTM Based Multimodal MRI and Clinical Data Fusion for Predicting Functional Outcome in Stroke Patients ( http://arxiv.org/abs/2205.05545v1 )

ライセンス: Link先を確認
Nima Hatami and Tae-Hee Cho and Laura Mechtouff and Omer Faruk Eker and David Rousseau and Carole Frindel(参考訳) 脳卒中患者の管理には臨床結果予測が重要である。 機械学習の観点から考えると、主な課題の1つは、入院時の異種データ、すなわち多次元の画像データとスカラーである臨床データを扱うことである。 本稿では,マルチモーダル畳み込みニューラルネットワーク-long short-term memory(cnn-lstm)に基づくアンサンブルモデルを提案する。 各MR画像モジュールに対して、専用ネットワークは、修正されたランキンスケール(mRS)を使用して臨床結果の予備的な予測を提供する。 最終mRSスコアは、臨床メタデータによって重み付けされた特定の種類のMR画像専用の各モジュールの予備確率をこの年齢または国立衛生ストローク尺度(NIHSS)にマージすることによって得られる。 実験の結果,提案モデルがベースラインを越え,mr画像の時空間的コンテキストをディープラーニングアーキテクチャで自動的にエンコードする独自の方法が得られた。 最も高いAUC (0.77) はNIHSSで提案されたモデルで達成された。

Clinical outcome prediction plays an important role in stroke patient management. From a machine learning point-of-view, one of the main challenges is dealing with heterogeneous data at patient admission, i.e. the image data which are multidimensional and the clinical data which are scalars. In this paper, a multimodal convolutional neural network - long short-term memory (CNN-LSTM) based ensemble model is proposed. For each MR image module, a dedicated network provides preliminary prediction of the clinical outcome using the modified Rankin scale (mRS). The final mRS score is obtained by merging the preliminary probabilities of each module dedicated to a specific type of MR image weighted by the clinical metadata, here age or the National Institutes of Health Stroke Scale (NIHSS). The experimental results demonstrate that the proposed model surpasses the baselines and offers an original way to automatically encode the spatio-temporal context of MR images in a deep learning architecture. The highest AUC (0.77) was achieved for the proposed model with NIHSS.
翻訳日:2022-05-12 18:07:56 公開日:2022-05-11
# マルチパーソン音声/視覚自動音声認識

End-to-End Multi-Person Audio/Visual Automatic Speech Recognition ( http://arxiv.org/abs/2205.05586v1 )

ライセンス: Link先を確認
Otavio Braga, Takaki Makino, Olivier Siohan, Hank Liao(参考訳) 従来,視覚信号の発話面が音声と一致する顔であるという仮定のもと,音声・視覚自動音声認識が研究されてきた。 しかし、より現実的な環境では、複数の顔がスクリーン上にある可能性がある場合、A/V ASRシステムに供給する顔を決定する必要がある。 本研究は、A/V ASRの最近の進歩を一歩進め、複数の人が同時にスクリーン上にいるシナリオ(複数人A/V ASR)を考える。 ビデオ内の複数の顔トラックを処理できる完全微分可能なA/V ASRモデルを提案する。 話者の顔選択のための2つの異なるモデルと1つの顔トラック上のオーディオ・ビジュアルasrに頼る代わりに、適切な顔ビデオトラックをソフト選択できるasrエンコーダに注意層を導入する。 YouTubeビデオの30k時間以上でトレーニングされたA/Vシステムで行った実験では、音声のみの代わりに視覚信号を使用することのメリットを示しながら、音声のオラクル選択と比較して、WER劣化の少ない適切な顔トラックを自動選択できることが示されている。

Traditionally, audio-visual automatic speech recognition has been studied under the assumption that the speaking face on the visual signal is the face matching the audio. However, in a more realistic setting, when multiple faces are potentially on screen one needs to decide which face to feed to the A/V ASR system. The present work takes the recent progress of A/V ASR one step further and considers the scenario where multiple people are simultaneously on screen (multi-person A/V ASR). We propose a fully differentiable A/V ASR model that is able to handle multiple face tracks in a video. Instead of relying on two separate models for speaker face selection and audio-visual ASR on a single face track, we introduce an attention layer to the ASR encoder that is able to soft-select the appropriate face video track. Experiments carried out on an A/V system trained on over 30k hours of YouTube videos illustrate that the proposed approach can automatically select the proper face tracks with minor WER degradation compared to an oracle selection of the speaking face while still showing benefits of employing the visual signal instead of the audio alone.
翻訳日:2022-05-12 18:07:40 公開日:2022-05-11
# (参考訳) オブジェクト構造に関する言語から概念ライブラリを識別する

Identifying concept libraries from language about object structure ( http://arxiv.org/abs/2205.05666v1 )

ライセンス: CC BY 4.0
Catherine Wong, William P. McCarthy, Gabriel Grand, Yoni Friedman, Joshua B. Tenenbaum, Jacob Andreas, Robert D. Hawkins, Judith E. Fan(参考訳) 私たちの視覚世界に対する理解は、オブジェクトを意味のある部分、属性、関係に解析する能力を含む、オブジェクトの命名を超えています。 本研究では,自然言語記述を多種多様な2Kプロシージャ生成オブジェクトの集合に活用して,人々が使用する部分と,これらを他よりも好むべき原則を特定する。 我々は,各ライブラリで表現されたプログラムが,人間の言語とどのように一致しているかを評価するために,機械翻訳のツールを用いて,異なる部分概念を含むプログラムライブラリの空間を探索する際の問題を定式化する。 自然言語を大規模に構成されたプログラム表現と組み合わせることで、各オブジェクトの簡潔な記述を許容するレキシコンと、レキシコン自体のサイズを最小化する部分概念を統治する基本的な情報理論上のトレードオフが発見される。

Our understanding of the visual world goes beyond naming objects, encompassing our ability to parse objects into meaningful parts, attributes, and relations. In this work, we leverage natural language descriptions for a diverse set of 2K procedurally generated objects to identify the parts people use and the principles leading these parts to be favored over others. We formalize our problem as search over a space of program libraries that contain different part concepts, using tools from machine translation to evaluate how well programs expressed in each library align to human language. By combining naturalistic language at scale with structured program representations, we discover a fundamental information-theoretic tradeoff governing the part concepts people name: people favor a lexicon that allows concise descriptions of each object, while also minimizing the size of the lexicon itself.
翻訳日:2022-05-12 18:06:01 公開日:2022-05-11
# 事前学習型言語モデルの構築

Making Pre-trained Language Models Good Long-tailed Learners ( http://arxiv.org/abs/2205.05461v1 )

ライセンス: Link先を確認
Chen Zhang, Lei Ren, Jingang Wang, Wei Wu, Dawei Song(参考訳) プロンプトチューニングは、事前訓練された知識を効果的に活用する能力によって、数発の分類において魅力的な性能を示している。 このことは、尾クラスが直感的にほとんどショットしないため、プロンプトチューニングが長い尾の分類に有望な選択であるという仮説を確認する動機となっている。 この目的を達成するために,仮説を検証するための実証研究を行う。 その結果,プロンプトチューニングにより,事前学習した言語モデルが,少なくとも長尾学習者に対して有効であることを示す。 そこで我々は, プロンプトチューニングとファインチューニングのギャップを段階的に埋めることにより, 長期的分類において, プロンプトチューニングが良好な性能を発揮する理由を直観的に検討する。 要約すると、分類器の構造とパラメータ化が、あまり重要でない入力構造と比較して、優れた長尾学習者を作る鍵となる。 最後に, 数発分類への適用性を検証する。

Prompt-tuning has shown appealing performance in few-shot classification by virtue of its capability in effectively exploiting pre-trained knowledge. This motivates us to check the hypothesis that prompt-tuning is also a promising choice for long-tailed classification, since the tail classes are intuitively few-shot ones. To achieve this aim, we conduct empirical studies to examine the hypothesis. The results demonstrate that prompt-tuning exactly makes pre-trained language models at least good long-tailed learners. For intuitions on why prompt-tuning can achieve good performance in long-tailed classification, we carry out an in-depth analysis by progressively bridging the gap between prompt-tuning and commonly used fine-tuning. The summary is that the classifier structure and parameterization form the key to making good long-tailed learners, in comparison with the less important input structure. Finally, we verify the applicability of our finding to few-shot classification.
翻訳日:2022-05-12 17:51:19 公開日:2022-05-11
# NDGGNET-ノード独立ゲート型グラフニューラルネットワーク

NDGGNET-A Node Independent Gate based Graph Neural Networks ( http://arxiv.org/abs/2205.05348v1 )

ライセンス: Link先を確認
Ye Tang, Xuesong Yang, Xinrui Liu, Xiwei Zhao, Zhangang Lin, Changping Peng(参考訳) グラフニューラルネットワーク(GNN)は、構造データのためのアーキテクチャであり、多数のタスクに採用され、リンク予測、ノード分類、グラフ分類などの素晴らしい結果を得た。 一般に、あるグラフのあるノードに対して、従来のGNNレイヤはワンホップの隣人からの集約と見なすことができるため、スタックされたレイヤのセットはマルチホップ内でノードの状態を取得して更新することができる。 疎結合なノードでは、単一のGNN層を通じて十分な情報を取得することは困難であり、直接接続されるノードは少ないだけでなく、高次隣の情報を伝播することができない。 しかし、層数が増加するにつれて、GNNモデルは接続密度の高いノードに対して過度に滑らかになる傾向にあり、その結果精度が低下する。 この問題に取り組むため、本論文では、通常のgnnモデルがより多くの層に対応できる新しいフレームワークを定義する。 具体的には,ノード度に基づくゲートを用いてレイヤの重みを動的に調整し,情報収集能力を高め,過度なスムース化の可能性を低減させる。 実験結果から,提案モデルがモデル深度を効果的に向上し,複数のデータセットで良好に動作できることが示唆された。

Graph Neural Networks (GNNs) is an architecture for structural data, and has been adopted in a mass of tasks and achieved fabulous results, such as link prediction, node classification, graph classification and so on. Generally, for a certain node in a given graph, a traditional GNN layer can be regarded as an aggregation from one-hop neighbors, thus a set of stacked layers are able to fetch and update node status within multi-hops. For nodes with sparse connectivity, it is difficult to obtain enough information through a single GNN layer as not only there are only few nodes directly connected to them but also can not propagate the high-order neighbor information. However, as the number of layer increases, the GNN model is prone to over-smooth for nodes with the dense connectivity, which resulting in the decrease of accuracy. To tackle this issue, in this thesis, we define a novel framework that allows the normal GNN model to accommodate more layers. Specifically, a node-degree based gate is employed to adjust weight of layers dynamically, that try to enhance the information aggregation ability and reduce the probability of over-smoothing. Experimental results show that our proposed model can effectively increase the model depth and perform well on several datasets.
翻訳日:2022-05-12 17:49:11 公開日:2022-05-11
# 深部Q-Learningにおける行動一般化ギャップの特徴付け

Characterizing the Action-Generalization Gap in Deep Q-Learning ( http://arxiv.org/abs/2205.05588v1 )

ライセンス: Link先を確認
Zhiyuan Zhou, Cameron Allen, Kavosh Asadi, George Konidaris(参考訳) 離散的行動空間における深層q学習の行動一般化能力について検討した。 エージェントは新しいタスクで過去の経験から学んだ知識を使用できるため、効率的な強化学習(rl)には一般化が不可欠である。 しかし、関数近似は状態入力を一般化する自然な方法で深いRLエージェントを提供するが、同じ一般化機構は離散的な動作出力には適用されない。 しかし、驚くべきことに、このタイプの関数近似器を使用するDeep Q-Networks (DQN) は、依然として控えめな動作一般化を実現することができる。 まず,行動類似性に関する専門家の知識を用いて行動一般化を評価する手法を提案し,行動一般化が学習の高速化につながることを実証的に確認し,また,異なる領域における行動一般化のギャップ(DQNと専門家の学習性能の違い)を特徴付ける。 DQNはいくつかの単純な領域での作用よりも一般化できるが、作用空間が大きくなるにつれてその作用能力は低下する。

We study the action generalization ability of deep Q-learning in discrete action spaces. Generalization is crucial for efficient reinforcement learning (RL) because it allows agents to use knowledge learned from past experiences on new tasks. But while function approximation provides deep RL agents with a natural way to generalize over state inputs, the same generalization mechanism does not apply to discrete action outputs. And yet, surprisingly, our experiments indicate that Deep Q-Networks (DQN), which use exactly this type of function approximator, are still able to achieve modest action generalization. Our main contribution is twofold: first, we propose a method of evaluating action generalization using expert knowledge of action similarity, and empirically confirm that action generalization leads to faster learning; second, we characterize the action-generalization gap (the difference in learning performance between DQN and the expert) in different domains. We find that DQN can indeed generalize over actions in several simple domains, but that its ability to do so decreases as the action space grows larger.
翻訳日:2022-05-12 17:48:48 公開日:2022-05-11
# 回転対称モデルを用いた畳み込みニューラルネットワーク画像分類器の解析

Analysis of convolutional neural network image classifiers in a rotationally symmetric model ( http://arxiv.org/abs/2205.05500v1 )

ライセンス: Link先を確認
Michael Kohler and Benjamin Walter(参考訳) 畳み込みニューラルネットワーク画像分類器を定義し、最適な誤分類リスクに向かう推定の誤分類リスクの収束率を分析する。 ここでは、イメージを関数空間の値を持つランダム変数とみなし、離散サンプルを有限格子上の関数値としてのみ観察する。 入力画像の部分の回転に対するある種の対称性を含む機能的後部確率に関する適切な構造的・滑らかな仮定の下で、畳み込みニューラルネットワークに基づく最小二乗プラグイン分類器は、解像度依存誤差項を無視した場合、二乗画像分類における次元性の呪いを回避することができることを示す。 シミュレーションおよび実データに適用することにより、分類器の有限サンプルサイズ挙動を分析する。

Convolutional neural network image classifiers are defined and the rate of convergence of the misclassification risk of the estimates towards the optimal misclassification risk is analyzed. Here we consider images as random variables with values in some functional space, where we only observe discrete samples as function values on some finite grid. Under suitable structural and smoothness assumptions on the functional a posteriori probability, which includes some kind of symmetry against rotation of subparts of the input image, it is shown that least squares plug-in classifiers based on convolutional neural networks are able to circumvent the curse of dimensionality in binary image classification if we neglect a resolution-dependent error term. The finite sample size behavior of the classifier is analyzed by applying it to simulated and real data.
翻訳日:2022-05-12 17:45:58 公開日:2022-05-11
# 双目的ベイズ最適化における超体積改善の確率分布

Probability Distribution of Hypervolume Improvement in Bi-objective Bayesian Optimization ( http://arxiv.org/abs/2205.05505v1 )

ライセンス: Link先を確認
Hao Wang, Kaifeng Yang, Michael Affenzeller, Michael Emmerich(参考訳) この研究は、ベイズ最適化の双目的一般化のための超体積改善(HVI)の確率分布の正確な表現を提供する。 ここでは,単一目的の改善ではなく,パレート前線の現在の最良近似に関するハイパーボリューム指標の改善を検討する。 ガウス過程回帰モデルは、両方の目的関数に基づいて独立に訓練され、ベクトル値の対象関数の予測モデルとして機能する二変量分離ガウス分布となる。 いくつかのHVIベースの取得関数(改善の確率と高信頼境界)もHVIの正確な分布の助けを借りて活用される。 さらに,モンテカルロサンプリングによる近似よりも正確な分布の数値的精度と効率が優れていることを示す。 最後に,広く適用されたzdt問題集合上での分布平均取得関数のベンチマークを行い,多目的ベイズ最適化におけるhviの正確な分布の利点を示す。

This work provides the exact expression of the probability distribution of the hypervolume improvement (HVI) for bi-objective generalization of Bayesian optimization. Here, instead of a single-objective improvement, we consider the improvement of the hypervolume indicator concerning the current best approximation of the Pareto front. Gaussian process regression models are trained independently on both objective functions, resulting in a bi-variate separated Gaussian distribution serving as a predictive model for the vector-valued objective function. Some commonly HVI-based acquisition functions (probability of improvement and upper confidence bound) are also leveraged with the help of the exact distribution of HVI. In addition, we show the superior numerical accuracy and efficiency of the exact distribution compared to the commonly used approximation by Monte-Carlo sampling. Finally, we benchmark distribution-leveraged acquisition functions on the widely applied ZDT problem set, demonstrating a significant advantage of using the exact distribution of HVI in multi-objective Bayesian optimization.
翻訳日:2022-05-12 17:45:44 公開日:2022-05-11
# OTFPF:3次元オーバーラップConvNeXtを用いた脳年齢推定のための最適輸送型特徴ピラミッド融合ネットワーク

OTFPF: Optimal Transport-Based Feature Pyramid Fusion Network for Brain Age Estimation with 3D Overlapped ConvNeXt ( http://arxiv.org/abs/2205.04684v2 )

ライセンス: Link先を確認
Yu Fu, Yanyan Huang, Yalin Wang, Shunjie Dong, Le Xue, Xunzhao Yin, Qianqian Yang, Yiyu Shi, Cheng Zhuo(参考訳) t1-weighted magnetic resonance image (t1 mri) のディープニューラルネットワークを用いて、健康な脳の年代を予測でき、予測された脳年齢は老化に関連する疾患や疾患を検出する効果的なバイオマーカーとなる可能性がある。 本稿では、T1 MRIを用いた脳年齢推定のための、最適輸送に基づく特徴ピラミッド融合(OTFPF)ネットワークと呼ばれるエンドツーエンドのニューラルネットワークアーキテクチャを提案する。 OTFPFは、最適輸送に基づく特徴ピラミッド融合(OTFPF)モジュール、3D重なり合うConvNeXt (3D OL-ConvNeXt)モジュール、融合モジュールの3つのタイプから構成される。 これらのモジュールは、OTFPFネットワークの脳の半マルチモーダルおよびマルチレベル特徴ピラミッド情報の理解を強化し、その推定性能を大幅に改善する。 近年の最先端モデルと比較すると,提案した OTFPF はより高速に収束し,性能が向上する。 11,728のMRIによる実験では、OTFPFネットワークは正確な脳年齢推定が可能であり、平均絶対誤差(MAE)は2.097、Pearson's correlation coefficient(PCC)は0.993、Spearman's rank correlation coefficient(SRCC)は0.989である。 広帯域の定量的実験とアブレーション実験は、OTFPFネットワークの優位性と合理性を示す。 コードと実装の詳細はGitHubで公開される。 最終決定後、https://github.com/ZJU-Brain/OTFPF。

Chronological age of healthy brain is able to be predicted using deep neural networks from T1-weighted magnetic resonance images (T1 MRIs), and the predicted brain age could serve as an effective biomarker for detecting aging-related diseases or disorders. In this paper, we propose an end-to-end neural network architecture, referred to as optimal transport based feature pyramid fusion (OTFPF) network, for the brain age estimation with T1 MRIs. The OTFPF consists of three types of modules: Optimal Transport based Feature Pyramid Fusion (OTFPF) module, 3D overlapped ConvNeXt (3D OL-ConvNeXt) module and fusion module. These modules strengthen the OTFPF network's understanding of each brain's semi-multimodal and multi-level feature pyramid information, and significantly improve its estimation performances. Comparing with recent state-of-the-art models, the proposed OTFPF converges faster and performs better. The experiments with 11,728 MRIs aged 3-97 years show that OTFPF network could provide accurate brain age estimation, yielding mean absolute error (MAE) of 2.097, Pearson's correlation coefficient (PCC) of 0.993 and Spearman's rank correlation coefficient (SRCC) of 0.989, between the estimated and chronological ages. Widespread quantitative experiments and ablation experiments demonstrate the superiority and rationality of OTFPF network. The codes and implement details will be released on GitHub: https://github.com/ZJU-Brain/OTFPF after final decision.
翻訳日:2022-05-12 17:45:31 公開日:2022-05-11
# 連続的ディープフェイク検出ベンチマーク:データセット、メソッド、本質

A Continual Deepfake Detection Benchmark: Dataset, Methods, and Essentials ( http://arxiv.org/abs/2205.05467v1 )

ライセンス: Link先を確認
Chuqiao Li, Zhiwu Huang, Danda Pani Paudel, Yabin Wang, Mohamad Shahbazi, Xiaopeng Hong, Luc Van Gool(参考訳) ディープフェイクを検出するためのベンチマークやテクニックが数多く登場している。 しかし、現実世界のシナリオで徐々に現れるディープフェイクの検出を研究する研究はほとんどない。 そこで,本研究では,未知の生成モデルと未知の生成モデルの両方から,新たなディープフェイクのコレクションに対して連続的なディープフェイク検出ベンチマーク(CDDB)を提案する。 提案したCDDBは, 難易度, 難易度, 長期にわたる深度タスクの検出に関する複数の評価を, 適切な尺度を用いて設計する。 さらに,連続視覚認識によく用いられる多クラスインクリメンタル学習手法を,連続的ディープフェイク検出問題に適応させるために,複数の手法を適用した。 提案したCDDB上で,適応型を含むいくつかの手法を評価する。 提案するベンチマークでは,標準連続学習の共通部分について検討する。 本研究は, 連続的なディープフェイク検出の文脈におけるこれらの重要事項に関する新たな知見を提供する。 提案されたCDDBは、既存のベンチマークよりも明らかに困難であり、将来の研究に適切な評価方法を提供する。 ベンチマークデータセットとソースコードは公開される予定だ。

There have been emerging a number of benchmarks and techniques for the detection of deepfakes. However, very few works study the detection of incrementally appearing deepfakes in the real-world scenarios. To simulate the wild scenes, this paper suggests a continual deepfake detection benchmark (CDDB) over a new collection of deepfakes from both known and unknown generative models. The suggested CDDB designs multiple evaluations on the detection over easy, hard, and long sequence of deepfake tasks, with a set of appropriate measures. In addition, we exploit multiple approaches to adapt multiclass incremental learning methods, commonly used in the continual visual recognition, to the continual deepfake detection problem. We evaluate several methods, including the adapted ones, on the proposed CDDB. Within the proposed benchmark, we explore some commonly known essentials of standard continual learning. Our study provides new insights on these essentials in the context of continual deepfake detection. The suggested CDDB is clearly more challenging than the existing benchmarks, which thus offers a suitable evaluation avenue to the future research. Our benchmark dataset and the source code will be made publicly available.
翻訳日:2022-05-12 17:45:03 公開日:2022-05-11
# (参考訳) RISP:クロスドメインパラメータ推定のための微分可能シミュレーションとレンダリングによるレンダリング不変状態予測器

RISP: Rendering-Invariant State Predictor with Differentiable Simulation and Rendering for Cross-Domain Parameter Estimation ( http://arxiv.org/abs/2205.05678v1 )

ライセンス: CC0 1.0
Pingchuan Ma, Tao Du, Joshua B. Tenenbaum, Wojciech Matusik, Chuang Gan(参考訳) この研究は、レンダリング構成がアクセス不能なビデオから直接物理系の動的動きを特徴付けるパラメータを特定することを検討する。 既存のソリューションは大量のトレーニングデータを必要とするか、未知のレンダリング設定の汎用性を欠いている。 本稿では、ドメインのランダム化と微分可能なレンダリング勾配を組み合わせた新しい手法を提案する。 我々の核となるアイデアはレンダリング不変状態予測(risp)ネットワークを訓練することであり、画像の違いをレンダリング構成、例えば照明、シャドー、物質反射などに依存しない状態差に変換する。 この予測器を訓練するために、微分可能レンダリングからの勾配を用いて、分散のレンダリングにおいて新たな損失を定式化する。 さらに、この損失の勾配を計算するための効率的な2階法を提案し、現代のディープラーニングフレームワークにシームレスに統合できるようにする。 本手法は剛体および変形体シミュレーション環境において, 状態推定, システム同定, 模倣学習, 振動運動制御の4つのタスクを用いて評価する。 さらに,実世界の実例における本手法の有効性を実証する。その動き列の映像から,クワッドローターの状態と動作シーケンスを推測する。 既存の手法と比較して,提案手法は再構成誤差を著しく低減し,未知のレンダリング構成の一般化性が向上する。

This work considers identifying parameters characterizing a physical system's dynamic motion directly from a video whose rendering configurations are inaccessible. Existing solutions require massive training data or lack generalizability to unknown rendering configurations. We propose a novel approach that marries domain randomization and differentiable rendering gradients to address this problem. Our core idea is to train a rendering-invariant state-prediction (RISP) network that transforms image differences into state differences independent of rendering configurations, e.g., lighting, shadows, or material reflectance. To train this predictor, we formulate a new loss on rendering variances using gradients from differentiable rendering. Moreover, we present an efficient, second-order method to compute the gradients of this loss, allowing it to be integrated seamlessly into modern deep learning frameworks. We evaluate our method in rigid-body and deformable-body simulation environments using four tasks: state estimation, system identification, imitation learning, and visuomotor control. We further demonstrate the efficacy of our approach on a real-world example: inferring the state and action sequences of a quadrotor from a video of its motion sequences. Compared with existing methods, our approach achieves significantly lower reconstruction errors and has better generalizability among unknown rendering configurations.
翻訳日:2022-05-12 17:42:27 公開日:2022-05-11
# webビデオから視覚的な質問に答える学習

Learning to Answer Visual Questions from Web Videos ( http://arxiv.org/abs/2205.05019v2 )

ライセンス: Link先を確認
Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid(参考訳) 最近のビジュアル質問応答の方法は、大規模な注釈付きデータセットに依存している。 しかし、ビデオに対する質問や回答のマニュアルアノテーションは面倒で高価であり、スケーラビリティを損なう。 本稿では,手動アノテーションを回避し,自動クロスモーダル監視によるビデオ質問応答のための大規模トレーニングデータセットを作成することを提案する。 テキストデータに基づいて学習した質問生成トランスを活用し,書き起こされたビデオナレーションから質問応答ペアを生成する。 ナレーションされたビデオがあれば、howtovqa69mデータセットを69mのビデオクェリアンワートリプレットで自動的に生成します。 本データセットにおける多様な回答のオープンな語彙を扱うために,ビデオ検索マルチモーダル変換器と応答変換器との対比損失に基づくトレーニング手順を提案する。 ゼロショットビデオQAタスクとビデオQA特徴量評価設定を導入し、特に稀な回答に対して優れた結果を示す。 さらに,本手法は,MSRVTT-QA,ActivityNet-QA,MSVD-QA,How2QAデータセット上での競合的な結果を得る。 また、ビデオQAデータセット生成アプローチがWebビデオとテキストデータの別のソースに一般化されることを示す。 本手法は,WebVidデータセットからWebVidVQA3Mデータセットを生成するために用いられる。 最後に、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットであるiVQAを紹介する。 コード、データセット、トレーニングされたモデルはhttps://antoyang.github.io/just-ask.htmlで利用可能である。

Recent methods for visual question answering rely on large-scale annotated datasets. Manual annotation of questions and answers for videos, however, is tedious, expensive and prevents scalability. In this work, we propose to avoid manual annotation and generate a large-scale training dataset for video question answering making use of automatic cross-modal supervision. We leverage a question generation transformer trained on text data and use it to generate question-answer pairs from transcribed video narrations. Given narrated videos, we then automatically generate the HowToVQA69M dataset with 69M video-question-answer triplets. To handle the open vocabulary of diverse answers in this dataset, we propose a training procedure based on a contrastive loss between a video-question multi-modal transformer and an answer transformer. We introduce the zero-shot VideoQA task and the VideoQA feature probe evaluation setting and show excellent results, in particular for rare answers. Furthermore, our method achieves competitive results on MSRVTT-QA, ActivityNet-QA, MSVD-QA and How2QA datasets. We also show that our VideoQA dataset generation approach generalizes to another source of web video and text data. We use our method to generate the WebVidVQA3M dataset from the WebVid dataset, i.e., videos with alt-text annotations, and show its benefits for training VideoQA models. Finally, for a detailed evaluation we introduce iVQA, a new VideoQA dataset with reduced language bias and high-quality manual annotations. Code, datasets and trained models are available at https://antoyang.github.io/just-ask.html
翻訳日:2022-05-12 17:21:53 公開日:2022-05-11
# 変圧器を用いた物体検出のための自己教師あり学習手法の実証的研究

An Empirical Study Of Self-supervised Learning Approaches For Object Detection With Transformers ( http://arxiv.org/abs/2205.05543v1 )

ライセンス: Link先を確認
Gokul Karthik Kumar, Sahal Shaji Mullappilly, Abhishek Singh Gehlot(参考訳) マスク付き言語モデリングのような自己教師付き学習(SSL)手法は、様々な自然言語処理タスクのためにトランスフォーマーモデルを事前訓練することで、大きなパフォーマンス向上を示した。 追従研究は、視覚変換器におけるマスク画像モデリングのような類似の手法を適用し、画像分類タスクの改善を実証した。 オブジェクト検出変換器 (DETR, Deformable DETR) では、変換器エンコーダモジュールが画像空間ではなく、畳み込みニューラルネットワーク (CNN) によって抽出された特徴空間を一般の視覚変換器のように入力するので、このような単純な自己監督法は徹底的に研究されない。 しかし、cnn特徴マップは依然として空間的関係を維持しており、この特性を利用して、事前学習およびマルチタスク学習環境でオブジェクト検出トランスフォーマのエンコーダをトレーニングする自己教師付き学習手法を設計する。 本稿では,画像再構成,マスク画像モデリング,jigsawに基づく一般的な自己教師あり手法について検討する。 iSAIDデータセットにおける予備実験は、事前学習とマルチタスク学習の両方において初期のエポックにおけるDETRの高速収束を示すが、Deformable DETRを用いたマルチタスク学習では同様の改善は見られない。 DETR と Deformable DETR の実験コードは https://github.com/gokulkarthik/detr と https://github.com/gokulkarthik/deformable-DETR でそれぞれ公開されている。

Self-supervised learning (SSL) methods such as masked language modeling have shown massive performance gains by pretraining transformer models for a variety of natural language processing tasks. The follow-up research adapted similar methods like masked image modeling in vision transformer and demonstrated improvements in the image classification task. Such simple self-supervised methods are not exhaustively studied for object detection transformers (DETR, Deformable DETR) as their transformer encoder modules take input in the convolutional neural network (CNN) extracted feature space rather than the image space as in general vision transformers. However, the CNN feature maps still maintain the spatial relationship and we utilize this property to design self-supervised learning approaches to train the encoder of object detection transformers in pretraining and multi-task learning settings. We explore common self-supervised methods based on image reconstruction, masked image modeling and jigsaw. Preliminary experiments in the iSAID dataset demonstrate faster convergence of DETR in the initial epochs in both pretraining and multi-task learning settings; nonetheless, similar improvement is not observed in the case of multi-task learning with Deformable DETR. The code for our experiments with DETR and Deformable DETR are available at https://github.com/gokulkarthik/detr and https://github.com/gokulkarthik/Deformable-DETR respectively.
翻訳日:2022-05-12 17:21:31 公開日:2022-05-11
# 関係性三重項抽出: 1 つのステップは十分

Relational Triple Extraction: One Step is Enough ( http://arxiv.org/abs/2205.05270v1 )

ライセンス: Link先を確認
Yu-Ming Shang, Heyan Huang, Xin Sun, Wei Wei, Xian-Ling Mao(参考訳) 非構造化テキストからリレーショナルトリプルを抽出することは、自然言語処理と知識グラフ構築において不可欠である。 既存のアプローチは通常、2つの基本的なステップを含む: (1) 頭と尾の実体の境界位置を見つける; (2) 特定のトークンを連結して三重項を形成する。 しかし、従来の手法のほとんど全てがエラー蓄積の問題に悩まされており、すなわち、ステップ(1)における各エンティティの境界認識誤差は、最終三重項に蓄積される。 そこで本研究では,三重抽出タスクを再検討する新たな視点を導入し,DirectRelというシンプルなモデルを提案する。 具体的には、まず文中のトークンシーケンスを列挙して候補エンティティを生成し、次に三重抽出タスクを"head $\rightarrow$ tail"二部グラフ上のリンク問題に変換する。 これにより、すべてのトリプルを1ステップで直接抽出することができる。 広く使われている2つのデータセットの広範な実験結果から、提案されたモデルは最先端のベースラインよりも優れた性能を示す。

Extracting relational triples from unstructured text is an essential task in natural language processing and knowledge graph construction. Existing approaches usually contain two fundamental steps: (1) finding the boundary positions of head and tail entities; (2) concatenating specific tokens to form triples. However, nearly all previous methods suffer from the problem of error accumulation, i.e., the boundary recognition error of each entity in step (1) will be accumulated into the final combined triples. To solve the problem, in this paper, we introduce a fresh perspective to revisit the triple extraction task, and propose a simple but effective model, named DirectRel. Specifically, the proposed model first generates candidate entities through enumerating token sequences in a sentence, and then transforms the triple extraction task into a linking problem on a "head $\rightarrow$ tail" bipartite graph. By doing so, all triples can be directly extracted in only one step. Extensive experimental results on two widely used datasets demonstrate that the proposed model performs better than the state-of-the-art baselines.
翻訳日:2022-05-12 17:17:49 公開日:2022-05-11
# ファウショットテキスト分類のための統一型プロンプトチューニングに向けて

Towards Unified Prompt Tuning for Few-shot Text Classification ( http://arxiv.org/abs/2205.05313v1 )

ライセンス: Link先を確認
Jianing Wang, Chengyu Wang, Fuli Luo, Chuanqi Tan, Minghui Qiu, Fei Yang, Qiuhui Shi, Songfang Huang, Ming Gao(参考訳) プロンプトに基づく微調整により、タスク固有のプロンプトを用いることで、数ショットのテキスト分類における事前訓練言語モデル(PLM)の性能が向上した。 しかし、PLMは事前トレーニング中にプロンプトスタイルの表現に慣れていないため、下流タスクでは数ショットの学習性能が制限される。 モデルが特定のNLPタスクに適応する前に、いくつかの素早い知識を得られることが望ましい。 我々は、Unified Prompt Tuning (UPT) フレームワークを提示し、非ターゲットNLPデータセットからのセマンティクスを明示的にキャプチャすることで、BERTスタイルのモデルのより少ないテキスト分類を実現する。 UPTでは、異なるNLPタスク間での協調学習のための新しいパラダイムであるPrompt-Options-Verbalizerが提案され、PLMはタスク不変な知識の獲得を余儀なくされた。 さらに,PLMの一般化能力を向上させるために,知識向上型選択マスケッド言語モデリングという自己教師型タスクを設計する。 複数のタスクにまたがるマルチタスク学習の後、plmは低リソース設定で、異なるターゲットタスクに対してより迅速な調整を行うことができる。 様々なNLPタスクに対する実験により、UTTはプロンプトベースファインチューニングの最先端を一貫して上回っていることが示された。

Prompt-based fine-tuning has boosted the performance of Pre-trained Language Models (PLMs) on few-shot text classification by employing task-specific prompts. Yet, PLMs are unfamiliar with prompt-style expressions during pre-training, which limits the few-shot learning performance on downstream tasks. It would be desirable if the models can acquire some prompting knowledge before adaptation to specific NLP tasks. We present the Unified Prompt Tuning (UPT) framework, leading to better few-shot text classification for BERT-style models by explicitly capturing prompting semantics from non-target NLP datasets. In UPT, a novel paradigm Prompt-Options-Verbalizer is proposed for joint prompt learning across different NLP tasks, forcing PLMs to capture task-invariant prompting knowledge. We further design a self-supervised task named Knowledge-enhanced Selective Masked Language Modeling to improve the PLM's generalization abilities for accurate adaptation to previously unseen tasks. After multi-task learning across multiple tasks, the PLM can be better prompt-tuned towards any dissimilar target tasks in low-resourced settings. Experiments over a variety of NLP tasks show that UPT consistently outperforms state-of-the-arts for prompt-based fine-tuning.
翻訳日:2022-05-12 17:17:32 公開日:2022-05-11
# building for tomorrow: テキスト分類器の時間的持続性の評価

Building for Tomorrow: Assessing the Temporal Persistence of Text Classifiers ( http://arxiv.org/abs/2205.05435v1 )

ライセンス: Link先を確認
Rabab Alkhalifa, Elena Kochkina, Arkaitz Zubiaga(参考訳) テキスト分類モデルの性能は、語彙変化のような自然に発生するデータの変化によって、訓練に使用されるデータよりも、分類される新しいデータが時間とともに低下する可能性がある。 これに対する解決策は、モデルを再トレーニングするために、新しいデータを継続的にラベル付けすることである。 すべての埋め込みモデルと分類アルゴリズムは、時間とともに同様のパフォーマンス低下を示し、いくつかのタスクやデータセットにおいて、パフォーマンス低下は他のタスクよりも顕著か? これらの課題に答えるために,6~19年にわたる3つのデータセットの縦断分類実験を行った。 これらの実験から得られた発見は、時間とともにパフォーマンスを維持することを目的として、テキスト分類モデルの設計を通知し、時間的に離れたトレーニングデータからトレーニングされた分類モデルにどの程度依存できるか、データセットの特徴がこれに与える影響を議論する。

Performance of text classification models can drop over time when new data to be classified is more distant in time from the data used for training, due to naturally occurring changes in the data, such as vocabulary change. A solution to this is to continually label new data to retrain the model, which is, however, often unaffordable to be performed regularly due to its associated cost. This raises important research questions on the design of text classification models that are intended to persist over time: do all embedding models and classification algorithms exhibit similar performance drops over time and is the performance drop more prominent in some tasks or datasets than others? With the aim of answering these research questions, we perform longitudinal classification experiments on three datasets spanning between 6 and 19 years. Findings from these experiments inform the design of text classification models with the aim of preserving performance over time, discussing the extent to which one can rely on classification models trained from temporally distant training data, as well as how the characteristics of the dataset impact this.
翻訳日:2022-05-12 17:17:09 公開日:2022-05-11
# aggpose:乳児ポーズ推定のための深部集約視覚トランスフォーマ

AggPose: Deep Aggregation Vision Transformer for Infant Pose Estimation ( http://arxiv.org/abs/2205.05277v1 )

ライセンス: Link先を確認
Xu Cao, Xiaoye Li, Liya Ma, Yi Huang, Xuan Feng, Zening Chen, Hongwu Zeng, Jianguo Cao(参考訳) 新生児の運動とポーズアセスメントにより、経験豊富な小児科医は神経発達障害を予測でき、関連する疾患に早期に介入することができる。 しかしながら、人間のポーズ推定手法の最新のAIアプローチのほとんどは大人に焦点を当てており、幼児ポーズ推定の公的なベンチマークが欠如している。 本稿では,幼児のポーズデータセットと人間のポーズ推定のためのDeep Aggregation Vision Transformerを提案することで,このギャップを埋める。 Transformer + MLPを特徴マップ内の高分解能層集約に一般化し、異なる視覚レベル間の情報融合を可能にする。 cocoポーズデータセットを事前トレーニングし,新たにリリースした大規模幼児ポーズ推定データセットに適用する。 その結果, aggposeは, 異なる解像度のマルチスケール特徴を効果的に学習でき, 乳児ポーズ推定の性能を大幅に向上できることがわかった。 AggPoseは幼児のポーズ推定データセットにおいてHRFormerとTokenPoseのハイブリッドモデルよりも優れていることを示す。 さらに,AggPose は COCO val で HRFormer を 0.7% AP で上回っている。 私たちのコードはgithub.com/SZAR-LAB/AggPoseで利用可能です。

Movement and pose assessment of newborns lets experienced pediatricians predict neurodevelopmental disorders, allowing early intervention for related diseases. However, most of the newest AI approaches for human pose estimation methods focus on adults, lacking publicly benchmark for infant pose estimation. In this paper, we fill this gap by proposing infant pose dataset and Deep Aggregation Vision Transformer for human pose estimation, which introduces a fast trained full transformer framework without using convolution operations to extract features in the early stages. It generalizes Transformer + MLP to high-resolution deep layer aggregation within feature maps, thus enabling information fusion between different vision levels. We pre-train AggPose on COCO pose dataset and apply it on our newly released large-scale infant pose estimation dataset. The results show that AggPose could effectively learn the multi-scale features among different resolutions and significantly improve the performance of infant pose estimation. We show that AggPose outperforms hybrid model HRFormer and TokenPose in the infant pose estimation dataset. Moreover, our AggPose outperforms HRFormer by 0.7% AP on COCO val pose estimation on average. Our code is available at github.com/SZAR-LAB/AggPose.
翻訳日:2022-05-12 17:16:16 公開日:2022-05-11
# AutoLC:リモートセンシング画像ランドコーバー分類のための検索軽量化とトップパフォーマンスアーキテクチャ

AutoLC: Search Lightweight and Top-Performing Architecture for Remote Sensing Image Land-Cover Classification ( http://arxiv.org/abs/2205.05369v1 )

ライセンス: Link先を確認
Chenyu Zheng, Junjue Wang, Ailong Ma, Yanfei Zhong(参考訳) 土地被覆分類は、リモートセンシングコミュニティにおいて、長い間ホットで困難な課題だった。 大規模な高分解能リモートセンシング(HRS)画像が利用可能であり、手動で自動設計された畳み込みニューラルネットワーク(CNN)は、近年、HRSの土地被覆分類において高い潜在能力を示している。 特に、前者は、軽量なアーキテクチャを生成できる間、より良いパフォーマンスを達成できる。 残念ながら、どちらも欠点があります。 一方,自然画像処理では手作業によるcnnがほぼ提案されているため,hrs画像の処理は非常に冗長で非効率になる。 一方,高密度予測タスクのためのニューラルアーキテクチャサーチ(NAS)技術は主にエンコーダ・デコーダアーキテクチャに基づいており,エンコーダの自動設計にのみ焦点をあてているため,複雑なHRSシーンに直面する場合の洗練されたマッピングの復元が依然として困難である。 それらの欠陥を克服し,HRSの土地被覆分類問題を改善するために,二つの手法の利点を組み合わせたAutoLCを提案する。 まず,階層型検索空間を考案し,勾配型検索戦略に基づく軽量エンコーダを得る。 第二に、検索したエンコーダ自体に適応する軽量だが高性能なデコーダを慎重に設計する。 最後に、LoveDAランドカバーデータセットの実験結果から、我々のAutoLC法は、非常に少ない計算量で、最先端のマニュアルおよび自動手法よりも優れていることを示した。

Land-cover classification has long been a hot and difficult challenge in remote sensing community. With massive High-resolution Remote Sensing (HRS) images available, manually and automatically designed Convolutional Neural Networks (CNNs) have already shown their great latent capacity on HRS land-cover classification in recent years. Especially, the former can achieve better performance while the latter is able to generate lightweight architecture. Unfortunately, they both have shortcomings. On the one hand, because manual CNNs are almost proposed for natural image processing, it becomes very redundant and inefficient to process HRS images. On the other hand, nascent Neural Architecture Search (NAS) techniques for dense prediction tasks are mainly based on encoder-decoder architecture, and just focus on the automatic design of the encoder, which makes it still difficult to recover the refined mapping when confronting complicated HRS scenes. To overcome their defects and tackle the HRS land-cover classification problems better, we propose AutoLC which combines the advantages of two methods. First, we devise a hierarchical search space and gain the lightweight encoder underlying gradient-based search strategy. Second, we meticulously design a lightweight but top-performing decoder that is adaptive to the searched encoder of itself. Finally, experimental results on the LoveDA land-cover dataset demonstrate that our AutoLC method outperforms the state-of-art manual and automatic methods with much less computational consumption.
翻訳日:2022-05-12 17:15:55 公開日:2022-05-11
# READ: 自動運転のための大規模ニューラルシーンレンダリング

READ: Large-Scale Neural Scene Rendering for Autonomous Driving ( http://arxiv.org/abs/2205.05509v1 )

ライセンス: Link先を確認
Zhuopeng Li, Lu Li, Zeyu Ma, Ping Zhang, Junbo Chen, Jianke Zhu(参考訳) フリービューフォトリアリスティック画像の合成はマルチメディアにおける重要な課題である。 高度運転支援システム(ADAS)の開発と、その自動運転車への応用により、様々なシナリオの実験が課題となる。 写実的なストリートシーンは画像から画像への変換によって合成できるが、3d情報がないためコヒーレントなシーンは生成できない。 本稿では,多種多様なサンプリング手法を用いて,pc上での大規模運転シナリオを合成可能な自律運転シーン~(read)を合成する,大規模ニューラルネットワークレンダリング手法を提案する。 運転シナリオを表現するために,スパースポイントクラウドからニューラルネットワーク記述子を学習するための「オメガ」レンダリングネットワークを提案する。 我々のモデルは現実的な運転シーンを合成できるだけでなく、運転シーンの縫い付けや編集もできる。 実験により,我々のモデルは大規模運転シナリオにおいて良好に動作することが示された。

Synthesizing free-view photo-realistic images is an important task in multimedia. With the development of advanced driver assistance systems~(ADAS) and their applications in autonomous vehicles, experimenting with different scenarios becomes a challenge. Although the photo-realistic street scenes can be synthesized by image-to-image translation methods, which cannot produce coherent scenes due to the lack of 3D information. In this paper, a large-scale neural rendering method is proposed to synthesize the autonomous driving scene~(READ), which makes it possible to synthesize large-scale driving scenarios on a PC through a variety of sampling schemes. In order to represent driving scenarios, we propose an {\omega} rendering network to learn neural descriptors from sparse point clouds. Our model can not only synthesize realistic driving scenes but also stitch and edit driving scenes. Experiments show that our model performs well in large-scale driving scenarios.
翻訳日:2022-05-12 17:15:29 公開日:2022-05-11
# (参考訳) 少ないショットパラメーター効率のファインチューニングは文脈学習より優れ、より正確である

Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than In-Context Learning ( http://arxiv.org/abs/2205.05638v1 )

ライセンス: CC BY 4.0
Haokun Liu, Derek Tam, Mohammed Muqeeth, Jay Mohta, Tenghao Huang, Mohit Bansal, Colin Raffel(参考訳) few-shot in-context learning (icl)は、事前学習された言語モデルが、少数のトレーニングサンプルを入力の一部として入力することで、勾配ベースのトレーニングなしで、事前学習済みのタスクを実行可能にする。 ICLは、予測が行われるたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。 パラメータ効率の良い微調整(例えば、アダプタモジュール、プロンプトチューニング、スパース更新メソッドなど)は、モデルの新たなタスク実行を可能にするために、小さなパラメータセットをトレーニングする代替パラダイムを提供する。 本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。 その過程で,学習ベクトルによるアクティベーションをスケールする(ia)$^3$と呼ばれる新しいパラメータ効率の良い微調整法を導入する。 また、タスク固有のチューニングや修正なしに新しいタスクに適用できるT-Fewと呼ばれるT0モデルに基づく簡単なレシピを提案する。 我々は、RAFTベンチマークに適用し、超人的性能を初めて達成し、最先端の精度を6%向上させることにより、完全に見えないタスクに対するT-Fewの有効性を検証する。 私たちの実験で使われたコードはすべて公開されています。

Few-shot in-context learning (ICL) enables pre-trained language models to perform a previously-unseen task without any gradient-based training by feeding a small number of training examples as part of the input. ICL incurs substantial computational, memory, and storage costs because it involves processing all of the training examples every time a prediction is made. Parameter-efficient fine-tuning (e.g. adapter modules, prompt tuning, sparse update methods, etc.) offers an alternative paradigm where a small set of parameters are trained to enable a model to perform the new task. In this paper, we rigorously compare few-shot ICL and parameter-efficient fine-tuning and demonstrate that the latter offers better accuracy as well as dramatically lower computational costs. Along the way, we introduce a new parameter-efficient fine-tuning method called (IA)$^3$ that scales activations by learned vectors, attaining stronger performance while only introducing a relatively tiny amount of new parameters. We also propose a simple recipe based on the T0 model called T-Few that can be applied to new tasks without task-specific tuning or modifications. We validate the effectiveness of T-Few on completely unseen tasks by applying it to the RAFT benchmark, attaining super-human performance for the first time and outperforming the state-of-the-art by 6% absolute. All of the code used in our experiments is publicly available.
翻訳日:2022-05-12 17:12:41 公開日:2022-05-11
# Re-Annotatorとしての事前学習言語モデル

Pre-trained Language Models as Re-Annotators ( http://arxiv.org/abs/2205.05368v1 )

ライセンス: Link先を確認
Chang Shu(参考訳) アノテーションのノイズはデータセットで広く見られるが、欠陥のあるコーパスを手動で修正するのは時間がかかり、エラーが発生しやすい。 したがって、事前訓練された言語モデルにおける事前知識と全てのアノテーションの統一性を考慮し、(1)アノテーションの信頼性を示すアノテーション不整合検出、(2)異常アノテーションの修正を行うアノテーションエラー補正という2つのタスクを通じて、コーパス内のアノテーションノイズを自動的に低減しようとする。 本研究では,事前訓練された言語モデルから意味センシティブなアノテーション表現を取得する方法を検討する。 我々は,隣接する一貫性に基づくアノテーションの不整合の可能性を明らかにするために,新たな信頼度スコアを提案した。 次に,事前学習言語モデルに基づく分類器を,アノテーション修正のためのクロスバリデーションで微調整する。 アノテーション補正器は,(1)ケルネル密度推定によるソフトラベリングと(2)新しい遠点のコントラスト損失の2つのアプローチでさらに詳しく検討する。 関係抽出における再アノテーションについて検討し、文書レベルの再アノテーションを評価するために新しい手動修正データセットRe-DocREDを作成する。 提案する信頼度スコアは、tacredとdocredの非一貫性を検出する際に、93.4と72.5のバイナリf1を達成する有望な一致を示す。 さらに、遠隔ピアコントラスト学習と不確実なラベルに基づく近隣認識分類器は、それぞれTACREDおよびDocREDのアノテーションの修正において、マクロF1を66.2および57.8まで達成する。 これらの改善は単に理論的なものではなく、自動分断されたトレーニングセットは最先端の関係抽出モデルで最大3.6%のパフォーマンス改善を示す。

Annotation noise is widespread in datasets, but manually revising a flawed corpus is time-consuming and error-prone. Hence, given the prior knowledge in Pre-trained Language Models and the expected uniformity across all annotations, we attempt to reduce annotation noise in the corpus through two tasks automatically: (1) Annotation Inconsistency Detection that indicates the credibility of annotations, and (2) Annotation Error Correction that rectifies the abnormal annotations. We investigate how to acquire semantic sensitive annotation representations from Pre-trained Language Models, expecting to embed the examples with identical annotations to the mutually adjacent positions even without fine-tuning. We proposed a novel credibility score to reveal the likelihood of annotation inconsistencies based on the neighbouring consistency. Then, we fine-tune the Pre-trained Language Models based classifier with cross-validation for annotation correction. The annotation corrector is further elaborated with two approaches: (1) soft labelling by Kernel Density Estimation and (2) a novel distant-peer contrastive loss. We study the re-annotation in relation extraction and create a new manually revised dataset, Re-DocRED, for evaluating document-level re-annotation. The proposed credibility scores show promising agreement with human revisions, achieving a Binary F1 of 93.4 and 72.5 in detecting inconsistencies on TACRED and DocRED respectively. Moreover, the neighbour-aware classifiers based on distant-peer contrastive learning and uncertain labels achieve Macro F1 up to 66.2 and 57.8 in correcting annotations on TACRED and DocRED respectively. These improvements are not merely theoretical: Rather, automatically denoised training sets demonstrate up to 3.6% performance improvement for state-of-the-art relation extraction models.
翻訳日:2022-05-12 16:47:47 公開日:2022-05-11
# Few-Shot Claim Veracity 分類におけるPairwise Semantic difference の集約

Aggregating Pairwise Semantic Differences for Few-Shot Claim Veracity Classification ( http://arxiv.org/abs/2205.05646v1 )

ライセンス: Link先を確認
Xia Zeng, Arkaitz Zubiaga(参考訳) 自動ファクトチェックパイプラインの一部として、クレームの正確性分類タスクは、クレームが関連する証拠の一部によってサポートされているかどうかを判断する。 ラベル付きクレーム-エビデンスペアの収集の複雑さは、特に新しいドメインを扱う場合、データセットの不足につながる。 本稿では, クレーム・エビデンス・ペアのペアのセマンティックな差異を集約する, 数ショットのクレームの精度分類のためのベクトルベースの新しい手法SEEDを紹介する。 我々は、クラス内のクレーム-エビデンスペアの平均意味的差異をキャプチャするクラス代表ベクトルをシミュレートし、新しいインスタンスの分類に使用できるという仮説に基づいて構築する。 本手法の性能を,言語モデルのパープレキシティを活かした最先端の可逆性分類法と同様に,微調整されたbert/robertaモデルを含む競合ベースラインと比較した。 FEVERとSCIFACTデータセットで実施された実験は、数ショット設定で競合ベースラインよりも一貫して改善されている。 私たちのコードは利用可能です。

As part of an automated fact-checking pipeline, the claim veracity classification task consists in determining if a claim is supported by an associated piece of evidence. The complexity of gathering labelled claim-evidence pairs leads to a scarcity of datasets, particularly when dealing with new domains. In this paper, we introduce SEED, a novel vector-based method to few-shot claim veracity classification that aggregates pairwise semantic differences for claim-evidence pairs. We build on the hypothesis that we can simulate class representative vectors that capture average semantic differences for claim-evidence pairs in a class, which can then be used for classification of new instances. We compare the performance of our method with competitive baselines including fine-tuned BERT/RoBERTa models, as well as the state-of-the-art few-shot veracity classification method that leverages language model perplexity. Experiments conducted on the FEVER and SCIFACT datasets show consistent improvements over competitive baselines in few-shot settings. Our code is available.
翻訳日:2022-05-12 16:47:15 公開日:2022-05-11
# AutoKE:科学機械学習のための自動知識埋め込みフレームワーク

AutoKE: An automatic knowledge embedding framework for scientific machine learning ( http://arxiv.org/abs/2205.05390v1 )

ライセンス: Link先を確認
Mengge Du, Yuntian Chen, Dongxiao Zhang(参考訳) 知識埋め込みの手法としてニューラルネットワークに物理的制約を課すことは、制御方程式によって記述される物理問題の解決において大きな進歩を遂げた。 しかし、多くの工学的問題において、制御方程式はしばしば複素部分微分や確率的物理場を含む複雑な形式を持ち、実装の観点から大きな不便をもたらす。 本稿では,科学的な機械学習フレームワークであるautokeを提案し,このフレームワークが物理的知識を組み込むプロセスを効果的に自動化できることを示す例として,貯水池フロー問題を取り上げる。 AutoKEでは、関心の物理的変数を予測するために、ディープニューラルネットワーク(DNN)で構成されるエミュレータが構築されている。 任意に複雑な方程式を解析し、式パーサモジュールを介して計算グラフに自動変換することができ、自動微分によりエミュレーターから支配方程式への適合性を評価する。 さらに、損失関数の固定重みをラグランジアン双対法を組み込むことにより適応重みに置き換える。 ニューラルネットワーク検索(nas)もautokeに導入され、特定の問題に応じてエミュレータの最適なネットワークアーキテクチャを選択する。 最後に,エミュレータのスケーラビリティを向上させるために転送学習を適用する。 実験では、このフレームワークは様々な物理的問題によって検証され、物理的な知識を重い手書きコードなしでエミュレータに自動的に埋め込むことができる。 その結果,エミュレータは正確な予測を行うだけでなく,伝達学習による高効率の類似問題にも適用可能であることがわかった。

Imposing physical constraints on neural networks as a method of knowledge embedding has achieved great progress in solving physical problems described by governing equations. However, for many engineering problems, governing equations often have complex forms, including complex partial derivatives or stochastic physical fields, which results in significant inconveniences from the perspective of implementation. In this paper, a scientific machine learning framework, called AutoKE, is proposed, and a reservoir flow problem is taken as an instance to demonstrate that this framework can effectively automate the process of embedding physical knowledge. In AutoKE, an emulator comprised of deep neural networks (DNNs) is built for predicting the physical variables of interest. An arbitrarily complex equation can be parsed and automatically converted into a computational graph through the equation parser module, and the fitness of the emulator to the governing equation is evaluated via automatic differentiation. Furthermore, the fixed weights in the loss function are substituted with adaptive weights by incorporating the Lagrangian dual method. Neural architecture search (NAS) is also introduced into the AutoKE to select an optimal network architecture of the emulator according to the specific problem. Finally, we apply transfer learning to enhance the scalability of the emulator. In experiments, the framework is verified by a series of physical problems in which it can automatically embed physical knowledge into an emulator without heavy hand-coding. The results demonstrate that the emulator can not only make accurate predictions, but also be applied to similar problems with high efficiency via transfer learning.
翻訳日:2022-05-12 16:46:55 公開日:2022-05-11
# さっさと投げるな! 公正意思決定におけるラベルなしデータの有用性

Don't Throw it Away! The Utility of Unlabeled Data in Fair Decision Making ( http://arxiv.org/abs/2205.04790v2 )

ライセンス: Link先を確認
Miriam Rateike, Ayan Majumdar, Olga Mineeva, Krishna P. Gummadi, Isabel Valera(参考訳) 意思決定アルゴリズムは、実際には、様々なバイアスを示すデータに基づいて訓練されることが多い。 意思決定者は、しばしば、社会的に健全なグループに均等に分散される、または偏見のないと想定される、根本的真実的目標に基づいて決定を下そうとする。 多くの実践的な環境では、地平線を直接観測することはできず、代わりに、データ内の地平線(すなわちバイアス付きラベル)の偏りのあるプロキシ尺度を頼らなければならない。 さらに、データはしばしば選択的にラベル付けされ、例えばバイアスラベルでさえ、ポジティブな判断を受けたデータのごく一部しか観察されない。 ラベルと選択バイアスを克服するために、最近の研究は、確率的かつ探索的な決定政策を学習することを提案する。 一 各段階における新政策のオンライン研修及び 二 パフォーマンスの制約として公正を課すこと。 しかし、既存のアプローチではラベル付きデータのみを使用し、大量のラベル付きデータを無視し、異なるタイミングで学習された決定ポリシーの安定性とばらつきに悩まされる。 本稿では,実用的公正意思決定のための変分オートエンコーダに基づく新しい手法を提案する。 本手法はラベル付きデータとラベルなしデータの両方を活用する非バイアスデータ表現を学習し,その表現を用いてオンラインプロセスでポリシーを学習する。 合成データを用いて,本手法が低分散の接地面に応じて最適(フェア)ポリシーに収束することを実証的に検証した。 実世界の実験では、我々のトレーニングアプローチはより安定した学習プロセスを提供するだけでなく、より公平で実用性の高いポリシーも提供します。

Decision making algorithms, in practice, are often trained on data that exhibits a variety of biases. Decision-makers often aim to take decisions based on some ground-truth target that is assumed or expected to be unbiased, i.e., equally distributed across socially salient groups. In many practical settings, the ground-truth cannot be directly observed, and instead, we have to rely on a biased proxy measure of the ground-truth, i.e., biased labels, in the data. In addition, data is often selectively labeled, i.e., even the biased labels are only observed for a small fraction of the data that received a positive decision. To overcome label and selection biases, recent work proposes to learn stochastic, exploring decision policies via i) online training of new policies at each time-step and ii) enforcing fairness as a constraint on performance. However, the existing approach uses only labeled data, disregarding a large amount of unlabeled data, and thereby suffers from high instability and variance in the learned decision policies at different times. In this paper, we propose a novel method based on a variational autoencoder for practical fair decision-making. Our method learns an unbiased data representation leveraging both labeled and unlabeled data and uses the representations to learn a policy in an online process. Using synthetic data, we empirically validate that our method converges to the optimal (fair) policy according to the ground-truth with low variance. In real-world experiments, we further show that our training approach not only offers a more stable learning process but also yields policies with higher fairness as well as utility than previous approaches.
翻訳日:2022-05-12 16:46:33 公開日:2022-05-11
# アニメーション線形射影を用いた非線形モデルの局所的説明

Exploring Local Explanations of Nonlinear Models Using Animated Linear Projections ( http://arxiv.org/abs/2205.05359v1 )

ライセンス: Link先を確認
Nicholas Spyrison and Dianne Cook(参考訳) 非線形モデルの予測能力の増大は、その項の解釈可能性のコストがかかる。 このトレードオフは、eXplainable AI(XAI)の出現につながった。 xaiは、モデルがどのように予測器を使って局所的な説明で予測し、あるインスタンスの近傍における線形特徴の重要性をポイント見積りするかについて、光を当てようとしている。 これらは線形射影と見なすことができ、予測モデル表面を横断する予測を行うために使われる特徴間の相互作用をよりよく理解するためにさらに研究することができる。 ここでは, いずれの事例においても, 対話的線形補間を行い, カテゴリー的(ペンギン種, チョコレート種) および定量的(靴・足の給与, 住宅価格) な出力の例を示す。 これらのメソッドは、CRANで利用可能なRパッケージのcheemで実装されている。

The increased predictive power of nonlinear models comes at the cost of interpretability of its terms. This trade-off has led to the emergence of eXplainable AI (XAI). XAI attempts to shed light on how models use predictors to arrive at a prediction with local explanations, a point estimate of the linear feature importance in the vicinity of one instance. These can be considered linear projections and can be further explored to understand better the interactions between features used to make predictions across the predictive model surface. Here we describe interactive linear interpolation used for exploration at any instance and illustrate with examples with categorical (penguin species, chocolate types) and quantitative (soccer/football salaries, house prices) output. The methods are implemented in the R package cheem, available on CRAN.
翻訳日:2022-05-12 16:46:08 公開日:2022-05-11