このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220824となっている論文です。

PDF登録状況(公開日: 20220824)

TitleAuthorsAbstract論文公表日・翻訳日
# 軌道角運動量符号化状態のプログラマブルユニタリ演算

Programmable Unitary Operations for Orbital Angular Momentum Encoded States ( http://arxiv.org/abs/2011.03250v2 )

ライセンス: Link先を確認
Shikang Li, Xue Feng, Kaiyu Cui, Fang Liu, Wei Zhang, Yidong Huang(参考訳) 我々はオービタル角運動量(oam)領域におけるプログラム可能なユニタリ操作のためのスケーラブルで効率的なスキームを提案し実証した。 対角およびフーリエ因子への行列分解に基づいて、任意の行列作用素は、フーリエ変換によってリンクされる軌道角運動量領域と方位角領域に交互に作用する対角行列によってのみ実装できる。 数値シミュレーションにより, OAM領域に対して次元3*3のユニタリ行列を設計・議論する。 一方,提案手法の並列性は2つの3*3行列で表される。 さらに,提案手法の代替として,同一行列分解法によるパス領域における原理実証実験を行い,平均忠実度0.97を3*3次元の実験結果80で評価した。

We have proposed and demonstrated a scalable and efficient scheme for programmable unitary operations in orbital angular momentum (OAM) domain. Based on matrix decomposition into diagonal and Fourier factors, arbitrary matrix operators can be implemented only by diagonal matrices alternately acting on orbital angular momentum domain and azimuthal angle domain, which are linked by Fourier transform. With numerical simulations, unitary matrices with dimensionality of 3*3 are designed and discussed for OAM domain. Meanwhile, the parallelism of our proposed scheme is also presented with two 3*3 matrices. Furthermore, as an alternative to verify our proposal, proof of principle experiments have been performed on path domain with the same matrix decomposition method, in which an average fidelity of 0.97 is evaluated through 80 experimental results with dimensionality of 3*3.
翻訳日:2023-04-25 03:23:44 公開日:2022-08-24
# 6量子最適クリフォード回路

6-qubit Optimal Clifford Circuits ( http://arxiv.org/abs/2012.06074v2 )

ライセンス: Link先を確認
Sergey Bravyi, Joseph A. Latone, Dmitri Maslov(参考訳) クリフォード群は量子計算の中核にあり、量子エラー補正の根底にあり、その要素はマジック状態の蒸留に使用でき、ランダム化されたベンチマークプロトコルを形成し、クリフォード群は量子の絡み合いの研究などに使用される。 クリフォードグループ要素を実際に利用する能力は、回路レベルの実装の効率に大きく依存する。 短い回路を見つけることは難しい問題であり、クリフォード群は有限であるにもかかわらず、そのサイズは量子ビット数$n$で急速に増加し、既知の最適実装を$n{=}4$ qubitsに制限する。 n{=}6$の場合、クリフォード群要素の数はおよそ2.1{\cdot}10^{23}$である。 本稿では,そのc/c++実装とともに,その部分集合を2.1tb(1kb=1024b)のデータベースに格納することにより,全6量子ビットクリフォード群要素の最適回路を暗黙的に合成するアルゴリズムについて報告する。 このデータベースに頼りながら、各コンシューマとエンタープライズグレードのコンピュータ(ハードウェア)を用いて、任意の最適6ビットクリフォード回路を0.0009358$と0.0006274$秒で抽出する方法を実証する。

Clifford group lies at the core of quantum computation -- it underlies quantum error correction, its elements can be used to perform magic state distillation and they form randomized benchmarking protocols, Clifford group is used to study quantum entanglement, and more. The ability to utilize Clifford group elements in practice relies heavily on the efficiency of their circuit-level implementation. Finding short circuits is a hard problem; despite Clifford group being finite, its size grows quickly with the number of qubits $n$, limiting known optimal implementations to $n{=}4$ qubits. For $n{=}6$, the number of Clifford group elements is about $2.1{\cdot}10^{23}$. In this paper, we report a set of algorithms, along with their C/C++ implementation, that implicitly synthesize optimal circuits for all 6-qubit Clifford group elements by storing a subset of the latter in a database of size 2.1TB (1KB=1024B). We demonstrate how to extract arbitrary optimal 6-qubit Clifford circuit in $0.0009358$ and $0.0006274$ seconds using consumer- and enterprise-grade computers (hardware) respectively, while relying on this database.
翻訳日:2023-04-21 03:33:30 公開日:2022-08-24
# 単一キュービットゲートのエネルギティクス

Energetics of a Single Qubit Gate ( http://arxiv.org/abs/2109.09648v2 )

ライセンス: Link先を確認
Jeremy Stevens, Daniel Szombati, Maria Maffei, Cyril Elouard, R\'eouven Assouly, Nathana\"el Cottet, R\'emy Dassonneville, Quentin Ficheux, Stefan Zeppetzauer, Audrey Bienfait, Andrew N. Jordan, Alexia Auff\`eves, and Benjamin Huard(参考訳) 量子ビットは物理的であり、量子ゲートは量子ビットが持つ情報だけでなく、そのエネルギーにも作用する。 すると、qubitとゲートを実装するコントローラの間の対応するエネルギーの流れは何でしょうか? ここでは、共振駆動場によって実現される量子ゲートの場合、この質問に答えるために超伝導プラットフォームを利用する。 ゲートの間、超伝導量子ビットはマイクロ波駆動パルスと絡み合うようになり、エネルギーフローの間に量子重ね合わせが存在する。 我々は、射影量子ビット測定の結果に基づいて、駆動場のエネルギー変化を測定する。 測定バックアクションに伴うドライブのエネルギー変化は、キュービットによって抽出できるエネルギーをはるかに超えることができることを実証する。 これは、クビットを駆動場の弱い測定装置として考えることで理解することができる。

Qubits are physical, a quantum gate thus not only acts on the information carried by the qubit but also on its energy. What is then the corresponding flow of energy between the qubit and the controller that implements the gate? Here we exploit a superconducting platform to answer this question in the case of a quantum gate realized by a resonant drive field. During the gate, the superconducting qubit becomes entangled with the microwave drive pulse so that there is a quantum superposition between energy flows. We measure the energy change in the drive field conditioned on the outcome of a projective qubit measurement. We demonstrate that the drive's energy change associated with the measurement backaction can exceed by far the energy that can be extracted by the qubit. This can be understood by considering the qubit as a weak measurement apparatus of the driving field.
翻訳日:2023-03-14 05:29:48 公開日:2022-08-24
# 数量子量子シミュレーションにおけるリアプノフ速度での忠実度崩壊の観測可能性

Observability of fidelity decay at the Lyapunov rate in few-qubit quantum simulations ( http://arxiv.org/abs/2110.07767v2 )

ライセンス: Link先を確認
Max D. Porter and Ilon Joseph(参考訳) あるレジームでは、量子状態の忠実性は古典的リアプノフ指数によって設定された速度で崩壊する。 これは量子古典的対応原理の最も重要な例の1つであり、カオスの存在の正確なテストでもある。 この現象を検出することは、(G. Benenti et al., Phys. Rev. E 65, 066205 (2001)]のような)誤り訂正のないノイズの多い量子コンピュータが実行できる最初の有用な計算の1つであるが、量子ソートゥースマップの徹底的な研究により、リャプノフ体制の観測は現在の装置の到達範囲を超えていることが判明した。 1) フェルミの黄金律の崩壊速度はリャプノフの崩壊速度よりも大きいこと、(2) 量子力学は局所化よりも拡散しなくてはならないこと、(3) 初期崩壊速度はリャプノフの崩壊が観測できるほど遅いこと、である。 この最後の境界は、以前は認識されていなかったが、許容できる騒音の最大量に限界がある。 この理論は、絶対最小6キュービットが要求されることを意味する。 IBM-QとIonQの最近の実験では、1ゲートあたり100$\times$までのノイズ低減と、接続性やゲートの並列化の大幅な増大も必要とされている。 最後に、ハードウェアアーキテクチャとパフォーマンスのトレードオフに基づいて、将来のデバイスがリアプノフ体制を観測する能力を定量化するスケーリング引数が与えられる。

In certain regimes, the fidelity of quantum states will decay at a rate set by the classical Lyapunov exponent. This serves both as one of the most important examples of the quantum-classical correspondence principle and as an accurate test for the presence of chaos. While detecting this phenomenon is one of the first useful calculations that noisy quantum computers without error correction can perform [G. Benenti et al., Phys. Rev. E 65, 066205 (2001)], a thorough study of the quantum sawtooth map reveals that observing the Lyapunov regime is just beyond the reach of present-day devices. We prove that there are three bounds on the ability of any device to observe the Lyapunov regime and give the first quantitatively accurate description of these bounds: (1) the Fermi golden rule decay rate must be larger than the Lyapunov rate, (2) the quantum dynamics must be diffusive rather than localized, and (3) the initial decay rate must be slow enough for Lyapunov decay to be observable. This last bound, which has not been recognized previously, places a limit on the maximum amount of noise that can be tolerated. The theory implies that an absolute minimum of 6 qubits is required. Recent experiments on IBM-Q and IonQ imply that some combination of a noise reduction by up to 100$\times$ per gate and large increases in connectivity and gate parallelization are also necessary. Finally, scaling arguments are given that quantify the ability of future devices to observe the Lyapunov regime based on trade-offs between hardware architecture and performance.
翻訳日:2023-03-11 12:01:00 公開日:2022-08-24
# 正方根フロッケ位相相と時間結晶

Square-root Floquet topological phases and time crystals ( http://arxiv.org/abs/2111.14327v2 )

ライセンス: Link先を確認
Raditya Weda Bomantara(参考訳) 周期的に駆動される(フロケ)位相は、静的な現象のないユニークな物理現象をホストする能力のために魅力的である。 そこで本稿では,Floquet相の平方根版を非相互作用的および相互作用的の両方に適用可能な,非自明なアプローチを提案する。 結果の系は、元の系では欠落しており、パラメータの不完全性に対して堅牢な、よりリッチな物理をもたらすことが判明した。 例えば、任意の数の0、$\pi$、$\pi/2$エッジモードを持つフロケット・トポロジカル超伝導体や、乱れや無秩序なシステムにおける4T$周期のフロケット・タイムクリスタル(T$は運転期間)がある。 驚くべきことに、このアプローチは、与えられたシステムの2n番目のルートバージョンを得るために無期限に繰り返されるので、エキゾチックなフロッケ相のファミリーの発見と体系化を可能にする。

Periodically driven (Floquet) phases are attractive due to their ability to host unique physical phenomena with no static counterparts. We propose a general approach in nontrivially devising a square-root version of existing Floquet phases, applicable both in noninteracting and interacting setting. The resulting systems are found to yield richer physics that is otherwise absent in the original counterparts and is robust against parameter imperfection. These include the emergence of Floquet topological superconductors with arbitrarily many zero, $\pi$, and $\pi/2$ edge modes, as well as $4T$-period Floquet time crystals in disordered and disorder-free systems ($T$ being the driving period). Remarkably, our approach can be repeated indefinitely to obtain a 2nth-root version of a given system, thus allowing for the discovery and systematic construction of a family of exotic Floquet phases.
翻訳日:2023-03-06 09:57:38 公開日:2022-08-24
# 等角橋変換, $\mathcal{PT}$-および超対称性

Conformal bridge transformation, $\mathcal{PT}$- and super- symmetry ( http://arxiv.org/abs/2112.13455v2 )

ライセンス: Link先を確認
Luis Inzunza and Mikhail S. Plyushchay(参考訳) 1次元および2次元スワンソンモデルの超対称拡大は、共形橋変換 (cbt) を $i$ とその共形中性拡大を乗じた 1次ベリーキーティングハミルトニアンに応用することによって研究される。 CBTは、モデルを1Dおよび2D調和振動子の超対称一般化に変換するダイソン写像の役割を担い、擬エルミート共役と適切な内部積を定義することができる。 1次元の場合、超対称自由粒子の共形生成子を用いて、n$ のサブシステムを持つ$\mathcal{pt}$-invariant 超対称モデルを構築し、その真のボソニック積分とフェルミオン積分の完全な集合を同定する。 また,高次超電荷が非線形超代数を生成するエキゾチックな超対称汎化についても検討した。 2d の場合の構成を一般化して、追加のアハルノフ・ボームフラックスを伴わずにスピン-1/2 ランダウ問題に変換する $\mathcal{pt}$-invariant 超対称系を得る。 また、動的パラメータ $\gamma$ で制御される「エキゾチック回転不変調和振動子」系に関連する2次元超対称ハミルトニアンを構築する。 このモデルに対するボソニックおよびフェルミイオンの隠れ対称性は、$\gamma$の有理値に対して存在することが示されている。

Supersymmetric extensions of the 1D and 2D Swanson models are investigated by applying the conformal bridge transformation (CBT) to the first order Berry-Keating Hamiltonian multiplied by $i$ and its conformally neutral enlargements. The CBT plays the role of the Dyson map that transforms the models into supersymmetric generalizations of the 1D and 2D harmonic oscillator systems, allowing us to define pseudo-Hermitian conjugation and a suitable inner product. In the 1D case, we construct a $\mathcal{PT}$-invariant supersymmetric model with $N$ subsystems by using the conformal generators of supersymmetric free particle, and identify its complete set of the true bosonic and fermionic integrals of motion. We also investigate an exotic $N=2$ supersymmetric generalization, in which the higher order supercharges generate nonlinear superalgebras. We generalize the construction for the 2D case to obtain the $\mathcal{PT}$-invariant supersymmetric systems that transform into the spin-1/2 Landau problem with and without an additional Aharonov-Bohm flux, where in the latter case, the well-defined integrals of motion appear only when the flux is quantized. We also build a 2D supersymmetric Hamiltonian related to the "exotic rotational invariant harmonic oscillator" system governed by a dynamical parameter $\gamma$. The bosonic and fermionic hidden symmetries for this model are shown to exist for rational values of $\gamma$.
翻訳日:2023-03-03 05:44:53 公開日:2022-08-24
# CZ, CNOT, クリフォード回路の深さ最適化

Depth optimization of CZ, CNOT, and Clifford circuits ( http://arxiv.org/abs/2201.05215v2 )

ライセンス: Link先を確認
Dmitri Maslov and Ben Zindorf(参考訳) 我々は, 量子CZゲート, CNOTゲート, クリフォード回路の深さに関する上界保証を, 以前報告したよりも向上させようとしている。 我々は、最も実用的なユースケースを表す qubits $n\,{\leq}\, $1,345,000 [1] の数に焦点を当てている。 CZ回路の深さ上の上限は$\lfloor n/2 + 0.4993{\cdot}\log^2(n) + 3.0191{\cdot}\log(n) - 10.9139\rfloor$で、おおよそ2。 我々は、cnotゲート回路の深さ上限である$\lfloor n + 1.9496{\cdot}\log^2(n) + 3.5075{\cdot}\log(n) - 23.4269 \rfloor$ を得るために、この上限を証明するために使用される構成を拡張して、cnotゲート回路に対して約$4/3$の改善と$\lfloor 2n + 2.9487{\cdot}\log^2(n) + 8.4909{\cdot}\log(n) - 44.4798\rfloor$ をクリフォード回路に与えた。

We seek to develop better upper bound guarantees on the depth of quantum CZ gate, CNOT gate, and Clifford circuits than those reported previously. We focus on the number of qubits $n\,{\leq}\,$1,345,000 [1], which represents the most practical use case. Our upper bound on the depth of CZ circuits is $\lfloor n/2 + 0.4993{\cdot}\log^2(n) + 3.0191{\cdot}\log(n) - 10.9139\rfloor$, improving best known depth by a factor of roughly 2. We extend the constructions used to prove this upper bound to obtain depth upper bound of $\lfloor n + 1.9496{\cdot}\log^2(n) + 3.5075{\cdot}\log(n) - 23.4269 \rfloor$ for CNOT gate circuits, offering an improvement by a factor of roughly $4/3$ over state of the art, and depth upper bound of $\lfloor 2n + 2.9487{\cdot}\log^2(n) + 8.4909{\cdot}\log(n) - 44.4798\rfloor$ for Clifford circuits, offering an improvement by a factor of roughly $5/3$.
翻訳日:2023-03-01 06:27:29 公開日:2022-08-24
# アインシュタイン-ポドルスキー-ローゼンのワンウェイステアリング

One-way Einstein-Podolsky-Rosen steering beyond qubits ( http://arxiv.org/abs/2201.08028v3 )

ライセンス: Link先を確認
Qiang Zeng(参考訳) 量子ステアリングは現代の量子情報処理において重要な資源として利用されている。 その方向の性質から、パーティの交換の下で非対称ないくつかの量子状態は、特定の方向のみにステアリングを示すことが判明し、したがって片方向ステアリングと呼ばれる。 既存の仕事は、キュービットのシステムにおけるワンウェイステアリングに焦点を当てていた。 ここでは、$d$-dimensionのシステムで片道操縦が可能な2つの状態の族を提案する。 特に,各状態の一方方向ステアビリティを$d=3$で検証し,一方方向ステアリングパラメータ空間が2量子系でどのように現れるかを示す。 高次元一方向ステアリングを特徴付ける一般的な数値的アプローチを提供する。 さらに,高次元システムにおけるステアリングテストにおける損失と測定設定のトレードオフ関係について検討し,実験損失を考慮した一方向ステアリングの特徴付け手法を開発した。 我々の損失計数モデルは有限次元系の有限測度設定で機能する。

Quantum steering has been exploited as an important resource in modern quantum information processing. Owing to its directional nature, some quantum states that are asymmetric under the exchange of parties have been found to manifest steering only in specific direction, thus called one-way steering. Existing works focused on one-way steering in systems of qubits. Here we propose a family of two-party states that are one-way steerable in systems of $d$-dimension. In particular, we validate the one-way steerability of the states for $d=3$, and demonstrate how one-way steering parameter space manifests in two-qutrit system. A general numerical approach for characterizing higher-dimensional one-way steering is provided. Moreover, we develop a method to characterize one-way steering with the experimental loss taken into account, with which the tradeoff relation between losses and measurement settings in steering test in higher-dimensional system is investigated. Our loss-counted model works for finite-dimensional system with finite measurement settings.
翻訳日:2023-02-28 08:17:53 公開日:2022-08-24
# 地域探索のスイッチをひっくり返す:リバーサルを用いた遺伝的アルゴリズム

Flipping the switch on local exploration: Genetic Algorithms with Reversals ( http://arxiv.org/abs/2202.00912v2 )

ライセンス: Link先を確認
Ankit Grover, Vaishali Yadav, Bradly Alicea(参考訳) 複雑なシステムの重要な特徴は、多くの局所ミニマと部分構造を持つ問題領域である。 生物学的システムは、環境や発達の状況に応じて異なるサブシステム間で切り替えることで、これらのローカルなミニマを管理する。 遺伝的アルゴリズム(GA)はこのスイッチング特性を模倣し、問題領域の複雑さを克服する手段を提供する。 しかし、標準的なGAは、確率的に大規模な探索を可能にする演算子を必要とする。 勾配のないヒューリスティック探索手法は、そのような単一目的最適化タスクに対して離散領域の最適解を提供するのに好適であり、特に顕著に遅い勾配に基づく方法と比較する。 これを実現するため、著者らはフライトスケジューリングドメインから最適化の問題に目を向ける。 著者らは,このような一般的な勾配自由ヒューリスティック探索アルゴリズムの性能を比較し,ガスの変種を提案する。 Iterated Chaining (IC) 法も導入され、突然変異演算子の特異な作用の代わりに複数の局所探索をトリガーすることで従来のチェイン技術に基づいている。 著者らは、複数のローカル検索を使用することで、ローカルな確率的検索のパフォーマンスが向上し、他の多くの問題領域に適用できる機会が豊富になることを示した。 提案したGA変種は,問題を含む全てのベンチマークにおいて最小平均コストであり,ICアルゴリズムは構成成分よりも優れた性能を示す。

One important feature of complex systems are problem domains that have many local minima and substructure. Biological systems manage these local minima by switching between different subsystems depending on their environmental or developmental context. Genetic Algorithms (GA) can mimic this switching property as well as provide a means to overcome problem domain complexity. However, standard GA requires additional operators that will allow for large-scale exploration in a stochastic manner. Gradient-free heuristic search techniques are suitable for providing an optimal solution in the discrete domain to such single objective optimization tasks, particularly compared to gradient-based methods which are noticeably slower. To do this, the authors turn to an optimization problem from the flight scheduling domain. The authors compare the performance of such common gradient-free heuristic search algorithms and propose variants of GAs. The Iterated Chaining (IC) method is also introduced, building upon traditional chaining techniques by triggering multiple local searches instead of the singular action of a mutation operator. The authors will show that the use of multiple local searches can improve performance on local stochastic searches, providing ample opportunity for application to a host of other problem domains. It is observed that the proposed GA variants have the least average cost across all benchmarks including the problem proposed and IC algorithm performs better than its constituents.
翻訳日:2023-02-27 01:14:23 公開日:2022-08-24
# Adiabatic Quantum Computation を用いた大規模相互接続グラフとネットワークの最適化

Optimization on Large Interconnected Graphs and Networks Using Adiabatic Quantum Computation ( http://arxiv.org/abs/2202.02774v2 )

ライセンス: Link先を確認
Venkat Padmasola and Rupak Chatterjee(参考訳) 本稿では,最多の3V量子ビットを持つ無向グラフ上の任意の2つの頂点間の最短経路を解き,Vがグラフの頂点数であるような断熱量子計算アルゴリズムを作成することができることを示す。 私たちは、(v x v) 隣接行列を作成する以外、いかなる古典的なアルゴリズムにも頼らずにそれを実行します。 本研究の目的は,バラバシ・アルベルト法やエルドス・レニー法などの乱数グラフ生成法を用いて,量子コンピュータ上で利用可能な量子ビットの最大数を用いて大きなグラフをモデル化できることを実証することである。

In this paper, we demonstrate that it is possible to create an adiabatic quantum computing algorithm that solves the shortest path between any two vertices on an undirected graph with at most 3V qubits, where V is the number of vertices of the graph. We do so without relying on any classical algorithms, aside from creating a (V x V) adjacency matrix. The objective of this paper is to demonstrate the fact that it is possible to model large graphs on an adiabatic quantum computer using the maximum number of qubits available and random graph generators such as the Barabasi-Albert and the Erdos-Renyi methods which can scale based on a power law.
翻訳日:2023-02-26 17:09:17 公開日:2022-08-24
# スマートヘルスケアシステム導入の課題 : ステークホルダーの視点から

Smart Healthcare System Implementation Challenges: A stakeholder perspective ( http://arxiv.org/abs/2208.12641v1 )

ライセンス: Link先を確認
Muhammad Hamza, Muhammad Azeem Akbar(参考訳) スマートヘルスケアシステムは、慣用的な医療システムの改善で大きな注目を集めている。 このシステムは、エコシステム全体を成功させる主要なステークホルダーで構成されています。 しかし、これらのステークホルダーは、システムを容認し、信頼できるものにするために、多くの研究を必要とするかなりの課題を提供します。 さらに、スマートヘルスケアシステムの利害関係者の観点から重要な課題を考察する研究はほとんどない。 この研究の目的は、スマートヘルスケアシステムの各ステークホルダーに関連する重要な課題を特定することである。 我々は、最先端の文献で報告されているスマートヘルスケアの8つの主要なステークホルダーに関連する27の課題を特定した。 さらに,実世界のスマートヘルスケアシステムにおける課題の意義を評価するために,定量的調査を行い,85人の回答者のデータを収集した。 収集したデータはsmart-psl (3.0) を用いてさらに分析された。 その結果,それぞれの利害関係者に関連する課題がスマートヘルスケアシステムに悪影響を及ぼすことがわかった。

The smart healthcare system has gained significant attention for the improvement of the customary healthcare system. The system is comprised of several key stakeholders that make the whole ecosystem successful. However, these stakeholders offer considerable challenges that need much research to address for making the system acceptable and reliable. Furthermore, very few studies examine the key challenges from the perspective of stakeholders of the smart healthcare system. The objective of this research study is to identify the key challenges associated with each stakeholder of the smart healthcare system. We have identified 27 challenges associated with eight key stakeholders of smart healthcare reported in the state-of-the-art literature. Further, a quantitative survey was conducted and the data from 85 respondents were collected in order to assess the significance of challenges in the real-world smart healthcare system. The collected data from the respondents were further analyzed using the smart-PSL (3.0). The results indicated that all the identified challenges associated with each stakeholder negatively influence the smart healthcare system.
翻訳日:2023-02-19 10:46:42 公開日:2022-08-24
# DP2-Pub: 不変なポストランダム化を伴う個人用高次元データパブリケーション

DP2-Pub: Differentially Private High-Dimensional Data Publication with Invariant Post Randomization ( http://arxiv.org/abs/2208.11693v1 )

ライセンス: Link先を確認
Honglu Jiang, Haotian Yu, Xiuzhen Cheng, Jian Pei, Robert Pless and Jiguo Yu(参考訳) 大量の高次元および不均一なデータが実用アプリケーションに現れ、データ分析、レコメンデーション、ターゲット広告、信頼性のある予測のために第三者に発行されることが多い。 しかし、これらのデータの公開は個人情報を開示する可能性があり、プライバシー侵害に対する懸念が高まっている。 近年、プライバシー保護データ公開が注目されている。 残念ながら、高次元データの微分プライベートな公開は難しい問題である。 本稿では,マルコフ・ブランケット型属性クラスタリングフェーズと変分後乱数化(PRAM)フェーズの2つのフェーズで実行される,微分プライベートな高次元データパブリッシング機構(DP2-Pub)を提案する。 具体的には、属性を複数の低次元クラスタに分割することで、クラスタ内凝集度が高く、クラスタ間結合性が低いことによって、適切なプライバシ予算の配分が可能になる。 また、DP2-Pubメカニズムを、ローカルの差分プライバシーを満たす半正直なサーバでシナリオに拡張します。 我々は,4つの実世界のデータセットを広範囲に実験し,実験結果から,差分プライバシを満足しつつ,公開データの有効性を大幅に向上できることを示した。

A large amount of high-dimensional and heterogeneous data appear in practical applications, which are often published to third parties for data analysis, recommendations, targeted advertising, and reliable predictions. However, publishing these data may disclose personal sensitive information, resulting in an increasing concern on privacy violations. Privacy-preserving data publishing has received considerable attention in recent years. Unfortunately, the differentially private publication of high dimensional data remains a challenging problem. In this paper, we propose a differentially private high-dimensional data publication mechanism (DP2-Pub) that runs in two phases: a Markov-blanket-based attribute clustering phase and an invariant post randomization (PRAM) phase. Specifically, splitting attributes into several low-dimensional clusters with high intra-cluster cohesion and low inter-cluster coupling helps obtain a reasonable allocation of privacy budget, while a double-perturbation mechanism satisfying local differential privacy facilitates an invariant PRAM to ensure no loss of statistical information and thus significantly preserves data utility. We also extend our DP2-Pub mechanism to the scenario with a semi-honest server which satisfies local differential privacy. We conduct extensive experiments on four real-world datasets and the experimental results demonstrate that our mechanism can significantly improve the data utility of the published data while satisfying differential privacy.
翻訳日:2023-02-19 10:42:21 公開日:2022-08-24
# 力と危険弧の変動による本中の物語時間の特徴付け

Characterizing narrative time in books through fluctuations in power and danger arcs ( http://arxiv.org/abs/2208.09496v2 )

ライセンス: Link先を確認
Mikaela Irene Fudolig, Thayer Alshaabi, Kathryn Cramer, Christopher M. Danforth, Peter Sheridan Dodds(参考訳) 近年の研究では、言葉の用法を定量化し、物語の感情的弧の全体像を見出すことに焦点が当てられているが、物語の中の物語の特徴についてはいまだ検討が続けられている。 本稿では,単語使用のゆらぎが関連し始めるテキストの長さを求めることにより,語下詞の物語時間尺度を特徴付ける。 我々は3万冊以上のプロジェクト・グーテンベルクの書籍を、本質的な意味を持つパワー・ダンガー・フレームワークである ousiometrics を用いて時系列として表現する。 各本のパワーと危険時系列を経験的モード分解を用いて構成振動モードと非振動トレンドの合計に分解する。 原典のパワーと危険時間列の分解をシャッフルテキストから導出したものと比較することにより、短い本は一般的な傾向しか示さないのに対し、より長い本は一般的な傾向に加えて変動があることが分かる。 これらの変動は通常、本の長さや図書館の分類コードに関わらず数千語という期間を持つが、本の内容や構造によって異なる。 提案手法は,様々な長さのテキストに対して,特に短いテキストに対して,不注意に関連情報を取り除くような大きなウィンドウサイズを用いる従来の手法とは対照的に,データ駆動分別手法を提供する。

While recent studies have focused on quantifying word usage to find the overall shapes of narrative emotional arcs, certain features of narratives within narratives remain to be explored. Here, we characterize the narrative time scale of sub-narratives by finding the length of text at which fluctuations in word usage begin to be relevant. We represent more than 30,000 Project Gutenberg books as time series using ousiometrics, a power-danger framework for essential meaning, itself a reinterpretation of the valence-arousal-dominance framework derived from semantic differentials. We decompose each book's power and danger time series using empirical mode decomposition into a sum of constituent oscillatory modes and a non-oscillatory trend. By comparing the decomposition of the original power and danger time series with those derived from shuffled text, we find that shorter books exhibit only a general trend, while longer books have fluctuations in addition to the general trend, similar to how subplots have arcs within an overall narrative arc. These fluctuations typically have a period of a few thousand words regardless of the book length or library classification code, but vary depending on the content and structure of the book. Our method provides a data-driven denoising approach that works for text of various lengths, in contrast to the more traditional approach of using large window sizes that may inadvertently smooth out relevant information, especially for shorter texts.
翻訳日:2023-02-19 10:36:30 公開日:2022-08-24
# 量子レジームにおける量子ドットと高精細表面音波の単一音速オプトメカニカルカップリング

Large Single-Phonon Optomechanical Coupling between Quantum Dots and Tightly Confined Surface Acoustic Waves in the Quantum Regime ( http://arxiv.org/abs/2205.01277v2 )

ライセンス: Link先を確認
Ryan A. DeCrescent, Zixuan Wang, Poolad Imany, Robert C. Boutelle, Corey A. McDonald, Travis Autry, John D. Teufel, Sae Woo Nam, Richard P. Mirin, and Kevin L. Silverman(参考訳) 表面音響波(SAW)は量子ドット(QD)、閉じ込められた原子とイオン、点欠陥を量子トランスダクションプラットフォームとして提案されているが、必要な結合速度と空洞寿命は実験的に確立されていない。 相互作用機構は異なるが、高い効率では大きなゼロ点運動を持つ小さな音響キャビティが必要である。 GaAs上の1モードのガウスSAWキャビティを$\sim$3.6 GHzで電気的およびオプトメカニカルに評価することにより,このプラットフォームの実現可能性を確立する。 我々は,モードボリュームが6$\lambda^3$とlinewidths $\leq $1 mhzのsawキャビティを製作することにより,プラットフォームの性能限界を検討する。 ひずみ結合型単一InAsQDを光学中間体として用いることで、単フォノン光結合率$g_0 \approx 2\pi \times 1.2$ MHzを測定する。 サイドバンド散乱速度は内在的なフォノン損失を超え、量子光学的読み出しとキャビティフォノン状態の変換の可能性を示している。 低ノイズ基底量子トランスダクションのためのこのプラットフォームの実現可能性を示すため, 希釈冷凍機における繊維系共焦点顕微鏡を開発し, mK温度で単一QD共鳴蛍光サイドバンド分光を行う。 これらの測定は、サブナチュラル線幅を持つ光子とマイクロ波フォノンの変換を示す。

Surface acoustic waves (SAWs) coupled to quantum dots (QDs), trapped atoms and ions, and point defects have been proposed as quantum transduction platforms, yet the requisite coupling rates and cavity lifetimes have not been experimentally established. Although the interaction mechanism varies, small acoustic cavities with large zero-point motion are required for high efficiencies. We experimentally establish the feasibility of this platform through electro- and opto-mechanical characterization of tightly focusing, single-mode Gaussian SAW cavities at $\sim$3.6 GHz on GaAs. We explore the performance limits of the platform by fabricating SAW cavities with mode volumes approaching 6$\lambda^3$ and linewidths $\leq$1 MHz. Employing strain-coupled single InAs QDs as optomechanical intermediaries, we measure single-phonon optomechanical coupling rates $g_0 \approx 2\pi \times 1.2$ MHz. Sideband scattering rates thus exceed intrinsic phonon loss, indicating the potential for quantum optical readout and transduction of cavity phonon states. To demonstrate the feasibility of this platform for low-noise ground-state quantum transduction, we develop a fiber-based confocal microscope in a dilution refrigerator and perform single-QD resonance fluorescence sideband spectroscopy at mK temperatures. These measurements show conversion between microwave phonons and optical photons with sub-natural linewidths.
翻訳日:2023-02-14 12:03:50 公開日:2022-08-24
# バイアス付き二成分系の基底状態における普遍的絡み合いエントロピー

Universal entanglement entropy in the ground state of biased bipartite systems ( http://arxiv.org/abs/2206.03073v2 )

ライセンス: Link先を確認
Ohad Shpielberg(参考訳) 基底状態の絡み合いエントロピーは、単一または複数の保存量を持つ多体二分量子系で研究される。 エントロピーのエントロピーは2つのサブシステム間の占有比率であるr$で普遍的なパワーロー挙動を示すことが示されている。 単一および複数の保存量が異なるパワーロー指数につながり、エントロピーが隠れた保存量を検出するのに役立つことを示唆する。 さらに、占有率の測定により、二成分の絡み合いエントロピーを推測することができる。 上記の結果は R'enyi エントロピーに対して一般化される。

The ground state entanglement entropy is studied in a many-body bipartite quantum system with either a single or multiple conserved quantities. It is shown that the entanglement entropy exhibits a universal power-law behaviour at large $R$ -- the occupancy ratio between the two subsystems. Single and multiple conserved quantities lead to different power-law exponents, suggesting the entanglement entropy can serve to detect hidden conserved quantities. Moreover, occupancy measurements allow to infer the bipartite entanglement entropy. All the above results are generalized for the R\'enyi entropy.
翻訳日:2023-02-10 06:54:31 公開日:2022-08-24
# 絡み合い収穫:検出器ギャップとフィールド質量最適化

Entanglement harvesting: detector gap and field mass optimization ( http://arxiv.org/abs/2206.06381v2 )

ライセンス: Link先を確認
H\'ector Maeso-Garc\'ia, T. Rick Perche and Eduardo Mart\'in-Mart\'inez(参考訳) 2つの空間状の分離粒子検出器が量子場から量子相関を抽出するエンタングルメント収穫のプロトコルについて検討する。 具体的には、このプロトコルにおけるフィールドの質量と検出器のエネルギーギャップの役割を分析する。 おそらく驚くべきことに、収穫された絡み合いは、検出器が経験するノイズを減少させることで、磁場の質量とともに増加する可能性がある。 最後に,検出器のギャップと,得られた絡み合いを最大化する設定の他のパラメータとの最適関係について検討し,この場合においても小質量でプロトコルを改善できることを示す。

We investigate the protocol of entanglement harvesting, where two spacelike separated particle detectors extract quantum correlations from a quantum field. Specifically, we analyze the role of the mass of the field and the energy gap of the detectors in the protocol. Perhaps surprisingly, we find that there are regimes in which the entanglement harvested can increase with the mass of the field by decreasing the noise experienced by the detectors. Finally, we study the optimal relationship between the gap of the detectors and the other parameters of the setting that maximizes the entanglement harvested, showing that a small mass can improve the protocol even in this case.
翻訳日:2023-02-09 12:29:01 公開日:2022-08-24
# クロム二量体-量子化学の章を閉じる

The chromium dimer: closing a chapter of quantum chemistry ( http://arxiv.org/abs/2206.10738v2 )

ライセンス: Link先を確認
Henrik R. Larsson, Huanchen Zhai, C. J. Umrigar, Garnet Kin-Lic Chan(参考訳) クロム二量体の複雑な電子構造と異常なポテンシャルエネルギー曲線は、これまでのところ理論と実験の一致で何十年も科学者を魅了してきた。 そこで本研究では, ポテンシャルエネルギー曲線と振動スペクトルのab initioシミュレーションを行い, 従来の推定値よりも大幅に改善することを示す。 我々のデータは、1つの量子数による振動周波数のクラスターの初期の実験的な割り当ての変化を支持する。 この新しい振動割当は、全ての結合長および測定された周波数にわたって理論と定量的に一致して実験的に導出されるポテンシャルエネルギー曲線を与える。 この長年にわたる問題を解くことで,遷移金属クラスターの定量的量子化学モデリングの可能性が高まった。

The complex electronic structure and unusual potential energy curve of the chromium dimer have fascinated scientists for decades, with agreement between theory and experiment so far elusive. Here, we present a new ab initio simulation of the potential energy curve and vibrational spectrum that significantly improves on all earlier estimates. Our data support a shift in earlier experimental assignments of a cluster of vibrational frequencies by one quantum number. The new vibrational assignment yields an experimentally derived potential energy curve in quantitative agreement with theory across all bond lengths and across all measured frequencies. By solving this long-standing problem, our results raise the possibility of quantitative quantum chemical modeling of transition metal clusters with spectroscopic accuracy.
翻訳日:2023-02-08 12:34:07 公開日:2022-08-24
# カークウッド・ディラック準確率の量子ゆらぎへのアプローチ:理論的および実験的視点

Kirkwood-Dirac quasiprobability approach to quantum fluctuations: Theoretical and experimental perspectives ( http://arxiv.org/abs/2206.11783v2 )

ライセンス: Link先を確認
Matteo Lostaglio, Alessio Belenchia, Amikam Levy, Santiago Hern\'andez-G\'omez, Nicole Fabbri, Stefano Gherardini(参考訳) カークウッド・ディラック準確率(KDQ)が、凝縮物質物理学(スクランブル、動的相転移)の文脈における非古典的特徴をカプセル化するツールとして果たす中心的な役割(標準および後選択)、熱力学(出力と変動定理)、基礎(コンテキスト性、異常な弱い値)などを明らかにする。 Given the growing relevance of the KDQ across the quantum sciences, the aim of this work is two-fold: first, we clarify the role played by quasiprobabilities in characterising dynamical fluctuations in the presence of measurement incompatibility, and highlight how the KDQ naturally underpins and unifies quantum correlators, quantum currents, Loschmidt echoes and weak values; second, we discuss several schemes to access the KDQ and its non-classicality features, and assess their experimental feasibility in NMR and solid-state platforms. 最後に,従来の処理を制限した最近のno-go定理に照らして,準確率を持つ熱力学の可能性を分析する。

Recent work has revealed the central role played by the Kirkwood-Dirac quasiprobability (KDQ) as a tool to encapsulate non-classical features in the context of condensed matter physics (scrambling, dynamical phase transitions) metrology (standard and post-selected), thermodynamics (power output and fluctuation theorems), foundations (contextuality, anomalous weak values) and more. Given the growing relevance of the KDQ across the quantum sciences, the aim of this work is two-fold: first, we clarify the role played by quasiprobabilities in characterising dynamical fluctuations in the presence of measurement incompatibility, and highlight how the KDQ naturally underpins and unifies quantum correlators, quantum currents, Loschmidt echoes and weak values; second, we discuss several schemes to access the KDQ and its non-classicality features, and assess their experimental feasibility in NMR and solid-state platforms. Finally, we analyze the possibility of a `thermodynamics with quasiprobabilities' in the light of recent no-go theorems limiting traditional treatments.
翻訳日:2023-02-08 07:04:00 公開日:2022-08-24
# 時間効率のコンスタントスペース・オーバーヘッドフォールトトレラント量子計算

Time-Efficient Constant-Space-Overhead Fault-Tolerant Quantum Computation ( http://arxiv.org/abs/2207.08826v2 )

ライセンス: Link先を確認
Hayata Yamasaki, Masato Koashi(参考訳) 量子コンピューティングをスケーラブルに実現し、古典的コンピューティングよりも相当なスピードアップを達成するには、フォールトトレランスが必要である。 従来、フォールトトレラント量子計算 (ftqc) のプロトコルは論理量子ビット当たりの物理量子ビットの過大な空間オーバーヘッドを要求する。 量子低密度パリティチェック(LDPC)符号を用いて、定数空間オーバーヘッドFTQCを実現するためのより最近のプロトコルは、かなりの注目を集めるが、別の欠点がある。 これらの問題に対処するため、我々は、単一大規模量子LDPC符号ではなく、複数の小サイズの量子符号を定空間オーバヘッドFTQCに結合した代替手法を提案する。 我々は、異なる量子ハミング符号を拡大サイズで結合する技術を開発した。 その結果, 一定の空間オーバーヘッドと準多対数時間オーバーヘッドを同時に達成するための低オーバヘッドプロトコルを構築した。 我々のプロトコルは、既存の定数空間オーバヘッドプロトコルとは異なり、デコーダが非コンスタントランタイムを持つ場合でもFTQCを達成する。 これらの結果はFTQCの基礎を築き、量子スピードアップの大規模なクラスを、有界な空間オーバーヘッド内で実現している。 この成果は、コード結合に基づく低オーバーヘッドFTQCのための有望な道を開く。

Scalable realization of quantum computing to attain substantial speedups over classical computing requires fault tolerance. Conventionally, protocols for fault-tolerant quantum computation (FTQC) demand excessive space overhead of physical qubits per logical qubit. A more recent protocol to achieve constant-space-overhead FTQC using quantum low-density parity-check (LDPC) codes thus attracts considerable attention but suffers from another drawback: it incurs polynomially long time overhead. To address these problems, we here introduce an alternative approach using a concatenation of multiple small-size quantum codes for the constant-space-overhead FTQC rather than a single large-size quantum LDPC code. We develop techniques for concatenating different quantum Hamming codes with growing sizes. As a result, we construct a low-overhead protocol to achieve constant space overhead and only quasi-polylogarithmic time overhead simultaneously. Our protocol accomplishes FTQC even if a decoder has non-constant runtime, unlike the existing constant-space-overhead protocol. These results establish a foundation for FTQC realizing a large class of quantum speedups within feasibly bounded space overhead yet negligibly short time overhead. This achievement opens a promising avenue for the low-overhead FTQC based on code concatenation.
翻訳日:2023-02-04 15:41:57 公開日:2022-08-24
# パウリ測定を含むMBQCにおける決定性の特徴

Characterising Determinism in MBQCs involving Pauli Measurements ( http://arxiv.org/abs/2207.09368v2 )

ライセンス: Link先を確認
Mehdi Mhalla, Simon Perdrix, and Luc Sanselme(参考訳) 測定に基づく量子コンピューティングにおいて,決定論の新たな特徴付けを導入する。 計算の一方向モデルでは、グラフで表される大きな絡み合った状態に対して局所的な測定を行う。 全体的な決定論的計算を行う能力は、各測定値の非決定性のために補正戦略を必要とする。 このような補正戦略の存在は、基礎となるグラフと測定結果の基礎に依存する。 gflowはmbqcにおけるロバスト決定論のよく知られたグラフィカルな特徴付けであり、すべての測定がブロッホ球面の特定の平面で実行される。 パウリ測度はMBQCではユビキタスであるが、測定ベースの量子計算がパウリ測度を含む場合、GFlowは決定論に必要ではない。 その結果、パウリフローは15年以上前に、パウリの測定でMBQCを扱うためのGFlowの一般化として設計された: パウリフローは堅牢な決定性を保証するが、近年では必要条件ではないことが示されている。 我々は拡張パウリフローと呼ばれるさらなる拡張を導入し、ロバストな決定論に必要かつ十分なことを証明した。

We introduce a new characterisation of determinism in measurement-based quantum computing. The one-way model of computation consists in performing local measurements over a large entangled state represented by a graph. The ability to perform an overall deterministic computation requires a correction strategy because of the non-determinism of each measurement. The existence of such correction strategy depends on the underlying graph and the basis of the performed measurements. GFlow is a well-known graphical characterisation of robust determinism in MBQC when every measurement is performed in some specific planes of the Bloch sphere. While Pauli measurements are ubiquitous in MBQC, GFlow fails to be necessary for determinism when a measurement-based quantum computation involves Pauli measurements. As a consequence, Pauli Flow was designed more than 15 years ago as a generalisation of GFlow to handle MBQC with Pauli measurements: Pauli flow guarantees robust determinism, however it has been shown more recently that it fails to be a necessary condition. We introduce a further extension called Extended Pauli Flow that we prove necessary and sufficient for robust determinism.
翻訳日:2023-02-04 13:00:32 公開日:2022-08-24
# 固定光パルスとしての原子アンサンブル中の2つの光パルスの同時トラッピング

Simultaneous Trapping of Two Optical Pulses in an Atomic Ensemble as Stationary Light Pulses ( http://arxiv.org/abs/2208.06109v2 )

ライセンス: Link先を確認
U-Shin Kim and Yoon-Ho Kim(参考訳) 定常光パルス (SLP) は、2つの反伝搬駆動場によって合成された原子アンサンブル内のゼロ群速度光パルスを指す。 キャビティのない原子媒体に閉じ込められた光パルスの特異性にもかかわらず、SLPの観測は、SLP位相整合条件による単一光パルスの捕捉に限られており、これによってSLPベースのアプリケーションの開発が著しく妨げられている。 本稿では,SLPプロセスが実際に2つの位相マッチング条件をサポートしていることを理論的に示し,その結果を用いて,0.8$\mu$sから2.0$\mu$sまでの2つの光パルスの同時SLPトラップ実験を行った。 SLPトラップ状態からの放出効率測定により得られる特性散逸時間は1.22$\mu$sであり、有効Q因子は2.9\times 10^9$である。 我々の研究は、効率的な光子-光子相互作用、空間的に多重モードコヒーレントな量子メモリ、エキゾチックなフォトニックガス状態の生成など、興味深いSLPベースの応用をもたらすことが期待されている。

The stationary light pulse (SLP) refers to a zero-group-velocity optical pulse in an atomic ensemble prepared by two counter-propagating driving fields. Despite the uniqueness of an optical pulse trapped within an atomic medium without a cavity, observations of SLP so far have been limited to trapping a single optical pulse due to the stringent SLP phase-matching condition, and this has severely hindered the development of SLP-based applications. In this paper, we first show theoretically that the SLP process in fact supports two phase-matching conditions and we then utilize the result to experimentally demonstrate simultaneous SLP trapping of two optical pulses for the duration from 0.8 $\mu$s to 2.0 $\mu$s. The characteristic dissipation time, obtained by the release efficiency measurement from the SLP trapping state, is 1.22 $\mu$s, which corresponds to an effective Q-factor of $2.9\times 10^9$. Our work is expected to bring forth interesting SLP-based applications, such as, efficient photon-photon interaction, spatially multi-mode coherent quantum memory, creation of exotic photonic gas states, etc.
翻訳日:2023-01-31 08:41:51 公開日:2022-08-24
# 主観的理想論の束理論的視点に基づく量子論の新しい解釈

A new interpretation of quantum theory, based on a bundle-theoretic view of objective idealism ( http://arxiv.org/abs/2208.10964v2 )

ライセンス: Link先を確認
Martin Korth(参考訳) ボーアの最初の試みから約1世紀後、量子論の解釈は依然として多くのオープンな疑問を持つ分野である。 この記事では、哲学的考察に動機づけられた量子論の新しい解釈を提案する。 量子論の「弱さ」は、識別不能な粒子の消滅する識別可能性に由来すると理解でき、哲学的存在論における束理論にも同様の消滅した識別可能性が見られるという観測に基づき、物質主義を現実の根底にある本質としてではなく、客観的理想論の束論的見方を仮定することで、量子論を理解可能な方法で解釈できると主張する。

After about a century since the first attempts by Bohr, the interpretation of quantum theory is still a field with many open questions. In this article a new interpretation of quantum theory is suggested, motivated by philosophical considerations. Based on the findings that the 'weirdness' of quantum theory can be understood to derive from a vanishing distinguishability of indiscernible particles, and the observation that a similar vanishing distinguishability is found for bundle theories in philosophical ontology, the claim is made that quantum theory can be interpreted in an intelligible way by positing a bundle-theoretic view of objective idealism instead of materialism as the underlying fundamental nature of reality.
翻訳日:2023-01-30 04:44:03 公開日:2022-08-24
# 量子コンピュータを用いたネットワークにおけるウイルス拡散のシミュレーション

Simulating virus diffusion in networks with quantum computers ( http://arxiv.org/abs/2208.11394v1 )

ライセンス: Link先を確認
Xiaoyang Wang and Yinchenguang Lyu and Changyu Yao and Xiao Yuan(参考訳) 本稿では,ネットワーク内の流行過程をシミュレートするための量子力学的ツールを提案する。 まず,ウイルスの集団分布をスピン格子配置にマッピングする方法を示す。 次に、拡散が古典的な熱力学過程であることに気付き、量子熱系の有効な(パラメータ化された)ハミルトニアンのダイナミクスに写像することができる。 ハミルトンの合理性を示すために,ハミルトニアンの進化挙動の数値的および解析的解析を行う。 この進化は、既知の疫学的感受性および感染モデルと一致する古典的確率的マルコフ過程によってよく説明できることを示す。 疫学的な入力から熱力学的ハミルトニアンのパラメータを決定するための実用的な方法を示す。 例えば,SARS-Cov-2 の変種 Omicron のコミュニティネットワークへの送信過程をシミュレートする。

We propose to use quantum mechanical tools to simulate epidemic processes in a network. We first show a systematic way to map virus population distributions to spin-lattice configurations. Then, noticing that diffusion is a classical thermal dynamic process, we can map it to the dynamics of an effective (parametrized) Hamiltonian of a quantum thermal system. To demonstrate the rationality of the Hamiltonian, we provide numerical and analytic analyses of the evolution behaviour of the Hamiltonian. We prove that the evolution could be well described by a classical stochastic Markov process, which is consistent with the well-known epidemiological susceptible and infectious model. A practical method to determine the parameters of the thermal dynamic Hamiltonian from epidemiological inputs is exhibited. As an example, we simulate the transmission process of SARS-Cov-2 variant Omicron with a given community network.
翻訳日:2023-01-30 00:06:01 公開日:2022-08-24
# 平衡外光共鳴自己励起

Out-of-equilibrium optomechanical resonance self-excitation ( http://arxiv.org/abs/2208.11390v1 )

ライセンス: Link先を確認
P. Milde, M. Langenhorst, H. H\"olscher, J. Rottmann-Matthes, D. Hundertmark, L. M. Eng, and R. Hoffmann-Vogel(参考訳) 原子間力顕微鏡の基本感度限界はカンチレバー振動の熱雑音と強く相関している。 この不必要なノイズを抑える方法は測定の帯域幅を減らすことであるが、この手法は測定速度と品質係数Qで定義されるカンチレバー共鳴の幅によって制限されている。 レーザーパワーが十分に増加すると、カンチレバーの振動は自励状態に達するかもしれない。 この自己振動状態において、系のノイズは平衡から遠いレーザー光との相互作用によって部分的に決定される。 本稿では, レーザーパワーのチューニングが非線形光力学効果にどのようにつながり, カンチレバーの有効品質係数を劇的に増加させ, 平衡外ノイズを発生させるかを示し, 考察する。 減衰係数の4次非線形性を用いて効果をモデル化する。

The fundamental sensitivity limit of atomic force microscopy is strongly correlated to the thermal noise of the cantilever oscillation. A method to suppress this unwanted noise is to reduce the bandwidth of the measurement, but this approach is limited by the speed of the measurement and the width of the cantilever resonance, commonly defined through the quality factor Q. However, it has been shown that optomechanical resonances in interferometers might affect the cantilever oscillations resulting in an effective quality factor Q$_{eff}$ . When the laser power is sufficiently increased the cantilever oscillations might even reach the regime of self-oscillation. In this self-oscillation state, the noise of the system is partially determined by the interaction with the laser light far from equilibrium. Here, we show and discuss how tuning of the laser power leads to nonlinear optomechanical effects that can dramatically increase the effective quality factor of the cantilever leading to out-of-equilibrium noise. We model the effects using a fourth order nonlinearity of the damping coefficient.
翻訳日:2023-01-30 00:05:48 公開日:2022-08-24
# 情報理論によるマルコフ確率場構造学習のための量子アルゴリズム

Quantum algorithm for Markov Random Fields structure learning by information theoretic properties ( http://arxiv.org/abs/2208.11382v1 )

ライセンス: Link先を確認
Liming Zhao, Lin-chun Wan, Ming-Xing Luo(参考訳) 確率的グラフィカルモデルは機械学習において重要な役割を担い、様々な分野に幅広く応用されている。 1つの重要な部分集合は、マルコフ確率場(Markov random field)とも呼ばれる非方向のグラフィカルモデルである。 本研究では,量子コンピュータ上のマルコフ確率場の構造学習手法について検討する。 本稿では,ほぼ最適な古典的グリーディアルゴリズムに基づく有界次数グラフを持つr$-wise markov確率場の構造学習のための量子アルゴリズムを提案する。 量子アルゴリズムは、変数の数の観点から古典的よりも多項式のスピードアップを提供する。 我々の研究は、機械学習のいくつかの問題を解く際に、古典的な計算よりも量子計算の利点を実証する。

Probabilistic graphical models play a crucial role in machine learning and have wide applications in various fields. One pivotal subset is undirected graphical models, also known as Markov random fields. In this work, we investigate the structure learning methods of Markov random fields on quantum computers. We propose a quantum algorithm for structure learning of an $r$-wise Markov Random Field with a bounded degree underlying graph, based on a nearly optimal classical greedy algorithm. The quantum algorithm provides a polynomial speed-up over the classical counterpart in terms of the number of variables. Our work demonstrates the potential merits of quantum computation over classical computation in solving some problems in machine learning.
翻訳日:2023-01-30 00:05:15 公開日:2022-08-24
# 基数制約付き量子コンピューティングによる金融指標追跡

Financial Index Tracking via Quantum Computing with Cardinality Constraints ( http://arxiv.org/abs/2208.11380v1 )

ライセンス: Link先を確認
Samuel Palmer, Konstantinos Karagiannis, Adam Florence, Asier Rodriguez, Roman Orus, Harish Naik, Samuel Mugel(参考訳) 本研究では,実世界の資産管理に重要な非線形濃度制約を量子ポートフォリオ最適化に適用する方法を示す。 これにより、従来のアルゴリズムでは難しい量子アニールを用いて、非凸ポートフォリオ最適化問題に取り組むことができる。 ポートフォリオ最適化に濃度制約を使用できることは、革新的なポートフォリオとetfs(exchange-traded-funds)を作成するための新しいアプリケーションへの扉を開く。 本手法を改良された指標追跡の実践的問題に適用し,高次追跡を維持しつつ,目標指標のリスクプロファイルを大幅に上回る小さなポートフォリオを構築することができる。

In this work, we demonstrate how to apply non-linear cardinality constraints, important for real-world asset management, to quantum portfolio optimization. This enables us to tackle non-convex portfolio optimization problems using quantum annealing that would otherwise be challenging for classical algorithms. Being able to use cardinality constraints for portfolio optimization opens the doors to new applications for creating innovative portfolios and exchange-traded-funds (ETFs). We apply the methodology to the practical problem of enhanced index tracking and are able to construct smaller portfolios that significantly outperform the risk profile of the target index whilst retaining high degrees of tracking.
翻訳日:2023-01-30 00:05:06 公開日:2022-08-24
# k$-body相互作用を持つ埋め込みガウスユニタリアンサンブルにおける2点相関関数の2変量モーメント

Bivariate moments of the two-point correlation function for embedded Gaussian unitary ensemble with $k$-body interactions ( http://arxiv.org/abs/2208.11312v1 )

ライセンス: Link先を確認
V.K.B. Kota(参考訳) k$-body相互作用を持つ組込みランダム行列アンサンブルは、多くの量子系に適するよう十分に確立されている。 これらのアンサンブルに対して、2点相関関数はまだ導出されていないが、これらのアンサンブルは50年前に導入された。 ランダム行列アンサンブルの固有値における2点相関関数は、2つの固有値における固有値の密度の積のアンサンブル平均である。 数分散やDyson-Mehta $\Delta_3$ statisticといった変動測度は、2点関数とアンサンブルにおけるレベル運動のばらつきによって定義される。 近年、k$-ボディー相互作用を持つ組込みアンサンブルでは、一点関数(固有値の平均密度)はいわゆる$q$正規分布に従うことが認識されている。 これにより、固有値密度は、$q$-正規形式から始まり、関連する$q$-ヘルマイト多項式を用いて拡張できる。 拡張係数 $s_\zeta$ と $\zeta \ge 1$ の共分散$\bar{s_\zeta s_{\zeta^\prime}}$(アンサンブル平均を表すオーバーライン)は、2点関数の2変数モーメント $\sigma_{pq}$ の線形結合であるので、2点関数を決定する。 これら全てを説明するのに加えて、この論文で導出された式は、2点相関関数の2点相関関数の2変量モーメント$\Sigma_{PQ}$と$P+Q \le 8$の式であり、$k$ボディ相互作用を持つ埋め込みガウスユニタリアンアンサンブルは$N$単一粒子状態における$m$フェルミオンを持つシステムに適している。 公式を得るために使われるのは、$SU(N)$ Wigner-Racah環である。

Embedded random matrix ensembles with $k$-body interactions are well established to be appropriate for many quantum systems. For these ensemble the two point correlation function is not yet derived though these ensembles are introduced 50 years back. Two-point correlation function in eigenvalues of a random matrix ensemble is the ensemble average of the product of the density of eigenvalues at two eigenvalues say $E$ and $E^\prime$. Fluctuation measures such as the number variance and Dyson-Mehta $\Delta_3$ statistic are defined by the two-point function and so also the variance of the level motion in the ensemble. Recently, it is recognized that for the embedded ensembles with $k$-body interactions the one-point function (ensemble averaged density of eigenvalues) follows the so called $q$-normal distribution. With this, the eigenvalue density can be expanded by starting with the $q$-normal form and using the associated $q$-Hermite polynomials. Covariances $\bar{S_\zeta S_{\zeta^\prime}}$ (overline representing ensemble average) of the expansion coefficients $S_\zeta$ with $\zeta \ge 1$ here determine the two-point function as they are a linear combination of the bivariate moments $\Sigma_{PQ}$ of the two-point function. Besides describing all these, in this paper derived are formulas for the bivariate moments $\Sigma_{PQ}$ with $P+Q \le 8$, of the two-point correlation function, for the embedded Gaussian unitary ensembles with $k$-body interactions [EGUE($k$)] as appropriate for systems with $m$ fermions in $N$ single particle states. Used for obtaining the formulas is the $SU(N)$ Wigner-Racah algebra.
翻訳日:2023-01-30 00:04:54 公開日:2022-08-24
# 層状変分量子回路は古典影を用いて古典的に効率的に最適化できる

Alternating Layered Variational Quantum Circuits Can Be Classically Optimized Efficiently Using Classical Shadows ( http://arxiv.org/abs/2208.11623v1 )

ライセンス: Link先を確認
Afrad Basheer, Yuan Feng, Christopher Ferrie, Sanjiang Li(参考訳) 変分量子アルゴリズム(VQA)は、古典的ニューラルネットワーク(NN)の量子アナログである。 VQAはパラメタライズド量子回路(PQC)で構成され、パラメータの選択だけが異なるアンサツェ(NN層のアナログである単純なPQC)の複数の層で構成されている。 これまでの研究では、交互層状アンサッツを、短期量子コンピューティングにおける新しい標準アンサッツとして特定していた。 実際、浅い交互層VQAの実装は容易であり、訓練可能かつ表現的であることが示されている。 本稿では,このようなvqaのトレーニングコストを指数関数的に削減するトレーニングアルゴリズムを提案する。 さらに,本アルゴリズムは量子入力データの古典的シャドウを利用するため,厳密な性能保証を備えた古典的コンピュータ上で動作可能である。 本稿では,状態準備回路と量子オートエンコーダの探索問題に対するアルゴリズムを用いて,トレーニングコストの2~3桁の改善を実証する。

Variational quantum algorithms (VQAs) are the quantum analog of classical neural networks (NNs). A VQA consists of a parameterized quantum circuit (PQC) which is composed of multiple layers of ansatzes (simpler PQCs, which are an analogy of NN layers) that differ only in selections of parameters. Previous work has identified the alternating layered ansatz as potentially a new standard ansatz in near-term quantum computing. Indeed, shallow alternating layered VQAs are easy to implement and have been shown to be both trainable and expressive. In this work, we introduce a training algorithm with an exponential reduction in training cost of such VQAs. Moreover, our algorithm uses classical shadows of quantum input data, and can hence be run on a classical computer with rigorous performance guarantees. We demonstrate 2--3 orders of magnitude improvement in the training cost using our algorithm for the example problems of finding state preparation circuits and the quantum autoencoder.
翻訳日:2023-01-29 23:58:56 公開日:2022-08-24
# 溶液成長ペロブスカイト量子ドットにおける単孔スピンの常温コヒーレント光学的操作

Room-temperature coherent optical manipulation of single-hole spins in solution-grown perovskite quantum dots ( http://arxiv.org/abs/2208.11614v1 )

ライセンス: Link先を確認
Xuyang Lin, Yaoyao Han, Jingyi Zhu and Kaifeng Wu(参考訳) 固体スピンコヒーレンスの操作は、量子情報処理の重要なパラダイムである。 現在のシステムは非常に低温で動作するか、スケールアップが困難である。 室温でスピンをコヒーレントに操作できる低コストでスケーラブルな材料を開発することは、量子情報科学の持続可能な未来にとって非常に魅力的である。 本稿では, 溶液成長したCsPbBr3ペロブスカイトQDの集合体における単一孔スピンの環境条件全光初期化, 操作, 読み出しについて報告する。 単孔スピンは、円偏波フェムト秒パルス励起に続くサブピコ秒電子スキャベンジによって得られる。 横向きの磁場はスピンプリセションを誘導し、第二のオフ共鳴フェムト秒パルスは強い光間相互作用によってホールスピンをコヒーレントに回転させる。 これらの操作は、室温での単孔スピンのほぼ完全な量子状態制御を達成する。

Manipulation of solid-state spin coherence is an important paradigm for quantum information processing. Current systems either operate at very low temperatures or are difficult to scale-up. Developing low-cost, scalable materials whose spins can be coherently manipulated at room temperature is thus highly-attractive for a sustainable future of quantum information science. Here we report ambient-condition all-optical initialization, manipulation and readout of single-hole spins in an ensemble of solution-grown CsPbBr3 perovskite QDs. Single-hole spins are obtained by sub-picosecond electron scavenging following a circularly-polarized femtosecond-pulse excitation. A transversal magnetic field induces spin precession, and a second off-resonance femtosecond-pulse coherently rotates hole spins via strong light-matter interaction. These operations accomplish nearly complete quantum-state control of single-hole spins at room temperature.
翻訳日:2023-01-29 23:58:41 公開日:2022-08-24
# 単一システムによる局所実在論と非文脈性を同時に否定する

Simultaneous All-versus-Nothing Refutation of Local Realism and Noncontextuality by a Single System ( http://arxiv.org/abs/2208.11585v1 )

ライセンス: Link先を確認
Min-Gang Zhou, Hua-Lei Yin, Zeng-Bing Chen(参考訳) ベルの定理とコチェン=スペクターの定理はそれぞれ、古典理論、すなわち量子非局所性と量子文脈性によって説明できない2つの素晴らしい現象を捉えている。 これら2つの現象はそれぞれ、広範な実験的な検証に耐えており、情報とコンピューティングの分野に革命をもたらす重要な量子資源であると考えられている。 ここではベルの定理とコッチェン・スペックルの定理を同時に証明するために使える万逆証明を示す。 この証明は3つの一重項対とグリーンバーガー・ホーネ・ザイリンガー状態解析器を利用しており、現在の線形光学技術で実験的に検証することができる。 提案されたスキームは、量子力学と隠れた変数理論の間のこれまでで最も強い衝突を表すだけでなく、量子非局所性と量子文脈性の関係を深く理解するための洞察的なガイダンスを提供する。

Bell's theorem and the Kochen-Specker theorem, respectively, capture two wonderful phenomena that cannot be described by any classical theory, namely, quantum nonlocality and quantum contextuality. Each of these two phenomena has withstood extensive experimental verification and is considered to be an important quantum resource capable of revolutionizing the field of information and computing. Here we present an all-versus-nothing proof that can be used to simultaneously demonstrate Bell's theorem and the Kochen-Specker theorem. The proof makes use of three singlet pairs and the Greenberger-Horne-Zeilinger-state analyzer, and thus can be experimentally tested with the current linear optics technology. Not only does the proposed scheme represent the strongest conflict between quantum mechanics and hidden variable theories to date, it also provides insightful guidance for deepening our understanding of the relation between quantum nonlocality and quantum contextuality.
翻訳日:2023-01-29 23:58:14 公開日:2022-08-24
# 状態依存確率性のない客観的崩壊モデル

An objective collapse model without state dependent stochasticity ( http://arxiv.org/abs/2208.11584v1 )

ライセンス: Link先を確認
Lotte Mertens, Matthijs Wesseling and Jasper van Wezel(参考訳) 測定機械に量子力学モデルを用いながら、量子力学における測定を記述することができないことは、その中心的な問題の1つである。 客観的崩壊理論はシュロディンガー方程式の変更を提案することによってこの問題を解決しようとする。 ここでは,従来の提案とは対照的に,その構成において状態依存確率項を用いない目標崩壊理論の最小モデルを提案する。 ボルンの法則が、確率過程の性質が進化している状態に依存しない確率的進化から生じることは、原理の明白な証明である。 より現実的な目標崩壊理論を構築するための基礎として,提案モデルを提案する。

The impossibility of describing measurement in quantum mechanics while using a quantum mechanical model for the measurement machine, remains one of its central problems. Objective collapse theories attempt to resolve this problem by proposing alterations to Schrodinger's equation. Here, we present a minimal model for an objective collapse theory that, in contrast to previous proposals, does not employ state dependent stochastic terms in its construction. It is an explicit proof of principle that it is possible for Born's rule to emerge from a stochastic evolution in which no properties of the stochastic process depend on the state being evolved. We propose the presented model as a basis from which more realistic objective collapse theories can be constructed.
翻訳日:2023-01-29 23:57:56 公開日:2022-08-24
# 量子メトロロジーにおける相対位相分布と光位相センシングの精度

Relative Phase Distribution and the Precision of Optical Phase Sensing in Quantum Metrology ( http://arxiv.org/abs/2208.11524v1 )

ライセンス: Link先を確認
Felipe F. Braz, Tam\'iris R. Calixto, and Pablo L. Saldanha(参考訳) 量子気象学の目標の1つは、干渉計において1つの光学モードで導入された小さな光学位相の測定精度を改善することである。 本稿では,luis と s\'anchez-soto (lss) [phys] によって導入された相対位相分布を求める。 rev. rev. a $\mathbf{53}$, 495 (1996)] いくつかの2モード純粋量子光状態が量子論に有用である。 計算の数値精度において、LSS相対位相分布から得られたフィッシャー情報は、検討された状態の量子フィッシャー情報と等しい(試験された状態の平均差は0.1%以下)。 以上の結果から,lss相対位相分布は,少なくとも純粋な状態においては量子フィッシャー情報に依存するため,量子メトロロジーにおける位相センシングの過程において最小の不確かさを予測できることが示唆された。

One of the quantum metrology goals is to improve the precision in the measurement of a small optical phase introduced in one optical mode in an interferometer, i.e., phase sensing. In this paper, we obtain the relative phase distribution introduced by Luis and S\'anchez-Soto (LSS) [Phys. Rev. A $\mathbf{53}$, 495 (1996)] for several two-mode pure quantum light states useful in quantum metrology. We show that, within the numerical precision of our calculations, the Fisher information obtained from the LSS relative phase distribution is equal to the quantum Fisher information for the considered states (the average difference for the tested states is smaller than 0.1%). Our results indicate that the LSS relative phase distribution can be used to predict the minimum uncertainty possible in the process of phase sensing in quantum metrology, since this uncertainty depends on the quantum Fisher information, at least for pure states.
翻訳日:2023-01-29 23:57:27 公開日:2022-08-24
# プログラマブルゲルマニウム量子シミュレータ上での共鳴価結合の探索

Probing resonating valence bonds on a programmable germanium quantum simulator ( http://arxiv.org/abs/2208.11505v1 )

ライセンス: Link先を確認
Chien-An Wang, Corentin D\'eprez, Hanifa Tidjani, William I. L. Lawrie, Nico W. Hendrickx, Amir Sammak, Giordano Scappucci, and Menno Veldhorst(参考訳) 高波長可変量子システムを用いたシミュレーションは、古典的コンピュータの能力を超えた凝縮物系の研究を可能にするかもしれない。 半導体技術の量子ドットとドナーは、量子シミュレーションを実装するための自然なアプローチを定義する。 いくつかの物質プラットフォームは相互作用する電荷状態の研究に使われ、ヒ素化ガリウムはスピン進化の研究にも使われている。 しかし、デコヒーレンスはコヒーレント量子力学をシミュレートする上で重要な課題である。 ここではゲルマニウム量子ドットのホールスピンを用いた量子シミュレーションを紹介する。 孤立,対,完全結合量子ドットにおける多スピン状態のチューニングを可能にする広範かつ一貫性のある制御を実証する。 次に,共振原子価結合のシミュレーションに着目し,多くの期間にわたってコヒーレントな一重項生成状態の進化を測定する。 最後に、$s$-waveと$d$-wave対称性を持つ4スピン状態を実現する。 これらの結果は相関電子系の非自明でコヒーレントなシミュレーションを行う手段を提供する。

Simulations using highly tunable quantum systems may enable investigations of condensed matter systems beyond the capabilities of classical computers. Quantum dots and donors in semiconductor technology define a natural approach to implement quantum simulation. Several material platforms have been used to study interacting charge states, while gallium arsenide has also been used to investigate spin evolution. However, decoherence remains a key challenge in simulating coherent quantum dynamics. Here, we introduce quantum simulation using hole spins in germanium quantum dots. We demonstrate extensive and coherent control enabling the tuning of multi-spin states in isolated, paired, and fully coupled quantum dots. We then focus on the simulation of resonating valence bonds and measure the evolution between singlet product states which remains coherent over many periods. Finally, we realize four-spin states with $s$-wave and $d$-wave symmetry. These results provide means to perform non-trivial and coherent simulations of correlated electron systems.
翻訳日:2023-01-29 23:57:12 公開日:2022-08-24
# ハイブリッドRydberg原子セットアップにおける拡張電子-フォノン結合モデルの量子シミュレーション

Quantum simulation of extended electron-phonon coupling models in a hybrid Rydberg atom setup ( http://arxiv.org/abs/2208.11473v1 )

ライセンス: Link先を確認
Jo\~ao Pedro Mendon\c{c}a and Krzysztof Jachymski(参考訳) ライドバーグ原子を用いた最先端の実験は、調整可能な幾何と長いコヒーレンス時間を持つ多数の捕捉粒子で操作できるようになった。 電子-フォノン結合を含む凝縮物質モデルを効率的にシミュレーションするために,中性基底原子を含むハイブリッド装置でこれを利用する方法を提案する。 このような実装は、フォノンと原子の両方のバンド構造と同様に結合強度と範囲を制御でき、拡張されたハバード・ホルシュタインモデルの静的および動的特性の研究への道を開くべきである。

State-of-the-art experiments using Rydberg atoms can now operate with large numbers of trapped particles with tunable geometry and long coherence time. We propose a way to utilize this in a hybrid setup involving neutral ground state atoms to efficiently simulate condensed matter models featuring electron-phonon coupling. Such implementation should allow for controlling the coupling strength and range as well as the band structure of both the phonons and atoms, paving the way towards studying both static and dynamic properties of extended Hubbard-Holstein models.
翻訳日:2023-01-29 23:57:01 公開日:2022-08-24
# リポータースピンを用いたT1緩和法

Reporter-spin-assisted T1 relaxometry ( http://arxiv.org/abs/2208.11470v1 )

ライセンス: Link先を確認
Zhiran Zhang (1), Maxime Joos (1), Dolev Bluvstein (1,2), Yuanqi Lyu (1,3), and Ania C. Bleszynski Jayich (1) ((1) Dept of Physics, UC Santa Barbara, (2) Dept of Physics, Harvard University, (3) Dept of Physics, UC Berkeley)(参考訳) 単一スピン量子センサは、センサスピンの緩和時間に対する効果を通じて電磁場を定量的に検出し、画像化することができ、ターゲットの固体や分子構造に関する重要な情報を明らかにする。 しかし、スピン緩和法の感度と空間分解能はセンサーとターゲットの距離によって制限されることが多い。 本稿では, 補助レポータースピンと1つのスピンセンサ, ダイヤモンド窒素空洞(NV)センターを併用した代替手法を提案する。 本手法は,現実的な作業条件に対する10^4計測速度改善を実現することができ,単一の浅層nvセンタを用いて提案手法を実験的に検証した。 我々の研究は、光学初期化や読み出し機能を必要としない緩和センサーとして機能する可能性のある、様々なスピンシステムに対する幅広い調査の道を開く。

A single spin quantum sensor can quantitatively detect and image fluctuating electromagnetic fields via their effect on the sensor spin's relaxation time, thus revealing important information about the target solid-state or molecular structures. However, the sensitivity and spatial resolution of spin relaxometry are often limited by the distance between the sensor and target. Here, we propose an alternative approach that leverages an auxiliary reporter spin in conjunction with a single spin sensor, a diamond nitrogen vacancy (NV) center. We show that this approach can realize a 10^4 measurement speed improvement for realistic working conditions and we experimentally verify the proposed method using a single shallow NV center. Our work opens up a broad path of inquiry into a range of possible spin systems that can serve as relaxation sensors without the need for optical initialization and readout capabilities.
翻訳日:2023-01-29 23:56:52 公開日:2022-08-24
# 量子回路について知っておきたいことすべて

Everything You Always Wanted to Know About Quantum Circuits ( http://arxiv.org/abs/2208.11725v1 )

ライセンス: Link先を確認
Edgard Mu\~noz-Coreas and Himanshu Thapliyal(参考訳) 本稿では,量子コンピューティングのための回路の概要を紹介する。 本稿では,量子計算に使用されるゲートを紹介し,これらのゲートを用いた回路の評価に用いるリソースコスト測定を行う。 次に、表示されたゲートを量子回路に結合して基本的な算術関数を行う方法を示す。 加算、減算、乗算、分割のためのアーキテクチャを示す。 本稿では,量子回路の資源コストの計算方法を紹介する。 この概要は、画像回転操作における基本量子回路の適用を例示することで、結論付ける。

In this work, we provide an overview of circuits for quantum computing. We introduce gates used in quantum computation and then present resource cost measurements used to evaluate circuits made from these gates. We then illustrate how the gates shown are then combined into quantum circuits for basic arithmetic functions. Architectures for addition, subtraction, multiplication, and division are shown. We demonstrate how to calculate the resource costs of quantum circuits. We conclude this overview with by illustrating an application of the elementary quantum circuits for the image rotation operation.
翻訳日:2023-01-29 23:50:58 公開日:2022-08-24
# フォトニック量子プロセッサのための量子体積

Quantum Volume for Photonic Quantum Processors ( http://arxiv.org/abs/2208.11724v1 )

ライセンス: Link先を確認
Yuxuan Zhang, Daoheng Niu, Alireza Shabani, Hassan Shapourian(参考訳) 短期量子コンピューティングプロセッサのメトリクスを定義することは、量子ハードウェアの研究と開発に不可欠である。 このような定量的特徴は、進捗の報告や異なる量子プラットフォームの比較に有用であるだけでなく、ボトルネックの特定や技術ロードマップの設計にも不可欠である。 ランダム化ベンチマークや量子ボリュームのようなほとんどのメトリクスは、もともと回路ベースの量子コンピュータに導入され、フォトニックデバイスのような測定ベースの量子コンピューティング(MBQC)プロセッサにはすぐには適用されなかった。 本稿では,MBQCプロセスの物理ノイズと不完全性を等価量子回路の論理誤差にマッピングする枠組みを提示することにより,このギャップを解消する。 本稿では,光量子コンピューティングの短期的候補として符号化されたGottesman-Kitaev-Preskill(GKP)に基づく連続可変クラスタ状態について検討し,実効論理ゲート誤差チャネルを導出し,GKPのスクイーズと光子損失率の観点から量子量を算出する。

Defining metrics for near-term quantum computing processors has been an integral part of the quantum hardware research and development efforts. Such quantitative characteristics are not only useful for reporting the progress and comparing different quantum platforms, but also essential for identifying the bottlenecks and designing a technology roadmap. Most metrics such as randomized benchmarking and quantum volume were originally introduced for circuit-based quantum computers and were not immediately applicable to measurement-based quantum computing (MBQC) processors such as in photonic devices. In this paper, we close this gap by presenting a framework to map physical noises and imperfections in MBQC processes to logical errors in equivalent quantum circuits, whereby enabling the well-known metrics to characterize MBQC. To showcase our framework, we study a continuous-variable cluster state based on the Gottesman-Kitaev-Preskill (GKP) encoding as a near-term candidate for photonic quantum computing, and derive the effective logical gate error channels and calculate the quantum volume in terms of the GKP squeezing and photon loss rate.
翻訳日:2023-01-29 23:50:51 公開日:2022-08-24
# より健康な半古典力学

A healthier semi-classical dynamics ( http://arxiv.org/abs/2208.11722v1 )

ライセンス: Link先を確認
Isaac Layton and Jonathan Oppenheim and Zachary Weller-Davies(参考訳) 量子系のバックリアクションを古典的に研究する。 半古典物理学は、古典位相空間の点とヒルベルト空間の量子状態によって常に記述されるべきという出発点を考慮し、古典量子軌道の観点でシステムを記述する不破滅的なアプローチを考える。 古典的軌跡は連続的であり、進化は自律的であるという仮定の下でのダイナミクスの一般的な形を導出し、古典的量子状態と結合した状態においてダイナミクスが線形かつ完全に正であるという要件を導出する。 この要件は確率を一貫して記述するために必要であり、バック・リアクションがゼロでないときに力学を確率的に強制する。 結果として生じる運動方程式は、標準的な半古典的運動方程式の自然な一般化であるが、結果として得られる力学は古典的量子状態の組合せで線型であるため、期待値に基づく進化法則から従う病理にはならない。 特に、進化法則は、他の半古典的アプローチに関連する問題を解く古典と量子システムの間の相関を考慮に入れている。 さらに、古典的自由度の予測可能性の低下にもかかわらず、量子状態は古典的軌跡に決定論的に条件づけられた状態に進化し、デコヒーレンスと拡散のトレードオフが飽和する。 その結果、量子状態は古典軌道上で条件付けられたときも純粋なままである。 これらの点を説明するために、真空揺らぎの1つを含むいくつかの半古典的な玩具モデルを宇宙の膨張を駆動する源として数値シミュレーションした。 最後に、これらの結果の半古典重力への応用とブラックホール情報問題について論じる。

We study the back-reaction of quantum systems onto classical ones. Taking the starting point that semi-classical physics should be described at all times by a point in classical phase space and a quantum state in Hilbert space, we consider an unravelling approach, describing the system in terms of a classical-quantum trajectory. We derive the general form of the dynamics under the assumptions that the classical trajectories are continuous and the evolution is autonomous, and the requirement that the dynamics is linear and completely positive in the combined classical-quantum state. This requirement is necessary in order to consistently describe probabilities, and forces the dynamics to be stochastic when the back-reaction is non-zero. The resulting equations of motion are natural generalisations of the standard semi-classical equations of motion, but since the resulting dynamics is linear in the combined classical-quantum state, it does not lead to the pathologies which usually follow from evolution laws based on expectation values. In particular, the evolution laws we present account for correlations between the classical and quantum system, which resolves issues associated with other semi-classical approaches. In addition, despite a breakdown of predictability in the classical degrees of freedom, the quantum state evolves deterministically conditioned on the classical trajectory, provided a trade-off between decoherence and diffusion is saturated. As a result, the quantum state remains pure when conditioned on the classical trajectory. To illustrate these points, we numerically simulate a number of semi-classical toy models, including one of vacuum fluctuations as a source driving the expansion of the universe. Finally, we discuss the application of these results to semi-classical gravity, and the black-hole information problem.
翻訳日:2023-01-29 23:50:31 公開日:2022-08-24
# 最適クリフォード回路合成のためのSAT符号化

A SAT Encoding for Optimal Clifford Circuit Synthesis ( http://arxiv.org/abs/2208.11713v1 )

ライセンス: Link先を確認
Sarah Schneider, Lukas Burgholzer, Robert Wille(参考訳) 量子コンピュータ上で量子アルゴリズムを実行するには、デバイスが課す全ての制限に適合する表現へのコンパイルが必要である。 デバイスのコヒーレンス時間とゲートフィディリティが限られているため、コンパイルプロセスは可能な限り最適化する必要がある。 この目的のために、まずアルゴリズムの記述をデバイスのゲートライブラリを使って合成する必要がある。 In this paper, we consider the optimal synthesis of Clifford circuits -- an important subclass of quantum circuits, with various applications. Such techniques are essential to establish lower bounds for (heuristic) synthesis methods and gauging their performance. Due to the huge search space, existing optimal techniques are limited to a maximum of six qubits. The contribution of this work is twofold: First, we propose an optimal synthesis method for Clifford circuits based on encoding the task as a satisfiability (SAT) problem and solving it using a SAT solver in conjunction with a binary search scheme. The resulting tool is demonstrated to synthesize optimal circuits for up to $26$ qubits -- more than four times as many as the current state of the art. 第2に,最先端のヒューリスティックスが導入するオーバーヘッドが平均で下限を27%下回ることを実験的に示した。 ツールはhttps://github.com/cda-tum/qmapで公開されている。

Executing quantum algorithms on a quantum computer requires compilation to representations that conform to all restrictions imposed by the device. Due to device's limited coherence times and gate fidelities, the compilation process has to be optimized as much as possible. To this end, an algorithm's description first has to be synthesized using the device's gate library. In this paper, we consider the optimal synthesis of Clifford circuits -- an important subclass of quantum circuits, with various applications. Such techniques are essential to establish lower bounds for (heuristic) synthesis methods and gauging their performance. Due to the huge search space, existing optimal techniques are limited to a maximum of six qubits. The contribution of this work is twofold: First, we propose an optimal synthesis method for Clifford circuits based on encoding the task as a satisfiability (SAT) problem and solving it using a SAT solver in conjunction with a binary search scheme. The resulting tool is demonstrated to synthesize optimal circuits for up to $26$ qubits -- more than four times as many as the current state of the art. Second, we experimentally show that the overhead introduced by state-of-the-art heuristics exceeds the lower bound by $27\%$ on average. The resulting tool is publicly available at https://github.com/cda-tum/qmap.
翻訳日:2023-01-29 23:49:43 公開日:2022-08-24
# 混合状態のレートゆがみ理論

Rate-Distortion Theory for Mixed States ( http://arxiv.org/abs/2208.11698v1 )

ライセンス: Link先を確認
Zahra Baghali Khanian and Kohdai Kuroiwa and Debbie Leung(参考訳) 本稿では,エンコーダが側情報システムにアクセス可能な混合量子状態のアンサンブルの漸近的に多数のコピーを圧縮することを検討する。 このソースは、古典量子状態、すなわち、到達不能な参照システムの役割を果たす古典的なシステムと相関する量子系として等価に定義される。 評価値は、コピー単位または局所誤差基準に基づいて評価される。 このセットアップでは、レート歪曲セットとして知られ、圧縮率と誤差の間のトレードオフを研究することができる。 最適トレードオフは、一定の歪みを与える最良のレートであるレート歪関数によって特徴づけられる。 単文字相互情報量と規則化された浄化の絡み合いの観点から, 絡み合い支援シナリオと無支援シナリオにおいて, 速度分散関数を求める。 また、通信と絡み合いの両方が充電された場合の一般的な場合も考慮し、全キュービット絡み合い率領域を示す。 我々の圧縮方式は、側情報システムの構造に依存して、視覚的および可視的な圧縮モデル(およびその中間の他のモデル)の両方をカバーする。

In this paper we consider the compression of asymptotically many i.i.d. copies of ensembles of mixed quantum states where the encoder has access to a side information system. This source is equivalently defined as a classical-quantum state, namely, a quantum system correlated with a classical system playing the role of an inaccessible reference system. The figure of merit is evaluated based on per-copy or local error criterion. Under this set-up, known as a rate-distortion set-up, one can study the trade-off between the compression rate and the error. The optimal trade-off can be characterized by the rate-distortion function, which is the best rate given a certain distortion. We find the rate-distortion functions in the entanglement-assisted and unassisted scenarios, in terms of a single-letter mutual information quantity and the regularized entanglement of purification, respectively. We also consider the general case when both communication and entanglement are charged, and present the full qubit-entanglement rate region. Our compression scheme covers both blind and visible compression models (and other models in between) depending on the structure of the side information system.
翻訳日:2023-01-29 23:49:02 公開日:2022-08-24
# 一般次元における高次対称性を持つ系のスペクトルデジェネリシスに関する理論

A Theorem on Extensive Spectral Degeneracy for Systems with Higher Symmetries in General Dimensions ( http://arxiv.org/abs/2208.11690v1 )

ライセンス: Link先を確認
Zohar Nussinov, Gerardo Ortiz(参考訳) 我々は、リーブ=シュルツ=マティスの定理の精神の中で、より高次(ゴージュ・ライク)対称性を持つ量子系のスペクトル縮退性に対する下界を、任意の空間次元におけるより一般的な物理的境界条件で確立する。 ツイストや等価な断熱処理を適用するのとは対照的に,修正境界条件の効果を利用する。 境界幾何学の一般的な選択が熱力学限界に近づく際には、軌道コンパスモデルのような非可換なゲージ様対称性を示す系は、それぞれのスペクトルレベルの指数的(境界の大きさの)縮退性を持つ必要がある。 赤外線と紫外線の混合に伴う大きな縮退が証明されているにもかかわらず、一部のシステムは、エントロピー的「乱れによる秩序」型効果による非拡張的縮退系の従来の物理的挙動を示す可能性がある。

We establish, in the spirit of the Lieb-Schultz-Mattis theorem, lower bounds on the spectral degeneracy of quantum systems with higher (Gauge Like) symmetries with rather generic physical boundary conditions in an arbitrary number of spatial dimensions. Contrary to applying twists or equivalent adiabatic operations, we exploit the effects of modified boundary conditions. When a general choice of boundary geometry is immaterial in approaching the thermodynamic limit, systems that exhibit non-commuting Gauge Like symmetries, such as the orbital compass model, must have an exponential (in the size of the boundary) degeneracy of each of their spectral levels. We briefly discuss why, in spite of the proven large degeneracy associated with infrared-ultraviolet mixing, some systems may still exhibit conventional physical behaviors, i.e., of those of systems with non-extensive degeneracies, due to entropic "order by disorder" type effects.
翻訳日:2023-01-29 23:48:41 公開日:2022-08-24
# ロバスト振幅推定のためのノイズ調整

Noise tailoring for Robust Amplitude Estimation ( http://arxiv.org/abs/2208.11797v1 )

ライセンス: Link先を確認
Archismita Dalal and Amara Katabarwa(参考訳) 普遍的なフォールトトレラント量子コンピュータは、従来のコンピュータでは難解な計算問題を高速化する約束を持っているが、今後10年ほどの間、我々のアクセスはノイズの多い中間スケール量子(NISQ)コンピュータと、おそらくは早期フォールトトレラント(EFT)量子コンピュータに限られる。 これは、期待値を推定するための量子強化アルゴリズムであるロバスト振幅推定(RAE)を含む多くの短期量子アルゴリズムの開発を動機付けている。 RAEを使うことの障害のひとつは、このアルゴリズムに現実的なエラーモデルを組み込む方法の多さである。 これまでのところ、RAEに対するデバイスノイズの影響は、そのサブルーチンの1つに指数減衰モデルとして組み込まれており、これはNISQデバイスやEDTデバイスでは非現実的であり、RAEの性能を妨げている。 実現不可能かもしれない現実的なノイズ効果を明示的にモデル化しようとするのではなく、デバイスノイズを調整して効果的なノイズモデルを生成することで、この障害を回避する。 ノイズシミュレーションを用いて,ノイズに適応したraeアルゴリズムは,raeに期待されるバイアスと精度の両方の改善を回復できることを示す。 さらに、ibmの量子コンピュータでは、偏りを減少させる標準的な推定手法よりも有利なアルゴリズムを示す。 したがって、我々の研究は、NISQコンピュータにおけるRAEの実現可能性を高め、これらのデバイスを使用して量子優位性を達成するための一歩を踏み出した。

A universal fault-tolerant quantum computer holds the promise to speed up computational problems that are otherwise intractable on classical computers; however, for the next decade or so, our access is restricted to noisy intermediate-scale quantum (NISQ) computers and, perhaps, early fault tolerant (EFT) quantum computers. This motivates the development of many near-term quantum algorithms including robust amplitude estimation (RAE), which is a quantum-enhanced algorithm for estimating expectation values. One obstacle to using RAE has been a paucity of ways of getting realistic error models incorporated into this algorithm. So far the impact of device noise on RAE is incorporated into one of its subroutines as an exponential decay model, which is unrealistic for NISQ devices and, maybe, for EFT devices; this hinders the performance of RAE. Rather than trying to explicitly model realistic noise effects, which may be infeasible, we circumvent this obstacle by tailoring device noise to generate an effective noise model, whose impact on RAE closely resembles that of the exponential decay model. Using noisy simulations, we show that our noise-tailored RAE algorithm is able to regain improvements in both bias and precision that are expected for RAE. Additionally, on IBM's quantum computer our algorithm demonstrates advantage over the standard estimation technique in reducing bias. Thus, our work extends the feasibility of RAE on NISQ computers, consequently bringing us one step closer towards achieving quantum advantage using these devices.
翻訳日:2023-01-29 23:41:42 公開日:2022-08-24
# 任意の媒体における量子光-物質相互作用のゲージ不変理論

Gauge-invariant theory of quantum light-matter interactions in arbitrary media ( http://arxiv.org/abs/2208.11796v1 )

ライセンス: Link先を確認
Chris Gustin, Sebastian Franke, Stephen Hughes(参考訳) 物質とフォトニック空間の切り離しから生じる光間相互作用のモデルにおけるゲージ不変性の喪失は、物質と光が強く混ざり合わさった場合、従来の量子光学モデルにとって重大な課題となる。 構造フォトニック環境においては、強い光-物質結合を実現するために、媒体内の場の量子化の厳密なモデルも必要である。 ここでは、任意の物質系の電場を、基本光源作用から始まる空間依存性の分散誘電体と吸収誘電体で定量化することにより、マクロQEDの枠組みを用いる。 標準量子化中に部分ゲージ固定制約を課すことでゲージ原理を尊重しながら、材料とモードの自由度を断定し、クーロンや多極ゲージを含む多数のゲージを許容する。 また、時間依存性を明示したゲージ条件も考慮し、任意のゲージに現象論的に時間依存性の光-物質相互作用を導入することができる。 この結果により、ゲージのあいまいさを伴わない構造フォトニック環境における超強光-物質相互作用の厳密なモデルが導出できる。 双極子近似と双極子近似の結果と、有効単一粒子モデルに対する双極子近似を超える方法について議論した。 分散と吸収を無視し、誘電体の一般化された逆固有関数を用いて場を拡大できる不均質誘電体の極限ケースと比較することにより、損失のある系がさらなるゲージ曖昧性を導入する方法を示し、オープン量子系モデルに基本的な意味を持つと予測する。 最後に、単純なゲージ不変光検出モデルを用いて、モード切換系における可観測性がどのように曖昧さなく計算できるかを示す。

The loss of gauge invariance in models of light-matter interaction which arises from material and photonic space truncation can pose significant challenges to conventional quantum optical models when matter and light strongly hybridize. In structured photonic environments, necessary in practice to achieve strong light-matter coupling, a rigorous model of field quantization within the medium is also needed. Here, we use the framework of macroscopic QED by quantizing the fields in an arbitrary material system, with a spatially-dependent dispersive and absorptive dielectric, starting from a fundamental light-matter action. We truncate the material and mode degrees of freedom while respecting the gauge principle by imposing a partial gauge fixing constraint during canonical quantization, which admits a large number of gauges including the Coulomb and multipolar gauges. We also consider gauge conditions with explicit time-dependence, enabling us to unambiguously introduce phenomenologically time-dependent light-matter interactions in any gauge. Our results allow one to derive rigorous models of ultrastrong light-matter interactions in structured photonic environments with no gauge ambiguity. Results for two-level systems and the dipole approximation are discussed, as well as how to go beyond the dipole approximation for effective single-particle models. By comparing with the limiting case of an inhomogeneous dielectric, where dispersion and absorption can be neglected and the fields can be expanded in terms of the generalized transverse eigenfunctions of the dielectric, we show how lossy systems can introduce an additional gauge ambiguity, which we resolve and predict to have fundamental implications for open quantum system models. Finally, we show how observables in mode-truncated systems can be calculated without ambiguity by using a simple gauge-invariant photodetection model.
翻訳日:2023-01-29 23:41:16 公開日:2022-08-24
# 相対的な事実は存在しない。 リレーショナル量子力学は量子力学と相容れない

Relative facts do not exist. Relational Quantum Mechanics is Incompatible with Quantum Mechanics ( http://arxiv.org/abs/2208.11793v1 )

ライセンス: Link先を確認
Jay Lawrence, Marcin Markiewicz, Marek \.Zukowski(参考訳) 関係量子力学は、量子論の解釈として描かれる [arxiv:2109.09170, to appear in the history of interpretation of quantum physics]。 しかし、それは解釈ではなく、別の理論である。 標準量子論からの原理的な逸脱は (i)測定結果は、系$s$とオブザーバー$a$(標準量子力学において「予測定」と呼ばれるユニタリ過程)を絡む相互作用から生じる。 (ii)そのような結果が観察者$a$に対する「事実」であるが、前回の計測過程において$s$または$a$と相互作用していない別の観察者$b$とは事実ではない。 b$ システム $s\otimes a$ はまだ絡み合っている。 これらの条件を満たす相対的な事実が標準量子論と矛盾していることを示すGHZのような矛盾を導出する。

Relational Quantum Mechanics poses as an interpretation of the quantum theory [see arXiv:2109.09170, to appear in the Oxford Handbook of the History of Interpretation of Quantum Physics]. But it is not an interpretation - it is a different theory. Principle departures from standard quantum theory are that (i) measurement outcomes arise from interactions which entangle a system $S$ and an observer $A$ (a unitary process called a "premeasurement" in standard quantum mechanics), and that (ii) such an outcome is a "fact" relative to the observer $A$, but it is not a fact relative to another observer $B$ who has not interacted with $S$ or $A$ during the foregoing measurement process. For $B$ the system $S\otimes A$ remains entangled. We derive a GHZ-like contradiction showing that relative facts satisfying these conditions are inconsistent with standard quantum theory.
翻訳日:2023-01-29 23:40:49 公開日:2022-08-24
# advection-diffusion方程式の変分量子解による流体力学への応用

Variational Quantum Solutions to the Advection-Diffusion Equation for Applications in Fluid Dynamics ( http://arxiv.org/abs/2208.11780v1 )

ライセンス: Link先を確認
Reuben Demirdjian, Daniel Gunlycke, Carolyn A. Reynolds, James D. Doyle, Sergio Tafur(参考訳) 電力消費と計算パワーの制約は、古典的な計算手法による数値気象予測のスキルを制限する。 量子コンピューティングは、これらの課題の両方に対処できる可能性がある。 本稿では,量子コンピューティングを利用した流体力学計算を行う一つの方法を提案する。 このハイブリッド量子古典法は、いくつかのアルゴリズムを組み合わせて、ベクトル空間の次元と対数的にスケールし、関心の系を記述する線形作用素を特定するユニタリ作用素の線形結合における非ゼロ項の数と2次的にスケールする。 実演として,IBM量子コンピュータを用いた小型システムの対流拡散方程式の解法を提案する。 この方程式の信頼性のある解は、今日利用可能なノイズの多い量子コンピュータでも得られる。 量子コンピュータを利用する他の手法は、量子ハードウェアの改善が進むにつれて、数値的な天気予報における従来の方法を置き換える可能性がある。

Constraints in power consumption and computational power limit the skill of operational numerical weather prediction by classical computing methods. Quantum computing could potentially address both of these challenges. Herein, we present one method to perform fluid dynamics calculations that takes advantage of quantum computing. This hybrid quantum-classical method, which combines several algorithms, scales logarithmically with the dimension of the vector space and quadratically with the number of nonzero terms in the linear combination of unitary operators that specifies the linear operator describing the system of interest. As a demonstration, we apply our method to solve the advection-diffusion equation for a small system using IBM quantum computers. We find that reliable solutions of the equation can be obtained on even the noisy quantum computers available today. This and other methods that exploit quantum computers could replace some of our traditional methods in numerical weather prediction as quantum hardware continues to improve.
翻訳日:2023-01-29 23:39:58 公開日:2022-08-24
# 分散時変媒体の固有パルス

Eigenpulses of dispersive time-varying media ( http://arxiv.org/abs/2208.11778v1 )

ライセンス: Link先を確認
S. A. R. Horsley, E. Galiffi, Y.-T. Wang(参考訳) 我々は、様々な時間変化の分散材料に適用可能なコンパクト理論を開発する。 連続波反射と透過係数は等価作用素式に置き換えられる。 このアプローチを既存の数値的・解析的手法と比較することに加えて、これらの演算子の固有関数は、時間変化した分散材料と相互作用した後にスペクトルを変化させないパルスを表すことを発見した。 さらに、これらの作用素の極は系の非時間調和境界状態を表す。

We develop a compact theory that can be applied to a variety of time-varying dispersive materials. The continuous wave reflection and transmission coefficients are replaced with equivalent operator expressions. In addition to comparing this approach to existing numerical and analytical techniques, we find that the eigenfunctions of these operators represent pulses that do not change their spectra after interaction with the time-varying, dispersive material. In addition, the poles of these operators represent the non-time harmonic bound states of the system.
翻訳日:2023-01-29 23:39:43 公開日:2022-08-24
# ほぼ特異な超伝導回路の一貫性量子化

Consistent Quantization of Nearly Singular Superconducting Circuits ( http://arxiv.org/abs/2208.11767v1 )

ライセンス: Link先を確認
Martin Rymarz, David P. DiVincenzo(参考訳) 回路量子力学の理論は古典ラグランジアンと対応する量子化ハミルトニアンに基づいて超伝導回路を解析し、これらの回路を記述している。 これらのネットワークの多くの単純化されたバージョンでは、モデリングには特異なラグランジアンが含まれ、本質的に制約されたシステムを記述する。 本研究では,現実的,ほぼ特異な超伝導回路の量子化に対するディラック・ベルグマン理論の失敗を実演する。 近似特異系の正しい処理には摂動ボルン-オッペンハイマー解析が含まれる。 加藤レーヒ理論を用いて、対応する摂動理論の有効性を厳密に証明する。 この正規化解析の特異極限は、多くの場合、特異理論とは全く異なるものである。 ディラック=ベルクマンは、キルヒホフの法則(およびテレーゲンの法則)を用いて制約を扱い、非線形回路要素(例えばジョセフソンインダクタンス)の詳細なパラメータに依存するダイナミクスを予測する。 対照的に、正規化ボルン・オッペンハイマー法から得られる低エネルギー力学の極限挙動は、寄生容量値がゼロになるにつれて、いくつかの普遍的固定点の1つに流れる固定点構造を示す。

The theory of circuit quantum electrodynamics has successfully analyzed superconducting circuits on the basis of the classical Lagrangian, and the corresponding quantized Hamiltonian, describing these circuits. In many simplified versions of these networks, the modeling involves a Lagrangian that is singular, describing an inherently constrained system. In this work, we demonstrate the failure of the Dirac-Bergmann theory for the quantization of realistic, nearly singular superconducting circuits, both reciprocal and nonreciprocal. The correct treatment of nearly singular systems involves a perturbative Born-Oppenheimer analysis. We rigorously prove the validity of the corresponding perturbation theory using Kato-Rellich theory. We find that the singular limit of this regularized analysis is, in many cases, completely unlike the singular theory. Dirac-Bergmann, which uses the Kirchhoff's (and Tellegen's) laws to deal with constraints, predicts dynamics that depend on the detailed parameters of nonlinear circuit elements, e.g., Josephson inductances. By contrast, the limiting behavior of the low-energy dynamics obtained from the regularized Born-Oppenheimer approach exhibits a fixed point structure, flowing to one of a few universal fixed points as parasitic capacitance values go to zero.
翻訳日:2023-01-29 23:39:36 公開日:2022-08-24
# 編み物・動き・トポロジカル量子コンピューティング

Braids, Motions and Topological Quantum Computing ( http://arxiv.org/abs/2208.11762v1 )

ライセンス: Link先を確認
Eric C. Rowell(参考訳) 量子計算のトポロジカルモデル(英語版)は、本質的にトポロジカルな物質相の任意のオン上に構築されたフォールトトレラントモデルである。 ブレイド群は重要な役割を担っており、本研究ではブレイドの数学的研究が理論にとって重要である方法の選択に焦点を当てる。 簡単な歴史的文脈も提供し、物理的な文脈でブレイディングが現れることを強調しています。 また,ブレイディングの3次元一般化についても簡単に論じる。

The topological model for quantum computation is an inherently fault-tolerant model built on anyons in topological phases of matter. A key role is played by the braid group, and in this survey we focus on a selection of ways that the mathematical study of braids is crucial for the theory. We provide some brief historical context as well, emphasizing ways that braiding appears in physical contexts. We also briefly discuss the 3-dimensional generalization of braiding: motions of knots.
翻訳日:2023-01-29 23:39:14 公開日:2022-08-24
# サブkHz機械共振器の磁気冷却と振動分離

Magnetic cooling and vibration isolation of a sub-kHz mechanical resonator ( http://arxiv.org/abs/2208.11750v1 )

ライセンス: Link先を確認
Bernard van Heck, Tim Fuchs, Jaimy Plugge, Wim A. Bosch, and Tjerk H. Oosterkamp(参考訳) 量子力学の機械的試験に用いる乾式希釈冷凍機の下段におけるサブmK, 低振動環境の実現に向けた最近の進展を報告する。 断熱型核磁気デマグネットを用いてシリコンカンチレバー力センサを冷却し,1$T\approx 1$ mKとした。 カンチレバーチップの先端保持者の温度は一次磁束ノイズ温度計を用いて決定された。 カンチレバーの品質因子は温度の低下とともに上昇し続け、mk$2で約4\cdot 10^4$に達する。 振動分離が損なわれないことを示すため,SQUIDリードアウト回路との結合によりのみ,カンチレバーの熱運動を$T \approx 20$ mKまで検出したことを報告した。 連続的自発的局所化モデルのパラメータ空間の未探索領域を探索できる実現可能な改善について論じる。

We report recent progress towards the realization of a sub-mK, low-vibration environment at the bottom stage of a dry dilution refrigerator for use in mechanical tests of quantum mechanics. Using adiabatic nuclear demagnetization, we have cooled a silicon cantilever force sensor to $T\approx 1$ mK. The temperature of the tip-holder of the cantilever chip was determined via a primary magnetic flux noise thermometer. The quality factor of the cantilever continues to increase with decreasing temperature, reaching $Q\approx 4\cdot 10^4$ at $2$ mK. To demonstrate that the vibration isolation is not compromised, we report the detection of the thermal motion of the cantilever down to $T \approx 20$ mK, only limited by the coupling to the SQUID readout circuit. We discuss feasible improvements that will allow us to probe unexplored regions of the parameter space of continuous spontaneous localization models.
翻訳日:2023-01-29 23:39:06 公開日:2022-08-24
# Mech-Elites:GVGAIのメカニックスペースのイルミネーション

Mech-Elites: Illuminating the Mechanic Space of GVGAI ( http://arxiv.org/abs/2002.04733v2 )

ライセンス: Link先を確認
M Charity, Michael Cerny Green, Ahmed Khalifa, Julian Togelius(参考訳) 本稿では,汎用ゲームレベル生成のためのメカニック照明の完全自動手法を提案する。 制約付きmap-elitesアルゴリズムとgvg-aiフレームワークを使用して、このシステムはゲーム力学の特定のセットを含む最も単純なタイルベースのレベルを生成し、遊びやすさの制約も満たします。 本手法を用いて,GVG-AI(Zelda, Solarfox, Plants, RealPortals)の4ドルの異なるゲームに対して,メカニック空間を照明する。

This paper introduces a fully automatic method of mechanic illumination for general video game level generation. Using the Constrained MAP-Elites algorithm and the GVG-AI framework, this system generates the simplest tile based levels that contain specific sets of game mechanics and also satisfy playability constraints. We apply this method to illuminate mechanic space for $4$ different games in GVG-AI: Zelda, Solarfox, Plants, and RealPortals.
翻訳日:2023-01-02 02:23:17 公開日:2022-08-24
# Conjunctive Queries: ユニークな特徴と実行可能性

Conjunctive Queries: Unique Characterizations and Exact Learnability ( http://arxiv.org/abs/2008.06824v4 )

ライセンス: Link先を確認
Balder ten Cate and Victor Dalmau(参考訳) 共役クエリが一意に特徴付けられる質問には、多項式的に多くの正と負の例と、そのような例を効率的に構築する方法がある。 その結果,結合性問合せのクラスに対して,新しい効率的な完全学習アルゴリズムが得られた。 我々の貢献の中核は、有限構造の準同型格子におけるフロンティアを構築するための2つの新しい多項式時間アルゴリズムである。 また,スキーママッピングと記述論理概念のユニークな特徴性と学習可能性について考察する。

We answer the question which conjunctive queries are uniquely characterized by polynomially many positive and negative examples, and how to construct such examples efficiently. As a consequence, we obtain a new efficient exact learning algorithm for a class of conjunctive queries. At the core of our contributions lie two new polynomial-time algorithms for constructing frontiers in the homomorphism lattice of finite structures. We also discuss implications for the unique characterizability and learnability of schema mappings and of description logic concepts.
翻訳日:2022-10-28 12:08:26 公開日:2022-08-24
# 弱教師付き異方性生成因果表現学習

Weakly Supervised Disentangled Generative Causal Representation Learning ( http://arxiv.org/abs/2010.02637v3 )

ライセンス: Link先を確認
Xinwei Shen, Furui Liu, Hanze Dong, Qing Lian, Zhitang Chen, and Tong Zhang(参考訳) 本稿では,適切な教師付き情報の下でのDEAR学習手法を提案する。 潜在変数の独立性を強制する既存の不連続化法とは異なり、興味の根底にある要因が因果関係にある場合を考える。 本研究は, 従来手法では, 監督下においても, 因果関係の要因を解消できないことを示す。 そこで本研究では、因果制御可能な生成と因果表現学習を可能にするDEARと呼ばれる非絡み合い学習手法を提案する。 この新定式化の鍵となる要素は、双方向生成モデルの事前分布として構造因果モデル(SCM)を使用することである。 前者は生成器とエンコーダと共同で学習し,その基礎となる因果構造に関する教師付き情報を組み込んだ適切なGANアルゴリズムを用いて学習する。 提案手法の同定可能性および漸近収束に関する理論的正当性を提供する。 我々は,合成データと実データの両方について広範な実験を行い,causal controllable generationにおけるdearの有効性と,サンプル効率と分布的ロバスト性の観点から下流タスクにおける学習表現の効果を実証した。

This paper proposes a Disentangled gEnerative cAusal Representation (DEAR) learning method under appropriate supervised information. Unlike existing disentanglement methods that enforce independence of the latent variables, we consider the general case where the underlying factors of interests can be causally related. We show that previous methods with independent priors fail to disentangle causally related factors even under supervision. Motivated by this finding, we propose a new disentangled learning method called DEAR that enables causal controllable generation and causal representation learning. The key ingredient of this new formulation is to use a structural causal model (SCM) as the prior distribution for a bidirectional generative model. The prior is then trained jointly with a generator and an encoder using a suitable GAN algorithm incorporated with supervised information on the ground-truth factors and their underlying causal structure. We provide theoretical justification on the identifiability and asymptotic convergence of the proposed method. We conduct extensive experiments on both synthesized and real data sets to demonstrate the effectiveness of DEAR in causal controllable generation, and the benefits of the learned representations for downstream tasks in terms of sample efficiency and distributional robustness.
翻訳日:2022-10-10 05:00:26 公開日:2022-08-24
# ツリーベース機械学習アルゴリズムを用いたグラフェン検出における画素ワイズ分類

Pixel-wise classification in graphene-detection with tree-based machine learning algorithms ( http://arxiv.org/abs/2209.07578v1 )

ライセンス: Link先を確認
Woon Hyung Cho, Jiseon Shin, Young Duck Kim, and George J. Jung(参考訳) グラフェンの機械的剥離とその光学的検査による同定は、2次元材料の分野を刺激する凝縮物質物理学のマイルストーンの1つである。 サンプル空間全体からの関心領域の発見と層番号の同定は、自動化に有効なルーチンタスクである。 我々は,GPUを使わずに短い計算時間を要する少数の訓練画像データセットであっても,高い性能を示す教師付き画素ワイズ分類法を提案する。 決定木、ランダムフォレスト、極端な勾配向上、光勾配向上マシンの4つの異なる木に基づく機械学習アルゴリズムを導入する。 グラフェンの光学顕微鏡画像5枚をトレーニングし、その性能を複数の指標と指標で評価する。 また、3つの単一分類器間の組合せ機械学習モデルについて議論し、識別と信頼性の評価を行う。 この論文で開発されたコードは公開されており、github.com/gjung-group/Graphene_segmentationでリリースされる。

Mechanical exfoliation of graphene and its identification by optical inspection is one of the milestones in condensed matter physics that sparked the field of 2D materials. Finding regions of interest from the entire sample space and identification of layer number is a routine task potentially amenable to automatization. We propose supervised pixel-wise classification methods showing a high performance even with a small number of training image datasets that require short computational time without GPU. We introduce four different tree-based machine learning algorithms -- decision tree, random forest, extreme gradient boost, and light gradient boosting machine. We train them with five optical microscopy images of graphene, and evaluate their performances with multiple metrics and indices. We also discuss combinatorial machine learning models between the three single classifiers and assess their performances in identification and reliability. The code developed in this paper is open to the public and will be released at github.com/gjung-group/Graphene_segmentation.
翻訳日:2022-09-25 17:56:35 公開日:2022-08-24
# きついか粗いか? ロバストな左利きアイトラッキング分類器のためのデータ複雑性のgoldilocks合成

Too Fine or Too Coarse? The Goldilocks Composition of Data Complexity for Robust Left-Right Eye-Tracking Classifiers ( http://arxiv.org/abs/2209.03761v1 )

ライセンス: Link先を確認
Brian Xiang and Abdelrahman Abdelmonsef(参考訳) ベンチマークデータと実世界のデータの分布パターンの違いは、眼球追跡(ET)分類に脳波(EEG)信号を使用する際の大きな課題の1つである。 したがって、脳波データから視線追跡位置を予測する機械学習モデルの堅牢性を高めることは、研究と消費者の両方にとって不可欠である。 従来,細粒データのみを訓練した分類器の性能と粗粒データのみを訓練した分類器の性能を比較した。 その結果, 実験群と訓練群が同一分布パターンである<cite{vector based} を含む場合, 粗粒トレーニングモデルと比較して, 全体としてロバスト性が向上したにもかかわらず, 細粒トレーニングモデルの性能は低下した。 本稿では,混合データ複雑度データセットを用いたモデルを用いて,微細・粗粒データの理想的な分布を決定することを目的とする。 微粒データと粗粒データの両方からなる混合データセットを用いて機械学習モデルを訓練し,その精度を粗粒データのみを用いて訓練したモデルと比較した。 本研究の目的は,より複雑な手法で収集されたデータと,より単純な手法で収集されたデータについて述べることである。 各トレーニングセットの感受性をテストするために,共変量分布シフトを適用した。 脳波-ET分類のための最適なトレーニングデータセットは、単に細粒度または粗粒度のデータからなるのではなく、より細粒度に傾いた2つのデータの組み合わせであることを示した。

The differences in distributional patterns between benchmark data and real-world data have been one of the main challenges of using electroencephalogram (EEG) signals for eye-tracking (ET) classification. Therefore, increasing the robustness of machine learning models in predicting eye-tracking positions from EEG data is integral for both research and consumer use. Previously, we compared the performance of classifiers trained solely on finer-grain data to those trained solely on coarse-grain. Results indicated that despite the overall improvement in robustness, the performance of the fine-grain trained models decreased, compared to coarse-grain trained models, when the testing and training set contained the same distributional patterns \cite{vectorbased}. This paper aims to address this case by training models using datasets of mixed data complexity to determine the ideal distribution of fine- and coarse-grain data. We train machine learning models utilizing a mixed dataset composed of both fine- and coarse-grain data and then compare the accuracies to models trained using solely fine- or coarse-grain data. For our purposes, finer-grain data refers to data collected using more complex methods whereas coarser-grain data refers to data collected using more simple methods. We apply covariate distributional shifts to test for the susceptibility of each training set. Our results indicated that the optimal training dataset for EEG-ET classification is not composed of solely fine- or coarse-grain data, but rather a mix of the two, leaning towards finer-grain.
翻訳日:2022-09-11 13:13:48 公開日:2022-08-24
# 相関クラスタリングのための4つのアルゴリズム:調査

Four Algorithms for Correlation Clustering: A Survey ( http://arxiv.org/abs/2208.12636v1 )

ライセンス: Link先を確認
Jafar Jafarov(参考訳) 相関クラスタリング問題では、一対の類似性情報を持つオブジェクトの集合が与えられる。 私たちの目標は、これらのオブジェクトを、可能な限りこの情報にマッチするクラスタに分割することにあります。 より具体的には、対情報は重み付きグラフ $G$ として与えられ、その辺は二進分類器によって ``similar' または ``dissimilar' とラベル付けられている。 目標は、クラスタ間の類似したエッジの重みとクラスタ内の異なるエッジの重みの和である`disagreements'の重みを最小化するクラスタリングを作ることだ。 この表現では、$g$ が完備かつ非重み付けである場合に焦点を当てます。 この仮定の下で相関クラスタリング問題に対する4つの近似アルゴリズムについて検討する。 特に,以下のアルゴリズムについて述べる。 (i)Bansal,Blum,Chawlaによる17429-$approximationアルゴリズム (ii)charikar,guruswami,wirthによる4ドル近似アルゴリズム (iii) Ailon, Charikar, Newmanによる3-$approximationアルゴリズム (iv) Chawla, Makarychev, Schramm, Yaroslavtsevによる2.06-$approximationアルゴリズム。

In the Correlation Clustering problem, we are given a set of objects with pairwise similarity information. Our aim is to partition these objects into clusters that match this information as closely as possible. More specifically, the pairwise information is given as a weighted graph $G$ with its edges labelled as ``similar" or ``dissimilar" by a binary classifier. The goal is to produce a clustering that minimizes the weight of ``disagreements": the sum of the weights of similar edges across clusters and dissimilar edges within clusters. In this exposition we focus on the case when $G$ is complete and unweighted. We explore four approximation algorithms for the Correlation Clustering problem under this assumption. In particular, we describe the following algorithms: (i) the $17429-$approximation algorithm by Bansal, Blum, and Chawla, (ii) the $4-$approximation algorithm by Charikar, Guruswami, and Wirth (iii) the $3-$approximation algorithm by Ailon, Charikar, and Newman (iv) the $2.06-$approximation algorithm by Chawla, Makarychev, Schramm, and Yaroslavtsev.
翻訳日:2022-08-29 13:36:22 公開日:2022-08-24
# 予測モデルにおける変換バイアスの同定と克服

Identifying and Overcoming Transformation Bias in Forecasting Models ( http://arxiv.org/abs/2208.12264v1 )

ライセンス: Link先を確認
Sushant More(参考訳) ターゲット変数のログおよび平方根変換は、将来の販売を予測するために予測モデルで日常的に使用される。 これらの変換は、しばしばより良いパフォーマンスモデルをもたらす。 しかし、彼らは体系的な負のバイアス(予測下)も導入している。 本稿では,このバイアスの存在を実証し,その根本原因を深く掘り下げ,バイアスを正す2つの方法を提案する。 その結果,提案手法はモデルの性能を最大50%向上させ,モデリングワークフローにバイアス補正を組み込む場合に有効であることがわかった。 また,コスト関数の ‘tweedie' ファミリーを実験し,販売を直接モデル化することで,変換バイアス問題を回避する。 結論として,tweedie回帰は,ターゲット変数の変換に対する強力な代替手段として,販売モデルをモデル化する上で,これまでのところ最高のパフォーマンスを提供する。

Log and square root transformations of target variable are routinely used in forecasting models to predict future sales. These transformations often lead to better performing models. However, they also introduce a systematic negative bias (under-forecasting). In this paper, we demonstrate the existence of this bias, dive deep into its root cause and introduce two methods to correct for the bias. We conclude that the proposed bias correction methods improve model performance (by up to 50%) and make a case for incorporating bias correction in modeling workflow. We also experiment with `Tweedie' family of cost functions which circumvents the transformation bias issue by modeling directly on sales. We conclude that Tweedie regression gives the best performance so far when modeling on sales making it a strong alternative to working with a transformed target variable.
翻訳日:2022-08-29 13:29:25 公開日:2022-08-24
# 複合現実感のためのフルボディビデオベースセルフアバター:E2Eシステムからユーザスタディへ

Full Body Video-Based Self-Avatars for Mixed Reality: from E2E System to User Study ( http://arxiv.org/abs/2208.12639v1 )

ライセンス: Link先を確認
Diego Gonzalez Morin, Ester Gonzalez-Sosa, Pablo Perez, and Alvaro Villegas(参考訳) 本研究は,mr(mixed reality)アプリケーションにおけるビデオパススルーを通じて,自己ヴァタールの創造について検討する。 商用ヘッドマウントディスプレイ(HMD)上のカスタムMRビデオパススルー実装、ディープラーニングに基づくリアルタイムエゴセントリックボディセグメンテーションアルゴリズム、および最適化されたオフロードアーキテクチャ、を含むエンドツーエンドシステムについて述べる。 この技術を検証するために私たちは、ユーザが活火山のクレーターの上の狭いタイルの道を歩かなければならない没入型vr体験をデザインしました。 本研究は,3つの身体表現条件(バーチャルハンド,カラーベースフルボディセグメンテーションによるビデオパススルー,ディープラーニングフルボディセグメンテーションによるビデオパススルー)で実施した。 この経験は30人の女性と28人の男性によって行われた。 我々の知る限りでは、MRシーンにおけるユーザを表現するためのビデオベースのセルフアバターの評価に焦点を当てた初めてのユーザスタディである。 その結果, 身体表現に有意差は認められなかったが, 仮想手と全身表現の間には中程度の改善が見られた。 視覚的品質は、全体知覚と全体セグメント化品質の観点から、ディープラーニングアルゴリズムによるより良い結果を示した。 我々は,ビデオベースのセルフアバターの使用に関する議論と,その評価方法についての考察を行った。 提案されたE2Eソリューションは、最先端技術の境界にあるため、成熟するまでに改善の余地は残っている。 しかしながら、このソリューションは、新しいmr分散ソリューションの重要な出発点となる。

In this work we explore the creation of self-avatars through video pass-through in Mixed Reality (MR) applications. We present our end-to-end system, including: custom MR video pass-through implementation on a commercial head mounted display (HMD), our deep learning-based real-time egocentric body segmentation algorithm, and our optimized offloading architecture, to communicate the segmentation server with the HMD. To validate this technology, we designed an immersive VR experience where the user has to walk through a narrow tiles path over an active volcano crater. The study was performed under three body representation conditions: virtual hands, video pass-through with color-based full-body segmentation and video pass-through with deep learning full-body segmentation. This immersive experience was carried out by 30 women and 28 men. To the best of our knowledge, this is the first user study focused on evaluating video-based self-avatars to represent the user in a MR scene. Results showed no significant differences between the different body representations in terms of presence, with moderate improvements in some Embodiment components between the virtual hands and full-body representations. Visual Quality results showed better results from the deep-learning algorithms in terms of the whole body perception and overall segmentation quality. We provide some discussion regarding the use of video-based self-avatars, and some reflections on the evaluation methodology. The proposed E2E solution is in the boundary of the state of the art, so there is still room for improvement before it reaches maturity. However, this solution serves as a crucial starting point for novel MR distributed solutions.
翻訳日:2022-08-29 13:06:31 公開日:2022-08-24
# 変圧器を用いたシーン表現学習による強化学習による自律運転意思決定

Augmenting Reinforcement Learning with Transformer-based Scene Representation Learning for Decision-making of Autonomous Driving ( http://arxiv.org/abs/2208.12263v1 )

ライセンス: Link先を確認
Haochen Liu, Zhiyu Huang, Xiaoyu Mo, and Chen Lv(参考訳) インタラクティブな交通参加者の確率的性質と道路構造の複雑さにより、都市自律運転の意思決定は困難である。 強化学習(rl)に基づく意思決定手法は都市運転のシナリオをうまく扱うことができるが、サンプル効率の低下と適応性の低下に苦しむ。 本稿では,シーン表現符号化と逐次予測潜在蒸留によりRL判定能力を向上させるScene-Rep Transformerを提案する。 具体的には、マルチステージトランスフォーマー(MST)エンコーダを構築し、エゴ車とその隣人間の相互作用意識だけでなく、エージェントとその候補経路間の相互作用意識をモデル化する。 自己教師型学習目標を持つシーケンシャル潜水変圧器(SLT)を用いて,将来の予測情報を潜水場表現に蒸留し,探索空間の低減とトレーニングの高速化を図る。 ソフトアクター・クリティック(SAC)に基づく最終決定モジュールは、Scene-Rep Transformerから精細化された潜在シーン表現を入力として駆動動作を出力する。 このフレームワークは、密集したトラフィックを伴う5つのシミュレート都市シナリオで検証され、その性能は、成功率、安全性、効率の観点から、データ効率とパフォーマンスの大幅な改善によって定量的に示される。 定性的な結果は、我々のフレームワークが近隣のエージェントの意図を抽出し、意思決定を助け、より多様な運転行動を提供できることを示している。

Decision-making for urban autonomous driving is challenging due to the stochastic nature of interactive traffic participants and the complexity of road structures. Although reinforcement learning (RL)-based decision-making scheme is promising to handle urban driving scenarios, it suffers from low sample efficiency and poor adaptability. In this paper, we propose Scene-Rep Transformer to improve the RL decision-making capabilities with better scene representation encoding and sequential predictive latent distillation. Specifically, a multi-stage Transformer (MST) encoder is constructed to model not only the interaction awareness between the ego vehicle and its neighbors but also intention awareness between the agents and their candidate routes. A sequential latent Transformer (SLT) with self-supervised learning objectives is employed to distill the future predictive information into the latent scene representation, in order to reduce the exploration space and speed up training. The final decision-making module based on soft actor-critic (SAC) takes as input the refined latent scene representation from the Scene-Rep Transformer and outputs driving actions. The framework is validated in five challenging simulated urban scenarios with dense traffic, and its performance is manifested quantitatively by the substantial improvements in data efficiency and performance in terms of success rate, safety, and efficiency. The qualitative results reveal that our framework is able to extract the intentions of neighbor agents to help make decisions and deliver more diversified driving behaviors.
翻訳日:2022-08-29 12:44:43 公開日:2022-08-24
# 公平さの限界を押し上げる:彼らの中で一番公平なのは誰か?

Pushing the limits of fairness impossibility: Who's the fairest of them all? ( http://arxiv.org/abs/2208.12606v1 )

ライセンス: Link先を確認
Brian Hsu, Rahul Mazumder, Preetam Nandy, Kinjal Basu(参考訳) 不合理性定理はアルゴリズム的公正文学の基礎的な結果である。 特別な場合以外では、不公平の3つの共通かつ直感的な定義、すなわち人口差パリティ、等化オッズ、予測率パリティを正確かつ同時に満たすことはできない。 この結果、ほとんどの作業がメトリクスの1つか2つのソリューションに集中するようになった。 本稿では,3つの指標を最大限に満たすために,不可能定理の限界を押し上げる枠組みを提案する。 本稿では,複数のフェアネス基準を同時に満たすための認証可能な最適後処理法を導出する整数プログラミングに基づく手法を提案する。 モデル性能を最小限に抑えつつ,各定義の公平性を両立できることを示す実験を行った。 我々はまた、モデル選択と公平性説明可能性のためのフレームワークの応用についても議論し、その結果、質問に答えようとしている。

The impossibility theorem of fairness is a foundational result in the algorithmic fairness literature. It states that outside of special cases, one cannot exactly and simultaneously satisfy all three common and intuitive definitions of fairness - demographic parity, equalized odds, and predictive rate parity. This result has driven most works to focus on solutions for one or two of the metrics. Rather than follow suit, in this paper we present a framework that pushes the limits of the impossibility theorem in order to satisfy all three metrics to the best extent possible. We develop an integer-programming based approach that can yield a certifiably optimal post-processing method for simultaneously satisfying multiple fairness criteria under small violations. We show experiments demonstrating that our post-processor can improve fairness across the different definitions simultaneously with minimal model performance reduction. We also discuss applications of our framework for model selection and fairness explainability, thereby attempting to answer the question: who's the fairest of them all?
翻訳日:2022-08-29 12:43:07 公開日:2022-08-24
# 学習者知識評価のための前提条件駆動Q行列再構成:オンライン学習文脈におけるケーススタディ

Prerequisite-driven Q-matrix Refinement for Learner Knowledge Assessment: A Case Study in Online Learning Context ( http://arxiv.org/abs/2208.12642v1 )

ライセンス: Link先を確認
Wenbin Gan and Yuan Sun(参考訳) オンライン学習プラットフォームにおける学習トレースの豊富さは、学習者知識アセスメント(lka)へのユニークな洞察を約束している。 学習者の知識の正確な評価には、細粒度のq行列が必要である。 主観的傾向のため、いくつかの誤用はLKAの性能を低下させる可能性がある。 小型のQ行列を改良する試みはいくつかあるが、スケーラビリティを拡張し、多数の項目と膨大なスキルを備えた大規模オンライン学習環境に適用することは困難である。 さらに、既存のLKAモデルは、このタスクに優れた柔軟なディープラーニングモデルを採用しているが、非常にスパースなアイテムスキルグラフ上のモデルの表現能力と学習者の運動データにより、LKAの妥当性は依然として疑問視されている。 本稿では,オンラインコンテキストにおける学習者知識評価(pqrlka)のための前提条件駆動型q行列改良フレームワークを提案する。 学習者の応答データから前提条件を推測し、専門家定義のQ行列を改良し、解釈可能性とスケーラビリティを大規模オンライン学習コンテキストに適用できるようにする。 改良されたq行列に基づいて,メタパス2vec強化畳み込み表現法を提案し,豊富な情報を持つ項目の包括的表現を取得し,pqrlkaモデルに与え,最終的に学習者の知識を評価する。 3つの実世界のデータセットで行った実験は、q行列の洗練に必要な前提条件を推測するモデルの能力と、lkaタスクの優位性を示している。

The ever growing abundance of learning traces in the online learning platforms promises unique insights into the learner knowledge assessment (LKA), a fundamental personalized-tutoring technique for enabling various further adaptive tutoring services in these platforms. Precise assessment of learner knowledge requires the fine-grained Q-matrix, which is generally designed by experts to map the items to skills in the domain. Due to the subjective tendency, some misspecifications may degrade the performance of LKA. Some efforts have been made to refine the small-scale Q-matrix, however, it is difficult to extend the scalability and apply these methods to the large-scale online learning context with numerous items and massive skills. Moreover, the existing LKA models employ flexible deep learning models that excel at this task, but the adequacy of LKA is still challenged by the representation capability of the models on the quite sparse item-skill graph and the learners' exercise data. To overcome these issues, in this paper we propose a prerequisite-driven Q-matrix refinement framework for learner knowledge assessment (PQRLKA) in online context. We infer the prerequisites from learners' response data and use it to refine the expert-defined Q-matrix, which enables the interpretability and the scalability to apply it to the large-scale online learning context. Based on the refined Q-matrix, we propose a Metapath2Vec enhanced convolutional representation method to obtain the comprehensive representations of the items with rich information, and feed them to the PQRLKA model to finally assess the learners' knowledge. Experiments conducted on three real-world datasets demonstrate the capability of our model to infer the prerequisites for Q-matrix refinement, and also its superiority for the LKA task.
翻訳日:2022-08-29 12:42:24 公開日:2022-08-24
# 古代の囲碁の理解を深めるためにディープラーニングAIを用いたパスのコスト

The cost of passing -- using deep learning AIs to expand our understanding of the ancient game of Go ( http://arxiv.org/abs/2208.12643v1 )

ライセンス: Link先を確認
Attila Egri-Nagy, Antti T\"orm\"anen(参考訳) ディープラーニングニューラルネットワークを利用するAIエンジンは、従来のボードゲームを分析する優れたツールを提供する。 ここでは、Goの古代のゲームに対する新たな洞察を得ることに興味があります。 その目的のために,エンジンの生出力に基づいて,新しい数値測度を定義する必要がある。 本稿では,コンテキストに敏感な方法で自動移動・移動性能評価とゲーム特徴の認識のための数値ツールを開発した。 石の現在の構成と同一基板位置における仮説パス後のスコア値の差である通過コストによる移動の緊急度を測定した。 ここでは、この測度の性質を調査し、いくつかの応用について述べる。

AI engines utilizing deep learning neural networks provide excellent tools for analyzing traditional board games. Here we are interested in gaining new insights into the ancient game of Go. For that purpose, we need to define new numerical measures based on the raw output of the engines. In this paper, we develop a numerical tool for automated move-by-move performance evaluation in a context-sensitive manner and for recognizing game features. We measure the urgency of a move by the cost of passing, which is the score value difference between the current configuration of stones and after a hypothetical pass in the same board position. Here we investigate the properties of this measure and describe some applications.
翻訳日:2022-08-29 12:38:28 公開日:2022-08-24
# スマートフォンカメラによるレース走行中の障害の自動検出-オリンピックメダリストと大学選手の比較-

Automatic detection of faults in race walking from a smartphone camera: a comparison of an Olympic medalist and university athletes ( http://arxiv.org/abs/2208.12646v1 )

ライセンス: Link先を確認
Tomohiro Suzuki, Kazuya Takeda, Keisuke Fujii(参考訳) 自動故障検出は多くのスポーツにおいて大きな課題である。 レースウォーキングでは、審判はルールに従って視覚的に欠陥を判断する。 したがって、判断しながら客観性と公平性を確保することが重要である。 この問題に対処するために、センサーと機械学習を使って障害を自動的に検出しようとする研究もある。 しかし,参照者の視覚的判断と矛盾する高速カメラなどのセンサアタッチメントや機器,故障検出モデルの解釈に問題がある。 本研究では,非接触計測のための故障検出システムを提案する。 我々は,複数の審判員の判断に基づいて訓練されたポーズ推定と機械学習モデルを用いて,公正な故障判定を実現した。 東京五輪のメダリストを含む選手数名を対象に,意識的障害を伴う通常のレースウォーキングやウォーキングのスマートフォンビデオを用いて検証を行った。 検証の結果,提案システムでは,平均精度90%以上の故障を検出できた。 また,レースウォーキングのルールに従って,機械学習モデルが故障を検出することも明らかにした。 また、メダリストの意図的欠陥歩行運動は大学の歩行者とは異なるものであった。 この発見は,より一般的な断層検出モデルの実現を示唆する。 コードとデータはhttps://github.com/szucchini/racewalk-aijudgeで入手できる。

Automatic fault detection is a major challenge in many sports. In race walking, referees visually judge faults according to the rules. Hence, ensuring objectivity and fairness while judging is important. To address this issue, some studies have attempted to use sensors and machine learning to automatically detect faults. However, there are problems associated with sensor attachments and equipment such as a high-speed camera, which conflict with the visual judgement of referees, and the interpretability of the fault detection models. In this study, we proposed a fault detection system for non-contact measurement. We used pose estimation and machine learning models trained based on the judgements of multiple qualified referees to realize fair fault judgement. We verified them using smartphone videos of normal race walking and walking with intentional faults in several athletes including the medalist of the Tokyo Olympics. The validation results show that the proposed system detected faults with an average accuracy of over 90%. We also revealed that the machine learning model detects faults according to the rules of race walking. In addition, the intentional faulty walking movement of the medalist was different from that of university walkers. This finding informs realization of a more general fault detection model. The code and data are available at https://github.com/SZucchini/racewalk-aijudge.
翻訳日:2022-08-29 12:25:39 公開日:2022-08-24
# TMIC:Teachable Machineからエクスポートされた画像分類モデルのデプロイのためのApp Inventorエクステンション

TMIC: App Inventor Extension for the Deployment of Image Classification Models Exported from Teachable Machine ( http://arxiv.org/abs/2208.12637v1 )

ライセンス: Link先を確認
Fabiano Pereira de Oliveira, Christiane Gresse von Wangenheim, Jean C. R. Hauck(参考訳) TMICは、Google Teachable Machineで開発された画像分類のためのMLモデルのデプロイのためのApp Inventorエクステンションである。 Google Teachable Machineは、イメージ分類のためのMLモデルの開発にワークフロー指向のサポートを提供する、直感的なビジュアルツールである。 Google Teachable Machineで開発されたモデルの利用を前提として、拡張TMICは、K-12でコンピューティングを教える最も人気のあるブロックベースのプログラミング環境であるApp Inventorの一部として、TensorFlow.jsとしてエクスポートされたトレーニング済みモデルをGoogle Cloudにデプロイすることを可能にする。 この拡張は、拡張PICに基づいたApp Inventor拡張フレームワークで作成され、BSD 3ライセンスの下で利用可能である。 k-12でのml教育、高等教育の入門コース、画像分類によるインテリジェントアプリの作成に興味のある人なら誰でも利用できる。 この拡張TMICは、K-12でAI教育を導入する研究の一環として、サンタカタリーナ・ブラジル連邦大学の情報学・統計学部門のComputa\c{c}\~ao na Escolaによって開発されている。

TMIC is an App Inventor extension for the deployment of ML models for image classification developed with Google Teachable Machine in educational settings. Google Teachable Machine, is an intuitive visual tool that provides workflow-oriented support for the development of ML models for image classification. Aiming at the usage of models developed with Google Teachable Machine, the extension TMIC enables the deployment of the trained models exported as TensorFlow.js to Google Cloud as part of App Inventor, one of the most popular block-based programming environments for teaching computing in K-12. The extension was created with the App Inventor extension framework based on the extension PIC and is available under the BSD 3 license. It can be used for teaching ML in K-12, in introductory courses in higher education or by anyone interested in creating intelligent apps with image classification. The extension TMIC is being developed by the initiative Computa\c{c}\~ao na Escola of the Department of Informatics and Statistics at the Federal University of Santa Catarina/Brazil as part of a research effort aiming at introducing AI education in K-12.
翻訳日:2022-08-29 12:25:22 公開日:2022-08-24
# 抗covid-193clプロテアーゼ薬様物質同定のためのハイブリッドアプローチ

Hybrid Approach to Identify Druglikeness Leading Compounds against COVID-19 3CL Protease ( http://arxiv.org/abs/2208.06362v3 )

ライセンス: Link先を確認
Imra Aqeel and Abdul Majid(参考訳) SARS-COV-2は正の単鎖RNAベースのマクロ分子であり、2022年6月以来630万人以上が死亡した。 さらに、ロックダウンを通じて世界的なサプライチェーンを乱すことで、間接的に世界経済に壊滅的な被害をもたらした。 このウイルスとその様々な変異体のための薬物の設計と開発が不可欠である。 そこで本研究では,Covid-19を治療する薬物様生物活性分子の発見に既存の治療薬を再利用する。 我々はChEMBLデータベースから抽出した分子にLipinskiの規則を適用し,SARSウイルス3CLプロテアーゼに対して133の薬物様生物活性分子を発見した。 標準IC50に基づいて、データセットはアクティブ、非アクティブ、中間の3つのクラスに分けられた。 比較分析の結果,提案したETRベースQSARモデルでは,化学化合物の生物活性に関する予測結果が,グラディエントブースティング,XGBoost,サポートベクター,決定木,ランダムフォレストベース回帰モデルと比較された。 ADMET分析により、ChEMBL ID187460, 190743, 222234, 222628, 222735, 222769, 222840, 222893, 225515, 358279, 363535, 365134, 426898の13個の生物活性分子を同定した。 これらの分子はSARS-COV-2 3CLプロテアーゼに非常に適した薬物候補である。 次のステップでは、生物活性分子の有効性を分子ドッキングを用いて結合親和性を用いて計算し、ChEMBL ID 187460, 222769, 225515, 358279, 363535, 365134で6つの生物活性分子をショートリスト化した。 これらの分子はSARS-COV-2の薬物候補に適している。 SARS-COV-2に適した薬物候補を見つけるために、薬理学/薬物製造者がこれらの6つの分子をさらに調査することが期待されている。 これらの有望な化合物を下流の薬物開発段階に採用することができる。

SARS-COV-2 is a positive single-strand RNA-based macromolecule that has caused the death of more than 6.3 million people since June 2022. Moreover, by disturbing global supply chains through lockdown, the virus has indirectly caused devastating damage to the global economy. It is vital to design and develop drugs for this virus and its various variants. In this paper, we developed an in-silico study-based hybrid framework to repurpose existing therapeutic agents in finding drug-like bioactive molecules that would cure Covid-19. We employed the Lipinski rules on the retrieved molecules from the ChEMBL database and found 133 drug-likeness bioactive molecules against SARS coronavirus 3CL Protease. Based on standard IC50, the dataset was divided into three classes active, inactive, and intermediate. Our comparative analysis demonstrated that the proposed Extra Tree Regressor (ETR) based QSAR model has improved prediction results related to the bioactivity of chemical compounds as compared to Gradient Boosting, XGBoost, Support Vector, Decision Tree, and Random Forest based regressor models. ADMET analysis is carried out to identify thirteen bioactive molecules with ChEMBL IDs 187460, 190743, 222234, 222628, 222735, 222769, 222840, 222893, 225515, 358279, 363535, 365134 and 426898. These molecules are highly suitable drug candidates for SARS-COV-2 3CL Protease. In the next step, the efficacy of bioactive molecules is computed in terms of binding affinity using molecular docking and then shortlisted six bioactive molecules with ChEMBL IDs 187460, 222769, 225515, 358279, 363535, and 365134. These molecules can be suitable drug candidates for SARS-COV-2. It is anticipated that the pharmacologist/drug manufacturer would further investigate these six molecules to find suitable drug candidates for SARS-COV-2. They can adopt these promising compounds for their downstream drug development stages.
翻訳日:2022-08-28 22:29:38 公開日:2022-08-24
# ニューラルネットワークを用いた混合整数計画のための生涯学習

Lifelong Learning for Neural powered Mixed Integer Programming ( http://arxiv.org/abs/2208.12226v1 )

ライセンス: Link先を確認
Sahil Manchanda, Sayan Ranu(参考訳) 混合整数プログラム(mips)は一般に分岐・境界アルゴリズムによって解かれる。 近年,MIPの解決に要する実行時間を短縮することに成功したため,専門家の強い分岐ヒューリスティックの高速近似を模倣する学習が注目されている。 しかし、既存の学習とブランチの手法では、トレーニングデータ全体が単一のトレーニングセッションで利用できると仮定している。 この仮定はしばしば真実ではなく、トレーニングデータが連続的に供給された場合、既存のテクニックは破滅的な忘れがちである。 本研究では,混合整数プログラムの分岐に対する生涯学習の未探索パラダイムについて検討する。 破滅的な忘れを緩和するために,二部グラフの形でMIPインスタンスをモデル化し,二部グラフアテンションネットワークを用いて埋め込み空間にマップするLIMIPを提案する。 このリッチな埋め込み空間は、知識蒸留と弾性重み付けの応用による破滅的な忘れ込みを回避し、有効性を維持するためのパラメーターを学習し、したがって大きなドリフトから保護される。 我々は,NP-hard問題に対するLIMIPの評価を行い,既存のベースラインと比較すると,生涯学習に直面すると,LIMIPが最大50%向上することが確認された。

Mixed Integer programs (MIPs) are typically solved by the Branch-and-Bound algorithm. Recently, Learning to imitate fast approximations of the expert strong branching heuristic has gained attention due to its success in reducing the running time for solving MIPs. However, existing learning-to-branch methods assume that the entire training data is available in a single session of training. This assumption is often not true, and if the training data is supplied in continual fashion over time, existing techniques suffer from catastrophic forgetting. In this work, we study the hitherto unexplored paradigm of Lifelong Learning to Branch on Mixed Integer Programs. To mitigate catastrophic forgetting, we propose LIMIP, which is powered by the idea of modeling an MIP instance in the form of a bipartite graph, which we map to an embedding space using a bipartite Graph Attention Network. This rich embedding space avoids catastrophic forgetting through the application of knowledge distillation and elastic weight consolidation, wherein we learn the parameters key towards retaining efficacy and are therefore protected from significant drift. We evaluate LIMIP on a series of NP-hard problems and establish that in comparison to existing baselines, LIMIP is up to 50% better when confronted with lifelong learning.
翻訳日:2022-08-26 14:05:19 公開日:2022-08-24
# EEG4Students:EEGデータ収集と機械学習分析のための実験設計

EEG4Students: An Experimental Design for EEG Data Collection and Machine Learning Analysis ( http://arxiv.org/abs/2208.11743v1 )

ライセンス: Link先を確認
Guangyao Dou, Zheng Zhou(参考訳) 機械学習とディープラーニングを使って脳波(EEG)信号から認知タスクを予測することは、Brain-Computer Interfaces(BCI)において急速に発展している分野である。 しかし、新型コロナウイルス(COVID-19)パンデミックの間、データ収集と分析がより困難になる可能性がある。 パンデミック時の遠隔実験は,いくつかの課題を生じさせ,その解決策を考察する。 本稿では,BCI分類タスクのためのパーソナルコンピュータ上で効率的に動作する機械学習アルゴリズムについて検討する。 その結果,Random Forest と RBF SVM は脳波分類タスクにおいて良好に動作することがわかった。 さらに,手頃な価格の消費者グレードデバイスを用いて,脳波に基づくbciデータを収集するbci実験の実施方法について検討する。 また、このようなデータ収集のガイドラインに興味のある非専門家に許可するデータ収集プロトコルeeg4studentsを開発した。 私たちのコードとデータはhttps://github.com/GuangyaoDou/EEG4Students.comで確認できます。

Using Machine Learning and Deep Learning to predict cognitive tasks from electroencephalography (EEG) signals has been a fast-developing area in Brain-Computer Interfaces (BCI). However, during the COVID-19 pandemic, data collection and analysis could be more challenging. The remote experiment during the pandemic yields several challenges, and we discuss the possible solutions. This paper explores machine learning algorithms that can run efficiently on personal computers for BCI classification tasks. The results show that Random Forest and RBF SVM perform well for EEG classification tasks. Furthermore, we investigate how to conduct such BCI experiments using affordable consumer-grade devices to collect EEG-based BCI data. In addition, we have developed the data collection protocol, EEG4Students, that grants non-experts who are interested in a guideline for such data collection. Our code and data can be found at https://github.com/GuangyaoDou/EEG4Students.
翻訳日:2022-08-26 13:53:13 公開日:2022-08-24
# 脳が文字通りコンピュータであると考える(そしてなぜか)

How (and Why) to Think that the Brain is Literally a Computer ( http://arxiv.org/abs/2208.12032v1 )

ライセンス: Link先を確認
Corey J. Maley(参考訳) 脳とコンピュータの間の関係は、しばしば単なるメタファーとして捉えられる。 しかし、真の計算システムは事実上あらゆるメディアで実装できるため、脳が文字通り計算するという考えを真剣に考えることができる。 しかし、物理系を真の計算系にするための経験的基準がなければ、計算は、特に自然システム(例えば脳)において、コンピュータとして明示的に設計され、設計されていない視点に留まります。 アナログとデジタル、現代と歴史的の両方の物理的なコンピュータの実例からの考察は、これらの経験的基準が何であるかを明確にする。 そして最後に、これらの基準を脳に適用することで、脳をコンピュータ(おそらくはアナログのもの)として見ることができることを示す。

The relationship between brains and computers is often taken to be merely metaphorical. However, genuine computational systems can be implemented in virtually any media; thus, one can take seriously the view that brains literally compute. But without empirical criteria for what makes a physical system genuinely a computational one, computation remains a matter of perspective, especially for natural systems (e.g., brains) that were not explicitly designed and engineered to be computers. Considerations from real examples of physical computers-both analog and digital, contemporary and historical-make clear what those empirical criteria must be. Finally, applying those criteria to the brain shows how we can view the brain as a computer (probably an analog one at that), which, in turn, illuminates how that claim is both informative and falsifiable.
翻訳日:2022-08-26 13:49:38 公開日:2022-08-24
# IndicSUPERB:インドの言語のための音声処理ユニバーサルパフォーマンスベンチマーク

IndicSUPERB: A Speech Processing Universal Performance Benchmark for Indian languages ( http://arxiv.org/abs/2208.11761v1 )

ライセンス: Link先を確認
Tahir Javed, Kaushal Santosh Bhogale, Abhigyan Raman, Anoop Kunchukuttan, Pratyush Kumar, Mitesh M. Khapra(参考訳) AI研究の要点は、最先端モデルの進歩を示すために標準化されたトレーニングとテストデータセットの作成と採用である。 特に成功した例は、自然言語理解(NLU)モデルを英語でトレーニングし評価するためのGLUEデータセットである。 自己教師型BERTベースの言語モデルに関する大規模な研究は、GLUEにおけるNLUタスクのパフォーマンス改善を中心に展開された。 他の言語で言語モデルを評価するために、言語固有のGLUEデータセットが複数作成されている。 言語理解の領域(SLU)も同様の軌跡を辿っている。 wav2vec2のような大規模自己教師型モデルの成功は、比較的容易に非競合データにアクセス可能な音声モデルの作成を可能にする。 これらのモデルは、SUPERBベンチマークのようなSLUタスクで評価することができる。 本稿では、IndicSUPERBベンチマークをリリースして、これをIndic言語に拡張する。 具体的には、以下の3つのコントリビューションを行います。 (i)インドの203地区に1218名のコントリビュータから12言語に1,684時間のラベル付き音声データを含むKathbathを収集した。 (i)Kathbathを用いて、自動音声認識、話者検証、話者識別(mono/multi)、言語識別、クエリバイ例、キーワードスポッティングの6つのタスクにまたがるベンチマークを作成する。 (iii) リリースされたベンチマークでは、よく使われるベースラインFBANKとともに、異なる自己教師型モデルを訓練し、評価する。 言語特定タスクの76.%という大きなギャップを含む,タスクのベースラインよりも,言語固有の微調整モデルの方が精度が高いことを示す。 しかし、話者識別には、大規模なデータセットで訓練された自己教師付きモデルが有利である。 IndicSUPERBがインド語の言語理解モデルの開発に寄与することを願っている。

A cornerstone in AI research has been the creation and adoption of standardized training and test datasets to earmark the progress of state-of-the-art models. A particularly successful example is the GLUE dataset for training and evaluating Natural Language Understanding (NLU) models for English. The large body of research around self-supervised BERT-based language models revolved around performance improvements on NLU tasks in GLUE. To evaluate language models in other languages, several language-specific GLUE datasets were created. The area of speech language understanding (SLU) has followed a similar trajectory. The success of large self-supervised models such as wav2vec2 enable creation of speech models with relatively easy to access unlabelled data. These models can then be evaluated on SLU tasks, such as the SUPERB benchmark. In this work, we extend this to Indic languages by releasing the IndicSUPERB benchmark. Specifically, we make the following three contributions. (i) We collect Kathbath containing 1,684 hours of labelled speech data across 12 Indian languages from 1,218 contributors located in 203 districts in India. (ii) Using Kathbath, we create benchmarks across 6 speech tasks: Automatic Speech Recognition, Speaker Verification, Speaker Identification (mono/multi), Language Identification, Query By Example, and Keyword Spotting for 12 languages. (iii) On the released benchmarks, we train and evaluate different self-supervised models alongside a commonly used baseline FBANK. We show that language-specific fine-tuned models are more accurate than baseline on most of the tasks, including a large gap of 76\% for the Language Identification task. However, for speaker identification, self-supervised models trained on large datasets demonstrate an advantage. We hope IndicSUPERB contributes to the progress of developing speech language understanding models for Indian languages.
翻訳日:2022-08-26 13:48:39 公開日:2022-08-24
# 鑑識ツールの開発と評価のための顔操作の包括的データセット

Comprehensive Dataset of Face Manipulations for Development and Evaluation of Forensic Tools ( http://arxiv.org/abs/2208.11776v1 )

ライセンス: Link先を確認
Brian DeCann and Kirill Trapeznikov(参考訳) デジタルメディア(例えば写真、ビデオ)は簡単に作成、編集、共有することができる。 デジタルメディアを編集するためのツールは、高度な写真リアリズムを維持しながら、それを実現できる。 デジタルメディアへの多くのタイプの編集は一般的に良質であるが、悪意のある目的にも適用できる。 最先端の顔編集ツールやソフトウェアは、例えば、不透明な時間に人を笑わせたり、権威ある人物を個人を識別するために虚弱で疲れたものとして描写したりすることができる。 デジタルメディアの編集の容易さと誤用による潜在的なリスクを考えると、メディア法医学に多大な努力がかけられている。 そこで我々は,デジタルメディアの真正性に対処し,分類するための新しいアプローチを開発する研究コミュニティを支援するために,編集された顔画像のデータセットを作成した。 私たちのデータセットには、コントロールされたポートレートスタイルの正面顔画像に適用される編集や、複数の顔(つまり複数の顔)を含む全シーンの画像が含まれています。 データセットの目的は,次の課題に対処することである。(1) 与えられた画像の真正性(編集検出)を決定できるか? (2) 画像が編集された場合、編集領域は \textit{localize} できますか? (3) 画像が編集された場合、どの編集タイプが実行されたか(分類)できますか? 画像鑑識の研究の大多数は、(1)、検出に答えようとする。 我々の知る限り、アイテム(2)と(3)、ローカライゼーションと分類を評価するために特別にキュレートされた正式なデータセットは存在しない。 私たちの希望は、これらの課題に係わる画像鑑識の最先端技術を改善するために、我々の評価プロトコルが研究者を支援することである。

Digital media (e.g., photographs, video) can be easily created, edited, and shared. Tools for editing digital media are capable of doing so while also maintaining a high degree of photo-realism. While many types of edits to digital media are generally benign, others can also be applied for malicious purposes. State-of-the-art face editing tools and software can, for example, artificially make a person appear to be smiling at an inopportune time, or depict authority figures as frail and tired in order to discredit individuals. Given the increasing ease of editing digital media and the potential risks from misuse, a substantial amount of effort has gone into media forensics. To this end, we created a challenge dataset of edited facial images to assist the research community in developing novel approaches to address and classify the authenticity of digital media. Our dataset includes edits applied to controlled, portrait-style frontal face images and full-scene in-the-wild images that may include multiple (i.e., more than one) face per image. The goals of our dataset is to address the following challenge questions: (1) Can we determine the authenticity of a given image (edit detection)? (2) If an image has been edited, can we \textit{localize} the edit region? (3) If an image has been edited, can we deduce (classify) what edit type was performed? The majority of research in image forensics generally attempts to answer item (1), detection. To the best of our knowledge, there are no formal datasets specifically curated to evaluate items (2) and (3), localization and classification, respectively. Our hope is that our prepared evaluation protocol will assist researchers in improving the state-of-the-art in image forensics as they pertain to these challenges.
翻訳日:2022-08-26 13:48:17 公開日:2022-08-24
# 深部教師付き3次元セグメンテーションモデルを用いたマルチモダリティ腹部マルチオルガンセグメンテーション

Multi-Modality Abdominal Multi-Organ Segmentation with Deep Supervised 3D Segmentation Model ( http://arxiv.org/abs/2208.12041v1 )

ライセンス: Link先を確認
Satoshi Kondo, Satoshi Kasai(参考訳) 医用画像セグメンテーション技術の開発を促進するため、多目的な医用画像セグメンテーションのための大規模腹腔多臓器データセットであるAMOSが提供され、このデータセットを用いてAMOS 2022チャレンジを行う。 本稿では,AMOS 2022の課題に対する解決策を提案する。 我々は、ベースモデルとして、ディープスーパービジョンを備えた残留U-Netを採用している。 実験の結果,Dice類似度係数と正規化表面ダイスの平均スコアはそれぞれ0.8504,0.8476であり,CT/MRIでは0.8476であった。

To promote the development of medical image segmentation technology, AMOS, a large-scale abdominal multi-organ dataset for versatile medical image segmentation, is provided and AMOS 2022 challenge is held by using the dataset. In this report, we present our solution for the AMOS 2022 challenge. We employ residual U-Net with deep super vision as our base model. The experimental results show that the mean scores of Dice similarity coefficient and normalized surface dice are 0.8504 and 0.8476 for CT only task and CT/MRI task, respectively.
翻訳日:2022-08-26 13:46:53 公開日:2022-08-24
# データサイエンス予測のためのオープンソース自動化ツールの調査

A Survey of Open Source Automation Tools for Data Science Predictions ( http://arxiv.org/abs/2208.11792v1 )

ライセンス: Link先を確認
Nicholas Hoell(参考訳) 本稿では,データサイエンス予測ライフサイクルのさまざまな段階における自動化の展開と導入に対する技術的・文化的課題の概要を概説し,構造化データセットを用いた教師あり学習に焦点を絞る。 さらに、自動化の課題に対して共通のソリューションパターンを実装した人気のあるオープンソースpythonツールをレビューし、進歩がまだまだ必要だと感じているギャップを強調する。

We present an expository overview of technical and cultural challenges to the development and adoption of automation at various stages in the data science prediction lifecycle, restricting focus to supervised learning with structured datasets. In addition, we review popular open source Python tools implementing common solution patterns for the automation challenges and highlight gaps where we feel progress still demands to be made.
翻訳日:2022-08-26 13:42:56 公開日:2022-08-24
# 深部学習によるF135 PW100ターボファンエンジンのエネルギー・エネルギ性能の予測

Prediction of the energy and exergy performance of F135 PW100 turbofan engine via deep learning ( http://arxiv.org/abs/2208.12028v1 )

ライセンス: Link先を確認
Mohammadreza Sabzehali, Amir Hossein Rabieeb, Mahdi Alibeigia, Amir Mosavi(参考訳) 本研究では,f135 pw100エンジンの推力比燃料消費量,推力,吸気質量流量,熱および推進力効率,エクセルジ効率およびエクセルギー破壊率に及ぼす飛行マッハ数,飛行高度,燃料の種類,吸気温度の影響について検討した。 第1相で得られた結果から, 上記エンジンサイクルの熱力学特性をモデル化するため, 高高度飛行条件下での超音速飛行の運用上の利点と水素燃料の高推力化により, それぞれ2.5m, 30,000mと推定された。 したがって、上記の飛行条件を考慮した第2フェーズでは、ディープラーニング法を用いて出力パラメータ(推力、推力比燃料消費量、総合運動効率)を予測するインテリジェントモデルが得られた。 得られた深層神経モデルでは, 入力パラメータとして高圧タービンの圧力比, ファン圧比, タービン入口温度, 吸気温度, バイパス比が考慮される。 提供されたデータセットはランダムに2つのセットに分けられる。1つはモデルトレーニング用の6079サンプル、もう1つはテスト用の1520サンプルである。 特に、adam最適化アルゴリズム、平均二乗誤差のコスト関数、整流線形単位のアクティブ関数を用いてネットワークを訓練する。 その結果, ディープニューラルモデルの誤差率は0.2%, 1.43%, 2.92%であり, 推力予測, 推力比燃料消費量, 総合運動効率がそれぞれ0.92%であった。

In the present study, the effects of flight-Mach number, flight altitude, fuel types, and intake air temperature on thrust specific fuel consumption, thrust, intake air mass flow rate, thermal and propulsive efficiecies, as well as the exergetic efficiency and the exergy destruction rate in F135 PW100 engine are investigated. Based on the results obtained in the first phase, to model the thermodynamic performance of the aforementioned engine cycle, Flight-Mach number and flight altitude are considered to be 2.5 and 30,000 m, respectively; due to the operational advantage of supersonic flying at high altitude flight conditions, and the higher thrust of hydrogen fuel. Accordingly, in the second phase, taking into account the mentioned flight conditions, an intelligent model has been obtained to predict output parameters (i.e., thrust, thrust specific fuel consumption, and overall exergetic efficiency) using the deep learning method. In the attained deep neural model, the pressure ratio of the high-pressure turbine, fan pressure ratio, turbine inlet temperature, intake air temperature, and bypass ratio are considered input parameters. The provided datasets are randomly divided into two sets: the first one contains 6079 samples for model training and the second set contains 1520 samples for testing. In particular, the Adam optimization algorithm, the cost function of the mean square error, and the active function of rectified linear unit are used to train the network. The results show that the error percentage of the deep neural model is equal to 5.02%, 1.43%, and 2.92% to predict thrust, thrust specific fuel consumption, and overall exergetic efficiency, respectively, which indicates the success of the attained model in estimating the output parameters of the present problem.
翻訳日:2022-08-26 13:42:06 公開日:2022-08-24
# タスク類似度測定のためのWasserstein Task Embedding

Wasserstein Task Embedding for Measuring Task Similarities ( http://arxiv.org/abs/2208.11726v1 )

ライセンス: Link先を確認
Xinran Liu, Yikun Bai, Yuzhe Lu, Andrea Soltoggio, Soheil Kolouri(参考訳) 異なるタスク間の類似度を測定することは、転送、マルチタスク、継続、メタラーニングなど、幅広い機械学習問題において重要である。 現在のタスクの類似性を測定するアプローチのほとんどはアーキテクチャに依存しています。 1)事前訓練されたモデルに依存すること、又は 2)タスク上のトレーニングネットワーク、およびタスク類似性のプロキシとして前方転送を使用する。 本稿では, 最適輸送理論を活用し, モデル非依存かつトレーニングフリーで, (部分的に) 分離ラベル集合を処理可能な教師付き分類のための新しいタスク埋め込みを定義する。 要約すると、基底構造ラベルを持つデータセットが与えられた場合、多次元のスケーリングを通してラベル埋め込みを行い、対応するラベル埋め込みとデータセットサンプルを結合する。 次に、2つのデータセット間の距離を、更新されたサンプル間の2-wasserstein距離と定義する。 最後に, 2-wasserstein embedded framework を利用してタスクをベクトル空間に埋め込み, 埋め込み点間のユークリッド距離はタスク間の2-wasserstein距離に近似する。 提案手法は,otdd (optimize transport dataset distance) のような関連する手法と比較して,タスクを有意に高速に比較できることを示す。 さらに,様々な数値実験を通して提案手法の有効性を実証し,提案手法とタスク間の前後移動との間に統計的に有意な相関を示す。

Measuring similarities between different tasks is critical in a broad spectrum of machine learning problems, including transfer, multi-task, continual, and meta-learning. Most current approaches to measuring task similarities are architecture-dependent: 1) relying on pre-trained models, or 2) training networks on tasks and using forward transfer as a proxy for task similarity. In this paper, we leverage the optimal transport theory and define a novel task embedding for supervised classification that is model-agnostic, training-free, and capable of handling (partially) disjoint label sets. In short, given a dataset with ground-truth labels, we perform a label embedding through multi-dimensional scaling and concatenate dataset samples with their corresponding label embeddings. Then, we define the distance between two datasets as the 2-Wasserstein distance between their updated samples. Lastly, we leverage the 2-Wasserstein embedding framework to embed tasks into a vector space in which the Euclidean distance between the embedded points approximates the proposed 2-Wasserstein distance between tasks. We show that the proposed embedding leads to a significantly faster comparison of tasks compared to related approaches like the Optimal Transport Dataset Distance (OTDD). Furthermore, we demonstrate the effectiveness of our proposed embedding through various numerical experiments and show statistically significant correlations between our proposed distance and the forward and backward transfer between tasks.
翻訳日:2022-08-26 13:35:50 公開日:2022-08-24
# 外乱検出のための教師なしHPOに向けて

Towards Unsupervised HPO for Outlier Detection ( http://arxiv.org/abs/2208.11727v1 )

ライセンス: Link先を確認
Yue Zhao, Leman Akoglu(参考訳) 教師なしの外れ値検出(OD)アルゴリズムを考えると、ラベルなしで新しいデータセット上でハイパーパラメータ(HP)を最適化するにはどうすればよいのか? 本研究では,非教師付きOD問題に対するこの挑戦的なハイパーパラメータ最適化に取り組み,メタ学習に基づくHPODと呼ばれる最初の体系的アプローチを提案する。 HPODは既存のODベンチマークデータセット上でのHPの大規模なコレクションの事前のパフォーマンスを活かし、ラベルのない新しいデータセットでのHP評価を可能にするために、この情報を転送する。 さらにHPODは、将来性のあるHPを効率的に特定するために、シーケンシャルなモデルベースの最適化(元々は教師付き)を適用する。 広範囲な実験により、hpodは(ロバストオートエンコーダなど)深部と浅部(lof)と孤立林(iforest)の両方で、離散型と連続型のhp空間の両方のodアルゴリズムで動作し、lofとiforestのデフォルトのhpsよりも平均58%と66%のパフォーマンス改善で、幅広いベースラインよりも優れていることが示されている。

Given an unsupervised outlier detection (OD) algorithm, how can we optimize its hyperparameter(s) (HP) on a new dataset, without any labels? In this work, we address this challenging hyperparameter optimization for unsupervised OD problem, and propose the first systematic approach called HPOD that is based on meta-learning. HPOD capitalizes on the prior performance of a large collection of HPs on existing OD benchmark datasets, and transfers this information to enable HP evaluation on a new dataset without labels. Moreover, HPOD adapts (originally supervised) sequential model-based optimization to identify promising HPs efficiently. Extensive experiments show that HPOD works with both deep (e.g., Robust AutoEncoder) and shallow (e.g., Local Outlier Factor (LOF) and Isolation Forest (iForest)) OD algorithms on both discrete and continuous HP spaces, and outperforms a wide range of baselines with on average 58% and 66% performance improvement over the default HPs of LOF and iForest.
翻訳日:2022-08-26 13:35:28 公開日:2022-08-24
# 人口推定のためのエントロピー正規化

Entropy Regularization for Population Estimation ( http://arxiv.org/abs/2208.11747v1 )

ライセンス: Link先を確認
Ben Chugg, Peter Henderson, Jacob Goldin, Daniel E. Ho(参考訳) エントロピー正規化は、逐次的な意思決定問題の探索を改善することで知られている。 また,この機構は,構造的バンディット設定における平均報酬の偏りやばらつきの小さい推定にもつながりうることを示した。 平均報酬推定(すなわち人口推定)タスクは、法的な制約がしばしば人口指標の正確な推定を必要とする公共政策設定に不可欠であることが最近示されている。 エントロピーとklの発散を利用することで、既存のベースラインよりも報酬と推定値のばらつきのトレードオフがより良好になる。 これらのエントロピー正則化の特性は、最適な探索と推定文献をブリッジするエキサイティングな可能性を示している。

Entropy regularization is known to improve exploration in sequential decision-making problems. We show that this same mechanism can also lead to nearly unbiased and lower-variance estimates of the mean reward in the optimize-and-estimate structured bandit setting. Mean reward estimation (i.e., population estimation) tasks have recently been shown to be essential for public policy settings where legal constraints often require precise estimates of population metrics. We show that leveraging entropy and KL divergence can yield a better trade-off between reward and estimator variance than existing baselines, all while remaining nearly unbiased. These properties of entropy regularization illustrate an exciting potential for bridging the optimal exploration and estimation literatures.
翻訳日:2022-08-26 13:35:06 公開日:2022-08-24
# 条件付き流れモデルを用いた不適切な問題を解くためのジョイント(データ,条件)分布の最大確率

Maximum Likelihood on the Joint (Data, Condition) Distribution for Solving Ill-Posed Problems with Conditional Flow Models ( http://arxiv.org/abs/2208.11782v1 )

ライセンス: Link先を確認
John S. Hyatt(参考訳) 所定のルールを用いてフローモデルをトレーニングするためのトリックを、最大限のサロゲートとして記述する。 このトリックの有用性は非条件モデルに限定されるが、データと条件情報の合同確率分布の最大可能性に適用するアプローチの拡張は、洗練された \textit{conditional} フローモデルの訓練に使うことができる。 従来の手法とは異なり、この手法は非常に単純で、条件、補助的ネットワーク、その他の特定のアーキテクチャの分布に関する明示的な知識や、最大可能性を超える損失項を必要とせず、潜時空間とデータ空間の対応を保っている。 結果として得られたモデルは、非条件フローモデルのすべての特性を持ち、予期しない入力に頑健であり、与えられた入力で条件付けられた解の分布を予測できる。 彼らは予測代表性の保証を持ち、非常に不確実な問題を解決する自然な、強力な方法である。 簡単な可視化玩具問題に対するこれらの特性を実証し,その手法を用いてクラス条件画像の生成を成功させ,高度に分解された画像を超解像で再構成する。

I describe a trick for training flow models using a prescribed rule as a surrogate for maximum likelihood. The utility of this trick is limited for non-conditional models, but an extension of the approach, applied to maximum likelihood of the joint probability distribution of data and conditioning information, can be used to train sophisticated \textit{conditional} flow models. Unlike previous approaches, this method is quite simple: it does not require explicit knowledge of the distribution of conditions, auxiliary networks or other specific architecture, or additional loss terms beyond maximum likelihood, and it preserves the correspondence between latent and data spaces. The resulting models have all the properties of non-conditional flow models, are robust to unexpected inputs, and can predict the distribution of solutions conditioned on a given input. They come with guarantees of prediction representativeness and are a natural and powerful way to solve highly uncertain problems. I demonstrate these properties on easily visualized toy problems, then use the method to successfully generate class-conditional images and to reconstruct highly degraded images via super-resolution.
翻訳日:2022-08-26 13:34:54 公開日:2022-08-24
# シンボリックリプレイ:VQAタスクにおける連続学習のプロンプトとしてのシーングラフ

Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA Task ( http://arxiv.org/abs/2208.12037v1 )

ライセンス: Link先を確認
Stan Weixian Lei, Difei Gao, Jay Zhangjie Wu, Yuxuan Wang, Wei Liu, Mengmi Zhang, Mike Zheng Shou(参考訳) VQAは、画像に関するあらゆる疑問に答えるための野心的なタスクである。 しかし,ユーザのニーズが継続的に更新され,新たな機能を実装する必要があるため,このようなシステムを構築することは不可能である。 このように、継続学習(CL)能力は、先進的なVQAシステムを開発する上で必須である。 近年、先駆的な研究がVQAデータセットを解答集合に分割してこのトピックを研究している。 しかしながら、VQA上のCLはラベル集合(新しいアンサー集合)の拡張だけに留まらない。 新しい環境(新しいビジュアルシーン)にVQAシステムをデプロイする際の質問に答える方法や、新しい機能を必要とする質問に答える方法(新しい質問タイプ)を研究することが重要である。 そこで本研究では,2つのclシナリオのシーン設定と機能インクリメンタル設定を含む,視覚的質問応答の継続学習のためのベンチマークであるcloveを提案する。 方法論の観点では、VQAにおけるCLと分類の主な違いは、前者は推論機構を拡張・防止すること、後者はクラス表現に焦点を当てることである。 そこで本研究では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。 シーングラフをプロンプトとして使用し、擬似シーングラフを再生して過去の画像を表現し、相関したQAペアを生成する。 また、そのQA能力を高めるために、現在のデータと再生データを利用する統合VQAモデルも提案されている。 最後に, 実験結果からCLOVEの課題を明らかにし, 提案手法の有効性を実証した。 データセットとコードはhttps://github.com/showlab/clvqaで入手できる。

VQA is an ambitious task aiming to answer any image-related question. However, in reality, it is hard to build such a system once for all since the needs of users are continuously updated, and the system has to implement new functions. Thus, Continual Learning (CL) ability is a must in developing advanced VQA systems. Recently, a pioneer work split a VQA dataset into disjoint answer sets to study this topic. However, CL on VQA involves not only the expansion of label sets (new Answer sets). It is crucial to study how to answer questions when deploying VQA systems to new environments (new Visual scenes) and how to answer questions requiring new functions (new Question types). Thus, we propose CLOVE, a benchmark for Continual Learning On Visual quEstion answering, which contains scene- and function-incremental settings for the two aforementioned CL scenarios. In terms of methodology, the main difference between CL on VQA and classification is that the former additionally involves expanding and preventing forgetting of reasoning mechanisms, while the latter focusing on class representation. Thus, we propose a real-data-free replay-based method tailored for CL on VQA, named Scene Graph as Prompt for Symbolic Replay. Using a piece of scene graph as a prompt, it replays pseudo scene graphs to represent the past images, along with correlated QA pairs. A unified VQA model is also proposed to utilize the current and replayed data to enhance its QA ability. Finally, experimental results reveal challenges in CLOVE and demonstrate the effectiveness of our method. The dataset and code will be available at https://github.com/showlab/CLVQA.
翻訳日:2022-08-26 13:29:25 公開日:2022-08-24
# 信念伝播を用いたグループターゲットと非グループターゲットのシームレス追跡

Seamless Tracking of Group Targets and Ungrouped Targets Using Belief Propagation ( http://arxiv.org/abs/2208.12035v1 )

ライセンス: Link先を確認
Xuqi Zhang, Fanqin Meng, Haiqi Liu, Xiaojing Shen and Yunmin Zhu(参考訳) 本稿では,グループターゲットの大規模数を追跡する問題を考える。 通常、ほとんどの追跡シナリオにおけるマルチターゲットは独立動作と仮定され、分離されている。 しかし、グループ対象追跡(GTT)では、グループ内のターゲットは密接な空間化され、協調的に移動し、グループ内のターゲットを分割またはマージし、グループ内のターゲットの数が大きくなる可能性があるため、より困難なデータアソシエーションやフィルタリング、計算問題が発生する。 信念伝達(bp)フレームワーク内では,目標存在変数,グループ構造,データアソシエーション,目標状態を同時に推定することにより,スケーラブルなグループ目標信念伝達(gtbp)手法を提案する。 本手法は、考案した因子グラフ上で信念伝播を行うことにより、これらの変数の辺後分布の近似を効率的に計算することができる。 結果として、gtbpはグループ構造の変化、例えばグループ分割とマージを捉えることができる。 さらに,対象の進化を群の共同作用,あるいは可能な群構造と対応する確率で指定された単一目標運動としてモデル化する。 この柔軟なモデリングは、複数のグループターゲットと未グループターゲットのシームレスかつ同時追跡を可能にする。 特に、GTBPは優れたスケーラビリティと低い計算複雑性を持つ。 bpと同じスケーラビリティを維持するだけでなく、センサーの計測数とターゲット数を2倍に線形にスケーリングするだけでなく、保存されたグループパーティションの数を線形にスケールする。 最後に,提案手法の有効性と拡張性を示す数値実験を行った。

This paper considers the problem of tracking a large-scale number of group targets. Usually, multi-target in most tracking scenarios are assumed to have independent motion and are well-separated. However, for group target tracking (GTT), the targets within groups are closely spaced and move in a coordinated manner, the groups can split or merge, and the numbers of targets in groups may be large, which lead to more challenging data association, filtering and computation problems. Within the belief propagation (BP) framework, we propose a scalable group target belief propagation (GTBP) method by jointly inferring target existence variables, group structure, data association and target states. The method can efficiently calculate the approximations of the marginal posterior distributions of these variables by performing belief propagation on the devised factor graph. As a consequence, GTBP is capable of capturing the changes in group structure, e.g., group splitting and merging. Furthermore, we model the evolution of targets as the co-action of the group or single-target motions specified by the possible group structures and corresponding probabilities. This flexible modeling enables seamless and simultaneous tracking of multiple group targets and ungrouped targets. Particularly, GTBP has excellent scalability and low computational complexity. It not only maintains the same scalability as BP, i.e., scaling linearly in the number of sensor measurements and quadratically in the number of targets, but also only scales linearly in the number of preserved group partitions. Finally, numerical experiments are presented to demonstrate the effectiveness and scalability of the proposed GTBP method.
翻訳日:2022-08-26 13:19:43 公開日:2022-08-24
# 特異値変換による変圧器のトークン均一性への対処

Addressing Token Uniformity in Transformers via Singular Value Transformation ( http://arxiv.org/abs/2208.11790v1 )

ライセンス: Link先を確認
Hanqi Yan, Lin Gui, Wenjie Li, Yulan He(参考訳) トークンの均一性は、トランスフォーマーの複数のセルフアテンション層を積み重ねた後、異なるトークンが多くの類似情報を共有するトランスフォーマーモデルで一般的に見られる。 本稿では,各変圧器層の出力の特異値分布を用いてトークン一様現象を特徴付けることを提案し,より歪んだ特異値分布が「分岐一様性」問題を緩和できることを実証的に示す。 観測に基づいて特異値分布の望ましいいくつかの特性を定義し,特異値を更新するための新しい変換関数を提案する。 トークン一様性を緩和することとは別に、変換関数は元の埋め込み空間内の局所近傍構造を保存すべきである。 提案する特異値変換関数はBERT, ALBERT, RoBERTa, DistilBERTなどのトランスフォーマベース言語モデルに適用され, セマンティックテキスト類似性評価やGLUEタスクの範囲で性能改善が観察される。 ソースコードはhttps://github.com/hanqi-qi/tokenuni.gitで入手できます。

Token uniformity is commonly observed in transformer-based models, in which different tokens share a large proportion of similar information after going through stacked multiple self-attention layers in a transformer. In this paper, we propose to use the distribution of singular values of outputs of each transformer layer to characterise the phenomenon of token uniformity and empirically illustrate that a less skewed singular value distribution can alleviate the `token uniformity' problem. Base on our observations, we define several desirable properties of singular value distributions and propose a novel transformation function for updating the singular values. We show that apart from alleviating token uniformity, the transformation function should preserve the local neighbourhood structure in the original embedding space. Our proposed singular value transformation function is applied to a range of transformer-based language models such as BERT, ALBERT, RoBERTa and DistilBERT, and improved performance is observed in semantic textual similarity evaluation and a range of GLUE tasks. Our source code is available at https://github.com/hanqi-qi/tokenUni.git.
翻訳日:2022-08-26 13:16:58 公開日:2022-08-24
# gSwin: シフトウィンドウの階層構造を持つ拡張MLPビジョンモデル

gSwin: Gated MLP Vision Model with Hierarchical Structure of Shifted Window ( http://arxiv.org/abs/2208.11718v1 )

ライセンス: Link先を確認
Mocho Go, Hideyuki Tachibana(参考訳) 言語領域の成功に続いて、自己認識機構(トランスフォーマー)がビジョン領域に採用され、近年大きな成功を収めている。 さらに、他のストリームとして、視覚領域において多層パーセプトロン(MLP)も探索される。 従来のCNN以外のこれらのアーキテクチャは近年注目を集めており、多くの手法が提案されている。 パラメータ効率と性能を画像認識の局所性と階層性に結びつけるものとして,2つのストリーム,Swin Transformerと(マルチヘッド)gMLPを組み合わせたgSwinを提案する。 我々は,画像分類,オブジェクト検出,セマンティックセマンティックセグメンテーションの3つのタスクにおいて,モデルサイズが小さく,より精度の高いgSwinを実現できることを示した。

Following the success in language domain, the self-attention mechanism (transformer) is adopted in the vision domain and achieving great success recently. Additionally, as another stream, multi-layer perceptron (MLP) is also explored in the vision domain. These architectures, other than traditional CNNs, have been attracting attention recently, and many methods have been proposed. As one that combines parameter efficiency and performance with locality and hierarchy in image recognition, we propose gSwin, which merges the two streams; Swin Transformer and (multi-head) gMLP. We showed that our gSwin can achieve better accuracy on three vision tasks, image classification, object detection and semantic segmentation, than Swin Transformer, with smaller model size.
翻訳日:2022-08-26 13:14:11 公開日:2022-08-24
# 遅延即効性保証の実施

Enforcing Delayed-Impact Fairness Guarantees ( http://arxiv.org/abs/2208.11744v1 )

ライセンス: Link先を確認
Aline Weber, Blossom Metevier, Yuriy Brun, Philip S. Thomas, Bruno Castro da Silva(参考訳) 最近の研究では、一見公正な機械学習モデルが、人々の生活や幸福に影響を及ぼす決定(例えば、教育、雇用、貸与などを含む応用)を知らせるために使用される場合、長期的には社会的不平等が必然的に増加することが示されている。 これは、以前のフェアネス認識アルゴリズムは、平等な機会や人口統計学的パリティのような静的フェアネス制約のみを考慮するためである。 しかし、このタイプの制約を強制することは、不利な個人やコミュニティに長期的な影響をもたらすモデルをもたらす可能性がある。 ELF (Enforcecing Long-term Fairness) は, 長期的, 遅延的, 影響の観点から, 信頼性の高い公正性を保証する最初の分類アルゴリズムである。 ELFが不公平な解を返す確率は、ユーザの指定した寛大さよりも低く、(軽微な仮定の下では)十分なトレーニングデータがあれば、ELFが存在すれば公正な解を見つけて返却することができることを証明します。 本アルゴリズムが長期不公平を軽減できることを実験的に示す。

Recent research has shown that seemingly fair machine learning models, when used to inform decisions that have an impact on peoples' lives or well-being (e.g., applications involving education, employment, and lending), can inadvertently increase social inequality in the long term. This is because prior fairness-aware algorithms only consider static fairness constraints, such as equal opportunity or demographic parity. However, enforcing constraints of this type may result in models that have negative long-term impact on disadvantaged individuals and communities. We introduce ELF (Enforcing Long-term Fairness), the first classification algorithm that provides high-confidence fairness guarantees in terms of long-term, or delayed, impact. We prove that the probability that ELF returns an unfair solution is less than a user-specified tolerance and that (under mild assumptions), given sufficient training data, ELF is able to find and return a fair solution if one exists. We show experimentally that our algorithm can successfully mitigate long-term unfairness.
翻訳日:2022-08-26 13:11:33 公開日:2022-08-24
# AIを結合したHPCワークフロー

AI-coupled HPC Workflows ( http://arxiv.org/abs/2208.11745v1 )

ライセンス: Link先を確認
Shantenu Jha, Vincent R. Pascuzzi, Matteo Turilli(参考訳) 科学的発見はますます高度でスケーラブルなワークフローを必要とする。 ワークフローは ``new applications,''' となり、マルチスケールのコンピューティングキャンペーンは複数の実行可能タスクで構成される。 特に、従来のHPCワークフローにAI/MLモデルを導入することは、非常に正確なモデリングの実現要因であり、通常、従来の方法と比較して計算の必要性を減らしている。 この章では、AI/MLモデルをHPC計算に統合するさまざまなモードについて論じる。 科学領域をまたいだAI/MLとHPCの結合の必要性の高まりは動機付けられ、各モードのプロダクショングレードユースケースによって実証される。 さらに、タスクの不均一性、適応性、パフォーマンスといった超大規模なAI結合型HPCキャンペーンの主な課題と、それに対応するためのフレームワークとミドルウェアソリューションについても論じます。 HPCワークフローとAI/MLコンピューティングのパラダイムはどちらも独立して有効であるが、それらの統合と究極の収束が、さまざまな領域にわたる科学的パフォーマンスを大幅に改善し、最終的に科学的な探索が達成不可能になった点を強調している。

Increasingly, scientific discovery requires sophisticated and scalable workflows. Workflows have become the ``new applications,'' wherein multi-scale computing campaigns comprise multiple and heterogeneous executable tasks. In particular, the introduction of AI/ML models into the traditional HPC workflows has been an enabler of highly accurate modeling, typically reducing computational needs compared to traditional methods. This chapter discusses various modes of integrating AI/ML models to HPC computations, resulting in diverse types of AI-coupled HPC workflows. The increasing need of coupling AI/ML and HPC across scientific domains is motivated, and then exemplified by a number of production-grade use cases for each mode. We additionally discuss the primary challenges of extreme-scale AI-coupled HPC campaigns -- task heterogeneity, adaptivity, performance -- and several framework and middleware solutions which aim to address them. While both HPC workflow and AI/ML computing paradigms are independently effective, we highlight how their integration, and ultimate convergence, is leading to significant improvements in scientific performance across a range of domains, ultimately resulting in scientific explorations otherwise unattainable.
翻訳日:2022-08-26 13:11:13 公開日:2022-08-24
# ソーシャルメディアデータセットを用いた子どもの逆体験識別のためのオントロジー駆動型セルフスーパービジョン

Ontology-Driven Self-Supervision for Adverse Childhood Experiences Identification Using Social Media Datasets ( http://arxiv.org/abs/2208.11701v1 )

ライセンス: Link先を確認
Jinge Wu, Rowena Smith and Honghan Wu(参考訳) 逆育児体験 (ACEs) は、小児期および青年期を通じて起こる、非常にストレスがあり、潜在的にトラウマ的な出来事や状況の集合として定義される。 それらは、後年の精神疾患やその他の異常な行動のリスクの増加と関連していることが示されている。 しかし、自然言語処理(NLP)を用いたテキストデータからACEを識別することは困難である。 (a) NLP 対応ACE オントロジーはない。 b) 臨床専門家のデータアノテーションを必要とするため、機械学習に利用可能なリソースは少ない。 c) 大規模機械学習モデルをサポートするための、ドメインエキスパートによる高価なアノテーションと大量のドキュメント。 本稿では,ソーシャルメディアコーパス上で大規模機械学習(例えば,トランスフォーマーをベースとした大規模言語モデル)をサポートするための,オントロジー駆動型自己教師型アプローチ(ベースラインNLP結果からのオートエンコーダを用いた概念埋め込み)を提案する。 このリソースと提案手法は、電子健康記録における臨床ノート上のNLPのような低リソースシナリオにおけるACEを効果的に克服するために、転送可能なNLPモデルをトレーニングするコミュニティの促進を目的としている。 ACEオントロジー用語のリスト、ACE概念埋め込み、NLPアノテーション付きコーパスを含むリソースはhttps://github.com/knowlab/ACE-NLPで入手できる。

Adverse Childhood Experiences (ACEs) are defined as a collection of highly stressful, and potentially traumatic, events or circumstances that occur throughout childhood and/or adolescence. They have been shown to be associated with increased risks of mental health diseases or other abnormal behaviours in later lives. However, the identification of ACEs from textual data with Natural Language Processing (NLP) is challenging because (a) there are no NLP ready ACE ontologies; (b) there are few resources available for machine learning, necessitating the data annotation from clinical experts; (c) costly annotations by domain experts and large number of documents for supporting large machine learning models. In this paper, we present an ontology-driven self-supervised approach (derive concept embeddings using an auto-encoder from baseline NLP results) for producing a publicly available resource that would support large-scale machine learning (e.g., training transformer based large language models) on social media corpus. This resource as well as the proposed approach are aimed to facilitate the community in training transferable NLP models for effectively surfacing ACEs in low-resource scenarios like NLP on clinical notes within Electronic Health Records. The resource including a list of ACE ontology terms, ACE concept embeddings and the NLP annotated corpus is available at https://github.com/knowlab/ACE-NLP.
翻訳日:2022-08-26 13:07:00 公開日:2022-08-24
# 逆データ拡張による深層学習におけるコスト感性分類の再考

Rethinking Cost-sensitive Classification in Deep Learning via Adversarial Data Augmentation ( http://arxiv.org/abs/2208.11739v1 )

ライセンス: Link先を確認
Qiyuan Chen, Raed Al Kontar, Maher Nouiehed, Jessie Yang, Corey Lester(参考訳) コストに敏感な分類は、誤分類エラーがコストで大きく異なるアプリケーションにおいて重要である。 しかし、過パラメータ化はディープニューラルネットワーク(DNN)のコスト感受性モデリングに根本的な課題をもたらす。 トレーニングデータセットを完全に補間するDNNの能力は、トレーニングセットに基づいて純粋に評価されたDNNをレンダリングすることができる。 これは、DNNにおけるコスト感受性の分類を再考する必要がある。 この課題に対処するため,本研究では,過パラメータモデルにコスト感受性を持たせるためのCSADAフレームワークを提案する。 包括的な考え方は、意思決定境界をコスト対応の方向に押し上げる、標的となる敵の例を生成することである。 これらのターゲットとなる敵のサンプルは、重要な誤分類の確率を最大化し、コストのかかるペアについてより保守的な決定を下すモデルを訓練することで生成される。 広く知られているデータセットと医薬品画像(PMI)データセットの公開実験により,本手法は全体のコストを効果的に最小化し,致命的なエラーを低減するとともに,全体的な精度で同等のパフォーマンスを達成できることが示された。

Cost-sensitive classification is critical in applications where misclassification errors widely vary in cost. However, over-parameterization poses fundamental challenges to the cost-sensitive modeling of deep neural networks (DNNs). The ability of a DNN to fully interpolate a training dataset can render a DNN, evaluated purely on the training set, ineffective in distinguishing a cost-sensitive solution from its overall accuracy maximization counterpart. This necessitates rethinking cost-sensitive classification in DNNs. To address this challenge, this paper proposes a cost-sensitive adversarial data augmentation (CSADA) framework to make over-parameterized models cost-sensitive. The overarching idea is to generate targeted adversarial examples that push the decision boundary in cost-aware directions. These targeted adversarial samples are generated by maximizing the probability of critical misclassifications and used to train a model with more conservative decisions on costly pairs. Experiments on well-known datasets and a pharmacy medication image (PMI) dataset made publicly available show that our method can effectively minimize the overall cost and reduce critical errors, while achieving comparable performance in terms of overall accuracy.
翻訳日:2022-08-26 13:05:15 公開日:2022-08-24
# ganを用いた皮膚科用ジェネレーティブモデリング -比較研究-

GAN-based generative modelling for dermatological applications -- comparative study ( http://arxiv.org/abs/2208.11702v1 )

ライセンス: Link先を確認
Sandra Carrasco Limeros, Sylwia Majchrowska, Mohamad Khir Zoubi, Anna Ros\'en, Juulia Suvilehto, Lisa Sj\"oblom, Magnus Kjellberg(参考訳) 十分に大きなオープン医療データベースがないことは、AIによる医療における最大の課題の1つだ。 Generative Adversarial Networks(GANs)を使用して作成された合成データは、プライバシポリシの問題を軽減するための優れたソリューションであるようだ。 もう1つの治療法は、局所的なデータサンプルを交換することなく、複数の医療機関にまたがる分散プロトコルである。 本稿では,非条件および条件付きGANを集中的・分散的環境下で探索する。 中央集権的な設定は、大きくて高度にバランスの取れない皮膚病変データセットの研究を模倣し、分散化されたデータセットは、3つの機関でより現実的な病院シナリオをシミュレートする。 生成した合成データに基づいて学習した分類器の忠実性,多様性,訓練速度,予測能力の観点からモデルの性能を評価した。 さらに,グローバルとローカルの両方に焦点をあてた潜在空間の探索と埋め込み射影による説明可能性を提供した。 実画像と潜在空間の投影との間の距離を計算した結果、訓練されたganの信頼性と一般化が証明された。 研究対象のオープンソースコードは \url{https://github.com/aidotse/stylegan2-ada-pytorch} で公開されている。

The lack of sufficiently large open medical databases is one of the biggest challenges in AI-powered healthcare. Synthetic data created using Generative Adversarial Networks (GANs) appears to be a good solution to mitigate the issues with privacy policies. The other type of cure is decentralized protocol across multiple medical institutions without exchanging local data samples. In this paper, we explored unconditional and conditional GANs in centralized and decentralized settings. The centralized setting imitates studies on large but highly unbalanced skin lesion dataset, while the decentralized one simulates a more realistic hospital scenario with three institutions. We evaluated models' performance in terms of fidelity, diversity, speed of training, and predictive ability of classifiers trained on the generated synthetic data. In addition we provided explainability through exploration of latent space and embeddings projection focused both on global and local explanations. Calculated distance between real images and their projections in the latent space proved the authenticity and generalization of trained GANs, which is one of the main concerns in this type of applications. The open source code for conducted studies is publicly available at \url{https://github.com/aidotse/stylegan2-ada-pytorch}.
翻訳日:2022-08-26 13:01:22 公開日:2022-08-24
# 視覚・言語ナビゲーションのためのラベルなし3次元環境からの学習

Learning from Unlabeled 3D Environments for Vision-and-Language Navigation ( http://arxiv.org/abs/2208.11781v1 )

ライセンス: Link先を確認
Shizhe Chen, Pierre-Louis Guhur, Makarand Tapaswi, Cordelia Schmid, Ivan Laptev(参考訳) 視覚言語ナビゲーション(vln)では、自然言語命令に従って現実的な3d環境をナビゲートするために具体化エージェントが必要である。 既存のVLNアプローチの大きなボトルネックは、十分なトレーニングデータがないことである。 VLNデータは一般的に手作業で収集されるが、そのようなアプローチは高価でスケーラビリティを損なう。 本研究では,HM3Dから900の未ラベルの3Dビルディングから,大規模VLNデータセットを自動生成することを提案する。 2dから建物毎にナビゲーショングラフを生成し、オブジェクト予測を転送し、クロスビュー一貫性により擬似3dオブジェクトラベルを生成する。 次に、擬似オブジェクトラベルを用いて事前訓練された言語モデルを微調整し、命令生成におけるモード間ギャップを軽減する。 得られたHM3D-AutoVLNデータセットは、ナビゲーション環境や命令の観点から、既存のVLNデータセットよりも桁違いに大きい。 実験により, HM3D-AutoVLNはVLNモデルの一般化能力を著しく向上させることを示した。 SPL測定では,REVERIEデータセットとSOONデータセットの未確認検証分割に対して,手法の状態を7.1%,8.1%改善する。

In vision-and-language navigation (VLN), an embodied agent is required to navigate in realistic 3D environments following natural language instructions. One major bottleneck for existing VLN approaches is the lack of sufficient training data, resulting in unsatisfactory generalization to unseen environments. While VLN data is typically collected manually, such an approach is expensive and prevents scalability. In this work, we address the data scarcity issue by proposing to automatically create a large-scale VLN dataset from 900 unlabeled 3D buildings from HM3D. We generate a navigation graph for each building and transfer object predictions from 2D to generate pseudo 3D object labels by cross-view consistency. We then fine-tune a pretrained language model using pseudo object labels as prompts to alleviate the cross-modal gap in instruction generation. Our resulting HM3D-AutoVLN dataset is an order of magnitude larger than existing VLN datasets in terms of navigation environments and instructions. We experimentally demonstrate that HM3D-AutoVLN significantly increases the generalization ability of resulting VLN models. On the SPL metric, our approach improves over state of the art by 7.1% and 8.1% on the unseen validation splits of REVERIE and SOON datasets respectively.
翻訳日:2022-08-26 12:59:19 公開日:2022-08-24
# 転送学習と音声・テキスト拡張による自然言語に基づく音声検索の改善

Improving Natural-Language-based Audio Retrieval with Transfer Learning and Audio & Text Augmentations ( http://arxiv.org/abs/2208.11460v1 )

ライセンス: Link先を確認
Paul Primus and Gerhard Widmer(参考訳) 大規模ラベル付きデータセットが存在しないことは、ディープラーニングの多くのアプリケーション領域において、依然として大きな課題である。 研究者や実践者は通常、この問題を軽減するために、学習とデータ拡張を転送する。 本稿では,これらの手法を自然言語クエリを用いた音声検索の文脈で検討する(DCASE 2022 Challenge のタスク6b)。 提案システムでは,事前学習された組込みモデルを用いて,録音やテキスト記述を共有オーディオキャプチャ空間に投影し,関連するモーダリティのサンプルを近接させる。 音声やテキストの入力に様々なデータ拡張技術を適用し,対応するハイパーパラメータを逐次モデルに基づく最適化で体系的に調整する。 その結果,使用中の拡張戦略により,過剰フィッティングが減少し,検索性能が向上した。 さらに,AudioCapsデータセットで事前トレーニングを行うことで,さらなる改善が期待できる。

The absence of large labeled datasets remains a significant challenge in many application areas of deep learning. Researchers and practitioners typically resort to transfer learning and data augmentation to alleviate this issue. We study these strategies in the context of audio retrieval with natural language queries (Task 6b of the DCASE 2022 Challenge). Our proposed system uses pre-trained embedding models to project recordings and textual descriptions into a shared audio-caption space in which related examples from different modalities are close. We employ various data augmentation techniques on audio and text inputs and systematically tune their corresponding hyperparameters with sequential model-based optimization. Our results show that the used augmentations strategies reduce overfitting and improve retrieval performance. We further show that pre-training the system on the AudioCaps dataset leads to additional improvements.
翻訳日:2022-08-25 13:38:00 公開日:2022-08-24
# Debias the Black-box:知識蒸留による公正ランキングフレームワーク

Debias the Black-box: A Fair Ranking Framework via Knowledge Distillation ( http://arxiv.org/abs/2208.11628v1 )

ライセンス: Link先を確認
Zhitao Zhu, Shijing Si, Jianzong Wang, Yaodong Yang, Jing Xiao(参考訳) ディープニューラルネットワークは、クエリとドキュメント間の複雑なインタラクション履歴情報をキャプチャすることができる。 しかしながら、サービスプロバイダは、デプロイコストの制約や公平性要件など、現実の状況において、より複雑な障害に直面します。 十分に訓練された複素モデル(教師)の知識を単純なモデル(学生)に移す知識蒸留は、前者の懸念を緩和するために提案されているが、現在の最良の蒸留方法は、生徒モデルを教師モデルの予測を模倣させる方法のみに焦点を当てている。 深層モデルの適用を容易にするため,我々は知識蒸留に基づく公平な情報検索フレームワークを提案する。 このフレームワークは、モデルサイズを大幅に削減しながら、モデルの露出ベースの公正性を改善することができる。 3つの巨大なデータセットに関する広範な実験から,提案するフレームワークでは,ブラックボックス状態を維持しながら,モデルサイズを最小1%まで削減することが可能であることが判明した。 また、高いレコメンデーション効率を維持しながら、フェアネスのパフォーマンスを15%から46%向上させる。

Deep neural networks can capture the intricate interaction history information between queries and documents, because of their many complicated nonlinear units, allowing them to provide correct search recommendations. However, service providers frequently face more complex obstacles in real-world circumstances, such as deployment cost constraints and fairness requirements. Knowledge distillation, which transfers the knowledge of a well-trained complex model (teacher) to a simple model (student), has been proposed to alleviate the former concern, but the best current distillation methods focus only on how to make the student model imitate the predictions of the teacher model. To better facilitate the application of deep models, we propose a fair information retrieval framework based on knowledge distillation. This framework can improve the exposure-based fairness of models while considerably decreasing model size. Our extensive experiments on three huge datasets show that our proposed framework can reduce the model size to a minimum of 1% of its original size while maintaining its black-box state. It also improves fairness performance by 15%~46% while keeping a high level of recommendation effectiveness.
翻訳日:2022-08-25 13:37:43 公開日:2022-08-24
# 1つのサンプルパスに沿った平均場ゲームにおけるoracleフリー強化学習

Oracle-free Reinforcement Learning in Mean-Field Games along a Single Sample Path ( http://arxiv.org/abs/2208.11639v1 )

ライセンス: Link先を確認
Muhammad Aneeq uz Zaman, Alec Koppel, Sujay Bhatt, Tamer Ba\c{s}ar(参考訳) 平均フィールドゲームにおけるオンライン強化学習について考察する。 既存の研究とは対照的に,汎用エージェントの単一サンプルパスを用いて平均フィールドと最適ポリシーを推定するアルゴリズムを開発することにより,平均フィールドオラクルの必要性を緩和する。 これをサンドボックス学習と呼び、マルチエージェント非協調環境で動作しているエージェントのウォームスタートとして使用できる。 我々は、平均場に対するオンライン固定点再帰がより遅い時間スケールで動作し、汎用エージェントのより高速な時間スケールに対する制御ポリシー更新と連動する2つの時間スケールアプローチを採用する。 十分な探索条件下では、平均場と平均場平衡への制御ポリシーの収束の観点から有限サンプル収束保証を提供する。 サンドボックス学習アルゴリズムのサンプル複雑性は$\mathcal{o}(\epsilon^{-4})$である。 最後に,混雑ゲームにおけるサンドボックス学習アルゴリズムの有効性を実証する。

We consider online reinforcement learning in Mean-Field Games. In contrast to the existing works, we alleviate the need for a mean-field oracle by developing an algorithm that estimates the mean-field and the optimal policy using a single sample path of the generic agent. We call this Sandbox Learning, as it can be used as a warm-start for any agent operating in a multi-agent non-cooperative setting. We adopt a two timescale approach in which an online fixed-point recursion for the mean-field operates on a slower timescale and in tandem with a control policy update on a faster timescale for the generic agent. Under a sufficient exploration condition, we provide finite sample convergence guarantees in terms of convergence of the mean-field and control policy to the mean-field equilibrium. The sample complexity of the Sandbox learning algorithm is $\mathcal{O}(\epsilon^{-4})$. Finally, we empirically demonstrate effectiveness of the sandbox learning algorithm in a congestion game.
翻訳日:2022-08-25 13:37:26 公開日:2022-08-24
# 重みの刈り取りによるスパース化フェデレーションニューロイメージングモデルの開発

Towards Sparsified Federated Neuroimaging Models via Weight Pruning ( http://arxiv.org/abs/2208.11669v1 )

ライセンス: Link先を確認
Dimitris Stripelis, Umang Gupta, Nikhil Dhinagar, Greg Ver Steeg, Paul Thompson, Jos\'e Luis Ambite(参考訳) 大きなディープニューラルネットワークのフェデレートトレーニングは、更新とモデルサイズの増加との通信コストの増大によって制限されることが多い。 推論時間を短縮するために、様々なモデルプルーニング技術が集中的に設計されている。 集中型プルーニング技術とフェデレーショントレーニングを組み合わせることで、コミュニケーションステップの直前にモデルパラメータをプルーニングすることで、通信コストを削減できる。 さらに、トレーニング中のプログレッシブモデルプルーニングアプローチは、トレーニング時間/コストを削減できる。 そこで本研究では,フェデレーショントレーニング中にモデルプルーニングを行うfedersparsifyを提案する。 脳年齢予測タスク(脳MRIから年齢を推定する)の集中的および連合的設定実験において、高度に異種なデータ分布を持つフェデレーション学習環境においても、性能に影響を与えることなく、モデルが95%の間隔で切断できることを実証した。 model pruningの驚くべきメリットのひとつは、モデルプライバシの改善だ。 我々は、高いスパース性を持つモデルが、プライバシ攻撃の一種であるメンバーシップ推論攻撃の影響を受けにくいことを実証する。

Federated training of large deep neural networks can often be restrictive due to the increasing costs of communicating the updates with increasing model sizes. Various model pruning techniques have been designed in centralized settings to reduce inference times. Combining centralized pruning techniques with federated training seems intuitive for reducing communication costs -- by pruning the model parameters right before the communication step. Moreover, such a progressive model pruning approach during training can also reduce training times/costs. To this end, we propose FedSparsify, which performs model pruning during federated training. In our experiments in centralized and federated settings on the brain age prediction task (estimating a person's age from their brain MRI), we demonstrate that models can be pruned up to 95% sparsity without affecting performance even in challenging federated learning environments with highly heterogeneous data distributions. One surprising benefit of model pruning is improved model privacy. We demonstrate that models with high sparsity are less susceptible to membership inference attacks, a type of privacy attack.
翻訳日:2022-08-25 13:37:11 公開日:2022-08-24
# 複雑ネットワークを用いた再生可能電気配電系統のレジリエンス同定手法

A methodology for identifying resiliency in renewable electrical distribution system using complex network ( http://arxiv.org/abs/2208.11543v1 )

ライセンス: Link先を確認
Divyanshi Dwivedi, Pradeep Kumar Yemula, Mayukha Pal(参考訳) 近年,電力供給システムは分散エネルギー資源(ders)によって広範囲に浸透し,エネルギー需要にシステムのレジリエンスを高めるという一般的な認識を満たしている。 しかし、断続的な可用性、気象条件のダイナミクス、非線形性の導入、複雑さなど様々な要因により、グリッド操作に悪影響を及ぼす可能性がある。 本手法が提案するシステムレジリエンスの詳細な理解が必要である。 本研究では、複雑なネットワーク理論を用いて、ソーラーPV生成に組み込んだ配電系統の弾力性を特定する手法を提案する。 異なる条件の複雑な相関ネットワークを求め,これらのネットワークのレジリエンスを同定するために様々なネットワークパラメータを算出した。 提案手法は, 異なる条件下での耐力を維持しつつ, システム内のソーラーパネルのホスト容量を同定し, システム内のソーラーパネルの最適配置トポロジーを得るのに役立つ。 提案手法では,変更に対して高い感度を持ち,非レジリエンスに移行可能なクリティカルノードの同定も行う。 このフレームワークは、GridLAB-Dを用いて時系列データを生成するIEEE-123 Test Feederシステム上で実証され、複雑なネットワークと機械学習モデルを用いて様々な分析が行われた。

Recently, Electrical Distribution Systems are extensively penetrated with the Distributed Energy Resources (DERs) to cater the energy demands with general perception that it enhances the system resiliency. However, it may be adverse for the grid operation due to various factors like its intermittent availability, dynamics in weather condition, introduction of nonlinearity, complexity etc. This needs a detailed understanding of system resiliency that our method proposes here. We introduce a methodology using complex network theory to identify the resiliency of distribution system when incorporated with Solar PV generation under various undesirable configurations. Complex correlated networks for different conditions were obtained and various network parameters were computed for identifying the resiliency of those networks. The proposed methodology identifies the hosting capacity of solar panels in the system while maintaining the resiliency under different unwanted conditions hence helps to obtain an optimal allocation topology for solar panels in the system. The proposed method also identifies the critical nodes that are highly sensitive to the changes and could drive the system into non-resiliency. This framework was demonstrated on IEEE-123 Test Feeder system with time-series data generated using GridLAB-D and variety of analysis were performed using complex network and machine learning models.
翻訳日:2022-08-25 13:36:55 公開日:2022-08-24
# 音響エコーキャンセラのための自己アライメントアライメント内蔵深層モデル

Deep model with built-in self-attention alignment for acoustic echo cancellation ( http://arxiv.org/abs/2208.11308v1 )

ライセンス: Link先を確認
Evgenii Indenbom, Nicolae-C\u{a}t\u{a}lin Ristea, Ando Saabas, Tanel P\"arnamaa, Jegor Gu\v{z}vin(参考訳) 近年の研究が進み、リアルタイムの遠隔会議アプリケーションにおいて、深層学習モデルは音響エコーキャンセリング(AEC)の魅力的な選択肢となっている。 音響エコーは音質の悪い主要な源の一つであるため、様々な深部モデルが提案されている。 しかし、エコーキャンセリングの品質が良いという重要ながしばしば省略される要件は、マイクロホンと遠端信号の同期である。 通常、クロス相関に基づく古典的アルゴリズムを用いて実装されるアライメントモジュールは、既知の設計制限を持つ独立した機能ブロックである。 本研究では,非整合入力を処理し,エコーキャンセル性能を向上し,通信パイプラインを簡素化し,自己注意に基づくアライメントを組み込んだディープラーニングアーキテクチャを提案する。 さらに,本手法は,aecチャレンジデータセットを用いた実記録における遅延推定の難易度を大幅に改善することを示す。

With recent research advances, deep learning models have become an attractive choice for acoustic echo cancellation (AEC) in real-time teleconferencing applications. Since acoustic echo is one of the major sources of poor audio quality, a wide variety of deep models have been proposed. However, an important but often omitted requirement for good echo cancellation quality is the synchronization of the microphone and far end signals. Typically implemented using classical algorithms based on cross-correlation, the alignment module is a separate functional block with known design limitations. In our work we propose a deep learning architecture with built-in self-attention based alignment, which is able to handle unaligned inputs, improving echo cancellation performance while simplifying the communication pipeline. Moreover, we show that our approach achieves significant improvements for difficult delay estimation cases on real recordings from AEC Challenge data set.
翻訳日:2022-08-25 13:35:26 公開日:2022-08-24
# 車両内データ・資源の収益化とアクセス:5GMETAアプローチ

Monetisation of and Access to in-Vehicle data and resources: the 5GMETA approach ( http://arxiv.org/abs/2208.11335v1 )

ライセンス: Link先を確認
Djibrilla Amadou Kountche, Fatma Raissi, Mandimby Ranaivo Rakotondravelona, Edoardo Bonetto, Daniele Brevi, Angel Martin, Oihana Otaegui, Gorka Velez(参考訳) 今日の車両は、大量のデータを生成するコンピュータやセンサーが組み込まれている。 データは内部の目的で利用され、接続されたインフラやスマートシティの開発によって、車両は相互に相互作用し、道路利用者は他の種類のデータを生成する。 これらのデータと車内リソースへのアクセスと収益化は,本稿で提示される多くの課題に直面している。 さらに、H2020 5GMETAプロジェクトで直面するオープンで斬新なアプローチと比較して、最も重要な商用ソリューションである。

Today's vehicles are increasingly embedded with computers and sensors which produce huge amount of data. The data are exploited for internal purposes and with the development of connected infrastructures and smart cities, the vehicles interact with each other as well as with road users generating other types of data. The access to these data and in-vehicle resources and their monetisation faces many challenges which are presented in this paper. Furthermore, the most important commercial solution compared to the open and novel approach faced in the H2020 5GMETA project.
翻訳日:2022-08-25 13:35:12 公開日:2022-08-24
# コントラスト学習に基づくプレトレーニングは糖尿病網膜症分類モデルの表現と伝達性を改善する

Contrastive learning-based pretraining improves representation and transferability of diabetic retinopathy classification models ( http://arxiv.org/abs/2208.11563v1 )

ライセンス: Link先を確認
Minhaj Nur Alam, Rikiya Yamashita, Vignav Ramesh, Tejas Prabhune, Jennifer I. Lim, R.V.P. Chan, Joelle Hallak, Theodore Leng, and Daniel Rubin(参考訳) 自己教師付きコントラスト学習に基づく事前学習は、ラベル付きデータセットによる堅牢で一般化されたディープラーニングモデルの開発を可能にし、ラベル生成の負担を軽減する。 本研究の目的は,CLによるプレトレーニングが糖尿病網膜症 (DR) の診断成績に及ぼす影響を評価することである。 我々は、カラーファンドス画像のDR検出に優れた表現と初期化を備えたモデルを生成するために、ニューラルネットワークトランスファー(NST)を付加したCLベースのフレームワークを開発した。 CLプレトレーニングモデルの性能と,Imagenet重みを事前トレーニングしたアートベースラインモデルの2つの状態を比較した。 さらに、ラベル付きトレーニングデータ(10%まで)を削減してモデル性能を調べ、ラベル付き小さなデータセットでトレーニングした場合のモデルの堅牢性をテストする。 このモデルはEyePACSデータセットでトレーニングおよび検証され、イリノイ大学シカゴ校(UIC)の臨床データで独立にテストされている。 基礎モデルと比較すると,clプリトレーニングされたファンダネットモデルは,uc (ci) 値が0.91 (0.898 - 0.930) に対して0.80 (0.783 - 0.820) と 0.83 (0.801 - 0.853) であった。 トレーニングデータを10%ラベル付けしたFundusNet AUCは0.81(0.78から0.84)、ベースラインモデルでは0.58(0.56から0.64)、ベースラインモデルでは0.63(0.60から0.66)であった。 NSTを用いたCLベースの事前トレーニングはDL分類性能を大幅に向上させ、モデルの一般化(EyePACSからUICデータへ変換可能)を支援し、小さな注釈付きデータセットによるトレーニングを可能にする。

Self supervised contrastive learning based pretraining allows development of robust and generalized deep learning models with small, labeled datasets, reducing the burden of label generation. This paper aims to evaluate the effect of CL based pretraining on the performance of referrable vs non referrable diabetic retinopathy (DR) classification. We have developed a CL based framework with neural style transfer (NST) augmentation to produce models with better representations and initializations for the detection of DR in color fundus images. We compare our CL pretrained model performance with two state of the art baseline models pretrained with Imagenet weights. We further investigate the model performance with reduced labeled training data (down to 10 percent) to test the robustness of the model when trained with small, labeled datasets. The model is trained and validated on the EyePACS dataset and tested independently on clinical data from the University of Illinois, Chicago (UIC). Compared to baseline models, our CL pretrained FundusNet model had higher AUC (CI) values (0.91 (0.898 to 0.930) vs 0.80 (0.783 to 0.820) and 0.83 (0.801 to 0.853) on UIC data). At 10 percent labeled training data, the FundusNet AUC was 0.81 (0.78 to 0.84) vs 0.58 (0.56 to 0.64) and 0.63 (0.60 to 0.66) in baseline models, when tested on the UIC dataset. CL based pretraining with NST significantly improves DL classification performance, helps the model generalize well (transferable from EyePACS to UIC data), and allows training with small, annotated datasets, therefore reducing ground truth annotation burden of the clinicians.
翻訳日:2022-08-25 13:35:05 公開日:2022-08-24
# 映像探索のためのアクティブ・ゲイズ制御

Active Gaze Control for Foveal Scene Exploration ( http://arxiv.org/abs/2208.11594v1 )

ライセンス: Link先を確認
Alexandre M.F. Dias, Lu\'is Sim\~oes, Plinio Moreno, Alexandre Bernardino(参考訳) 能動的知覚とfoveal visionは、人間の視覚システムの基礎である。 眼球視は視線固定時に処理する情報量を減少させるが、能動的知覚は視線方向を視野の最も有望な部分に変化させる。 本研究では,人間やロボットに焦点カメラを装着して場面を探索する方法をエミュレートし,その周囲に存在する物体を視線シフトの少ない範囲で識別する手法を提案する。 我々のアプローチは3つの重要な方法に基づいている。 まず,市販の深部物体検出器を用いて,正規画像の大規模データセット上で事前学習を行い,その分類出力を焦点画像の場合に校正する。 第二に、オブジェクト分類とそれに対応する不確かさを符号化する体中心セマンティックマップを、複数のデータ融合技術を考慮して、校正検出とともに順次更新する。 第3に、次の最良の視線固定点は、セマンティックマップの期待される不確実性全体の最小化を目的とした情報理論的な指標に基づいて決定される。 提案手法は,次の視線シフトのランダム選択と比較すると,同じ視線シフト数に対して2~3ポイントのF1スコアが増加し,必要な視線シフト数を3分の1に減らし,同様の性能を実現する。

Active perception and foveal vision are the foundations of the human visual system. While foveal vision reduces the amount of information to process during a gaze fixation, active perception will change the gaze direction to the most promising parts of the visual field. We propose a methodology to emulate how humans and robots with foveal cameras would explore a scene, identifying the objects present in their surroundings with in least number of gaze shifts. Our approach is based on three key methods. First, we take an off-the-shelf deep object detector, pre-trained on a large dataset of regular images, and calibrate the classification outputs to the case of foveated images. Second, a body-centered semantic map, encoding the objects classifications and corresponding uncertainties, is sequentially updated with the calibrated detections, considering several data fusion techniques. Third, the next best gaze fixation point is determined based on information-theoretic metrics that aim at minimizing the overall expected uncertainty of the semantic map. When compared to the random selection of next gaze shifts, the proposed method achieves an increase in detection F1-score of 2-3 percentage points for the same number of gaze shifts and reduces to one third the number of required gaze shifts to attain similar performance.
翻訳日:2022-08-25 13:34:34 公開日:2022-08-24
# 非エルミート深層ニューラルネットワークのスペクトル

Spectrum of non-Hermitian deep-Hebbian neural networks ( http://arxiv.org/abs/2208.11411v1 )

ライセンス: Link先を確認
Zijian Jiang and Ziming Chen and Tianqi Hou and Haiping Huang(参考訳) 繰り返し非対称結合を持つニューラルネットワークは、脳内でどのようにエピソード記憶がコードされるかを理解するために重要である。 本稿では,連続時間ダイナミクスにおけるシーケンス検索のモデルに,幅広いシナプス統合ウィンドウの実験的観察を統合する。 非正規ニューロン相互作用を持つモデルは、神経力学におけるヤコビ行列のランダム行列理論を導出することにより理論的に研究される。 スペクトルには、原点に関する回転対称性の破れや、スペクトル境界内のネストされた空隙の出現など、いくつかの異なる特徴がある。 したがってスペクトル密度は複素平面内では非均一に分布する。 ランダム行列理論はカオスへの遷移も予測する。 特に、カオスのエッジは、メモリのシーケンシャルな検索に計算上の利点を提供する。 本研究は,任意の時間遅延に対する時間遅延相関を体系的に研究することで,幅広いメモリモデル,さらには生物時系列のビッグデータ解析を後押しすることができる。

Neural networks with recurrent asymmetric couplings are important to understand how episodic memories are encoded in the brain. Here, we integrate the experimental observation of wide synaptic integration window into our model of sequence retrieval in the continuous time dynamics. The model with non-normal neuron-interactions is theoretically studied by deriving a random matrix theory of the Jacobian matrix in neural dynamics. The spectra bears several distinct features, such as breaking rotational symmetry about the origin, and the emergence of nested voids within the spectrum boundary. The spectral density is thus highly non-uniformly distributed in the complex plane. The random matrix theory also predicts a transition to chaos. In particular, the edge of chaos provides computational benefits for the sequential retrieval of memories. Our work provides a systematic study of time-lagged correlations with arbitrary time delays, and thus can inspire future studies of a broad class of memory models, and even big data analysis of biological time series.
翻訳日:2022-08-25 13:34:12 公開日:2022-08-24
# 皮膚疾患診断のための自己監督型コントラスト学習とマスク付きオートエンコーダ

Federated Self-Supervised Contrastive Learning and Masked Autoencoder for Dermatological Disease Diagnosis ( http://arxiv.org/abs/2208.11278v1 )

ライセンス: Link先を確認
Yawen Wu, Dewen Zeng, Zhepeng Wang, Yi Sheng, Lei Yang, Alaina J. James, Yiyu Shi, and Jingtong Hu(参考訳) 皮膚科疾患の診断において, 移動皮膚科補助医が収集した個人データは, 患者の移動体に分散して存在する。 フェデレートラーニング(FL)は、データをローカルに保ちながらモデルをトレーニングするために分散データを使用することができる。 既存のflメソッドは、すべてのデータがラベルを持つと仮定する。 しかし、ラベルのコストが高いため、医療データには完全なラベルがないことが多い。 自己教師付き学習(SSL)法、コントラスト学習(CL)法、マスク付きオートエンコーダ(MAE)法は、ラベルなしデータを事前訓練モデルに活用し、次いでラベル付き微調整を行う。 しかし、SSLとFLの組み合わせにはユニークな課題がある。 例えば、CLは多様なデータを必要とするが、各デバイスは限られたデータしか持たない。 MAEの場合、ビジョントランスフォーマー(ViT)ベースのMAEは集中学習においてCNNよりも精度が高いが、未ラベルデータを用いたFLにおけるMAEの性能は調査されていない。 さらに、サーバとクライアント間のViT同期は、従来のCNNとは異なる。 したがって、特別な同期方法を設計する必要がある。 本研究では,限定ラベルを用いた皮膚疾患診断のための連合型自己教師付き学習フレームワークを2つ提案する。 最初の1つは、モバイルデバイスに適した計算コストの低減だ。 2つ目は、高精度で高性能なサーバに適合する。 clに基づいて,機能共有(fedclf)を用いたフェデレートコントラスト学習を提案する。 機能は、プライバシーのために生データを共有せずに、多様なコントラスト情報のために共有される。 MAEに基づいてFedMAEを提案する。 知識分割は、各クライアントから学んだグローバルとローカルの知識を分離する。 一般化性能を高めるために、グローバルな知識のみを集約する。 皮膚科疾患データセットに関する実験は、最先端技術に対する提案フレームワークの優れた精度を示している。

In dermatological disease diagnosis, the private data collected by mobile dermatology assistants exist on distributed mobile devices of patients. Federated learning (FL) can use decentralized data to train models while keeping data local. Existing FL methods assume all the data have labels. However, medical data often comes without full labels due to high labeling costs. Self-supervised learning (SSL) methods, contrastive learning (CL) and masked autoencoders (MAE), can leverage the unlabeled data to pre-train models, followed by fine-tuning with limited labels. However, combining SSL and FL has unique challenges. For example, CL requires diverse data but each device only has limited data. For MAE, while Vision Transformer (ViT) based MAE has higher accuracy over CNNs in centralized learning, MAE's performance in FL with unlabeled data has not been investigated. Besides, the ViT synchronization between the server and clients is different from traditional CNNs. Therefore, special synchronization methods need to be designed. In this work, we propose two federated self-supervised learning frameworks for dermatological disease diagnosis with limited labels. The first one features lower computation costs, suitable for mobile devices. The second one features high accuracy and fits high-performance servers. Based on CL, we proposed federated contrastive learning with feature sharing (FedCLF). Features are shared for diverse contrastive information without sharing raw data for privacy. Based on MAE, we proposed FedMAE. Knowledge split separates the global and local knowledge learned from each client. Only global knowledge is aggregated for higher generalization performance. Experiments on dermatological disease datasets show superior accuracy of the proposed frameworks over state-of-the-arts.
翻訳日:2022-08-25 13:33:32 公開日:2022-08-24
# TESTSGD:サブセットグループ識別に対するニューラルネットワークの解釈可能なテスト

TESTSGD: Interpretable Testing of Neural Networks Against Subtle Group Discrimination ( http://arxiv.org/abs/2208.11321v1 )

ライセンス: Link先を確認
Mengdi Zhang and Jun Sun and Jingyi Wang and Bing Sun(参考訳) 多くの機械学習アプリケーションで識別が示されており、顔認識、診断、刑罰などの倫理的関連分野に展開する前に十分な公平性テストが必要である。 既存の公正テストアプローチは、主に個人差別、すなわち個人に対する差別を識別するために設計されている。 しかし、差別のタイプに関しても広く研究されているように、主に隠蔽された集団差別に対するテストはあまり研究されていない。 このギャップに対処するため,本研究では,センシティブな特徴の組み合わせに対する条件によって特徴付けられるニューラルネットワークの隠れた部分群識別を体系的に識別し測定する,解釈可能なテスト手法であるtestsgdを提案する。 具体的には、ニューラルネットワークが与えられた場合、TESTSGDは自動的に解釈可能なルールセットを生成し、入力空間をモデルのグループ識別を公開する2つのグループに分類する。 TESTSGDはまた、入力空間のサンプリングに基づいて推定されたグループフェアネススコアを提供し、識別された微妙なグループ識別の度合いを測定する。 構造化データとテキストデータの両方を含む一般的なデータセットでトレーニングされた複数のニューラルネットワークモデルを評価する。 実験の結果,TESTSGDisはこれまでに明らかにされていないような微妙な集団識別を効果的かつ効果的に検出できることが示唆された。 さらに, TESTSGDcanの試験結果から, 未学習の精度低下を伴う再トレーニングにより, 識別を緩和する新しいサンプルを作成した。

Discrimination has been shown in many machine learning applications, which calls for sufficient fairness testing before their deployment in ethic-relevant domains such as face recognition, medical diagnosis and criminal sentence. Existing fairness testing approaches are mostly designed for identifying individual discrimination, i.e., discrimination against individuals. Yet, as another widely concerning type of discrimination, testing against group discrimination, mostly hidden, is much less studied. To address the gap, in this work, we propose TESTSGD, an interpretable testing approach which systematically identifies and measures hidden (which we call `subtle' group discrimination} of a neural network characterized by conditions over combinations of the sensitive features. Specifically, given a neural network, TESTSGDfirst automatically generates an interpretable rule set which categorizes the input space into two groups exposing the model's group discrimination. Alongside, TESTSGDalso provides an estimated group fairness score based on sampling the input space to measure the degree of the identified subtle group discrimination, which is guaranteed to be accurate up to an error bound. We evaluate TESTSGDon multiple neural network models trained on popular datasets including both structured data and text data. The experiment results show that TESTSGDis effective and efficient in identifying and measuring such subtle group discrimination that has never been revealed before. Furthermore, we show that the testing results of TESTSGDcan guide generation of new samples to mitigate such discrimination through retraining with negligible accuracy drop.
翻訳日:2022-08-25 13:33:10 公開日:2022-08-24
# Patchout Spectrogram Transformerによるゼロショットオーディオタグと分類の改善

Improved Zero-Shot Audio Tagging & Classification with Patchout Spectrogram Transformers ( http://arxiv.org/abs/2208.11402v1 )

ライセンス: Link先を確認
Paul Primus and Gerhard Widmer(参考訳) 音響信号のタグ付けと分類のための標準的な機械学習モデルは、トレーニング中に見られなかったクラスを扱えない。 Zero-Shot(ZS)学習は、適応可能なクラス記述に基づいてクラスを予測することによって、この制限を克服する。 本研究では,ZS学習における自己注意型音声埋め込みアーキテクチャの有効性について検討する。 この目的のために、パッチアウト・スペクトログラム変換器を2つの古典的畳み込みアーキテクチャと比較した。 これら3つのアーキテクチャを3つのタスクと3つのベンチマークデータセットで評価する。AudioSetの汎用タグ付け、ESC-50の環境音分類、OpenMICの楽器タグ付けである。 以上の結果から, 自己注意に基づく埋め込み手法は, これらすべての環境における畳み込みアーキテクチャよりも優れていた。 トレーニングデータとテストデータを設計することにより、トレーニングクラスと新しいテストクラスの間の「セマンティクス距離」が大きいと予測性能が著しく低下し、より詳細な調査に値する効果が得られた。

Standard machine learning models for tagging and classifying acoustic signals cannot handle classes that were not seen during training. Zero-Shot (ZS) learning overcomes this restriction by predicting classes based on adaptable class descriptions. This study sets out to investigate the effectiveness of self-attention-based audio embedding architectures for ZS learning. To this end, we compare the very recent patchout spectrogram transformer with two classic convolutional architectures. We evaluate these three architectures on three tasks and on three different benchmark datasets: general-purpose tagging on AudioSet, environmental sound classification on ESC-50, and instrument tagging on OpenMIC. Our results show that the self-attention-based embedding methods outperform both compared convolutional architectures in all of these settings. By designing training and test data accordingly, we observe that prediction performance suffers significantly when the `semantic distance' between training and new test classes is large, an effect that will deserve more detailed investigations.
翻訳日:2022-08-25 13:32:46 公開日:2022-08-24
# ディープラーニングとドメイン外データによる音楽の自動混合

Automatic music mixing with deep learning and out-of-domain data ( http://arxiv.org/abs/2208.11428v1 )

ライセンス: Link先を確認
Marco A. Mart\'inez-Ram\'irez, Wei-Hsiang Liao, Giorgio Fabbro, Stefan Uhlich, Chihiro Nagashima, Yuki Mitsufuji(参考訳) 音楽のミキシングは伝統的に、楽器をクリーンで個々のトラックの形で録音し、オーディオ効果と専門家の知識(例えばミキシングエンジニア)を使って最終的なミキシングにブレンドする。 近年,音楽制作タスクの自動化が新たな分野となり,ルールベースの手法や機械学習アプローチが研究されている。 それでも、ドライまたはクリーンな楽器記録の欠如は、そのようなモデルの性能を制限している。 本研究では,湿地データやマルチトラック音楽記録などの領域外データを使用して,教師付きディープラーニングモデルを訓練し,現在の混合品質のギャップを埋めることができるか検討する。 これを実現するために,モデルが自動音楽混合を可能にする新しいデータプリプロセッシング手法を提案する。 また,音楽混合システム評価のためのリスニングテスト手法も再設計した。 実験の結果は,経験豊富な混合技術者を被験者として,主観的テストにより検証した。

Music mixing traditionally involves recording instruments in the form of clean, individual tracks and blending them into a final mixture using audio effects and expert knowledge (e.g., a mixing engineer). The automation of music production tasks has become an emerging field in recent years, where rule-based methods and machine learning approaches have been explored. Nevertheless, the lack of dry or clean instrument recordings limits the performance of such models, which is still far from professional human-made mixes. We explore whether we can use out-of-domain data such as wet or processed multitrack music recordings and repurpose it to train supervised deep learning models that can bridge the current gap in automatic mixing quality. To achieve this we propose a novel data preprocessing method that allows the models to perform automatic music mixing. We also redesigned a listening test method for evaluating music mixing systems. We validate our results through such subjective tests using highly experienced mixing engineers as participants.
翻訳日:2022-08-25 13:32:30 公開日:2022-08-24
# ニューラルネットワークを用いた二次タンパク質構造予測

Secondary Protein Structure Prediction Using Neural Networks ( http://arxiv.org/abs/2208.11248v1 )

ライセンス: Link先を確認
Sidharth Malhotra, Robin Walters(参考訳) 本稿では,ニューラルネットワーク構造を用いてタンパク質の二次構造({\alpha} helix position)を一次構造(アミノ酸配列)のみから予測する実験を行った。 完全連結ニューラルネットワーク(FCNN)を実装し,そのFCNNを用いて3つの実験を行った。 まず、マウスと人間のデータセットでトレーニングおよびテストされたモデルの種間比較を行う。 次に,モデルに入力するタンパク質配列の長さの違いによる影響を検証した。 第3に、入力ウィンドウの中心に集中するように設計されたカスタムエラー関数を比較する。 論文の最後に,この問題に適用可能な代替的再帰的ニューラルネットワークモデルを提案する。

In this paper we experiment with using neural network structures to predict a protein's secondary structure ({\alpha} helix positions) from only its primary structure (amino acid sequence). We implement a fully connected neural network (FCNN) and preform three experiments using that FCNN. Firstly, we do a cross-species comparison of models trained and tested on mouse and human datasets. Secondly, we test the impact of varying the length of protein sequence we input into the model. Thirdly, we compare custom error functions designed to focus on the center of the input window. At the end of paper we propose a alternative, recurrent neural network model which can be applied to the problem.
翻訳日:2022-08-25 13:29:17 公開日:2022-08-24
# 時系列異常検出モデルの敵意脆弱性の認識に向けて

Towards an Awareness of Time Series Anomaly Detection Models' Adversarial Vulnerability ( http://arxiv.org/abs/2208.11264v1 )

ライセンス: Link先を確認
Shahroz Tariq and Binh M. Le and Simon S. Woo(参考訳) 時系列異常検出は統計学、経済学、計算機科学で広く研究されている。 長年にわたり、深層学習を用いた時系列異常検出のための多くの手法が提案されてきた。 これらの手法の多くは、ベンチマークデータセット上での最先端のパフォーマンスを示し、これらのシステムが多くの実用的および産業的実世界のシナリオで堅牢でデプロイ可能であるという誤った印象を与える。 本稿では,センサデータに小さな対向摂動のみを加えることで,最先端の異常検出手法の性能を著しく劣化させることを実証する。 我々は、エアロスペースアプリケーション、サーバーマシン、電力プラントのサイバー物理システムなど、いくつかのパブリックおよびプライベートデータセットに対して、予測エラー、異常、分類スコアなどのさまざまなスコアを使用する。 高速勾配符号法 (fgsm) と投影勾配降下法 (pgd) によるよく知られた敵意攻撃により, 最先端のディープニューラルネットワーク (dnns) とグラフニューラルネットワーク (gnns) の手法は, 異常に対して頑健であり, 現実のシステムと統合されている可能性があるが, 性能が0%まで低下することを示した。 我々の理解を最大限に活用するために、我々は初めて、敵攻撃に対する異常検出システムの脆弱性を実証した。 本研究の目的は,時系列異常検出装置の敵の脆弱性に対する認識を高めることである。

Time series anomaly detection is extensively studied in statistics, economics, and computer science. Over the years, numerous methods have been proposed for time series anomaly detection using deep learning-based methods. Many of these methods demonstrate state-of-the-art performance on benchmark datasets, giving the false impression that these systems are robust and deployable in many practical and industrial real-world scenarios. In this paper, we demonstrate that the performance of state-of-the-art anomaly detection methods is degraded substantially by adding only small adversarial perturbations to the sensor data. We use different scoring metrics such as prediction errors, anomaly, and classification scores over several public and private datasets ranging from aerospace applications, server machines, to cyber-physical systems in power plants. Under well-known adversarial attacks from Fast Gradient Sign Method (FGSM) and Projected Gradient Descent (PGD) methods, we demonstrate that state-of-the-art deep neural networks (DNNs) and graph neural networks (GNNs) methods, which claim to be robust against anomalies and have been possibly integrated in real-life systems, have their performance drop to as low as 0%. To the best of our understanding, we demonstrate, for the first time, the vulnerabilities of anomaly detection systems against adversarial attacks. The overarching goal of this research is to raise awareness towards the adversarial vulnerabilities of time series anomaly detectors.
翻訳日:2022-08-25 13:29:09 公開日:2022-08-24
# 映像予測としてのロボット運動計画 : 時空間ニューラルネットワークを用いた運動プランナ

Robot Motion Planning as Video Prediction: A Spatio-Temporal Neural Network-based Motion Planner ( http://arxiv.org/abs/2208.11287v1 )

ライセンス: Link先を確認
Xiao Zang, Miao Yin, Lingyi Huang, Jingjin Yu, Saman Zonouz and Bo Yuan(参考訳) ニューラルネットワーク(NN)ベースの手法は、NNモデルの強力な学習能力と本質的に高い並列性により、ロボットの動作計画に魅力的なアプローチとして登場した。 この方向の現在の発展にもかかわらず、重要な逐次的および空間的情報の効率的なキャプチャと処理は、直接的かつ同時的に、比較的未検討のままである。 本稿では、この課題を克服し、動作計画タスクのためのニューラルネットワークの可能性を解き放つために、重要な時空間情報を完全に抽出し活用し、効率的なニューラルモーションプランナーを構築するためのエンドツーエンド学習フレームワークであるSTP-Netを提案する。 ロボットの動きをビデオクリップとして解釈することにより、ロボットの動き計画が、空間的にも時間的にもSTP-Netによって実行できる映像予測タスクに変換される。 STP-Netは、見知らぬ様々な環境において、100%近い精度(つまり成功率)で、計画速度とパスコストの両方に関して非常に有望な性能を示します。 既存のNNベースのモーションプランナーと比較すると、STP-Netは2Dランダムフォレスト、2D迷路、3Dランダムフォレストで少なくとも5倍、2.6倍、1.8倍の速度を実現している。 さらに、マルチロボット動作計画タスクにおいて、STP-Netは複数の近最適経路を迅速かつ同時に計算できる

Neural network (NN)-based methods have emerged as an attractive approach for robot motion planning due to strong learning capabilities of NN models and their inherently high parallelism. Despite the current development in this direction, the efficient capture and processing of important sequential and spatial information, in a direct and simultaneous way, is still relatively under-explored. To overcome the challenge and unlock the potentials of neural networks for motion planning tasks, in this paper, we propose STP-Net, an end-to-end learning framework that can fully extract and leverage important spatio-temporal information to form an efficient neural motion planner. By interpreting the movement of the robot as a video clip, robot motion planning is transformed to a video prediction task that can be performed by STP-Net in both spatially and temporally efficient ways. Empirical evaluations across different seen and unseen environments show that, with nearly 100% accuracy (aka, success rate), STP-Net demonstrates very promising performance with respect to both planning speed and path cost. Compared with existing NN-based motion planners, STP-Net achieves at least 5x, 2.6x and 1.8x faster speed with lower path cost on 2D Random Forest, 2D Maze and 3D Random Forest environments, respectively. Furthermore, STP-Net can quickly and simultaneously compute multiple near-optimal paths in multi-robot motion planning tasks
翻訳日:2022-08-25 13:28:43 公開日:2022-08-24
# ADMoE:雑音ラベルからの混合スペクトルによる異常検出

ADMoE: Anomaly Detection with Mixture-of-Experts from Noisy Labels ( http://arxiv.org/abs/2208.11290v1 )

ライセンス: Link先を確認
Yue Zhao, Guoqing Zheng, Subhabrata Mukherjee, Robert McCann, Ahmed Awadallah(参考訳) 既存の異常検出(AD)の研究は、実際に取得するのに高価な人間のアノテーションからのクリーンなラベルに依存している。 本研究では,マルウェア検出に安価である弱い/ノイズラベル(例えば,マルウェア検出のための機械規則によるリスクスコア)を活用する手法を提案する。 具体的には、ノイズラベルから学習する最初の異常検出アルゴリズムであるADMoEを提案する。 簡単に言うと、ADMoEはMix-of-Experts (MoE)アーキテクチャを活用し、複数のノイズソースからの専門的でスケーラブルな学習を促進する。 モデルパラメータの共有によってノイズラベル間の類似性を捉えると同時に、"エキスパート"サブネットワークの構築による特殊化を奨励する。 ノイズの多いラベルから信号を取り出すために、ADMoEはそれを入力機能として使い、専門家の学習を容易にする。 8つのデータセット(プロプライエタリなエンタープライズセキュリティデータセットを含む)の大規模な結果は、ADMoEの有効性を示している。 また、等価なネットワークパラメータとフロップを持つ合計13のリードベースラインを上回っている。 特にADMoEは、ニューラルネットワークベースの検出手法がノイズラベルを扱えるようにモデルに依存しないため、マルチレイヤパーセプトロン(MLP)とリードADメソッドDeepSADの両方で結果を示す。

Existing works on anomaly detection (AD) rely on clean labels from human annotators that are expensive to acquire in practice. In this work, we propose a method to leverage weak/noisy labels (e.g., risk scores generated by machine rules for detecting malware) that are cheaper to obtain for anomaly detection. Specifically, we propose ADMoE, the first framework for anomaly detection algorithms to learn from noisy labels. In a nutshell, ADMoE leverages mixture-of-experts (MoE) architecture to encourage specialized and scalable learning from multiple noisy sources. It captures the similarities among noisy labels by sharing most model parameters, while encouraging specialization by building "expert" sub-networks. To further juice out the signals from noisy labels, ADMoE uses them as input features to facilitate expert learning. Extensive results on eight datasets (including a proprietary enterprise security dataset) demonstrate the effectiveness of ADMoE, where it brings up to 34% performance improvement over not using it. Also, it outperforms a total of 13 leading baselines with equivalent network parameters and FLOPS. Notably, ADMoE is model-agnostic to enable any neural network-based detection methods to handle noisy labels, where we showcase its results on both multiple-layer perceptron (MLP) and the leading AD method DeepSAD.
翻訳日:2022-08-25 13:28:17 公開日:2022-08-24
# 高速ドロップオンオンデマンドインクジェット印刷におけるアクチュエータ波形の多目的最適化

Multi-objective optimization of actuation waveform for high-precision drop-on-demand inkjet printing ( http://arxiv.org/abs/2208.11301v1 )

ライセンス: Link先を確認
Hanzhi Wang and Yosuke Hasegawa(参考訳) ドロップ・オン・デマンド(dod)インクジェット印刷は、高度な機能性材料の製造に有望な技術の一つと考えられている。 DODプリンタでは、衛星のない小型の液滴を実現するための高精度ディスペンサ技術が長い間望まれてきた。 本研究では, 噴射ノズル上流に位置する液室の流入速度を制御変数とし, 試料効率のよいベイズ最適化アルゴリズムを用いてその波形を最適化することを目的とした。 まず、オープンソースのopenfoamソルバであるinterfoamを用いて、液滴散布ダイナミクスを数値的に再現し、結果をpyfoamに基づいて別のコードに渡す。 そして、DODプリンタを駆動するアクチュエータ波形を特徴付けるパラメータをベイズ最適化(BO)アルゴリズムにより決定し、一次液滴の大きさと衛星液滴の存在量という2つの要素の和として表される所定の多目的関数を最大化する。 その結果,現在のboアルゴリズムは150のシミュレーションで高精度のディスペンサー波形を検出できることがわかった。 具体的には、衛星液滴を効果的に除去することができ、最適な波形を適用することで液滴径をノズル径の24.9%に著しく低減することができる。

Drop-on-demand (DOD) inkjet printing has been considered as one of promising technologies for the fabrication of advanced functional materials. For a DOD printer, high-precision dispensing techniques for achieving satellite-free smaller droplets, have long been desired for patterning thin-film structures. The present study considers the inlet velocity of a liquid chamber located upstream of a dispensing nozzle as a control variable and aims to optimize its waveform using a sample-efficient Bayesian optimization algorithm. Firstly, the droplet dispensing dynamics are numerically reproduced by using an open-source OpenFOAM solver, interFoam, and the results are passed on to another code based on pyFoam. Then, the parameters characterizing the actuation waveform driving a DOD printer are determined by the Bayesian optimization (BO) algorithm so as to maximize a prescribed multi-objective function expressed as the sum of two factors, i.e., the size of a primary droplet and the presence of satellite droplets. The results show that the present BO algorithm can successfully find high-precision dispensing waveforms within 150 simulations. Specifically, satellite droplets can be effectively eliminated and the droplet diameter can be significantly reduced to 24.9% of the nozzle diameter by applying the optimal waveform.
翻訳日:2022-08-25 13:27:55 公開日:2022-08-24
# 固有分解に基づく公平主成分分析への新しいアプローチ

A novel approach for Fair Principal Component Analysis based on eigendecomposition ( http://arxiv.org/abs/2208.11362v1 )

ライセンス: Link先を確認
Guilherme Dean Pelegrina and Leonardo Tomazeli Duarte(参考訳) 信号処理におけるユビキタス次元の低減手法である主成分分析(PCA)は、削減されたデータセットと元のデータの間の平均2乗誤差を最小化する投影行列を探索する。 古典的なpcaはフェアネスに関する懸念に対処するために調整されていないため、実際の問題への適用は、異なるグループのレコンストラクションエラー(例えば、男女、白人、黒人など)に格差をもたらし、敏感なグループに対するバイアスの導入のような潜在的に有害な結果をもたらす可能性がある。 近年,PCAの公平なバージョンがいくつか提案されているが,実際のシステムに展開可能なアルゴリズムの探索には,依然として根本的なギャップが残っている。 そこで本研究では,PCAの閉形式解を利用した一次元探索による簡単な戦略を用いて,公平性問題に対処する新しいPCAアルゴリズムを提案する。 数値実験によって実証されたように、この提案は、全体の復元誤差が極めて小さく、複雑な最適化方式に頼らずに、公平性を著しく改善することができる。 さらに,不均衡なデータセットとバランスの取れないデータセットの両方のシナリオにおいても,いくつかの実環境においても結果が一致している。

Principal component analysis (PCA), a ubiquitous dimensionality reduction technique in signal processing, searches for a projection matrix that minimizes the mean squared error between the reduced dataset and the original one. Since classical PCA is not tailored to address concerns related to fairness, its application to actual problems may lead to disparity in the reconstruction errors of different groups (e.g., men and women, whites and blacks, etc.), with potentially harmful consequences such as the introduction of bias towards sensitive groups. Although several fair versions of PCA have been proposed recently, there still remains a fundamental gap in the search for algorithms that are simple enough to be deployed in real systems. To address this, we propose a novel PCA algorithm which tackles fairness issues by means of a simple strategy comprising a one-dimensional search which exploits the closed-form solution of PCA. As attested by numerical experiments, the proposal can significantly improve fairness with a very small loss in the overall reconstruction error and without resorting to complex optimization schemes. Moreover, our findings are consistent in several real situations as well as in scenarios with both unbalanced and balanced datasets.
翻訳日:2022-08-25 13:27:31 公開日:2022-08-24
# ファジィハッシュを用いた変圧器ブースト異常検出

Transformer-Boosted Anomaly Detection with Fuzzy Hashes ( http://arxiv.org/abs/2208.11367v1 )

ライセンス: Link先を確認
Frieder Uhlig, Lukas Struppek, Dominik Hintersdorf, Kristian Kersting(参考訳) ファジィハッシュはデジタル法医学において重要なツールであり、デジタルアーティファクト間の類似性を決定するために近似マッチングで使用される。 ファイルのバイトコードを計算可能な文字列に変換することで、インテリジェントなマシン処理において特に興味深いものになります。 本研究では,ファジィハッシュの異常検出において,従来の手法よりもはるかに高精度な深層学習近似マッチング(DLAM)を提案する。 クラスタリングマルウェアのよく知られたアプリケーションに加えて、ファジィハッシュとディープラーニングが、マルウェアのような特定のコンテンツの存在に応じてファイルを分類するのに適していることを示す。 DLAMは自然言語処理の分野でトランスフォーマーベースのモデルに依存し、既存の手法より優れている。 tlshやssdeepのような従来のファジィハッシュはサイズが限られており、ファイルサイズに比べて比較的小さい場合はファイル異常を検出することができない。 しかし、DLAMは、15%未満の異常サイズであっても、TLSHとssdeepの計算されたファジィハッシュにおけるそのようなファイル相関を検出することができる。 より効率的なハッシュ計算を頼りながら、最先端のファジィハッシュアルゴリズムに匹敵する結果を達成し、それ故にはるかに大きなスケールで使用できる。

Fuzzy hashes are an important tool in digital forensics and are used in approximate matching to determine the similarity between digital artifacts. They translate the byte code of files into computable strings, which makes them particularly interesting for intelligent machine processing. In this work, we propose deep learning approximate matching (DLAM), which achieves much higher accuracy in detecting anomalies in fuzzy hashes than conventional approaches. In addition to the well-known application for clustering malware, we show that fuzzy hashes and deep learning are indeed well-suited to classify files according to the presence of certain content, e.g., malware. DLAM relies on transformer-based models from the field of natural language processing and outperforms existing methods. Traditional fuzzy hashes like TLSH and ssdeep have a limited size and fail to detect file anomalies if they are relatively small compared to the overall file size. DLAM, however, enables the detection of such file correlations in the computed fuzzy hashes of TLSH and ssdeep, even for anomaly sizes of less than 15%. It achieves comparable results to state-of-the-art fuzzy hashing algorithms while relying on more efficient hash computations and can, therefore, be used at a much larger scale.
翻訳日:2022-08-25 13:27:11 公開日:2022-08-24
# 不確実性定量化によるNRLMSIS 2.0モデルの校正と拡張

Calibrated and Enhanced NRLMSIS 2.0 Model with Uncertainty Quantification ( http://arxiv.org/abs/2208.11619v1 )

ライセンス: Link先を確認
Richard J. Licata, Piyush M. Mehta, Daniel R. Weimer, W. Kent Tobiska, Jean Yoshii(参考訳) 質量分析計と非コヒーレント散乱レーダー(MSIS)モデルは1970年代初頭から開発・改良されている。 MSISの最新のバージョンは、海軍研究所 (NRL) MSIS 2.0 経験的大気モデルである。 NRLMSIS 2.0は、種密度、質量密度、温度推定を場所と宇宙の気象条件の関数として提供する。 MSISモデルは長い間、研究と運用のコミュニティでも一般的な大気モデル選択であったが、多くのモデルと同様に、不確実性評価を提供していない。 本研究では, NRLMSIS 2.0と併用して高忠実度衛星密度推定値に対する校正を行うことができる機械学習(ML)に基づく球面温度モデルを開発する。 我々のモデル(MSIS-UQ)は、点推定を提供する代わりに、キャリブレーション誤差スコアと呼ばれる計量を用いて評価された分布を出力する。 MSIS-UQはNRLMSIS 2.0を除染し、モデルと衛星密度の25%の差を小さくし、宇宙軍の高精度衛星ドラッグモデルよりも衛星密度に11%近いことを示す。 また,種密度,質量密度,温度の高度プロファイルを生成することにより,モデルの不確実性推定能力を示す。 このことは、NRLMSIS 2.0内の密度と温度分布にどのように影響するかを明確に示している。 別の研究では、ストーム後のオーバークーリング能力がnrlmsis 2.0単独で改善され、捕獲できる現象が強化された。

The Mass Spectrometer and Incoherent Scatter radar (MSIS) model family has been developed and improved since the early 1970's. The most recent version of MSIS is the Naval Research Laboratory (NRL) MSIS 2.0 empirical atmospheric model. NRLMSIS 2.0 provides species density, mass density, and temperature estimates as function of location and space weather conditions. MSIS models have long been a popular choice of atmosphere model in the research and operations community alike, but - like many models - does not provide uncertainty estimates. In this work, we develop an exospheric temperature model based in machine learning (ML) that can be used with NRLMSIS 2.0 to calibrate it relative to high-fidelity satellite density estimates. Instead of providing point estimates, our model (called MSIS-UQ) outputs a distribution which is assessed using a metric called the calibration error score. We show that MSIS-UQ debiases NRLMSIS 2.0 resulting in reduced differences between model and satellite density of 25% and is 11% closer to satellite density than the Space Force's High Accuracy Satellite Drag Model. We also show the model's uncertainty estimation capabilities by generating altitude profiles for species density, mass density, and temperature. This explicitly demonstrates how exospheric temperature probabilities affect density and temperature profiles within NRLMSIS 2.0. Another study displays improved post-storm overcooling capabilities relative to NRLMSIS 2.0 alone, enhancing the phenomena that it can capture.
翻訳日:2022-08-25 13:26:49 公開日:2022-08-24
# 大規模MIMO CSIフィードバックの深層学習性能向上

Enhancing Deep Learning Performance of Massive MIMO CSI Feedback ( http://arxiv.org/abs/2208.11333v1 )

ライセンス: Link先を確認
Sijie Ji, Mo Li(参考訳) mimo(massive multi-input multiple-output)技術では、csiフィードバックがサブチャネル数とアンテナ数に比例するため、csiフィードバックが重要な問題である。 深層学習に基づくcsiフィードバック手法は,その優れた性能から近年広く採用されている。 この成功にもかかわらず、現在のアプローチではcsiデータの特徴とディープラーニングフレームワークの関係を十分に活用していない。 本稿では,従来のCSIと圧縮CSIの相互情報を最大化することにより,深層学習に基づくMIMO CSIフィードバックアプローチを強化するためのJPTS(jigsaw puzzles aided Training Strategy)を提案する。 既存の最先端手法の上にJPTSを適用する。 実験結果から, 室内環境, 屋外環境において, 平均で12.07%, 7.01%の精度向上が可能であることが示唆された。 提案手法は,M Massive MIMO CSIフィードバックによる既存のディープラーニングフレームワークに適用可能である。 JPTSのコードは再現性のためにGitHubで入手できる。

CSI feedback is an important problem of Massive multiple-input multiple-output (MIMO) technology because the feedback overhead is proportional to the number of sub-channels and the number of antennas, both of which scale with the size of the Massive MIMO system. Deep learning-based CSI feedback methods have been widely adopted recently owing to their superior performance. Despite the success, current approaches have not fully exploited the relationship between the characteristics of CSI data and the deep learning framework. In this paper, we propose a jigsaw puzzles aided training strategy (JPTS) to enhance the deep learning-based Massive MIMO CSI feedback approaches by maximizing mutual information between the original CSI and the compressed CSI. We apply JPTS on top of existing state-of-the-art methods. Experimental results show that by adopting this training strategy, the accuracy can be boosted by 12.07% and 7.01% on average in indoor and outdoor environments, respectively. The proposed method is ready to adopt to existing deep learning frameworks of Massive MIMO CSI feedback. Codes of JPTS are available on GitHub for reproducibility.
翻訳日:2022-08-25 13:23:21 公開日:2022-08-24
# CheapET-3:リモートDNNモデルの費用効率向上

CheapET-3: Cost-Efficient Use of Remote DNN Models ( http://arxiv.org/abs/2208.11552v1 )

ライセンス: Link先を確認
Michael Weiss(参考訳) 複雑な問題では、数十億のパラメータからなる非常に大規模なモデルを使用して、ディープニューラルネットワーク(dnn)の技術予測精度を実現できる。 このようなモデルは、通常はサードパーティサービスが提供する専用サーバ上でのみ実行されるため、予測毎にかなりの金銭的コストがかかる。 クライアント側アプリケーションのための新しいソフトウェアアーキテクチャを提案する。このアーキテクチャでは、小さなローカルDNNを遠隔の大規模モデルと一緒に使用し、未払いの金銭的コストでローカルに簡単に予測できると同時に、大きなモデルの利点を利用して入力に挑戦することを目的としている。 概念実証では,システム精度に悪影響を及ぼすことなく,予測コストを最大50%削減する。

On complex problems, state of the art prediction accuracy of Deep Neural Networks (DNN) can be achieved using very large-scale models, consisting of billions of parameters. Such models can only be run on dedicated servers, typically provided by a 3rd party service, which leads to a substantial monetary cost for every prediction. We propose a new software architecture for client-side applications, where a small local DNN is used alongside a remote large-scale model, aiming to make easy predictions locally at negligible monetary cost, while still leveraging the benefits of a large model for challenging inputs. In a proof of concept we reduce prediction cost by up to 50% without negatively impacting system accuracy.
翻訳日:2022-08-25 13:22:54 公開日:2022-08-24
# False InformationとFact Checking Ecosystemsのグラフモデル

Graphical Models of False Information and Fact Checking Ecosystems ( http://arxiv.org/abs/2208.11582v1 )

ライセンス: Link先を確認
Haiyue Yuan, Enes Altuncu, Shujun Li, Can Baskent(参考訳) 偽情報や偽情報の拡散は、我々の高度にデジタル化されグローバル化された社会にとって大きな問題となっている。 さまざまなアクタの行動や拡散パターンなど、オンライン上の偽情報のさまざまな側面をより深く理解するために、多くの研究が行われており、技術的および社会技術的手段による偽情報の検出と防止も行われている。 オンラインで偽情報を検出してデバンクする主要なアプローチのひとつは、人間のファクトチェッカーを使用することだ。 多くの研究が行われたにもかかわらず、偽情報と事実チェックの複雑なエコシステムを記述する概念モデルが欠如していることに気づいた。 本稿では,従来のメディアメディアやユーザ生成コンテンツなど,複数のコンテキストにおける偽情報に着目した,このようなエコシステムの最初のグラフィカルモデルについて報告する。 提案したモデルは、幅広いエンティティタイプと関係をカバーし、研究者や実践者が偽情報や事実チェックの効果をオンラインで研究する上で有用なツールとなる。

The wide spread of false information online including misinformation and disinformation has become a major problem for our highly digitised and globalised society. A lot of research has been done to better understand different aspects of false information online such as behaviours of different actors and patterns of spreading, and also on better detection and prevention of such information using technical and socio-technical means. One major approach to detect and debunk false information online is to use human fact-checkers, who can be helped by automated tools. Despite a lot of research done, we noticed a significant gap on the lack of conceptual models describing the complicated ecosystems of false information and fact checking. In this paper, we report the first graphical models of such ecosystems, focusing on false information online in multiple contexts, including traditional media outlets and user-generated content. The proposed models cover a wide range of entity types and relationships, and can be a new useful tool for researchers and practitioners to study false information online and the effects of fact checking.
翻訳日:2022-08-25 13:22:43 公開日:2022-08-24
# ほぼ世代の修復: llmsによる多言語プログラムの修復

Repair Is Nearly Generation: Multilingual Program Repair with LLMs ( http://arxiv.org/abs/2208.11640v1 )

ライセンス: Link先を確認
Harshit Joshi, Jos\'e Cambronero, Sumit Gulwani, Vu Le, Ivan Radicek, Gust Verbruggen(参考訳) ほとんどのプログラマはコードを書くときに間違いを犯します。 これらのミスのいくつかは小さく、オリジナルのプログラムの編集をほとんど必要としない。 これらのエラーは、経験豊富な開発者にとっての流れを壊し、初心者プログラマを驚かせます。 このタイプのエラーを対象とする既存の自動修復技術はドメイン固有であり、新しいドメインに簡単には受け継がれない。 シンボリックアプローチの転送には相当なエンジニアリングが必要であり、ニューラルアプローチにはデータと再トレーニングが必要である。 我々は,codexのような大規模言語モデル(llmc)を活用した多言語補修エンジンであるringを紹介する。 このような多言語エンジンは、プログラマがコードを書き、AIアシストが修正を提案する、従来のコード提案技術と比較して、プログラムアシストのためのフリップモデルを可能にする。 プログラマが手動でバグを修正する方法からインスピレーションを得て、修復をローカライズ、トランスフォーメーション、候補ランキングとして概念化するプロンプトベースの戦略が、最小限の努力で複数のドメインでのプログラムの修復に成功できることを示す。 6つの異なる領域で評価し,ドメイン固有の補修エンジンの性能を比較することで,このような多言語補修エンジンの最初の結果を示す。 これらのドメインのうち3つにおいて,リングはドメイン固有の修理エンジンよりも優れた性能を示す。 また,多言語補綴のためのllmcsを用いた今後の研究の方向性を明らかにする。

Most programmers make mistakes when writing code. Some of these mistakes are small and require few edits to the original program - a class of errors recently termed last mile mistakes. These errors break the flow for experienced developers and can stump novice programmers. Existing automated repair techniques targeting this class of errors are domain-specific and do not easily carry over to new domains. Transferring symbolic approaches requires substantial engineering and neural approaches require data and retraining. We introduce RING, a multilingual repair engine powered by a large language model trained on code (LLMC) such as Codex. Such a multilingual engine enables a flipped model for programming assistance, one where the programmer writes code and the AI assistance suggests fixes, compared to traditional code suggestion technology. Taking inspiration from the way programmers manually fix bugs, we show that a prompt-based strategy that conceptualizes repair as localization, transformation, and candidate ranking, can successfully repair programs in multiple domains with minimal effort. We present the first results for such a multilingual repair engine by evaluating on 6 different domains and comparing performance to domain-specific repair engines. We show that RING can outperform domain-specific repair engines in 3 of these domains. We also identify directions for future research using LLMCs for multilingual repair.
翻訳日:2022-08-25 13:22:28 公開日:2022-08-24
# 線形回帰係数の外部ロバストとスパース推定

Outlier Robust and Sparse Estimation of Linear Regression Coefficients ( http://arxiv.org/abs/2208.11592v1 )

ライセンス: Link先を確認
Takeyuki Sasai and Hironori Fujisawa(参考訳) 共変量と雑音をそれぞれサンプルとした場合の線形回帰係数は,それぞれ$\mathfrak{L}$-subGaussian分布とヘビーテール分布から,それぞれ外変量とスパース推定を考察し,逆数外変量によって共変量とノイズが汚染されることを示した。 共変量の未知あるいは未知の共変の2つのケースを扱う。 特に, 前者の場合, 推定器はほぼ情報理論上の最適誤差境界に達し, 同様の状況を扱う以前の研究よりも誤差境界が鋭い。 我々の推定器解析は、鋭い誤差境界を導出するためにジェネリックチェインに大きく依存している。

We consider outlier robust and sparse estimation of linear regression coefficients when covariates and noise are sampled, respectively, from an $\mathfrak{L}$-subGaussian distribution and a heavy-tailed distribution, and additionally, the covariates and noise are contaminated by adversarial outliers. We deal with two cases: known or unknown covariance of the covariates. Particularly, in the former case, our estimator attains nearly information theoretical optimal error bound, and our error bound is sharper than that of earlier studies dealing with similar situations. Our estimator analysis relies heavily on Generic Chaining to derive sharp error bounds.
翻訳日:2022-08-25 13:22:09 公開日:2022-08-24
# treewidthベースの問題解決のための高度なツールと手法 -extended abstract

Advanced Tools and Methods for Treewidth-Based Problem Solving -- Extended Abstract ( http://arxiv.org/abs/2208.11340v1 )

ライセンス: Link先を確認
Markus Hecher(参考訳) よく知られたブール適合性問題(Sat)を解決するためのコンピュータプログラムは、数十年にわたって改善されてきた。 これらの解法が高速である理由は、解法中の公式の構造的性質を暗黙的に用いているからである。 そのような構造的指標の1つは、いわゆるtreewidthであり、式インスタンスが(ツリーのような)容易さにどれだけ近いかを測定する。 この研究は、論理ベースの問題とツリー幅ベースの方法とそれを解決するツールに焦点を当てている。 これらの問題の多くは、知識表現と推論(KR)、一般の人工知能(AI)にも関係している。 本稿では,分解誘導(DG)と呼ばれる新しいタイプの問題削減について述べる。 この還元型は2004年以来開いている有界木幅の量子化ブール公式(qbfs)の問題を解決する基礎となっている。 この問題の解決策は、論理学、KR、AIのさらなる形式主義の分野において、正確な下限を証明する新しい方法論を生み出した。 確立された下限にもかかわらず,treewidth を用いて sat の拡張を効率的に解くアルゴリズムを実装した。 私たちの実装は、インスタンスの抽象化を見つけることに基づいています。 したがって,木幅は現代の解法の設計において考慮すべき重要な指標であることを確認した。

Computer programs, so-called solvers, for solving the well-known Boolean satisfiability problem (Sat) have been improving for decades. Among the reasons, why these solvers are so fast, is the implicit usage of the formula's structural properties during solving. One of such structural indicators is the so-called treewidth, which tries to measure how close a formula instance is to being easy (tree-like). This work focuses on logic-based problems and treewidth-based methods and tools for solving them. Many of these problems are also relevant for knowledge representation and reasoning (KR) as well as artificial intelligence (AI) in general. We present a new type of problem reduction, which is referred to by decomposition-guided (DG). This reduction type forms the basis to solve a problem for quantified Boolean formulas (QBFs) of bounded treewidth that has been open since 2004. The solution of this problem then gives rise to a new methodology for proving precise lower bounds for a range of further formalisms in logic, KR, and AI. Despite the established lower bounds, we implement an algorithm for solving extensions of Sat efficiently, by directly using treewidth. Our implementation is based on finding abstractions of instances, which are then incrementally refined in the process. Thereby, our observations confirm that treewidth is an important measure that should be considered in the design of modern solvers.
翻訳日:2022-08-25 13:21:56 公開日:2022-08-24
# プライバシーに配慮したカメラの設計について:ディープニューラルネットワークに関する研究

On the Design of Privacy-Aware Cameras: a Study on Deep Neural Networks ( http://arxiv.org/abs/2208.11372v1 )

ライセンス: Link先を確認
Marcela Carvalho, Oussama Ennaffi, Sylvain Chateau, Samy Ait Bachir(参考訳) 個人データ保護の法的進歩にもかかわらず、個人データが不正な団体によって誤用されるという問題は、いまだに極めて重要である。 これを防ぐため、プライバシ・バイ・デザインはデータ保護のソリューションとしてしばしば提案される。 本稿では,感性データ抽出によく用いられるDeep Learning技術を用いて,カメラ歪みの影響について検討する。 そこで本研究では,単色カメラからのグレースケール画像に加えて,焦点距離,開口,焦点を固定した実写的な従来型カメラに対応する焦点外像をシミュレートする。 そして、実験により、ライセンスプレート番号などの個人情報を抽出できないプライバシーに配慮したカメラを構築することができることを証明した。 同時に,歪んだ画像から有用な非センシティブなデータを抽出できることを確認した。 コードはhttps://github.com/upciti/privacy-by-design-semsegで入手できる。

In spite of the legal advances in personal data protection, the issue of private data being misused by unauthorized entities is still of utmost importance. To prevent this, Privacy by Design is often proposed as a solution for data protection. In this paper, the effect of camera distortions is studied using Deep Learning techniques commonly used to extract sensitive data. To do so, we simulate out-of-focus images corresponding to a realistic conventional camera with fixed focal length, aperture, and focus, as well as grayscale images coming from a monochrome camera. We then prove, through an experimental study, that we can build a privacy-aware camera that cannot extract personal information such as license plate numbers. At the same time, we ensure that useful non-sensitive data can still be extracted from distorted images. Code is available at https://github.com/upciti/privacy-by-design-semseg .
翻訳日:2022-08-25 13:18:18 公開日:2022-08-24
# ベクトルメディア通信におけるWebRTCの適応QoS

Adaptive QoS of WebRTC for Vehicular Media Communications ( http://arxiv.org/abs/2208.11405v1 )

ライセンス: Link先を確認
\'Angel Mart\'in, Daniel Mej\'ias, Zaloa Fern\'andez, Roberto Viola, Josu P\'erez, Mikel Garc\'ia, Gorka Velez, Jon Montalb\'an and Pablo Angueira(参考訳) 搭載システム用のセンサーを出荷する車両は接続性を高めている。 これにより、情報共有は環境をより包括的に理解することができる。 しかし、公共の携帯電話ネットワークを通じてのピア通信は複数のネットワークハードルをもたらし、通信を中継するネットワーク内システムを必要とし、直接接続できないパーティを接続する。 Web Real-Time Communication(WebRTC)は、セキュリティハンドシェイクに標準プロトコルを導入し、パブリックIPを発見し、NAT(Transverse Network Address Translation)システムを実現すると同時に、低レイテンシ通信を可能にするため、車間でのメディアストリーミングに好適な候補である。 しかし、中継と受信をリレーで切り離すインフラにおけるエンドツーエンドのQuality of Service (QoS) 適応には、映像ストリームをネットワーク容量に効率的に適応させるメカニズムが必要である。 そこで本研究では,帯域幅やラウンドトリップ時間などのリアルタイムトランスポート制御プロトコル(RTCP)のメトリクスを利用して,解像度,フレームレート,ビットレートの変化を適用する機構について検討する。 このソリューションは、受信したオンボードシステムが関連する情報を時間内に確実に取得することを目的としている。 実5Gテストベッドにおいて,QoS適応に異なるアプローチを適用する場合のエンドツーエンドスループット効率と反応時間への影響を解析した。

Vehicles shipping sensors for onboard systems are gaining connectivity. This enables information sharing to realize a more comprehensive understanding of the environment. However, peer communication through public cellular networks brings multiple networking hurdles to address, needing in-network systems to relay communications and connect parties that cannot connect directly. Web Real-Time Communication (WebRTC) is a good candidate for media streaming across vehicles as it enables low latency communications, while bringing standard protocols to security handshake, discovering public IPs and transverse Network Address Translation (NAT) systems. However, the end-to-end Quality of Service (QoS) adaptation in an infrastructure where transmission and reception are decoupled by a relay, needs a mechanism to adapt the video stream to the network capacity efficiently. To this end, this paper investigates a mechanism to apply changes on resolution, framerate and bitrate by exploiting the Real Time Transport Control Protocol (RTCP) metrics, such as bandwidth and round-trip time. The solution aims to ensure that the receiving onboard system gets relevant information in time. The impact on end-to-end throughput efficiency and reaction time when applying different approaches to QoS adaptation are analyzed in a real 5G testbed.
翻訳日:2022-08-25 13:18:02 公開日:2022-08-24
# マスク画像モデルを用いた深層学習によるアンサンプk空間の再構成

A Deep Learning Approach Using Masked Image Modeling for Reconstruction of Undersampled K-spaces ( http://arxiv.org/abs/2208.11472v1 )

ライセンス: Link先を確認
Kyler Larsen, Arghya Pal and Yogesh Rathi(参考訳) 磁気共鳴イメージング(MRI)スキャンは、長期にわたり患者が限られた空間に留まっているため、時間がかかり、不安定である。 スキャン時間を短縮するため、一部の専門家はサンプルの少ないk空間を実験し、ディープラーニングを使って完全なサンプル結果を予測する。 これらの研究は、1時間以上かかるスキャンから最大20分から30分を節約できると報告しています。 しかしながら、これらの研究は、mri k空間の欠落部分を予測するためにマスク画像モデリング(mim)を使用する可能性を探求していない。 本研究では、FacebookのFastmriデータセットから、11161個の再構成MRIと膝関節MRI画像のk空間を利用する。 このテストでは、ベースラインシフトウィンドウ(swin)と視覚トランスフォーマーアーキテクチャを使用して既存のモデルの修正版をテストする。 変更はpytorchとnumpyライブラリを使用して行われ、githubリポジトリに公開された。 モデルがk空間像を再構成した後、基本フーリエ変換を適用して実際のMRI画像を決定する。 モデルが定常状態に達すると、ハイパーパラメータの実験は再構成された画像のピンポイント精度を達成するのに役立った。 このモデルは,L1損失,勾配正規化,構造類似性値を用いて評価した。 モデルでは,L1損失値が0.01に,勾配正規化値が0.1に向上した。 再構成されたk空間は、完全サンプルk空間でのトレーニングと検証の両方において99%以上の構造的類似性値を得た。 これらのデータは、モデルが再構成された画像が元の完全にサンプリングされたk空間と非常によく一致していることを示すため、アルゴリズムがMRI再構成に有効であるという考えを強く支持する。

Magnetic Resonance Imaging (MRI) scans are time consuming and precarious, since the patients remain still in a confined space for extended periods of time. To reduce scanning time, some experts have experimented with undersampled k spaces, trying to use deep learning to predict the fully sampled result. These studies report that as many as 20 to 30 minutes could be saved off a scan that takes an hour or more. However, none of these studies have explored the possibility of using masked image modeling (MIM) to predict the missing parts of MRI k spaces. This study makes use of 11161 reconstructed MRI and k spaces of knee MRI images from Facebook's fastmri dataset. This tests a modified version of an existing model using baseline shifted window (Swin) and vision transformer architectures that makes use of MIM on undersampled k spaces to predict the full k space and consequently the full MRI image. Modifications were made using pytorch and numpy libraries, and were published to a github repository. After the model reconstructed the k space images, the basic Fourier transform was applied to determine the actual MRI image. Once the model reached a steady state, experimentation with hyperparameters helped to achieve pinpoint accuracy for the reconstructed images. The model was evaluated through L1 loss, gradient normalization, and structural similarity values. The model produced reconstructed images with L1 loss values averaging to <0.01 and gradient normalization values <0.1 after training finished. The reconstructed k spaces yielded structural similarity values of over 99% for both training and validation with the fully sampled k spaces, while validation loss continually decreased under 0.01. These data strongly support the idea that the algorithm works for MRI reconstruction, as they indicate the model's reconstructed image aligns extremely well with the original, fully sampled k space.
翻訳日:2022-08-25 13:17:42 公開日:2022-08-24
# ゾーンベース分類器を用いた前立腺病変の検出と特徴評価

Prostate Lesion Detection and Salient Feature Assessment Using Zone-Based Classifiers ( http://arxiv.org/abs/2208.11522v1 )

ライセンス: Link先を確認
Haoli Yin, Nithin Buduma(参考訳) マルチパラメトリックMRI(Multi-parametric magnetic resonance imaging)は前立腺癌の病変の検出において役割を担っている。 したがって、これらのスキャンを解釈する医療専門家は、コンピュータ支援検出システムを使用することで、ヒューマンエラーのリスクを低減できる。 しかし、システム実装で使われる様々なアルゴリズムは、様々な結果をもたらした。 本稿では,各前立腺領域に最適な機械学習分類器について検討する。 また,モデルの分類の根拠を明らかにするために有意な特徴を見出した。 提供したデータのうち,t2重み付き画像と見かけの拡散係数マップ画像を収集・拡張し,機械学習分類器への入力として第1から第3次統計的特徴を抽出する。 ディープラーニング分類器では,自動特徴抽出と分類のために畳み込みニューラルネットワーク(cnn)アーキテクチャを用いた。 cnnの結果の解釈性は, 塩分マッピングによって改善され, 内部分類機構が理解された。 最終的に, 末梢および前線維筋肉腫 (AS) 病変の効果的な検出は, 統計的分布に大きく依存するが, 遷移帯 (TZ) 病変はテクスチャ的特徴に大きく依存することがわかった。 アンサンブルアルゴリズムはPZゾーンとTZゾーンで最適であり、CNNはASゾーンで最適であった。 これらの分類器は、放射線技師の予測を検証し、前立腺癌と疑われる患者において、読取者間の変動を低減するために使用できる。 本研究は, mpMRIによる前立腺病変の隠れた特徴とバイオマーカーをより深く理解するために, より精査することができる。

Multi-parametric magnetic resonance imaging (mpMRI) has a growing role in detecting prostate cancer lesions. Thus, it is pertinent that medical professionals who interpret these scans reduce the risk of human error by using computer-aided detection systems. The variety of algorithms used in system implementation, however, has yielded mixed results. Here we investigate the best machine learning classifier for each prostate zone. We also discover salient features to clarify the models' classification rationale. Of the data provided, we gathered and augmented T2 weighted images and apparent diffusion coefficient map images to extract first through third order statistical features as input to machine learning classifiers. For our deep learning classifier, we used a convolutional neural net (CNN) architecture for automatic feature extraction and classification. The interpretability of the CNN results was improved by saliency mapping to understand the classification mechanisms within. Ultimately, we concluded that effective detection of peripheral and anterior fibromuscular stroma (AS) lesions depended more on statistical distribution features, whereas those in the transition zone (TZ) depended more on textural features. Ensemble algorithms worked best for PZ and TZ zones, while CNNs were best in the AS zone. These classifiers can be used to validate a radiologist's predictions and reduce inter-reader variability in patients suspected to have prostate cancer. The salient features reported in this study can also be investigated further to better understand hidden features and biomarkers of prostate lesions with mpMRIs.
翻訳日:2022-08-25 13:17:13 公開日:2022-08-24
# 猫:セグメンテーションのための相補的cnnおよびトランスエンコーダ

Cats: Complementary CNN and Transformer Encoders for Segmentation ( http://arxiv.org/abs/2208.11572v1 )

ライセンス: Link先を確認
Hao Li, Dewei Hu, Han Liu, Jiacheng Wang, Ipek Oguz(参考訳) 近年,多くの医用画像セグメンテーションタスクにおいて,深層学習が最先端のパフォーマンスを実現している。 これらの多くは畳み込みニューラルネットワーク(CNN)に基づいている。 このような方法では、エンコーダは入力画像からグローバルおよびローカル情報を抽出する鍵となる部分であり、抽出された特徴をデコーダに渡してセグメンテーションを予測する。 対照的に、最近のいくつかの作品は、長距離空間依存をモデル化し、低レベルの詳細をキャプチャできるトランスフォーマーの使用により優れた性能を示している。 しかし、コンボリューションベースのエンコーダを効率的に置き換えることができないタスクでは、唯一のエンコーダとしてのトランスフォーマーは性能が低い。 本稿では,生体医用画像分割のための二重エンコーダを用いたモデルを提案する。 我々のモデルは独立トランスエンコーダを備えたU字型CNNである。 畳み込みエンコーダと変換器の情報を融合してデコーダに渡して結果を得る。 BTCV, MoDA, Decathlonの3つの課題から, 提案手法の評価を行った。 各タスクにおける変圧器の有無と最先端のモデルと比較して,提案手法はボード全体で高いディススコアを得る。

Recently, deep learning methods have achieved state-of-the-art performance in many medical image segmentation tasks. Many of these are based on convolutional neural networks (CNNs). For such methods, the encoder is the key part for global and local information extraction from input images; the extracted features are then passed to the decoder for predicting the segmentations. In contrast, several recent works show a superior performance with the use of transformers, which can better model long-range spatial dependencies and capture low-level details. However, transformer as sole encoder underperforms for some tasks where it cannot efficiently replace the convolution based encoder. In this paper, we propose a model with double encoders for 3D biomedical image segmentation. Our model is a U-shaped CNN augmented with an independent transformer encoder. We fuse the information from the convolutional encoder and the transformer, and pass it to the decoder to obtain the results. We evaluate our methods on three public datasets from three different challenges: BTCV, MoDA and Decathlon. Compared to the state-of-the-art models with and without transformers on each task, our proposed method obtains higher Dice scores across the board.
翻訳日:2022-08-25 13:16:47 公開日:2022-08-24
# スライディングウインドウリカレントネットワークによる高能率ビデオ高分解能化

Sliding Window Recurrent Network for Efficient Video Super-Resolution ( http://arxiv.org/abs/2208.11608v1 )

ライセンス: Link先を確認
Wenyi Lian, Wenjing Lian(参考訳) ビデオ超解像(VSR)は、低解像度入力のシーケンスから高解像度フレームを復元するタスクである。 単一画像の超解像とは異なり、VSRはフレームの時間情報を利用して結果をより詳細に再構成することができる。 近年、畳み込みニューラルネットワーク(CNN)の急速な発展に伴い、VSRタスクが注目され、多くのCNNベースの手法が顕著な成果を上げている。 しかしながら、計算資源とランタイム制限のため、現実のモバイルデバイスに適用できるVSRアプローチはごくわずかである。 本稿では,リアルタイムな推論が可能で,優れた性能を保ちながら,リアルタイムな推論が可能な「textit{Sliding Window based Recurrent Network} (SWRN)」を提案する。 具体的には,映像フレームは細部を復元するための空間的・時間的関係を持つべきであり,重要な点は情報を抽出し集約する方法である。 そこで我々は,隣接する3つのフレームを入力し,隠れた状態を利用して重要な時間情報を繰り返し保存し,更新する。 redsデータセットを用いた実験では,提案手法がモバイルデバイスにうまく適合し,視覚的に快適な結果が得られることを示す。

Video super-resolution (VSR) is the task of restoring high-resolution frames from a sequence of low-resolution inputs. Different from single image super-resolution, VSR can utilize frames' temporal information to reconstruct results with more details. Recently, with the rapid development of convolution neural networks (CNN), the VSR task has drawn increasing attention and many CNN-based methods have achieved remarkable results. However, only a few VSR approaches can be applied to real-world mobile devices due to the computational resources and runtime limitations. In this paper, we propose a \textit{Sliding Window based Recurrent Network} (SWRN) which can be real-time inference while still achieving superior performance. Specifically, we notice that video frames should have both spatial and temporal relations that can help to recover details, and the key point is how to extract and aggregate information. Address it, we input three neighboring frames and utilize a hidden state to recurrently store and update the important temporal information. Our experiment on REDS dataset shows that the proposed method can be well adapted to mobile devices and produce visually pleasant results.
翻訳日:2022-08-25 13:16:28 公開日:2022-08-24
# リアルタイム画像超解像のための高速近距離変換

Fast Nearest Convolution for Real-Time Efficient Image Super-Resolution ( http://arxiv.org/abs/2208.11609v1 )

ライセンス: Link先を確認
Ziwei Luo, Youwei Li, Lei Yu, Qi Wu, Zhihong Wen, Haoqiang Fan, Shuaicheng Liu(参考訳) ディープラーニングベースのシングルイメージ超解像(SISR)アプローチは、多くの注目を集め、現代の高度なGPUで大きな成功を収めている。 しかし、ほとんどの最先端の手法は膨大な数のパラメータ、メモリ、計算資源を必要とするため、現在のモバイルデバイスのCPU/NPUに適用する場合、推論時間が劣る。 本稿では,NPUに親しみやすい高速最寄りの畳み込みモジュール(NCNet)を用いた単純な平板畳み込みネットワークを提案する。 提案された最も近い畳み込みは、最も近いアップサンプリングと同じパフォーマンスであるが、より高速で、Android NNAPIに適している。 我々のモデルは8ビット量子化で簡単にモバイルデバイスにデプロイでき、すべての主要なモバイルAIアクセラレータと完全に互換性がある。 さらに,モバイル機器上での異なるテンソル操作に関する包括的な実験を行い,ネットワークアーキテクチャの効率性を示す。 我々のNCNetは、DIV2K 3xデータセットを用いて訓練し、検証し、他の効率的なSR手法との比較により、NCNetは推論時間が少なくて高い忠実性SR結果が得られることを示した。 私たちのコードと事前訓練済みモデルは、 \url{https://github.com/Algolzw/NCNet}で公開されています。

Deep learning-based single image super-resolution (SISR) approaches have drawn much attention and achieved remarkable success on modern advanced GPUs. However, most state-of-the-art methods require a huge number of parameters, memories, and computational resources, which usually show inferior inference times when applying them to current mobile device CPUs/NPUs. In this paper, we propose a simple plain convolution network with a fast nearest convolution module (NCNet), which is NPU-friendly and can perform a reliable super-resolution in real-time. The proposed nearest convolution has the same performance as the nearest upsampling but is much faster and more suitable for Android NNAPI. Our model can be easily deployed on mobile devices with 8-bit quantization and is fully compatible with all major mobile AI accelerators. Moreover, we conduct comprehensive experiments on different tensor operations on a mobile device to illustrate the efficiency of our network architecture. Our NCNet is trained and validated on the DIV2K 3x dataset, and the comparison with other efficient SR methods demonstrated that the NCNet can achieve high fidelity SR results while using fewer inference times. Our codes and pretrained models are publicly available at \url{https://github.com/Algolzw/NCNet}.
翻訳日:2022-08-25 13:16:08 公開日:2022-08-24
# GAN(Generative Adversarial Network)による画像劣化

Generative Adversarial Network (GAN) based Image-Deblurring ( http://arxiv.org/abs/2208.11622v1 )

ライセンス: Link先を確認
Yuhong Lu, Nicholas Polydorides(参考訳) この論文は,近年提案されている古典的定理と最先端の手法に基づいて,画像デブロワーリングの課題を分析する。 スペクトル解析により,スペクトル正則化法の有効性を数学的に示し,スペクトルフィルタリング結果と正則化最適化目的の解とのリンクを指摘する。 画像の劣化のような不適切な問題に対して、最適化の目的は、我々の以前の知識を解にエンコードする正規化項(正規化関数とも呼ばれる)を含む。 我々は,最大後続推定を用いた手作業による正規化項の作成方法を示す。 次に,そのような正規化に基づく手法の限界を指摘し,ニューラルネットワークに基づく手法にステップインする。 wasserstein生成敵モデルの概念に基づき、cnnを訓練して正規化機能を学ぶことができる。 このようなデータ駆動アプローチは、分析的にモデル化できない複雑性を捉えることができる。 さらに,近年のアーキテクチャ改善により,ぼやけた観測結果から,地上の真実を密接に近似した画像の出力が可能となった。 Generative Adversarial Network (GAN)はこの画像から画像への翻訳のアイデアに取り組んでいる。 orest kupynらによって提案されたdeblurgan-v2法を分析した。 [[14]2019年,数値実験に基づいて。 そして,実験結果と知識に基づき,本手法の改善に向けた提案を行った。

This thesis analyzes the challenging problem of Image Deblurring based on classical theorems and state-of-art methods proposed in recent years. By spectral analysis we mathematically show the effective of spectral regularization methods, and point out the linking between the spectral filtering result and the solution of the regularization optimization objective. For ill-posed problems like image deblurring, the optimization objective contains a regularization term (also called the regularization functional) that encodes our prior knowledge into the solution. We demonstrate how to craft a regularization term by hand using the idea of maximum a posterior estimation. Then, we point out the limitations of such regularization-based methods, and step into the neural-network based methods. Based on the idea of Wasserstein generative adversarial models, we can train a CNN to learn the regularization functional. Such data-driven approaches are able to capture the complexity, which may not be analytically modellable. Besides, in recent years with the improvement of architectures, the network has been able to output an image closely approximating the ground truth given the blurry observation. The Generative Adversarial Network (GAN) works on this Image-to-Image translation idea. We analyze the DeblurGAN-v2 method proposed by Orest Kupyn et al. [14] in 2019 based on numerical tests. And, based on the experimental results and our knowledge, we put forward some suggestions for improvement on this method.
翻訳日:2022-08-25 13:15:46 公開日:2022-08-24
# ジョイントロスおよび残差圧縮による学習型ロスレスjpegトランスコーディング

Learned Lossless JPEG Transcoding via Joint Lossy and Residual Compression ( http://arxiv.org/abs/2208.11673v1 )

ライセンス: Link先を確認
Xiaoshuai Fan, Xin Li, Zhibo Chen(参考訳) 一般的に使用される画像圧縮フォーマットとして、JPEGは画像の伝送と記憶に広く応用されている。 JPEG画像の品質を維持しながら圧縮コストをさらに削減するため,DCT領域の圧縮JPEG画像を圧縮するロスレス変換技術が提案されている。 一方、従来の研究は一般的にDCT係数の冗長性を減少させ、一般化能力や柔軟性に欠ける手作りの方法でエントロピー符号化の確率予測を最適化する。 上記の課題に取り組むために,ジョイントロスおよび残差圧縮により学習したロスレスjpegトランスコーディングフレームワークを提案する。 エントロピー推定を直接最適化するのではなく、DCT係数に存在する冗長性に焦点を当てる。 我々の知る限り、我々は学習したエンドツーエンドの損失変換を初めて利用し、コンパクト表現領域におけるDCT係数の冗長性を低減した。 また,文脈に基づくエントロピー符号化を用いて圧縮する前に,残差dct係数の分布を適応的に学習するロスレストランスコーディングのための残差圧縮を導入する。 提案したトランスコーディングアーキテクチャは、学習した損失変換符号化と残エントロピー符号化の協調によりJPEG画像の圧縮において大きな優位性を示す。 複数のデータセットに対する大規模な実験により、提案するフレームワークはJPEG圧縮に基づいて平均21.49%の節約を達成できることが示された。

As a commonly-used image compression format, JPEG has been broadly applied in the transmission and storage of images. To further reduce the compression cost while maintaining the quality of JPEG images, lossless transcoding technology has been proposed to recompress the compressed JPEG image in the DCT domain. Previous works, on the other hand, typically reduce the redundancy of DCT coefficients and optimize the probability prediction of entropy coding in a hand-crafted manner that lacks generalization ability and flexibility. To tackle the above challenge, we propose the learned lossless JPEG transcoding framework via Joint Lossy and Residual Compression. Instead of directly optimizing the entropy estimation, we focus on the redundancy that exists in the DCT coefficients. To the best of our knowledge, we are the first to utilize the learned end-to-end lossy transform coding to reduce the redundancy of DCT coefficients in a compact representational domain. We also introduce residual compression for lossless transcoding, which adaptively learns the distribution of residual DCT coefficients before compressing them using context-based entropy coding. Our proposed transcoding architecture shows significant superiority in the compression of JPEG images thanks to the collaboration of learned lossy transform coding and residual entropy coding. Extensive experiments on multiple datasets have demonstrated that our proposed framework can achieve about 21.49% bits saving in average based on JPEG compression, which outperforms the typical lossless transcoding framework JPEG-XL by 3.51%.
翻訳日:2022-08-25 13:15:28 公開日:2022-08-24
# 人道的応答におけるマルチAI複合システム

Multi-AI Complex Systems in Humanitarian Response ( http://arxiv.org/abs/2208.11282v1 )

ライセンス: Link先を確認
Joseph Aylett-Bullock, Miguel Luengo-Oroz(参考訳) AIは、さまざまなレベルの意思決定において、人道的な緊急事態に対する対応を支援するために、ますます利用されています。 このようなaiシステムは一般的に、倫理的な評価、ガイドライン、フレームワークをレンズを通して適用することで、意思決定支援のスタンドアローンとみなされる。 しかし、この領域でAIの普及が進むにつれて、そのようなシステムは意思決定エンティティとの相互作用によって生成された情報フローネットワークを介して相互作用し、しばしば理解されていないマルチAI複雑システムを生み出す。 本稿では,比較的単純な実世界の人道的応答シナリオにおいても,これらのマルチAIシステムがいかにして発生しうるかを説明する。 我々は、これらの課題と機会のいくつかを探求することで、より信頼できるマルチAIシステムにどのように取り組み、そのようなシステムを理解し評価するためのより良いメカニズムを設計できるかを議論する。 本稿は,人道的反応,意識の高まり,この領域の考えられる景観の探求,より広いコミュニティにおける今後の作業の出発点を提供する,人道的反応の分野において,このトピックに関する最初の展示となるようにデザインされている。

AI is being increasingly used to aid response efforts to humanitarian emergencies at multiple levels of decision-making. Such AI systems are generally considered as stand-alone for decision support, with ethical assessments, guidelines and frameworks applied to them through this lens. However, as the prevalence of AI increases in this domain, such systems will interact through information flow networks created by interacting decision-making entities, leading to often ill-understood multi-AI complex systems. In this paper we describe how these multi-AI systems can arise, even in relatively simple real-world humanitarian response scenarios, and lead to potentially emergent and erratic erroneous behavior. We discuss how we can better work towards more trustworthy multi-AI systems by exploring some of their associated challenges and opportunities, and how we can design better mechanisms to understand and assess such systems. This paper is designed to be a first exposition on this topic in the field of humanitarian response, raising awareness, exploring the possible landscape of this domain, and providing a starting point for future work within the wider community.
翻訳日:2022-08-25 13:15:04 公開日:2022-08-24
# 近傍回帰器におけるk値のゆらぎに基づく計量効果

Metric Effects based on Fluctuations in values of k in Nearest Neighbor Regressor ( http://arxiv.org/abs/2208.11540v1 )

ライセンス: Link先を確認
Abhishek Gupta, Raunak Joshi, Nandan Kanvinde, Pinky Gerela, Ronald Melwin Laban(参考訳) 機械学習の回帰部門は、純粋に継続的価値の予測に焦点を当てている。 教師付き学習部はパラメトリックおよび非パラメトリック学習モデルを用いた回帰に基づく多くの手法を有する。 本稿では,距離ベース回帰モデルに関する非常に微妙な点を対象とする。 距離ベースモデルはK-Nearest Neighbors Regressorであり、教師付き非パラメトリック法である。 私たちが証明したい点は、モデルのkパラメータと、メトリクスに影響を与えるその変動の影響です。 私たちが使用するメトリクスは、根平均二乗誤差と、k値に対する値の視覚的表現に適合するr-二乗性です。

Regression branch of Machine Learning purely focuses on prediction of continuous values. The supervised learning branch has many regression based methods with parametric and non-parametric learning models. In this paper we aim to target a very subtle point related to distance based regression model. The distance based model used is K-Nearest Neighbors Regressor which is a supervised non-parametric method. The point that we want to prove is the effect of k parameter of the model and its fluctuations affecting the metrics. The metrics that we use are Root Mean Squared Error and R-Squared Goodness of Fit with their visual representation of values with respect to k values.
翻訳日:2022-08-25 13:11:40 公開日:2022-08-24
# 最適脳圧縮: トレーニング後の量子化とプルーニングの正確なフレームワーク

Optimal Brain Compression: A Framework for Accurate Post-Training Quantization and Pruning ( http://arxiv.org/abs/2208.11580v1 )

ライセンス: Link先を確認
Elias Frantar, Dan Alistarh(参考訳) 本研究では,訓練後の学習環境における深層ニューラルネットワーク(dnn)のモデル圧縮の問題点について検討し,少量のキャリブレーション入力データのみに基づいて再トレーニングすることなく圧縮する必要があることを明らかにした。 この問題は、プルーニングおよび/またはスピードアップによる量子化によって圧縮されたモデルを実行するための新しいソフトウェアやハードウェアのサポートが普及し、双方の圧縮アプローチに対して、優れた性能のソリューションが独立して提案されている。 本稿では,軽量化と量子化の両方を統一的にカバーし,時間と空間効率が向上し,既存のポストトレーニング手法の実用性を大幅に向上した新しい圧縮フレームワークを提案する。 技術的レベルでは、我々のアプローチは、[LeCun, Denker, and Solla, 1990] の古典的 Optimal Brain Surgeon (OBS) フレームワークを現代の DNN のスケールで実現した最初の正確かつ効率的な実現に基づいている。 これは、独立した興味を持つかもしれない一連のアルゴリズム開発によって実現される。 実践的な観点からは,既存のポストトレーニング手法の圧縮精度トレードオフに対して大幅な改善が可能であること,そして,ポストトレーニング環境でのプルーニングと量子化の両方の正確なジョイント適用が可能であることを実証した。

We consider the problem of model compression for deep neural networks (DNNs) in the challenging post-training setting, in which we are given an accurate trained model, and must compress it without any retraining, based only on a small amount of calibration input data. This problem has become popular in view of the emerging software and hardware support for executing models compressed via pruning and/or quantization with speedup, and well-performing solutions have been proposed independently for both compression approaches. In this paper, we introduce a new compression framework which covers both weight pruning and quantization in a unified setting, is time- and space-efficient, and considerably improves upon the practical performance of existing post-training methods. At the technical level, our approach is based on the first exact and efficient realization of the classical Optimal Brain Surgeon (OBS) framework of [LeCun, Denker, and Solla, 1990] at the scale of modern DNNs, which we further extend to cover weight quantization. This is enabled by a series of algorithmic developments which may be of independent interest. From the practical perspective, our experimental results show that it can improve significantly upon the compression-accuracy trade-offs of existing post-training methods, and that it can even enable the accurate joint application of both pruning and quantization in a post-training setting.
翻訳日:2022-08-25 13:11:31 公開日:2022-08-24
# promptfl: フェデレーション参加者に,モデルではなくプロンプトを共同学習させてください -- 基礎モデル時代のフェデレーション学習

PromptFL: Let Federated Participants Cooperatively Learn Prompts Instead of Models -- Federated Learning in Age of Foundation Model ( http://arxiv.org/abs/2208.11625v1 )

ライセンス: Link先を確認
Tao Guo, Song Guo, Junxiao Wang, Wenchao Xu(参考訳) 効果的な分散パラメータの迅速なグローバル集約は、パラメータ通信に十分な帯域幅と、ローカルトレーニングに十分なユーザデータを必要とするフェデレーション学習(FL)に不可欠である。 そうでなければ、FLは収束と不正確なモデルの生成に過剰な訓練時間を要する可能性がある。 本稿では,新しいFLフレームワークであるPromptFLを提案する。このフレームワークは,フェデレートされたモデルトレーニングをフェデレーションされたプロンプトトレーニングに置き換えるもので,フェデレーションされた参加者が,共有モデルの代わりにトレーニングプロンプトを付与することで,ファンデーションモデル(FM)のパワーを分散的に活用することで,効率的なグローバルアグリゲーションとローカルトレーニングを実現する。 PromptFLは市販のFM、すなわちCLIPを、ごく少数のローカルデータに基づいて共有ソフトプロンプトを共同で訓練する分散クライアントに出荷する。 PromptFLは、モデル全体ではなくプロンプトを更新する必要があるため、ローカルトレーニングとグローバルアグリゲーションの両方が大幅に加速できる。 そして、大規模データで訓練されたFMは、訓練されたソフトプロンプトで分散ユーザタスクに強力な適応機能を提供する。 実験によりPromptFLを実証的に分析し,システムの実現性,ユーザプライバシ,パフォーマンスの面で優位性を示す。

Quick global aggregation of effective distributed parameters is crucial to federated learning (FL), which requires adequate bandwidth for parameters communication and sufficient user data for local training. Otherwise, FL may cost excessive training time for convergence and produce inaccurate models. In this paper, we propose a brand-new FL framework, PromptFL, that replaces the federated model training with the federated prompt training, i.e., let federated participants train prompts instead of a shared model, to simultaneously achieve the efficient global aggregation and local training on insufficient data by exploiting the power of foundation models (FM) in a distributed way. PromptFL ships an off-the-shelf FM, i.e., CLIP, to distributed clients who would cooperatively train shared soft prompts based on very few local data. Since PromptFL only needs to update the prompts instead of the whole model, both the local training and the global aggregation can be significantly accelerated. And FM trained over large scale data can provide strong adaptation capability to distributed users tasks with the trained soft prompts. We empirically analyze the PromptFL via extensive experiments, and show its superiority in terms of system feasibility, user privacy, and performance.
翻訳日:2022-08-25 13:11:05 公開日:2022-08-24
# アドホックチームワークのための推論と学習アーキテクチャを目指して

Toward a Reasoning and Learning Architecture for Ad Hoc Teamwork ( http://arxiv.org/abs/2208.11556v1 )

ライセンス: Link先を確認
Hasra Dodampegama, Mohan Sridharan(参考訳) 先行調整のないエージェントチームにおけるコラボレーションを指すアドホックなチームワークのためのアーキテクチャを提案する。 この問題に対する最先端の手法には、他のエージェント(またはエージェントタイプ)の振る舞いをモデル化し、アドホックエージェントの振る舞いを決定するために、事前観察の長い履歴を使用するデータ駆動コンポーネントが含まれることが多い。 多くの実践的なドメインでは、大規模なトレーニングデータセットを見つけることが困難であり、チーム構成やドメイン属性の変化を考慮した既存のモデルを理解し、段階的に拡張する必要がある。 私たちのアーキテクチャは、知識ベースとデータ駆動推論と学習の原則を組み合わせています。 具体的には、アドホックエージェントが、事前のコモンセンスドメイン知識と、他のエージェントの振る舞いの漸進的に更新された単純な予測モデルを用いて、非単調な論理的推論を行えるようにする。 我々のアーキテクチャは、予期せぬ変更への適応、限られたサンプルから他のエージェントの振る舞いのモデルのインクリメンタル学習と修正、アドホックエージェントの意思決定における透明性、データ駆動ベースラインよりも優れたパフォーマンスをサポートすることを実証するために、シミュレーションされたマルチエージェントコラボレーションドメインであるFort Attackを使用します。

We present an architecture for ad hoc teamwork, which refers to collaboration in a team of agents without prior coordination. State of the art methods for this problem often include a data-driven component that uses a long history of prior observations to model the behaviour of other agents (or agent types) and to determine the ad hoc agent's behavior. In many practical domains, it is challenging to find large training datasets, and necessary to understand and incrementally extend the existing models to account for changes in team composition or domain attributes. Our architecture combines the principles of knowledge-based and data-driven reasoning and learning. Specifically, we enable an ad hoc agent to perform non-monotonic logical reasoning with prior commonsense domain knowledge and incrementally-updated simple predictive models of other agents' behaviour. We use the benchmark simulated multiagent collaboration domain Fort Attack to demonstrate that our architecture supports adaptation to unforeseen changes, incremental learning and revision of models of other agents' behaviour from limited samples, transparency in the ad hoc agent's decision making, and better performance than a data-driven baseline.
翻訳日:2022-08-25 13:10:23 公開日:2022-08-24
# 音声インフォームド事前学習言語モデルによる歌詞の解釈

Interpreting Song Lyrics with an Audio-Informed Pre-trained Language Model ( http://arxiv.org/abs/2208.11671v1 )

ライセンス: Link先を確認
Yixiao Zhang, Junyan Jiang, Gus Xia, Simon Dixon(参考訳) 歌詞解釈は、人々が楽曲や歌詞を素早く理解するのに役立ちますし、増大する音楽アーカイブから効率的に楽曲を管理し、検索し、発見するのも簡単です。 本稿では,大規模な事前学習言語モデルとオーディオエンコーダを組み合わせた歌詞と音楽音声から歌詞解釈を生成する新しいモデルであるBART-fusionを提案する。 我々は,音声表現を歌詞表現に組み込むために,モーダル・アテンション・モジュールを用いて,事前学習された言語モデルが,言語モデルのオリジナル生成性能を保ちながら,その歌を理解するのを助ける。 モデルのトレーニングと評価のための,新たな大規模データセットであるsong interpretation datasetもリリースしています。 実験結果から,付加的な音声情報により,単語や音楽の理解が向上し,正確な解釈が得られた。 クロスモーダルな音楽検索に関する別の実験では、BART融合によって生成された解釈が、オリジナルのBARTよりも正確な音楽の検索に役立つことが示されている。

Lyric interpretations can help people understand songs and their lyrics quickly, and can also make it easier to manage, retrieve and discover songs efficiently from the growing mass of music archives. In this paper we propose BART-fusion, a novel model for generating lyric interpretations from lyrics and music audio that combines a large-scale pre-trained language model with an audio encoder. We employ a cross-modal attention module to incorporate the audio representation into the lyrics representation to help the pre-trained language model understand the song from an audio perspective, while preserving the language model's original generative performance. We also release the Song Interpretation Dataset, a new large-scale dataset for training and evaluating our model. Experimental results show that the additional audio information helps our model to understand words and music better, and to generate precise and fluent interpretations. An additional experiment on cross-modal music retrieval shows that interpretations generated by BART-fusion can also help people retrieve music more accurately than with the original BART.
翻訳日:2022-08-25 13:09:47 公開日:2022-08-24
# LIDARデータを用いた新しい説明可能なDTM生成アルゴリズム:グラウンドは最終的にスムーズに接続される

A new explainable DTM generation algorithm with airborne LIDAR data: grounds are smoothly connected eventually ( http://arxiv.org/abs/2208.11243v1 )

ライセンス: Link先を確認
Hunsoo Song, Jinha Jung(参考訳) デジタル地形モデル(DTM)は、都市、環境、地球科学における様々な研究のための基本的な地理空間データである。 これらの研究から得られた結果の信頼性は、基礎となるDTMの誤りや不確実性に大きく影響を受ける。 DTMの誤りや不確かさを軽減するために多くのアルゴリズムが開発されている。 しかし、ほとんどのアルゴリズムは、複雑なパラメータ選択とアルゴリズムの決定規則を曖昧にする複雑な手順を伴っているため、結果のDTMの誤りや不確かさを説明・予測することはしばしば困難である。 また、従来のアルゴリズムでは、探索半径と文脈理解の両方を制限し、特に点密度が変化するとエラーに影響を受けやすい非接地物体を区別するために、各点の局所近傍を考えることが多い。 本研究では,空飛ぶLiDARデータに対するオープンソースのDTM生成アルゴリズムを提案する。 このアルゴリズムの鍵となる仮定は、接地は滑らかに連結され、非接地は急な標高変化のある領域に囲まれているということである。 提案したアルゴリズムのロバスト性と一意性は,他の最先端アルゴリズムと比較し,タイリング評価により地理的に複雑な環境で評価した。

The digital terrain model (DTM) is fundamental geospatial data for various studies in urban, environmental, and Earth science. The reliability of the results obtained from such studies can be considerably affected by the errors and uncertainties of the underlying DTM. Numerous algorithms have been developed to mitigate the errors and uncertainties of DTM. However, most algorithms involve tricky parameter selection and complicated procedures that make the algorithm's decision rule obscure, so it is often difficult to explain and predict the errors and uncertainties of the resulting DTM. Also, previous algorithms often consider the local neighborhood of each point for distinguishing non-ground objects, which limits both search radius and contextual understanding and can be susceptible to errors particularly if point density varies. This study presents an open-source DTM generation algorithm for airborne LiDAR data that can consider beyond the local neighborhood and whose results are easily explainable, predictable, and reliable. The key assumption of the algorithm is that grounds are smoothly connected while non-grounds are surrounded by areas having sharp elevation changes. The robustness and uniqueness of the proposed algorithm were evaluated in geographically complex environments through tiling evaluation compared to other state-of-the-art algorithms.
翻訳日:2022-08-25 13:09:15 公開日:2022-08-24
# E-NeRF:移動イベントカメラからのニューラル放射場

E-NeRF: Neural Radiance Fields from a Moving Event Camera ( http://arxiv.org/abs/2208.11300v1 )

ライセンス: Link先を確認
Simon Klenk, Lukas Koestler, Davide Scaramuzza, Daniel Cremers(参考訳) 理想画像からのニューラルレイディアンス場(NeRF)の推定はコンピュータビジョンコミュニティで広く研究されている。 ほとんどのアプローチは最適な照明とスローカメラの動きを仮定する。 これらの仮定は、画像に動きのぼやけがあり、シーンに適切な照明がないという、ロボットの応用においてしばしば破られる。 これは、ナビゲーション、検査、シーンの可視化といった下流タスクに重大な問題を引き起こす可能性がある。 これらの問題を緩和するために,高速なイベントカメラからNeRF形式でのボリュームシーン表現を推定する最初の方法であるE-NeRFを提案する。 提案手法は,非常に高速な動作およびフレームベースアプローチが失敗する高ダイナミックレンジ条件下で,NeRFを復元することができる。 入力としてイベントストリームを提供することで、高品質なフレームのレンダリングが可能になることを示す。 さらに, イベントとフレームを組み合わせることで, 高度な動きのぼかしの下での最先端手法よりも高い品質のNeRFを推定できる。 また、イベントとフレームを組み合わせることで、追加の正規化を必要とせず、入力ビューが少ないシナリオでNeRF推定の失敗を克服できることを示す。

Estimating neural radiance fields (NeRFs) from ideal images has been extensively studied in the computer vision community. Most approaches assume optimal illumination and slow camera motion. These assumptions are often violated in robotic applications, where images contain motion blur and the scene may not have suitable illumination. This can cause significant problems for downstream tasks such as navigation, inspection or visualization of the scene. To alleviate these problems we present E-NeRF, the first method which estimates a volumetric scene representation in the form of a NeRF from a fast-moving event camera. Our method can recover NeRFs during very fast motion and in high dynamic range conditions, where frame-based approaches fail. We show that rendering high-quality frames is possible by only providing an event stream as input. Furthermore, by combining events and frames, we can estimate NeRFs of higher quality than state-of-the-art approaches under severe motion blur. We also show that combining events and frames can overcome failure cases of NeRF estimation in scenarios where only few input views are available, without requiring additional regularization.
翻訳日:2022-08-25 13:08:56 公開日:2022-08-24
# オブジェクト検出における未知の検出

Detecting the unknown in Object Detection ( http://arxiv.org/abs/2208.11641v1 )

ライセンス: Link先を確認
Dario Fontanel, Matteo Tarantino, Fabio Cermelli, Barbara Caputo(参考訳) オブジェクト検出手法は、新しいニューラルネットワークアーキテクチャの設計と大規模データセットの可用性のおかげで、ここ数年で目覚ましい改善が見られた。 しかし、現在の手法は、訓練期間中に観察されたクラスのみを検出することができ、検出器が現実世界で遭遇する可能性のあるすべてのクラスのサブセットにすぎません。 さらに、未知のクラスの存在はしばしばトレーニング時に考慮されないため、未知のオブジェクトが画像に存在していることさえ検出できない。 本研究では,オープンセットオブジェクト検出と呼ばれる未知のオブジェクトを検出する問題に対処する。 我々は、未知のオブジェクトをアノテーションを必要とせずに予測できるUNKADと呼ばれる新しいトレーニング戦略を提案し、トレーニング画像の背景にすでに存在する注釈のないオブジェクトを活用する。 特に、Faster R-CNNの4段階のトレーニング戦略を利用して、UNKADはまず未知のオブジェクトを特定し、擬似ラベルを使用して未知のクラスをトレーニングする。 UNKADは未知の物体を直接検出できるが、従来の未知の検出技術と組み合わせることで、コストなしで性能を向上できることを示す。

Object detection methods have witnessed impressive improvements in the last years thanks to the design of novel neural network architectures and the availability of large scale datasets. However, current methods have a significant limitation: they are able to detect only the classes observed during training time, that are only a subset of all the classes that a detector may encounter in the real world. Furthermore, the presence of unknown classes is often not considered at training time, resulting in methods not even able to detect that an unknown object is present in the image. In this work, we address the problem of detecting unknown objects, known as open-set object detection. We propose a novel training strategy, called UNKAD, able to predict unknown objects without requiring any annotation of them, exploiting non annotated objects that are already present in the background of training images. In particular, exploiting the four-steps training strategy of Faster R-CNN, UNKAD first identifies and pseudo-labels unknown objects and then uses the pseudo-annotations to train an additional unknown class. While UNKAD can directly detect unknown objects, we further combine it with previous unknown detection techniques, showing that it improves their performance at no costs.
翻訳日:2022-08-25 13:05:59 公開日:2022-08-24
# 行動認識ネットワークを用いた車線変化の分類と予測

Lane Change Classification and Prediction with Action Recognition Networks ( http://arxiv.org/abs/2208.11650v1 )

ライセンス: Link先を確認
Kai Liang, Jun Wang and Abhir Bhalerao(参考訳) 車両の車線変更の意図を予測することは、自律運転システムにおいて効率的かつ安全な運転意思決定に不可欠である。 以前の研究では、車線変更分類に駆動速度、加速度などの物理変数をしばしば採用していた。 しかし、物理変数には意味情報が含まれない。 3d cnnは急速に発展してきたが、車線変更認識にアクション認識モデルと外観特徴を利用する手法は少なく、いずれも前処理データの追加情報を必要とする。 本研究では,カメラで収集した映像データを用いて,車線変化認識のための2つの行動認識手法を含むエンドツーエンドフレームワークを提案する。 提案手法は,PreVENTIONデータセットのRGBビデオデータのみを用いて,最適なレーン変更分類結果を得る。 クラスアクティベーションマップは、行動認識モデルが車線変化運動を効率的に抽出できることを示す。 動きの手がかりをよりよく抽出する手法も提案されている。

Anticipating lane change intentions of surrounding vehicles is crucial for efficient and safe driving decision making in an autonomous driving system. Previous works often adopt physical variables such as driving speed, acceleration and so forth for lane change classification. However, physical variables do not contain semantic information. Although 3D CNNs have been developing rapidly, the number of methods utilising action recognition models and appearance feature for lane change recognition is low, and they all require additional information to pre-process data. In this work, we propose an end-to-end framework including two action recognition methods for lane change recognition, using video data collected by cameras. Our method achieves the best lane change classification results using only the RGB video data of the PREVENTION dataset. Class activation maps demonstrate that action recognition models can efficiently extract lane change motions. A method to better extract motion clues is also proposed in this paper.
翻訳日:2022-08-25 13:05:39 公開日:2022-08-24
# クロスカメラビューオーバーラップ認識

Cross-Camera View-Overlap Recognition ( http://arxiv.org/abs/2208.11661v1 )

ライセンス: Link先を確認
Alessio Xompero, Andrea Cavallaro(参考訳) 本研究では,参照3dマップを必要とせず,自由移動カメラを対象とする分散ビューオーバラップ認識フレームワークを提案する。 各カメラは独立して階層構造を抽出し、集約し、時間とともに特徴点記述子を共有する。 ビューオーバーラップは、ビューマッチングと幾何検証によって認識され、不正にマッチしたビューを破棄する。 提案されたフレームワークはジェネリックであり、異なる記述子で使用することができる。 我々は、手持ちカメラで収集した新しいシーケンスと同様に、公開シーケンスで実験を行う。 提案するフレームワークにおいて,2項単語のバグを付加したオブジェクト指向FASTと回転BRIEF(ORB)は,NetVLAD,RootSIFT,SuperGlueと比較して高い精度,あるいはそれに近い精度を実現する。

We propose a decentralised view-overlap recognition framework that operates across freely moving cameras without the need of a reference 3D map. Each camera independently extracts, aggregates into a hierarchical structure, and shares feature-point descriptors over time. A view overlap is recognised by view-matching and geometric validation to discard wrongly matched views. The proposed framework is generic and can be used with different descriptors. We conduct the experiments on publicly available sequences as well as new sequences we collected with hand-held cameras. We show that Oriented FAST and Rotated BRIEF (ORB) features with Bags of Binary Words within the proposed framework lead to higher precision and a higher or similar accuracy compared to NetVLAD, RootSIFT, and SuperGlue.
翻訳日:2022-08-25 13:05:26 公開日:2022-08-24
# ForestEyesプロジェクト:概念,拡張,課題

ForestEyes Project: Conception, Enhancements, and Challenges ( http://arxiv.org/abs/2208.11687v1 )

ライセンス: Link先を確認
Fernanda B. J. R. Dallaqua, \'Alvaro Luiz Fazenda, Fabio A. Faria(参考訳) 熱帯雨林は世界の生態系において重要な役割を担っている。 しかし、森林破壊や劣化に直面している地域もいくつかある。 さまざまな政府と民間のイニシアチブが作成され、リモートセンシング画像からの森林破壊の増加を監視し、警告する。 市民科学のプロジェクトは、同じ目標を達成するためにも使用できる。 市民科学は、科学の進歩と天文学、化学、数学、物理学などの特定の知識領域における問題に対する一般の理解を高めるために、データの分析、収集、計算資源を使用する非専門家のボランティアを含む科学研究から成っている。 本研究は,熱帯雨林の森林破壊地域を監視するために,リモートセンシング画像の解析と分類を通じてボランティアの回答を用いた市民科学プロジェクトであるforesteyesを提案する。 これらの回答の質を評価するために、ブラジルの法律Amazonのリモートセンシング画像を用いて異なるキャンペーン/ワークフローをローンチし、その結果をAmazon Deforestation Monitoring Project PRODESの公式基盤と比較した。 この作業の中で、2013年と2016年にrond\^oniaの州を囲む最初の2つのワークフローは、立ち上げからわずか2週間半で作成された2,050ドルのタスクで、383ドルのボランティアから3万5000ドル以上の回答を得た。 他の4つのワークフローでは、同じ領域(rond\^onia)と異なるセットアップ(イメージセグメンテーション方法、画像解像度、検出対象など)を囲むでさえも、3258ドルのタスクで281ドルのボランティアから集まった51,035ドルのボランティアの回答が得られた。 実験では...

Rainforests play an important role in the global ecosystem. However, significant regions of them are facing deforestation and degradation due to several reasons. Diverse government and private initiatives were created to monitor and alert for deforestation increases from remote sensing images, using different ways to deal with the notable amount of generated data. Citizen Science projects can also be used to reach the same goal. Citizen Science consists of scientific research involving nonprofessional volunteers for analyzing, collecting data, and using their computational resources to outcome advancements in science and to increase the public's understanding of problems in specific knowledge areas such as astronomy, chemistry, mathematics, and physics. In this sense, this work presents a Citizen Science project called ForestEyes, which uses volunteer's answers through the analysis and classification of remote sensing images to monitor deforestation regions in rainforests. To evaluate the quality of those answers, different campaigns/workflows were launched using remote sensing images from Brazilian Legal Amazon and their results were compared to an official groundtruth from the Amazon Deforestation Monitoring Project PRODES. In this work, the first two workflows that enclose the State of Rond\^onia in the years 2013 and 2016 received more than $35,000$ answers from $383$ volunteers in the $2,050$ created tasks in only two and a half weeks after their launch. For the other four workflows, even enclosing the same area (Rond\^onia) and different setups (e.g., image segmentation method, image resolution, and detection target), they received $51,035$ volunteers' answers gathered from $281$ volunteers in $3,358$ tasks. In the performed experiments...
翻訳日:2022-08-25 13:05:12 公開日:2022-08-24
# テキストデータによる次世代倒産予測:ベンチマークとベースライン

Next-Year Bankruptcy Prediction from Textual Data: Benchmark and Baselines ( http://arxiv.org/abs/2208.11334v1 )

ライセンス: Link先を確認
Henri Arno, Klaas Mulier, Joke Baeck and Thomas Demeester(参考訳) 破産予測のモデルは、いくつかの現実世界のシナリオで有用であり、構造化された(数値的)データと非構造化された(テキスト的)データに基づいて、複数の研究貢献がなされている。 しかし、共通のベンチマークデータセットと評価戦略の欠如は、モデル間の客観的比較を妨げる。 本稿では,タスクのさらなる研究を促進するために,新しいデータセットと確立されたデータセットに基づく非構造化データシナリオのベンチマークを紹介する。 いくつかの古典的および神経的ベースラインモデルを記述し、評価し、異なる戦略の利点と欠陥について議論する。 特に、静的なドメイン内単語表現に基づく軽量なback-of-wordsモデルでは、特に数年のテキストデータを考慮した場合、驚くほど良い結果が得られる。 これらの結果は批判的に評価され、データとタスクの特定の側面に照らして議論される。 データと実験結果を複製するすべてのコードがリリースされる。

Models for bankruptcy prediction are useful in several real-world scenarios, and multiple research contributions have been devoted to the task, based on structured (numerical) as well as unstructured (textual) data. However, the lack of a common benchmark dataset and evaluation strategy impedes the objective comparison between models. This paper introduces such a benchmark for the unstructured data scenario, based on novel and established datasets, in order to stimulate further research into the task. We describe and evaluate several classical and neural baseline models, and discuss benefits and flaws of different strategies. In particular, we find that a lightweight bag-of-words model based on static in-domain word representations obtains surprisingly good results, especially when taking textual data from several years into account. These results are critically assessed, and discussed in light of particular aspects of the data and the task. All code to replicate the data and experimental results will be released.
翻訳日:2022-08-25 13:04:42 公開日:2022-08-24
# DPTDR:Dense Passage RetrievalのためのDeep Prompt Tuning

DPTDR: Deep Prompt Tuning for Dense Passage Retrieval ( http://arxiv.org/abs/2208.11503v1 )

ライセンス: Link先を確認
Zhengyang Tang, Benyou Wang, Ting Yao(参考訳) ディーププロンプトチューニング(DPT)は、ほとんどの自然言語処理〜(NLP)タスクで大きな成功を収めている。 しかし、微細チューニング~(FT)が依然として支配的な密集検索では十分に解明されていない。 同一のbackbone model~(例えばroberta)を使用して複数の検索タスクをデプロイする場合、ftベースのメソッドはデプロイコストの面では不都合である。 このようなシナリオにおける展開コストを低減するため,DPTを高密度検索に適用することを検討した。 DPTを高密度検索に直接適用することは、FT法に大きく劣る。 性能低下を補うため,DPTをベースとした検索手法,すなわち検索指向の中間訓練と統合負のマイニングの2つのモデル非依存およびタスク非依存の戦略を,事前学習された言語モデルや検索タスクと互換性のある一般的なアプローチとして提案する。 実験の結果,提案手法はMS-MARCOとNatural Questionsの両方において,従来の最先端モデルよりも優れていることがわかった。 また, DPTDRにおける各戦略の有効性を検討するためにアブレーション研究を行った。 この作業は、膨大な労力とデプロイコストを節約し、コンピューティングリソースの有用性を高めるため、業界を助長すると信じています。 私たちのコードはhttps://github.com/tangzhy/dptdr.comで利用可能です。

Deep prompt tuning (DPT) has gained great success in most natural language processing~(NLP) tasks. However, it is not well-investigated in dense retrieval where fine-tuning~(FT) still dominates. When deploying multiple retrieval tasks using the same backbone model~(e.g., RoBERTa), FT-based methods are unfriendly in terms of deployment cost: each new retrieval model needs to repeatedly deploy the backbone model without reuse. To reduce the deployment cost in such a scenario, this work investigates applying DPT in dense retrieval. The challenge is that directly applying DPT in dense retrieval largely underperforms FT methods. To compensate for the performance drop, we propose two model-agnostic and task-agnostic strategies for DPT-based retrievers, namely retrieval-oriented intermediate pretraining and unified negative mining, as a general approach that could be compatible with any pre-trained language model and retrieval task. The experimental results show that the proposed method (called DPTDR) outperforms previous state-of-the-art models on both MS-MARCO and Natural Questions. We also conduct ablation studies to examine the effectiveness of each strategy in DPTDR. We believe this work facilitates the industry, as it saves enormous efforts and costs of deployment and increases the utility of computing resources. Our code is available at https://github.com/tangzhy/DPTDR.
翻訳日:2022-08-25 13:04:27 公開日:2022-08-24
# マルチサンプリングエンハンストランスを用いたスタックオーバーフローポストの多様なタイトル生成

Diverse Title Generation for Stack Overflow Posts with Multiple Sampling Enhanced Transformer ( http://arxiv.org/abs/2208.11523v1 )

ライセンス: Link先を確認
Fengji Zhang, Jin Liu, Yao Wan, Xiao Yu, Xiao Liu, Jacky Keung(参考訳) Stack Overflowは、開発者が遭遇した問題の助けを求めることができる最も人気のあるプログラムコミュニティの1つである。 それでも、経験不足の開発者が問題を明確に説明できなければ、十分な注意を引き付けて、期待される回答を得ることは困難である。 与えられたコードスニペットから複数のポストタイトルを自動的に生成する新しい手法であるM$_3$NSCT5を提案する。 開発者は生成したタイトルを使って、関連する投稿を見つけ、問題記述を完成させることができる。 M$_3$NSCT5は、言語理解と生成能力に優れたトレーニング済みトランスフォーマーモデルであるCodeT5のバックボーンを使用している。 異なるコンテキスト下で同じコードスニペットが異なるタイトルに一致できるという曖昧さの問題を緩和するため,開発者が選択できる時間に複数の高品質で多様なタイトル候補を生成するために,最大辺多重核サンプリング戦略を提案する。 M$_3$NSCT5の有効性を検証するため、8つのプログラミング言語をカバーする890,000の質問ポストを持つ大規模データセットを構築した。 BLEUおよびROUGE測定値の自動評価結果は、6つの最先端ベースラインモデルよりもM$_3$NSCT5の方が優れていることを示す。 さらに、信頼できる結果を得た人間評価は、現実世界のアプリケーションに対する我々のアプローチの素晴らしい可能性を示しています。

Stack Overflow is one of the most popular programming communities where developers can seek help for their encountered problems. Nevertheless, if inexperienced developers fail to describe their problems clearly, it is hard for them to attract sufficient attention and get the anticipated answers. We propose M$_3$NSCT5, a novel approach to automatically generate multiple post titles from the given code snippets. Developers may use the generated titles to find closely related posts and complete their problem descriptions. M$_3$NSCT5 employs the CodeT5 backbone, which is a pre-trained Transformer model having an excellent language understanding and generation ability. To alleviate the ambiguity issue that the same code snippets could be aligned with different titles under varying contexts, we propose the maximal marginal multiple nucleus sampling strategy to generate multiple high-quality and diverse title candidates at a time for the developers to choose from. We build a large-scale dataset with 890,000 question posts covering eight programming languages to validate the effectiveness of M$_3$NSCT5. The automatic evaluation results on the BLEU and ROUGE metrics demonstrate the superiority of M$_3$NSCT5 over six state-of-the-art baseline models. Moreover, a human evaluation with trustworthy results also demonstrates the great potential of our approach for real-world application.
翻訳日:2022-08-25 13:04:06 公開日:2022-08-24
# 教師付き学習による信号制御システムの時間-グリーン予測

Time-to-Green predictions for fully-actuated signal control systems with supervised learning ( http://arxiv.org/abs/2208.11344v1 )

ライセンス: Link先を確認
Alexander Genser, Michail A. Makridis, Kaidi Yang, Lukas Amb\"uhl, Monica Menendez, Anastasios Kouvelas(参考訳) 近年,信号位相とタイミング(SPaT)の標準化が試みられている。 これらのメッセージは、すべての信号化交差点アプローチの信号位相タイミングを含む。 したがって、この情報は効率的な動き計画に利用することができ、より均質なトラフィックフローと均一な速度プロファイルをもたらす。 半作動信号制御システムのロバストな予測を提供する努力にもかかわらず、完全作動制御のための信号位相タイミングの予測は依然として困難である。 本稿では,集約信号とループ検出データを用いた時系列予測フレームワークを提案する。 最先端機械学習モデルを用いて将来の信号位相の持続時間を予測する。 リニア回帰(LR)、ランダムフォレスト(RF)、Long-Short-Term-Memory(LSTM)ニューラルネットワークの性能を、ナイーブベースラインモデルを用いて評価する。 スイスのチューリッヒの信号制御システムから得られた経験的データに基づいて、機械学習モデルが従来の予測手法より優れていることを示す。 さらに、RFのような木に基づく決定モデルは、実用的な応用の要件を満たす精度で最善を尽くす。

Recently, efforts have been made to standardize signal phase and timing (SPaT) messages. These messages contain signal phase timings of all signalized intersection approaches. This information can thus be used for efficient motion planning, resulting in more homogeneous traffic flows and uniform speed profiles. Despite efforts to provide robust predictions for semi-actuated signal control systems, predicting signal phase timings for fully-actuated controls remains challenging. This paper proposes a time series prediction framework using aggregated traffic signal and loop detector data. We utilize state-of-the-art machine learning models to predict future signal phases' duration. The performance of a Linear Regression (LR), a Random Forest (RF), and a Long-Short-Term-Memory (LSTM) neural network are assessed against a naive baseline model. Results based on an empirical data set from a fully-actuated signal control system in Zurich, Switzerland, show that machine learning models outperform conventional prediction methods. Furthermore, tree-based decision models such as the RF perform best with an accuracy that meets requirements for practical applications.
翻訳日:2022-08-25 13:03:25 公開日:2022-08-24
# DCSF: 非同期時系列の分類のための深部畳み込み集合関数

DCSF: Deep Convolutional Set Functions for Classification of Asynchronous Time Series ( http://arxiv.org/abs/2208.11374v1 )

ライセンス: Link先を確認
Vijaya Krishna Yalavarthi, Johannes Burchert, Lars Schmidt-Thieme(参考訳) 非同期時系列(Asynchronous Time Series)は、すべてのチャンネルが非同期に独立して観察される多変量時系列である。 我々は、医療、気候科学、天文学などの複雑な観察プロセスを持つアプリケーションでこの効果をしばしば観察し、いくつか挙げる。 非同期性のため、これらはディープラーニングアーキテクチャに重大な課題をもたらし、それらに提示された時系列が定期的にサンプリングされ、完全に観察され、時間に関して整合していると仮定する。 本稿では,非同期時系列分類タスクにおいて,高度にスケーラブルでメモリ効率の良いDeep Convolutional Set Function (DCSF) と呼ぶ新しいフレームワークを提案する。 近年のディープラーニングアーキテクチャの進歩により,時系列のチャネルが提示される順序に不変なモデルが導入された。 規則的サンプルと完全観測された時系列の密接な問題分類のためによく研究されている畳み込みニューラルネットワークについて検討する。 AsTS分類のためのDCSFとオンライン(時間単位)ASTS分類の評価を行った。 複数の実世界および合成データセットに関する広範な実験により、提案モデルが、精度と実行時間の観点から、最先端モデルよりも大幅に優れていることを検証した。

Asynchronous Time Series is a multivariate time series where all the channels are observed asynchronously-independently, making the time series extremely sparse when aligning them. We often observe this effect in applications with complex observation processes, such as health care, climate science, and astronomy, to name a few. Because of the asynchronous nature, they pose a significant challenge to deep learning architectures, which presume that the time series presented to them are regularly sampled, fully observed, and aligned with respect to time. This paper proposes a novel framework, that we call Deep Convolutional Set Functions (DCSF), which is highly scalable and memory efficient, for the asynchronous time series classification task. With the recent advancements in deep set learning architectures, we introduce a model that is invariant to the order in which time series' channels are presented to it. We explore convolutional neural networks, which are well researched for the closely related problem-classification of regularly sampled and fully observed time series, for encoding the set elements. We evaluate DCSF for AsTS classification, and online (per time point) AsTS classification. Our extensive experiments on multiple real-world and synthetic datasets verify that the suggested model performs substantially better than a range of state-of-the-art models in terms of accuracy and run time.
翻訳日:2022-08-25 13:03:09 公開日:2022-08-24
# データ拡張のための新しい方法:ND-MLS(Nin Dot moving Least Square)

A novel method for data augmentation: Nine Dot Moving Least Square (ND-MLS) ( http://arxiv.org/abs/2208.11532v1 )

ライセンス: Link先を確認
Wen Yang, Rui Wang, Yanchao Zhang(参考訳) データ拡張は、データ収集とラベル付けの費用と労力を節約するためにラベル付きデータに基づいて得られるデータ量を大幅に増加させる。 我々は,9ドットMLS(ND-MLS)と呼ばれる新しいデータ拡張手法を提案する。 この手法は画像デフォルメーションの考え方に基づいて提案される。 画像はND-MLSによって計算される制御点に基づいて変形される。 この方法では,既存のデータセット1つに対して,2000以上の画像を短時間で生成することができる。 このデータ拡張手法を検証するために,コンピュータビジョンの3つの主なタスク,すなわち分類,検出,分割に関する広範なテストを行った。 その結果は 1) 分類では,ND-MLS による手書き数字の MNIST データセット上で VGGNet が 92% のトップ-1 を取得できる。 オムニグロットデータセットでは、文字カテゴリの増加に伴い、少数ショット精度のusuが低下する。 しかし、ND-MLS法は安定しており、Res-Netの96.5 Top-1 ccを100種類の手書き文字分類タスクで取得する。 2)セグメンテーションにおいて、deeplabは、ボトル、馬、草の試験データセットでそれぞれ93.5%、85%、73.3%m_iou(10)を取得し、猫テストデータセットは、セグネットモデルで86.7%m_iou(10)を得る。3) オブジェクト検出において、各カテゴリから10個のオリジナル画像しか得られないが、yolo v4は、それぞれ100%と97.2%のボトルと馬の検出を取得し、一方、猫データセットは、yolo v3で93.6%を得る。 要約すると、ND-MLSは、少数のデータのみを使用することで、分類、オブジェクトデテックオプション、セマンティックセグメンテーションタスクでうまく機能する。

Data augmentation greatly increases the amount of data obtained based on labeled data to save on expenses and labor for data collection and labeling. We present a new approach for data augmentation called nine-dot MLS (ND-MLS). This approach is proposed based on the idea of image defor-mation. Images are deformed based on control points, which are calculated by ND-MLS. The method can generate over 2000 images for one exist-ing dataset in a short time. To verify this data augmentation method, extensive tests were performed covering 3 main tasks of computer vision, namely, classification, detection and segmentation. The results show that 1) in classification, 10 images per category were used for training, and VGGNet can obtain 92% top-1 acc on the MNIST dataset of handwritten digits by ND-MLS. In the Omniglot dataset, the few-shot accuracy usu-ally decreases with the increase in character categories. However, the ND-MLS method has stable performance and obtains 96.5 top-1 acc in Res-Net on 100 different handwritten character classification tasks; 2) in segmentation, under the premise of only ten original images, DeepLab obtains 93.5%, 85%, and 73.3% m_IOU(10) on the bottle, horse, and grass test datasets, respectively, while the cat test dataset obtains 86.7% m_IOU(10) with the SegNet model; 3) with only 10 original images from each category in object detection, YOLO v4 obtains 100% and 97.2% bottle and horse detection, respectively, while the cat dataset obtains 93.6% with YOLO v3. In summary, ND-MLS can perform well on classification, object detec-tion, and semantic segmentation tasks by using only a few data.
翻訳日:2022-08-25 13:00:27 公開日:2022-08-24
# ssfpn: オブジェクト検出のためのスケールシーケンス(s^2)特徴型特徴ピラミッドネットワーク

ssFPN: Scale Sequence (S^2) Feature Based Feature Pyramid Network for Object Detection ( http://arxiv.org/abs/2208.11533v1 )

ライセンス: Link先を確認
Hye-Jin Park, Young-Ju Choi, Young-Woon Lee, Byung-Gyu Kim(参考訳) 特徴ピラミッドネットワーク(FPN)は、オブジェクトの様々なスケールを考慮するために、オブジェクト検出モデルに不可欠なモジュールである。 しかし、小物体の平均精度(AP)は中・大物体のAPよりも比較的低い。 その理由は、cnnの深い層が機能抽出レベルとして情報損失を引き起こす理由である。 小型物体の特徴情報を強化するため,FPNの特徴抽出(S^2)を提案する。 我々はFPNの構造を,FPNの水平軸上の3次元畳み込みによるスケール空間と抽出スケールシーケンス(S^2)の特徴とみなす。 基本的にはスケール不変機能であり、小さなオブジェクトのための高解像度ピラミッド特徴マップ上に構築されている。 さらに、提案したS^2機能は、FPNに基づくほとんどのオブジェクト検出モデルに拡張することができる。 提案したS2機能は,MS COCOデータセット上での1段および2段検出器の性能向上を実証する。 提案したS2機能に基づいて, YOLOv4-P5とYOLOv4-P6のAP改善の最大1.3%と1.1%を達成する。 Faster RCNN と Mask R-CNN では,提案した S^2 機能による AP 改善の最大2.0% と 1.6% を観測した。

Feature Pyramid Network (FPN) has been an essential module for object detection models to consider various scales of an object. However, average precision (AP) on small objects is relatively lower than AP on medium and large objects. The reason is why the deeper layer of CNN causes information loss as feature extraction level. We propose a new scale sequence (S^2) feature extraction of FPN to strengthen feature information of small objects. We consider FPN structure as scale-space and extract scale sequence (S^2) feature by 3D convolution on the level axis of FPN. It is basically scale invariant feature and is built on high-resolution pyramid feature map for small objects. Furthermore, the proposed S^2 feature can be extended to most object detection models based on FPN. We demonstrate the proposed S2 feature can improve the performance of both one-stage and two-stage detectors on MS COCO dataset. Based on the proposed S2 feature, we achieve upto 1.3% and 1.1% of AP improvement for YOLOv4-P5 and YOLOv4-P6, respectively. For Faster RCNN and Mask R-CNN, we observe upto 2.0% and 1.6% of AP improvement with the suggested S^2 feature, respectively.
翻訳日:2022-08-25 12:59:50 公開日:2022-08-24
# PeRFception: 放射場を用いた知覚

PeRFception: Perception using Radiance Fields ( http://arxiv.org/abs/2208.11537v1 )

ライセンス: Link先を確認
Yoonwoo Jeong, Seungjoo Shin, Junha Lee, Christopher Choy, Animashree Anandkumar, Minsu Cho, Jaesik Park(参考訳) 暗黙的な3D表現の最近の進歩、すなわちNeural Radiance Fields(NeRF)は、正確で光リアルな3D再構成を可能にした。 この新しい表現は、数百の高解像度画像の情報を1つのコンパクトフォーマットで効果的に伝達し、新しいビューのフォトリアリスティックな合成を可能にする。 本研究では、plenoxelsと呼ばれるnerfの変種を用いて、知覚課題のための最初の大規模な暗黙的表現データセット、perfceptionを作成し、このデータセットは、分類とセグメンテーションのためにオブジェクト中心とシーン中心の両方のスキャンを組み込んだ2つの部分からなる。 オリジナルのデータセットからかなりのメモリ圧縮率(96.4\%)を示し、2dと3dの情報を統一した形式で含む。 この暗黙の形式を直接入力する分類とセグメンテーションモデルを構築し、画像の背景に過度に適合しないようにするための新しい拡張手法を提案する。 コードとデータはhttps://postech-cvlab.github.io/PeRFception で公開されている。

The recent progress in implicit 3D representation, i.e., Neural Radiance Fields (NeRFs), has made accurate and photorealistic 3D reconstruction possible in a differentiable manner. This new representation can effectively convey the information of hundreds of high-resolution images in one compact format and allows photorealistic synthesis of novel views. In this work, using the variant of NeRF called Plenoxels, we create the first large-scale implicit representation datasets for perception tasks, called the PeRFception, which consists of two parts that incorporate both object-centric and scene-centric scans for classification and segmentation. It shows a significant memory compression rate (96.4\%) from the original dataset, while containing both 2D and 3D information in a unified form. We construct the classification and segmentation models that directly take as input this implicit format and also propose a novel augmentation technique to avoid overfitting on backgrounds of images. The code and data are publicly available in https://postech-cvlab.github.io/PeRFception .
翻訳日:2022-08-25 12:59:32 公開日:2022-08-24
# 教師なし構造整合画像から画像への変換

Unsupervised Structure-Consistent Image-to-Image Translation ( http://arxiv.org/abs/2208.11546v1 )

ライセンス: Link先を確認
Shima Shahfar and Charalambos Poullis(参考訳) Swapping Autoencoderは、ディープイメージ操作と画像から画像への変換において最先端のパフォーマンスを達成した。 我々は,勾配反転層に基づく簡易かつ効果的な補助モジュールを導入することにより,この作業を改善する。 補助モジュールの損失により、ジェネレータは全ゼロテクスチャコードでイメージを再構築することを学び、構造とテクスチャ情報のより良いアンタングルを奨励する。 提案手法は, 意味マスクを用いずに構造情報を保存しつつ, 洗練されたスタイル伝達制御を可能にする。 画像を操作するために、オブジェクトの幾何学と入力画像の一般的なスタイルの両方を2つの潜在符号に符号化し、構造整合性を強制する制約を加える。 また、補助損失により、トレーニング時間が大幅に短縮される。 提案されたモデルの優位性は、最新技術が失敗することがわかっている衛星画像のような複雑な領域で実証される。 最後に,本モデルは,マルチモーダル画像生成手法を用いて比較結果を得るとともに,幅広いデータセットの品質指標を改善できることを示す。

The Swapping Autoencoder achieved state-of-the-art performance in deep image manipulation and image-to-image translation. We improve this work by introducing a simple yet effective auxiliary module based on gradient reversal layers. The auxiliary module's loss forces the generator to learn to reconstruct an image with an all-zero texture code, encouraging better disentanglement between the structure and texture information. The proposed attribute-based transfer method enables refined control in style transfer while preserving structural information without using a semantic mask. To manipulate an image, we encode both the geometry of the objects and the general style of the input images into two latent codes with an additional constraint that enforces structure consistency. Moreover, due to the auxiliary loss, training time is significantly reduced. The superiority of the proposed model is demonstrated in complex domains such as satellite images where state-of-the-art are known to fail. Lastly, we show that our model improves the quality metrics for a wide range of datasets while achieving comparable results with multi-modal image generation techniques.
翻訳日:2022-08-25 12:59:13 公開日:2022-08-24
# 多言語知識転送による映像検索の改善

Improving video retrieval using multilingual knowledge transfer ( http://arxiv.org/abs/2208.11553v1 )

ライセンス: Link先を確認
Avinash Madasu, Estelle Aflalo, Gabriel Ben Melech Stan, Shao-Yen Tseng, Gedas Bertasius, Vasudev Lal(参考訳) 映像検索は視覚言語モデルの開発で大きな進歩を遂げている。 しかし、これらのモデルをさらに改善するには、追加のラベル付きデータが必要である。 本稿では,多言語モデルからの知識伝達を活用し,映像検索の性能を向上させるフレームワークであるmktvrを提案する。 まず、最先端の機械翻訳モデルを用いて、擬似基底構造多言語ビデオテキストペアを構築する。 そして、このデータを用いて、事前訓練された多言語モデルに基づいて、英語と非英語のテキストクエリが共通の埋め込み空間で表現されるビデオテキスト表現を学ぶ。 提案手法は,MSRVTT,MSVD,DiDeMo,Charadesの4つの英語ビデオ検索データセットに対して検討した。 実験結果から,本手法は過去のモデルよりも優れた結果が得られることが示された。 最後に,6言語にまたがる多言語ビデオリトライバルデータセット上でのモデルの評価を行い,ゼロショット設定で従来の多言語ビデオ検索モデルを上回ることを示す。

Video retrieval has seen tremendous progress with the development of vision-language models. However, further improving these models require additional labelled data which is a huge manual effort. In this paper, we propose a framework MKTVR, that utilizes knowledge transfer from a multilingual model to boost the performance of video retrieval. We first use state-of-the-art machine translation models to construct pseudo ground-truth multilingual video-text pairs. We then use this data to learn a video-text representation where English and non-English text queries are represented in a common embedding space based on pretrained multilingual models. We evaluate our proposed approach on four English video retrieval datasets such as MSRVTT, MSVD, DiDeMo and Charades. Experimental results demonstrate that our approach achieves state-of-the-art results on all datasets outperforming previous models. Finally, we also evaluate our model on a multilingual video-retrieval dataset encompassing six languages and show that our model outperforms previous multilingual video retrieval models in a zero-shot setting.
翻訳日:2022-08-25 12:58:40 公開日:2022-08-24
# 畳み込みニューラルネットワークを用いたAppleのカウント

Apple Counting using Convolutional Neural Networks ( http://arxiv.org/abs/2208.11566v1 )

ライセンス: Link先を確認
Nicolai H\"ani, Pravakar Roy, and Volkan Isler(参考訳) 果樹園などの実世界の環境における画像から、正確で信頼性の高い果物や野菜の数を推定することは、近年大きな注目を集めている課題である。 収穫前の果実数の推定は、物流計画に有用な情報を提供する。 果実の検出にはかなりの進歩が見られたが、実数の推定は依然として困難である。 実際には、果実はまとめられることが多い。 したがって、果実のみを検出する方法は、正確な果実数を推定するための一般的な解決策を提供しない。 さらに、園芸研究においては、単一の収量推定よりも、クラスタごとのリンゴの数の分布などの細かな情報の方が望ましい。 本研究では,画像からの果実数を多種分類問題として定式化し,畳み込みニューラルネットワークの学習により解く。 まず,画像単位の精度を評価し,ガウス混合モデルに基づく最先端手法と4つのテストデータセットを比較した。 gaussian mixed model-based methodのパラメータはデータセットごとに特別に調整されているが、ネットワークは最大94\%の精度で4つのデータセットのうち3つに上回っている。 次に,本手法を用いて,基礎となる真理を持つ2つのデータセットの収量を推定する。 96-97 %の精度を示した。 詳細は、https://www.youtube.com/watch? v=Le0mb5P-SYc}{https://www.youtube.com/watch? v=le0mb5p-syc。

Estimating accurate and reliable fruit and vegetable counts from images in real-world settings, such as orchards, is a challenging problem that has received significant recent attention. Estimating fruit counts before harvest provides useful information for logistics planning. While considerable progress has been made toward fruit detection, estimating the actual counts remains challenging. In practice, fruits are often clustered together. Therefore, methods that only detect fruits fail to offer general solutions to estimate accurate fruit counts. Furthermore, in horticultural studies, rather than a single yield estimate, finer information such as the distribution of the number of apples per cluster is desirable. In this work, we formulate fruit counting from images as a multi-class classification problem and solve it by training a Convolutional Neural Network. We first evaluate the per-image accuracy of our method and compare it with a state-of-the-art method based on Gaussian Mixture Models over four test datasets. Even though the parameters of the Gaussian Mixture Model-based method are specifically tuned for each dataset, our network outperforms it in three out of four datasets with a maximum of 94\% accuracy. Next, we use the method to estimate the yield for two datasets for which we have ground truth. Our method achieved 96-97\% accuracies. For additional details please see our video here: https://www.youtube.com/watch?v=Le0mb5P-SYc}{https://www.youtube.com/watch?v=Le0mb5P-SYc.
翻訳日:2022-08-25 12:58:25 公開日:2022-08-24
# イベントカメラを用いたモーションロバスト高速軽量物体検出

Motion Robust High-Speed Light-weighted Object Detection with Event Camera ( http://arxiv.org/abs/2208.11602v1 )

ライセンス: Link先を確認
Bingde Liu(参考訳) イベントカメラは、冗長な視覚情報を捨てる非常に高い時間分解能を持つ大きなダイナミックレンジイベントストリームを生成し、オブジェクト検出タスクに新たな可能性をもたらす。 しかし、ディープラーニングを用いたオブジェクト検出タスクにイベントカメラを適用する既存の方法には、まだ多くの問題がある。 第1に,グローバル同期時間窓と時間分解能により,イベントカメラの動作に対して速度が異なるオブジェクトを考慮に入れることはできない。 第二に、既存の手法のほとんどは大きなパラメータニューラルネットワークに依存しており、これは計算負荷が大きく、推論速度が低いことを意味するため、イベントストリームの高時間分解能とは対照的である。 本研究では,アジャイルイベント検出器(aed)と呼ばれる高速軽量検出器を,単純かつ効果的なデータ拡張手法で設計した。 また,イベントストリームデータの非同期生成を最大限に活用し,移動物体の動きにロバストなイベントストリーム表現テンソルであるtemporal active focus(taf)を提案する。 時間を要することなく建設することもできる。 さらに,AED検出器の入力層におけるTAFテンソルの豊富な時間情報を抽出するために,Bifurcated Folding Module (BFM) と呼ばれるモジュールを提案する。 我々は,prophesee gen1 automotive detection datasetとprophesee 1 megapixel automotive detection datasetの2つの典型的な実写イベントカメラオブジェクト検出データセットについて実験を行った。 実験の結果, 本手法は, 精度, 速度, パラメータ数を同時に比較して, 競合することがわかった。 また,光流密度測定に基づいて物体を複数の運動レベルに分類し,カメラに対して速度の異なる物体に対してロバスト性を示す。

The event camera produces a large dynamic range event stream with a very high temporal resolution discarding redundant visual information, thus bringing new possibilities for object detection tasks. However, the existing methods of applying the event camera to object detection tasks using deep learning methods still have many problems. First, existing methods cannot take into account objects with different velocities relative to the motion of the event camera due to the global synchronized time window and temporal resolution. Second, most of the existing methods rely on large parameter neural networks, which implies a large computational burden and low inference speed, thus contrary to the high temporal resolution of the event stream. In our work, we design a high-speed lightweight detector called Agile Event Detector (AED) with a simple but effective data augmentation method. Also, we propose an event stream representation tensor called Temporal Active Focus (TAF), which takes full advantage of the asynchronous generation of event stream data and is robust to the motion of moving objects. It can also be constructed without much time-consuming. We further propose a module called the Bifurcated Folding Module (BFM) to extract the rich temporal information in the TAF tensor at the input layer of the AED detector. We conduct our experiments on two typical real-scene event camera object detection datasets: the complete Prophesee GEN1 Automotive Detection Dataset and the Prophesee 1 MEGAPIXEL Automotive Detection Dataset with partial annotation. Experiments show that our method is competitive in terms of accuracy, speed, and the number of parameters simultaneously. Also by classifying the objects into multiple motion levels based on the optical flow density metric, we illustrated the robustness of our method for objects with different velocities relative to the camera.
翻訳日:2022-08-25 12:58:03 公開日:2022-08-24
# 大規模SARおよび光学画像における地域ラベル比からの学習作物型マッピング

Learning crop type mapping from regional label proportions in large-scale SAR and optical imagery ( http://arxiv.org/abs/2208.11607v1 )

ライセンス: Link先を確認
Laura E.C. La Rosa, Dario A.B. Oliveira, Pedram Ghamisi(参考訳) 近年の地球観測(EO)へのディープラーニングアルゴリズムの適用により、リモートセンシングデータに依存する分野の大幅な進歩を実現している。 しかし、EOのデータスケールを考えると、専門家によるピクセルレベルのアノテーションによる大規模なデータセットの作成は高価で時間を要する。 この文脈では、EOの深層学習手法を訓練する際、手動ラベリングの負担を軽減するために、先行は魅力的な方法と見なされる。 一部のアプリケーションでは、これらのプリエントが簡単に利用できる。 本研究は,多くのコンピュータビジョン課題における自己指導型特徴表現学習におけるコントラッシブラーニング手法の大きな成功にともなうものであり,農業地域全体を対象とした官営作物分布データに基づくサンプルレベル分類器の学習に先立って,作物ラベル比率を用いたオンラインディープクラスタリング手法を提案する。 ブラジルの2つの異なる農業地域から得られた2つの大きなデータセットを用いて評価を行った。 大規模実験により,本手法は異なるデータタイプ(合成開口レーダと光学画像)に対して堅牢であり,ターゲット領域における主要作物タイプを考慮した高精度な評価が得られた。 これにより、EOアプリケーションにおける大規模な画像アノテーションの負担を軽減することができる。

The application of deep learning algorithms to Earth observation (EO) in recent years has enabled substantial progress in fields that rely on remotely sensed data. However, given the data scale in EO, creating large datasets with pixel-level annotations by experts is expensive and highly time-consuming. In this context, priors are seen as an attractive way to alleviate the burden of manual labeling when training deep learning methods for EO. For some applications, those priors are readily available. Motivated by the great success of contrastive-learning methods for self-supervised feature representation learning in many computer-vision tasks, this study proposes an online deep clustering method using crop label proportions as priors to learn a sample-level classifier based on government crop-proportion data for a whole agricultural region. We evaluate the method using two large datasets from two different agricultural regions in Brazil. Extensive experiments demonstrate that the method is robust to different data types (synthetic-aperture radar and optical images), reporting higher accuracy values considering the major crop types in the target regions. Thus, it can alleviate the burden of large-scale image annotation in EO applications.
翻訳日:2022-08-25 12:57:37 公開日:2022-08-24
# 限定クエリ付きganを用いた非制限ブラックボックス攻撃

Unrestricted Black-box Adversarial Attack Using GAN with Limited Queries ( http://arxiv.org/abs/2208.11613v1 )

ライセンス: Link先を確認
Dongbin Na, Sangwoo Ji, and Jong Kim(参考訳) 敵対的な例は、ディープニューラルネットワークを騙すために意図的に生成された入力である。 近年の研究では、制限のない非制限の敵攻撃が提案されている。 しかし、以前の制限のない攻撃方法は、ブラックボックス設定で現実世界のアプリケーションを騙すのに制限がある。 本稿では,攻撃者が分類モデルのトップ1決定にのみアクセス可能なGANを用いた非制限逆例を生成する手法を提案する。 本手法は,潜在空間における決定に基づく攻撃の利点を効率的に活用し,分類モデルを騙すために潜在ベクトルをうまく操作する。 実験により,提案手法はブラックボックス設定における限られたクエリを持つ分類モデルのロバスト性を評価するのに有効であることを示す。 まず,対象とする攻撃手法がクエリ効率が高いことを示し,307のアイデンティティを含む顔認証モデルに対して,非制限的な攻撃例を生成する。 そして,提案手法は,現実の有名人認識サービスへの攻撃にも有効であることを示す。

Adversarial examples are inputs intentionally generated for fooling a deep neural network. Recent studies have proposed unrestricted adversarial attacks that are not norm-constrained. However, the previous unrestricted attack methods still have limitations to fool real-world applications in a black-box setting. In this paper, we present a novel method for generating unrestricted adversarial examples using GAN where an attacker can only access the top-1 final decision of a classification model. Our method, Latent-HSJA, efficiently leverages the advantages of a decision-based attack in the latent space and successfully manipulates the latent vectors for fooling the classification model. With extensive experiments, we demonstrate that our proposed method is efficient in evaluating the robustness of classification models with limited queries in a black-box setting. First, we demonstrate that our targeted attack method is query-efficient to produce unrestricted adversarial examples for a facial identity recognition model that contains 307 identities. Then, we demonstrate that the proposed method can also successfully attack a real-world celebrity recognition service.
翻訳日:2022-08-25 12:57:17 公開日:2022-08-24
# 動的動き認識によるイベントベース画像の劣化

Event-based Image Deblurring with Dynamic Motion Awareness ( http://arxiv.org/abs/2208.11398v1 )

ライセンス: Link先を確認
Patricia Vitoria, Stamatios Georgoulis, Stepan Tulyakov, Alfredo Bochicchio, Julius Erbach, Yuanyou Li(参考訳) 非一様画像デブラリングは、ぼやけた画像自体に時間的およびテクスト的な情報がないため、難しい課題である。 イベントセンサのような補助センサからの補完情報は、これらの制限に対処するために検討されている。 後者は、時間分解能が高くダイナミックレンジの高いイベントと呼ばれる対数強度の変化を非同期に記録することができる。 現在のイベントベースデブラリング法は、ぼやけた画像とイベントを組み合わせることで、ピクセルごとの動きとデブラリング演算子を共同で推定する。 本稿では,この課題に対して分割・分散アプローチがより適していると論じる。 そこで本研究では,カーネルオフセットと変調マスクが動的に推定される変調変形可能な畳み込みを用いてシーン内の動作を符号化し,デブロワー演算子はぼやけた画像とそれに対応するイベントの組み合わせから学習する。 さらに,低コントラスト領域における事象の局所性に対処するために,粗大なマルチスケール再構築手法を用いる。 重要なことは、露光時間に実際のRGBぼかし画像と関連する事象のペアを含む最初のデータセットを導入することである。 以上の結果から,PSNRは合成データ1.57dB,実イベントデータ1.08dBまで改善され,イベント使用時の全体的な堅牢性が向上した。

Non-uniform image deblurring is a challenging task due to the lack of temporal and textural information in the blurry image itself. Complementary information from auxiliary sensors such event sensors are being explored to address these limitations. The latter can record changes in a logarithmic intensity asynchronously, called events, with high temporal resolution and high dynamic range. Current event-based deblurring methods combine the blurry image with events to jointly estimate per-pixel motion and the deblur operator. In this paper, we argue that a divide-and-conquer approach is more suitable for this task. To this end, we propose to use modulated deformable convolutions, whose kernel offsets and modulation masks are dynamically estimated from events to encode the motion in the scene, while the deblur operator is learned from the combination of blurry image and corresponding events. Furthermore, we employ a coarse-to-fine multi-scale reconstruction approach to cope with the inherent sparsity of events in low contrast regions. Importantly, we introduce the first dataset containing pairs of real RGB blur images and related events during the exposure time. Our results show better overall robustness when using events, with improvements in PSNR by up to 1.57dB on synthetic data and 1.08 dB on real event data.
翻訳日:2022-08-25 12:54:11 公開日:2022-08-24
# 畳み込みニューラルネットワークのためのラジアル基底関数ネットワークによる類似性距離の学習と解釈性の向上

Radial Basis Function Networks for Convolutional Neural Networks to Learn Similarity Distance Metric and Improve Interpretability ( http://arxiv.org/abs/2208.11401v1 )

ライセンス: Link先を確認
Mohammadreza Amirian and Friedhelm Schwenker(参考訳) 放射基底関数ニューラルネットワーク(RBF)はパターン分類と回帰の主要な候補であり、古典的な機械学習アプリケーションで広く使われている。 しかし、RBFは現代のアーキテクチャに適応性がないため、従来の畳み込みニューラルネットワーク(CNN)を使用して、現代のディープラーニング研究やコンピュータビジョンに統合されていない。 本稿では, RBFネットワークをCNN上の分類器として適用し, トレーニングプロセスを変更し, 画像分類のための最新の視覚アーキテクチャをエンドツーエンドに学習するための新しいアクティベーション機能を導入する。 RBFの特定のアーキテクチャにより、類似度距離メートル法を学習することで、類似および異種画像の比較と検索が可能になる。 さらに、任意のCNNアーキテクチャ上でRBF分類器を使用することで、モデルの意思決定プロセスに関する人間の解釈可能な新たな洞察が得られることを示す。 最後に、様々なcnnアーキテクチャにrbfを適用することに成功し、ベンチマークコンピュータビジョンデータセットの結果を評価した。

Radial basis function neural networks (RBFs) are prime candidates for pattern classification and regression and have been used extensively in classical machine learning applications. However, RBFs have not been integrated into contemporary deep learning research and computer vision using conventional convolutional neural networks (CNNs) due to their lack of adaptability with modern architectures. In this paper, we adapt RBF networks as a classifier on top of CNNs by modifying the training process and introducing a new activation function to train modern vision architectures end-to-end for image classification. The specific architecture of RBFs enables the learning of a similarity distance metric to compare and find similar and dissimilar images. Furthermore, we demonstrate that using an RBF classifier on top of any CNN architecture provides new human-interpretable insights about the decision-making process of the models. Finally, we successfully apply RBFs to a range of CNN architectures and evaluate the results on benchmark computer vision datasets.
翻訳日:2022-08-25 12:53:50 公開日:2022-08-24
# 自己監督型内視鏡画像キーポイントマッチング

Self-Supervised Endoscopic Image Key-Points Matching ( http://arxiv.org/abs/2208.11424v1 )

ライセンス: Link先を確認
Manel Farhat, Houda Chaabouni-Chouayakh, and Achraf Ben-Hamadou(参考訳) 内視鏡画像間の特徴マッチングと対応を見つけることは、患者追跡や臨床シーケンスからのパノラマ画像の生成など、多くの臨床応用において重要なステップである。 それにもかかわらず、内視鏡画像に高いテクスチャ変動が存在するため、ロバストで正確な特徴マッチングの開発は難しい課題となる。 近年,畳み込みニューラルネットワーク(CNN)によって抽出された学習機能を実現するディープラーニング技術が,幅広いコンピュータビジョンタスクで注目を集めている。 しかし,これらはすべて,医用データデータベースでは必ずしも利用できない,大量の注釈付きデータを必要とする教師付き学習方式を踏襲している。 ラベル付きデータ不足に関連するこの制限を克服するため、自己教師付き学習パラダイムは近年、多くのアプリケーションで大きな成功を収めている。 本稿では,深層学習技術に基づく内視鏡画像マッチングのための新しい自己教師型アプローチを提案する。 標準的な手作りの局所特徴記述子と比較すると,本手法は精度と記憶力で比較した。 さらに,自己教師付きディスクリプタは,精度とマッチングスコアの面で,最先端のディープラーニングに基づく教師付き手法の選択と比較して,競争力の高い性能を提供する。

Feature matching and finding correspondences between endoscopic images is a key step in many clinical applications such as patient follow-up and generation of panoramic image from clinical sequences for fast anomalies localization. Nonetheless, due to the high texture variability present in endoscopic images, the development of robust and accurate feature matching becomes a challenging task. Recently, deep learning techniques which deliver learned features extracted via convolutional neural networks (CNNs) have gained traction in a wide range of computer vision tasks. However, they all follow a supervised learning scheme where a large amount of annotated data is required to reach good performances, which is generally not always available for medical data databases. To overcome this limitation related to labeled data scarcity, the self-supervised learning paradigm has recently shown great success in a number of applications. This paper proposes a novel self-supervised approach for endoscopic image matching based on deep learning techniques. When compared to standard hand-crafted local feature descriptors, our method outperformed them in terms of precision and recall. Furthermore, our self-supervised descriptor provides a competitive performance in comparison to a selection of state-of-the-art deep learning based supervised methods in terms of precision and matching score.
翻訳日:2022-08-25 12:53:33 公開日:2022-08-24
# YOLOPv2: より良く、より速く、より強く、パノプティカルな運転知覚

YOLOPv2: Better, Faster, Stronger for Panoptic Driving Perception ( http://arxiv.org/abs/2208.11434v1 )

ライセンス: Link先を確認
Cheng Han, Qichao Zhao, Shuyi Zhang, Yinzi Chen, Zhenlin Zhang, Jinwei Yuan(参考訳) 過去10年間で、マルチタスク学習のアプローチは、高精度と高効率の両方のパフォーマンスを提供する、単眼駆動認識問題の解決において有望な成果を上げてきた。 計算資源が限られているリアルタイムの実用的な自動運転システムのためにネットワークを設計する際の一般的なパラダイムとなっている。 本稿では,トラヒック物体検出,ドリブル道路領域分割,レーン検出を同時に行うための,効率的かつ効率的なマルチタスク学習ネットワークを提案する。 我々のモデルは、BDD100Kデータセットの精度とスピードの観点から、新しい最先端(SOTA)パフォーマンスを実現しました。 特に、前回のsotaモデルに比べて推論時間を半分に短縮する。 コードは近い将来にリリースされる予定だ。

Over the last decade, multi-tasking learning approaches have achieved promising results in solving panoptic driving perception problems, providing both high-precision and high-efficiency performance. It has become a popular paradigm when designing networks for real-time practical autonomous driving system, where computation resources are limited. This paper proposed an effective and efficient multi-task learning network to simultaneously perform the task of traffic object detection, drivable road area segmentation and lane detection. Our model achieved the new state-of-the-art (SOTA) performance in terms of accuracy and speed on the challenging BDD100K dataset. Especially, the inference time is reduced by half compared to the previous SOTA model. Code will be released in the near future.
翻訳日:2022-08-25 12:53:15 公開日:2022-08-24
# 特徴応答マップを用いたCNNの敵攻撃の追跡と検出

Trace and Detect Adversarial Attacks on CNNs using Feature Response Maps ( http://arxiv.org/abs/2208.11436v1 )

ライセンス: Link先を確認
Mohammadreza Amirian, Friedhelm Schwenker and Thilo Stadelmann(参考訳) 畳み込みニューラルネットワーク(cnn)に対する逆攻撃の存在は、そのようなモデルの真剣な応用への適合性に疑問を呈する。 攻撃は入力イメージを操作して、人間のオブザーバに対して正常に見えながら、誤分類が誘発される。したがって、検出は容易ではない。別のコンテキストでは、CNNの隠されたレイヤのバックプロパゲートアクティベーション -- 与えられた入力に対する"機能応答" -- が、CNNが出力を計算しながら、人間の"デバッガ"を可視化するのに役立つ。 本研究では,攻撃防止のための新たな攻撃事例検出手法を提案する。 我々は,特徴応答における逆摂動を追跡することで,平均局所的空間エントロピーを用いた自動検出を可能にする。 この方法は元のネットワークアーキテクチャを変更せず、完全に人間に解釈可能である。 実験により,imagenetでトレーニングされた大規模モデルに対する最先端攻撃に対するアプローチの有効性を確認した。

The existence of adversarial attacks on convolutional neural networks (CNN) questions the fitness of such models for serious applications. The attacks manipulate an input image such that misclassification is evoked while still looking normal to a human observer -- they are thus not easily detectable. In a different context, backpropagated activations of CNN hidden layers -- "feature responses" to a given input -- have been helpful to visualize for a human "debugger" what the CNN "looks at" while computing its output. In this work, we propose a novel detection method for adversarial examples to prevent attacks. We do so by tracking adversarial perturbations in feature responses, allowing for automatic detection using average local spatial entropy. The method does not alter the original network architecture and is fully human-interpretable. Experiments confirm the validity of our approach for state-of-the-art attacks on large-scale models trained on ImageNet.
翻訳日:2022-08-25 12:53:04 公開日:2022-08-24
# ラベルデータ不足によるハイブリッド融合型マルチモーダル感情認識

Hybrid Fusion Based Interpretable Multimodal Emotion Recognition with Insufficient Labelled Data ( http://arxiv.org/abs/2208.11450v1 )

ライセンス: Link先を確認
Puneet Kumar, Sarthak Malik and Balasubramanian Raman(参考訳) 本稿では,画像,音声,テキストを含むマルチモーダル入力に反映される感情を離散クラスに分類するマルチモーダル感情認識システムであるvisual spoken textual additive net (vista net)を提案する。 K-Average Additive exPlanation (KAAP) と呼ばれる新しい解釈可能性技術も開発され、視覚的、音声的、テキスト的特徴が特定の感情のクラスを予測している。 VISTAネットは、早期と後期の融合のハイブリッドを用いて、画像、音声、テキストのモダリティから情報を融合する。 中間出力の重みを自動的に調整し、人間の介入なしに重み付け平均を計算する。 KAAP技術は、特定の感情のクラスを予測するために、各モダリティと対応する特徴の寄与を計算する。 離散感情クラスでラベル付けされたマルチモーダル感情データセットの不十分さを軽減するために,実生活画像,対応する音声・テキスト,感情ラベル(「angry」,「happy」,「hate」,「sad」)からなる大規模iit-r mmemorecデータセットを構築した。 vista netでは、画像、音声、テキストのモダリティを考慮して95.99%の感情認識精度が得られ、これは1つまたは2つのモダリティの入力を考慮した場合のパフォーマンスよりも優れている。

This paper proposes a multimodal emotion recognition system, VIsual Spoken Textual Additive Net (VISTA Net), to classify the emotions reflected by a multimodal input containing image, speech, and text into discrete classes. A new interpretability technique, K-Average Additive exPlanation (KAAP), has also been developed to identify the important visual, spoken, and textual features leading to predicting a particular emotion class. The VISTA Net fuses the information from image, speech & text modalities using a hybrid of early and late fusion. It automatically adjusts the weights of their intermediate outputs while computing the weighted average without human intervention. The KAAP technique computes the contribution of each modality and corresponding features toward predicting a particular emotion class. To mitigate the insufficiency of multimodal emotion datasets labeled with discrete emotion classes, we have constructed a large-scale IIT-R MMEmoRec dataset consisting of real-life images, corresponding speech & text, and emotion labels ('angry,' 'happy,' 'hate,' and 'sad.'). The VISTA Net has resulted in 95.99% emotion recognition accuracy on considering image, speech, and text modalities, which is better than the performance on considering the inputs of any one or two modalities.
翻訳日:2022-08-25 12:52:45 公開日:2022-08-24
# q-net:クエリインフォームドな医療画像セグメンテーション

Q-Net: Query-Informed Few-Shot Medical Image Segmentation ( http://arxiv.org/abs/2208.11451v1 )

ライセンス: Link先を確認
Qianqian Shen, Yanan Li, Jiyong Jin, Bin Liu(参考訳) 深層学習はコンピュータビジョンにおいて大きな成功を収め、医療画像セグメンテーション(MIS)はデータアノテーションが不足しているため、依然として課題である。 マルチショットセグメンテーション(Meta-FSS)のためのメタラーニング技術は、クエリイメージとサポートセット間の分散シフトを無視しながら、この問題に対処するために広く用いられている。 対照的に、経験豊富な臨床医は、問合せ画像から情報を借りてそのような変化を知覚し、対処し、それに応じて自分の(自分の)事前認知モデルを微調整または校正することができる。 そこで我々は,専門家臨床医の学習機構を模倣したクエリインフォームメタfssアプローチであるq-netを提案する。 我々は最近提案された異常検出にインスパイアされたADNetに基づいてQ-Netを構築する。 具体的には,クエリインフォームドしきい値適応モジュールとクエリインフォームドプロトタイプリファインメントモジュールという,2つのクエリインフォームド計算モジュールをadnetに追加する。 特徴抽出モジュールのデュアルパス拡張と組み合わせて、Q-Netは腹部MR画像と心臓MR画像からなる2つの広く使われているデータセットに対して最先端のパフォーマンスを達成する。 我々の研究は、クエリ情報を活用することでメタFSS技術を改善する新しい方法に光を当てている。

Deep learning has achieved tremendous success in computer vision, while medical image segmentation (MIS) remains a challenge, due to the scarcity of data annotations. Meta-learning techniques for few-shot segmentation (Meta-FSS) have been widely used to tackle this challenge, while they neglect possible distribution shifts between the query image and the support set. In contrast, an experienced clinician can perceive and address such shifts by borrowing information from the query image, then fine-tune or calibrate his (her) prior cognitive model accordingly. Inspired by this, we propose Q-Net, a Query-informed Meta-FSS approach, which mimics in spirit the learning mechanism of an expert clinician. We build Q-Net based on ADNet, a recently proposed anomaly detection-inspired method. Specifically, we add two query-informed computation modules into ADNet, namely a query-informed threshold adaptation module and a query-informed prototype refinement module. Combining them with a dual-path extension of the feature extraction module, Q-Net achieves state-of-the-art performance on two widely used datasets, which are composed of abdominal MR images and cardiac MR images, respectively. Our work sheds light on a novel way to improve Meta-FSS techniques by leveraging query information.
翻訳日:2022-08-25 12:52:21 公開日:2022-08-24
# SubFace: 顔認識のためのソフトマックス近似による学習

SubFace: Learning with Softmax Approximation for Face Recognition ( http://arxiv.org/abs/2208.11483v1 )

ライセンス: Link先を確認
Hongwei Xu, Suncheng Xiang, Dahong Qian(参考訳) softmaxベースの損失関数とその変種(例えば、cosface、sphereface、arcface)は、野生の無拘束シーンの顔認識性能を大幅に改善した。 これらのアルゴリズムの一般的な実践は、埋め込み特徴と線形変換行列との乗算を最適化することである。 しかし、たいていの場合、組み込み機能の次元は伝統的なデザイン経験に基づいて与えられ、固定されたサイズを与える際に機能自体のパフォーマンスを改善することにはあまり関心がない。 この課題に対処するために,サブスペース機能を用いて顔認識性能を向上させるSubFaceというソフトマックス近似手法を提案する。 具体的には、トレーニング中の各バッチにおける非重複部分空間の特徴を動的に選択し、そのサブスペース特徴を用いてソフトマックスベース損失の完全特徴を近似することにより、ディープモデルの識別性を大幅に向上させることができる。 ベンチマークデータセットを用いた総合的な実験により,バニラCNNベースラインの性能が大幅に向上し,マージンベース損失による部分空間戦略の有効性が強く証明された。

The softmax-based loss functions and its variants (e.g., cosface, sphereface, and arcface) significantly improve the face recognition performance in wild unconstrained scenes. A common practice of these algorithms is to perform optimizations on the multiplication between the embedding features and the linear transformation matrix. However in most cases, the dimension of embedding features is given based on traditional design experience, and there is less-studied on improving performance using the feature itself when giving a fixed size. To address this challenge, this paper presents a softmax approximation method called SubFace, which employs the subspace feature to promote the performance of face recognition. Specifically, we dynamically select the non-overlapping subspace features in each batch during training, and then use the subspace features to approximate full-feature among softmax-based loss, so the discriminability of the deep model can be significantly enhanced for face recognition. Comprehensive experiments conducted on benchmark datasets demonstrate that our method can significantly improve the performance of vanilla CNN baseline, which strongly proves the effectiveness of subspace strategy with the margin-based loss.
翻訳日:2022-08-25 12:51:56 公開日:2022-08-24
# 相互知識蒸留による半教師付き意味セグメンテーション

Semi-supervised Semantic Segmentation with Mutual Knowledge Distillation ( http://arxiv.org/abs/2208.11499v1 )

ライセンス: Link先を確認
Jianlong Yuan, Jinchao Ge, Qi Qian, Zhibin Wang, Fan Wang, Yifan Liu(参考訳) 一貫性規則化は、最近の半教師付きセマンティックセグメンテーション法で広く研究されている。 画像、特徴、ネットワーク摂動の恩恵を受け、注目すべきパフォーマンスが達成されている。 本稿では,これらの摂動をフル活用するために,相互知識蒸留(MKD)と呼ばれる新しい整合性正規化フレームワークを提案する。 整合性正規化法に基づく2つの補助的平均教師モデルを導入する。 より具体的には、ある平均教師が生成した擬似ラベルを用いて、他の学生ネットワークを監督し、2つの分枝間の相互知識蒸留を実現する。 また,画像レベルの強みと弱みに加えて,暗黙的な意味分布を考慮した特徴拡張を用いて,学生にさらなる摂動を加える。 提案手法はトレーニングサンプルの多様性を著しく向上させる。 各種半教師付き環境下でのSOTA(State-of-the-art)手法よりも優れた性能を示した。

Consistency regularization has been widely studied in recent semi-supervised semantic segmentation methods. Remarkable performance has been achieved, benefiting from image, feature, and network perturbations. To make full use of these perturbations, in this work, we propose a new consistency regularization framework called mutual knowledge distillation (MKD). We innovatively introduce two auxiliary mean-teacher models based on the consistency regularization method. More specifically, we use the pseudo label generated by one mean teacher to supervise the other student network to achieve a mutual knowledge distillation between two branches. In addition to using image-level strong and weak augmentation, we also employ feature augmentation considering implicit semantic distributions to add further perturbations to the students. The proposed framework significantly increases the diversity of the training samples. Extensive experiments on public benchmarks show that our framework outperforms previous state-of-the-art(SOTA) methods under various semi-supervised settings.
翻訳日:2022-08-25 12:51:37 公開日:2022-08-24
# 自動車用2dオブジェクトの高速高精度バイナリインスタンスセグメンテーション

Fast and Precise Binary Instance Segmentation of 2D Objects for Automotive Applications ( http://arxiv.org/abs/2208.11527v1 )

ライセンス: Link先を確認
Darshan Ganganna Ravindra, Laslo Dinges, Al-Hamadi Ayoub, and Vasili Baranau(参考訳) 本稿では,多角形による基底真理データセットのラベル付けを支援するため,バイナリ2dインスタンスセグメンテーションの改善に注目する。 human labelerは、オブジェクトの周りにボックスを描画するだけで、ポリゴンが自動的に生成される。 有効にするためには、我々のシステムはCPU上でリアルタイムで実行する必要がある。 バイナリインスタンスセグメンテーションの最も一般的なアプローチはエンコーダ-デコーダネットワークである。 本報告では,最先端のエンコーダデコーダネットワークを評価し,これらのネットワークを用いたインスタンスセグメンテーションの品質向上手法を提案する。 提案手法は,ネットワークアーキテクチャの改善とともに,オブジェクトシルエットの最外点である極端点と呼ばれる,ネットワーク入力に余分な情報を提供することに依存する。 ユーザーはバウンディングボックスの代わりにラベルを付けることができる。 境界ボックスは極端点からも導出することができる。 この方法は、他の最先端のエンコーダデコーダネットワークよりも優れたIoUを生成し、CPU上にデプロイされたときに十分に高速に動作させる。

In this paper, we focus on improving binary 2D instance segmentation to assist humans in labeling ground truth datasets with polygons. Humans labeler just have to draw boxes around objects, and polygons are generated automatically. To be useful, our system has to run on CPUs in real-time. The most usual approach for binary instance segmentation involves encoder-decoder networks. This report evaluates state-of-the-art encoder-decoder networks and proposes a method for improving instance segmentation quality using these networks. Alongside network architecture improvements, our proposed method relies upon providing extra information to the network input, so-called extreme points, i.e. the outermost points on the object silhouette. The user can label them instead of a bounding box almost as quickly. The bounding box can be deduced from the extreme points as well. This method produces better IoU compared to other state-of-the-art encoder-decoder networks and also runs fast enough when it is deployed on a CPU.
翻訳日:2022-08-25 12:51:22 公開日:2022-08-24
# AT-DDPM:デノイング拡散確率モデルによる大気乱流による復元面の劣化

AT-DDPM: Restoring Faces degraded by Atmospheric Turbulence using Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2208.11284v1 )

ライセンス: Link先を確認
Nithin Gopalakrishnan Nair, Kangfu Mei, Vishal M Patel(参考訳) 多くの長距離撮像システムは拡張視覚アプリケーションをサポートするよう設計されているが、その運用の自然な障害は大気乱流による劣化である。 大気乱流はぼやけや幾何学的歪みを導入することで画質を著しく低下させる。 近年,cnnベースやganインバージョンベースなど,深層学習に基づく単一画像の大気乱流緩和手法が,画像の歪みを除去しようとする文献で提案されている。 しかし、これらの方法のいくつかは訓練が困難であり、しばしば顔の特徴の再構築に失敗し、特に高乱流の場合、非現実的な結果をもたらす。 Denoising Diffusion Probabilistic Models (DDPMs) は、その安定したトレーニングプロセスと高品質な画像を生成する能力により、最近注目を集めている。 本稿では,大気乱流緩和問題に対するddpmに基づく最初の解を提案する。 また,条件付きDDPMの推論時間を短縮する高速サンプリング手法を提案する。 本モデルの重要性を示すために, 合成データと実世界データを用いて広範な実験を行った。 さらなる研究を容易にするため、レビュープロセス後にすべてのコードと事前訓練されたモデルを公開します。

Although many long-range imaging systems are designed to support extended vision applications, a natural obstacle to their operation is degradation due to atmospheric turbulence. Atmospheric turbulence causes significant degradation to image quality by introducing blur and geometric distortion. In recent years, various deep learning-based single image atmospheric turbulence mitigation methods, including CNN-based and GAN inversion-based, have been proposed in the literature which attempt to remove the distortion in the image. However, some of these methods are difficult to train and often fail to reconstruct facial features and produce unrealistic results especially in the case of high turbulence. Denoising Diffusion Probabilistic Models (DDPMs) have recently gained some traction because of their stable training process and their ability to generate high quality images. In this paper, we propose the first DDPM-based solution for the problem of atmospheric turbulence mitigation. We also propose a fast sampling technique for reducing the inference times for conditional DDPMs. Extensive experiments are conducted on synthetic and real-world data to show the significance of our model. To facilitate further research, all codes and pretrained models will be made public after the review process.
翻訳日:2022-08-25 12:48:21 公開日:2022-08-24
# RZSR:Depth Guided Self-Exemplarsを用いた参照型ゼロショット超解法

RZSR: Reference-based Zero-Shot Super-Resolution with Depth Guided Self-Exemplars ( http://arxiv.org/abs/2208.11313v1 )

ライセンス: Link先を確認
Jun-Sang Yoo, Dong-Wook Kim, Yucheng Lu, and Seung-Won Jung(参考訳) 近年,低分解能 (LR) 画像から高分解能 (HR) 画像を生成する方法として, SISR法が注目されている。 しかし,これらの手法の多くは合成LR画像による優位性を示し,実世界の画像への一般化性はしばしば満足できない。 本稿では、ロバスト・スーパーレゾリューション(SR)、すなわち参照ベースSR(RefSR)とゼロショットSR(ZSSR)のためのよく知られた2つの戦略に注目し、参照ベースゼロショットSR(RZSR)と呼ばれる統合ソリューションを提案する。 ZSSRの原則に従い、入力画像からのみ抽出したトレーニングサンプルを用いて、テスト時に画像固有SRネットワークを訓練する。 ZSSRを前進させるためには, クロススケールマッチングを用いて入力画像からのみ抽出される, リッチテクスチャと高周波の詳細を持つ参照画像パッチを得る。 この目的のために,内部参照データセットを構築し,奥行き情報を用いてデータセットから参照画像パッチを取得する。 LRパッチとそれに対応するHR参照パッチを用いて、非ローカルアテンションモジュールを具体化したRefSRネットワークをトレーニングする。 実験の結果,従来のzssr法と比較して提案手法が優れていること,非検出画像に対するロバスト性が他の完全教師付きsisr法と比較して示された。

Recent methods for single image super-resolution (SISR) have demonstrated outstanding performance in generating high-resolution (HR) images from low-resolution (LR) images. However, most of these methods show their superiority using synthetically generated LR images, and their generalizability to real-world images is often not satisfactory. In this paper, we pay attention to two well-known strategies developed for robust super-resolution (SR), i.e., reference-based SR (RefSR) and zero-shot SR (ZSSR), and propose an integrated solution, called reference-based zero-shot SR (RZSR). Following the principle of ZSSR, we train an image-specific SR network at test time using training samples extracted only from the input image itself. To advance ZSSR, we obtain reference image patches with rich textures and high-frequency details which are also extracted only from the input image using cross-scale matching. To this end, we construct an internal reference dataset and retrieve reference image patches from the dataset using depth information. Using LR patches and their corresponding HR reference patches, we train a RefSR network that is embodied with a non-local attention module. Experimental results demonstrate the superiority of the proposed RZSR compared to the previous ZSSR methods and robustness to unseen images compared to other fully supervised SISR methods.
翻訳日:2022-08-25 12:48:04 公開日:2022-08-24
# マルチモーダル動作認識のためのモダリティミキサ

Modality Mixer for Multi-modal Action Recognition ( http://arxiv.org/abs/2208.11314v1 )

ライセンス: Link先を確認
Sumin Lee, Sangmin Woo, Yeonju Park, Muhammad Adi Nugroho, and Changick Kim(参考訳) マルチモーダル行動認識では、異なるモダリティの相補的性質だけでなく、グローバルな行動内容も考慮することが重要である。 本稿では,マルチモーダル動作認識のための動作の時間的コンテキストと相補的な情報を利用する,M-Mixer(Modality Mixer, M-Mixer)ネットワークを提案する。 また、M-MixerのコアコンポーネントであるMulti-modal Contextualization Unit (MCU) という、シンプルで効果的なリカレントユニットも導入する。 我々のMCUは1つのモダリティ(例えばRGB)のシーケンスを時間的に符号化し、他のモダリティ(例えばディープ、IR)のアクション内容の特徴を持つ。 このプロセスは、M-Mixerがグローバルなアクションコンテンツを活用し、他のモダリティの補完情報を補完することを奨励する。 その結果,提案手法は,NTU RGB+D 60,NTU RGB+D 120,NW-UCLAデータセットの最先端手法よりも優れていた。 さらに,包括的アブレーション研究により,M-Mixerの有効性を示す。

In multi-modal action recognition, it is important to consider not only the complementary nature of different modalities but also global action content. In this paper, we propose a novel network, named Modality Mixer (M-Mixer) network, to leverage complementary information across modalities and temporal context of an action for multi-modal action recognition. We also introduce a simple yet effective recurrent unit, called Multi-modal Contextualization Unit (MCU), which is a core component of M-Mixer. Our MCU temporally encodes a sequence of one modality (e.g., RGB) with action content features of other modalities (e.g., depth, IR). This process encourages M-Mixer to exploit global action content and also to supplement complementary information of other modalities. As a result, our proposed method outperforms state-of-the-art methods on NTU RGB+D 60, NTU RGB+D 120, and NW-UCLA datasets. Moreover, we demonstrate the effectiveness of M-Mixer by conducting comprehensive ablation studies.
翻訳日:2022-08-25 12:47:38 公開日:2022-08-24
# 最大コレントロピー基準に基づく点集合の多視点登録のためのロバスト運動平均化

Robust Motion Averaging for Multi-view Registration of Point Sets Based Maximum Correntropy Criterion ( http://arxiv.org/abs/2208.11327v1 )

ライセンス: Link先を確認
Yugeng Huang, Haitao Liu, Tian Huang(参考訳) マルチビュー登録問題を解決するための効率的なアルゴリズムとして、動き平均化(MA)アルゴリズムが広く研究され、多くのMAベースのアルゴリズムが導入された。 相対的な動きからグローバルな動きを回復し、情報冗長性を平均的な累積誤差に活用することを目的としている。 しかし、これらの手法の1つの特性は、グアセス・ニュートン法を用いて大域運動の増大の最小二乗問題を解くことであり、これは効率が低く、外れ値に対する堅牢性が劣る可能性がある。 本稿では,Laplacian kernel-based maximum correntropy criterion (LMCC) を用いたマルチビュー登録のための新しい動き平均化フレームワークを提案する。 リー代数運動フレームワークとコレントロピー測度を利用して, 相対運動によって与えられる制約をすべて考慮した新しいコスト関数を提案する。 グローバルな動きを補正するために使用されるインクリメントは、コスト関数の最大化を目的とした最適化問題として、さらに定式化することができる。 二次的手法により、最適化問題は2つのサブプロブレム、すなわち、現在の残差に応じて各相対運動の重みを計算し、次のイテレーションでインクリメントのための2次コーンプログラム問題(SOCP)を解くことで解決できる。 また,複数の異常値が存在する場合,相対運動によって供給される情報冗長性を効率的に活用できるように,カーネル幅を決定する新しい手法を提案する。 最後に,提案手法と他のMAベースマルチビュー登録手法を比較し,その性能を検証する。 合成データおよび実データを用いた実験により,本手法は効率,精度,堅牢性において優れた性能を発揮することが示された。

As an efficient algorithm to solve the multi-view registration problem,the motion averaging (MA) algorithm has been extensively studied and many MA-based algorithms have been introduced. They aim at recovering global motions from relative motions and exploiting information redundancy to average accumulative errors. However, one property of these methods is that they use Guass-Newton method to solve a least squares problem for the increment of global motions, which may lead to low efficiency and poor robustness to outliers. In this paper, we propose a novel motion averaging framework for the multi-view registration with Laplacian kernel-based maximum correntropy criterion (LMCC). Utilizing the Lie algebra motion framework and the correntropy measure, we propose a new cost function that takes all constraints supplied by relative motions into account. Obtaining the increment used to correct the global motions, can further be formulated as an optimization problem aimed at maximizing the cost function. By virtue of the quadratic technique, the optimization problem can be solved by dividing into two subproblems, i.e., computing the weight for each relative motion according to the current residuals and solving a second-order cone program problem (SOCP) for the increment in the next iteration. We also provide a novel strategy for determining the kernel width which ensures that our method can efficiently exploit information redundancy supplied by relative motions in the presence of many outliers. Finally, we compare the proposed method with other MA-based multi-view registration methods to verify its performance. Experimental tests on synthetic and real data demonstrate that our method achieves superior performance in terms of efficiency, accuracy and robustness.
翻訳日:2022-08-25 12:47:21 公開日:2022-08-24
# 3次元ポーズと形状推定のためのグラフ指向変換器

K-Order Graph-oriented Transformer with GraAttention for 3D Pose and Shape Estimation ( http://arxiv.org/abs/2208.11328v1 )

ライセンス: Link先を確認
Weixi Zhao and Weiqiang Wang(参考訳) グラフ構造化データのための新しい2D-to-3Dポーズ推定ネットワーク KOG-Transformer と手動データのための3Dポーズ・ツー・シェイプ推定ネットワーク GASE-Net を提案する。 従来の3Dポーズ推定手法は、重み付けの放棄や受容場の増加など、グラフ畳み込みカーネルへの様々な変更に焦点を当ててきた。 これらの手法のいくつかは注意に基づく非局所加群を補助加群として採用している。 グラフ構造データのノード間の関係をよりよくモデル化し、異なる隣接ノードの情報を異なる方法で融合するために、注意モジュールをターゲットに修正し、グラフ構造データ用に設計された2つのモジュール、グラフ相対位置符号化マルチヘッドセルフアテンション(gr-msa)とk次グラフ指向マルチヘッドセルフアテンション(kog-msa)を提案する。 GR-MSAとKOG-MSAを積み重ねることで、2次元から3次元のポーズ推定のための新しいネットワーク KOG-Transformer を提案する。 さらに,3次元ポーズを入力とし,手首の形状を疎密から徐々にモデル化する,graattention shape estimation network(gase-net)と呼ばれる手指データの形状推定ネットワークを提案する。 広汎な実験により, KOG-Transformer の優位性を実証した。 実験の結果、KOG-Transformerは、ベンチマークデータセットHuman3.6Mにおいて、従来の最先端手法よりも大幅に優れていた。 GASE-NetがObManとInterHand2.6Mの2つの公開ハンドデータセットに与える影響を評価する。 GASE-Netは、強い一般化能力を持つ入力ポーズの対応する形状を予測することができる。

We propose a novel attention-based 2D-to-3D pose estimation network for graph-structured data, named KOG-Transformer, and a 3D pose-to-shape estimation network for hand data, named GASE-Net. Previous 3D pose estimation methods have focused on various modifications to the graph convolution kernel, such as abandoning weight sharing or increasing the receptive field. Some of these methods employ attention-based non-local modules as auxiliary modules. In order to better model the relationship between nodes in graph-structured data and fuse the information of different neighbor nodes in a differentiated way, we make targeted modifications to the attention module and propose two modules designed for graph-structured data, graph relative positional encoding multi-head self-attention (GR-MSA) and K-order graph-oriented multi-head self-attention (KOG-MSA). By stacking GR-MSA and KOG-MSA, we propose a novel network KOG-Transformer for 2D-to-3D pose estimation. Furthermore, we propose a network for shape estimation on hand data, called GraAttention shape estimation network (GASE-Net), which takes a 3D pose as input and gradually models the shape of the hand from sparse to dense. We have empirically shown the superiority of KOG-Transformer through extensive experiments. Experimental results show that KOG-Transformer significantly outperforms the previous state-of-the-art methods on the benchmark dataset Human3.6M. We evaluate the effect of GASE-Net on two public available hand datasets, ObMan and InterHand2.6M. GASE-Net can predict the corresponding shape for input pose with strong generalization ability.
翻訳日:2022-08-25 12:46:52 公開日:2022-08-24
# ビデオによる集団カウントのための時空間アテンテートネットワーク

A Spatio-Temporal Attentive Network for Video-Based Crowd Counting ( http://arxiv.org/abs/2208.11339v1 )

ライセンス: Link先を確認
Marco Avvenuti, Marco Bongiovanni, Luca Ciampi, Fabrizio Falchi, Claudio Gennaro, Nicola Messina(参考訳) 画像からカウントする自動的な人々は、監視カメラネットワークが普及していることから、現代のスマートシティにおける都市監視に注目されている。 現在のコンピュータビジョン技術は、個々の画像の歩行者密度を推定するディープラーニングベースのアルゴリズムに依存している。 ビデオシーケンスの時間的一貫性を利用するのは、作品の束だけだ。 本研究では,監視映像から歩行者数を推定するための時空間的注意型ニューラルネットワークを提案する。 連続フレーム間の時間的相関を利用して,fdstベンチマークにおいて,最先端のカウントエラーを5%,ローカライズエラーを7.5%低減した。

Automatic people counting from images has recently drawn attention for urban monitoring in modern Smart Cities due to the ubiquity of surveillance camera networks. Current computer vision techniques rely on deep learning-based algorithms that estimate pedestrian densities in still, individual images. Only a bunch of works take advantage of temporal consistency in video sequences. In this work, we propose a spatio-temporal attentive neural network to estimate the number of pedestrians from surveillance videos. By taking advantage of the temporal correlation between consecutive frames, we lowered state-of-the-art count error by 5% and localization error by 7.5% on the widely-used FDST benchmark.
翻訳日:2022-08-25 12:46:25 公開日:2022-08-24
# ICANet:マルチモーダルデータによる短時間映像感情認識手法

ICANet: A Method of Short Video Emotion Recognition Driven by Multimodal Data ( http://arxiv.org/abs/2208.11346v1 )

ライセンス: Link先を確認
Xuecheng Wu, Mengmeng Tian, Lanhang Zhai(参考訳) 人工知能とショートビデオの急速な発展により、短いビデオにおける感情認識は、人間とコンピュータの相互作用において最も重要な研究トピックの1つとなっている。 現在、ほとんどの感情認識法は単一モードのままである。 しかし、日常生活では、人間は通常、実際の感情を偽り、単一のモーダルな感情認識の精度が比較的ひどいという問題を引き起こす。 また、類似した感情を区別することは容易ではない。 そこで,本研究では,音声,映像,光の流れの3つの異なるモダリティを用い,単一モダリティの欠如を補い,ショートビデオにおける感情認識の精度を向上させることにより,マルチモーダルなショートビデオ感情認識を実現するための新しいアプローチを提案する。 ICANetはIEMOCAPベンチマークで80.77%の精度でSOTA法を15.89%上回っている。

With the fast development of artificial intelligence and short videos, emotion recognition in short videos has become one of the most important research topics in human-computer interaction. At present, most emotion recognition methods still stay in a single modality. However, in daily life, human beings will usually disguise their real emotions, which leads to the problem that the accuracy of single modal emotion recognition is relatively terrible. Moreover, it is not easy to distinguish similar emotions. Therefore, we propose a new approach denoted as ICANet to achieve multimodal short video emotion recognition by employing three different modalities of audio, video and optical flow, making up for the lack of a single modality and then improving the accuracy of emotion recognition in short videos. ICANet has a better accuracy of 80.77% on the IEMOCAP benchmark, exceeding the SOTA methods by 15.89%.
翻訳日:2022-08-25 12:46:16 公開日:2022-08-24
# 自己フィルタ:信頼度ペナリゼーション付きラベルノイズのためのノイズ対応サンプル選択

Self-Filtering: A Noise-Aware Sample Selection for Label Noise with Confidence Penalization ( http://arxiv.org/abs/2208.11351v1 )

ライセンス: Link先を確認
Qi Wei, Haoliang Sun, Xiankai Lu, Yilong Yin(参考訳) サンプル選択は、ロバスト学習におけるラベルノイズの影響を軽減する効果的な戦略である。 典型的な戦略は、クリーンなサンプルを特定するために小さな損失基準を適用するのが一般的である。 しかし、大きな損失を伴う決定境界付近にあるサンプルは、通常ノイズの多い例で絡み合っていて、この基準で破棄され、一般化性能が大幅に劣化する。 本稿では,歴史予測におけるノイズの多い例のゆらぎを利用した新しい選択戦略である \textbf{S}elf-\textbf{F}il\textbf{t}ering (SFT) を提案する。 具体的には,各例の過去の予測を格納したメモリバンクモジュールと,それに続く学習イテレーションの選択をサポートする動的更新を提案する。 また,SFTのサンプル選択バイアスの累積誤差を低減するため,正則化項を考案し,信頼性の高い出力分布をペナル化する。 この項で誤分類されたカテゴリーの重みを増大させることで、損失関数は穏やかな条件下でのノイズのラベル付けに頑健である。 異種雑音を用いた3つのベンチマークについて広範な実験を行い,最新の結果を得た。 アブレーション研究とさらなる分析は、頑健な学習におけるサンプル選択におけるSFTの有効性を検証する。

Sample selection is an effective strategy to mitigate the effect of label noise in robust learning. Typical strategies commonly apply the small-loss criterion to identify clean samples. However, those samples lying around the decision boundary with large losses usually entangle with noisy examples, which would be discarded with this criterion, leading to the heavy degeneration of the generalization performance. In this paper, we propose a novel selection strategy, \textbf{S}elf-\textbf{F}il\textbf{t}ering (SFT), that utilizes the fluctuation of noisy examples in historical predictions to filter them, which can avoid the selection bias of the small-loss criterion for the boundary examples. Specifically, we introduce a memory bank module that stores the historical predictions of each example and dynamically updates to support the selection for the subsequent learning iteration. Besides, to reduce the accumulated error of the sample selection bias of SFT, we devise a regularization term to penalize the confident output distribution. By increasing the weight of the misclassified categories with this term, the loss function is robust to label noise in mild conditions. We conduct extensive experiments on three benchmarks with variant noise types and achieve the new state-of-the-art. Ablation studies and further analysis verify the virtue of SFT for sample selection in robust learning.
翻訳日:2022-08-25 12:46:02 公開日:2022-08-24
# 改良型YOLOv4による自然人口のマスク摩耗検出に関する研究

Research on Mask Wearing Detection of Natural Population Based on Improved YOLOv4 ( http://arxiv.org/abs/2208.11353v1 )

ライセンス: Link先を確認
Xuecheng Wu, Mengmeng Tian, Lanhang Zhai(参考訳) 新型コロナウイルスの感染状況は近年深刻だが、一部の公共の場ではマスクやマスクを誤って着用しない場合もあり、関係者は直ちにマスクをリマインダーし、正しく着用するよう指示する必要がある。 しかし、このような重要で複雑な作業に直面した場合には、公共の場で自動マスク着用検出を行う必要がある。 本稿では,改良型YOLOv4に基づくマスク着用検出手法を提案する。 具体的には、まず、機能融合と表現をコーディネートするために、backboneに座標アテンションモジュールを追加します。 次に,モデル性能とロバスト性を向上させるため,ネットワーク構造の改善を行った。 第3に、K平均クラスタリングアルゴリズムをデプロイし、NPMDデータセットに9つのアンカーボックスをより適させる。 実験の結果、yolov4の性能は改善され、ベースラインは64.37 fpsで4.06% apであった。

Recently, the domestic COVID-19 epidemic situation has been serious, but in some public places, some people do not wear masks or wear masks incorrectly, which requires the relevant staff to instantly remind and supervise them to wear masks correctly. However, in the face of such important and complicated work, it is necessary to carry out automated mask wearing detection in public places. This paper proposes a new mask wearing detection method based on the improved YOLOv4. Specifically, firstly, we add the Coordinate Attention Module to the backbone to coordinate feature fusion and representation. Secondly, we conduct a series of network structural improvements to enhance the model performance and robustness. Thirdly, we deploy the K-means clustering algorithm to make the nine anchor boxes more suitable for our NPMD dataset. The experimental results show that the improved YOLOv4 performs better, exceeding the baseline by 4.06% AP with a comparable speed of 64.37 FPS.
翻訳日:2022-08-25 12:45:37 公開日:2022-08-24
# WiCV 2022: 第10回コンピュータビジョンワークショップ

WiCV 2022: The Tenth Women In Computer Vision Workshop ( http://arxiv.org/abs/2208.11388v1 )

ライセンス: Link先を確認
Doris Antensteiner, Silvia Bucci, Arushi Goel, Marah Halawa, Niveditha Kalavakonda, Tejaswi Kasarla, Miaomiao Liu, Nermin Samet, Ivaxi Sheth(参考訳) 本稿では、ルイジアナ州ニューオーリンズのハイブリッドcvpr 2022と共に組織された、コンピュータビジョンワークショップwicv 2022における女性の詳細を紹介する。 コンピュータビジョンコミュニティの少数(女性)グループに声を提供し、学術と産業の両方においてこれらの研究者の可視性を高めることに焦点を当てている。 WiCVは、そのような出来事がコンピュータビジョンの分野における性別の不均衡を下げる上で重要な役割を果たすと考えている。 WiCVは毎年、それを提供する。 イ 少数集団の研究者間の協力の機会 b)女性ジュニア研究者の指導 c) 金銭負担を克服するためのプレゼンターへの財政支援 d) ロールモデルの大規模かつ多様な選択で、キャリアの始めに若い研究者の例となることができる。 本稿では,wicv 2022ワークショップの司会者,出席者,スポンサーに関する統計を概説したワークショッププログラム,過去数年間の動向について報告する。

In this paper, we present the details of Women in Computer Vision Workshop - WiCV 2022, organized alongside the hybrid CVPR 2022 in New Orleans, Louisiana. It provides a voice to a minority (female) group in the computer vision community and focuses on increasing the visibility of these researchers, both in academia and industry. WiCV believes that such an event can play an important role in lowering the gender imbalance in the field of computer vision. WiCV is organized each year where it provides a) opportunity for collaboration between researchers from minority groups, b) mentorship to female junior researchers, c) financial support to presenters to overcome monetary burden and d) large and diverse choice of role models, who can serve as examples to younger researchers at the beginning of their careers. In this paper, we present a report on the workshop program, trends over the past years, a summary of statistics regarding presenters, attendees, and sponsorship for the WiCV 2022 workshop.
翻訳日:2022-08-25 12:45:21 公開日:2022-08-24
# SwinFIR: 高速フーリエ変換によるスイナー再考と画像超解法トレーニングの改善

SwinFIR: Revisiting the SwinIR with Fast Fourier Convolution and Improved Training for Image Super-Resolution ( http://arxiv.org/abs/2208.11247v1 )

ライセンス: Link先を確認
Dafeng Zhang, Feiyu Huang, Shizhuo Liu, Xiaobing Wang, Zhezhu Jin(参考訳) トランスベース方式は,cnn方式に比べて長距離依存性をモデル化できるため,画像復元性能が向上した。 しかし、swiinirのような進歩は、パフォーマンスと計算オーバーヘッドのバランスをとるためにウィンドウベースおよびローカルアテンション戦略を採用しており、グローバル情報をキャプチャし、初期層に長い依存関係を確立するために大きな受容フィールドを採用することを制限している。 本研究では,FFC(Fast Fourier Convolution, 高速フーリエ・コンボリューション)コンポーネントをイメージワイドな受容場に置き換えることで,SwinIRを拡張できるSwinFIRを提案する。 また,画像再構成の効果を改善するために,データ拡張,事前学習,特徴アンサンブルといった他の高度な手法についても検討した。 また,本手法では,学習時間やテスト時間を増やすことなく,モデルの性能を大幅に向上させることができる。 提案アルゴリズムを複数の大規模ベンチマークに適用し,既存手法と比較して最先端性能を実現した。 例えば、我々のSwinFIRはManga109データセット上で32.83dBのPSNRを達成しています。

Transformer-based methods have achieved impressive image restoration performance due to their capacities to model long-range dependency compared to CNN-based methods. However, advances like SwinIR adopts the window-based and local attention strategy to balance the performance and computational overhead, which restricts employing large receptive fields to capture global information and establish long dependencies in the early layers. To further improve the efficiency of capturing global information, in this work, we propose SwinFIR to extend SwinIR by replacing Fast Fourier Convolution (FFC) components, which have the image-wide receptive field. We also revisit other advanced techniques, i.e, data augmentation, pre-training, and feature ensemble to improve the effect of image reconstruction. And our feature ensemble method enables the performance of the model to be considerably enhanced without increasing the training and testing time. We applied our algorithm on multiple popular large-scale benchmarks and achieved state-of-the-art performance comparing to the existing methods. For example, our SwinFIR achieves the PSNR of 32.83 dB on Manga109 dataset, which is 0.8 dB higher than the state-of-the-art SwinIR method.
翻訳日:2022-08-25 12:40:41 公開日:2022-08-24
# 学習可能な人間のメッシュ三角測量による3次元ポーズと形状推定

Learnable human mesh triangulation for 3D human pose and shape estimation ( http://arxiv.org/abs/2208.11251v1 )

ライセンス: Link先を確認
Sungho Chun, Sungbum Park, Ju Yong Chang(参考訳) 関節位置と比較して, 関節回転と形状推定の精度は, 多視点画像を用いたスキン付き多対人線形モデル(SMPL)に基づく人体メッシュ再構成では比較的注目されていない。 この分野の研究は2つのカテゴリに大別される。 第1のアプローチは関節推定を行い、その結果の関節にSMPLを合わせることでSMPLパラメータを生成する。 第2のアプローチは、畳み込みニューラルネットワーク(CNN)ベースのモデルを通じて、入力画像から直接SMPLパラメータを回帰する。 しかし、これらのアプローチは、関節回転と形状再構成の曖昧さとネットワーク学習の難しさを解決するための情報不足に苦しむ。 上記の問題を解決するために,二段階法を提案する。 提案手法はまず,入力画像からCNNモデルを用いてメッシュ頂点の座標を推定し,SMPLモデルを推定頂点に適合させてSMPLパラメータを取得する。 推定メッシュ頂点は関節回転と形状を決定するのに十分な情報を提供し、SMPLパラメータよりも学習しやすい。 Human3.6M と MPI-INF-3DHP のデータセットを用いた実験により,提案手法は関節回転および形状推定において従来よりも有意に優れ,関節位置推定では競争性能が向上した。

Compared to joint position, the accuracy of joint rotation and shape estimation has received relatively little attention in the skinned multi-person linear model (SMPL)-based human mesh reconstruction from multi-view images. The work in this field is broadly classified into two categories. The first approach performs joint estimation and then produces SMPL parameters by fitting SMPL to resultant joints. The second approach regresses SMPL parameters directly from the input images through a convolutional neural network (CNN)-based model. However, these approaches suffer from the lack of information for resolving the ambiguity of joint rotation and shape reconstruction and the difficulty of network learning. To solve the aforementioned problems, we propose a two-stage method. The proposed method first estimates the coordinates of mesh vertices through a CNN-based model from input images, and acquires SMPL parameters by fitting the SMPL model to the estimated vertices. Estimated mesh vertices provide sufficient information for determining joint rotation and shape, and are easier to learn than SMPL parameters. According to experiments using Human3.6M and MPI-INF-3DHP datasets, the proposed method significantly outperforms the previous works in terms of joint rotation and shape estimation, and achieves competitive performance in terms of joint location estimation.
翻訳日:2022-08-25 12:40:18 公開日:2022-08-24
# 3D-FM GAN:3D制御可能な顔操作を目指して

3D-FM GAN: Towards 3D-Controllable Face Manipulation ( http://arxiv.org/abs/2208.11257v1 )

ライセンス: Link先を確認
Yuchen Liu, Zhixin Shu, Yijun Li, Zhe Lin, Richard Zhang, S.Y. Kung(参考訳) 3d制御可能なポートレート合成は、gans(generative adversarial networks)のブレークスルーのおかげで大幅に進歩した。 しかし、既存の顔画像を正確な3D制御で操作することは依然として困難である。 GANインバージョンと3D認識を結合する一方で、ノイズ・ツー・イメージのGANは直接フォワードのソリューションであり、非効率であり、編集品質が著しく低下する可能性がある。 このギャップを埋めるために3D-FM GANを提案する。これは3D制御可能な顔操作用に設計された新しい条件付きGANフレームワークで、エンドツーエンドの学習フェーズ後にチューニングを一切必要としない。 入力された顔画像と3D編集の物理的レンダリングの両方をStyleGANの潜在空間に注意深く符号化することにより、画像生成装置は高品質でアイデンティティを保存し、3D制御可能な顔操作を提供する。 このような新しい枠組みを効果的に学習するために,2つの本質的な学習戦略と,ナイーブなスキームにより大幅に改善される新しい乗法共変調アーキテクチャを開発した。 広範囲な評価により,本手法は,編集性の向上,アイデンティティの保存性の向上,写真リアリズムの向上など,様々なタスクにおいて先行技術よりも優れることを示す。 さらに,大規模なポーズ編集やドメイン外の画像に対して,デザインの一般化性の向上を示す。

3D-controllable portrait synthesis has significantly advanced, thanks to breakthroughs in generative adversarial networks (GANs). However, it is still challenging to manipulate existing face images with precise 3D control. While concatenating GAN inversion and a 3D-aware, noise-to-image GAN is a straight-forward solution, it is inefficient and may lead to noticeable drop in editing quality. To fill this gap, we propose 3D-FM GAN, a novel conditional GAN framework designed specifically for 3D-controllable face manipulation, and does not require any tuning after the end-to-end learning phase. By carefully encoding both the input face image and a physically-based rendering of 3D edits into a StyleGAN's latent spaces, our image generator provides high-quality, identity-preserved, 3D-controllable face manipulation. To effectively learn such novel framework, we develop two essential training strategies and a novel multiplicative co-modulation architecture that improves significantly upon naive schemes. With extensive evaluations, we show that our method outperforms the prior arts on various tasks, with better editability, stronger identity preservation, and higher photo-realism. In addition, we demonstrate a better generalizability of our design on large pose editing and out-of-domain images.
翻訳日:2022-08-25 12:40:00 公開日:2022-08-24
# EigencontoursをPolarMaskベースのインスタンスセグメンテーションに適用する

Applying Eigencontours to PolarMask-Based Instance Segmentation ( http://arxiv.org/abs/2208.11258v1 )

ライセンス: Link先を確認
Wonhui Park, Dongkwon Jin, Chang-Su Kim(参考訳) 固有輪郭は特異値分解に基づく最初のデータ駆動輪郭記述子である。 ESE-Segの実装に基づいて、固有パターンをインスタンスセグメンテーションタスクにうまく適用した。 本稿では,PolarMaskネットワークに固有輪郭を組み込んで例分割を行う。 実験の結果,提案アルゴリズムはCOCO2017とSBDの2つのインスタンスセグメンテーションデータセット上で,PolarMaskよりも優れた結果が得られることが示された。 また,固有輪郭の特性を質的に解析する。 私たちのコードはhttps://github.com/dnjs3594/eigencontoursで利用可能です。

Eigencontours are the first data-driven contour descriptors based on singular value decomposition. Based on the implementation of ESE-Seg, eigencontours were applied to the instance segmentation task successfully. In this report, we incorporate eigencontours into the PolarMask network for instance segmentation. Experimental results demonstrate that the proposed algorithm yields better results than PolarMask on two instance segmentation datasets of COCO2017 and SBD. Also, we analyze the characteristics of eigencontours qualitatively. Our codes are available at https://github.com/dnjs3594/Eigencontours.
翻訳日:2022-08-25 12:39:36 公開日:2022-08-24
# PSSAT:摂動ロバストスロット充満のための摂動構造認識伝達法

PSSAT: A Perturbed Semantic Structure Awareness Transferring Method for Perturbation-Robust Slot Filling ( http://arxiv.org/abs/2208.11508v1 )

ライセンス: Link先を確認
Guanting Dong, Daichi Guo, Liwen Wang, Xuefeng Li, Zechen Wang, Chen Zeng, Keqing He, Jinzheng Zhao, Hao Lei, Xinyue Cui, Yi Huang, Junlan Feng, Weiran Xu(参考訳) 既存のスロット充填モデルは、トレーニングデータからエンティティと対応するコンテキストの固有のパターンを記憶する傾向がある。 しかし、これらのモデルは、実際に発声言語の摂動や変動に晒された場合、システム障害や望ましくないアウトプットにつながる可能性がある。 本稿では,摂動・ロバストスロット充填モデルのトレーニングのための摂動構造認識伝達法を提案する。 具体的には、教師なし言語摂動コーパスから文脈意味構造と単語分布を学習するための2つのMLMベースのトレーニング戦略を導入する。 次に,上流トレーニング手順から学んだ意味知識を元のサンプルに転送し,一貫性処理により生成されたデータをフィルタリングする。 これらの手順はスロット充填モデルのロバスト性を高めることを目的としている。 実験の結果,本手法は従来の基本手法を一貫して上回っており,エンティティやコンテキストの固有パターンを記憶することを防止しつつ,強力な一般化が得られた。

Most existing slot filling models tend to memorize inherent patterns of entities and corresponding contexts from training data. However, these models can lead to system failure or undesirable outputs when being exposed to spoken language perturbation or variation in practice. We propose a perturbed semantic structure awareness transferring method for training perturbation-robust slot filling models. Specifically, we introduce two MLM-based training strategies to respectively learn contextual semantic structure and word distribution from unsupervised language perturbation corpus. Then, we transfer semantic knowledge learned from upstream training procedure into the original samples and filter generated data by consistency processing. These procedures aim to enhance the robustness of slot filling models. Experimental results show that our method consistently outperforms the previous basic methods and gains strong generalization while preventing the model from memorizing inherent patterns of entities and contexts.
翻訳日:2022-08-25 12:36:24 公開日:2022-08-24
# 人的基準と自動指標について:ストーリー生成評価のベンチマーク

Of Human Criteria and Automatic Metrics: A Benchmark of the Evaluation of Story Generation ( http://arxiv.org/abs/2208.11646v1 )

ライセンス: Link先を確認
Cyril Chhun, Pierre Colombo, Chlo\'e Clavel, Fabian M. Suchanek(参考訳) 自動ストーリー生成(ASG)の研究は人間と自動評価に大きく依存している。 しかし,どの評価基準を使うべきかの合意は得られず,自動評価基準がどの程度の相関性を持つかの分析は行われていない。 本稿では,ASG評価の再評価を提案する。 我々は,社会科学文献に注意深く動機づけられた,直交的で包括的な6つの人間の基準を導入する。 また、10種類のASGシステムによって生成される1,056ストーリーの注釈付きデータセットであるHANNAも提示する。 HANNAにより、72の自動測定値と人間の基準との相関を定量的に評価できる。 分析では,現在のasg指標の弱点を強調し,asg評価のための実用的な勧告を定式化する。

Research on Automatic Story Generation (ASG) relies heavily on human and automatic evaluation. However, there is no consensus on which human evaluation criteria to use, and no analysis of how well automatic criteria correlate with them. In this paper, we propose to re-evaluate ASG evaluation. We introduce a set of 6 orthogonal and comprehensive human criteria, carefully motivated by the social sciences literature. We also present HANNA, an annotated dataset of 1,056 stories produced by 10 different ASG systems. HANNA allows us to quantitatively evaluate the correlations of 72 automatic metrics with human criteria. Our analysis highlights the weaknesses of current metrics for ASG and allows us to formulate practical recommendations for ASG evaluation.
翻訳日:2022-08-25 12:36:10 公開日:2022-08-24
# PEER:協調型言語モデル

PEER: A Collaborative Language Model ( http://arxiv.org/abs/2208.11663v1 )

ライセンス: Link先を確認
Timo Schick, Jane Dwivedi-Yu, Zhengbao Jiang, Fabio Petroni, Patrick Lewis, Gautier Izacard, Qingfei You, Christoforos Nalmpantis, Edouard Grave, Sebastian Riedel(参考訳) テキストコンテンツは、しばしば共同執筆プロセスの出力である: 最初のドラフトから始めて、提案を求め、繰り返し変更する。 このプロセスによらず、今日の言語モデルは最終結果のみを生成するように訓練されている。 既存のテキストを更新できず、制御が困難で、口頭で計画したり、説明したりすることができない。 これらの欠点に対処するために、peerという共同言語モデルを紹介します。peerは、書き込みプロセスそのものを模倣するように訓練されています。 重要なのは、複数のピアインスタンスをトレーニングすることで、書き込みプロセスのさまざまな部分を埋め込むことができ、トレーニングデータの質、量、多様性を高めるために、自己学習技術を利用できることです。 これにより、編集履歴がないドメインに適用でき、指示に従う能力を改善し、有用なコメントを書き、アクションを説明することで、peerの潜在能力を最大限に活用できる。 PEERは様々な領域で高い性能を示し,編集作業を行う。

Textual content is often the output of a collaborative writing process: We start with an initial draft, ask for suggestions, and repeatedly make changes. Agnostic of this process, today's language models are trained to generate only the final result. As a consequence, they lack several abilities crucial for collaborative writing: They are unable to update existing texts, difficult to control and incapable of verbally planning or explaining their actions. To address these shortcomings, we introduce PEER, a collaborative language model that is trained to imitate the entire writing process itself: PEER can write drafts, add suggestions, propose edits and provide explanations for its actions. Crucially, we train multiple instances of PEER able to infill various parts of the writing process, enabling the use of self-training techniques for increasing the quality, amount and diversity of training data. This unlocks PEER's full potential by making it applicable in domains for which no edit histories are available and improving its ability to follow instructions, to write useful comments, and to explain its actions. We show that PEER achieves strong performance across various domains and editing tasks.
翻訳日:2022-08-25 12:36:00 公開日:2022-08-24
# 動的メモリベースの好奇心:探索のためのブートストラップアプローチ

Dynamic Memory-based Curiosity: A Bootstrap Approach for Exploration ( http://arxiv.org/abs/2208.11349v1 )

ライセンス: Link先を確認
Zijian Gao, Kele Xu, YiYing Li, Yuanzhao Zhai, Dawei Feng, Bo Ding, XinJun Mao, Huaimin Wang(参考訳) 極端な報酬のスパース性は、強化学習(rl)に深刻な挑戦をもたらす。 現在では、効果的な探索のための代表的な本質的な報酬を提供する好奇心に多くの取り組みがなされている。 しかし、課題はまだ解決されていない。 本稿では,動的記憶に基づく好奇心を表すdymecuという,rlの新たな好奇心について述べる。 人間の好奇心と情報理論に触発されたDyMeCuは、動的メモリと双対オンライン学習者で構成される。 好奇心は、記憶された情報が現在の状態に対処できないことを喚起し、二重学習者間の情報ギャップをエージェント固有の報酬として定式化し、そのような状態情報を動的メモリに統合することができる。 従来のキュリオシティ手法と比較して、dymecuは人間の好奇心を動的メモリで模倣し、メモリモジュールは二重学習者によるブートストラップパラダイムに基づいて動的に成長させることができる。 DeepMind Control Suite や Atari Suite などの複数のベンチマークにおいて,DyMeCu は外因性報酬の有無で競合好奇性に基づく手法より優れていることを示す。 再現性を高めるためにコードを公開します。

The sparsity of extrinsic rewards poses a serious challenge for reinforcement learning (RL). Currently, many efforts have been made on curiosity which can provide a representative intrinsic reward for effective exploration. However, the challenge is still far from being solved. In this paper, we present a novel curiosity for RL, named DyMeCu, which stands for Dynamic Memory-based Curiosity. Inspired by human curiosity and information theory, DyMeCu consists of a dynamic memory and dual online learners. The curiosity arouses if memorized information can not deal with the current state, and the information gap between dual learners can be formulated as the intrinsic reward for agents, and then such state information can be consolidated into the dynamic memory. Compared with previous curiosity methods, DyMeCu can better mimic human curiosity with dynamic memory, and the memory module can be dynamically grown based on a bootstrap paradigm with dual learners. On multiple benchmarks including DeepMind Control Suite and Atari Suite, large-scale empirical experiments are conducted and the results demonstrate that DyMeCu outperforms competitive curiosity-based methods with or without extrinsic rewards. We will release the code to enhance reproducibility.
翻訳日:2022-08-25 12:35:27 公開日:2022-08-24
# 知識グラフ補完の概観

A Review of Knowledge Graph Completion ( http://arxiv.org/abs/2208.11652v1 )

ライセンス: Link先を確認
Mohamad Zamini, Hassan Reza, Minou Rabiei(参考訳) 情報抽出手法は,構造化データや非構造化データからの3重抽出に有効であることが判明した。 このような三重項(頭体、関係、尾体)の形式における構成は、知識グラフ(kgs)の構成と呼ばれる。 現在の知識グラフのほとんどは不完全である。 下流タスクでKGを使用するためには、KGに欠けているリンクを予測することが望ましい。 低次元ベクトル空間に実体と関係の両方を埋め込み、既往の三重項に基づいて未知の三重項を予測する手法が最近提案されている。 三重項が独立に、あるいは依存的にどのように扱われるかによって、知識グラフ補完のタスクを従来のニューラルネットワーク表現学習とグラフニューラルネットワーク表現学習に分割し、より詳細に議論する。 従来のアプローチでは、それぞれのトリプルは独立して処理され、GNNベースのアプローチでは、トリプルもそれぞれのローカルな地区も考慮する。 フルテキストを見る

Information extraction methods proved to be effective at triple extraction from structured or unstructured data. The organization of such triples in the form of (head entity, relation, tail entity) is called the construction of Knowledge Graphs (KGs). Most of the current knowledge graphs are incomplete. In order to use KGs in downstream tasks, it is desirable to predict missing links in KGs. Different approaches have been recently proposed for representation learning of KGs by embedding both entities and relations into a low-dimensional vector space aiming to predict unknown triples based on previously visited triples. According to how the triples will be treated independently or dependently, we divided the task of knowledge graph completion into conventional and graph neural network representation learning and we discuss them in more detail. In conventional approaches, each triple will be processed independently and in GNN-based approaches, triples also consider their local neighborhood. View Full-Text
翻訳日:2022-08-25 12:35:06 公開日:2022-08-24
# ミサイル群における接続保証による形成制御--自然共進化戦略アプローチ

Formation control with connectivity assurance for missile swarm: a natural co-evolutionary strategy approach ( http://arxiv.org/abs/2208.11347v1 )

ライセンス: Link先を確認
Junda Chen(参考訳) 生成制御問題は、通常、従来の数学的アプローチによって解決される、群知能の領域における最も関心のあるトピックの1つである。 本稿では,ミサイル群の形成制御問題を解決するために,自然共進化戦略を利用するメタヒューリスティックなアプローチを提案する。 ミサイルSwarmは異種基準目標を持つ第2次システムでモデル化され、指数誤差関数は、Swarmが一定の形成要求を満たす最適な平衡状態に収束する目的関数となる。 局地的最適かつ不安定な進化の問題に着目し,新しいモデルに基づく政策制約と,性能低下を緩和する集団適応戦略を取り入れる。 ネットワーク通信の分野におけるモロイリード基準の適用により,ノード故障時の接続性とその有効性を理論的および実験的に検証する適応トポロジー法を開発した。 提案手法の有効性を実験的に検証した。 さらに,汎用的な生成制御問題をマルコフ決定過程(MDP)として扱い,反復学習により解くことが可能であることを示した。

Formation control problem is one of the most concerned topics within the realm of swarm intelligence, which is usually solved by conventional mathematical approaches. In this paper, however, we presents a metaheuristic approach that leverages a natural co-evolutionary strategy to solve the formation control problem for a swarm of missiles. The missile swarm is modeled by a second-order system with heterogeneous reference target, and exponential error function is made to be the objective function such that the swarm converge to optimal equilibrium states satisfying certain formation requirements. Focusing on the issue of local optimum and unstable evolution, we incorporate a novel model-based policy constraint and a population adaptation strategies that greatly alleviates the performance degradation. With application of the Molloy-Reed criterion in the field of network communication, we developed an adaptive topology method that assure the connectivity under node failure and its effectiveness are validated both theoretically and experimentally. Experimental results valid the effectiveness of the proposed formation control approach. More significantly, we showed that it is feasible to treat generic formation control problem as Markov Decision Process(MDP) and solve it through iterative learning.
翻訳日:2022-08-25 12:34:50 公開日:2022-08-24
# アクティブ電力配電網における脆弱ノードの同定によるエネルギー回復型スマートマイクログリッド形成のためのデータ駆動アプローチ

Data-Driven Approach to form Energy Resilient Smart Microgrids with Identification of Vulnerable Nodes in Active Electrical Distribution Network ( http://arxiv.org/abs/2208.11682v1 )

ライセンス: Link先を確認
D Maneesh Reddy, Divyanshi Dwivedi, Pradeep Kumar Yemula, Mayukha Pal(参考訳) 本研究では,能動電配電網において,脆弱なノード識別による最適ders割り当てを同定する手法を提案し,それらのノードを臨界ノードと命名した。 これらの臨界ノードの電力変動は他の連結ノードの動作に大きく影響するので、これらのノードはDERの配置に最適であると考えられる。 標準のieee-123テストフィーダシステムにおいて,提案手法の評価を行った。 まず, 分布系をグラフ理論を用いて最適マイクログリッドネットワークに分割した。 パーティショニングは、マイクログリッドの形成に適したグラフニューラルネットワークアーキテクチャを用いて検証された。 さらに,グランガー因果関係のような効果的な測定可能な因果関係解析を用いて分割マイクログリッドの臨界ノードを特定し,これらのノードにderを配置することで,ネットワークの信頼性とレジリエンスが向上した。 さらに, システム性能とエネルギー耐性を検証するため, マイクログリッドネットワークのパーコレーション閾値を計算し, これらの臨界ノードにdersを組み込んだ後, システムレジリエンスを示す。 本提案手法は,分散ネットワークにおけるデータ駆動解析手法による効率的なマイクログリッド分割,クリティカルノードの同定,最適なDER配置,システムレジリエンス評価を実現する。

We propose a methodology for identifying the optimal DERs allocation with vulnerable node identification into consideration in active electrical distribution network and named those nodes as critical nodes. Power variation in these critical nodes would significantly affect the operation of other linked nodes, thus these nodes are suitable and considered optimal for DERs placement. We demonstrated our method evaluation in a standard IEEE-123 test feeder system. Initially, we partitioned the distribution system into optimal microgrid networks using graph theory. The partitioning was validated using graph neural network architecture for suitable formation of the microgrids. Further, using an effective measurable causality analysis like granger causality, we identified critical nodes in the partitioned microgrid and placement of DERs on these nodes resulted in enhanced network reliability and resiliency. Further, to validate the system performance and energy resiliency, we computed percolation threshold for the microgrid network that indicates the system resiliency after incorporating DERs at those critical nodes. This proposed methodology for the first ensures effective microgrid partitioning, identification of critical nodes, optimal DERs allocation and system resiliency evaluation through data driven analysis approach in a distribution network.
翻訳日:2022-08-25 12:34:30 公開日:2022-08-24
# 大規模オンラインマトリックスコンプリートのためのSGDの高速化

Accelerating SGD for Highly Ill-Conditioned Huge-Scale Online Matrix Completion ( http://arxiv.org/abs/2208.11246v1 )

ライセンス: Link先を確認
Gavin Zhang, Hong-Ming Chiu, Richard Y. Zhang(参考訳) 行列完備問題は、個々の要素の観察から低ランクの$r\ll d$の$d\times d$ ground truth matrixを回復することを求める。 実世界の行列完備化は、しばしば大規模な最適化問題であり、$d$非常に大きいので、$O(d)$時間複雑性を持つ最も単純な完全次元ベクトル演算でさえ、非常に高価になる。 確率勾配降下(SGD)は、大規模で行列補完を解くことができる数少ないアルゴリズムの1つであり、また、進化する地上の真実をストリーミングデータを扱うことができる。 少なくとも$o(\kappa\log(1/\epsilon))$の反復が必要で、条件番号$\kappa$で$\epsilon$-close to ground truth行列を得る。 本稿では,大規模なオンライン最適化のために,SGDの実用的特性をすべて保存し,かつ,$\kappa$を無視できる事前条件付きSGDを提案する。 対称基底真理と根平均二乗誤差(rmse)の損失に対して、事前条件付きsgdは$o(\log(1/\epsilon)$の反復で$\epsilon$-accuracyに収束し、基底真理が$\kappa=1$で完全に条件付けされたかのように高速に線形収束する。 数値実験では、1ビットのクロスエントロピー損失とベイズ個人ランキング (bpr) 損失のようなペアリー損失の下での非条件行列完了に対する同様の加速を観測した。

The matrix completion problem seeks to recover a $d\times d$ ground truth matrix of low rank $r\ll d$ from observations of its individual elements. Real-world matrix completion is often a huge-scale optimization problem, with $d$ so large that even the simplest full-dimension vector operations with $O(d)$ time complexity become prohibitively expensive. Stochastic gradient descent (SGD) is one of the few algorithms capable of solving matrix completion on a huge scale, and can also naturally handle streaming data over an evolving ground truth. Unfortunately, SGD experiences a dramatic slow-down when the underlying ground truth is ill-conditioned; it requires at least $O(\kappa\log(1/\epsilon))$ iterations to get $\epsilon$-close to ground truth matrix with condition number $\kappa$. In this paper, we propose a preconditioned version of SGD that preserves all the favorable practical qualities of SGD for huge-scale online optimization while also making it agnostic to $\kappa$. For a symmetric ground truth and the Root Mean Square Error (RMSE) loss, we prove that the preconditioned SGD converges to $\epsilon$-accuracy in $O(\log(1/\epsilon))$ iterations, with a rapid linear convergence rate as if the ground truth were perfectly conditioned with $\kappa=1$. In our numerical experiments, we observe a similar acceleration for ill-conditioned matrix completion under the 1-bit cross-entropy loss, as well as pairwise losses such as the Bayesian Personalized Ranking (BPR) loss.
翻訳日:2022-08-25 12:30:40 公開日:2022-08-24
# ベイズ深層学習における近似MCMCの前提

The premise of approximate MCMC in Bayesian deep learning ( http://arxiv.org/abs/2208.11389v1 )

ライセンス: Link先を確認
Theodore Papamarkou(参考訳) 本稿では,ベイズ深層学習における近似MCMCの特性について述べる。 ニューラルネットワークに対する近似サンプリングアルゴリズムを提案する。 大規模データセットからデータバッチをサンプリングするために,高次元のニューラルネットワークパラメータ空間からパラメータサブグループをサンプリングする手法を提案する。 ミニバッチMCMCの利点は文献で論じられているが、ブロックされたギブズサンプリングはベイズディープラーニングにおける研究の関心を減らしている。

This paper identifies several characteristics of approximate MCMC in Bayesian deep learning. It proposes an approximate sampling algorithm for neural networks. By analogy to sampling data batches from big datasets, it is proposed to sample parameter subgroups from neural network parameter spaces of high dimensions. While the advantages of minibatch MCMC have been discussed in the literature, blocked Gibbs sampling has received less research attention in Bayesian deep learning.
翻訳日:2022-08-25 12:30:03 公開日:2022-08-24
# 分割DNN計算におけるレート歪み最適化可変ビットレート圧縮に対する低複雑さアプローチ

A Low-Complexity Approach to Rate-Distortion Optimized Variable Bit-Rate Compression for Split DNN Computing ( http://arxiv.org/abs/2208.11596v1 )

ライセンス: Link先を確認
Parual Datta, Nilesh Ahuja, V. Srinivasa Somayazulu, Omesh Tickoo(参考訳) 分割コンピューティングは、DNNベースのAIワークロードを実装するための最近のパラダイムとして現れており、DNNモデルは2つの部分に分割されている。 データ圧縮は送信が必要なDNNの中間テンソルに適用され、レート・精度・複雑さのトレードオフを最適化する課題に対処する。 既存の分割計算アプローチではMLベースのデータ圧縮が採用されているが、DNNモデル全体またはそのかなりの部分のパラメータを、異なる圧縮レベルで再トレーニングする必要がある。 完全なdnnモデルをスクラッチからトレーニングすることは計算上必要であり、dnnパラメータの複数のコピーを維持することはストレージ要件を増加させ、推論中に重みの完全なセットを切り替えることでメモリ帯域幅が増加する。 本稿では,これらの課題をすべて解決するアプローチを提案する。 それは、分割の時点で挿入できるボトルネックユニット — 単純で低コストなニューラルネットワーク — の体系的な設計とトレーニングを含む。 提案手法は,トレーニングと推論の両面において極めて軽量であり,計算とストレージのオーバーヘッドのごく一部で高い速度歪み性能を実現する。

Split computing has emerged as a recent paradigm for implementation of DNN-based AI workloads, wherein a DNN model is split into two parts, one of which is executed on a mobile/client device and the other on an edge-server (or cloud). Data compression is applied to the intermediate tensor from the DNN that needs to be transmitted, addressing the challenge of optimizing the rate-accuracy-complexity trade-off. Existing split-computing approaches adopt ML-based data compression, but require that the parameters of either the entire DNN model, or a significant portion of it, be retrained for different compression levels. This incurs a high computational and storage burden: training a full DNN model from scratch is computationally demanding, maintaining multiple copies of the DNN parameters increases storage requirements, and switching the full set of weights during inference increases memory bandwidth. In this paper, we present an approach that addresses all these challenges. It involves the systematic design and training of bottleneck units - simple, low-cost neural networks - that can be inserted at the point of split. Our approach is remarkably lightweight, both during training and inference, highly effective and achieves excellent rate-distortion performance at a small fraction of the compute and storage overhead compared to existing methods.
翻訳日:2022-08-25 12:29:55 公開日:2022-08-24
# CNN生成画像検出のための転送可能な法医学的特徴の発見

Discovering Transferable Forensic Features for CNN-generated Images Detection ( http://arxiv.org/abs/2208.11342v1 )

ライセンス: Link先を確認
Keshigeyan Chandrasegaran, Ngoc-Trung Tran, Alexander Binder, Ngai-Man Cheung(参考訳) 視覚的偽造は、ニューラル画像合成手法の急速な進化とともに、主流メディアに存在感を増している。 このような偽造物の検出は、画像法医学界では課税問題となっているが、近年の法医学検出器(ユニバーサル検出器)は、ジェネレータアーキテクチャ、損失関数、データセットのトレーニング、解像度に関わらず、驚くほど偽造画像を検出することができる。 この興味深い性質は、普遍検出器における転送可能な法医学的特徴(T-FF)の存在を示唆している。 本研究では,T-FFを普遍検出器で検出し,理解するための最初の解析的研究を行う。 私たちの貢献は2倍です。 1) 普遍検出器におけるT-FFの定量化と発見のための新しい法医学的特徴関連統計(FF-RS)を提案する。 2) 定性的かつ定量的な研究は予期せぬ発見である: 色は普遍的検出器において重要なt-ffである。 コードとモデルはhttps://keshik6.github.io/transferable-forensic-features/で利用可能である。

Visual counterfeits are increasingly causing an existential conundrum in mainstream media with rapid evolution in neural image synthesis methods. Though detection of such counterfeits has been a taxing problem in the image forensics community, a recent class of forensic detectors -- universal detectors -- are able to surprisingly spot counterfeit images regardless of generator architectures, loss functions, training datasets, and resolutions. This intriguing property suggests the possible existence of transferable forensic features (T-FF) in universal detectors. In this work, we conduct the first analytical study to discover and understand T-FF in universal detectors. Our contributions are 2-fold: 1) We propose a novel forensic feature relevance statistic (FF-RS) to quantify and discover T-FF in universal detectors and, 2) Our qualitative and quantitative investigations uncover an unexpected finding: color is a critical T-FF in universal detectors. Code and models are available at https://keshik6.github.io/transferable-forensic-features/
翻訳日:2022-08-25 12:29:32 公開日:2022-08-24
# データのバグ: imagenetは生物多様性を誤解している

Bugs in the Data: How ImageNet Misrepresents Biodiversity ( http://arxiv.org/abs/2208.11695v1 )

ライセンス: Link先を確認
Alexandra Sasha Luccioni and David Rolnick(参考訳) ImageNet-1kは機械学習(ML)モデルのベンチマークや画像認識やオブジェクト検出などのタスク評価によく使用されるデータセットである。 ImageNet-1kの野生動物は27%を占めるが、人やオブジェクトを表すクラスとは異なり、これらのデータは精査されていない。 本稿では,ImageNet-1k検証セットで野生動物を表わす269のクラスの13450の画像を,専門家生態学者の参加で分析する。 クラスの多くは不定義または重複しており、画像の12%が誤ってラベル付けされており、一部のクラスでは90%以上の画像が正しく表示されていないことが判明した。 また,ImageNet-1kに含まれる野生生物のラベルや画像には,地理的・文化的なバイアスや,人工動物,同一画像内の複数種,人間の存在などの曖昧さが有ることがわかった。 本研究は,MLシステム評価におけるこのデータセットの広範な使用,野生生物関連タスクにおけるそのようなアルゴリズムの使用,さらにMLデータセットの一般的な作成とキュレーションの方法に関して,重大な課題を浮き彫りにしている。

ImageNet-1k is a dataset often used for benchmarking machine learning (ML) models and evaluating tasks such as image recognition and object detection. Wild animals make up 27% of ImageNet-1k but, unlike classes representing people and objects, these data have not been closely scrutinized. In the current paper, we analyze the 13,450 images from 269 classes that represent wild animals in the ImageNet-1k validation set, with the participation of expert ecologists. We find that many of the classes are ill-defined or overlapping, and that 12% of the images are incorrectly labeled, with some classes having >90% of images incorrect. We also find that both the wildlife-related labels and images included in ImageNet-1k present significant geographical and cultural biases, as well as ambiguities such as artificial animals, multiple species in the same image, or the presence of humans. Our findings highlight serious issues with the extensive use of this dataset for evaluating ML systems, the use of such algorithms in wildlife-related tasks, and more broadly the ways in which ML datasets are commonly created and curated.
翻訳日:2022-08-25 12:29:14 公開日:2022-08-24
# 接合スパンに基づくアスペクト強調分析のための階層型インタラクティブネットワーク

A Hierarchical Interactive Network for Joint Span-based Aspect-Sentiment Analysis ( http://arxiv.org/abs/2208.11283v1 )

ライセンス: Link先を確認
Wei Chen, Jinglong Du, Zhao Zhang, Fuzhen Zhuang, Zhongshi He(参考訳) 近年, アスペクト境界を検出することによってアスペクト(アスペクト抽出)を抽出し, そして, スパンレベルの感情(感情分類)を分類する, 共同アスペクトセンチメント分析の促進的な手法が提案されている。 しかし、既存のアプローチのほとんどは、タスク固有の特徴を順次抽出するか、機能インタラクションが不十分になるか、アスペクト特徴と感情特徴を並列にエンコードするかのどちらかであり、各タスクにおける特徴表現は、入力共有を除いて、ほとんど独立していることを示している。 両者は、アスペクト抽出と感情分類の間の内部的相関を無視している。 そこで本研究では,階層的相互作用が浅層的相互作用と深層的相互作用の2つのステップを含む2つのタスク間の双方向的相互作用を適切にモデル化する階層的対話型ネットワーク(hi-asa)を提案する。 まず,クロスストッチ機構を用いて,タスク固有の特徴を入力として選択的に結合し,適切な双方向インタラクションを実現する。 次に、相互情報技術を用いて、出力層内の2つのタスク間の学習を相互に制約することにより、アスペクト入力と感情入力がバックプロパゲーションを介して他のタスクの特徴を符号化することができる。 3つの実世界のデータセットに対する大規模な実験は、HI-ASAがベースラインよりも優れていることを示している。

Recently, some span-based methods have achieved encouraging performances for joint aspect-sentiment analysis, which first extract aspects (aspect extraction) by detecting aspect boundaries and then classify the span-level sentiments (sentiment classification). However, most existing approaches either sequentially extract task-specific features, leading to insufficient feature interactions, or they encode aspect features and sentiment features in a parallel manner, implying that feature representation in each task is largely independent of each other except for input sharing. Both of them ignore the internal correlations between the aspect extraction and sentiment classification. To solve this problem, we novelly propose a hierarchical interactive network (HI-ASA) to model two-way interactions between two tasks appropriately, where the hierarchical interactions involve two steps: shallow-level interaction and deep-level interaction. First, we utilize cross-stitch mechanism to combine the different task-specific features selectively as the input to ensure proper two-way interactions. Second, the mutual information technique is applied to mutually constrain learning between two tasks in the output layer, thus the aspect input and the sentiment input are capable of encoding features of the other task via backpropagation. Extensive experiments on three real-world datasets demonstrate HI-ASA's superiority over baselines.
翻訳日:2022-08-25 12:28:29 公開日:2022-08-24
# 大規模言語モデルにおける外挿可能な自然言語合理化とインターリーブマークアップトークン

Induced Natural Language Rationales and Interleaved Markup Tokens Enable Extrapolation in Large Language Models ( http://arxiv.org/abs/2208.11445v1 )

ライセンス: Link先を確認
Mirelle Bueno, Carlos Gemmel, Jeffrey Dalton, Roberto Lotufo, Rodrigo Nogueira(参考訳) トレーニング例として提示されるものよりも長いシーケンスの予測を推定する能力は、現在のディープラーニングモデルにとって難しい問題である。 最近の研究は、この制限が最先端のTransformerベースのモデルで持続していることを示している。 この問題に対するほとんどのソリューションは、他のタスクに一般化しない特定のアーキテクチャやトレーニングメソッドを使用する。 大規模言語モデルがアーキテクチャや訓練手順を変更することなく外挿に成功できることを実証する。 実験の結果, 効果的な外挿には, ステップバイステップの合理性の生成とマーカートークンの導入が必要であることがわかった。 まず,タスクをモデルに効果的に伝達するために,応答を出力する前にステップバイステップの合理化を誘導する。 しかし、シーケンスが長くなるにつれて、現在のモデルはトークンの位置を追跡するのに苦労していることがわかった。 この問題に対処するため、明示的な位置とカウントシンボルとして機能するマークアップトークンで出力トークンをインターリーブする。 これらの2つの相補的アプローチは, 顕著なシーケンス外挿を可能にし, 表面形状ガイダンスを使わずに効果的に一般化する現在のアーキテクチャの限界を浮き彫りにしている。 https://github.com/MirelleB/induced-rationales-markup-tokensで利用可能なコード

The ability to extrapolate, i.e., to make predictions on sequences that are longer than those presented as training examples, is a challenging problem for current deep learning models. Recent work shows that this limitation persists in state-of-the-art Transformer-based models. Most solutions to this problem use specific architectures or training methods that do not generalize to other tasks. We demonstrate that large language models can succeed in extrapolation without modifying their architecture or training procedure. Experimental results show that generating step-by-step rationales and introducing marker tokens are both required for effective extrapolation. First, we induce it to produce step-by-step rationales before outputting the answer to effectively communicate the task to the model. However, as sequences become longer, we find that current models struggle to keep track of token positions. To address this issue, we interleave output tokens with markup tokens that act as explicit positional and counting symbols. Our findings show how these two complementary approaches enable remarkable sequence extrapolation and highlight a limitation of current architectures to effectively generalize without explicit surface form guidance. Code available at https://github.com/MirelleB/induced-rationales-markup-tokens
翻訳日:2022-08-25 12:28:07 公開日:2022-08-24
# factmix: いくつかのラベル付きインドメイン例を使用して、クロスドメイン名前付きエンティティ認識に一般化する

FactMix: Using a Few Labeled In-domain Examples to Generalize to Cross-domain Named Entity Recognition ( http://arxiv.org/abs/2208.11464v1 )

ライセンス: Link先を確認
Linyi Yang, Lifan Yuan, Leyang Cui, Wenyang Gao, Yue Zhang(参考訳) 名前付きエンティティ認識(NER)は、限られたリソースドメインにおけるエンティティタグ付けに必須であり、近年は適切に注目されている。 既存のNERのアプローチは主にドメイン内設定で評価される。 対照的に、これらの本質的に忠実なモデルは、いくつかのラベル付きドメイン内の例を使用して、クロスドメインのNERでどのように機能するかは、ほとんど分かっていない。 本稿では,モデルの一般化能力を向上させるための2段階の有理中心データ拡張手法を提案する。 複数のデータセットから得られた結果から,提案手法は,従来の最先端手法と比較して,ドメイン間NERタスクの性能を著しく向上させることがわかった。 我々のコードは \url{https://github.com/lifan-yuan/FactMix} で入手できる。

Few-shot Named Entity Recognition (NER) is imperative for entity tagging in limited resource domains and thus received proper attention in recent years. Existing approaches for few-shot NER are evaluated mainly under in-domain settings. In contrast, little is known about how these inherently faithful models perform in cross-domain NER using a few labeled in-domain examples. This paper proposes a two-step rationale-centric data augmentation method to improve the model's generalization ability. Results on several datasets show that our model-agnostic method significantly improves the performance of cross-domain NER tasks compared to previous state-of-the-art methods, including the counterfactual data augmentation and prompt-tuning methods. Our codes are available at \url{https://github.com/lifan-yuan/FactMix}.
翻訳日:2022-08-25 12:27:46 公開日:2022-08-24
# 線虫C. elegans系統の弱教師付き学習とグラフ最適化による追跡

Tracking by weakly-supervised learning and graph optimization for whole-embryo C. elegans lineages ( http://arxiv.org/abs/2208.11467v1 )

ライセンス: Link先を確認
Peter Hirsch, Caroline Malin-Mayor, Anthony Santella, Stephan Preibisch, Dagmar Kainmueller, Jan Funke(参考訳) ノイズと高密度蛍光顕微鏡データによる胚の全核の追跡は難しい課題である。 我々は,核中心点アノテーションの小さなセットからの弱い教師付き学習と,最適な細胞系統抽出のための整数線形プログラム(ILP)を組み合わさった最近の核追跡手法を構築した。 本研究は、c. elegans胚記録の課題として、(1)他の生物のベンチマーク記録と比べ、多くの細胞分裂、(2)細胞核と容易に間違えられる極性体の存在を特に取り上げている。 1)に対処するために,学習細胞分割検出器を考案し,組み込む。 2)に対処するために、学習した極性体検出器を用いる。 我々はさらに,構造化svmによる自動ilp重み付けチューニングを提案し,各グリッド検索の面倒な手動設定の必要性を緩和する。 本手法は,Fluo-N3DH-CE胚データセットにおける細胞追跡課題の先行リーダよりも優れていた。 我々はさらに2つのC. elegansデータセットの定量的評価を行った。 これらのデータセットを公開して、将来のメソッド開発のための拡張ベンチマークとして提供します。 提案手法は,特に分割イベント検出の正しさと完全正トラックセグメントの数と長さに関して,大幅な改善が得られたことを示唆している。 コード: https://github.com/funkelab/linajea

Tracking all nuclei of an embryo in noisy and dense fluorescence microscopy data is a challenging task. We build upon a recent method for nuclei tracking that combines weakly-supervised learning from a small set of nuclei center point annotations with an integer linear program (ILP) for optimal cell lineage extraction. Our work specifically addresses the following challenging properties of C. elegans embryo recordings: (1) Many cell divisions as compared to benchmark recordings of other organisms, and (2) the presence of polar bodies that are easily mistaken as cell nuclei. To cope with (1), we devise and incorporate a learnt cell division detector. To cope with (2), we employ a learnt polar body detector. We further propose automated ILP weights tuning via a structured SVM, alleviating the need for tedious manual set-up of a respective grid search. Our method outperforms the previous leader of the cell tracking challenge on the Fluo-N3DH-CE embryo dataset. We report a further extensive quantitative evaluation on two more C. elegans datasets. We will make these datasets public to serve as an extended benchmark for future method development. Our results suggest considerable improvements yielded by our method, especially in terms of the correctness of division event detection and the number and length of fully correct track segments. Code: https://github.com/funkelab/linajea
翻訳日:2022-08-25 12:24:49 公開日:2022-08-24
# ビデオ気管支鏡下気道オリフィスセグメンテーション

Weakly Supervised Airway Orifice Segmentation in Video Bronchoscopy ( http://arxiv.org/abs/2208.11468v1 )

ライセンス: Link先を確認
Ron Keuth, Mattias Heinrich, Martin Eichenlaub and Marian Himstedt(参考訳) 気管支鏡検査は, 癌と疑われる肺組織の生検, COPD 患者のモニタリング, 集中治療室における急性呼吸障害の解明に日常的に行われている。 複雑な気管支内のナビゲーションは特に困難で物理的に要求され、医師の長期的な経験を必要とする。 本稿では気管支鏡ビデオにおける気管支オリフィスの自動分割について述べる。 このタスクに対するディープラーニングベースのアプローチは現在、容易に利用可能な地上真実セグメンテーションデータが欠如しているため、妨げられている。 そこで本稿では,k-meansからなるデータ駆動パイプラインに,与えられた深度画像から気道インスタンスのセグメンテーションマップを生成するための,コンパクトなマーカーベース流域アルゴリズムを提案する。 このようにして、これらの伝統的なアルゴリズムはファントムデータセットのみに基づいて、RGBイメージ上で浅いCNNを直接トレーニングする際の弱い監督役となる。 本研究では,21種類の気管支鏡上の250フレームをカバーする2つのビビオデータセット上で,このモデルの一般化能力を評価する。 その性能はin-vivoデータで直接トレーニングされるモデルに匹敵するものであり、検出された気道セグメンテーションの中心に対して画像解像度128x128で平均11ピクセル対5ピクセルの誤差に達した。 定量的・定性的な結果から,非学習型アプローチによるファントムデータと弱い監督により,気道構造の意味的理解が得られていることが示唆された。

Video bronchoscopy is routinely conducted for biopsies of lung tissue suspected for cancer, monitoring of COPD patients and clarification of acute respiratory problems at intensive care units. The navigation within complex bronchial trees is particularly challenging and physically demanding, requiring long-term experiences of physicians. This paper addresses the automatic segmentation of bronchial orifices in bronchoscopy videos. Deep learning-based approaches to this task are currently hampered due to the lack of readily-available ground truth segmentation data. Thus, we present a data-driven pipeline consisting of a k-means followed by a compact marker-based watershed algorithm which enables to generate airway instance segmentation maps from given depth images. In this way, these traditional algorithms serve as weak supervision for training a shallow CNN directly on RGB images solely based on a phantom dataset. We evaluate generalization capabilities of this model on two in-vivo datasets covering 250 frames on 21 different bronchoscopies. We demonstrate that its performance is comparable to those models being directly trained on in-vivo data, reaching an average error of 11 vs 5 pixels for the detected centers of the airway segmentation by an image resolution of 128x128. Our quantitative and qualitative results indicate that in the context of video bronchoscopy, phantom data and weak supervision using non-learning-based approaches enable to gain a semantic understanding of airway structures.
翻訳日:2022-08-25 12:24:29 公開日:2022-08-24
# エッジにおける高効率異種ビデオセグメンテーション

Efficient Heterogeneous Video Segmentation at the Edge ( http://arxiv.org/abs/2208.11666v1 )

ライセンス: Link先を確認
Jamie Menjay Lin, Siargey Pisarchyk, Juhyun Lee, David Tian, Tingbo Hou, Karthik Raveendran, Raman Sarokin, George Sung, Trent Tolley, Matthias Grundmann(参考訳) 異種計算を利用したリソース制限エッジデバイスのための効率的なビデオセグメンテーションシステムを提案する。 具体的には、すでに軽量なバックボーン上に構築されているニューラルネットワークアーキテクチャとオペレーションの仕様を多次元的に検索することで、ネットワークモデルを設計する。 さらに、cpu、gpu、npuをまたいだシステム内の異種データフローを分析し最適化します。 我々のアプローチは、実時間ARシステムにうまく組み込まれており、4倍の有効解像度で驚くほど高い精度を実現していますが、より短いエンドツーエンドのレイテンシ、フレームレート、さらにはエッジプラットフォームでの消費電力の低減を実現しています。

We introduce an efficient video segmentation system for resource-limited edge devices leveraging heterogeneous compute. Specifically, we design network models by searching across multiple dimensions of specifications for the neural architectures and operations on top of already light-weight backbones, targeting commercially available edge inference engines. We further analyze and optimize the heterogeneous data flows in our systems across the CPU, the GPU and the NPU. Our approach has empirically factored well into our real-time AR system, enabling remarkably higher accuracy with quadrupled effective resolutions, yet at much shorter end-to-end latency, much higher frame rate, and even lower power consumption on edge platforms.
翻訳日:2022-08-25 12:24:06 公開日:2022-08-24
# D-およびA-最適設計のための微分進化変種

Differential evolution variants for Searching D- and A-optimal designs ( http://arxiv.org/abs/2208.11262v1 )

ライセンス: Link先を確認
Lyuyang Tong(参考訳) 最適実験設計は、実験の成功の可能性を最大化する統計学の重要なサブフィールドである。 d-およびa-最適設計は最適設計の分野において非常に困難な問題であり、すなわち逆フィッシャー情報行列の行列式とトレースを最小化する。 実装の柔軟性と容易さのため、従来の進化的アルゴリズム(EA)は、数学的導出や仮定を伴わない実験的な最適化設計問題のごく一部に適用される。 しかし、現状のEAは、サポートポイント数の決定、実現不可能な重み付けソリューションの扱い、不十分な実験の課題のままである。 上記の問題に対処するために,D-およびA-最適設計を複数の異なる統計モデルで求めるための微分進化(DE)変異について検討する。 同様の支持点と対応する重みとをユークリッド距離に基づいて結合し、より少ない重みで支持点を削除することで、補修作業が自動的に支持点を決定する。 さらに、補修操作は、実現不可能重量解を可能重量解に固定する。 最適設計実験を充実させるために、提案したD-およびA-最適設計問題を12の統計モデルで検証する。 他の競合アルゴリズムと比較して、シミュレーション実験により、LSHADEはD-およびA-最適設計問題においてより良い性能が得られることが示された。

Optimal experimental design is an essential subfield of statistics that maximizes the chances of experimental success. The D- and A-optimal design is a very challenging problem in the field of optimal design, namely minimizing the determinant and trace of the inverse Fisher information matrix. Due to the flexibility and ease of implementation, traditional evolutionary algorithms (EAs) are applied to deal with a small part of experimental optimization design problems without mathematical derivation and assumption. However, the current EAs remain the issues of determining the support point number, handling the infeasible weight solution, and the insufficient experiment. To address the above issues, this paper investigates differential evolution (DE) variants for finding D- and A-optimal designs on several different statistical models. The repair operation is proposed to automatically determine the support point by combining similar support points with their corresponding weights based on Euclidean distance and deleting the support point with less weight. Furthermore, the repair operation fixes the infeasible weight solution into the feasible weight solution. To enrich our optimal design experiments, we utilize the proposed DE variants to test the D- and A-optimal design problems on 12 statistical models. Compared with other competitor algorithms, simulation experiments show that LSHADE can achieve better performance on the D- and A-optimal design problems.
翻訳日:2022-08-25 12:23:55 公開日:2022-08-24
# 資源制約エッジ環境における分散データセット蒸留によるフェデレーション学習

Federated Learning via Decentralized Dataset Distillation in Resource-Constrained Edge Environments ( http://arxiv.org/abs/2208.11311v1 )

ライセンス: Link先を確認
Rui Song, Dai Liu, Dave Zhenyu Chen, Andreas Festag, Carsten Trinitis, Martin Schulz, Alois Knoll(参考訳) 我々は,新しいフェデレーション学習フレームワークであるFedD3を導入し,コミュニケーション量を削減し,フェデレーション学習の概念をネットワーク制約環境におけるより多くのアプリケーションシナリオに開放する。 従来の学習アプローチに代えて,ローカルデータセットの蒸留を活用することで,これを実現するのです。 (i)通信量を大幅に減らすこと、及び (ii)反復的マルチウェイ通信ではなく、ワンショット通信への転送を制限すること。 モデル更新を共有する代わりに、他のフェデレーション学習アプローチと同様に、feedd3では、接続されたクライアントがローカルデータセットを独立に蒸留し、それらの分散蒸留されたデータセット(通常、モデルより小さいいくつかの認識不能な画像の形で)をネットワーク全体に集約して最終モデルを形成することができる。 実験の結果,feedd3は,使用シナリオや目標データセットに応じて,精度と通信コストのトレードオフをバランスさせることで,必要な通信量で他のフェデレーション学習フレームワークを著しく上回っていることが示された。 例えば、10のクライアントを持つ非IID CIFAR-10データセットでAlexNetモデルをトレーニングする場合、FedD3は、同様の通信ボリュームで精度を71%以上向上するか、通信ボリュームの98%を節約できる。

We introduce a novel federated learning framework, FedD3, which reduces the overall communication volume and with that opens up the concept of federated learning to more application scenarios in network-constrained environments. It achieves this by leveraging local dataset distillation instead of traditional learning approaches (i) to significantly reduce communication volumes and (ii) to limit transfers to one-shot communication, rather than iterative multiway communication. Instead of sharing model updates, as in other federated learning approaches, FedD3 allows the connected clients to distill the local datasets independently, and then aggregates those decentralized distilled datasets (typically in the form a few unrecognizable images, which are normally smaller than a model) across the network only once to form the final model. Our experimental results show that FedD3 significantly outperforms other federated learning frameworks in terms of needed communication volumes, while it provides the additional benefit to be able to balance the trade-off between accuracy and communication cost, depending on usage scenario or target dataset. For instance, for training an AlexNet model on a Non-IID CIFAR-10 dataset with 10 clients, FedD3 can either increase the accuracy by over 71% with a similar communication volume, or save 98% of communication volume, while reaching the same accuracy, comparing to other one-shot federated learning approaches.
翻訳日:2022-08-25 12:23:33 公開日:2022-08-24
# 説明可能なAIによるクロスセールス強化 - エネルギー小売の事例

Augmented cross-selling through explainable AI -- a case from energy retailing ( http://arxiv.org/abs/2208.11404v1 )

ライセンス: Link先を確認
Felix Haag, Konstantin Hopf, Pedro Menelau Vasconcelos, Thorsten Staake(参考訳) 機械学習(ML)の進歩は、意思決定をサポートするためにこの技術に強い関心を寄せている。 複雑なMLモデルは、従来のツールよりも正確な予測を提供するが、そのようなモデルは、ユーザからの予測の背後にある理由を隠蔽することが多く、採用率の低下と洞察の欠如につながる。 この緊張に触発され、MLが発見したパターンを明らかにするための説明可能な人工知能(XAI)技術が研究されている。 MLとXAIのどちらも高い期待にもかかわらず、従来のビジネスにとってのメリットの実証的な証拠はほとんどない。 そこで我々は,エネルギー小売業者の220,185件の顧客データを分析し,最大86%の正当性(AUC)でクロス購入を予測し,XAI法SHAPが実際の購入者に対する説明を提供することを示す。 さらに,情報システム,XAI,関係マーケティングにおける研究の意義について概説する。

The advance of Machine Learning (ML) has led to a strong interest in this technology to support decision making. While complex ML models provide predictions that are often more accurate than those of traditional tools, such models often hide the reasoning behind the prediction from their users, which can lead to lower adoption and lack of insight. Motivated by this tension, research has put forth Explainable Artificial Intelligence (XAI) techniques that uncover patterns discovered by ML. Despite the high hopes in both ML and XAI, there is little empirical evidence of the benefits to traditional businesses. To this end, we analyze data on 220,185 customers of an energy retailer, predict cross-purchases with up to 86% correctness (AUC), and show that the XAI method SHAP provides explanations that hold for actual buyers. We further outline implications for research in information systems, XAI, and relationship marketing.
翻訳日:2022-08-25 12:23:08 公開日:2022-08-24
# 電力消費フィードバック調整のための説明可能なai --可視化実験による評価-

Explainable AI for tailored electricity consumption feedback -- an experimental evaluation of visualizations ( http://arxiv.org/abs/2208.11408v1 )

ライセンス: Link先を確認
Jacqueline Wastensteiner, Tobias M. Weiss, Felix Haag, Konstantin Hopf(参考訳) 機械学習(ML)メソッドは、データを効果的に分析し、パターンを認識し、高品質な予測を行う。 よい予測は、通常、検出されたパターンを人間が読める方法で提示できない「ブラックボックス」モデルとともに現れる。 近年の技術的発展により、eXplainable Artificial Intelligence(XAI)技術は、このようなブラックボックスを開き、検出されたパターンから人間が新たな洞察を得られるようにする。 消費者の行動,すなわち電気利用に,特定の洞察が重要な影響を及ぼす領域におけるXAIの適用について検討した。 個々人の電力消費に対する具体的なフィードバックが資源保全を引き起こすことを知り、既存のドメイン固有の設計知識を考慮し、電力消費時系列からMLとXAIの手法による5つの可視化を作成し、高度にパーソナライズされたフィードバックを得た。 152名の被験者による実験結果から,人間はxaiビジュアライゼーションで表示されたパターンを同一化できるが,その可視化はユーザによってよく理解されるような既知の可視化パターンに従うべきである。

Machine learning (ML) methods can effectively analyse data, recognize patterns in them, and make high-quality predictions. Good predictions usually come along with "black-box" models that are unable to present the detected patterns in a human-readable way. Technical developments recently led to eXplainable Artificial Intelligence (XAI) techniques that aim to open such black-boxes and enable humans to gain new insights from detected patterns. We investigated the application of XAI in an area where specific insights can have a significant effect on consumer behaviour, namely electricity use. Knowing that specific feedback on individuals' electricity consumption triggers resource conservation, we created five visualizations with ML and XAI methods from electricity consumption time series for highly personalized feedback, considering existing domain-specific design knowledge. Our experimental evaluation with 152 participants showed that humans can assimilate the pattern displayed by XAI visualizations, but such visualizations should follow known visualization patterns to be well-understood by users.
翻訳日:2022-08-25 12:22:51 公開日:2022-08-24
# シナリオ適応型自己教師付きモデルによるパーソナライズドレコメンデーション

Scenario-Adaptive and Self-Supervised Model for Multi-Scenario Personalized Recommendation ( http://arxiv.org/abs/2208.11457v1 )

ライセンス: Link先を確認
Yuanliang Zhang, Xiaofeng Wang, Jinxin Hu, Ke Gao, Chenyi Lei, Fei Fang(参考訳) マルチシナリオレコメンデーションは、産業レコメンデーションシステムにおいてユビキタスな複数のシナリオにおいて、ユーザの関連するアイテムを検索することを目的としている。 これらのシナリオにはユーザとアイテムの重複部分があり、異なるシナリオの分布が異なる。 多シナリオモデリングのキーポイントは、全シナリオ情報の使用を効率的に最大化し、複数のシナリオにおいてユーザとアイテムの両方に対して適応表現をきめ細かく生成することである。 マルチシナリオモデリングでは不十分な3つの実践的課題を要約する。(1) 細粒度情報転送制御と分離情報転送制御の欠如。 (2)宇宙サンプル全体の活用が不十分である。 (3) 項目の多シナリオ表現の絡み合い問題 本稿では,上記3つの課題を解決するために,シナリオ適応型自己監督型(SASS)モデルを提案する。 具体的には、シナリオ適応ゲートユニットを備えた多層シナリオ適応トランスファー(ML-SAT)モジュールを設計し、シナリオ全体から個々のシナリオへの効率的な転送情報を、非常にきめ細かな分離方法で選択・融合する。 空間サンプル全体のパワーを十分に活用するために、事前訓練と微調整を含む2段階の訓練プロセスを導入する。 事前学習段階は、ラベル付きおよびラベルなしのデータ空間から引き出されたトレーニングサンプルと、シナリオ教師付きコントラスト学習タスクに基づいている。 モデルは、ユーザ側とアイテム側の両方で対称に作成され、異なるシナリオでアイテムの識別表現を得ることができる。 公的および工業的なデータセットに対する大規模な実験結果は、最先端の手法よりもSASSモデルの方が優れていることを示している。 このモデルは、オンラインA/Bテストで平均視聴時間に対して8.0%以上改善する。

Multi-scenario recommendation is dedicated to retrieve relevant items for users in multiple scenarios, which is ubiquitous in industrial recommendation systems. These scenarios enjoy portions of overlaps in users and items, while the distribution of different scenarios is different. The key point of multi-scenario modeling is to efficiently maximize the use of whole-scenario information and granularly generate adaptive representations both for users and items among multiple scenarios. we summarize three practical challenges which are not well solved for multi-scenario modeling: (1) Lacking of fine-grained and decoupled information transfer controls among multiple scenarios. (2) Insufficient exploitation of entire space samples. (3) Item's multi-scenario representation disentanglement problem. In this paper, we propose a Scenario-Adaptive and Self-Supervised (SASS) model to solve the three challenges mentioned above. Specifically, we design a Multi-Layer Scenario Adaptive Transfer (ML-SAT) module with scenario-adaptive gate units to select and fuse effective transfer information from whole scenario to individual scenario in a quite fine-grained and decoupled way. To sufficiently exploit the power of entire space samples, a two-stage training process including pre-training and fine-tune is introduced. The pre-training stage is based on a scenario-supervised contrastive learning task with the training samples drawn from labeled and unlabeled data spaces. The model is created symmetrically both in user side and item side, so that we can get distinguishing representations of items in different scenarios. Extensive experimental results on public and industrial datasets demonstrate the superiority of the SASS model over state-of-the-art methods. This model also achieves more than 8.0% improvement on Average Watching Time Per User in online A/B tests.
翻訳日:2022-08-25 12:22:33 公開日:2022-08-24
# 深層シンボリックラーニング : 認識からシンボルとルールを発見する

Deep Symbolic Learning: Discovering Symbols and Rules from Perceptions ( http://arxiv.org/abs/2208.11561v1 )

ライセンス: Link先を確認
Alessandro Daniele and Tommaso Campari and Sagar Malhotra and Luciano Serafini(参考訳) Neuro-Symbolic(NeSy)統合は、認識と推論を必要とするタスクに対して、シンボリック推論とニューラルネットワーク(NN)を組み合わせる。 多くのNeSyシステムは論理的知識の継続的な緩和に依存しており、モデルパイプライン内で決定的な決定は行われない。 さらに、これらの方法は象徴的な規則が与えられると仮定する。 本稿では,連続データを離散記号にマッピングする(一連の)知覚関数と記号集合上の記号関数の組み合わせを学習するnesyシステムであるdeep symbolic learning (dsl)を提案する。 dslは知覚と象徴的機能を同時に学習し、その構成(ネジー関数)でのみ訓練される。 DSLの目新しいところは、内部(解釈可能な)シンボル表現を作成し、異なるNN学習パイプライン内の知覚入力にマッピングできることです。 生成されたシンボルは自動的に選択され、データを最もよく説明するシンボル関数を生成する。 本稿では,認識と記号関数の同時学習におけるDSLの有効性を実証する実験分析を行う。

Neuro-Symbolic (NeSy) integration combines symbolic reasoning with Neural Networks (NNs) for tasks requiring perception and reasoning. Most NeSy systems rely on continuous relaxation of logical knowledge and no discrete decisions are made within the model pipeline. Furthermore, these methods assume that the symbolic rules are given. In this paper, we propose Deep Symbolic Learning (DSL), a NeSy system that learns NeSy-functions, i.e., the composition of a (set of) perception functions which map continuous data to discrete symbols, and a symbolic function over the set of symbols. DSL learns simultaneously the perception and symbolic functions, while being trained only on their composition (NeSy-function). The key novelty of DSL is that it can create internal (interpretable) symbolic representations and map them to perception inputs within a differentiable NN learning pipeline. The created symbols are automatically selected to generate symbolic functions that best explain the data. We provide experimental analysis to substantiate the efficacy of DSL in simultaneously learning perception and symbolic functions.
翻訳日:2022-08-25 12:18:49 公開日:2022-08-24
# 深層学習と体系的一般化の対立について

On a Built-in Conflict between Deep Learning and Systematic Generalization ( http://arxiv.org/abs/2208.11633v1 )

ライセンス: Link先を確認
Yuanpeng Li(参考訳) 本稿では,内的機能共有がo.o.d.の弱体化や分類課題の深層学習における体系的一般化の一因であると仮定する。 等価予測では、モデルが入力空間を境界によって区切られた複数の部分に分割する。 関数共有は境界の再利用を好んでおり、体系的な一般化と矛盾する新しい出力の部品が少ない。 このような現象は,完全連結,畳み込み,残差ネットワーク,LSTM,(視覚)トランスフォーマなど,標準的なディープラーニングモデルに現れる。 この研究が系統的一般化への新しい洞察を提供し、新しい研究の方向性の基盤となることを願っている。

In this paper, we hypothesize that internal function sharing is one of the reasons to weaken o.o.d. or systematic generalization in deep learning for classification tasks. Under equivalent prediction, a model partitions an input space into multiple parts separated by boundaries. The function sharing prefers to reuse boundaries, leading to fewer parts for new outputs, which conflicts with systematic generalization. We show such phenomena in standard deep learning models, such as fully connected, convolutional, residual networks, LSTMs, and (Vision) Transformers. We hope this study provides novel insights into systematic generalization and forms a basis for new research directions.
翻訳日:2022-08-25 12:18:32 公開日:2022-08-24
# Imital: 合成データによるアクティブラーニング戦略を学ぶ

ImitAL: Learned Active Learning Strategy on Synthetic Data ( http://arxiv.org/abs/2208.11636v1 )

ライセンス: Link先を確認
Julius Gonsior, Maik Thiele, Wolfgang Lehner(参考訳) active learning (al) は、クエリ戦略に基づいて最も多くの情報を含むサンプルをラベル付けすることで、アノテートされたデータを効率的に得るためのよく知られた標準手法である。 これまで、さまざまなクエリ戦略が提案されてきたが、各世代の新しい戦略によってランタイムが増加し、複雑さが増す。 しかしながら、私たちの知る限りでは、これらの戦略は、異なるアプリケーションドメインからの多数のデータセットを一貫して上回るものではありません。 基本的に、既存のAL戦略のほとんどは、2つの単純なヒューリスティックスの情報性と代表性の組み合わせであり、大きな違いは、しばしば矛盾するヒューリスティックスの組み合わせにある。 本稿では,alを学習・ランク問題としてエンコードし,両ヒューリスティック間の最適な組み合わせを学習する,ドメインに依存しない新しい問合せ戦略であるimtalを提案する。 我々は、純粋合成データセット上での大規模シミュレーションal実行でイミタルをトレーニングする。 ImitALがうまくトレーニングされたことを示すため、我々は13の異なるデータセットの戦略を、広範囲のドメインから、他の7つのクエリ戦略と比較した広範な評価を行った。

Active Learning (AL) is a well-known standard method for efficiently obtaining annotated data by first labeling the samples that contain the most information based on a query strategy. In the past, a large variety of such query strategies has been proposed, with each generation of new strategies increasing the runtime and adding more complexity. However, to the best of our our knowledge, none of these strategies excels consistently over a large number of datasets from different application domains. Basically, most of the the existing AL strategies are a combination of the two simple heuristics informativeness and representativeness, and the big differences lie in the combination of the often conflicting heuristics. Within this paper, we propose ImitAL, a domain-independent novel query strategy, which encodes AL as a learning-to-rank problem and learns an optimal combination between both heuristics. We train ImitAL on large-scale simulated AL runs on purely synthetic datasets. To show that ImitAL was successfully trained, we perform an extensive evaluation comparing our strategy on 13 different datasets, from a wide range of domains, with 7 other query strategies.
翻訳日:2022-08-25 12:18:20 公開日:2022-08-24
# 制約駆動型マルチタスク学習

Constraint-driven multi-task learning ( http://arxiv.org/abs/2208.11656v1 )

ライセンス: Link先を確認
Bogdan Cretu, Andrew Cropper(参考訳) 帰納論理プログラミングは、与えられた例と背景知識から論理プログラムを生成する数学的論理に基づく機械学習の一形態である。 本稿では,マルチタスク学習を活用するために,Popper ILPシステムを拡張した。 我々は最先端のアプローチと検索性能を改善するための新しい戦略をいくつか実装する。 さらに,全ての手法の全体的な性能を向上させる手法である制約保存を導入する。 制約の保存により、システムはバックグラウンドの知識セットの更新間で知識を転送できる。 これにより、システムによる繰り返し作業の量を削減できる。 さらに、制約保存により、現在最先端の反復的深化探索アプローチから、より効率的な第1探索アプローチに移行することができる。 最後に,カリキュラム学習手法を実験し,その分野でのメリットを示す。

Inductive logic programming is a form of machine learning based on mathematical logic that generates logic programs from given examples and background knowledge. In this project, we extend the Popper ILP system to make use of multi-task learning. We implement the state-of-the-art approach and several new strategies to improve search performance. Furthermore, we introduce constraint preservation, a technique that improves overall performance for all approaches. Constraint preservation allows the system to transfer knowledge between updates on the background knowledge set. Consequently, we reduce the amount of repeated work performed by the system. Additionally, constraint preservation allows us to transition from the current state-of-the-art iterative deepening search approach to a more efficient breadth first search approach. Finally, we experiment with curriculum learning techniques and show their potential benefit to the field.
翻訳日:2022-08-25 12:18:03 公開日:2022-08-24
# 近似ガウス過程を用いた密度汎関数論の高速エミュレーション

Fast emulation of density functional theory simulations using approximate Gaussian processes ( http://arxiv.org/abs/2208.11302v1 )

ライセンス: Link先を確認
Steven Stetzler, Michael Grosskopf, Earl Lawrence(参考訳) マルコフ連鎖モンテカルロを用いたベイズ式実験データに理論モデルを適用するには、通常数千回(あるいは数百万回)のモデルを評価する必要がある。 モデルが遅くて計算可能な物理シミュレーションである場合、ベイズ模型のフィッティングは実現不可能となる。 これを改善するために、モデルフィッティング中の完全なシミュレーションの代わりに、シミュレーション出力である「エミュレータ」を予測する第2の統計モデルを使用することができる。 典型的なエミュレータはガウス過程(GP)であり、各入力点における予測平均と分散の両方を提供する柔軟な非線形モデルである。 ガウス過程の回帰は、少量のトレーニングデータ(n < 10^3$)ではうまく機能するが、データセットのサイズが大きくなると、トレーニングや予測には遅くなる。 中~大規模データセットレジーム(n > 10^5$)でのガウス過程の高速化には、さまざまな方法が利用できます。 本研究は、密度汎関数理論(dft)モデルの予測をエミュレートする際に、いくつかの近似ガウス過程モデル -- スパース変分gp、確率変分gp、ディープカーネル学習gp -- の精度と実行時間のトレードオフを検討する。 さらに,このエミュレータを用いて,観測データを用いたDFTモデルパラメータのキャリブレーションを行い,データセットサイズによる計算障壁を解消し,キャリブレーション結果と過去の作業との比較を行った。 これらの校正DFTモデルの有用性は、観測されたデータに基づいて、超重核のような実験で観測されていない核種の性質に関する予測を行うことである。

Fitting a theoretical model to experimental data in a Bayesian manner using Markov chain Monte Carlo typically requires one to evaluate the model thousands (or millions) of times. When the model is a slow-to-compute physics simulation, Bayesian model fitting becomes infeasible. To remedy this, a second statistical model that predicts the simulation output -- an "emulator" -- can be used in lieu of the full simulation during model fitting. A typical emulator of choice is the Gaussian process (GP), a flexible, non-linear model that provides both a predictive mean and variance at each input point. Gaussian process regression works well for small amounts of training data ($n < 10^3$), but becomes slow to train and use for prediction when the data set size becomes large. Various methods can be used to speed up the Gaussian process in the medium-to-large data set regime ($n > 10^5$), trading away predictive accuracy for drastically reduced runtime. This work examines the accuracy-runtime trade-off of several approximate Gaussian process models -- the sparse variational GP, stochastic variational GP, and deep kernel learned GP -- when emulating the predictions of density functional theory (DFT) models. Additionally, we use the emulators to calibrate, in a Bayesian manner, the DFT model parameters using observed data, resolving the computational barrier imposed by the data set size, and compare calibration results to previous work. The utility of these calibrated DFT models is to make predictions, based on observed data, about the properties of experimentally unobserved nuclides of interest e.g. super-heavy nuclei.
翻訳日:2022-08-25 12:17:28 公開日:2022-08-24
# オンラインパーソナライズ平均推定のための協調アルゴリズム

Collaborative Algorithms for Online Personalized Mean Estimation ( http://arxiv.org/abs/2208.11530v1 )

ライセンス: Link先を確認
Mahsa Asadi, Aur\'elien Bellet, Odalric-Ambrym Maillard, Marc Tommasi(参考訳) エージェントの集合を含むオンライン推定問題を考える。 各エージェントは、実数値分布からサンプルを生成し、その平均を推定する(個人的な)プロセスにアクセスする。 本研究では,分布のいくつかが同じ意味を持つ場合について検討し,エージェントが他のエージェントからの情報を積極的に問い合わせることを可能にした。 目標は、各エージェントが他のエージェントとの通信によって平均推定を改善するアルゴリズムを設計することである。 平均と、同じ平均の分布数は不明であり、これはタスクを非自明にしている。 このオンラインパーソナライズされた平均推定問題を解決するための新しい協調戦略を提案する。 我々は,その時間的複雑さを分析し,数値実験で優れた性能を示す変種を導入する。 また、類似した手段を持つエージェントのクラスタがクラスタの平均を推定する設定にもアプローチを拡張します。

We consider an online estimation problem involving a set of agents. Each agent has access to a (personal) process that generates samples from a real-valued distribution and seeks to estimate its mean. We study the case where some of the distributions have the same mean, and the agents are allowed to actively query information from other agents. The goal is to design an algorithm that enables each agent to improve its mean estimate thanks to communication with other agents. The means as well as the number of distributions with same mean are unknown, which makes the task nontrivial. We introduce a novel collaborative strategy to solve this online personalized mean estimation problem. We analyze its time complexity and introduce variants that enjoy good performance in numerical experiments. We also extend our approach to the setting where clusters of agents with similar means seek to estimate the mean of their cluster.
翻訳日:2022-08-25 12:16:49 公開日:2022-08-24
# 街路レベル物体に対する物体検出アルゴリズムの比較

Comparison of Object Detection Algorithms for Street-level Objects ( http://arxiv.org/abs/2208.11315v1 )

ライセンス: Link先を確認
Martinus Grady Naftali, Jason Sebastian Sulistyawan, and Kelvin Julian(参考訳) 道路レベルオブジェクトのオブジェクト検出は、自動車や交通検出から自動運転車システムまで、さまざまなユースケースに適用できる。 したがって、最適なオブジェクト検出アルゴリズムを効果的に適用することが不可欠である。 多くのオブジェクト検出アルゴリズムがリリースされ、オブジェクト検出アルゴリズムを比較するものも少なくないが、最新のアルゴリズムであるyolov5など、主にストリートレベルのオブジェクトに焦点を当てたものはほとんどない。 本稿では,一段検出アルゴリズムであるSSD MobileNetv2 FPN-lite 320x320,YOLOv3,YOLOv4,YOLOv5l,YOLOv5sを比較した。 この実験では、3,169枚の画像で修正されたUdacity Self Driving Car Datasetを利用している。 データセットはトレイン、バリデーション、テストに分割され、リスケーリング、hueシフト、ノイズを使って前処理され、拡張される。 各アルゴリズムは訓練され、評価される。 実験に基づいて、アルゴリズムは、推定時間とそれらの精度、リコール、F1スコア、平均精度(mAP)の値に基づいて、適切な結果を生成する。 その結果、YOLOv5lは0.593のmAP@.5の精度で他のアルゴリズムよりも優れており、MobileNetv2 FPN-liteは3.20msの推論時間しか持たない。 また、YOLOv5sが最も効率的で、YOLOv5lの精度と速度はMobileNetv2 FPN-liteとほぼ同等であることがわかった。 このことは、様々なアルゴリズムが道路レベルの物体検出に適しており、自動運転車で十分に使用できることを示している。

Object detection for street-level objects can be applied to various use cases, from car and traffic detection to the self-driving car system. Therefore, finding the best object detection algorithm is essential to apply it effectively. Many object detection algorithms have been released, and many have compared object detection algorithms, but few have compared the latest algorithms, such as YOLOv5, primarily which focus on street-level objects. This paper compares various one-stage detector algorithms; SSD MobileNetv2 FPN-lite 320x320, YOLOv3, YOLOv4, YOLOv5l, and YOLOv5s for street-level object detection within real-time images. The experiment utilizes a modified Udacity Self Driving Car Dataset with 3,169 images. Dataset is split into train, validation, and test; Then, it is preprocessed and augmented using rescaling, hue shifting, and noise. Each algorithm is then trained and evaluated. Based on the experiments, the algorithms have produced decent results according to the inference time and the values of their precision, recall, F1-Score, and Mean Average Precision (mAP). The results also shows that YOLOv5l outperforms the other algorithms in terms of accuracy with a mAP@.5 of 0.593, MobileNetv2 FPN-lite has the fastest inference time among the others with only 3.20ms inference time. It is also found that YOLOv5s is the most efficient, with it having a YOLOv5l accuracy and a speed almost as quick as the MobileNetv2 FPN-lite. This shows that various algorithm are suitable for street-level object detection and viable enough to be used in self-driving car.
翻訳日:2022-08-25 12:16:38 公開日:2022-08-24
# UniCon: 視覚的質問応答のための一方向分割学習

UniCon: Unidirectional Split Learning with Contrastive Loss for Visual Question Answering ( http://arxiv.org/abs/2208.11435v1 )

ライセンス: Link先を確認
Yuwei Sun, Hideya Ochiai(参考訳) マルチモダリティデータを活用した視覚的質問応答(VQA)は、ホームロボットや臨床診断などの現実的な応用に強く関心を集めている。 それでも課題のひとつは、さまざまなクライアントタスクに対して堅牢な学習を設計することだ。 本研究の目的は,大規模トレーニングデータの前提条件と,主に機密性によるクライアントデータ共有の制約とのギャップを埋めることにある。 本稿では,分散データサイロ上でのVQAタスクの学習に対処するため,一方向分割学習(UniCon)を提案する。 特にuniconは,コントラスト学習を通じて洗練されたクロスモーダル表現を学習する,さまざまなクライアントのデータ配布全体に対して,グローバルモデルをトレーニングする。 グローバルモデルの学習した表現は、異なるローカルタスクから知識を集約する。 さらに,より効率的な知識共有を実現するために,一方向分割学習フレームワークを考案する。 VQA-v2データセットの5つの最先端VQAモデルによる包括的な実験は、UniConの有効性を示し、VQA-v2の検証セットの精度は49.89%に達した。 この研究は、自己教師型スプリット学習を用いたデータ機密性の制約下でのVQAの最初の研究である。

Visual question answering (VQA) that leverages multi-modality data has attracted intensive interest in real-life applications, such as home robots and clinic diagnoses. Nevertheless, one of the challenges is to design robust learning for different client tasks. This work aims to bridge the gap between the prerequisite of large-scale training data and the constraint of client data sharing mainly due to confidentiality. We propose the Unidirectional Split Learning with Contrastive Loss (UniCon) to tackle VQA tasks training on distributed data silos. In particular, UniCon trains a global model over the entire data distribution of different clients learning refined cross-modal representations via contrastive learning. The learned representations of the global model aggregate knowledge from different local tasks. Moreover, we devise a unidirectional split learning framework to enable more efficient knowledge sharing. The comprehensive experiments with five state-of-the-art VQA models on the VQA-v2 dataset demonstrated the efficacy of UniCon, achieving an accuracy of 49.89% in the validation set of VQA-v2. This work is the first study of VQA under the constraint of data confidentiality using self-supervised Split Learning.
翻訳日:2022-08-25 12:16:06 公開日:2022-08-24
# オントロジーとNLPを併用した臨床ノートからの逆児期体験の同定

Adverse Childhood Experiences Identification from Clinical Notes with Ontologies and NLP ( http://arxiv.org/abs/2208.11466v1 )

ライセンス: Link先を確認
Jinge Wu, Rowena Smith, Honghan Wu(参考訳) 逆育児体験 (ACEs) は、小児期および青年期を通じて起こる、非常にストレスがあり、潜在的にトラウマ的な出来事や状況の集合として定義される。 それらは、後年の精神疾患やその他の異常な行動のリスクの増加と関連していることが示されている。 しかし、自然言語処理(NLP)による自由テキスト電子健康記録(EHR)からのACEの識別は困難である。 (a) NLP 対応ACE オントロジーは存在しない。 (b) 臨床専門家からのデータアノテーションを必要とする機械学習のケースは限られている。 現在我々はNLP技術を使って臨床ノートからACEを抽出するツールを開発している。 これにより、ACEとその後の精神疾患(例えば、中毒)の関連性を示す証拠を、これまで不可能であった大規模かつ長手な自由テキスト EHR で特定することが可能になる。

Adverse Childhood Experiences (ACEs) are defined as a collection of highly stressful, and potentially traumatic, events or circumstances that occur throughout childhood and/or adolescence. They have been shown to be associated with increased risks of mental health diseases or other abnormal behaviours in later lives. However, the identification of ACEs from free-text Electronic Health Records (EHRs) with Natural Language Processing (NLP) is challenging because (a) there is no NLP ready ACE ontologies; (b) there are limited cases available for machine learning, necessitating the data annotation from clinical experts. We are currently developing a tool that would use NLP techniques to assist us in surfacing ACEs from clinical notes. This will enable us further research in identifying evidence of the relationship between ACEs and the subsequent developments of mental illness (e.g., addictions) in large-scale and longitudinal free-text EHRs, which has previously not been possible.
翻訳日:2022-08-25 12:12:22 公開日:2022-08-24
# SCALE: 事前知識のないオンライン自己監督型生涯学習

SCALE: Online Self-Supervised Lifelong Learning without Prior Knowledge ( http://arxiv.org/abs/2208.11266v1 )

ライセンス: Link先を確認
Xiaofan Yu, Yunhui Guo, Sicun Gao, Tajana Rosing(参考訳) 教師なし学習(unsupervised lifelong learning)とは、それまでのパターンを記憶しながら、時間とともに学習する能力を指す。 以前の研究では、入力データ(例えば、クラス境界を知る)に関する事前知識が強く、複雑で予測不能な環境では得られない。 本稿では,実世界のシナリオを動機として,非IDかつシングルパスであるクラスインクリメンタルストリーミングデータを用いて,オンラインの教師なし生涯学習問題を正式に定義する。 この問題は、ラベルや事前知識の欠如により、既存の生涯学習問題よりも困難である。 この問題に対処するため,本研究では,フライ時に知識を抽出し記憶する自己監督型ContrAstive Lifelong LEarning (SCALE)を提案する。 SCALEは、擬似教師付きコントラスト損失、自己教師付き忘れ損失、一様サブセット選択のためのオンラインメモリ更新の3つの主要なコンポーネントを中心に設計されている。 3つのコンポーネントはすべて、学習パフォーマンスを最大化するために協力的に動作するように設計されている。 損失関数はペアの類似性を利用して、監督や事前知識への依存を取り除く。 iidと4つの非iidデータストリームの下で、スケールの包括的な実験を行う。 SCALEは、CIFAR-10、CIFAR-100、SubImageNetデータセットで最大6.43%、5.23%、および5.86%のkNN精度で、すべての設定において最高の最先端のアルゴリズムより優れている。

Unsupervised lifelong learning refers to the ability to learn over time while memorizing previous patterns without supervision. Previous works assumed strong prior knowledge about the incoming data (e.g., knowing the class boundaries) which can be impossible to obtain in complex and unpredictable environments. In this paper, motivated by real-world scenarios, we formally define the online unsupervised lifelong learning problem with class-incremental streaming data, which is non-iid and single-pass. The problem is more challenging than existing lifelong learning problems due to the absence of labels and prior knowledge. To address the issue, we propose Self-Supervised ContrAstive Lifelong LEarning (SCALE) which extracts and memorizes knowledge on-the-fly. SCALE is designed around three major components: a pseudo-supervised contrastive loss, a self-supervised forgetting loss, and an online memory update for uniform subset selection. All three components are designed to work collaboratively to maximize learning performance. Our loss functions leverage pairwise similarity thus remove the dependency on supervision or prior knowledge. We perform comprehensive experiments of SCALE under iid and four non-iid data streams. SCALE outperforms the best state-of-the-art algorithm on all settings with improvements of up to 6.43%, 5.23% and 5.86% kNN accuracy on CIFAR-10, CIFAR-100 and SubImageNet datasets.
翻訳日:2022-08-25 12:11:20 公開日:2022-08-24
# 薬物・薬物相互作用予測のための分子サブ構造認識ネットワーク

Molecular Substructure-Aware Network for Drug-Drug Interaction Prediction ( http://arxiv.org/abs/2208.11267v1 )

ライセンス: Link先を確認
Xinyu Zhu, Yongliang Shen, Weiming Lu(参考訳) 薬物の併用投与は薬物と薬物の相互作用(DDI)を引き起こす。 いくつかの薬物の組み合わせは有益であるが、以前は記録されていない負の効果を引き起こすこともある。 DDI予測に関するこれまでの研究は、通常手作業によるドメイン知識に依存しており、入手は困難である。 本研究では,薬物対の分子構造から潜在的DDIを効果的に予測するための分子サブ構造認識ネットワーク(MSAN)を提案する。 我々はトランスフォーマー様のサブ構造抽出モジュールを用いて、薬物分子の様々なサブ構造パターンに関連する固定数の代表ベクトルを取得する。 次に、2つの薬物のサブ構造間の相互作用強度は類似性に基づく相互作用モジュールによって捉えられる。 また、オーバーフィッティングを軽減するため、グラフエンコーディングの前にサブストラクチャの削減も行う。 実世界のデータセットから得られた実験結果から,提案モデルが最先端の性能を達成できることが判明した。 また,本モデルの予測は,ケーススタディを通じて高い解釈性を示す。

Concomitant administration of drugs can cause drug-drug interactions (DDIs). Some drug combinations are beneficial, but other ones may cause negative effects which are previously unrecorded. Previous works on DDI prediction usually rely on hand-engineered domain knowledge, which is laborious to obtain. In this work, we propose a novel model, Molecular Substructure-Aware Network (MSAN), to effectively predict potential DDIs from molecular structures of drug pairs. We adopt a Transformer-like substructure extraction module to acquire a fixed number of representative vectors that are associated with various substructure patterns of the drug molecule. Then, interaction strength between the two drugs' substructures will be captured by a similarity-based interaction module. We also perform a substructure dropping augmentation before graph encoding to alleviate overfitting. Experimental results from a real-world dataset reveal that our proposed model achieves the state-of-the-art performance. We also show that the predictions of our model are highly interpretable through a case study.
翻訳日:2022-08-25 12:10:55 公開日:2022-08-24
# 強化学習における時間的不整合による自己監督探索

Self-Supervised Exploration via Temporal Inconsistency in Reinforcement Learning ( http://arxiv.org/abs/2208.11361v1 )

ライセンス: Link先を確認
Zijian Gao, Kele Xu, HengXing Cai, Yuanzhao Zhai, Dawei Feng, Bo Ding, XinJun Mao, Huaimin Wang(参考訳) 現実のシナリオでは、この分野への関心が高まっているにもかかわらず、疎結合な相乗的設定下での強化学習は依然として困難である。 以前の試みは、内在的な報酬はスパーシティに起因する問題を軽減できることを示唆している。 本稿では,現在の観察と歴史的知識を比較することにより,人間は好奇心を評価するため,人間学習に触発された新たな内在的報酬を提案する。 具体的には,自己教師付き予測モデルをトレーニングし,追加トレーニングコストを発生させることなく,モデルパラメータのスナップショットを保存する。 次に、核規範を用いて、異なるスナップショットの予測間の時間的矛盾を評価し、本質的な報酬としてさらに展開することができる。 さらに,異なるスナップショットに適応的に重みを割り当てるために,変動重み付け機構を提案する。 各種ベンチマーク環境において提案手法の有効性を示す。 以上の結果から,本手法は他のインセンティブ・リワード法と比較して,訓練コストの増大や耐雑音性の向上を伴わずに,最先端性能を提供できることが示唆された。 私たちのコードは再現性を高めるために公開されます。

In real-world scenarios, reinforcement learning under sparse-reward synergistic settings has remained challenging, despite surging interests in this field. Previous attempts suggest that intrinsic reward can alleviate the issue caused by sparsity. In this paper, we present a novel intrinsic reward that is inspired by human learning, as humans evaluate curiosity by comparing current observations with historical knowledge. Specifically, we train a self-supervised prediction model and save a set of snapshots of the model parameters, without incurring addition training cost. Then we employ nuclear norm to evaluate the temporal inconsistency between the predictions of different snapshots, which can be further deployed as the intrinsic reward. Moreover, a variational weighting mechanism is proposed to assign weight to different snapshots in an adaptive manner. We demonstrate the efficacy of the proposed method in various benchmark environments. The results suggest that our method can provide overwhelming state-of-the-art performance compared with other intrinsic reward-based methods, without incurring additional training costs and maintaining higher noise tolerance. Our code will be released publicly to enhance reproducibility.
翻訳日:2022-08-25 12:10:41 公開日:2022-08-24
# メタ強化学習へのモデルベースアプローチ:トランスフォーマーと木探索

A model-based approach to meta-Reinforcement Learning: Transformers and tree search ( http://arxiv.org/abs/2208.11535v1 )

ライセンス: Link先を確認
Brieuc Pinon and Jean-Charles Delvenne and Rapha\"el Jungers(参考訳) メタラーニング(Meta-learning)は、過去の経験を活用して新しい学習問題を効率的に解決する能力を開発する研究のシリーズである。 メタ強化学習(Meta-RL)法は,複数のメタRL問題において効率的に情報を取得し,活用する行動学習能力を示す。 この文脈では、AlchemyベンチマークはWangらによって提案されている。 [2021]. Alchemyは、最先端のモデルフリーなRL法では困難であるリッチな構造化潜在空間を特徴としている。 これらのメソッドは、適切な探索とエクスプロイトを学ばない。 我々はモデルに基づくアルゴリズムを開発した。 我々は,シンボリック錬金術環境ダイナミクスに適合するトランスフォーマエンコーダを主ブロックとするモデルを訓練する。 そして木探索手法を用いて学習モデルを用いてオンラインプランナーを定義する。 このアルゴリズムは、シンボリック錬金術問題のモデルフリーなrl法を大幅に上回っている。 本研究は,meta-rlにおける探索と活用を成功させるオンラインプランニングとモデルベースアプローチの関連性を明らかにする。 さらに,メタRL問題に存在する潜在空間から生じる複雑な力学を学習するためのTransformerアーキテクチャの効率性を示す。

Meta-learning is a line of research that develops the ability to leverage past experiences to efficiently solve new learning problems. Meta-Reinforcement Learning (meta-RL) methods demonstrate a capability to learn behaviors that efficiently acquire and exploit information in several meta-RL problems. In this context, the Alchemy benchmark has been proposed by Wang et al. [2021]. Alchemy features a rich structured latent space that is challenging for state-of-the-art model-free RL methods. These methods fail to learn to properly explore then exploit. We develop a model-based algorithm. We train a model whose principal block is a Transformer Encoder to fit the symbolic Alchemy environment dynamics. Then we define an online planner with the learned model using a tree search method. This algorithm significantly outperforms previously applied model-free RL methods on the symbolic Alchemy problem. Our results reveal the relevance of model-based approaches with online planning to perform exploration and exploitation successfully in meta-RL. Moreover, we show the efficiency of the Transformer architecture to learn complex dynamics that arise from latent spaces present in meta-RL problems.
翻訳日:2022-08-25 12:10:07 公開日:2022-08-24
# FashionVQA: ドメイン特有なビジュアル質問応答システム

FashionVQA: A Domain-Specific Visual Question Answering System ( http://arxiv.org/abs/2208.11253v1 )

ライセンス: Link先を確認
Min Wang, Ata Mahjoubfar, Anupama Joshi(参考訳) 人間は様々な感覚のモダリティを通じて世界を理解するが、言語は主要なコミュニケーションチャネルである。 機械学習システムは、自然言語で人間との情報交換を行うために、同じマルチモーダルなリッチさを身につける必要がある。 この目的のために、ファッション写真画像におけるアパレルに関する複雑な自然言語質問に答えるために、視覚的質問応答システム(VQA)を訓練する。 VQAモデルのトレーニングを成功させる鍵は、多様なテンプレートを使用して207万の画像の項目属性から168万のサンプルを抽出した視覚的質問回答データセットを自動生成することである。 サンプル生成は、質問応答ペアの難しさを考慮し、難しい概念を強調する戦略を採用している。 ビジュアル質問応答モデルの事前トレーニングに複数のデータセットを使用するという最近のトレンドとは対照的に,さまざまなモデルをスクラッチからトレーニングしながらデータセットを固定し,モデルアーキテクチャの変更から改善を分離することに注力した。 問合せを符号化し,解答の復号化に同じ変換器を用いて最大精度を達成し,視覚言語モデル(VLM)が我々のデータセットに最適な視覚的問合せシステムを実現することを示す。 最高のモデルの正確さは、テンプレートフォーマットに縛られない人間が生成した質問に答えても、人間のエキスパートレベルを超えます。 大規模マルチモーダルドメイン固有データセットを生成するアプローチは,自然言語で通信可能な特殊モデルのトレーニングパスを提供する。 我々のファッションVLMモデルのようなドメインエキスパートモデルのトレーニングは、Webから収集された大規模な汎用データセットにのみ依存することはできない。

Humans apprehend the world through various sensory modalities, yet language is their predominant communication channel. Machine learning systems need to draw on the same multimodal richness to have informed discourses with humans in natural language; this is particularly true for systems specialized in visually-dense information, such as dialogue, recommendation, and search engines for clothing. To this end, we train a visual question answering (VQA) system to answer complex natural language questions about apparel in fashion photoshoot images. The key to the successful training of our VQA model is the automatic creation of a visual question-answering dataset with 168 million samples from item attributes of 207 thousand images using diverse templates. The sample generation employs a strategy that considers the difficulty of the question-answer pairs to emphasize challenging concepts. Contrary to the recent trends in using several datasets for pretraining the visual question answering models, we focused on keeping the dataset fixed while training various models from scratch to isolate the improvements from model architecture changes. We see that using the same transformer for encoding the question and decoding the answer, as in language models, achieves maximum accuracy, showing that visual language models (VLMs) make the best visual question answering systems for our dataset. The accuracy of the best model surpasses the human expert level, even when answering human-generated questions that are not confined to the template formats. Our approach for generating a large-scale multimodal domain-specific dataset provides a path for training specialized models capable of communicating in natural language. The training of such domain-expert models, e.g., our fashion VLM model, cannot rely solely on the large-scale general-purpose datasets collected from the web.
翻訳日:2022-08-25 12:07:42 公開日:2022-08-24
# 動的自己組織化マップに対するベイズ変分原理

A Bayesian Variational principle for dynamic Self Organizing Maps ( http://arxiv.org/abs/2208.11337v1 )

ライセンス: Link先を確認
Anthony Fillion, Thibaut Kulak, Fran\c{c}ois Blayo(参考訳) 我々は,変分ベイズ的枠組みを用いて,適応的な近傍半径を持つSOMの訓練方法を示す組織条件を提案する。 この方法は非定常設定で検証され、高次元設定で他の適応法と比較される。

We propose organisation conditions that yield a method for training SOM with adaptative neighborhood radius in a variational Bayesian framework. This method is validated on a non-stationary setting and compared in an high-dimensional setting with an other adaptative method.
翻訳日:2022-08-25 12:07:13 公開日:2022-08-24
# ビジュアル字幕機能強化ビデオアウトライン生成

Visual Subtitle Feature Enhanced Video Outline Generation ( http://arxiv.org/abs/2208.11307v1 )

ライセンス: Link先を確認
Qi Lv, Ziqiang Cao, Wenrui Xie, Derui Wang, Jingwen Wang, Zhiyong Hu, Tangkun Zhang, Yuan Ba, Yuanhang Li, Min Cao, Wenjie Li, Sujian Li, Guohong Fu(参考訳) ビデオの数が非常に増えているので、興味のあるビデオセグメントを素早くナビゲートするためのテクニックがとても求められています。 しかし,現在のビデオ理解研究は主に映像コンテンツの要約に焦点を当てているが,ビデオの構造を探求する努力はほとんど行われていない。 テキスト的アウトライン生成に触発されて,新しい映像理解タスクであるビデオアウトライン生成(vog)を導入する。 このタスクは、(1)まずコンテンツ構造に従ってビデオをセグメント化し、(2)各セグメントの先頭を生成する2つのサブタスクを含むように定義されている。 VOGを学習し、評価するために、DuVOGと呼ばれる10k以上のデータセットを注釈付けします。 具体的には、OCRツールを使用してビデオの字幕を認識する。 その後、注釈者は各章にサブタイトルを分けてタイトルを付けるよう依頼される。 ビデオでは、強調されたテキストが見出しになる傾向がある。 そこで本稿では,テキスト字幕を視覚フォントのサイズや位置とともに入力する,ビジュアル字幕機能拡張ビデオアウトライン生成モデル(VSENet)を提案する。 vogタスクをシーケンスタグ付け問題として,見出しの位置をスパンとして抽出し,それを書き直して最終アウトラインを形成する。 さらに,ビデオのアウトラインとテキストのアウトラインの類似性から,章の見出しが付いた多数の記事を用いて,モデルを事前学習する。 また,DuVOG実験の結果,ビデオセグメンテーションレベルではF1スコアの77.1,ヘッドライン生成レベルではROUGE-L_F0.5の85.0を達成した。

With the tremendously increasing number of videos, there is a great demand for techniques that help people quickly navigate to the video segments they are interested in. However, current works on video understanding mainly focus on video content summarization, while little effort has been made to explore the structure of a video. Inspired by textual outline generation, we introduce a novel video understanding task, namely video outline generation (VOG). This task is defined to contain two sub-tasks: (1) first segmenting the video according to the content structure and then (2) generating a heading for each segment. To learn and evaluate VOG, we annotate a 10k+ dataset, called DuVOG. Specifically, we use OCR tools to recognize subtitles of videos. Then annotators are asked to divide subtitles into chapters and title each chapter. In videos, highlighted text tends to be the headline since it is more likely to attract attention. Therefore we propose a Visual Subtitle feature Enhanced video outline generation model (VSENet) which takes as input the textual subtitles together with their visual font sizes and positions. We consider the VOG task as a sequence tagging problem that extracts spans where the headings are located and then rewrites them to form the final outlines. Furthermore, based on the similarity between video outlines and textual outlines, we use a large number of articles with chapter headings to pretrain our model. Experiments on DuVOG show that our model largely outperforms other baseline methods, achieving 77.1 of F1-score for the video segmentation level and 85.0 of ROUGE-L_F0.5 for the headline generation level.
翻訳日:2022-08-25 12:07:09 公開日:2022-08-24
# 半監督的かつ教師なしの深層学習:サーベイ

Semi-Supervised and Unsupervised Deep Visual Learning: A Survey ( http://arxiv.org/abs/2208.11296v1 )

ライセンス: Link先を確認
Yanbei Chen, Massimiliano Mancini, Xiatian Zhu, and Zeynep Akata(参考訳) 最先端のディープラーニングモデルは、大量のラベル付きトレーニングデータでトレーニングされることが多い。 しかし、徹底した手動アノテーションを必要とする場合、限定ラベル方式ではモデルの一般化性が低下することがある。 半教師なし学習と教師なし学習は、ラベルなしの視覚データから学ぶための有望なパラダイムを提供する。 これらのパラダイムの最近の進歩は、モデル一般化を改善し、モデル初期化を改善するためにラベルのないデータを活用する強力な利点を示している。 本調査では, 半教師付き学習(SSL)と非教師付き学習(UL)の先進的な深層学習アルゴリズムについて, 統一的な視点から視覚的認識を行う。 これらの分野における最先端の総合的な理解を提供するため,我々は統一分類法を提案する。 既存の代表的SSLとULを包括的かつ洞察に富んだ分析で分類し、異なる学習シナリオと異なるコンピュータビジョンタスクにおけるアプリケーションにおける設計の合理性を明らかにする。 最後に、SSLとULの新たなトレンドとオープンな課題について議論し、今後の重要な研究の方向性を明らかにします。

State-of-the-art deep learning models are often trained with a large amount of costly labeled training data. However, requiring exhaustive manual annotations may degrade the model's generalizability in the limited-label regime. Semi-supervised learning and unsupervised learning offer promising paradigms to learn from an abundance of unlabeled visual data. Recent progress in these paradigms has indicated the strong benefits of leveraging unlabeled data to improve model generalization and provide better model initialization. In this survey, we review the recent advanced deep learning algorithms on semi-supervised learning (SSL) and unsupervised learning (UL) for visual recognition from a unified perspective. To offer a holistic understanding of the state-of-the-art in these areas, we propose a unified taxonomy. We categorize existing representative SSL and UL with comprehensive and insightful analysis to highlight their design rationales in different learning scenarios and applications in different computer vision tasks. Lastly, we discuss the emerging trends and open challenges in SSL and UL to shed light on future critical research directions.
翻訳日:2022-08-25 12:06:22 公開日:2022-08-24
# 変圧器を用いた物体検出装置における多機能化に向けて

Towards Efficient Use of Multi-Scale Features in Transformer-Based Object Detectors ( http://arxiv.org/abs/2208.11356v1 )

ライセンス: Link先を確認
Gongjie Zhang, Zhipeng Luo, Yingchen Yu, Zichen Tian, Jingyi Zhang, Shijian Lu(参考訳) マルチスケール機能はオブジェクト検出に非常に有効であることが証明されており、ほとんどのConvNetベースのオブジェクト検出器は、マルチスケール機能を利用するための基本コンポーネントとしてFeature Pyramid Network (FPN)を採用している。 しかし、最近提案されたTransformerベースのオブジェクト検出器では、マルチスケール機能を直接組み込むと、高解像度機能を処理するための注意機構が複雑になるため、計算オーバーヘッドが禁じられる。 本稿では,Transformerベースのオブジェクト検出器において,マルチスケール特徴の効率的な利用を可能にする汎用パラダイムであるIterative Multi-scale Feature Aggregation(IMFA)を提案する。 中心となるアイデアは、いくつかの重要な場所からスパースなマルチスケール機能を活用し、2つの斬新なデザインで達成することだ。 まず、IMFAはTransformerエンコーダ-デコーダパイプラインを再構成し、検出予測に基づいてコード化された特徴を反復的に更新する。 第2に、IMFAは事前検出予測のガイダンスに基づき、わずか数箇所のキーポイント位置からの精密検出のためのスケール適応的特徴をわずかにサンプリングした。 その結果、サンプルされたマルチスケール機能は少ないが、オブジェクト検出には非常に有益である。 広範な実験により、imfaは複数のトランスフォーマーベースの物体検出器の性能を若干の計算オーバーヘッドで大幅に向上させることが示された。 プロジェクトページ:https://github.com/ZhangGongjie/IMFA。

Multi-scale features have been proven highly effective for object detection, and most ConvNet-based object detectors adopt Feature Pyramid Network (FPN) as a basic component for exploiting multi-scale features. However, for the recently proposed Transformer-based object detectors, directly incorporating multi-scale features leads to prohibitive computational overhead due to the high complexity of the attention mechanism for processing high-resolution features. This paper presents Iterative Multi-scale Feature Aggregation (IMFA) -- a generic paradigm that enables the efficient use of multi-scale features in Transformer-based object detectors. The core idea is to exploit sparse multi-scale features from just a few crucial locations, and it is achieved with two novel designs. First, IMFA rearranges the Transformer encoder-decoder pipeline so that the encoded features can be iteratively updated based on the detection predictions. Second, IMFA sparsely samples scale-adaptive features for refined detection from just a few keypoint locations under the guidance of prior detection predictions. As a result, the sampled multi-scale features are sparse yet still highly beneficial for object detection. Extensive experiments show that the proposed IMFA boosts the performance of multiple Transformer-based object detectors significantly yet with slight computational overhead. Project page: https://github.com/ZhangGongjie/IMFA.
翻訳日:2022-08-25 12:06:05 公開日:2022-08-24
# マルチモーダル要約のためのパラグラフレベル視覚言語セマンティックアライメントのモデル化

Modeling Paragraph-Level Vision-Language Semantic Alignment for Multi-Modal Summarization ( http://arxiv.org/abs/2208.11303v1 )

ライセンス: Link先を確認
Xinnian Liang, Chenhao Cui, Shuangzhi Wu, Jiali Zeng, Yufan Jiang, Zhoujun Li(参考訳) 現行のマルチモーダル要約法では,まず外装オブジェクト検出器を用いて視覚的特徴を抽出し,これらの特徴を言語表現と融合させてエンコーダ・デコーダモデルを用いて要約を生成する。 カスケードされた方法では、正確な要約に不可欠である画像と段落間の意味的アライメントをキャプチャできない。 本稿では, ViL-Sum を用いて, 段落レベル textbf{Vi}sion-\textbf{L}anguage Semantic Alignment と Multi-Modal \textbf{Sum}marization を共同でモデル化する。 ViL-Sumのコアは、よく設計された2つのタスク、画像の並べ替えと画像選択を備えたマルチモーダルエンコーダである。 ジョイントマルチモーダルエンコーダはモダリティ間の相互作用をキャプチャし、再順序付けタスクがモデルに段落レベルの意味的アライメントを学習させ、選択タスクが最終要約で選択された要約関連画像にモデルをガイドする。 実験結果から,提案したViL-Sumは最先端手法よりも優れていた。 さらに,2つのよく設計されたタスクと共同マルチモーダルエンコーダが,合理的な段落関係と要約関係を学習するために効果的にモデルを導出できることを見出した。

Most current multi-modal summarization methods follow a cascaded manner, where an off-the-shelf object detector is first used to extract visual features, then these features are fused with language representations to generate the summary with an encoder-decoder model. The cascaded way cannot capture the semantic alignments between images and paragraphs, which are crucial to a precise summary. In this paper, we propose ViL-Sum to jointly model paragraph-level \textbf{Vi}sion-\textbf{L}anguage Semantic Alignment and Multi-Modal \textbf{Sum}marization. The core of ViL-Sum is a joint multi-modal encoder with two well-designed tasks, image reordering and image selection. The joint multi-modal encoder captures the interactions between modalities, where the reordering task guides the model to learn paragraph-level semantic alignment and the selection task guides the model to selected summary-related images in the final summary. Experimental results show that our proposed ViL-Sum significantly outperforms current state-of-the-art methods. In further analysis, we find that two well-designed tasks and joint multi-modal encoder can effectively guide the model to learn reasonable paragraphs-images and summary-images relations.
翻訳日:2022-08-25 12:05:17 公開日:2022-08-24
# パートアウェアのRe-IDに対する動的テンプレート初期化

Dynamic Template Initialization for Part-Aware Person Re-ID ( http://arxiv.org/abs/2208.11440v1 )

ライセンス: Link先を確認
Kalana Abeywardena, Shechem Sumanthiran, Sanoojan Baliah, Nadarasar Bahavan, Nalith Udugampola, Ajith Pasqual, Chamira Edussooriya and Ranga Rodrigo(参考訳) 既存のペルソナ再識別(Re-ID)アプローチの多くは、人の一部をローカライズするために分割されたり、グローバルな表現を作成するために縮小されたりした特徴マップに依存している。 部分ローカライゼーションは大きな成功を収めているが、na{\i}ve位置ベースのパーティションまたは静的機能テンプレートを使用する。 しかし、これらは、ある画像またはその位置にある部分の事前存在を仮説化し、部分的閉塞を伴うRe-IDや部分的なプローブ画像のような挑戦的なシナリオでのユーザビリティを制限する入力画像固有の情報を無視する。 本稿では,空間的注意に基づく動的部分テンプレート初期化モジュールについて紹介する。 セルフアテンション層に追従して、様々な人体部位のテンプレートを簡易なクロスアテンションスキームを用いて抽出し、意味的にリッチな特徴から様々なヒト部位の表現を識別・照合し、モデル全体の識別能力を高める。 さらに,局所属性の欠如やオクルージョンを定量化するための部分記述子の適応的な重み付けについて検討し,対応する部分記述子のマッチング基準への寄与を抑制する。 全体的,排他的,部分的なRe-IDタスクベンチマークに関する大規模な実験は,提案アーキテクチャが競合性能を達成可能であることを実証している。 コードは補足資料に含まれ、公開される予定だ。

Many of the existing Person Re-identification (Re-ID) approaches depend on feature maps which are either partitioned to localize parts of a person or reduced to create a global representation. While part localization has shown significant success, it uses either na{\i}ve position-based partitions or static feature templates. These, however, hypothesize the pre-existence of the parts in a given image or their positions, ignoring the input image-specific information which limits their usability in challenging scenarios such as Re-ID with partial occlusions and partial probe images. In this paper, we introduce a spatial attention-based Dynamic Part Template Initialization module that dynamically generates part-templates using mid-level semantic features at the earlier layers of the backbone. Following a self-attention layer, human part-level features of the backbone are used to extract the templates of diverse human body parts using a simplified cross-attention scheme which will then be used to identify and collate representations of various human parts from semantically rich features, increasing the discriminative ability of the entire model. We further explore adaptive weighting of part descriptors to quantify the absence or occlusion of local attributes and suppress the contribution of the corresponding part descriptors to the matching criteria. Extensive experiments on holistic, occluded, and partial Re-ID task benchmarks demonstrate that our proposed architecture is able to achieve competitive performance. Codes will be included in the supplementary material and will be made publicly available.
翻訳日:2022-08-25 12:04:50 公開日:2022-08-24
# ago-net:3dポイントクラウドオブジェクト検出ネットワーク

AGO-Net: Association-Guided 3D Point Cloud Object Detection Network ( http://arxiv.org/abs/2208.11658v1 )

ライセンス: Link先を確認
Liang Du, Xiaoqing Ye, Xiao Tan, Edward Johns, Bo Chen, Errui Ding, Xiangyang Xue, Jianfeng Feng(参考訳) 人間の脳は、物体を無力に認識し、局所化することができるが、lidar point cloudに基づく現在の3dオブジェクト検出手法は、まだ、閉塞や遠方の物体の検出において劣る性能を報告している。 したがって、このような点クラウドに頑健な特徴表現を設計することは重要である。 人間の連想認識に触発されて,ドメイン適応によるオブジェクトの無傷な特徴を関連付ける新しい3D検出フレームワークを提案する。 知覚的領域、特徴が最適な表現を持つ実場面から派生する領域と、詳細な情報を持つ非排他的対象からなる拡張シーンから特徴を抽出する概念領域とのギャップを橋渡しする。 外部データセットを使わずに概念的なシーンを構築するための実現可能な手法を検討した。 さらに、より情報のある領域の特徴適応を適応的に強化する、注意に基づく再重み付けモジュールを導入する。 ネットワークの機能強化能力は、様々な3D検出フレームワークのプラグアンドプレイである推論中に余分なコストを導入することなく活用される。 我々は,KITTIの3D検出ベンチマークにおいて,精度と速度の両面で最新の性能を実現する。 nuScenesとWaymoデータセットの実験も、我々の手法の汎用性を検証する。

The human brain can effortlessly recognize and localize objects, whereas current 3D object detection methods based on LiDAR point clouds still report inferior performance for detecting occluded and distant objects: the point cloud appearance varies greatly due to occlusion, and has inherent variance in point densities along the distance to sensors. Therefore, designing feature representations robust to such point clouds is critical. Inspired by human associative recognition, we propose a novel 3D detection framework that associates intact features for objects via domain adaptation. We bridge the gap between the perceptual domain, where features are derived from real scenes with sub-optimal representations, and the conceptual domain, where features are extracted from augmented scenes that consist of non-occlusion objects with rich detailed information. A feasible method is investigated to construct conceptual scenes without external datasets. We further introduce an attention-based re-weighting module that adaptively strengthens the feature adaptation of more informative regions. The network's feature enhancement ability is exploited without introducing extra cost during inference, which is plug-and-play in various 3D detection frameworks. We achieve new state-of-the-art performance on the KITTI 3D detection benchmark in both accuracy and speed. Experiments on nuScenes and Waymo datasets also validate the versatility of our method.
翻訳日:2022-08-25 12:04:24 公開日:2022-08-24
# 単語長の最適性。 理論的基礎と実証的研究

The optimality of word lengths. Theoretical foundations and an empirical study ( http://arxiv.org/abs/2208.10384v2 )

ライセンス: Link先を確認
Sonia Petrini, Antoni Casas-i-Mu\~noz, Jordi Cluet-i-Martinell, Mengxue Wang, Christian Bentz and Ramon Ferrer-i-Cancho(参考訳) ヒトの言語に見られる最も強固なパターンの1つは、zipfの短縮の法則、すなわちより頻繁に使われる単語がより短い傾向である。 zipfの先駆的な研究以来、この法則は圧縮の顕現、すなわち形式の長さの最小化、すなわち自然コミュニケーションの普遍的な原理として見なされてきた。 言語が最適化されているという主張はトレンドになっているが、言語の最適化の度合いを測定する試みはかなり少ない。 ここでは、圧縮が、例外なく、測定単位とは独立に、幅広い言語のサンプルに現れることを実証する。 文字の文字中の単語長と、音声言語における時間長の両方を検出することができる。 さらに、最適化の程度を測定するために、ランダムベースラインに対する単純な公式を導出し、双対正規化された2つのスコア、すなわち、最小ベースラインとランダムベースラインの両方について正規化する。 これらと他のスコアの理論的・統計的利点とデメリットを分析した。 最高のスコアを生かして、言語における単語長の最適度を初めて定量化する。 これは、単語の長さを文字で測定すると、言語は平均で62または67%、時間で測定すると平均で65%に最適化されていることを示している。 一般に、単語の長さは文字中の単語の長さよりも最適化されている。 ここで報告した分析以外にも、我々の研究は、他の種の発声やジェスチャーの最適度を計測し、書き言葉、話し言葉、署名された人間の言語と比較する方法を定めています。

One of the most robust patterns found in human languages is Zipf's law of abbreviation, that is, the tendency of more frequent words to be shorter. Since Zipf's pioneering research, this law has been viewed as a manifestation of compression, i.e. the minimization of the length of forms - a universal principle of natural communication. Although the claim that languages are optimized has become trendy, attempts to measure the degree of optimization of languages have been rather scarce. Here we demonstrate that compression manifests itself in a wide sample of languages without exceptions, and independently of the unit of measurement. It is detectable for both word lengths in characters of written language as well as durations in time in spoken language. Moreover, to measure the degree of optimization, we derive a simple formula for a random baseline and present two scores that are dualy normalized, namely, they are normalized with respect to both the minimum and the random baseline. We analyze the theoretical and statistical advantages and disadvantages of these and other scores. Harnessing the best score, we quantify for the first time the degree of optimality of word lengths in languages. This indicates that languages are optimized to 62 or 67 percent on average (depending on the source) when word lengths are measured in characters, and to 65 percent on average when word lengths are measured in time. In general, spoken word durations are more optimized than written word lengths in characters. Beyond the analyses reported here, our work paves the way to measure the degree of optimality of the vocalizations or gestures of other species, and to compare them against written, spoken, or signed human languages.
翻訳日:2022-08-25 10:28:05 公開日:2022-08-24
# entropic multi-marginal optimal transportの情報理論等価性:マルチエージェント通信の理論

Information-Theoretic Equivalence of Entropic Multi-Marginal Optimal Transport: A Theory for Multi-Agent Communication ( http://arxiv.org/abs/2208.10256v2 )

ライセンス: Link先を確認
Shuchan Wang(参考訳) 本稿では,エントロピー型マルチマルジナル最適輸送(MOT)の情報理論的等価性を提案する。 この等価性は、エントロピー最適輸送(OT)の場合に容易に還元できる。 OTは知識と信念の違いを比較するために広く用いられているため、異なる信念を持つエージェント間のコミュニケーションにこの結果を適用する。 我々の結果は、エントロピーOTがWangらによって与えられる情報理論的に最適であることを示す。 [2020]を一般化し、マルチエージェントケースに一般化する。 我々は、将来のマルチエージェントチームシステムにおけるOT理論に光を当てることができると考えている。

In this paper, we propose our information-theoretic equivalence of entropic multi-marginal optimal transport (MOT). This equivalence can be easily reduced to the case of entropic optimal transport (OT). Because OT is widely used to compare differences between knowledge or beliefs, we apply this result to the communication between agents with different beliefs. Our results formally prove the statement that entropic OT is information-theoretically optimal given by Wang et al. [2020] and generalize it to the multi-agent case. We believe that our work can shed light on OT theory in future multi-agent teaming systems.
翻訳日:2022-08-25 10:27:38 公開日:2022-08-24
# ソースコードテスト可能性予測のためのアンサンブルメタ推定器

An ensemble meta-estimator to predict source code testability ( http://arxiv.org/abs/2208.09614v2 )

ライセンス: Link先を確認
Morteza Zakeri-Nasrabadi and Saeed Parsa(参考訳) 他のほとんどのソフトウェア品質属性とは異なり、テスト容易性はソースコードの特性のみに基づいて評価することはできない。 テストスイートの有効性とテストに割り当てられた予算は、テスト中のコードのテスト容易性に大きな影響を与えます。 テストスイートのサイズはテストの労力とコストを決定し、カバレッジ測定はテストの有効性を示しています。 したがって、テスト予算を考慮してテストスイートが提供するテストケースのカバレッジと数に基づいてテスト可能性を測定することができる。 本稿では,テストスイートのサイズとカバレッジについて,テスト可能性を評価するための新しい式を提案する。 この方程式は、110のJavaプロジェクトに属する23,000のクラスをテスト容易性尺度でラベル付けするために使われてきた。 ラベル付きクラスは262のメトリクスを使ってベクトル化された。 ラベル付きベクターは、ソースコードメトリクスの観点からテスト容易性を予測するために、教師付き機械学習アルゴリズムである回帰アルゴリズムのファミリーに入力された。 回帰モデルではR2は0.68、平均2乗誤差は0.03と予測された。 学習モデルの特徴重要度分析手法を用いて,テスト容易性予測に高い影響を及ぼすソフトウェアメトリクスを15個同定した。 提案モデルでは,新たな基準,基準,データを活用することにより平均絶対誤差を38%改善した。 テスト容易性予測のアプリケーションとして、影響のある15のソフトウェアメトリクスの改善を目的とした42の臭いjavaクラスの自動リファクタリングによって、テスト容易性が平均86.87%向上することが示されている。

Unlike most other software quality attributes, testability cannot be evaluated solely based on the characteristics of the source code. The effectiveness of the test suite and the budget assigned to the test highly impact the testability of the code under test. The size of a test suite determines the test effort and cost, while the coverage measure indicates the test effectiveness. Therefore, testability can be measured based on the coverage and number of test cases provided by a test suite, considering the test budget. This paper offers a new equation to estimate testability regarding the size and coverage of a given test suite. The equation has been used to label 23,000 classes belonging to 110 Java projects with their testability measure. The labeled classes were vectorized using 262 metrics. The labeled vectors were fed into a family of supervised machine learning algorithms, regression, to predict testability in terms of the source code metrics. Regression models predicted testability with an R2 of 0.68 and a mean squared error of 0.03, suitable in practice. Fifteen software metrics highly affecting testability prediction were identified using a feature importance analysis technique on the learned model. The proposed models have improved mean absolute error by 38% due to utilizing new criteria, metrics, and data compared with the relevant study on predicting branch coverage as a test criterion. As an application of testability prediction, it is demonstrated that automated refactoring of 42 smelly Java classes targeted at improving the 15 influential software metrics could elevate their testability by an average of 86.87%.
翻訳日:2022-08-25 10:27:29 公開日:2022-08-24
# 確率的データ保護による分散協調学習

Decentralized Collaborative Learning with Probabilistic Data Protection ( http://arxiv.org/abs/2208.10674v2 )

ライセンス: Link先を確認
Tsuyoshi Id\'e, Rudy Raymond(参考訳) 我々は,ネットワーク参加者が他と切り離された時にアクセスできない余分な洞察を得ることができる,共同価値共同創造プラットフォームとしてのブロックチェーンの今後の方向性について論じる。 そこで我々は,民主主義,多様性,プライバシの価値を尊重するために,注意深く設計された分散機械学習フレームワークを提案する。 具体的には,プライバシ保護動的コンセンサスアルゴリズムを統合した多タスク学習フレームワークを提案する。 拡張グラフと呼ばれる特定のネットワークトポロジが,グローバルコンセンサス構築のスケーラビリティを劇的に改善することを示す。 我々はオープンな問題についていくつかのコメントをすることで論文を締めくくった。

We discuss future directions of Blockchain as a collaborative value co-creation platform, in which network participants can gain extra insights that cannot be accessed when disconnected from the others. As such, we propose a decentralized machine learning framework that is carefully designed to respect the values of democracy, diversity, and privacy. Specifically, we propose a federated multi-task learning framework that integrates a privacy-preserving dynamic consensus algorithm. We show that a specific network topology called the expander graph dramatically improves the scalability of global consensus building. We conclude the paper by making some remarks on open problems.
翻訳日:2022-08-25 10:27:08 公開日:2022-08-24
# ファイナンスにおけるトランスファーランキング:データ不足を伴う横断的モーメントへの応用

Transfer Ranking in Finance: Applications to Cross-Sectional Momentum with Data Scarcity ( http://arxiv.org/abs/2208.09968v2 )

ライセンス: Link先を確認
Daniel Poh, Stephen Roberts and Stefan Zohren(参考訳) クロスセクション戦略は古典的で人気のあるトレーディングスタイルであり、最近の高度なニューラルアーキテクチャを取り入れたハイパフォーマンスなバリエーションがある。 これらの戦略は、長い歴史を持つ成熟した資産を含むデータリッチな設定にうまく適用されてきたが、限られたサンプルを持つ機器に配置すると、一般的に性能が低下した過剰なモデルが生成される。 本稿では,新しいパラメータ共有転送ランキングモデルである fused encoder networks を提案する。 このモデルは、ソースデータセットで操作されるエンコーダ-アテンションモジュールを使用して抽出された情報を、関心のあるより小さなターゲットデータセットに焦点を当てた類似だが分離されたモジュールと融合する。 これにより、不足対象データに対するトレーニングの結果生じる一般化性の低いモデルの問題が軽減される。 さらに、自己注意機構により、モデルトレーニング中の損失レベルだけでなく、推論時にも、機器間の相互作用を説明できる。 市場資本化による上位10の暗号通貨に実証的なユースケースとして適用される勢いに着目して、Fused Encoder Networksは、ほとんどのパフォーマンス指標で基準ベンチマークを上回り、古典的な勢いよりもシャープ比が3倍向上し、トランザクションコストのない最高のベンチマークモデルに対して約50%向上した。 暗号通貨取引に伴う高い取引コストを考慮しても、ベースラインを上回り続けている。

Cross-sectional strategies are a classical and popular trading style, with recent high performing variants incorporating sophisticated neural architectures. While these strategies have been applied successfully to data-rich settings involving mature assets with long histories, deploying them on instruments with limited samples generally produce over-fitted models with degraded performance. In this paper, we introduce Fused Encoder Networks -- a novel and hybrid parameter-sharing transfer ranking model. The model fuses information extracted using an encoder-attention module operated on a source dataset with a similar but separate module focused on a smaller target dataset of interest. This mitigates the issue of models with poor generalisability that are a consequence of training on scarce target data. Additionally, the self-attention mechanism enables interactions among instruments to be accounted for, not just at the loss level during model training, but also at inference time. Focusing on momentum applied to the top ten cryptocurrencies by market capitalisation as a demonstrative use-case, the Fused Encoder Networks outperforms the reference benchmarks on most performance measures, delivering a three-fold boost in the Sharpe ratio over classical momentum as well as an improvement of approximately 50% against the best benchmark model without transaction costs. It continues outperforming baselines even after accounting for the high transaction costs associated with trading cryptocurrencies.
翻訳日:2022-08-25 10:27:00 公開日:2022-08-24
# 話者匿名化システムを構築する上で,異種表現は必要か?

Are disentangled representations all you need to build speaker anonymization systems? ( http://arxiv.org/abs/2208.10497v2 )

ライセンス: Link先を確認
Pierre Champion (MULTISPEECH, LIUM), Denis Jouvet (MULTISPEECH), Anthony Larcher (LIUM)(参考訳) 音声信号には、話者のアイデンティティなど多くの機密情報が含まれており、音声データが収集されるとプライバシーの懸念が高まる。 話者匿名化は、音声信号を変換して、発話内容が変わらないままソース話者の身元を除去することを目的としている。 現在の手法は、内容/話者の絡み合いと音声変換に頼って変換を行う。 通常、自動音声認識システムからの音響モデルはコンテンツ表現を抽出し、x-vectorシステムは話者表現を抽出する。 先行研究では、抽出された特徴が完全に絡み合っていないことが示されている。 本稿では,特徴の絡み合いを改善する方法と,その変換された匿名化音声について述べる。 本稿では,ベクトル量子化を用いた音響モデルから話者情報を取り除き,絡み合いを高めることを提案する。 VoicePrivacy 2022ツールキットを用いて評価したところ、ベクトル量子化は音声認識の実用性を維持しながら元の話者識別を隠蔽することがわかった。

Speech signals contain a lot of sensitive information, such as the speaker's identity, which raises privacy concerns when speech data get collected. Speaker anonymization aims to transform a speech signal to remove the source speaker's identity while leaving the spoken content unchanged. Current methods perform the transformation by relying on content/speaker disentanglement and voice conversion. Usually, an acoustic model from an automatic speech recognition system extracts the content representation while an x-vector system extracts the speaker representation. Prior work has shown that the extracted features are not perfectly disentangled. This paper tackles how to improve features disentanglement, and thus the converted anonymized speech. We propose enhancing the disentanglement by removing speaker information from the acoustic model using vector quantization. Evaluation done using the VoicePrivacy 2022 toolkit showed that vector quantization helps conceal the original speaker identity while maintaining utility for speech recognition.
翻訳日:2022-08-25 10:26:35 公開日:2022-08-24
# Grad-Align+:Attribute Augmentation を用いたGradual Network Alignment の強化

Grad-Align+: Empowering Gradual Network Alignment Using Attribute Augmentation ( http://arxiv.org/abs/2208.11025v2 )

ライセンス: Link先を確認
Jin-Duk Park, Cong Tran, Won-Yong Shin, Xin Cao(参考訳) ネットワークアライメント(NA)は、異なるネットワーク間のノード対応を見つけるタスクである。 naメソッドは無数のシナリオで目覚ましい成功を収めているが、その十分な性能はアンカーリンク情報と/またはノード属性がなければ得られず、必ずしも利用可能とは限らない。 本稿では,ノード属性拡張を用いた新しいNA法であるGrad-Align+を提案する。 Grad-Align+は、最新の最先端NA法であるGrad-Alignに基づいており、すべてのノードペアが見つかるまで、徐々にノードペアの一部だけを発見する。 具体的には、grad-align+は以下のキーコンポーネントで構成されている。 1)ノードの集中度尺度に基づくノード属性の増強。 2)拡張ノード属性が供給されるグラフニューラルネットワークから抽出された埋め込み類似性行列を計算し、 3) クロスネットワークノード間の類似性を計算することで, ノードペアを徐々に発見する。 grad-align+が示す実験結果 (a)ベンチマークNAメソッドよりも優れている。 b) 理論的知見の実証的検証,及び (c)属性拡張モジュールの有効性について検討した。

Network alignment (NA) is the task of discovering node correspondences across different networks. Although NA methods have achieved remarkable success in a myriad of scenarios, their satisfactory performance is not without prior anchor link information and/or node attributes, which may not always be available. In this paper, we propose Grad-Align+, a novel NA method using node attribute augmentation that is quite robust to the absence of such additional information. Grad-Align+ is built upon a recent state-of-the-art NA method, the so-called Grad-Align, that gradually discovers only a part of node pairs until all node pairs are found. Specifically, Grad-Align+ is composed of the following key components: 1) augmenting node attributes based on nodes' centrality measures, 2) calculating an embedding similarity matrix extracted from a graph neural network into which the augmented node attributes are fed, and 3) gradually discovering node pairs by calculating similarities between cross-network nodes with respect to the aligned cross-network neighbor-pair. Experimental results demonstrate that Grad-Align+ exhibits (a) superiority over benchmark NA methods, (b) empirical validation of our theoretical findings, and (c) the effectiveness of our attribute augmentation module.
翻訳日:2022-08-25 10:25:51 公開日:2022-08-24
# 未知のクラッタ環境におけるロボットアクティブニューラルセンシングと計画

Robot Active Neural Sensing and Planning in Unknown Cluttered Environments ( http://arxiv.org/abs/2208.11079v2 )

ライセンス: Link先を確認
Hanwen Ren, Ahmed H. Qureshi(参考訳) 未知の乱雑な環境でのアクティブセンシングと計画は、ホームサービス、探索と救助、狭路検査、医療支援を提供するロボットにとってオープンな課題である。 多くのアクティブセンシング手法が存在するが、彼らはしばしばオープンスペースを考え、既知の設定を仮定し、またはほとんど現実世界のシナリオに一般化しない。 本研究は,ロボットマニピュレータの動力学的に実現可能な視点列を手動カメラで生成し,基礎環境の再構築に必要な観測回数を最小化するための能動型ニューラルセンシング手法を提案する。 我々のフレームワークは視覚的RGBD観測を積極的に収集し、それらをシーン表現に集約し、環境との不要な相互作用を避けるためにオブジェクト形状推論を行う。 ドメインのランダム化を伴う合成データへのアプローチを訓練し、未知のオブジェクトで散らばった狭く被覆された実世界のキャビネット環境の再構築において、sim-to-real転送によってその実行を成功させることを示す。 自然キャビネットのシナリオでは、周囲の障害物や環境の悪い照明条件のためにロボットの動きやシーンの復元に重大な課題が課される。 しかし, 提案手法は, 設定が好ましくないにもかかわらず, 計画速度, 視点数, 全体カバレッジなど, 各種環境再建指標の基準値と比較して高い性能を示す。

Active sensing and planning in unknown, cluttered environments is an open challenge for robots intending to provide home service, search and rescue, narrow-passage inspection, and medical assistance. Although many active sensing methods exist, they often consider open spaces, assume known settings, or mostly do not generalize to real-world scenarios. We present the active neural sensing approach that generates the kinematically feasible viewpoint sequences for the robot manipulator with an in-hand camera to gather the minimum number of observations needed to reconstruct the underlying environment. Our framework actively collects the visual RGBD observations, aggregates them into scene representation, and performs object shape inference to avoid unnecessary robot interactions with the environment. We train our approach on synthetic data with domain randomization and demonstrate its successful execution via sim-to-real transfer in reconstructing narrow, covered, real-world cabinet environments cluttered with unknown objects. The natural cabinet scenarios impose significant challenges for robot motion and scene reconstruction due to surrounding obstacles and low ambient lighting conditions. However, despite unfavorable settings, our method exhibits high performance compared to its baselines in terms of various environment reconstruction metrics, including planning speed, the number of viewpoints, and overall scene coverage.
翻訳日:2022-08-25 10:25:33 公開日:2022-08-24
# aniwho : 画像中のアニメキャラクタ顔を素早く正確に分類する方法

AniWho : A Quick and Accurate Way to Classify Anime Character Faces in Images ( http://arxiv.org/abs/2208.11012v2 )

ライセンス: Link先を確認
Martinus Grady Naftali, Jason Sebastian Sulistyawan, Kelvin Julian and Felix Indra Kurniadi(参考訳) 本研究の目的は、トランスファー学習を用いて日本のアニメーションスタイルの文字顔の分類を行い、inceptionv3, inceptionresnetv2, mobilenetv2, efficientnetb7などの様々なモデルについてより深く掘り下げることである。 本稿では,高効率net-b7の精度は85.08%でtop-1の精度が最も高く,mobilenetv2がそれに続く。 本稿では,従来の移動学習手法の代替として使用可能な,数ショットの学習フレームワーク,特にPrototypeal Networksを使用する。

This paper aims to dive more deeply into various models available, including InceptionV3, InceptionResNetV2, MobileNetV2, and EfficientNetB7, using transfer learning to classify Japanese animation-style character faces. This paper has shown that EfficientNet-B7 has the highest accuracy rate with 85.08% top-1 Accuracy, followed by MobileNetV2, having a slightly less accurate result but with the benefits of much lower inference time and fewer number of required parameters. This paper also uses a few-shot learning framework, specifically Prototypical Networks, which produces decent results that can be used as an alternative to traditional transfer learning methods.
翻訳日:2022-08-25 10:25:09 公開日:2022-08-24
# カテゴロド: 普遍的条件独立

Categoroids: Universal Conditional Independence ( http://arxiv.org/abs/2208.11077v2 )

ライセンス: Link先を確認
Sridhar Mahadevan(参考訳) 条件付き独立性は、AI、因果推論、機械学習、統計学で広く使われている。 条件独立性の普遍的性質を特徴づける代数構造であるカテゴロドを導入する。 ケイトゴロイドは2つのカテゴリのハイブリッドとして定義される: 1つは対象と矢印によって定義された事前順序付き格子構造を符号化する; 2つめの双対パラメタライゼーションは、三元構造と三元構造の間の界面を提供する橋の射と、条件付き独立構造を定義する射を含む。 公理集合の3つのよく知られた例、graphoids、integer-valued multisets、separoidsを用いてカテゴロイドを説明する。 函手類は1つのカテゴロイドを別のカテゴロイドにマッピングし、コドメインカテゴロイド内の3種類の矢印によって定義された関係を保つ。 我々は、条件独立性の普遍的な表現を構築するために、通常の対象や三角対象にまたがる自然変換を記述する。 . 我々は、カテゴロド間の接続とモナドを用いて、条件独立のグラフィカル表現と非グラフィック表現の忠実さを抽象的に特徴づける。

Conditional independence has been widely used in AI, causal inference, machine learning, and statistics. We introduce categoroids, an algebraic structure for characterizing universal properties of conditional independence. Categoroids are defined as a hybrid of two categories: one encoding a preordered lattice structure defined by objects and arrows between them; the second dual parameterization involves trigonoidal objects and morphisms defining a conditional independence structure, with bridge morphisms providing the interface between the binary and ternary structures. We illustrate categoroids using three well-known examples of axiom sets: graphoids, integer-valued multisets, and separoids. Functoroids map one categoroid to another, preserving the relationships defined by all three types of arrows in the co-domain categoroid. We describe a natural transformation across functoroids, which is natural across regular objects and trigonoidal objects, to construct universal representations of conditional independence.. We use adjunctions and monads between categoroids to abstractly characterize faithfulness of graphical and non-graphical representations of conditional independence.
翻訳日:2022-08-25 10:24:55 公開日:2022-08-24
# 基本スキルと再利用を学ぶ: Modularized Adaptive Neural Architecture Search (MANAS)

Learn Basic Skills and Reuse: Modularized Adaptive Neural Architecture Search (MANAS) ( http://arxiv.org/abs/2208.11083v2 )

ライセンス: Link先を確認
Hanxiong Chen and Yunqi Li and He Zhu and Yongfeng Zhang(参考訳) 人間の知性はまず、基本的な問題を解決するための基本的なスキルを学習し、その基本スキルを複雑な、あるいは新しい問題を解決する複雑なスキルに組み立てる。 例えば、基本的なスキル"dig hole"、"put tree"、"backfill"、"watering"は複雑なスキル"plant a tree"を構成する。 さらに、いくつかの基本的なスキルは、他の問題を解決するために再利用できる。 例えば、基本的な技術である「ディグホール」は、木を植えるだけでなく、宝物を採掘したり、排水溝を造ったり、埋め立てたりもできる。 基本的なスキルを習得し、さまざまなタスクに再利用する能力は、個々のタスクを解決するための過剰なスキルの学習を回避し、人間の脳における相当量の記憶と計算を節約し、数個の基本的なスキルを学習することで、構成的なタスクの解決を可能にするため、人間にとって非常に重要である。 機械学習は基本的なスキルを習得し、複雑なスキルに分解して再利用する能力も持つべきだと考えています。 コンピュータサイエンス言語では、各基本スキルは具体的意味の再利用ネットワークであり、特定の基本操作を実行する「モジュール」である。 モジュールはより複雑なタスクを実行するために、より大きな"モデル"に組み立てられます。 組み立て手順は入力やタスクに適応しており、例えば与えられたタスクに対して、モジュールはタスクを解決するための最良のモデルに組み立てるべきである。 その結果、異なる入力やタスクは異なる組み立てモデルを持ち、自動アセンブリAI(AAAI)を可能にする。 本稿では,この概念を実証するために,Modularized Adaptive Neural Architecture Search (MANAS)を提案する。 異なるデータセットの実験では、MANASによって組み立てられた適応アーキテクチャが静的グローバルアーキテクチャより優れていることが示されている。 さらなる実験と実証分析は、MANASの有効性に関する洞察を提供する。

Human intelligence is able to first learn some basic skills for solving basic problems and then assemble such basic skills into complex skills for solving complex or new problems. For example, the basic skills "dig hole," "put tree," "backfill" and "watering" compose a complex skill "plant a tree". Besides, some basic skills can be reused for solving other problems. For example, the basic skill "dig hole" not only can be used for planting a tree, but also can be used for mining treasures, building a drain, or landfilling. The ability to learn basic skills and reuse them for various tasks is very important for humans because it helps to avoid learning too many skills for solving each individual task, and makes it possible to solve a compositional number of tasks by learning just a few number of basic skills, which saves a considerable amount of memory and computation in the human brain. We believe that machine intelligence should also capture the ability of learning basic skills and reusing them by composing into complex skills. In computer science language, each basic skill is a "module", which is a reusable network of a concrete meaning and performs a specific basic operation. The modules are assembled into a bigger "model" for doing a more complex task. The assembling procedure is adaptive to the input or task, i.e., for a given task, the modules should be assembled into the best model for solving the task. As a result, different inputs or tasks could have different assembled models, which enables Auto-Assembling AI (AAAI). In this work, we propose Modularized Adaptive Neural Architecture Search (MANAS) to demonstrate the above idea. Experiments on different datasets show that the adaptive architecture assembled by MANAS outperforms static global architectures. Further experiments and empirical analysis provide insights to the effectiveness of MANAS.
翻訳日:2022-08-25 10:24:34 公開日:2022-08-24
# 高分解能マルチスペクトル画像を用いた大規模都市環境における個体木検出

Individual Tree Detection in Large-Scale Urban Environments using High-Resolution Multispectral Imagery ( http://arxiv.org/abs/2208.10607v2 )

ライセンス: Link先を確認
Jonathan Ventura, Milo Honsberger, Cameron Gonsalves, Julian Rice, Camille Pawlak, Natalie L.R. Love, Skyler Han, Viet Nguyen, Keilana Sugano, Jacqueline Doremus, G. Andrew Fricker, Jenn Yost, Matt Ritter(参考訳) 高分解能マルチスペクトル空中画像を用いた都市環境における個々の木検出のための新しい深層学習手法を提案する。 我々は畳み込みニューラルネットワークを用いて、ピーク探索アルゴリズムを用いて局所化された個々の木の位置を示す信頼マップを回帰する。 本手法は,公共空間と私的空間の両方で木を検知し,非常に広い範囲に拡張可能な空間被覆を提供する。 南カリフォルニアの5都市を対象とした調査では、Fスコア0.735、RMSE2.157mを達成した。 筆者らは,カリフォルニア州の都市森林における全樹木の地図作成に本手法を応用し,今後の都市林業研究を支援する可能性を示唆した。

We introduce a novel deep learning method for detection of individual trees in urban environments using high-resolution multispectral aerial imagery. We use a convolutional neural network to regress a confidence map indicating the locations of individual trees, which are localized using a peak finding algorithm. Our method provides complete spatial coverage by detecting trees in both public and private spaces, and can scale to very large areas. In our study area spanning five cities in Southern California, we achieved an F-score of 0.735 and an RMSE of 2.157 m. We used our method to produce a map of all trees in the urban forest of California, indicating the potential for our method to support future urban forestry studies at unprecedented scales.
翻訳日:2022-08-25 10:24:04 公開日:2022-08-24
# 不確実性グラフネットワークを用いた空中画像の物体検出

Object Detection in Aerial Images with Uncertainty-Aware Graph Network ( http://arxiv.org/abs/2208.10781v2 )

ライセンス: Link先を確認
Jongha Kim, Jinheon Baek, Sung Ju Hwang(参考訳) 本研究では,ノードとエッジをそれぞれオブジェクトと空間論的類似性で表す構造化グラフを用いた,新たな不確実性対応オブジェクト検出フレームワークを提案する。 具体的には,オブジェクト間の関係を効果的にコンテキスト化することを目的としている。 これを実現するために、まずオブジェクトを検出し、その意味と空間距離を測定してオブジェクトグラフを構築し、それからオブジェクトの視覚的CNN特徴を精査するグラフニューラルネットワーク(GNN)で表現する。 しかしながら、cnnの特徴と全てのオブジェクトの検出結果は非効率であり、不確実性の低い正確な予測を含むため必要ではないかもしれない。 そこで本稿では、対象物(ソース)から対象物(ターゲット)への表現を有向グラフ上で転送するだけでなく、GNNからの表現出力で不確実であると見なされるオブジェクトに対してのみCNN機能を改善することを提案する。 さらに,不確実物体に対して大きな重みを与えてトレーニング損失を算出し,特定の物体に対する高い性能を維持しながら不確実物体予測の改善に集中する。 我々は、オブジェクトDETection(UAGDet)のための不確実性認識グラフネットワークと呼ぶ。 そこで我々は,既存の物体検出ネットワークの性能を向上させるため,画像中の小~大サイズの多数の物体からなる大規模空中画像データセットdotaを実験的に検証した。

In this work, we propose a novel uncertainty-aware object detection framework with a structured-graph, where nodes and edges are denoted by objects and their spatial-semantic similarities, respectively. Specifically, we aim to consider relationships among objects for effectively contextualizing them. To achieve this, we first detect objects and then measure their semantic and spatial distances to construct an object graph, which is then represented by a graph neural network (GNN) for refining visual CNN features for objects. However, refining CNN features and detection results of every object are inefficient and may not be necessary, as that include correct predictions with low uncertainties. Therefore, we propose to handle uncertain objects by not only transferring the representation from certain objects (sources) to uncertain objects (targets) over the directed graph, but also improving CNN features only on objects regarded as uncertain with their representational outputs from the GNN. Furthermore, we calculate a training loss by giving larger weights on uncertain objects, to concentrate on improving uncertain object predictions while maintaining high performances on certain objects. We refer to our model as Uncertainty-Aware Graph network for object DETection (UAGDet). We then experimentally validate ours on the challenging large-scale aerial image dataset, namely DOTA, that consists of lots of objects with small to large sizes in an image, on which ours improves the performance of the existing object detection network.
翻訳日:2022-08-25 10:23:52 公開日:2022-08-24
# FS-BAN:ドメイン一般化Few-Shot分類のための新興ネットワーク

FS-BAN: Born-Again Networks for Domain Generalization Few-Shot Classification ( http://arxiv.org/abs/2208.10930v2 )

ライセンス: Link先を確認
Yunqing Zhao and Ngai-Man Cheung(参考訳) 従来のFew-shot Classification (FSC) は、ラベル付きデータに制限された新しいクラスからサンプルを認識することを目的としている。 近年,unseenドメインからの新規クラスサンプルを認識すべく,ドメイン一般化fsc(dg-fsc)が提案されている。 DG-FSCは、ベースクラス(トレーニングで使用される)と新しいクラス(評価で使用される)のドメインシフトによって、多くのモデルにかなりの課題をもたらす。 本研究ではDG-FSCに取り組むために2つの新しい貢献を行う。 最初の貢献は、Ban-Again Network (BAN) エピソードトレーニングを提案し、DG-FSCの有効性を包括的に調査することである。 知識蒸留の特定の形態として、BANはクローズドセット設定による従来の教師付き分類における一般化の改善が示されている。 この一般化により、我々はDG-FSCにおけるBANの研究を動機付け、BANがDG-FSCにおけるドメインシフトに対処することを約束していることを示す。 第2の(大きな)貢献は、dg-fscの新しい禁止アプローチであるfs-banを提案することです。 提案するfs-banは, 相互正則化, 教師のミスマッチ, メタコントロール温度という, dg-fscにおける中心的かつ独特な課題, オーバーフィッティングとドメインの不一致を克服するための, 新たなマルチタスク学習目標を含んでいる。 これらの手法の異なる設計選択を解析する。 6つのデータセットと3つのベースラインモデルを用いて、包括的定量的および定性的な分析と評価を行う。 その結果,提案するFS-BANはベースラインモデルの一般化性能を一貫して向上し,DG-FSCの最先端精度を実現することが示唆された。

Conventional Few-shot classification (FSC) aims to recognize samples from novel classes given limited labeled data. Recently, domain generalization FSC (DG-FSC) has been proposed with the goal to recognize novel class samples from unseen domains. DG-FSC poses considerable challenges to many models due to the domain shift between base classes (used in training) and novel classes (encountered in evaluation). In this work, we make two novel contributions to tackle DG-FSC. Our first contribution is to propose Born-Again Network (BAN) episodic training and comprehensively investigate its effectiveness for DG-FSC. As a specific form of knowledge distillation, BAN has been shown to achieve improved generalization in conventional supervised classification with a closed-set setup. This improved generalization motivates us to study BAN for DG-FSC, and we show that BAN is promising to address the domain shift encountered in DG-FSC. Building on the encouraging finding, our second (major) contribution is to propose few-shot BAN, FS-BAN, a novel BAN approach for DG-FSC. Our proposed FS-BAN includes novel multi-task learning objectives: Mutual Regularization, Mismatched Teacher and Meta-Control Temperature, each of these is specifically designed to overcome central and unique challenges in DG-FSC, namely overfitting and domain discrepancy. We analyze different design choices of these techniques. We conduct comprehensive quantitative and qualitative analysis and evaluation using six datasets and three baseline models. The results suggest that our proposed FS-BAN consistently improves the generalization performance of baseline models and achieves state-of-the-art accuracy for DG-FSC.
翻訳日:2022-08-25 10:23:28 公開日:2022-08-24
# Deep Interaction: モダリティインタラクションによる3Dオブジェクト検出

DeepInteraction: 3D Object Detection via Modality Interaction ( http://arxiv.org/abs/2208.11112v2 )

ライセンス: Link先を確認
Zeyu Yang, Jiaqi Chen, Zhenwei Miao, Wei Li, Xiatian Zhu, Li Zhang(参考訳) 既存の高性能な3Dオブジェクト検出器は通常、マルチモーダル融合戦略に依存している。 しかし、この設計はモダリティ特有の有用な情報を見落とし、最終的にモデルの性能を損なうため、基本的に制限されている。 この制限に対処するため,本研究では,個々のモダリティ表現を学習し,維持し,オブジェクト検出中にそれらの特徴を活用できるようにする新しいモダリティインタラクション戦略を提案する。 提案手法を実現するために,マルチモーダルな表現的相互作用エンコーダとマルチモーダルな予測的相互作用デコーダを特徴とするDeepInteractionアーキテクチャを設計する。 大規模なnuScenesデータセットの実験では,提案手法がすべての先行芸術を大きなマージンで超えることが示されている。 本手法は,高い競合性を有するnuscenes object detection leaderboardにおいて,第1位にランク付けされる。

Existing top-performance 3D object detectors typically rely on the multi-modal fusion strategy. This design is however fundamentally restricted due to overlooking the modality-specific useful information and finally hampering the model performance. To address this limitation, in this work we introduce a novel modality interaction strategy where individual per-modality representations are learned and maintained throughout for enabling their unique characteristics to be exploited during object detection. To realize this proposed strategy, we design a DeepInteraction architecture characterized by a multi-modal representational interaction encoder and a multi-modal predictive interaction decoder. Experiments on the large-scale nuScenes dataset show that our proposed method surpasses all prior arts often by a large margin. Crucially, our method is ranked at the first position at the highly competitive nuScenes object detection leaderboard.
翻訳日:2022-08-25 10:22:54 公開日:2022-08-24
# 商品検証のための自己適応閾値を用いたマルチモーダル表現学習

Multi-Modal Representation Learning with Self-Adaptive Thresholds for Commodity Verification ( http://arxiv.org/abs/2208.11064v2 )

ライセンス: Link先を確認
Chenchen Han and Heng Jia(参考訳) 本稿では,同一商品を識別する手法を提案する。 eコマースのシナリオでは、商品は通常画像とテキストの両方で記述される。 定義上、同一の商品は同一のキー属性を持ち、認知的に消費者と同一である。 主な課題は2つあります 1)マルチモーダル表現の抽出と融合。 2)表現間の距離をしきい値と比較することにより,2つの商品が同一かどうかを検証できる。 上記の問題に対処するために,自己適応しきい値に基づくエンドツーエンドの同一商品検証手法を提案する。 両ストリームネットワークを用いて,商品の埋め込みとしきい値の埋め込みを別々に抽出し,それらを結合して商品表現を得る。 本手法は,商品全体の索引性を維持しつつ,商品ごとに異なるしきい値を得ることができる。 マルチモーダル機能融合の有効性と自己適応閾値の利点を実験的に検証した。 また,本手法はF1スコア0.8936を達成し,CCKS-2022知識グラフコンペティションの第2タスクのリーダーボードで3位となった。 コードと事前トレーニングされたモデルはhttps://github.com/hanchenchen/ccks2022-track2-solutionで入手できる。

In this paper, we propose a method to identify identical commodities. In e-commerce scenarios, commodities are usually described by both images and text. By definition, identical commodities are those that have identical key attributes and are cognitively identical to consumers. There are two main challenges: 1) The extraction and fusion of multi-modal representation. 2) The ability to verify whether two commodities are identical by comparing the distance between representations with a threshold. To address the above problems, we propose an end-to-end identical commodity verification method based on self-adaptive thresholds. We use a dual-stream network to extract commodity embeddings and threshold embeddings separately and then concatenate them to obtain commodity representation. Our method is able to obtain different thresholds according to different commodities while maintaining the indexability of the entire commodity representation. We experimentally validate the effectiveness of our multimodal feature fusion and the advantages of self-adaptive thresholds. Besides, our method achieves an F1 score of 0.8936 and takes the 3rd place on the leaderboard for the second task of the CCKS-2022 Knowledge Graph Evaluation for Digital Commerce Competition. Code and pretrained models are available at https://github.com/hanchenchen/CCKS2022-track2-solution.
翻訳日:2022-08-25 10:22:39 公開日:2022-08-24