このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221125となっている論文です。

PDF登録状況(公開日: 20221125)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子臨界モデルにおける最小動作制御法

Minimal action control method in quantum critical models ( http://arxiv.org/abs/2208.09271v2 )

ライセンス: Link先を確認
Ainur Kazhybekova, Steve Campbell, Anthony Kiely(参考訳) 本稿では,断熱作用の最小化に基づく閉量子システムを制御するための一般的なプロトコルを提案する。 量子断熱ブラヒストローネによる量子進化の幾何学に基づくツールを用いて、臨界量子系の基底状態の高忠実性制御が可能であり、基底状態のスペクトルギャップに対して合理的な近似のみを必要とすることを示す。 我々は,landau-zener, ising, and full connected spin modelの3つの広く適用可能なシステムについて実験を行った。

We present a general protocol to control closed quantum systems that is based on minimising the adiabatic action. Using tools based on the geometry of quantum evolutions through the quantum adiabatic brachistochrone, we show that high fidelity control of the ground state of critical quantum systems can be achieved and requires only a reasonable approximation for the ground state spectral gap. We demonstrate our results for three widely applicable systems: the Landau-Zener, Ising, and fully connected spin models.
翻訳日:2023-01-30 12:06:58 公開日:2022-11-25
# 量子双局所シナリオのための2つの収束NPA様階層

Two convergent NPA-like hierarchies for the quantum bilocal scenario ( http://arxiv.org/abs/2210.09065v2 )

ライセンス: Link先を確認
Marc-Olivier Renou and Xiangling Xu(参考訳) 単一結合量子系を局所的に測定する際に生じる相関を特徴づけることは、量子情報理論の主要な問題の一つである。 独創的な仕事[仕事]. NPA階層として知られるNavascu\'es et al, NJP 10,7,073013 (2008)]は、非可換変数に対する多項式最適化問題として再定義し、必要条件の収束階層を提案した。 最近では、ネットワークに分散した複数の独立した量子系を局所的に測定する時に生じる量子ネットワーク相関を特徴付ける問題も大きな関心を集めている。 Scalar拡張(Pozas-Kerstjens et al, Phys. Rev. 123, 140503 (2019))のようなNPA階層のいくつかの一般化が導入されたが、まだ実現されていない。 本研究では,新しい階層構造を導入し,スカラー拡張と等価性を証明し,最も単純なネットワークである双局所シナリオにおいてその収束を特徴付ける。

Characterising the correlations that arises when locally measuring a single joint quantum system is one of quantum information theory main problem. The seminal work [M. Navascu\'es et al, NJP 10,7,073013 (2008)], known as the NPA hierarchy, reformulates it as a polynomial optimisation problem over noncommutative variables and proposed a convergent hierarchy of necessary conditions, each testable using semidefinite programming. More recently, the problem of characterising the quantum network correlations that arise when locally measuring several independent quantum systems distributed in a network received considerable interest. Several generalisation of the NPA hierarchy such as the Scalar Extension [Pozas-Kerstjens et al, Phys. Rev. Lett. 123, 140503 (2019)] were introduced but remain uncharacterised. In this work, we introduce a new hierarchy, prove its equivalence to the Scalar Extension and characterise its convergence in the case of the simplest network, the bilocal scenario.
翻訳日:2023-01-22 07:08:27 公開日:2022-11-25
# 中性子光実験における加速効果とその観測の可能性

Acceleration effect and the possibility of its observation in neutron-optical experiment ( http://arxiv.org/abs/2210.15468v2 )

ライセンス: Link先を確認
A.I. Frank, G. V. Kulin, M. A. Zakharov, S. V. Goryunov, R. Cubitt(参考訳) 加速物質効果と呼ばれる光学現象に関するアイデアの発展は、非常に一般的な加速効果の存在の仮説につながった。 その定式化は、加速とともに移動する任意の物体との粒子相互作用の結果は、そのエネルギーと周波数の変化であるはずである。 量子力学における加速度効果仮説の妥当性は、最近、加速度で動くポテンシャル構造と波束の相互作用に関連する多くの問題を数値的に解いて確認されている。 これらの考えが正しければ、加速物質の原子核上で中性子が散乱する場合に完全に帰結することができる。 中性子と原子核との相互作用は非常に短いため、原子核による散乱中の加速効果の観測は非常に高い加速で動く必要がある。 この目標は、遠心加速を使用すると達成できる。

The development of ideas about the optical phenomenon called the accelerating matter effect led to the hypothesis of the existence of a very general acceleration effect. Its formulation is that the result of the particle interaction with any object moving with acceleration should be a change in its energy and frequency. The validity of the acceleration effect hypothesis in quantum mechanics has recently been confirmed by numerically solving a number of problems related to the interaction of a wave packet with potential structures moving with acceleration. If these ideas are true, they can be fully attributed to the case of neutron scattering on the atomic nuclei of accelerating matter. Since the time of neutron interaction with the nucleus is very short, the observation of the acceleration effect during scattering by nuclei requires them to move with a very high acceleration. This goal can be achieved if centripetal acceleration is used.
翻訳日:2023-01-22 04:11:40 公開日:2022-11-25
# 量子退化過程の古典性について

On the classicality of quantum dephasing processes ( http://arxiv.org/abs/2211.02014v2 )

ライセンス: Link先を確認
Davide Lonigro, Dariusz Chru\'sci\'nski(参考訳) 急激な測定によって繰り返し探索される純粋退化システムに関連する実時間統計を解析し,コルモゴロフ整合条件を満たす測定プロトコルを有限次まで探索する。 古典的な用語で解釈できる量子デファス過程の豊富な現象論を見いだす。 特に、根底にあるデファスメント過程がマルコフ的であれば、全ての順序における古典性を見出すのに十分な条件を見出すことができる:デファスメントと測定基準を完全互換または完全非互換の、すなわち相互に偏りのない基底(mubs)として選ぶことで達成できる。 非マルコフ過程に対して、古典性は完全互換の場合のみ証明できるので、マルコフ過程と非マルコフ過程の主な違いが明らかになる。

We analyze the multitime statistics associated with pure dephasing systems repeatedly probed with sharp measurements, and search for measurement protocols whose statistics satisfies the Kolmogorov consistency conditions possibly up to a finite order. We find a rich phenomenology of quantum dephasing processes which can be interpreted in classical terms. In particular, if the underlying dephasing process is Markovian, we find sufficient conditions under which classicality at every order can be found: this can be reached by choosing the dephasing and measurement basis to be fully compatible or fully incompatible, that is, mutually unbiased bases (MUBs). For non-Markovian processes, classicality can only be proven in the fully compatible case, thus revealing a key difference between Markovian and non-Markovian pure dephasing processes.
翻訳日:2023-01-20 11:44:47 公開日:2022-11-25
# 誘導中規模導体における粒子電流統計

Particle current statistics in driven mesoscale conductors ( http://arxiv.org/abs/2211.13832v1 )

ライセンス: Link先を確認
Marlon Brenes, Giacomo Guarnieri, Archak Purkayastha, Jens Eisert, Dvira Segal and Gabriel Landi(参考訳) 駆動導体における電荷移動の統計量を計算するための高スケーリング手法を提案する。 この枠組みは、非零温度、端末との強い結合、および平衡から離れた非周期光間相互作用の存在の状況に適用できる。 このアプローチはいわゆるメソスコピックリード形式論とフルカウンティング統計学を組み合わせたものである。 その結果、電流変動のダイナミクスと電荷交換の確率分布関数の高次モーメントを決定する一般化された量子マスター方程式が導かれる。 一般的な時間依存二次ハミルトニアンの場合には、系のパラメータ、貯水池、あるいはシステム-保存相互作用の非摂動的レジームにおけるノイズを計算するための閉形式式を提供する。 この方法では電流とノイズの完全なダイナミクスにアクセスでき、非平衡状態における電荷移動の時間的分散を計算することができる。 ダイナミクスは、駆動するシステムでは、どの期間がカバーされているかに注意して、平均的なノイズを運用的に定義すべきであることを示している。

We propose a highly-scalable method to compute the statistics of charge transfer in driven conductors. The framework can be applied in situations of non-zero temperature, strong coupling to terminals and in the presence of non-periodic light-matter interactions, away from equilibrium. The approach combines the so-called mesoscopic leads formalism with full counting statistics. It results in a generalised quantum master equation that dictates the dynamics of current fluctuations and higher order moments of the probability distribution function of charge exchange. For generic time-dependent quadratic Hamiltonians, we provide closed-form expressions for computing noise in the non-perturbative regime of the parameters of the system, reservoir or system-reservoir interactions. Having access to the full dynamics of the current and its noise, the method allows us to compute the variance of charge transfer over time in non-equilibrium configurations. The dynamics reveals that in driven systems, the average noise should be defined operationally with care over which period of time is covered.
翻訳日:2023-01-17 20:54:04 公開日:2022-11-25
# 量子ドット型周波数乗算器

A quantum dot-based frequency multiplier ( http://arxiv.org/abs/2211.14127v1 )

ライセンス: Link先を確認
G. A. Oakes, L. Peri, L. Cochrane, F. Martins, L. Hutin, B. Bertrand, M. Vinet, A. Gomez Saiz, C. J. B. Ford, C. G. Smith, M. F. Gonzalez-Zalba(参考訳) siliconは、ハイブリッド量子古典コンピューティングシステムを単一のプラットフォームに統合する魅力的な機会を提供する。 qubit制御と読み出しには高周波信号が必要である。 そのため、その生成を促進する装置が必要である。 ここでは,低温で動作する量子ドット型高周波乗算器を提案する。 この装置は、その低次元状態密度から生じる量子ドット系の非線形容量電圧特性に基づいている。 我々は、電荷貯水池に結合した単一量子ドットと結合した二重量子ドットの2つの相補的なデバイス構成を用いて、マルチゲートシリコンナノワイヤトランジスタに乗算器を実装した。 本研究では,高調波電圧変換をエネルギーデチューニング,乗算係数,高調波位相雑音の関数として検討し,最大10乗算係数まで理想性能に近いものを求める。 本研究は、シリコンベースの量子コンピューティングシステムと容易に統合でき、他の半導体に適用できる高周波変換法を示す。

Silicon offers the enticing opportunity to integrate hybrid quantum-classical computing systems on a single platform. For qubit control and readout, high-frequency signals are required. Therefore, devices that can facilitate its generation are needed. Here, we present a quantum dot-based radiofrequency multiplier operated at cryogenic temperatures. The device is based on the non-linear capacitance-voltage characteristics of quantum dot systems arising from their low-dimensional density of states. We implement the multiplier in a multi-gate silicon nanowire transistor using two complementary device configurations: a single quantum dot coupled to a charge reservoir and a coupled double quantum dot. We study the harmonic voltage conversion as a function of energy detuning, multiplication factor and harmonic phase noise and find near ideal performance up to a multiplication factor of 10. Our results demonstrate a method for high-frequency conversion that could be readily integrated into silicon-based quantum computing systems and be applied to other semiconductors.
翻訳日:2023-01-17 20:52:01 公開日:2022-11-25
# 効率的なフォトニック量子誤差補正のためのスピン誘導オブザーバブル

Spin-augmented observables for efficient photonic quantum error correction ( http://arxiv.org/abs/2211.14123v1 )

ライセンス: Link先を確認
Elena Callus, Pieter Kok(参考訳) マイクロピラーキャビティ内の固体エミッタのスピン状態が,シンドローム測定におけるクビットの測定に有効であることを示す。 データ量子ビットとして作用する光子は微小キャビティ内のスピン状態と相互作用し、結果として生じる円形複屈折により系全体の状態は条件的に変化する。 スピン状態の量子非劣化測定を行うことにより、光学状態のシンドロームを得ることができる。 さらに、相互作用の対称性のため、量子ビットを測定するために光学状態を用いる方法が選択できる。 このプロトコルは、絡み合った測度量子ビットを考慮して、データキュービットと修正された接続性を持つコードとのスペクトルの相違を含む様々なリソース要求に適応することができる。 最後に、異なる特性エネルギーを持つスピン系は、強い結合状態において高い忠実度と耐キャビティ損失で絡み合うことができることを示す。

We demonstrate that the spin state of solid-state emitters inside micropillar cavities can serve as measure qubits in syndrome measurements. The photons, acting as data qubits, interact with the spin state in the microcavity and the total state of the system evolves conditionally due to the resulting circular birefringence. By performing a quantum non-demolition measurement on the spin state, the syndrome of the optical state can be obtained. Furthermore, due to the symmetry of the interaction, we can alternatively choose to employ the optical states as measure qubits. This protocol can be adapted to various resource requirements, including spectral discrepancies between the data qubits and codes with modified connectivities, by considering entangled measure qubits. Finally, we show that spin-systems with dissimilar characteristic energies can still be entangled with high levels of fidelity and tolerance to cavity losses in the strong coupling regime.
翻訳日:2023-01-17 20:51:45 公開日:2022-11-25
# 量子場と古典場のラザフォード散乱

Rutherford scattering of quantum and classical fields ( http://arxiv.org/abs/2211.14113v1 )

ライセンス: Link先を確認
Martin Pijnenburg, Giulia Cusin, Cyril Pitrou and Jean-Philippe Uzan(参考訳) クーロン型ポテンシャルからの古典波の量子ラザフォード散乱と散乱は同様の形式構造を持ち、同じ数学的手法を用いて研究することができる。 どちらの文脈でも、相互作用の長距離性は、様々な方法で解釈され、規則化された、分岐した全断面積につながる。 実空間と多極空間の両方において、この発散の起源を詳細に検討し、その妥当性の領域から近似を誤って使うことから生じることを示す。 また、古典散乱と量子ラザフォード散乱は同じ形式を持つが、関連する物理的観測性の性質が異なることも強調する。 干渉は量子文脈で安全に無視できるが(観測可能な量はフラックスであり、受信されるフラックスはコリメートされる)、古典的な文脈では、送信された散乱波と散乱波の重ね合わせがターゲットの下流の広い領域で見られることを期待するので、断面積は物理的に観測可能な量とは無関係である。

Quantum Rutherford scattering and scattering of classical waves off Coulomb-like potentials have similar formal structures and can be studied using the same mathematical techniques. In both contexts, the long-range nature of the interaction leads to a divergent total cross-section, which has been interpreted and regularized in various ways in the past literature. We review in detail the origin of this divergence, in both real and multipole spaces, and show that it arises from incorrectly using approximations out of their domain of validity. We also stress that although classical and quantum Rutherford scattering share the same formalism, the natures of the associated physical observables differ. We comment on the role of interference: while interference can be safely neglected in a quantum context (due to the fact that the observable quantity is a flux, and the incoming flux is collimated), in a classical context one expects to see a superposition of transmitted and scattered waves in a broad region downstream of the target, hence a cross-section is not connected to any physically observable quantity.
翻訳日:2023-01-17 20:51:31 公開日:2022-11-25
# 量子コンピュータ上でのポアソン方程式を解くための変分量子アルゴリズムの性能研究

A Performance Study of Variational Quantum Algorithms for Solving the Poisson Equation on a Quantum Computer ( http://arxiv.org/abs/2211.14064v1 )

ライセンス: Link先を確認
Mazen Ali and Matthias Kabel(参考訳) 量子コンピューティングの最近の進歩とその可用性の向上は、可能なアプリケーションへの関心を高めている。 そのなかには、材料や流れのシミュレーションのような偏微分方程式(PDE)の解がある。 現在、短期的および短期的に量子プロセッサの有用な展開への最も有望なルートは、いわゆるハイブリッド変分量子アルゴリズム(vqas)である。 したがって、ノイズのある中間スケール量子(NISQ)時代の量子優位性の候補として、PDEの変分法が提案されている。 In this work, we conduct an extensive study of utilizing VQAs on real quantum devices to solve the simplest prototype of a PDE -- the Poisson equation. Although results on noiseless simulators for small problem sizes may seem deceivingly promising, the performance on quantum computers is very poor. We argue that direct resolution of PDEs via an amplitude encoding of the solution is not a good use case within reach of today's quantum devices -- especially when considering large system sizes and more complicated non-linear PDEs that are required in order to be competitive with classical high-end solvers.

Recent advances in quantum computing and their increased availability has led to a growing interest in possible applications. Among those is the solution of partial differential equations (PDEs) for, e.g., material or flow simulation. Currently, the most promising route to useful deployment of quantum processors in the short to near term are so-called hybrid variational quantum algorithms (VQAs). Thus, variational methods for PDEs have been proposed as a candidate for quantum advantage in the noisy intermediate scale quantum (NISQ) era. In this work, we conduct an extensive study of utilizing VQAs on real quantum devices to solve the simplest prototype of a PDE -- the Poisson equation. Although results on noiseless simulators for small problem sizes may seem deceivingly promising, the performance on quantum computers is very poor. We argue that direct resolution of PDEs via an amplitude encoding of the solution is not a good use case within reach of today's quantum devices -- especially when considering large system sizes and more complicated non-linear PDEs that are required in order to be competitive with classical high-end solvers.
翻訳日:2023-01-17 20:50:42 公開日:2022-11-25
# 重ヘキサゴン構造の偏り誤差に対する量子誤差補正符号の設計

Design of Quantum error correcting code for biased error on heavy-hexagon structure ( http://arxiv.org/abs/2211.14038v1 )

ライセンス: Link先を確認
Younghun Kim, Jeongsoo Kang and Younghun Kwon(参考訳) surface codeは、使用可能な量子コンピュータの実装に適用可能な誤り訂正手法である。 現在、利用可能な量子コンピュータの有望な候補は超伝導体特異的トランスモンに基づいている。 トランスモン型量子コンピュータのエラーはz型エラーと偏りがあるため、型エラーに対処するためにカスタマイズされたサーフェスとxzzx符号が開発されている。 これらの表面符号は格子構造に対して提案されているが、ibmが開発したtransmonsベースの量子コンピュータはヘキサゴン構造を持つため、ヘキサゴン構造にどのようにカスタマイズされた表面符号とxzzx符号を実装できるかを問うのは自然である。 本研究では,ヘキサゴナル構造上での配向曲面符号とXZZX符号の実装法を提案する。 バイアスがない場合でも、調整された表面コードのしきい値として 0.231779 \%$ を取得し、表面コードとXZXコードのしきい値として 0.210064 \%$ と 0.209214 \%$ よりずっと良い。 さらに,z誤りのバイアスが増大するにつれて,シンドロームのベストではないデコーダが使用される場合でも,調整された表面コードとxzzx符号のしきい値が増加することが分かる。 最後に、無限バイアスの場合、表面符号のしきい値は 0.264852\%$であるが、調整された表面符号とxzzx符号のしきい値はそれぞれ 0.296157 \%$ と $ 0.328127 \%$ である。

Surface code is an error-correcting method that can be applied to the implementation of a usable quantum computer. At present, a promising candidate for a usable quantum computer is based on superconductor-specifically transmon. Because errors in transmon-based quantum computers appear biasedly as Z type errors, tailored surface and XZZX codes have been developed to deal with the type errors. Even though these surface codes have been suggested for lattice structures, since transmons-based quantum computers, developed by IBM, have a heavy-hexagon structure, it is natural to ask how tailored surface code and XZZX code can be implemented on the heavy-hexagon structure. In this study, we provide a method for implementing tailored surface code and XZZX code on a heavy-hexagon structure. Even when there is no bias, we obtain $ 0.231779 \%$ as the threshold of the tailored surface code, which is much better than $ 0.210064 \%$ and $ 0.209214 \%$ as the thresholds of the surface code and XZZX code, respectively. Furthermore, we can see that even though a decoder, which is not the best of the syndromes, is used, the thresholds of the tailored surface code and XZZX code increase as the bias of the Z error increases. Finally, we show that in the case of infinite bias, the threshold of the surface code is $ 0.264852\%$, but the thresholds of the tailored surface code and XZZX code are $ 0.296157 \% $ and $ 0.328127 \%$ respectively.
翻訳日:2023-01-17 20:50:29 公開日:2022-11-25
# ab initio核構造の深層神経ネットワーク溶液

Deep-neural-network solution of the ab initio nuclear structure ( http://arxiv.org/abs/2211.13998v1 )

ライセンス: Link先を確認
Yilong Yang and Pengwei Zhao(参考訳) 量子力学の最初の原理から量子多体系の構造を予測することは、物理学、化学、物質科学において共通の課題である。 深層機械学習は、凝縮物質や化学問題を解く強力なツールであることが証明されているが、原子核では、空間、スピン、アイソスピンの自由度を強く結合する複雑な核子-核子相互作用のため、依然としてかなり難しい。 核波動関数の基本物理と人工ニューラルネットワークの強い表現力を組み合わせることで,新しい深層学習型量子モンテカルロ法であるFeynmanNetを開発した。 フェインマンネットは、ピオンレス実効場理論の上位および次階ハミルトニアンの出現として、$^4$He,$^6$Li,さらには$^{16}$Oに対して非常に正確な基底状態エネルギーと波動関数を提供できることを示す。 強固有のフェルミオン符号問題に苦しむ従来の拡散モンテカルロ法と比較して、ファインマンネットは変動的な方法でそのような高い精度に達し、核子数と多項式的にスケールする。 したがって、核子間の現実的な相互作用に基づいて核特性を予測する、高度に正確で効率的な 'emph{ab initio} 法への道を開く。

Predicting the structure of quantum many-body systems from the first principles of quantum mechanics is a common challenge in physics, chemistry, and material science. Deep machine learning has proven to be a powerful tool for solving condensed matter and chemistry problems, while for atomic nuclei, it is still quite challenging because of the complicated nucleon-nucleon interactions, which strongly couples the spatial, spin, and isospin degrees of freedom. By combining essential physics of the nuclear wave functions and the strong expressive power of artificial neural networks, we develop FeynmanNet, a novel deep-learning variational quantum Monte Carlo approach for \emph{ab initio} nuclear structure. We show that FeynmanNet can provide very accurate ground-state energies and wave functions for $^4$He, $^6$Li, and even up to $^{16}$O as emerging from the leading-order and next-to-leading-order Hamiltonians of pionless effective field theory. Compared to the conventional diffusion Monte Carlo approaches, which suffer from the severe inherent fermion-sign problem, FeynmanNet reaches such a high accuracy in a variational way and scales polynomially with the number of nucleons. Therefore, it paves the way to a highly accurate and efficient \emph{ab initio} method for predicting nuclear properties based on the realistic interactions between nucleons.
翻訳日:2023-01-17 20:49:39 公開日:2022-11-25
# ハイブリッド量子機械学習のための定数スケーリングによる勾配推定

Gradient Estimation with Constant Scaling for Hybrid Quantum Machine Learning ( http://arxiv.org/abs/2211.13981v1 )

ライセンス: Link先を確認
Thomas Hoffmann and Douglas Brown(参考訳) 本稿では,同時摂動確率近似(spsa)アルゴリズムの多変量バージョンを適用し,ハイブリッド量子古典的機械学習モデルにおけるパラメータ化量子回路(pqcs)の勾配を決定する新しい手法を提案する。 PQC層の勾配は、パラメータシフト規則の線形スケーリングと比較して、回路パラメータの数によらず、フォワードパス当たりの回路毎の2つの評価のオーバーヘッドで計算することができる。 これらはチェーンルールを適用することでバックプロパゲーションアルゴリズムで使用される。 我々は,回路幅やバッチサイズ,学習率の異なるパラメータシフト規則と比較した。 量子ビット数が増加するにつれて,本手法はパラメータシフト規則よりもはるかに高速に収束し,各手法の最適学習率を考慮しても同等の精度に収束することがわかった。

We present a novel method for determining gradients of parameterised quantum circuits (PQCs) in hybrid quantum-classical machine learning models by applying the multivariate version of the simultaneous perturbation stochastic approximation (SPSA) algorithm. The gradients of PQC layers can be calculated with an overhead of two evaluations per circuit per forward-pass independent of the number of circuit parameters, compared to the linear scaling of the parameter shift rule. These are then used in the backpropagation algorithm by applying the chain rule. We compare our method to the parameter shift rule for different circuit widths and batch sizes, and for a range of learning rates. We find that, as the number of qubits increases, our method converges significantly faster than the parameter shift rule and to a comparable accuracy, even when considering the optimal learning rate for each method.
翻訳日:2023-01-17 20:49:12 公開日:2022-11-25
# ナノ散乱体との相互作用における二光子状態の純度の保存と破壊

Preservation and destruction of the purity of two-photon states in the interaction with a nanoscatterer ( http://arxiv.org/abs/2211.14244v1 )

ライセンス: Link先を確認
\'Alvaro Nodar, Ruben Esteban, Carlos Maciel-Escudero, Jon Lasa-Alonso, Javier Aizpurua, and Gabriel Molina-Terriza(参考訳) ナノ構造によって支持される光共鳴は、物質と光の量子状態の間の相互作用を強化する可能性がある。 本研究では,光の量子状態の散乱を,ナノ構造によってそのヘリシティに符号化した情報を用いて研究するための枠組みを提供する。 散乱した量子状態の純度を分析し、ナノ構造の光共鳴と相互作用すると、入射状態の純度が失われることを発見した。 量子純度損失を説明するために,出力2光子モード間の時間遅延と周波数シフトに基づく物理画像を開発した。 この研究で提案されたフレームワークと分析は、量子光とナノ環境の間の相互作用に対処するためのツールを確立する。

The optical resonances supported by nanostructures offer the possibility to enhance the interaction between matter and the quantum states of light. In this work, we provide a framework to study the scattering of quantum states of light with information encoded in their helicity by a nanostructure. We analyze the purity of the scattered output quantum state, and we find that the purity of the incident state can be lost, when it interacts with the optical resonances of the nanostructure. To explain the loss of quantum purity, we develop a physical picture based on time delays and frequency shifts between the output two-photon modes. The framework and analysis proposed in this work establishes a tool to address the interaction between quantum light and nanoenvironments.
翻訳日:2023-01-17 20:44:13 公開日:2022-11-25
# ループホールフリー非局所相関の任意大距離への拡張

Extending loophole-free nonlocal correlations to arbitrarily large distances ( http://arxiv.org/abs/2211.14231v1 )

ライセンス: Link先を確認
Anubhav Chaturvedi, Giuseppe Viola, Marcin Paw{\l}owski(参考訳) 検出抜け穴、特に空間的に分離された測定装置の臨界検出効率は、最先端のベル実験で非局所量子相関が持続できる距離を厳しく制限する。 極端に低いしきい値条件で量子戦略を求める代わりに、ループホールのない非局所相関の性質を利用する。 具体的には,空間的に分離した参加者が測定装置の位置をランダムに選択するベル実験について考察する。 ソースに近いデバイスが完璧で、極端に抜け穴のない非局所相関を目撃すると、検出効率がほぼゼロのデバイスと、ソースから任意に離れた可視性に相関関係を拡張できることを示す。 次に、clrowr-horne-shimony-holt bell不等式に特有の分析的トレードオフを導出する: ソースに近い抜け穴のない非局所性が高いほど、ソースからしきい値要件を低くする。 このトレードオフと最適量子戦略を利用して、ソースから離れた測定装置の臨界要件を推定する。 最後に,各測定装置の非局所的な挙動を計測し,その臨界パラメータを空間的に分離した複数の測定装置を含む一般的なネットワークシナリオで推定する。

The detection loophole, particularly the critical detection efficiencies of the spatially separated measurement devices, severely limit the distances over which nonlocal quantum correlations can be sustained in state-of-the-art Bell experiments. Instead of looking for quantum strategies with marginally lower threshold requirements, we exploit the properties of loophole-free nonlocal correlations, which are experimentally attainable today, albeit at short distances, to extend them over arbitrarily large distances. Specifically, we consider Bell experiments wherein the spatially separated parties randomly choose the location of their measurement devices in addition to their measurement settings. We demonstrate that when devices close to the source are perfect and witness extremal loophole-free nonlocal correlations, such correlations can be extended to devices with almost-zero detection efficiency and visibility placed arbitrarily far from the source. We then derive an analytic trade-off specific to the Clauser-Horne-Shimony-Holt Bell inequality: the higher the loophole-free nonlocality close to the source, the lower the threshold requirements away from the source. We utilize this trade-off and optimal quantum strategies to estimate the critical requirements of a measurement device placed away from the source. Finally, we formulate a versatile numerical method utilizing certifiable randomness to measure the nonlocal behaviour of individual measurement devices and estimate their critical parameters in generic network scenarios entailing several spatially separated measurement devices.
翻訳日:2023-01-17 20:44:01 公開日:2022-11-25
# $LS$結合と二重群を用いた相対論的二電子原子・分子エネルギー--一重項状態への三重項寄与の役割

Relativistic two-electron atomic and molecular energies using $LS$ coupling and double groups: role of the triplet contributions to singlet states ( http://arxiv.org/abs/2211.14180v1 )

ライセンス: Link先を確認
P\'eter Jeszenszki and Edit M\'atyus(参考訳) この三重項寄与は、He原子の1と2の$^1S^\text{e}_0$状態、Li$^+$とBe${^{2+}}$イオンの$\ ^1S^\text{e}_0$状態、および非ペアのディラック・クーロン・ブライト波動方程式の変動解の過程で2群対称性(原子系の$LS$結合と等価)を広範囲に使用して、H$2$分子の$X\ ^1\Sigma_\text{g}^+$基底状態に計算される。 非ペアdirac-coulomb-breitエネルギーは、非相対論的エネルギーに最適化された明示的に相関したガウス基底を用いて、数十億単位の相対精度で収束する。 変動エネルギーに対する三重項セクターの寄与の$\alpha$微細構造定数依存は、文献から得られる公式摂動理論と一致して、先行順序で$\alpha^4E_\text{h}$である。

The triplet contribution is computed to the 1 and 2 $^1S^\text{e}_0$ states of the He atom, to the $1\ ^1S^\text{e}_0$ state of the Li$^+$ and Be${^{2+}}$ ions, and to the $X\ ^1\Sigma_\text{g}^+$ ground state of the H$_2$ molecule by extensive use of double-group symmetry (equivalent to $LS$ coupling for the atomic systems) during the course of the variational solution of the no-pair Dirac-Coulomb-Breit wave equation. The no-pair Dirac-Coulomb-Breit energies are converged within a sub-parts-per-billion relative precision using an explicitly correlated Gaussian basis optimized to the non-relativistic energies. The $\alpha$ fine-structure constant dependence of the triplet sector contribution to the variational energy is $\alpha^4E_\text{h}$ at leading order, in agreement with the formal perturbation theory result available from the literature.
翻訳日:2023-01-17 20:43:24 公開日:2022-11-25
# バイオインスパイアネットワークにおける量子状態のルーティング

Routing a quantum state in a bio-inspired network ( http://arxiv.org/abs/2211.14176v1 )

ライセンス: Link先を確認
Elham Faraji, Alireza Nourmandipour, Stefano Mancini, Marco Pettini, Roberto Franzosi(参考訳) 我々は、$\alpha$-helix構造に似たスピンネットワークを検討し、このバイオインスパイアされたネットワーク上の量子情報転送を研究する。 私たちが使用しているモデルは、基本バージョンで音素環境のないダヴィドフモデルです。 本研究では,あるノードから別のノードへの量子状態移動の確率に上限を与えるネットワークにおける完全状態移動(PST)を解析的および数値的に検討する。 ネットワーク上の異なる境界条件に対するPSTについて検討し、特定のノードと適切なスピンスピン結合で到達可能であることを示す。

We consider a spin network resembling an $\alpha$-helix structure and study quantum information transfer over this bio-inspired network. The model we use is the Davydov model in its elementary version without a phononic environment. We investigate analytically and numerically the perfect state transfer (PST) in such a network which provides an upper bound on the probability of quantum states transfer from one node to another. We study PST for different boundary conditions on the network and show it is reachable between certain nodes and with suitable spin-spin couplings.
翻訳日:2023-01-17 20:42:50 公開日:2022-11-25
# 強結合光機械系における量子場ゆらぎのスペクトル解析

Spectral Analysis of Quantum Field Fluctuations in a Strongly Coupled Optomechanical System ( http://arxiv.org/abs/2211.14168v1 )

ライセンス: Link先を確認
A. Ranfagni, F. Marino and F. Marin(参考訳) 強固でコヒーレントな量子光学結合系におけるレビトダイナミックス実験により、発振器が広帯域量子スペクトル分析器として働くことを実証する。 変位スペクトルにおける正の周波数分岐と負の周波数分岐の間の非対称性は、キャビティ場の量子揺らぎのスペクトル特性をトレースし、広いスペクトル範囲で探索する。 さらに, 2次元力学系では, 真空揺らぎによって生じる量子バックアクションは, 全体感受性の破壊的干渉により, 狭いスペクトル領域において強く抑制される。

With a levitodynamics experiment in the strong and coherent quantum optomechanical coupling regime, we demonstrate that the oscillator acts as a broadband quantum spectrum analyzer. The asymmetry between positive and negative frequency branches in the displacement spectrum traces out the spectral features of the quantum fluctuations in the cavity field, which are thus explored over a wide spectral range. Moreover, in our two-dimensional mechanical system the quantum back-action, generated by such vacuum fluctuations, is strongly suppressed in a narrow spectral region due to a destructive interference in the overall susceptibility.
翻訳日:2023-01-17 20:42:42 公開日:2022-11-25
# 低表面誘電損失に対する超伝導トランスモン量子ビットの形状最適化

Shape optimization of superconducting transmon qubit for low surface dielectric loss ( http://arxiv.org/abs/2211.14159v1 )

ライセンス: Link先を確認
Sungjun Eun, Seong Hyeon Park, Kyungsik Seo, Kibum Choi and Seungyong Hahn(参考訳) 超伝導トランスモン量子ビットの表面誘電損失はデコヒーレンスの主要な源の1つであると考えられている。 超伝導量子ビットの表面誘電損失の低減は、高品質な係数と長い緩和時間(t_{1}$)を達成するための大きな課題である。 コンデンサパッドとトランスモンキュービットのジャンクションワイヤの形状を変えることで、表面誘電損失を工学することができる。 本稿では,トランスモン量子ビットにおける表面誘電損失低減のための形状最適化手法を提案する。 トランスモンキュービットのコンデンサパッドとジャンクションワイヤはスプライン曲線として形成され、有限要素法と大域最適化アルゴリズムの組み合わせにより最適化される。 次に,各誘電体層に蓄えられた電気エネルギーの一部を表わし,二段階系(tls)損失に比例する表面参加比を最適化構造と既存ジオメトリを用いて比較し,本手法の有効性を示す。 その結果, キャパシタパッドと接合ワイヤの参加率は, 形状最適化により従来の設計に比べて16%, 26%減少し, 全体のフットプリントとアンハーモニシティは許容値を維持していることがわかった。 その結果、TLS制限品質係数とそれに対応するT_{1}$は約21.6%増加した。

Surface dielectric loss of superconducting transmon qubit is believed as one of the dominant sources of decoherence. Reducing surface dielectric loss of superconducting qubit is known to be a great challenge for achieving high quality factor and a long relaxation time ($T_{1}$). Changing the geometry of capacitor pads and junction wire of transmon qubit makes it possible to engineer the surface dielectric loss. In this paper, we present the shape optimization approach for reducing Surface dielectric loss in transmon qubit. The capacitor pad and junction wire of the transmon qubit are shaped as spline curves and optimized through the combination of the finite-element method and global optimization algorithm. Then, we compared the surface participation ratio, which represents the portion of electric energy stored in each dielectric layer and proportional to two-level system (TLS) loss, of optimized structure and existing geometries to show the effectiveness of our approach. The result suggests that the participation ratio of capacitor pad, and junction wire can be reduced by 16% and 26% compared to previous designs through shape optimization, while overall footprint and anharmonicity maintain acceptable value. As a result, the TLS-limited quality factor and corresponding $T_{1}$ were increased by approximately 21.6%.
翻訳日:2023-01-17 20:42:31 公開日:2022-11-25
# システム環境純状態における量子エントロピーと過剰エントロピー生成について

On Quantum Entropy and Excess Entropy Production in a System-Environment Pure State ( http://arxiv.org/abs/2211.14152v1 )

ライセンス: Link先を確認
Phillip C. Lotshaw and Michael E. Kellman(参考訳) 最近導入された量子熱力学エントロピー $s^q_{univ}$ of a pure state of a composite system-environment computational "universe" と単純なシステム $\mathcal{s}$ coupled to a constant temperature bath $\mathcal{e}$。 主な焦点は「エントロピー生成(excess entropy production)」であり、量子エントロピー変化は古典エントロピーフリーエネルギー関係の期待よりも大きい。 時間依存状態の量子拡散と、マイクロカノニカルシェルの概念との相互作用の観点からこれを解析する。 エントロピーは基底に依存したシャノン情報定義を取る。 ゼロ階の$\mathcal{SE}$エネルギー基底は、弱いカップリングと高密度状態の極限における古典的な熱力学関係を与える唯一の選択であり、システムと環境コンポーネントの正確な分割を含む。 エントロピー生産は2種類のプロセスによって行われる。 1つ目は、マイクロカノニカルシェル内の状態の完全な密度を満たす古典的な「エルゴダイゼーション」である。 2つ目は、エネルギーシェルの幅を効果的に増加させるウェーブパックの量子拡散または「量子エルゴディゼーション」に関連する過剰エントロピー生成である。 有限マイクロカノニカルシェル幅のローレンツ重ね合わせは、超越エントロピーのない極限の場合として古典的な結果をもたらす。 次に、1つの$\mathcal{se}$ zero-order initial state を極端に過剰なエントロピー生成の試験として考える。 時間依存ローレンツ重ね合わせに対する過剰エントロピー生成を統一的に処理し,計算学的に検証した。 自由エネルギーの概念は過剰なエントロピー生成に対応する「利用可能なエネルギー」の概念に拡張される可能性があると推測されている。 量子力学のエントロピーに関する統一的な視点は、古典的な極限から極端な量子状態へと到達する。

We explore a recently introduced quantum thermodynamic entropy $S^Q_{univ}$ of a pure state of a composite system-environment computational "universe" with a simple system $\mathcal{S}$ coupled to a constant temperature bath $\mathcal{E}$. The principal focus is "excess entropy production" in which the quantum entropy change is greater than expected from the classical entropy-free energy relationship. We analyze this in terms of quantum spreading of time dependent states, and its interplay with the idea of a microcanonical shell. The entropy takes a basis-dependent Shannon information definition. We argue for the zero-order $\mathcal{SE}$ energy basis as the unique choice that gives classical thermodynamic relations in the limit of weak coupling and high density of states, including an exact division into system and environment components. Entropy production takes place due to two kinds of processes. The first is classical "ergodization" that fills the full density of states within the microcanonical shell. The second is excess entropy production related to quantum spreading or "quantum ergodization" of the wavepacket that effectively increases the width of the energy shell. Lorentzian superpositions with finite microcanonical shell width lead to classical results as the limiting case, with no excess entropy. We then consider a single $\mathcal{SE}$ zero-order initial state, as the examplar of extreme excess entropy production. Systematic formal results are obtained for a unified treatment of excess entropy production for time-dependent Lorentzian superpositions, and verified computationally. It is speculated that the idea of free energy might be extended to a notion of "available energy" corresponding to the excess entropy production. A unified perspective on quantum thermodynamic entropy is thereby attained from the classical limit to extreme quantum conditions.
翻訳日:2023-01-17 20:42:09 公開日:2022-11-25
# ブール関数におけるStrict Avalanche criterionの近さを推定する量子アルゴリズム

A quantum algorithm to estimate the closeness to the Strict Avalanche criterion in Boolean functions ( http://arxiv.org/abs/2211.15356v1 )

ライセンス: Link先を確認
C. A. Jothishwaran, Abhishek Chakraborty, Vishvendra Singh Poonia, Pantelimon Stanica, Sugata Gangopadhyay(参考訳) 本稿では,与えられたブール関数の閉度を,' `strict avalanche criterion'' (SAC) を満たすものに推定する量子アルゴリズムを提案する。 このアルゴリズムはBoolean関数のoracleの$n$クエリを必要とし、$n$は入力変数の数であり、同じタスクを実行するのに古典的なアルゴリズムが必要とするクエリよりも少ない。 我々は、SACの近さを推定するために用いられる他の量子アルゴリズムと比較し、SACを量子オラクルへの最も少ない呼び出しで検証し、与えられた信頼境界に対して最も少ないサンプルを必要とすることを示す。

We propose a quantum algorithm (in the form of a quantum oracle) that estimates the closeness of a given Boolean function to one that satisfies the ``strict avalanche criterion'' (SAC). This algorithm requires $n$ queries of the Boolean function oracle, where $n$ is the number of input variables, this is fewer than the queries required by the classical algorithm to perform the same task. We compare our approach with other quantum algorithms that may be used for estimating the closeness to SAC and it is shown our algorithm verifies SAC with the fewest possible calls to quantum oracle and requires the fewest samples for a given confidence bound.
翻訳日:2023-01-17 20:33:35 公開日:2022-11-25
# 非エルミートキックローターモデルにおける動的安定性

Dynamical stability in a non-Hermitian kicked rotor model ( http://arxiv.org/abs/2211.14404v1 )

ライセンス: Link先を確認
Wen-Lei Zhao and Huiqian Zhang(参考訳) 蹴り強度が複雑である非エルミートキックロータモデルにおける量子不可逆性と量子拡散について検討する。 その結果,非エルミチアン駆動電位の想像的部分の強度を増大させることで,ロシミトエコーの指数的崩壊は徐々に消失し,非ハーミティティーによる指数的不安定性の抑制が示された。 量子拡散は運動量空間における動的局在を示す、すなわち運動量の平均二乗は、時間の進化とともに飽和し、蹴りの想像的部分の強さが増加するにつれて減少する。 これは非ハーミティティーによる動的局所化の強化を明確に示している。 解析的にも数値的にも、量子状態は主に、擬似エネルギーの想像的部分のかなり大きな値を持つ非常に少数の準固有状態に占められている。 興味深いことに、準固有状態の逆参加比の平均値は、蹴りポテンシャルの想像的部分の強度の増加に伴って減少するので、準固有状態の特徴がウェーブパケットのダイナミクスの安定性とエネルギー拡散の動的局在を決定する。

We investigate the quantum irreversibility and quantum diffusion in a non-Hermitian kicked rotor model for which the kicking strength is complex. Our results show that the exponential decay of Loschmidt echo gradually disappears with increasing the strength of the imaginary part of non-Hermitian driven potential, demonstrating the suppress of the exponential instability by non-Hermiticity. The quantum diffusion exhibits the dynamical localization in momentum space, namely, the mean square of momentum increases to saturation with time evolution, which decreases with the increase of the strength of the imaginary part of the kicking. This clearly reveals the enhancement of dynamical localization by non-Hermiticity. We find, both analytically and numerically, that the quantum state are mainly populated on a very few quasieigenstates with significantly large value of the imaginary part of quasienergies. Interestingly, the average value of the inverse participation ratio of quasieigenstates decreases with the increase of the strength of the imaginary part of the kicking potential, which implies that the feature of quasieigenstates determines the stability of wavepacket's dynamics and the dynamical localization of energy diffusion.
翻訳日:2023-01-17 20:33:22 公開日:2022-11-25
# 因果多ループファインマン積分のグロバー量子探索アルゴリズム

Grover's Quantum Search Algorithm of Causal Multiloop Feynman Integrals ( http://arxiv.org/abs/2211.14359v1 )

ライセンス: Link先を確認
Andr\'es E. Renter\'ia-Olivo(参考訳) ループツリー双対性(ltd)フレームワークにおけるマルチループファインマン積分に対する量子アルゴリズムの概念実証の適用は、代表的な4ループ位相に適用される。 LTD形式におけるブートストラップ因果関係は、量子ビットの2つの状態上のプロパゲータの2つのオンシェル状態を直接符号化する可能性を考えると、量子コンピュータで扱うのに適した問題である。 グローバーの量子探索アルゴリズムの修正が開発され、量子アルゴリズムはibmの量子シミュレータとquteシミュレータでうまく実装された。

A proof-of-concept application of a quantum algorithm to multiloop Feynman integrals in the Loop-Tree Duality (LTD) framework is applied to a representative four-loop topology. Bootstrapping causality in the LTD formalism, is a suitable problem to address with quantum computers given the straightforward possibility to encode the two on-shell states of a propagator on the two states of a qubit. A modification of Grover's quantum search algorithm is developed and the quantum algorithm is successfully implemented on IBM Quantum and QUTE simulators.
翻訳日:2023-01-17 20:33:02 公開日:2022-11-25
# 非符号ボックスと集合に対する非ブロードキャスティング定理

No-broadcasting theorem for non-signalling boxes and assemblages ( http://arxiv.org/abs/2211.14351v1 )

ライセンス: Link先を確認
Carlos Vieira, Adrian Solymos, Cristhiano Duarte and Zolt\'an Zimbor\'as(参考訳) ノンブロードキャスティング定理は量子情報理論における最も基本的な結果の1つであり、量子情報の盗聴と複写に基づく任意の量子プロトコルに対する最も単純な攻撃は不可能である。 その基本的な重要性から、本質的に量子的性質であるかどうかを問うことは自然であり、また、非古典理論のより広範なクラスにも当てはまる。 関連する一般化は、非シグナリングボックスを考えることである。 その後、Joshi, Grudka and Horodecki$^{\otimes 4}$は局所的に非局所的ボックスを放送できないと推測した。 本稿では,ボックスの相対エントロピーの基本的な性質に基づいて,それらの予想を証明する。 同様の推論に従い、操舵可能な集合体に対する類似の定理も得られる。

The no-broadcasting theorem is one of the most fundamental results in quantum information theory; it guarantees that the simplest attacks on any quantum protocol, based on eavesdropping and copying of quantum information, are impossible. Due to its fundamental importance, it is natural to ask whether it is an inherent quantum property or holds also for a broader class of non-classical theories. A relevant generalization is to consider non-signalling boxes. Subsequently Joshi, Grudka and Horodecki$^{\otimes 4}$ conjectured that one cannot locally broadcast nonlocal boxes. In this paper, we prove their conjecture based on fundamental properties of the relative entropy of boxes. Following a similar reasoning, we also obtain an analogous theorem for steerable assemblages.
翻訳日:2023-01-17 20:32:52 公開日:2022-11-25
# 無限ストリップ上の二次元等尺性テンソルネットワーク

Two Dimensional Isometric Tensor Networks on an Infinite Strip ( http://arxiv.org/abs/2211.14337v1 )

ライセンス: Link先を確認
Yantao Wu, Sajant Anand, Sheng-Hsuan Lin, Frank Pollmann, Michael P. Zaletel(参考訳) 2次元テンソルネットワーク状態(TNS)の正確な収縮は指数関数的に困難であることが知られ、2次元システムのシミュレーションは困難である。 最近導入された等尺的 TNS (isoTNS) は TNS のサブセットであり、有限平方格子上のそのようなシステムの効率的なシミュレーションを可能にする。 アイソTNSアンサッツはテンソルの「直交列」の同定を必要とし、そこでは1次元行列積状態(MPS)法が可観測物の計算やテンソルの最適化に利用できる。 ここでは、IsoTNSを無限に長いストリップジオメトリに拡張し、ネットワークの直交列を移動させるためのモーゼスモーブアルゴリズムの無限バージョンを導入する。 このアルゴリズムを用いて、2次元量子状態の無限MPS表現をストリップアイソTNSに繰り返し変換し、結果として生じる状態の絡み合い特性を調べる。 また,局所観測結果を効率的に評価できることを実証する。 最後に、無限時間発展ブロックデシメーションアルゴリズム(itebd\textsuperscript{2})を導入し、無限ストリップ幾何学の格子上の2次元横場イジングモデルの基底状態の近似に使用する。

The exact contraction of a generic two-dimensional (2D) tensor network state (TNS) is known to be exponentially hard, making simulation of 2D systems difficult. The recently introduced class of isometric TNS (isoTNS) represents a subset of TNS that allows for efficient simulation of such systems on finite square lattices. The isoTNS ansatz requires the identification of an "orthogonality column" of tensors, within which one-dimensional matrix product state (MPS) methods can be used for calculation of observables and optimization of tensors. Here we extend isoTNS to infinitely long strip geometries and introduce an infinite version of the Moses Move algorithm for moving the orthogonality column around the network. Using this algorithm, we iteratively transform an infinite MPS representation of a 2D quantum state into a strip isoTNS and investigate the entanglement properties of the resulting state. In addition, we demonstrate that the local observables can be evaluated efficiently. Finally, we introduce an infinite time-evolving block decimation algorithm (iTEBD\textsuperscript{2}) and use it to approximate the ground state of the 2D transverse field Ising model on lattices of infinite strip geometry.
翻訳日:2023-01-17 20:32:40 公開日:2022-11-25
# 非エルミート系における局在制御

Control of localization in non-Hermitian systems ( http://arxiv.org/abs/2211.14336v1 )

ライセンス: Link先を確認
Junmo Jeon, SungBin Lee(参考訳) 非エルミート系は開かつ散逸的な量子系に対して活発に研究されている。 特筆すべき特徴の1つは非エルミート皮膚効果であり、非対称ホッピング等級による端のバルク状態の異常凝縮である。 理論的および実験的観点からは、ハサノ・ネルソンの議論と位相的例外点に基づいて研究されている。 しかし、そのような非エルミート系を超えて、異なる非エルミート性とその特性はいまだに解明されていない。 本研究では,ホッピング相が非相互に存在する非エルミート系に着目し,量子状態の局在特性の進化について議論する。 ホッピング相因子にコードされる非ハーミティー性は、非ハーミティアン皮膚効果とは対照的に、状態の非局在化を引き起こすことを強調する。 さらに,逆参加比とフラクタル次元を用いてスペクトルの局在を定量化することにより,非エルミートホッピング位相が量子状態の局在特性の微妙な制御性をもたらすことを示す。 我々の研究は、波動局在を制御できる新しいタイプの非エルミートシステムを提供し、最終的には関連する実験応用についても議論する。

Non-Hermitian systems have been actively studied for open and dissipative quantum systems. One of the remarkable features is the non-Hermitian skin effect, the anomalous condensation of the bulk states at the edge resulting from asymmetric hopping magnitudes. From both theoretical and experimental points of view, it has been studied based on the Hatano-Nelson argument and topological exceptional points. Beyond such non-Hermitian systems, however, different types of non-Hermiticity and their characteristics remain elusive. In this work, we focus on a non-Hermitian system where the hopping phase exists non-reciprocally and discuss the evolution of localization characteristics of the quantum states. We emphasize that the non-Hermiticity encoded in the hopping phase factor gives rise to the delocalization of the states in contrast to the non-Hermitian skin effect. Furthermore, by quantifying the localization in the spectrum via inverse participation ratio and fractal dimension, we demonstrate that the non-Hermitian hopping phase results in delicate controllability of the localization characteristics of quantum states. Our work offers new types of non-Hermitian systems which can control wave localization, and finally we also discuss the relevant experimental applications.
翻訳日:2023-01-17 20:32:17 公開日:2022-11-25
# 量子絡み合いと熱ハドロン

Quantum Entanglement and the Thermal Hadron ( http://arxiv.org/abs/2211.14333v1 )

ライセンス: Link先を確認
Pouya Asadi, Varun Vaidya(参考訳) 本稿では,強相互作用ゲージ理論の束縛状態が熱的アンサンブルとして創発的記述にどの程度効果的か検証する。 この記述は、熱力学的エントロピーの役割を果たす2つの部分系の絡み合いエントロピーを持つ予想される最小自由エネルギー原理から導かれる。 これにより、Schr\"{o}dinger方程式を解くことなく、幅広いパートン質量の基底状態ハドロンスペクトルと波動関数を計算することができる。 1+1次元の特定の図形モデルに対してこの分析を行い、高次元への展望について議論する。

This paper tests how effectively the bound states of strongly interacting gauge theories are amenable to an emergent description as a thermal ensemble. This description can be derived from a conjectured minimum free energy principle, with the entanglement entropy of two-parton subsystems playing the role of thermodynamic entropy. This allows us to calculate the ground state hadron spectrum and wavefunction over a wide range of parton masses without solving the Schr\"{o}dinger equation. We carry out this analysis for certain illustrative models in 1+1 dimensions and discuss prospects for higher dimensions.
翻訳日:2023-01-17 20:31:59 公開日:2022-11-25
# 無秩序局所化格子ゲージ理論のスペクトル応答

Spectral response of disorder-free localized lattice gauge theories ( http://arxiv.org/abs/2211.14328v1 )

ライセンス: Link先を確認
Nilotpal Chakraborty, Markus Heyl, Petr Karpov and Roderich Moessner(参考訳) 乱れのない局在を示すある格子ゲージ理論は、空間的に平均化されたスペクトル関数に特徴的な応答を持つ:いくつかの鋭いピークとゼロ周波数限界における消滅応答の組み合わせ。 これは、そのようなゲージ理論で形成される運動活性領域の小さなクラスターの離散スペクトルを反映しており、静電荷の存在により局所化相で空間的に有限なクラスターに分裂する。 本研究では, 中性子散乱実験によって観測された動的構造因子の横断成分を, 解析的推定値と数値クラスター展開値の組み合わせから, この相の奥深くに求める。 また,大規模有限クラスターの局所スペクトル関数は,解析的な推定値と位置が一致する離散ピークを持つことを示した。 さらに、不等時整流器によって診断された情報拡散は、実空間の断片化により停止する。 我々の結果は、そのような創発的なゲージ理論を実現するかもしれないフラストレーション磁石の従来の常磁性相と無秩序な局所化相を区別するために用いられる。

We show that certain lattice gauge theories exhibiting disorder-free localization have a characteristic response in spatially averaged spectral functions: a few sharp peaks combined with vanishing response in the zero frequency limit. This reflects the discrete spectra of small clusters of kinetically active regions formed in such gauge theories when they fragment into spatially finite clusters in the localized phase due to the presence of static charges. We obtain the transverse component of the dynamic structure factor, which is probed by neutron scattering experiments, deep in this phase from a combination of analytical estimates and a numerical cluster expansion. We also show that local spectral functions of large finite clusters host discrete peaks whose positions agree with our analytical estimates. Further, information spreading, diagnosed by an unequal time commutator, halts due to real space fragmentation. Our results can be used to distinguish the disorder-free localized phase from conventional paramagnetic counterparts in those frustrated magnets which might realize such an emergent gauge theory.
翻訳日:2023-01-17 20:31:48 公開日:2022-11-25
# スイングアップ励起法のコヒーレントダイナミクス

Coherent Dynamics of the Swing-Up Excitation Technique ( http://arxiv.org/abs/2211.14289v1 )

ライセンス: Link先を確認
Katarina Boos, Friedrich Sbresny, Sang Kyu Kim, Malte Kremser, Hubert Riedl, Frederik W. Bopp, William Rauhaus, Bianca Scaparra, Klaus D. J\"ons, Jonathan J. Finley, Kai M\"uller, and Lukas Hanschke(参考訳) 高輝度、良好な単一光子純度、および発光光子の非識別性を実現する量子エミッタのコヒーレント励起法の開発は、近年の重要な課題となっている。 多くの手法が提案され、検討されているが、いずれも特定の利点と欠点がある。 本稿では,2段階系の励起法として最近のスイングアップスキームのダイナミクスと単一光子発生における性能について検討する。 2つの赤みがかったレーザーパルスを照射することにより、2レベル系をほぼ均一な励起状態にすることができる。 半導体量子ドットを用いたこの技術の成功機能とコヒーレントな特性を実証する。 さらに, 2つのレーザーパルスの多次元パラメータ空間を探索し, 励起忠実性への影響について検討した。 最後に, 高品質単一光子発生のための励起法として, スキームの性能について検討した。 スイッチアップ方式自体がうまく動作し、ほぼ完全な単光子純度を示すのに対し、試料中の観察された不明瞭さは、量子ドットの半導体環境に対する必然的な高励起パワーの影響によって制限される。

Developing coherent excitation methods for quantum emitters which enable high brightness, good single-photon purity and high indistinguishability of the emitted photons has been a key challenge in the past years. While many methods have been proposed and explored, they all have specific advantages and disadvantages. In this letter, we investigate the dynamics of the recent swing-up scheme as an excitation method for a two-level system and its performance in single-photon generation. By applying two far red-detuned laser pulses, the two-level system can be prepared in the excited state with near-unity fidelity. We demonstrate the successful functionality and the coherent character of this technique using semiconductor quantum dots. Moreover, we explore the multi-dimensional parameter space of the two laser pulses to study the impact on the excitation fidelity. Finally, we investigate the performance of the scheme as an excitation method for generation of high-quality single photons. We find that the swing-up scheme itself works well and exhibits nearly perfect single-photon purity, while the observed indistinguishability in our sample is limited by the influence of the inevitable high excitation powers on the semiconductor environment of the quantum dot.
翻訳日:2023-01-17 20:31:34 公開日:2022-11-25
# 効率的なフェイルセーフ衝突のない量子ボルツマン法

Efficient and fail-safe collisionless quantum Boltzmann method ( http://arxiv.org/abs/2211.14269v1 )

ライセンス: Link先を確認
Merel A. Schalkers, Matthias M\"oller(参考訳) 本稿では、フォールトトレラントな普遍量子コンピュータ上で、可変格子サイズと離散速度に対して2次元と3次元の衝突のないボルツマン方程式を解くスケーラブルなアルゴリズムを提案する。 衝突のない量子ボルツマン法 (CQBM) の概念実証として, カイスキットにおける全回路の始端実装と2次元流れの数値計算結果について述べる。 我々のCQBMは、最先端の量子ストリーミング法と比較して必要なCNOTゲートの量を減少させる新しいストリーミング手法に基づいている。 第2のハイライトとして,壁を符号化するために必要なcnotゲートの複雑さを低減し,壁の大きさに依存しない新たなオブジェクト符号化手法を提案する。 最後に, 粒子の速度を反映した線形速度アップを実現するために, 粒子の離散速度の新しい量子符号化法を提案する。 我々の主な貢献は、物理量子コンピュータ上で容易に実装できる衝突のないボルツマン方程式の反射ステップに対する量子アルゴリズムのフェールセーフな実装の詳細な説明である。 このフェールセーフの実装は、様々な初期条件と粒子速度を可能にし、障害物の壁、端、角のまわりの物理的に正しい挙動をもたらす。 これらの結果を組み合わせることで,多数のフロー構成に使用可能な衝突のないボルツマン方程式のための,新規でフェイルセーフなスタートアップ・ツー・エンド量子アルゴリズムを提案する。 最終的に、我々のアプローチは格子を符号化するために必要な量子ビットの量と、離散速度を1つの空間次元で符号化するために必要な量子ビットの量に二次的であることを示す。

We present a scalable algorithm for solving the collisionless Boltzmann equation in two and three spatial dimensions for variable grid sizes and discrete velocities on a fault-tolerant universal quantum computer. As a proof of concept of our collisionless quantum Boltzmann method (CQBM), we describe a full-circuit start-to-end implementation in Qiskit and present numerical results for 2D flows. Our CQBM is based on a novel streaming approach which leads to a reduction in the amount of CNOT gates required in comparison to state-of-the-art quantum streaming methods. As a second highlight we present a novel object encoding method, that reduces the complexity of the amount of CNOT gates required to encode walls, which now becomes independent of the size of the wall. Finally we present a novel quantum encoding of the particles' discrete velocities that enables a linear speed-up in the costs of reflecting the velocity of a particle, which now becomes independent of the amount of velocities encoded. Our main contribution is a detailed description of a fail-safe implementation of a quantum algorithm for the reflection step of the collisionless Boltzmann equation that can be readily implemented on a physical quantum computer. This fail-safe implementation allows for a variety of initial conditions and particle velocities and leads to physically correct behavior around the walls, edges and corners of obstacles. Combining these results we present a novel and fail-safe start-to-end quantum algorithm for the collisionless Boltzmann equation that can be used for a multitude of flow configurations. We finally show that our approach is quadratic in the amount of qubits necessary to encode the grid and the amount of qubits necessary to encode the discrete velocities in a single spatial dimension, which makes our approach superior to state-of-the-art approaches known in the literature.
翻訳日:2023-01-17 20:31:14 公開日:2022-11-25
# 機械学習による干渉ネットワークのグローバル最適エネルギー効率へのアプローチ

Approaching Globally Optimal Energy Efficiency in Interference Networks via Machine Learning ( http://arxiv.org/abs/2212.12329v1 )

ライセンス: Link先を確認
Bile Peng, Karl-Ludwig Besser, Ramprasad Raghunath, Eduard A. Jorswieck(参考訳) 本稿では,マルチセル無線ネットワークにおけるエネルギー効率(ee)を最適化する機械学習手法を提案する。 この最適化問題は非凸であり、その大域的な最適化は見つからない。 文献では、単純だが最適でないアプローチや、複雑でスケーラビリティの低い最適手法が提案されている。 対照的に,グローバル最適化にアプローチする機械学習フレームワークを提案する。 ニューラルネットワーク(NN)トレーニングは適度な時間を要するが、トレーニングされたモデルによるアプリケーションは非常に低い計算複雑性を必要とする。 特に,非凸最適化問題を解くために,確率的作用に基づく新しい目的関数を導入する。 さらに,多セルネットワーク最適化問題に対して,順列同変のNNアーキテクチャを設計する。 EE計算におけるチャネルの役割に応じてチャネルを分類する。 このようにして、私たちはドメイン知識をNN設計にエンコードし、機械学習のブラックボックスに光を放ちます。 学習とテストの結果,提案手法は,分岐・境界アルゴリズムが求める大域的最適値に近いeeを実現することがわかった。 したがって,提案手法は計算複雑性と性能のバランスをとる。

This work presents a machine learning approach to optimize the energy efficiency (EE) in a multi-cell wireless network. This optimization problem is non-convex and its global optimum is difficult to find. In the literature, either simple but suboptimal approaches or optimal methods with high complexity and poor scalability are proposed. In contrast, we propose a machine learning framework to approach the global optimum. While the neural network (NN) training takes moderate time, application with the trained model requires very low computational complexity. In particular, we introduce a novel objective function based on stochastic actions to solve the non-convex optimization problem. Besides, we design a dedicated NN architecture for the multi-cell network optimization problems that is permutation-equivariant. It classifies channels according to their roles in the EE computation. In this way, we encode our domain knowledge into the NN design and shed light into the black box of machine learning. Training and testing results show that the proposed method without supervision and with reasonable computational effort achieves an EE close to the global optimum found by the branch-and-bound algorithm. Hence, the proposed approach balances between computational complexity and performance.
翻訳日:2023-01-01 14:28:18 公開日:2022-11-25
# ディープラーニングに基づく二項実行装置の脆弱性検出

Deep-Learning-based Vulnerability Detection in Binary Executables ( http://arxiv.org/abs/2212.01254v1 )

ライセンス: Link先を確認
Andreas Schaad, Dominik Binder(参考訳) 脆弱性の特定は、ソフトウェアのセキュリティを確保するためのソフトウェア開発ライフサイクルの重要な要素である。 ソースコードに基づく脆弱性の識別はよく研究されている分野であるが、対応するソースコードを持たないバイナリ実行ファイルに基づく脆弱性の識別はより困難である。 最近の研究 [1] では、ディープラーニングによってそのような検出をどのように達成できるかが示されている。 しかし、その特定のアプローチは、わずか4種類の脆弱性の特定に限られる。 その後、より広範な脆弱性の特定をどの程度カバーできるかを分析します。 そのため、リカレントニューラルネットワークを用いた教師付きディープラーニングアプローチを用いて、バイナリ実行ファイルに基づく脆弱性検出を行う。 基盤となるベースは,LLVM中間表現の標準化という形で,脆弱性のあるコードの50,651サンプルのデータセットである。 Word2Vecモデルのベクトル化された特徴は、リカレントニューラルネットワーク(GRU、LSTM、SRNN)の3つの基本アーキテクチャの異なるバリエーションを訓練するために使用される。 任意の脆弱性の存在を検出するためにバイナリ分類が確立され, 正解の正当性を特定するためにマルチクラスモデルが訓練され, 正解率は88%, 正解率は77%であった。 脆弱性検出の相違も観察され、特に高い精度で98%以上の試料が検出された。 これにより、23(4[1])の脆弱性を正確に検出することができる。

The identification of vulnerabilities is an important element in the software development life cycle to ensure the security of software. While vulnerability identification based on the source code is a well studied field, the identification of vulnerabilities on basis of a binary executable without the corresponding source code is more challenging. Recent research [1] has shown, how such detection can be achieved by deep learning methods. However, that particular approach is limited to the identification of only 4 types of vulnerabilities. Subsequently, we analyze to what extent we could cover the identification of a larger variety of vulnerabilities. Therefore, a supervised deep learning approach using recurrent neural networks for the application of vulnerability detection based on binary executables is used. The underlying basis is a dataset with 50,651 samples of vulnerable code in the form of a standardized LLVM Intermediate Representation. The vectorised features of a Word2Vec model are used to train different variations of three basic architectures of recurrent neural networks (GRU, LSTM, SRNN). A binary classification was established for detecting the presence of an arbitrary vulnerability, and a multi-class model was trained for the identification of the exact vulnerability, which achieved an out-of-sample accuracy of 88% and 77%, respectively. Differences in the detection of different vulnerabilities were also observed, with non-vulnerable samples being detected with a particularly high precision of over 98%. Thus, the methodology presented allows an accurate detection of 23 (compared to 4 [1]) vulnerabilities.
翻訳日:2022-12-11 13:02:19 公開日:2022-11-25
# 表型不均衡マルウェアデータに対するoog-optina最適化ganサンプリング手法

OOG- Optuna Optimized GAN Sampling Technique for Tabular Imbalanced Malware Data ( http://arxiv.org/abs/2212.01274v1 )

ライセンス: Link先を確認
S.M Towhidul Islam Tonmoy and S.M Mehedi Zaman(参考訳) サイバースペースは、現代のテクノロジーの時代における人々の生活の大部分を占めており、それを利用する者もいるが、そうではない者もいる。 マルウェアは、構築が良質な目標に動機づけられず、個人情報やセキュアなアプリケーションやソフトウェアを傷つけたり、盗んだり、変更したりする可能性があるアプリケーションである。 このように、マルウェアを避けるための多くのテクニックがあり、その1つはマルウェアのサンプルを作成することで、マルウェアが侵入しようとすることを認識できるようにシステムを更新することである。 本研究では,GAN(Generative Adversarial Network)サンプリング技術を用いて,新たなマルウェアサンプルを生成する。 GANは複数の変種を持ち、与えられたデータセットサンプルに対してどの変種が最適かを決定するには、それらのパラメータを変更する必要がある。 本研究は,データセットの最適設定を決定するために,自律型ハイパーパラメータチューニングアルゴリズムである optuna を用いる。 本研究では,オプチュナ最適化gan (oog) 法のアーキテクチャを示し,それぞれ98.06%,99.00%,97.23%,98.04%の精度,精度,リコール,f1スコアを示した。 xgboost, lightgbm, catboost, extra trees classifier, gradient boosting classifierの5つの教師付きブースティングアルゴリズムのハイパーパラメータを微調整した後、本論文の方法論はさらに重み付きアンサンブル技術を用いてこの結果を得る。 この領域における既存の取り組みの比較に加えて、SMOTEのような他のサンプリング技術と比較して、GANがいかに有望かを示す。

Cyberspace occupies a large portion of people's life in the age of modern technology, and while there are those who utilize it for good, there are also those who do not. Malware is an application whose construction was not motivated by a benign goal and it can harm, steal, or even alter personal information and secure applications and software. Thus, there are numerous techniques to avoid malware, one of which is to develop samples of malware so that the system can be updated with the growing number of malwares, allowing it to recognize when malwares attempt to enter. The Generative Adversarial Network (GAN) sampling technique has been used in this study to generate new malware samples. GANs have multiple variants, and in order to determine which variant is optimal for a given dataset sample, their parameters must be modified. This study employs Optuna, an autonomous hyperparameter tuning algorithm, to determine the optimal settings for the dataset under consideration. In this study, the architecture of the Optuna Optimized GAN (OOG) method is shown, along with scores of 98.06%, 99.00%, 97.23%, and 98.04% for accuracy, precision, recall and f1 score respectively. After tweaking the hyperparameters of five supervised boosting algorithms, XGBoost, LightGBM, CatBoost, Extra Trees Classifier, and Gradient Boosting Classifier, the methodology of this paper additionally employs the weighted ensemble technique to acquire this result. In addition to comparing existing efforts in this domain, the study demonstrates how promising GAN is in comparison to other sampling techniques such as SMOTE.
翻訳日:2022-12-11 13:01:58 公開日:2022-11-25
# SARS Covid(CoV-2, CoV)およびMERS Covidの透過性と病原性を比較する非構造タンパク質の細胞オートマタモデル

Cellular Automata Model for Non-Structural Proteins Comparing Transmissibility and Pathogenesis of SARS Covid (CoV-2, CoV) and MERS Covid ( http://arxiv.org/abs/2212.00502v1 )

ライセンス: Link先を確認
Raju Hazari and Parimal Pal Chaudhuri(参考訳) sars cov(2003)と比較して、sars cov-2(2019)の透過性が著しく高いのは、構造タンパク質(スパイクs、ヌクレオカプシドn、膜m、エンベロープe)の変異と、非構造タンパク質(nsps)および副タンパク質(orfs)がウイルスの複製、組み立て、放出に果たす役割に起因する。 非構造タンパク質(nsps)は宿主のタンパク質合成機構を利用してウイルスの複製を開始し、宿主の免疫防御を中和する。 16nspsのキータンパク質は非構造タンパク質nsp1であり、リーダータンパク質としても知られる。 Nsp1はホスト翻訳をブロックすることでホストリソースをハイジャックする。 本稿では,生物文字列研究のために開発されたセルラーオートマタ強化機械学習(CAML)モデルに基づいて,SARSコービッド(CoV-2,CoV)とMERSコービッドのnsps解析に着目する。 この計算モデルは、nspsのアミノ酸鎖のca進化に由来するcamlモデルパラメータを用いて、cov-2とcovの構造-関数の偏差を比較する。 この比較分析が示すのは i)主要なnspsのCoVと比較してCoV-2の透過率が高く、 (II) 病原性および病原性に関して, SARS CoVからMERSを分離した。 機械学習(ML)フレームワークは、CAMLモデルパラメータをin-vitro/in-vivo/in-silico実験で報告された物理的なドメイン特徴にマッピングするように設計されている。 mlフレームワークにより、3つのウイルスの16個のnspの変異研究から得られたモデルパラメータの許容範囲を学習できる。

Significantly higher transmissibility of SARS CoV-2 (2019) compared to SARS CoV (2003) can be attributed to mutations of structural proteins (Spike S, Nucleocapsid N, Membrane M, and Envelope E) and the role played by non-structural proteins (nsps) and accessory proteins (ORFs) for viral replication, assembly and shedding. The non-structural proteins (nsps) avail host protein synthesis machinery to initiate viral replication, along with neutralization of host immune defense. The key protein out of the 16 nsps, is the non-structural protein nsp1, also known as the leader protein. Nsp1 leads the process of hijacking host resources by blocking host translation. This paper concentrates on the analysis of nsps of SARS covid (CoV-2, CoV) and MERS covid based on Cellular Automata enhanced Machine Learning (CAML) model developed for study of biological strings. This computational model compares deviation of structure - function of CoV-2 from that of CoV employing CAML model parameters derived out of CA evolution of amino acid chains of nsps. This comparative analysis points to - (i) higher transmissibility of CoV-2 compared to CoV for major nsps, and (ii) deviation of MERS covid from SARS CoV in respect of virulence and pathogenesis. A Machine Learning (ML) framework has been designed to map the CAML model parameters to the physical domain features reported in in-vitro/in-vivo/in-silico experimental studies. The ML framework enables us to learn the permissible range of model parameters derived out of mutational study of sixteen nsps of three viruses.
翻訳日:2022-12-04 14:16:40 公開日:2022-11-25
# swl-adapt: クロスユーザウェアラブルヒューマンアクティビティ認識のためのサンプル重み学習を用いた教師なしドメイン適応モデル

SWL-Adapt: An Unsupervised Domain Adaptation Model with Sample Weight Learning for Cross-User Wearable Human Activity Recognition ( http://arxiv.org/abs/2212.00724v1 )

ライセンス: Link先を確認
Rong Hu, Ling Chen, Shenghuan Miao, Xing Tang(参考訳) 実際に、ウェアラブルヒューマンアクティビティ認識(WHAR)モデルは、通常、ユーザの分散により、新しいユーザのパフォーマンス劣化に直面します。 非教師なしドメイン適応(UDA)はアノテーション不足下でのユーザ間WHARの自然な解決策となる。 既存のUDAモデルは、通常、差別化のない領域にサンプルを並べるが、サンプルの違いを無視する。 本稿では、ユーザ間WHARのためのサンプル重み学習(SWL-Adapt)を用いた教師なしドメイン適応モデルを提案する。 swl-adaptは、パラメータ化されたネットワークで各サンプルの分類損失とドメイン識別損失に応じてサンプル重みを計算する。 このネットワークのエンドツーエンドを学習するために、メタ最適化に基づく更新ルールを導入し、選択した擬似ラベル対象サンプルのメタ分類損失を導出する。 したがって,本ネットワークは,ユーザ間WHARタスクに従って重み付け関数に適合し,特定のシナリオに固定された既存のサンプル識別規則よりも優れている。 3つの公開WHARデータセットに対する大規模な実験により、SWL-Adaptは、クロスユーザーWHARタスクにおける最先端のパフォーマンスを達成し、それぞれ平均3.1%と5.3%の精度で最高のベースラインを上回った。

In practice, Wearable Human Activity Recognition (WHAR) models usually face performance degradation on the new user due to user variance. Unsupervised domain adaptation (UDA) becomes the natural solution to cross-user WHAR under annotation scarcity. Existing UDA models usually align samples across domains without differentiation, which ignores the difference among samples. In this paper, we propose an unsupervised domain adaptation model with sample weight learning (SWL-Adapt) for cross-user WHAR. SWL-Adapt calculates sample weights according to the classification loss and domain discrimination loss of each sample with a parameterized network. We introduce the meta-optimization based update rule to learn this network end-to-end, which is guided by meta-classification loss on the selected pseudo-labeled target samples. Therefore, this network can fit a weighting function according to the cross-user WHAR task at hand, which is superior to existing sample differentiation rules fixed for special scenarios. Extensive experiments on three public WHAR datasets demonstrate that SWL-Adapt achieves the state-of-the-art performance on the cross-user WHAR task, outperforming the best baseline by an average of 3.1% and 5.3% in accuracy and macro F1 score, respectively.
翻訳日:2022-12-04 14:00:15 公開日:2022-11-25
# Dense Hebbian Neural Network:教師付き学習のレプリカ対称画像

Dense Hebbian neural networks: a replica symmetric picture of supervised learning ( http://arxiv.org/abs/2212.00606v1 )

ライセンス: Link先を確認
Elena Agliari, Linda Albanese, Francesco Alemanno, Andrea Alessandrelli, Adriano Barra, Fosca Giannotti, Daniele Lotito, Dino Pedreschi(参考訳) 教師が訓練した密集した連想型ニューラルネットワークについて検討し,スピングラスの統計力学,モンテカルロシミュレーションによる数値計算によりその計算能力を解析的に検討した。 In particular, we obtain a phase diagram summarizing their performance as a function of the control parameters such as quality and quantity of the training dataset, network storage and noise, that is valid in the limit of large network size and structureless datasets: these networks may work in a ultra-storage regime (where they can handle a huge amount of patterns, if compared with shallow neural networks) or in a ultra-detection regime (where they can perform pattern recognition at prohibitive signal-to-noise ratios, if compared with shallow neural networks). また,MNist や Fashion MNist などの構造化データセット上で,これらのネットワークが示す数値学習,記憶,検索機能についても検証した。 As technical remarks, from the analytic side, we implement large deviations and stability analysis within Guerra's interpolation to tackle the not-Gaussian distributions involved in the post-synaptic potentials while, from the computational counterpart, we insert Plefka approximation in the Monte Carlo scheme, to speed up the evaluation of the synaptic tensors, overall obtaining a novel and broad approach to investigate supervised learning in neural networks, beyond the shallow limit, in general.

We consider dense, associative neural-networks trained by a teacher (i.e., with supervision) and we investigate their computational capabilities analytically, via statistical-mechanics of spin glasses, and numerically, via Monte Carlo simulations. In particular, we obtain a phase diagram summarizing their performance as a function of the control parameters such as quality and quantity of the training dataset, network storage and noise, that is valid in the limit of large network size and structureless datasets: these networks may work in a ultra-storage regime (where they can handle a huge amount of patterns, if compared with shallow neural networks) or in a ultra-detection regime (where they can perform pattern recognition at prohibitive signal-to-noise ratios, if compared with shallow neural networks). Guided by the random theory as a reference framework, we also test numerically learning, storing and retrieval capabilities shown by these networks on structured datasets as MNist and Fashion MNist. As technical remarks, from the analytic side, we implement large deviations and stability analysis within Guerra's interpolation to tackle the not-Gaussian distributions involved in the post-synaptic potentials while, from the computational counterpart, we insert Plefka approximation in the Monte Carlo scheme, to speed up the evaluation of the synaptic tensors, overall obtaining a novel and broad approach to investigate supervised learning in neural networks, beyond the shallow limit, in general.
翻訳日:2022-12-04 13:56:55 公開日:2022-11-25
# 消化器生検における人工知能による好酸球数測定

Artificial Intelligence-based Eosinophil Counting in Gastrointestinal Biopsies ( http://arxiv.org/abs/2211.15667v1 )

ライセンス: Link先を確認
Harsh Shah, Thomas Jacob, Amruta Parulekar, Anjali Amarapurkar, Amit Sethi(参考訳) 通常、好酸球は健康な人の消化管(gi)に存在する。 好酸球が通常の消化管の量を超えると、患者はさまざまな症状を呈する。 臨床医はこの症状を好酸球症(eosinophilia)と診断することは困難である。 早期診断は患者の治療に役立つ。 病理組織学はこの疾患の診断における金の基準である。 これは未診断の状態であるため、GIの生検で好酸球を数えることが重要である。 本研究では, unetに基づく深層ニューラルネットワークを訓練し, 消化管生検における好酸球の検出と測定を行った。 共役成分分析を用いて好酸球を抽出した。 aiによる好酸球浸潤とマニュアルカウントとの相関について検討した。 尿路生検スライドにh&e染色を施した。 スライドは顕微鏡に取り付けられたカメラでスキャンされ、スライドごとに5つの高出力フィールド画像が撮影された。 パーソン相関係数は,300点画像上での機械検出と手動好酸球数の85%であった。

Normally eosinophils are present in the gastrointestinal (GI) tract of healthy individuals. When the eosinophils increase beyond their usual amount in the GI tract, a patient gets varied symptoms. Clinicians find it difficult to diagnose this condition called eosinophilia. Early diagnosis can help in treating patients. Histopathology is the gold standard in the diagnosis for this condition. As this is an under-diagnosed condition, counting eosinophils in the GI tract biopsies is important. In this study, we trained and tested a deep neural network based on UNet to detect and count eosinophils in GI tract biopsies. We used connected component analysis to extract the eosinophils. We studied correlation of eosinophilic infiltration counted by AI with a manual count. GI tract biopsy slides were stained with H&E stain. Slides were scanned using a camera attached to a microscope and five high-power field images were taken per slide. Pearson correlation coefficient was 85% between the machine-detected and manual eosinophil counts on 300 held-out (test) images.
翻訳日:2022-11-30 17:59:17 公開日:2022-11-25
# pacmo:ニューラルオペレーターを用いたdyadic human activityにおけるパートナー依存型人間の運動生成

PaCMO: Partner Dependent Human Motion Generation in Dyadic Human Activity using Neural Operators ( http://arxiv.org/abs/2211.16210v1 )

ライセンス: Link先を確認
Md Ashiqur Rahman, Jasorsi Ghosh, Hrishikesh Viswanath, Kamyar Azizzadenesheli, Aniket Bera(参考訳) ダイアディック活動における3次元人間の動作生成の問題に対処する。 テキスト記述から1人の俳優の動きを主に生成することに焦点を当てたコンカレント作品とは対照的に,他の俳優の動作から1人の俳優の動きを生成する。 これは特に困難で未熟な問題であり、アクションに参加している2人の俳優の動作と、そのアクションを1人の俳優の動作から識別することの間の複雑な関係を学ぶ必要がある。 このような問題に対処するために,パートナーの運動によって条件付けられた人間の動きの分布を,ニューラルネットワークを用いた生成モデルPaCMO(Partner Conditioned Motion operator)を提案する。 我々のモデルは任意の時間分解能で長いラベルなしのアクションシーケンスを処理できる。 また,関数空間における実データと生成データとの類似性を捉えるための「機能的フレシェインセプション距離」(f^2id$)メトリックも導入する。 NTU RGB+D と DuetDance のデータセット上で PaCMO を検証し,F^2ID$ スコアとユーザスタディによって実証された現実的な結果を生成する。

We address the problem of generating 3D human motions in dyadic activities. In contrast to the concurrent works, which mainly focus on generating the motion of a single actor from the textual description, we generate the motion of one of the actors from the motion of the other participating actor in the action. This is a particularly challenging, under-explored problem, that requires learning intricate relationships between the motion of two actors participating in an action and also identifying the action from the motion of one actor. To address these, we propose partner conditioned motion operator (PaCMO), a neural operator-based generative model which learns the distribution of human motion conditioned by the partner's motion in function spaces through adversarial training. Our model can handle long unlabeled action sequences at arbitrary time resolution. We also introduce the "Functional Frechet Inception Distance" ($F^2ID$) metric for capturing similarity between real and generated data for function spaces. We test PaCMO on NTU RGB+D and DuetDance datasets and our model produces realistic results evidenced by the $F^2ID$ score and the conducted user study.
翻訳日:2022-11-30 15:56:36 公開日:2022-11-25
# 消滅する決定境界複雑性と強第1成分

The Vanishing Decision Boundary Complexity and the Strong First Component ( http://arxiv.org/abs/2211.16209v1 )

ライセンス: Link先を確認
Hengshuai Yao(参考訳) 機械学習の分類器とは異なり、よく訓練された深層モデルの決定境界には複雑な境界構造は存在しない。 しかし, 複雑な構造は訓練中に現れるが, 形成後すぐに消失することがわかった。 これは、機械学習でうまく機能する一般化を理解するための決定境界における様々なレベルの複雑さを捉えようとする場合、悲観的なニュースである。 それにもかかわらず、トレーニングデータの事前モデルの決定境界は、最終モデルの一般化を反映していることがわかった。 深層モデルの一般化研究に先駆的な決定境界を用いる方法を示す。 主な発見は3つある。 1つは深層モデルの第一原理成分の強さ、もう1つはオプティマイザの特異性、もう1つはresnetにおけるスキップ接続の効果である。 コードはhttps://github.com/hengshu1/decision_boundary_githubにある。

We show that unlike machine learning classifiers, there are no complex boundary structures in the decision boundaries for well-trained deep models. However, we found that the complicated structures do appear in training but they vanish shortly after shaping. This is a pessimistic news if one seeks to capture different levels of complexity in the decision boundary for understanding generalization, which works well in machine learning. Nonetheless, we found that the decision boundaries of predecessor models on the training data are reflective of the final model's generalization. We show how to use the predecessor decision boundaries for studying the generalization of deep models. We have three major findings. One is on the strength of the first principle component of deep models, another about the singularity of optimizers, and the other on the effects of the skip connections in ResNets. Code is at https://github.com/hengshu1/decision_boundary_github.
翻訳日:2022-11-30 15:10:50 公開日:2022-11-25
# 部分観察画像からの視覚的計画モデル学習

Learning Visual Planning Models from Partially Observed Images ( http://arxiv.org/abs/2211.15666v1 )

ライセンス: Link先を確認
Kebing Jin, Zhanhao Xiao, Hankui Hankz Zhuo, Hai Wan, Jiaran Cai(参考訳) 古典的計画における計画モデル学習に注目が集まっている。 しかし、既存のアプローチのほとんどは、構造化データから計画モデルを学ぶことに焦点を当てている。 このような構造化データを現実のシナリオで取得することは、しばしば困難である。 完全に観測された非構造化データ(画像など)から計画モデルを学ぶための多くのアプローチが開発されているが、多くのシナリオでは生の観測は不完全であることが多い。 本稿では,部分的に観察された生画像から遷移モデルを学習するための新しいフレームワークである \aType{Recplan} を提案する。 より具体的には、トレース中の前後の画像を考慮し、生の観測の潜在状態表現を学習し、そのような表現に基づいて遷移モデルを構築する。 さらに,与えられた目標観測距離を推定するヒューリスティックモデルをニューラルネットワークで学習する手法を提案する。 学習した遷移モデルとヒューリスティックモデルに基づいて,画像のための古典的なプランナーを実装した。 不完全な観察を伴う環境下での視覚計画モデル学習の最先端アプローチよりも,我々のアプローチの方が有効であることを示す。

There has been increasing attention on planning model learning in classical planning. Most existing approaches, however, focus on learning planning models from structured data in symbolic representations. It is often difficult to obtain such structured data in real-world scenarios. Although a number of approaches have been developed for learning planning models from fully observed unstructured data (e.g., images), in many scenarios raw observations are often incomplete. In this paper, we provide a novel framework, \aType{Recplan}, for learning a transition model from partially observed raw image traces. More specifically, by considering the preceding and subsequent images in a trace, we learn the latent state representations of raw observations and then build a transition model based on such representations. Additionally, we propose a neural-network-based approach to learn a heuristic model that estimates the distance toward a given goal observation. Based on the learned transition model and heuristic model, we implement a classical planner for images. We exhibit empirically that our approach is more effective than a state-of-the-art approach of learning visual planning models in the environment with incomplete observations.
翻訳日:2022-11-30 14:44:39 公開日:2022-11-25
# FedSysID: サンプル効率の良いシステム同定のためのフェデレートアプローチ

FedSysID: A Federated Approach to Sample-Efficient System Identification ( http://arxiv.org/abs/2211.14393v1 )

ライセンス: Link先を確認
Han Wang, Leonardo F. Toso, James Anderson(参考訳) 我々は,M$Mのクライアントの観測から線形システムモデルを学習する問題を研究する。 キャッチ: 各クライアントは異なる動的システムからデータを監視している。 本研究は,複数のクライアントが互いに不均質な存在下で動的モデルをどのように学習するかという問題に対処する。 この問題を連合学習問題として捉え、実現可能な性能とシステムの不均一性の間の緊張を特徴付ける。 さらに, フェデレートされた試料の複雑さは, 単一エージェント設定よりも一定の係数改善をもたらす。 最後に,既存のフェデレーションアルゴリズムをクライアントレベルで活用するメタフェデレーション学習アルゴリズムであるFedSysIDについて述べる。

We study the problem of learning a linear system model from the observations of $M$ clients. The catch: Each client is observing data from a different dynamical system. This work addresses the question of how multiple clients collaboratively learn dynamical models in the presence of heterogeneity. We pose this problem as a federated learning problem and characterize the tension between achievable performance and system heterogeneity. Furthermore, our federated sample complexity result provides a constant factor improvement over the single agent setting. Finally, we describe a meta federated learning algorithm, FedSysID, that leverages existing federated algorithms at the client level.
翻訳日:2022-11-29 20:43:32 公開日:2022-11-25
# 学習ノード属性によるグラフニューラルネットワークの不公平性の解釈

Interpreting Unfairness in Graph Neural Networks via Training Node Attribution ( http://arxiv.org/abs/2211.14383v1 )

ライセンス: Link先を確認
Yushun Dong, Song Wang, Jing Ma, Ninghao Liu, Jundong Li(参考訳) グラフニューラルネットワーク(GNN)は、様々な現実世界のアプリケーションにおいて、グラフ解析問題を解くための主要なパラダイムとして登場した。 それでも、GNNは特定の人口集団に偏見のある予測を施す可能性がある。 予測のバイアスがどのように生じるかを理解することは、GNNのデバイアス機構の設計を導くため重要である。 しかし、既存のほとんどの研究はGNNのデバイアスに焦点を当てているが、そのようなバイアスがどのように引き起こされるかを説明するには不足している。 本稿では,GNNの不公平さを学習ノードの影響によって解釈する新しい問題について検討する。 具体的には,gnnに現れるバイアスを測定するための確率分布差(pdd)と呼ばれる新しい戦略を提案し,そのバイアスに対する各訓練ノードの影響を効率的に推定するアルゴリズムを開発した。 PDDの有効性と実世界のデータセットを用いた実験による影響評価の有効性を検証する。 最後に、提案フレームワークがGNNのデバイアスにどのように使用できるかを示す。 オープンソースコードはhttps://github.com/yushundong/BINDで見ることができる。

Graph Neural Networks (GNNs) have emerged as the leading paradigm for solving graph analytical problems in various real-world applications. Nevertheless, GNNs could potentially render biased predictions towards certain demographic subgroups. Understanding how the bias in predictions arises is critical, as it guides the design of GNN debiasing mechanisms. However, most existing works overwhelmingly focus on GNN debiasing, but fall short on explaining how such bias is induced. In this paper, we study a novel problem of interpreting GNN unfairness through attributing it to the influence of training nodes. Specifically, we propose a novel strategy named Probabilistic Distribution Disparity (PDD) to measure the bias exhibited in GNNs, and develop an algorithm to efficiently estimate the influence of each training node on such bias. We verify the validity of PDD and the effectiveness of influence estimation through experiments on real-world datasets. Finally, we also demonstrate how the proposed framework could be used for debiasing GNNs. Open-source code can be found at https://github.com/yushundong/BIND.
翻訳日:2022-11-29 20:26:30 公開日:2022-11-25
# 天文学における効果的な機械学習データセットの要素

Elements of effective machine learning datasets in astronomy ( http://arxiv.org/abs/2211.14401v1 )

ライセンス: Link先を確認
Bernie Boscoe, Tuan Do, Evan Jones, Yunqi Li, Kevin Alfaro, Christy Ma(参考訳) 本研究では、天文学における効果的な機械学習データセットの要素を特定し、その設計と作成について提案する。 機械学習は、天文学における大規模なデータの洪水を分析し理解するための、ますます重要なツールになりつつある。 これらのツールを利用するには、トレーニングとテストにデータセットが必要である。 しかし、天文学のための機械学習データセットの構築は困難である。 天文学的データは、機械学習を行うのではなく、伝統的な方法で科学的な疑問を探求するために作られた機器から収集される。 したがって、生データ、あるいは下流の処理データでさえ、機械学習に対処可能な形式になっていない場合が多い。 機械学習データセットの構築について検討し、次のような質問をする: 効果的な機械学習データセットを定義する要素は何か? 天文学における効果的な機械学習データセットを、明確に定義されたデータポイント、構造、メタデータで形成するように定義する。 これらの要素が天文学的な応用に重要である理由と、それを実現する方法について議論する。 これらの品質が機械学習に適合するだけでなく、有用で再利用可能な、複製可能な科学プラクティスの育成にも役立ちます。

In this work, we identify elements of effective machine learning datasets in astronomy and present suggestions for their design and creation. Machine learning has become an increasingly important tool for analyzing and understanding the large-scale flood of data in astronomy. To take advantage of these tools, datasets are required for training and testing. However, building machine learning datasets for astronomy can be challenging. Astronomical data is collected from instruments built to explore science questions in a traditional fashion rather than to conduct machine learning. Thus, it is often the case that raw data, or even downstream processed data is not in a form amenable to machine learning. We explore the construction of machine learning datasets and we ask: what elements define effective machine learning datasets? We define effective machine learning datasets in astronomy to be formed with well-defined data points, structure, and metadata. We discuss why these elements are important for astronomical applications and ways to put them in practice. We posit that these qualities not only make the data suitable for machine learning, they also help to foster usable, reusable, and replicable science practices.
翻訳日:2022-11-29 20:26:16 公開日:2022-11-25
# スムーズな出力仮定とディープ・ネットワークがワイド・ネットワークより優れている理由

The smooth output assumption, and why deep networks are better than wide ones ( http://arxiv.org/abs/2211.14347v1 )

ライセンス: Link先を確認
Luis Sa-Couto, Jose Miguel Ramos, Andreas Wichert(参考訳) 複数のモデルが類似のトレーニングスコアを持つ場合、古典的なモデル選択ヒューリスティックはoccamのカミソリに従い、最小容量のモデルを選択することを推奨する。 しかし、大規模なニューラルネットワークによる現代的な実践は、トレーニングセットと全く同じ数のパラメータを持つ2つのネットワークのスコアが同じである状況につながることが多い。 このことを念頭に置いて、深層ネットワークは浅い幅のネットワークよりも優れているという認識が有力である。 しかし、理論的には両者の間に違いはない。 実際、どちらも普遍近似である。 本研究では,モデルがいかに一般化するかを予測する新しい教師なし尺度を提案する。 アウトプット・シャープネス(output sharpness)と呼び、実際には概念間の境界が一般的に非シャープであるという事実に基づいています。 この新しい尺度は、いくつかのニューラルネットワーク設定とアーキテクチャでテストし、メトリックとテストセットのパフォーマンスの相関関係が一般的に強いことを示す。 この測度を確立し、提案した測度と相関するネットワーク深度を予測する数学的確率論を導出する。 実際のデータでこれを検証した後、作業の重要な議論を定式化することができる: 出力シャープネスは一般化を阻害し、ディープネットワークはそれに対するバイアスが組み込まれている。 すべての作業において、モデル選択(あるいは正規化)に実際に使用できるオーバーフィッティングの有用な予測器を提供するだけでなく、現代のディープニューラルネットワークの成功に必要とされる理論基盤を提供する。

When several models have similar training scores, classical model selection heuristics follow Occam's razor and advise choosing the ones with least capacity. Yet, modern practice with large neural networks has often led to situations where two networks with exactly the same number of parameters score similar on the training set, but the deeper one generalizes better to unseen examples. With this in mind, it is well accepted that deep networks are superior to shallow wide ones. However, theoretically there is no difference between the two. In fact, they are both universal approximators. In this work we propose a new unsupervised measure that predicts how well a model will generalize. We call it the output sharpness, and it is based on the fact that, in reality, boundaries between concepts are generally unsharp. We test this new measure on several neural network settings, and architectures, and show how generally strong the correlation is between our metric, and test set performance. Having established this measure, we give a mathematical probabilistic argument that predicts network depth to be correlated with our proposed measure. After verifying this in real data, we are able to formulate the key argument of the work: output sharpness hampers generalization; deep networks have an in built bias against it; therefore, deep networks beat wide ones. All in all the work not only provides a helpful predictor of overfitting that can be used in practice for model selection (or even regularization), but also provides a much needed theoretical grounding for the success of modern deep neural networks.
翻訳日:2022-11-29 19:16:38 公開日:2022-11-25
# ホモロジー制約ベクトル量子化エントロピー正規化器

Homology-constrained vector quantization entropy regularizer ( http://arxiv.org/abs/2211.14363v1 )

ライセンス: Link先を確認
Ivan Volkov(参考訳) 本稿では, vq埋め込みの持続的ホモロジー解析に基づくベクトル量子化(vq)のためのエントロピー正規化項について述べる。 高次埋め込みエントロピーは、VQベースのオートエンコーダ[1]におけるアイデンティティとコードブック崩壊に対する過度な適合を緩和し、より高いコードブック利用と正に相関する。 ホモロジー制約付き正規化は、量子化された潜在空間における近似位相をミニバッチで平均的に保ちながら、VQ過程のエントロピー(入力エントロピーに近似)を高める効果的な方法であることを示す。 この研究は、ベクトル量子化によって形成された潜在体の永続ホモロジー図形のパターンをさらに探求する。 提案アルゴリズムをサンプルvq-vaeに統合したモジュールとして実装・テストする。 linked code repositoryは、ホモロジー制約ベクトル量子化(hc-vq)と呼ばれる提案されたアーキテクチャの機能実装を提供する。

This paper describes an entropy regularization term for vector quantization (VQ) based on the analysis of persistent homology of the VQ embeddings. Higher embedding entropy positively correlates with higher codebook utilization, mitigating overfit towards the identity and codebook collapse in VQ-based autoencoders [1]. We show that homology-constrained regularization is an effective way to increase entropy of the VQ process (approximated to input entropy) while preserving the approximated topology in the quantized latent space, averaged over mini batches. This work further explores some patterns of persistent homology diagrams of latents formed by vector quantization. We implement and test the proposed algorithm as a module integrated into a sample VQ-VAE. Linked code repository provides a functioning implementation of the proposed architecture, referred to as homology-constrained vector quantization (HC-VQ) further in this work.
翻訳日:2022-11-29 19:16:12 公開日:2022-11-25
# Mixture Manifold Networks: 逆モデリングのための計算効率の良いベースライン

Mixture Manifold Networks: A Computationally Efficient Baseline for Inverse Modeling ( http://arxiv.org/abs/2211.14366v1 )

ライセンス: Link先を確認
Gregory P. Spell, Simiao Ren, Leslie M. Collins, Jordan M. Malof(参考訳) 汎用逆問題に対する新しい手法の提案と有効性を示す。 逆モデリング(英: inverse modeling)とは、与えられた観測値の集合を生成する自然システムの制御パラメータを決定するタスクである。 最近の研究はディープラーニングによる印象的な結果を示しているが、モデルの性能と計算時間の間にはトレードオフがある。 一部のアプリケーションでは、最高の性能を持つ逆モデリング手法の推論時の計算時間は、その使用を過剰に禁止する可能性がある。 本稿では,複数の多様体を前方モデルアーキテクチャにおける後方モデル(例えば逆モデル)の混合として利用する新しい手法を提案する。 これらの複数の後方モデルはすべて共通フォワードモデルを共有し、トレーニングはフォワードモデルからトレーニング例を生成することで緩和される。 提案手法には2つの革新がある。 1)多重多様体混合ネットワーク(mmn)アーキテクチャ、及び 2)前方モデルを用いた後方モデルトレーニングデータの拡張を含むトレーニング手順。 提案手法の利点は,4つのベンチマーク逆問題に対するいくつかのベースラインと比較することで示し,さらにその設計を動機付ける分析を行う。

We propose and show the efficacy of a new method to address generic inverse problems. Inverse modeling is the task whereby one seeks to determine the control parameters of a natural system that produce a given set of observed measurements. Recent work has shown impressive results using deep learning, but we note that there is a trade-off between model performance and computational time. For some applications, the computational time at inference for the best performing inverse modeling method may be overly prohibitive to its use. We present a new method that leverages multiple manifolds as a mixture of backward (e.g., inverse) models in a forward-backward model architecture. These multiple backwards models all share a common forward model, and their training is mitigated by generating training examples from the forward model. The proposed method thus has two innovations: 1) the multiple Manifold Mixture Network (MMN) architecture, and 2) the training procedure involving augmenting backward model training data using the forward model. We demonstrate the advantages of our method by comparing to several baselines on four benchmark inverse problems, and we furthermore provide analysis to motivate its design.
翻訳日:2022-11-29 19:15:57 公開日:2022-11-25
# MDA: 可用性を考慮したフェデレーション学習クライアントの選択

MDA: Availability-Aware Federated Learning Client Selection ( http://arxiv.org/abs/2211.14391v1 )

ライセンス: Link先を確認
Amin Eslami Abyane, Steve Drew, Hadi Hemmati(参考訳) 近年,federated learning(fl)と呼ばれる新しい分散学習方式が導入された。 FLは、サーバがユーザーが所有するデータを収集しないように設計されている。 flのプロセスは、サーバがクライアントにモデルを送信することから始まり、クライアントはそのモデルを使ってトレーニングし、更新されたモデルをサーバに送信する。 その後、サーバはすべての更新を集約し、グローバルモデルを変更する。 このプロセスはモデルが収束するまで繰り返される。 本研究は,多数のクライアントをトレーニングするクロスデバイスFLというFL設定に焦点を当てた。 多くのデバイスはデバイス横断FLでは利用できないため、サーバとすべてのクライアント間の通信は非常にコストがかかるため、各ラウンドでトレーニングするために選択されるクライアントはごくわずかである。 バニラflでは、クライアントはランダムに選択されるため、許容できる精度は得られるが、トレーニング時間の観点からは理想的ではない。 高速なクライアントだけが選択されれば、学習はスピードアップするが、高速なクライアントのデータのみに偏り、精度が低下する。 その結果、個々のクライアントのリソースと速度を考慮し、トレーニング時間を改善する新しいクライアント選択手法が提案されている。 本稿では,MDA と呼ばれるアベイラビリティを考慮した最初の選択戦略を紹介する。 その結果,学習速度はvanilla flよりも最大6.5%向上した。 さらに,資源の不均質性認識手法は有効であるが,我々の手法と組み合わせるとさらに良くなり,最先端のセレクタよりも最大16%高速化できることを示した。 最後に、我々の手法は、高速クライアントのみを選択するクライアントセレクタと比較して、トレーニングのためのユニークなクライアントを選択する。

Recently, a new distributed learning scheme called Federated Learning (FL) has been introduced. FL is designed so that server never collects user-owned data meaning it is great at preserving privacy. FL's process starts with the server sending a model to clients, then the clients train that model using their data and send the updated model back to the server. Afterward, the server aggregates all the updates and modifies the global model. This process is repeated until the model converges. This study focuses on an FL setting called cross-device FL, which trains based on a large number of clients. Since many devices may be unavailable in cross-device FL, and communication between the server and all clients is extremely costly, only a fraction of clients gets selected for training at each round. In vanilla FL, clients are selected randomly, which results in an acceptable accuracy but is not ideal from the overall training time perspective, since some clients are slow and can cause some training rounds to be slow. If only fast clients get selected the learning would speed up, but it will be biased toward only the fast clients' data, and the accuracy degrades. Consequently, new client selection techniques have been proposed to improve the training time by considering individual clients' resources and speed. This paper introduces the first availability-aware selection strategy called MDA. The results show that our approach makes learning faster than vanilla FL by up to 6.5%. Moreover, we show that resource heterogeneity-aware techniques are effective but can become even better when combined with our approach, making it faster than the state-of-the-art selectors by up to 16%. Lastly, our approach selects more unique clients for training compared to client selectors that only select fast clients, which reduces our technique's bias.
翻訳日:2022-11-29 19:15:42 公開日:2022-11-25
# 非連続学習によるリンク予測

Link Prediction with Non-Contrastive Learning ( http://arxiv.org/abs/2211.14394v1 )

ライセンス: Link先を確認
William Shiao, Zhichun Guo, Tong Zhao, Evangelos E. Papalexakis, Yozen Liu, Neil Shah(参考訳) グラフニューラルネットワーク(GNN)の空間における最近の焦点領域は、ラベル付きデータなしで有用なノード表現を導出することを目的としたグラフ自己教師型学習(SSL)である。 特に、最先端のグラフSSLメソッドの多くは、正と負のサンプルを組み合わせてノード表現を学習するコントラスト的手法である。 負のサンプリング(スローネスとモデル感度)の課題のため、最近の文献では非競合的手法を導入し、代わりに正のサンプルのみを使用した。 このような手法はノードレベルのタスクで有望な性能を示すが、ノードのペア間のリンク存在の予測(およびレコメンデーションシステムコンテキストへの幅広い適用性)にかかわるリンク予測タスクへの適合性はまだ未解明である。 本研究では,トランスダクティブ設定とインダクティブ設定の両方において,リンク予測のための既存の非連続的手法の性能を広範囲に評価する。 既存の非推移的手法のほとんどは全体的な性能が悪いが、驚くべきことに、bgrlは一般的にトランスダクティブな設定でよく機能する。 しかし、モデルが見当たらないノードへのリンクを一般化する必要がある、より現実的なインダクティブな設定ではうまく機能しない。 我々は、非矛盾モデルがトレーニンググラフに過剰に適合する傾向にあり、この分析を用いて、モデルの一般化能力を改善するために、安価な腐敗を組み込んだ新しい非矛盾フレームワークであるt-bgrlを提案する。 この単純な修正によって、データセットの5/6でのインダクティブパフォーマンスが大幅に向上し、Hits@50の最大120%の改善が、他の非コントラストベースラインと同等の速度で、最高のパフォーマンスのコントラストベースラインよりも最大14倍高速になった。 我々の研究は、リンク予測のための非コントラスト学習に関する興味深い知見を与え、将来研究者がこの領域をさらに拡大する道を開く。

A recent focal area in the space of graph neural networks (GNNs) is graph self-supervised learning (SSL), which aims to derive useful node representations without labeled data. Notably, many state-of-the-art graph SSL methods are contrastive methods, which use a combination of positive and negative samples to learn node representations. Owing to challenges in negative sampling (slowness and model sensitivity), recent literature introduced non-contrastive methods, which instead only use positive samples. Though such methods have shown promising performance in node-level tasks, their suitability for link prediction tasks, which are concerned with predicting link existence between pairs of nodes (and have broad applicability to recommendation systems contexts) is yet unexplored. In this work, we extensively evaluate the performance of existing non-contrastive methods for link prediction in both transductive and inductive settings. While most existing non-contrastive methods perform poorly overall, we find that, surprisingly, BGRL generally performs well in transductive settings. However, it performs poorly in the more realistic inductive settings where the model has to generalize to links to/from unseen nodes. We find that non-contrastive models tend to overfit to the training graph and use this analysis to propose T-BGRL, a novel non-contrastive framework that incorporates cheap corruptions to improve the generalization ability of the model. This simple modification strongly improves inductive performance in 5/6 of our datasets, with up to a 120% improvement in Hits@50--all with comparable speed to other non-contrastive baselines and up to 14x faster than the best-performing contrastive baseline. Our work imparts interesting findings about non-contrastive learning for link prediction and paves the way for future researchers to further expand upon this area.
翻訳日:2022-11-29 19:15:15 公開日:2022-11-25
# 機械学習, 自然言語処理による若者の視点分析:持続可能な青年開発政策のキートレンドと焦点領域

A Machine Learning, Natural Language Processing Analysis of Youth Perspectives: Key Trends and Focus Areas for Sustainable Youth Development Policies ( http://arxiv.org/abs/2211.14321v1 )

ライセンス: Link先を確認
Kushaagra Gupta(参考訳) 子供と若者への投資は、現在の世代と将来の世代のための包括的で公平で持続可能な発展への重要なステップである。 共通のグローバル目標を達成するためのいくつかの国際議題は、活動的な青少年参加と持続可能な開発への関与の必要性を強調している。 2030年の持続可能な開発のためのアジェンダでは、17の持続可能な開発目標のそれぞれに取り組むための重要なステップとして、若者の参加の必要性と若者の視点の必要性を強調している。 本研究の目的は、機械学習を用いたソーシャルネットワーク分析を通じて、持続可能開発目標17の課題に対する若者の視点、価値観、感情を分析することである。 子どもと若者のエンゲージメントを目的とした7つの主要なサステナビリティ会議で収集されたソーシャルネットワークデータを,感情分析のための自然言語処理技術を用いて分析した。 本研究は,社会ネットワークデータのサンプルデータセット上で学習した自然言語処理テキスト分類器を用いて7つの青年持続可能性会議において分類した。 機械学習は、年齢、性別、人種間の偏りと人口差を識別するために、人口特性と地域特性と特徴を識別する。 自然言語処理を用いて、3言語で7つの異なる国から収集された質的データは体系的に翻訳され、分類され、分析され、持続可能な若者開発政策のための重要なトレンドと焦点領域を明らかにする。 その結果,青少年の持続的発展に関する知識の深さ,および17個のsdgに対する態度が明らかになった。 本研究の成果は,2030年度の目標達成における子どもと若者の関心,役割,展望をより深く理解するための指針となる。

Investing in children and youth is a critical step towards inclusive, equitable, and sustainable development for current and future generations. Several international agendas for accomplishing common global goals emphasize the need for active youth participation and engagement for sustainable development. The 2030 Agenda for Sustainable Development emphasizes the need for youth engagement and the inclusion of youth perspectives as an important step toward addressing each of the 17 Sustainable Development Goals. The aim of this study is to analyze youth perspectives, values, and sentiments towards issues addressed by the 17 Sustainable Development Goals through social network analysis using machine learning. Social network data collected during 7 major sustainability conferences aimed at engaging children and youth is analyzed using natural language processing techniques for sentiment analysis. This data categorized using a natural language processing text classifier trained on a sample dataset of social network data during the 7 youth sustainability conferences for deeper understanding of youth perspectives in relation to the SDGs. Machine learning identified demographic and location attributes and features are utilized in order to identify bias and demographic differences between ages, gender, and race among youth. Using natural language processing, the qualitative data collected from over 7 different countries in 3 languages are systematically translated, categorized, and analyzed, revealing key trends and focus areas for sustainable youth development policies. The obtained results reveal the general youth's depth of knowledge on sustainable development and their attitudes towards each of the 17 SDGs. The findings of this study serve as a guide toward better understanding the interests, roles, and perspectives of children and youth in achieving the goals of Agenda 2030.
翻訳日:2022-11-29 19:05:50 公開日:2022-11-25
# モデル空間におけるgprと学習に基づく地下診断

Underground Diagnosis Based on GPR and Learning in the Model Space ( http://arxiv.org/abs/2211.15480v1 )

ライセンス: Link先を確認
Ao Chen, Xiren Zhou, Yizhan Fan, Huanhuan Chen(参考訳) 地中レーダ(GPR)はパイプライン検出や地下診断に広く用いられている。 実用化においては,gprデータを完全に解析する前に検出領域のgprデータとおそらくは地下異常構造の特性が認識されることは稀であり,地下構造や異常を自動的に同定することが困難となる。 本稿では,モデル空間における学習に基づくGPR Bスキャン画像診断手法を提案する。 モデル空間での学習の考え方は、データのより安定的で控えめな表現として、データの一部に適合したモデルを使用することである。 GPR画像に対しては,次の項目の予測を通じて画像セグメントに適合する2次元エコー状態ネットワーク(2D-ESN)を提案する。 水平方向と垂直方向の両方で画像上の点間の接続を構築することにより、2D-ESNはGPR画像セグメント全体を考慮し、GPR画像の動的特性を効果的に捉えることができる。 そして、地下診断のための2D-ESNモデルに、半教師付きおよび教師付き学習法をさらに実装することができる。 実世界のデータセットの実験を行い,提案モデルの有効性を実証した。

Ground Penetrating Radar (GPR) has been widely used in pipeline detection and underground diagnosis. In practical applications, the characteristics of the GPR data of the detected area and the likely underground anomalous structures could be rarely acknowledged before fully analyzing the obtained GPR data, causing challenges to identify the underground structures or abnormals automatically. In this paper, a GPR B-scan image diagnosis method based on learning in the model space is proposed. The idea of learning in the model space is to use models fitted on parts of data as more stable and parsimonious representations of the data. For the GPR image, 2-Direction Echo State Network (2D-ESN) is proposed to fit the image segments through the next item prediction. By building the connections between the points on the image in both the horizontal and vertical directions, the 2D-ESN regards the GPR image segment as a whole and could effectively capture the dynamic characteristics of the GPR image. And then, semi-supervised and supervised learning methods could be further implemented on the 2D-ESN models for underground diagnosis. Experiments on real-world datasets are conducted, and the results demonstrate the effectiveness of the proposed model.
翻訳日:2022-11-29 18:57:52 公開日:2022-11-25
# 3次元歯科モデルと2次元パノラマ画像からの歯の塗布

ToothInpaintor: Tooth Inpainting from Partial 3D Dental Model and 2D Panoramic Image ( http://arxiv.org/abs/2211.15502v1 )

ライセンス: Link先を確認
Yuezhi Yang, Zhiming Cui, Changjian Li, Wenping Wang(参考訳) 矯正治療においては、クラウンとルートの両方からなる全歯モデルが治療計画の作成に不可欠である。 しかし,CBCT 画像から歯根情報を取得して歯根モデルを得る場合,CBCT スキャンの大量放射線により制限されることがある。 したがって、部分的口腔内スキャンや2Dパノラマ画像など、使用可能な入力から全歯形を再構築することは、適用可能で価値のあるソリューションである。 本稿では, 部分的な3次元歯科モデルと2次元パノラマ画像とを入力として, 高品質な根で全歯モデルを再構築するTothInpaintorというニューラルネットワークを提案する。 技術的には、3D入力と2D入力の両方に暗黙表現を使用し、全歯形の潜在空間を学習する。 実験時, 入力が与えられた場合, ニューラルネットワークを用いて学習した潜伏空間に投影し, 入力に条件付き歯の完全なモデルを得る。 堅牢なプロジェクションを見つけるのに役立つために、新しい逆学習モジュールをパイプラインで利用しています。 本手法は実世界の診療所から収集したデータセットに対して広範に評価する。 評価, 比較, 包括的アブレーション研究により, 本手法は歯の正確な模型を頑健に生成し, 最先端の方法よりも優れていることが示された。

In orthodontic treatment, a full tooth model consisting of both the crown and root is indispensable in making the treatment plan. However, acquiring tooth root information to obtain the full tooth model from CBCT images is sometimes restricted due to the massive radiation of CBCT scanning. Thus, reconstructing the full tooth shape from the ready-to-use input, e.g., the partial intra-oral scan and the 2D panoramic image, is an applicable and valuable solution. In this paper, we propose a neural network, called ToothInpaintor, that takes as input a partial 3D dental model and a 2D panoramic image and reconstructs the full tooth model with high-quality root(s). Technically, we utilize the implicit representation for both the 3D and 2D inputs, and learn a latent space of the full tooth shapes. At test time, given an input, we successfully project it to the learned latent space via neural optimization to obtain the full tooth model conditioned on the input. To help find the robust projection, a novel adversarial learning module is exploited in our pipeline. We extensively evaluate our method on a dataset collected from real-world clinics. The evaluation, comparison, and comprehensive ablation studies demonstrate that our approach produces accurate complete tooth models robustly and outperforms the state-of-the-art methods.
翻訳日:2022-11-29 18:57:33 公開日:2022-11-25
# Chart-RCNN: カメラ画像からの効率的なラインチャートデータ抽出

Chart-RCNN: Efficient Line Chart Data Extraction from Camera Images ( http://arxiv.org/abs/2211.14362v1 )

ライセンス: Link先を確認
Shufan Li, Congxi Lu, Linkai Li, Haoshuai Zhou(参考訳) ラインチャートデータ抽出は光学文字認識の自然な拡張であり、グラフ画像が表す基礎となる数値情報を復元することが目的である。 ChartOCRのような最近の研究は、OCRモデルとオブジェクト検出フレームワークを組み合わせたマルチステージネットワークを用いてこの問題にアプローチしている。 しかし、既存のデータセットやモデルのほとんどは、カメラ写真と大きく異なるスクリーンショットのような"クリーン"なイメージに基づいている。 さらに、ドメイン固有の新しいデータセットを作成するには、時間を要する広範なラベル付けが必要である。 我々は,テキストラベル,マーク座標,視点推定を同時に出力する合成データ生成フレームワークとワンステージモデルを提案する。 実際のカメラ写真からなる2つのデータセットを収集し,評価を行った。 その結果, 合成データのみを訓練したモデルは, 微調整することなく実写真に適用でき, 実世界に適用できることがわかった。

Line Chart Data Extraction is a natural extension of Optical Character Recognition where the objective is to recover the underlying numerical information a chart image represents. Some recent works such as ChartOCR approach this problem using multi-stage networks combining OCR models with object detection frameworks. However, most of the existing datasets and models are based on "clean" images such as screenshots that drastically differ from camera photos. In addition, creating domain-specific new datasets requires extensive labeling which can be time-consuming. Our main contributions are as follows: we propose a synthetic data generation framework and a one-stage model that outputs text labels, mark coordinates, and perspective estimation simultaneously. We collected two datasets consisting of real camera photos for evaluation. Results show that our model trained only on synthetic data can be applied to real photos without any fine-tuning and is feasible for real-world application.
翻訳日:2022-11-29 17:53:43 公開日:2022-11-25
# 大規模な童話におけるジェンダーバイアスの道徳的・事象中心的検証

A Moral- and Event- Centric Inspection of Gender Bias in Fairy Tales at A Large Scale ( http://arxiv.org/abs/2211.14358v1 )

ライセンス: Link先を確認
Zhixuan Zhou, Jiao Sun, Jiaxin Pei, Nanyun Peng and Jinjun Xiong(参考訳) 童話は、幼児が言語を学び、社会がどのように機能するかを理解するための共通の資源である。 しかし、この文学における性バイアス(例えば、ステレオタイプ的なジェンダーの役割)は、子どもの世界観を損なう可能性がある。 7つの異なる文化の624の童話を含む童話データセットにおいて、童話における性バイアスを何十年も質的かつ手作業で分析する代わりに、性バイアスを計算的に分析する。 具体的には,人間道徳の尺度であるモラル基盤と,個性に関連する人間の活動を明らかにする出来事の観点で,男女差を具体的に検討する。 男性キャラクターの数は女性キャラクターの2倍であり、男女表現が不均等であることが判明した。 さらに,モラル基盤や出来事の観点から,男女のキャラクターのステレオタイプ的描写についても分析を行った。 女性キャラクターは、ケア、忠誠、聖なる道徳的な言葉とより関連し、男性キャラクターはフェアネス、権威に関する道徳的な単語とより関連がある。 女性キャラクターの出来事は、しばしば感情(例えば、泣く)、外見(例えば、コム)、家庭(例えば、ケーキ)などに関するものである。 男性キャラクターの出来事は、職業(例えば狩り)、暴力(例えば破壊)、正義(例えば裁判官)などに関するものである。 道徳的基盤の観点でジェンダーバイアスは、文化間で明らかな違いを示している。 例えば、女性キャラクターは、変化や予測不能に対する開放性が低い高い不確実性回避文化において、ケアや尊厳とより関連がある。 この結果をもとに,児童文学と早期リテラシー研究への示唆を提案する。

Fairy tales are a common resource for young children to learn a language or understand how a society works. However, gender bias, e.g., stereotypical gender roles, in this literature may cause harm and skew children's world view. Instead of decades of qualitative and manual analysis of gender bias in fairy tales, we computationally analyze gender bias in a fairy tale dataset containing 624 fairy tales from 7 different cultures. We specifically examine gender difference in terms of moral foundations, which are measures of human morality, and events, which reveal human activities associated with each character. We find that the number of male characters is two times that of female characters, showing a disproportionate gender representation. Our analysis further reveal stereotypical portrayals of both male and female characters in terms of moral foundations and events. Female characters turn out more associated with care-, loyalty- and sanctity- related moral words, while male characters are more associated with fairness- and authority- related moral words. Female characters' events are often about emotion (e.g., weep), appearance (e.g., comb), household (e.g., bake), etc.; while male characters' events are more about profession (e.g., hunt), violence (e.g., destroy), justice (e.g., judge), etc. Gender bias in terms of moral foundations shows an obvious difference across cultures. For example, female characters are more associated with care and sanctity in high uncertainty-avoidance cultures which are less open to changes and unpredictability. Based on the results, we propose implications for children's literature and early literacy research.
翻訳日:2022-11-29 17:29:43 公開日:2022-11-25
# 部分アノテーション付きNERコーパスの微細化

Finetuning BERT on Partially Annotated NER Corpora ( http://arxiv.org/abs/2211.14360v1 )

ライセンス: Link先を確認
Viktor Scherbakov and Vladimir Mayorov(参考訳) ほとんどの名前付きエンティティ認識(NER)モデルは、トレーニングデータセットが完全にラベル付けされているという前提の下で動作します。 CoNLL 2003やOntoNotesのような確立したデータセットには有効だが、完全なデータセットアノテーションを取得することは不可能である場合もある。 これらの状況は、例えばコスト削減のためのエンティティの選択的アノテーションの後に起こりうる。 この研究は、自己スーパービジョンとラベル前処理を用いて、部分ラベル付きデータセット上でBERTを微調整するアプローチを示す。 提案手法は従来のLSTMベースのラベル前処理ベースラインよりも優れており,ラベル付きデータセットの性能は著しく向上している。 我々は、CoNLL 2003データセット上でRoBERTaを微調整しながら、ラベル付けされた全エンティティの10%しか持たず、同じデータセット上でトレーニングされたベースラインのパフォーマンスとラベル付けされたエンティティの50%に到達できることを示した。

Most Named Entity Recognition (NER) models operate under the assumption that training datasets are fully labelled. While it is valid for established datasets like CoNLL 2003 and OntoNotes, sometimes it is not feasible to obtain the complete dataset annotation. These situations may occur, for instance, after selective annotation of entities for cost reduction. This work presents an approach to finetuning BERT on such partially labelled datasets using self-supervision and label preprocessing. Our approach outperforms the previous LSTM-based label preprocessing baseline, significantly improving the performance on poorly labelled datasets. We demonstrate that following our approach while finetuning RoBERTa on CoNLL 2003 dataset with only 10% of total entities labelled is enough to reach the performance of the baseline trained on the same dataset with 50% of the entities labelled.
翻訳日:2022-11-29 17:29:17 公開日:2022-11-25
# the naughtyformer: トランスフォーマーは不快なユーモアを理解する

The Naughtyformer: A Transformer Understands Offensive Humor ( http://arxiv.org/abs/2211.14369v1 )

ライセンス: Link先を確認
Leonard Tang, Alexander Cai, Steve Li, Jason Wang(参考訳) 冗談はわざと笑うように書かれるが、全てのジョークが同じように作られるわけではない。 いくつかのジョークは幼稚園の教室に合うかもしれないが、他のジョークはより成熟した観客に最も適している。 最近の研究は、テキスト中のユーモアの検出に関する印象的な結果を示しているが、代わりに、ユーモアのサブタイプ、特に無邪気でない種類の検出という、より微妙なタスクを調査している。 そこで我々は,Reddit から抽出された新しいジョークデータセットを導入し,Naughtyformer と呼ばれる微調整トランスフォーマーを用いてサブタイプ分類課題を解決する。 さらに, 本モデルは, 最先端手法と比較して, ジョークにおける攻撃性の検出に極めて優れていることを示す。

Jokes are intentionally written to be funny, but not all jokes are created the same. Some jokes may be fit for a classroom of kindergarteners, but others are best reserved for a more mature audience. While recent work has shown impressive results on humor detection in text, here we instead investigate the more nuanced task of detecting humor subtypes, especially of the less innocent variety. To that end, we introduce a novel jokes dataset filtered from Reddit and solve the subtype classification task using a finetuned Transformer dubbed the Naughtyformer. Moreover, we show that our model is significantly better at detecting offensiveness in jokes compared to state-of-the-art methods.
翻訳日:2022-11-29 17:28:53 公開日:2022-11-25
# より少ないデータと知識:次世代セマンティック・コミュニケーション・ネットワークの構築

Less Data, More Knowledge: Building Next Generation Semantic Communication Networks ( http://arxiv.org/abs/2211.14343v1 )

ライセンス: Link先を確認
Christina Chaccour, Walid Saad, Merouane Debbah, Zhu Han, H. Vincent Poor(参考訳) セマンティックコミュニケーションは、ワイヤレス通信システムの設計と運用方法を変える可能性を秘めている革命的パラダイムと見なされている。 しかし、近年の研究活動が急増しているにもかかわらず、研究現場は限られている。 本稿では,人工知能(AI)や因果推論,コミュニケーション理論といった新しい概念に基づいて構築された,スケーラブルなエンドツーエンドのセマンティックコミュニケーションネットワークの最初の厳密なビジョンを示す。 まず,セマンティック・コミュニケーション・ネットワークの設計において,データ駆動型ネットワークから知識駆動ネットワークへの移行がいかに必要かについて議論する。 次に、最小主義、一般化可能性、効率性のキー特性を満たすデータの意味表現を作成することの必要性を強調し、より少ない処理で行う。 次に、これらの表現が、いわゆるセマンティック言語の基礎を形成する方法について説明する。 意味表現と言語を用いて,従来の送信機と受信機が教師と見習いになることを示す。 そこで我々は,因果表現学習の基礎とその意味的コミュニケーションネットワーク設計における役割を解明し,推論の概念を定義した。 推論能力は,データストリームにおける因果関係や関連関係を捉える能力によって特徴付けられる。 このような推論駆動型ネットワークでは、シャノンの限界を超えて計算と通信の収束を捉えることのできる新しい「推論能力」を含む、新しく不可欠なセマンティック通信メトリクスを提案する。 最後に,大規模ネットワーク (6g以降) への意味コミュニケーションのスケールアップについて述べる。 簡単に言うと、このチュートリアルは将来のセマンティックコミュニケーションネットワークを適切に構築、分析、デプロイする方法に関する包括的なリファレンスを提供することを期待している。

Semantic communication is viewed as a revolutionary paradigm that can potentially transform how we design and operate wireless communication systems. However, despite a recent surge of research activities in this area, the research landscape remains limited. In this tutorial, we present the first rigorous vision of a scalable end-to-end semantic communication network that is founded on novel concepts from artificial intelligence (AI), causal reasoning, and communication theory. We first discuss how the design of semantic communication networks requires a move from data-driven networks towards knowledge-driven ones. Subsequently, we highlight the necessity of creating semantic representations of data that satisfy the key properties of minimalism, generalizability, and efficiency so as to do more with less. We then explain how those representations can form the basis a so-called semantic language. By using semantic representation and languages, we show that the traditional transmitter and receiver now become a teacher and apprentice. Then, we define the concept of reasoning by investigating the fundamentals of causal representation learning and their role in designing semantic communication networks. We demonstrate that reasoning faculties are majorly characterized by the ability to capture causal and associational relationships in datastreams. For such reasoning-driven networks, we propose novel and essential semantic communication metrics that include new "reasoning capacity" measures that could go beyond Shannon's bound to capture the convergence of computing and communication. Finally, we explain how semantic communications can be scaled to large-scale networks (6G and beyond). In a nutshell, we expect this tutorial to provide a comprehensive reference on how to properly build, analyze, and deploy future semantic communication networks.
翻訳日:2022-11-29 17:19:28 公開日:2022-11-25
# コピュラ密度ニューラル推定

Copula Density Neural Estimation ( http://arxiv.org/abs/2211.15353v1 )

ライセンス: Link先を確認
Nunzio A. Letizia, Andrea M. Tonello(参考訳) 観測データからの確率密度推定は統計学における中心的な課題である。 機械学習の最近の進歩は、新しいツールを提供するが、新しい課題ももたらす。 ビッグデータの時代は、大量の生データに対する長期的空間的および長期的依存関係の分析を必要とし、ニューラルネットワークを密度推定のための魅力的なソリューションにする。 本稿では,任意の観測データに付随する確率密度関数を明示的に推定するために,copulaの概念を利用する。 特に,データの結合依存構造であるcopula自体から不定限界分布を分離し,後者をcopula密度神経推定(codine)と呼ばれるニューラルネットワークに基づく手法でモデル化する。 その結果,新しい学習手法は複雑な分布をモデル化することができ,相互情報推定やデータ生成にも応用できることがわかった。

Probability density estimation from observed data constitutes a central task in statistics. Recent advancements in machine learning offer new tools but also pose new challenges. The big data era demands analysis of long-range spatial and long-term temporal dependencies in large collections of raw data, rendering neural networks an attractive solution for density estimation. In this paper, we exploit the concept of copula to explicitly build an estimate of the probability density function associated to any observed data. In particular, we separate univariate marginal distributions from the joint dependence structure in the data, the copula itself, and we model the latter with a neural network-based method referred to as copula density neural estimation (CODINE). Results show that the novel learning approach is capable of modeling complex distributions and it can be applied for mutual information estimation and data generation.
翻訳日:2022-11-29 17:10:43 公開日:2022-11-25
# 線維症検出のための放射能に基づく機械学習の総合的研究

A Comprehensive Study of Radiomics-based Machine Learning for Fibrosis Detection ( http://arxiv.org/abs/2211.14396v1 )

ライセンス: Link先を確認
Jay J. Yoo, Khashayar Namdar, Chris McIntosh, Farzad Khalvati and Patrik Rogalla(参考訳) 目的:肝線維症の早期発見は疾患の治療や疾患の進行の予防に役立つ。 我々は,CT画像における機械学習による線維化検出の総合的研究を行い,非侵襲的線維化検出法を開発した。 方法: 肝生検およびCT検査を同時施行した182例のCT像から, 生検部位と生検部位から離れた部位の2種類の放射能像を抽出した。 コントラスト, 正規化, 機械学習モデル, 特徴選択法, ビン幅, カーネル半径の組合せについて検討し, ランダム化開発, テストコホートを100回行った。 最適な設定は平均テストAUCに基づいて評価され、最高の設定の頻度に基づいて最適な特徴が決定された。 結果: nc画像を用いたロジスティック回帰モデルは,$\gamma = 1.5$のガンマ補正により正常化した。 ボルタは放射線特徴選択法に最適であった。 これらの最適設定と特徴を1次エネルギー、第1次カルテシス、第1次スキューネスからなるモデルを用いてトレーニングした結果、バイオプシーベースと非バイオプシーROIで平均AUCが0.7549および0.7166に達し、最初の研究で見いだされたベースラインとベストモデルを上回った。 結論: ガンマ補正法を用いて正規化したNC画像からの放射能特性を訓練したロジスティック回帰モデルにおいて, ボルタ特徴選択による肝線維化検出に有効である。 エネルギー, クルトシス, スキューネスは線維化の検出に特に有効な特徴である。

Objectives: Early detection of liver fibrosis can help cure the disease or prevent disease progression. We perform a comprehensive study of machine learning-based fibrosis detection in CT images using radiomic features to develop a non-invasive approach to fibrosis detection. Methods: Two sets of radiomic features were extracted from spherical ROIs in CT images of 182 patients who underwent simultaneous liver biopsy and CT examinations, one set corresponding to biopsy locations and another distant from biopsy locations. Combinations of contrast, normalization, machine learning model, feature selection method, bin width, and kernel radius were investigated, each of which were trained and evaluated 100 times with randomized development and test cohorts. The best settings were evaluated based on their mean test AUC and the best features were determined based on their frequency among the best settings. Results: Logistic regression models with NC images normalized using Gamma correction with $\gamma = 1.5$ performed best for fibrosis detection. Boruta was the best for radiomic feature selection method. Training a model using these optimal settings and features consisting of first order energy, first order kurtosis, and first order skewness, resulted in a model that achieved mean test AUCs of 0.7549 and 0.7166 on biopsy-based and non-biopsy ROIs respectively, outperforming a baseline and best models found during the initial study. Conclusions: Logistic regression models trained on radiomic features from NC images normalized using Gamma correction with $\gamma = 1.5$ that underwent Boruta feature selection are effective for liver fibrosis detection. Energy, kurtosis, and skewness are particularly effective features for fibrosis detection.
翻訳日:2022-11-29 17:09:53 公開日:2022-11-25
# グラフニューラルネットワークを用いたファインマン図の学習

Learning Feynman Diagrams using Graph Neural Networks ( http://arxiv.org/abs/2211.15348v1 )

ライセンス: Link先を確認
Harrison Mitchell, Alexander Norcliffe, Pietro Li\`o(参考訳) 素粒子物理学における機械学習の人気が高まる中、この研究はファインマン図形上の幾何学的深層学習の新しい応用を見出し、量子場理論の解析に使用できる可能性を持つ精度と高速な行列要素予測を可能にした。 本研究は、行列要素の予測を90%以上の有意な数値精度で行うグラフアテンション層を用いている。 ピーク性能は、200エポック未満のトレーニングで10%以上の時間で3つの重要なフィギュアの精度を予測し、パフォーマンス向上のために将来の作品が構築できる概念の証明として機能した。 最後に,非摂動的計算を表現する効果的な粒子でファインマン図形を構築することで,量子場理論の進歩をネットワークで実現する手法を提案する。

In the wake of the growing popularity of machine learning in particle physics, this work finds a new application of geometric deep learning on Feynman diagrams to make accurate and fast matrix element predictions with the potential to be used in analysis of quantum field theory. This research uses the graph attention layer which makes matrix element predictions to 1 significant figure accuracy above 90% of the time. Peak performance was achieved in making predictions to 3 significant figure accuracy over 10% of the time with less than 200 epochs of training, serving as a proof of concept on which future works can build upon for better performance. Finally, a procedure is suggested, to use the network to make advancements in quantum field theory by constructing Feynman diagrams with effective particles that represent non-perturbative calculations.
翻訳日:2022-11-29 17:00:21 公開日:2022-11-25
# ソボレフ空間上の深層reluニューラルネットワークの最適近似速度

Optimal Approximation Rates for Deep ReLU Neural Networks on Sobolev Spaces ( http://arxiv.org/abs/2211.14400v1 )

ライセンス: Link先を確認
Jonathan W. Siegel(参考訳) パラメータ数の観点から、ReLUアクティベーション関数を持つディープニューラルネットワークがソボレフ空間$W^s(L_q(\Omega))$の有界領域$\Omega$の関数をいかに効率的に近似できるかを研究し、その誤差を$L_p(\Omega)$で測定する。 この問題は、科学計算におけるニューラルネットワークの応用を研究する上で重要であり、以前は$p=q=infty$の場合のみ解決されていた。 私たちの貢献は、$1\leq p,q\leq \infty$と$s > 0$に対するソリューションを提供することです。 以上の結果から,深いReLUネットワークは古典的近似法よりも優れているが,これは符号化不可能なパラメータのコストがかかることが示唆された。

We study the problem of how efficiently, in terms of the number of parameters, deep neural networks with the ReLU activation function can approximate functions in the Sobolev space $W^s(L_q(\Omega))$ on a bounded domain $\Omega$, where the error is measured in $L_p(\Omega)$. This problem is important for studying the application of neural networks in scientific computing and has previously been solved only in the case $p=q=\infty$. Our contribution is to provide a solution for all $1\leq p,q\leq \infty$ and $s > 0$. Our results show that deep ReLU networks significantly outperform classical methods of approximation, but that this comes at the cost of parameters which are not encodable.
翻訳日:2022-11-29 16:59:52 公開日:2022-11-25
# 新型ウイルス検出のための深部モデルの解釈可能性解析

Interpretability Analysis of Deep Models for COVID-19 Detection ( http://arxiv.org/abs/2211.14372v1 )

ライセンス: Link先を確認
Daniel Peixoto Pinto da Silva, Edresson Casanova, Lucas Rafael Stefanel Gris, Arnaldo Candido Junior, Marcelo Finger, Flaviane Svartman, Beatriz Raposo, Marcus Vin\'icius Moreira Martins, Sandra Maria Alu\'isio, Larissa Cristina Berti, Jo\~ao Paulo Teixeira(参考訳) 新型コロナウイルスの感染拡大を受け、いくつかの研究分野がSARS-CoV-2による被害の軽減に協力した。 本稿では,音声における新型コロナウイルス検出のための畳み込みニューラルネットワークモデルの解析可能性について述べる。 モデル決定プロセスにおいてどの特徴が重要であるか, スペクトル, F0, F0標準偏差, 性別, 年齢について検討する。 次に, 学習モデルに対する熱マップを作成し, 意思決定過程における注意を捉えることにより, モデル決定を分析する。 説明可能な知性に基づく人工的アプローチに着目し,適切な前処理ステップを考慮すれば,学習セットに散発的なデータが存在する場合でも,学習モデルが偏りのない意思決定を行えることを示す。 我々の最良のモデルでは、94.44%の精度が検出されており、決定プロセス、特にプロソディドドメインに関連する分光器の高エネルギー領域において、モデルがスペクトログラムを好んでいることを示している。

During the outbreak of COVID-19 pandemic, several research areas joined efforts to mitigate the damages caused by SARS-CoV-2. In this paper we present an interpretability analysis of a convolutional neural network based model for COVID-19 detection in audios. We investigate which features are important for model decision process, investigating spectrograms, F0, F0 standard deviation, sex and age. Following, we analyse model decisions by generating heat maps for the trained models to capture their attention during the decision process. Focusing on a explainable Inteligence Artificial approach, we show that studied models can taken unbiased decisions even in the presence of spurious data in the training set, given the adequate preprocessing steps. Our best model has 94.44% of accuracy in detection, with results indicating that models favors spectrograms for the decision process, particularly, high energy areas in the spectrogram related to prosodic domains, while F0 also leads to efficient COVID-19 detection.
翻訳日:2022-11-29 16:44:33 公開日:2022-11-25
# 複数の言語にまたがるBERT変数における社会的バイアスの分析

An Analysis of Social Biases Present in BERT Variants Across Multiple Languages ( http://arxiv.org/abs/2211.14402v1 )

ライセンス: Link先を確認
Aristides Milios (1 and 2), Parishad BehnamGhader (1 and 2) ((1) McGill University, (2) Mila)(参考訳) 多くのNLPタスクにおいて、大きな事前学習言語モデルは大きな成功を収めてきたが、それらは事前学習コーパスからの人間のバイアスを反映していることが示されている。 このバイアスは、実際の設定でこれらのモデルを適用する場合、望ましくない結果をもたらす可能性がある。 本稿では,多種多様な言語(英語,ギリシア語,ペルシア語)における単言語bertモデルにおけるバイアスについて検討する。 近年の研究は、主にジェンダーに関連するバイアスに焦点を当ててきたが、宗教や民族のバイアスも分析し、文章の擬類似性に基づいて任意の種類のバイアスを測定するテンプレートベースの手法を提案している。 本手法により,各単言語モデルを分析し,バイアスの異なる次元における文化的類似性と差異を可視化する。 最終的に、バイアスを求める現在の方法は非常に言語に依存しており、それぞれの言語や文化(例えば、コード化された言語、シナコドチェ、その他の類似した言語概念)でバイアスが表現される方法に関する文化的洞察が必要であると結論づける。 また、非英語のBERTモデルにおける高い社会的バイアスは、トレーニング中のユーザ生成コンテンツと相関する、という仮説を立てた。

Although large pre-trained language models have achieved great success in many NLP tasks, it has been shown that they reflect human biases from their pre-training corpora. This bias may lead to undesirable outcomes when these models are applied in real-world settings. In this paper, we investigate the bias present in monolingual BERT models across a diverse set of languages (English, Greek, and Persian). While recent research has mostly focused on gender-related biases, we analyze religious and ethnic biases as well and propose a template-based method to measure any kind of bias, based on sentence pseudo-likelihood, that can handle morphologically complex languages with gender-based adjective declensions. We analyze each monolingual model via this method and visualize cultural similarities and differences across different dimensions of bias. Ultimately, we conclude that current methods of probing for bias are highly language-dependent, necessitating cultural insights regarding the unique ways bias is expressed in each language and culture (e.g. through coded language, synecdoche, and other similar linguistic concepts). We also hypothesize that higher measured social biases in the non-English BERT models correlate with user-generated content in their training.
翻訳日:2022-11-29 16:44:14 公開日:2022-11-25
# Pac-Man Pete: VEX RoboticsでAIを構築するための拡張可能なフレームワーク

Pac-Man Pete: An extensible framework for building AI in VEX Robotics ( http://arxiv.org/abs/2211.14385v1 )

ライセンス: Link先を確認
Jacob Zietek, Nicholas Wade, Cole Roberts, Aref Malek, Manish Pylla, Will Xu, Sagar Patil(参考訳) このテクニカルレポートでは、vex roboticsのティッピングポイントaiコンペティションのための完全自律型ロボットの開発について詳述する。 我々は3つの重要なコンポーネントを特定し、開発する。 これには、ユニティシミュレーションと強化学習モデルのトレーニングパイプライン、可鍛型コンピュータビジョンパイプライン、vex v5のブレイン/マイクロコントローラから外部コンピュータに大規模な計算をオフロードするデータ転送パイプラインが含まれる。 将来、これらのコンポーネントの再利用と改善を期待して、コミュニティにこれらすべてのコンポーネントへのアクセスを提供し、自律性のための新たなアイデアと、教育ロボティクスにおけるAIに必要なインフラストラクチャとプログラムを生み出します。

This technical report details VEX Robotics team BLRSAI's development of a fully autonomous robot for VEX Robotics' Tipping Point AI Competition. We identify and develop three separate critical components. This includes a Unity simulation and reinforcement learning model training pipeline, a malleable computer vision pipeline, and a data transfer pipeline to offload large computations from the VEX V5 Brain/micro-controller to an external computer. We give the community access to all of these components in hopes they can reuse and improve upon them in the future, and that it'll spark new ideas for autonomy as well as the necessary infrastructure and programs for AI in educational robotics.
翻訳日:2022-11-29 16:42:20 公開日:2022-11-25
# 時系列解析と予測のための機械学習アルゴリズム

Machine Learning Algorithms for Time Series Analysis and Forecasting ( http://arxiv.org/abs/2211.14387v1 )

ライセンス: Link先を確認
Rameshwar Garg, Shriya Barpanda, Girish Rao Salanke N S, Ramya S(参考訳) 時系列データは、販売記録から患者の健康変化指標まで、あらゆる場所で使われている。 このデータを扱う能力が必要となり、時系列分析と予測も同様に使用される。 すべての機械学習の愛好家は、これらをデータ特性の理解を深めるため、非常に重要なツールとみなすだろう。 予測は、過去の発生に基づいて、将来変数の値を予測するために使用される。 本稿では,予測に使用される様々な手法について,詳細な調査を行った。 事前処理から検証まで、予測の完全なプロセスも詳細に説明されている。 様々な統計的および深層学習モデル、特にARIMA、Prophet、LSTMが検討されている。 ハイブリッドバージョンの機械学習モデルも研究され、解明されている。 私たちの作品は、予測プロセスの理解を深め、現在使われている様々な芸術モデルの状態を識別するために、誰でも利用できます。

Time series data is being used everywhere, from sales records to patients' health evolution metrics. The ability to deal with this data has become a necessity, and time series analysis and forecasting are used for the same. Every Machine Learning enthusiast would consider these as very important tools, as they deepen the understanding of the characteristics of data. Forecasting is used to predict the value of a variable in the future, based on its past occurrences. A detailed survey of the various methods that are used for forecasting has been presented in this paper. The complete process of forecasting, from preprocessing to validation has also been explained thoroughly. Various statistical and deep learning models have been considered, notably, ARIMA, Prophet and LSTMs. Hybrid versions of Machine Learning models have also been explored and elucidated. Our work can be used by anyone to develop a good understanding of the forecasting process, and to identify various state of the art models which are being used today.
翻訳日:2022-11-29 16:42:08 公開日:2022-11-25
# 不均衡実世界産業データセットにおける異常検出のための複合スコア

Composite Score for Anomaly Detection in Imbalanced Real-World Industrial Dataset ( http://arxiv.org/abs/2211.15513v1 )

ライセンス: Link先を確認
Arnaud Bougaham, Mohammed El Adoui, Isabelle Linden, Beno\^it Fr\'enay(参考訳) 近年、産業部門は第4次革命へと発展を遂げている。 品質制御領域は特にコンピュータビジョン異常検出のための高度な機械学習に関心がある。 それでも、不均衡なデータセット、画像の複雑さ、高品質な要求を保証するためにゼロ偽陰性(ZFN)制約など、いくつかの課題に直面しなければならない。 本稿では,PCBA(Printed Circuit Board Assembly)イメージを,通常の製品で訓練されたベクトル量子生成支援ネットワーク(VQGAN)で再構成する産業パートナーのユースケースについて述べる。 そして、いくつかの正常画像および異常画像から複数の多値メトリクスを抽出し、再構成の違いによる異常を強調する。 最後に、クラスiferは、抽出されたメトリクスによって複合的な異常スコアを構築するように訓練される。 この3段階のアプローチは、パブリックMVTec-ADデータセットとパートナーPCBAデータセットで行われ、ZFN制約の下では95.69%と87.93%の定期的な精度を達成する。

In recent years, the industrial sector has evolved towards its fourth revolution. The quality control domain is particularly interested in advanced machine learning for computer vision anomaly detection. Nevertheless, several challenges have to be faced, including imbalanced datasets, the image complexity, and the zero-false-negative (ZFN) constraint to guarantee the high-quality requirement. This paper illustrates a use case for an industrial partner, where Printed Circuit Board Assembly (PCBA) images are first reconstructed with a Vector Quantized Generative Adversarial Network (VQGAN) trained on normal products. Then, several multi-level metrics are extracted on a few normal and abnormal images, highlighting anomalies through reconstruction differences. Finally, a classifer is trained to build a composite anomaly score thanks to the metrics extracted. This three-step approach is performed on the public MVTec-AD datasets and on the partner PCBA dataset, where it achieves a regular accuracy of 95.69% and 87.93% under the ZFN constraint.
翻訳日:2022-11-29 16:32:43 公開日:2022-11-25
# CodeExp: 説明的なコードドキュメント生成

CodeExp: Explanatory Code Document Generation ( http://arxiv.org/abs/2211.15395v1 )

ライセンス: Link先を確認
Haotian Cui, Chenglong Wang, Junjie Huang, Jeevana Priya Inala, Todd Mytkowicz, Bo Wang, Jianfeng Gao, Nan Duan(参考訳) 詳細なコード説明を自動的に生成するモデルの開発は、ソフトウェアのメンテナンスとプログラミング教育に大いに役立つ。 しかし、既存のコードからテキストへの生成モデルは、これらのシナリオに必要な実装レベルの選択をキャプチャしない高レベルのコード要約のみを生成することが多い。 このギャップを埋めるために,コード説明生成タスクを提案する。 我々はまず,コードに対する高品質な説明記述の基準を特定するために,人間の研究を行った。 そこで我々は,大規模なコードドクストリングコーパスを収集し,人間の評価に最適な自動評価指標を定式化した。 最後に,マルチステージの微調整戦略とタスクのベースラインモデルを提案する。 実験により,(1)大規模非精細データ(15倍)と比較して,モデルが説明生成タスクにおいて優れた性能を得ることができ,(2)微調整されたモデルでは,人間が作成したデータに匹敵する構造的長手ドクストリングを生成できることを示した。 トレーニングデータセット、人間評価プロトコル、推奨メトリクス、微調整戦略が将来のコード説明研究を促進することを想定する。 コードと注釈付きデータはhttps://github.com/subercui/codeexp.comで入手できる。

Developing models that can automatically generate detailed code explanation can greatly benefit software maintenance and programming education. However, existing code-to-text generation models often produce only high-level summaries of code that do not capture implementation-level choices essential for these scenarios. To fill in this gap, we propose the code explanation generation task. We first conducted a human study to identify the criteria for high-quality explanatory docstring for code. Based on that, we collected and refined a large-scale code docstring corpus and formulated automatic evaluation metrics that best match human assessments. Finally, we present a multi-stage fine-tuning strategy and baseline models for the task. Our experiments show that (1) our refined training dataset lets models achieve better performance in the explanation generation tasks compared to larger unrefined data (15x larger), and (2) fine-tuned models can generate well-structured long docstrings comparable to human-written ones. We envision our training dataset, human-evaluation protocol, recommended metrics, and fine-tuning strategy can boost future code explanation research. The code and annotated data are available at https://github.com/subercui/CodeExp.
翻訳日:2022-11-29 15:20:29 公開日:2022-11-25
# 審美的関連画像キャプション

Aesthetically Relevant Image Captioning ( http://arxiv.org/abs/2211.15378v1 )

ライセンス: Link先を確認
Zhipeng Zhong, Fei Zhou and Guoping Qiu(参考訳) 画像美的品質評価(AQA)は画像に数値的な美的評価を割り当てることを目的としており、画像美的キャプション(IAC)は画像の美的側面のテキスト記述を作成することを目的としている。 本稿では,画像AQAとIACを併用し,ARIC(Aesthetically Relevant Image Captioning)と呼ばれる新しいIAC法を提案する。 画像のテキストによるコメントのほとんどは、美学的な側面ではなく、オブジェクトとその相互作用に関するものであるという観察に基づいて、まず、文章の美的関連スコア(ARS)の概念を導入し、文章をARSで自動的にラベル付けするモデルを開発した。 ARS重み付きIAC損失関数とARSに基づく多彩な美容セレクタ(DACS)を含むARICモデルの設計を行う。 ARSの概念の健全性やARICモデルの有効性を示すために,高次ARSのテキストが審美的評価をより正確に予測し,新たなARICモデルがより正確で,より関連性が高く,より多様な画像キャプションを生成できることを実証した。 さらに、500万以上のコメントと350万の美的スコアを持つ510万の画像とARICを実装するためのコードを含む大規模な研究データベースがhttps://github.com/PengZai/ARICで公開されている。

Image aesthetic quality assessment (AQA) aims to assign numerical aesthetic ratings to images whilst image aesthetic captioning (IAC) aims to generate textual descriptions of the aesthetic aspects of images. In this paper, we study image AQA and IAC together and present a new IAC method termed Aesthetically Relevant Image Captioning (ARIC). Based on the observation that most textual comments of an image are about objects and their interactions rather than aspects of aesthetics, we first introduce the concept of Aesthetic Relevance Score (ARS) of a sentence and have developed a model to automatically label a sentence with its ARS. We then use the ARS to design the ARIC model which includes an ARS weighted IAC loss function and an ARS based diverse aesthetic caption selector (DACS). We present extensive experimental results to show the soundness of the ARS concept and the effectiveness of the ARIC model by demonstrating that texts with higher ARS's can predict the aesthetic ratings more accurately and that the new ARIC model can generate more accurate, aesthetically more relevant and more diverse image captions. Furthermore, a large new research database containing 510K images with over 5 million comments and 350K aesthetic scores, and code for implementing ARIC are available at https://github.com/PengZai/ARIC.
翻訳日:2022-11-29 15:10:54 公開日:2022-11-25
# LayoutLMv3による意味表の検出

Semantic Table Detection with LayoutLMv3 ( http://arxiv.org/abs/2211.15504v1 )

ライセンス: Link先を確認
Ivan Silajev, Niels Victor, Phillip Mortimer(参考訳) 本稿では,IIIT-AR-13Kデータセットからの財務文書のセマンティックテーブル検出におけるLayoutLMv3モデルの適用について述べる。 この実験の背後にある動機は、LayoutLMv3の公式論文には意味情報を用いたテーブル検出の結果がなかったことである。 我々は、我々のアプローチは、いくつかの可能な理由を与えることができるモデルのテーブル検出能力を改善するものではないと結論づけた。 モデルの重みが私たちの目的に適さないか、あるいはモデルのハイパーパラメータの最適化により多くの時間を費やす必要があるかのどちらかです。 また、意味情報はモデルのテーブル検出精度を向上しない可能性がある。

This paper presents an application of the LayoutLMv3 model for semantic table detection on financial documents from the IIIT-AR-13K dataset. The motivation behind this paper's experiment was that LayoutLMv3's official paper had no results for table detection using semantic information. We concluded that our approach did not improve the model's table detection capabilities, for which we can give several possible reasons. Either the model's weights were unsuitable for our purpose, or we needed to invest more time in optimising the model's hyperparameters. It is also possible that semantic information does not improve a model's table detection accuracy.
翻訳日:2022-11-29 15:10:26 公開日:2022-11-25
# 複雑なテキスト命令による対話型画像操作

Interactive Image Manipulation with Complex Text Instructions ( http://arxiv.org/abs/2211.15352v1 )

ライセンス: Link先を確認
Ryugo Morita, Zhiqiang Zhang, Man M. Ho, Jinjia Zhou(参考訳) 近年,テキスト誘導画像操作は,高柔軟性と制御性のため,マルチメディア処理やコンピュータビジョンの研究分野に注目が集まっている。 その目的は、テキスト記述に従って入力参照画像の一部を意味的に操作することである。 しかし,既存の作品の多くは,(1) テキスト非関連コンテンツは必ずしも維持できないが,ランダムに変化しない,(2) 画像操作の性能をさらに改善する必要がある,(3) 記述的属性のみを操作できる,といった問題を抱えている。 そこで本稿では,複雑なテキスト命令を用いてインタラクティブに画像編集を行う新しい画像操作手法を提案する。 ユーザーは画像操作の精度を向上させるだけでなく、オブジェクトを拡大、縮小、削除したり、背景を入力画像に置き換えたりといった複雑なタスクを実現できる。 これらのタスクを可能にするために、3つの戦略を適用します。 まず、与えられた画像は、テキスト関連コンテンツとテキスト関連コンテンツに分けられる。 テキスト関連コンテンツのみが操作され、テキスト関連コンテンツを維持することができる。 第二に、操作領域を拡大して操作性をさらに向上し、オブジェクト自体の操作を支援するために超解像法を用いる。 第3に、セグメンテーションマップをインタラクティブに編集して、ユーザの欲求に応じて生成された画像を再修正するユーザインタフェースを導入する。 CUB(Caltech-UCSD Birds-200-2011)データセットとMicrosoft Common Objects in Context(MSCOCO)データセットの大規模な実験により、提案手法がリアルタイムにインタラクティブで柔軟で正確な画像操作を可能にすることを示す。 定性的および定量的評価により,提案手法が他の最先端手法よりも優れていることを示す。

Recently, text-guided image manipulation has received increasing attention in the research field of multimedia processing and computer vision due to its high flexibility and controllability. Its goal is to semantically manipulate parts of an input reference image according to the text descriptions. However, most of the existing works have the following problems: (1) text-irrelevant content cannot always be maintained but randomly changed, (2) the performance of image manipulation still needs to be further improved, (3) only can manipulate descriptive attributes. To solve these problems, we propose a novel image manipulation method that interactively edits an image using complex text instructions. It allows users to not only improve the accuracy of image manipulation but also achieve complex tasks such as enlarging, dwindling, or removing objects and replacing the background with the input image. To make these tasks possible, we apply three strategies. First, the given image is divided into text-relevant content and text-irrelevant content. Only the text-relevant content is manipulated and the text-irrelevant content can be maintained. Second, a super-resolution method is used to enlarge the manipulation region to further improve the operability and to help manipulate the object itself. Third, a user interface is introduced for editing the segmentation map interactively to re-modify the generated image according to the user's desires. Extensive experiments on the Caltech-UCSD Birds-200-2011 (CUB) dataset and Microsoft Common Objects in Context (MS COCO) datasets demonstrate our proposed method can enable interactive, flexible, and accurate image manipulation in real-time. Through qualitative and quantitative evaluations, we show that the proposed model outperforms other state-of-the-art methods.
翻訳日:2022-11-29 14:54:42 公開日:2022-11-25
# ディープラーニングトレーニング手順の強化

Deep Learning Training Procedure Augmentations ( http://arxiv.org/abs/2211.14395v1 )

ライセンス: Link先を確認
Cristian Simionescu(参考訳) 近年のディープラーニングの進歩は、オブジェクト検出、画像分割、感情分析など、さまざまなタスクのパフォーマンスを大幅に改善している。 最近まで、ほとんどの研究方向の焦点は最先端の成果を上回ることだった。 これは、トレーニング手順が与えられたデータセットからより予測力を引き出すのに役立つ、より大きくて大きなモデルとテクニックの利用を現実化した。 これは大きな成果をもたらしたが、その多くは現実世界のアプリケーションでは、ディープラーニングの他の関連する側面は無視され、不明である。 本研究では,優れた性能向上を提供することができる一方で,収束速度,景観のスムーズさ,対向ロバスト性などに関する興味深い分析結果も提示する。 この研究で示された方法は以下の通りである: $\bullet$ Perfect Ordering Approximation; 一般化されたモデル非依存のカリキュラム学習アプローチ。 以上の結果から,深層ネットワークのトレーニングプロセスに対する新たな洞察を提供するとともに,トレーニング時間を改善するための手法の有効性を示す。 $\bullet$ Cascading Sum Augmentation; よりスムーズな最適化環境を活用することで、線形補間により多くのデータポイントを活用することができるmixupの拡張。 これは、予測性能を改善し、受動的モデルの堅牢性を改善するために、コンピュータビジョンタスクに使用できる。

Recent advances in Deep Learning have greatly improved performance on various tasks such as object detection, image segmentation, sentiment analysis. The focus of most research directions up until very recently has been on beating state-of-the-art results. This has materialized in the utilization of bigger and bigger models and techniques which help the training procedure to extract more predictive power out of a given dataset. While this has lead to great results, many of which with real-world applications, other relevant aspects of deep learning have remained neglected and unknown. In this work, we will present several novel deep learning training techniques which, while capable of offering significant performance gains they also reveal several interesting analysis results regarding convergence speed, optimization landscape smoothness, and adversarial robustness. The methods presented in this work are the following: $\bullet$ Perfect Ordering Approximation; a generalized model agnostic curriculum learning approach. The results show the effectiveness of the technique for improving training time as well as offer some new insight into the training process of deep networks. $\bullet$ Cascading Sum Augmentation; an extension of mixup capable of utilizing more data points for linear interpolation by leveraging a smoother optimization landscape. This can be used for computer vision tasks in order to improve both prediction performance as well as improve passive model robustness.
翻訳日:2022-11-29 14:45:24 公開日:2022-11-25
# ランダム化サーベイベース実験によるNLPの塩分性に基づく説明可能性の検討

Testing the effectiveness of saliency-based explainability in NLP using randomized survey-based experiments ( http://arxiv.org/abs/2211.15351v1 )

ライセンス: Link先を確認
Adel Rahimi, Shaurya Jain(参考訳) 政治プロファイリングや教育におけるエッセイのレビューなどのセンシティブな分野における自然言語処理(NLP)の適用が拡大するにつれ、NLPモデルにおける透明性を高め、ステークホルダーとの信頼関係を構築し、バイアスを識別する大きな必要性がある。 Explainable AIにおける多くの研究は、NLPモデルの動作と予測に関する人間の洞察を与える説明方法を考案することを目的としている。 これらの手法はニューラルネットワークのような複雑なモデルからの予測を消費可能な説明に抽出するが、人間がこれらの説明を理解する方法はまだ解明されていない。 自然に人間の傾向や偏見は、これらの説明に対する人間の理解に役立ち、結果としてモデルや予測を誤った判断に導く可能性がある。 自然言語処理におけるサリエンシーに基づくポストホック説明可能性法の有効性を理解するために,ランダムなサーベイベース実験を考案した。 実験の結果、人間はより批判的な視点で説明を受け入れる傾向があることが判明した。

As the applications of Natural Language Processing (NLP) in sensitive areas like Political Profiling, Review of Essays in Education, etc. proliferate, there is a great need for increasing transparency in NLP models to build trust with stakeholders and identify biases. A lot of work in Explainable AI has aimed to devise explanation methods that give humans insights into the workings and predictions of NLP models. While these methods distill predictions from complex models like Neural Networks into consumable explanations, how humans understand these explanations is still widely unexplored. Innate human tendencies and biases can handicap the understanding of these explanations in humans, and can also lead to them misjudging models and predictions as a result. We designed a randomized survey-based experiment to understand the effectiveness of saliency-based Post-hoc explainability methods in Natural Language Processing. The result of the experiment showed that humans have a tendency to accept explanations with a less critical view.
翻訳日:2022-11-29 14:35:04 公開日:2022-11-25
# ソーシャル・アウェア・強化学習を用いたプロアクティブ対話エージェントの改善

Towards Improving Proactive Dialog Agents Using Socially-Aware Reinforcement Learning ( http://arxiv.org/abs/2211.15359v1 )

ライセンス: Link先を確認
Matthias Kraus, Nicolas Wagner, Ron Riekenbrauck and Wolfgang Minker(参考訳) インテリジェントダイアログエージェントの次のステップは、サイレントな傍観者としての役割を逃れて、積極的になることである。 適切に定義された積極的行動は、インタラクション中にエージェントがよりアクティブな役割を担い、ユーザから責任を奪うため、人間と機械の協調を改善する可能性がある。 しかし, プロアクティベーションは, 作業結果だけでなく, ユーザとの関係にも悪影響を及ぼす可能性があるため, 両刃の剣である。 適切なプロアクティブなダイアログ戦略を設計するために,ダイアログの社会的特徴とタスク関連機能の両方を含む新しいアプローチを提案する。 ここでの第一の目的は、積極的行動の最適化であり、タスク指向であり、これは高いタスクの成功と効率を意味する。 強化学習を用いたプロアクティブ・ダイアログエージェントを訓練するための報酬関数の両側面を含めると,より良好な人間と機械の連携が期待できる。

The next step for intelligent dialog agents is to escape their role as silent bystanders and become proactive. Well-defined proactive behavior may improve human-machine cooperation, as the agent takes a more active role during interaction and takes off responsibility from the user. However, proactivity is a double-edged sword because poorly executed pre-emptive actions may have a devastating effect not only on the task outcome but also on the relationship with the user. For designing adequate proactive dialog strategies, we propose a novel approach including both social as well as task-relevant features in the dialog. Here, the primary goal is to optimize proactive behavior so that it is task-oriented - this implies high task success and efficiency - while also being socially effective by fostering user trust. Including both aspects in the reward function for training a proactive dialog agent using reinforcement learning showed the benefit of our approach for more successful human-machine cooperation.
翻訳日:2022-11-29 14:34:45 公開日:2022-11-25
# パネルデータの設定等における戦略的意思決定

Strategyproof Decision-Making in Panel Data Settings and Beyond ( http://arxiv.org/abs/2211.14236v1 )

ライセンス: Link先を確認
Keegan Harris, Anish Agarwal, Chara Podimata, Zhiwei Steven Wu(参考訳) 本稿では,パネルデータを用いた戦略エージェントの存在下での意思決定のための枠組みを提案する。 本稿では,各単位の結果を主が観察し,その後,主が各単位に治療を割り当てる,事前介入期間が存在する設定について考察する。 我々のモデルは、より望ましい介入を受けるために、ユニット(またはエージェント)が戦略的に介入前の結果を操作できる合成制御および合成介入フレームワークの一般化と考えることができる。 介入後の介入を割り当てる戦略的防御機構が存在する必要十分条件を明らかにする。 潜在因子モデル仮定の下では、戦略防御機構が存在するときはいつでも、単純な閉形式が存在することを示す。 単一の処理と制御(つまり他の介入は不要)が存在する場合、我々は常に戦略防御機構が存在することを証明し、そのようなメカニズムを学習するためのアルゴリズムを提供する。 複数の介入の設定のために、異なる介入間の報酬に十分な大きなギャップがある場合、戦略防御機構を学習するためのアルゴリズムを提供する。 その過程で,複数の階層の戦略的分類において,独立した関心を持つ可能性がある,不可能性が証明される。

We propose a framework for decision-making in the presence of strategic agents with panel data, a standard setting in econometrics and statistics where one gets noisy, repeated measurements of multiple units. We consider a setup where there is a pre-intervention period, when the principal observes the outcomes of each unit, after which the principal uses these observations to assign treatment to each unit. Our model can be thought of as a generalization of the synthetic controls and synthetic interventions frameworks, where units (or agents) may strategically manipulate pre-intervention outcomes to receive a more desirable intervention. We identify necessary and sufficient conditions under which a strategyproof mechanism that assigns interventions in the post-intervention period exists. Under a latent factor model assumption, we show that whenever a strategyproof mechanism exists, there is one with a simple closed form. In the setting where there is a single treatment and control (i.e., no other interventions), we establish that there is always a strategyproof mechanism, and provide an algorithm for learning such a mechanism. For the setting of multiple interventions, we provide an algorithm for learning a strategyproof mechanism, if there exists a sufficiently large gap in rewards between the different interventions. Along the way, we prove impossibility results for multi-class strategic classification, which may be of independent interest.
翻訳日:2022-11-28 19:04:36 公開日:2022-11-25
# 量子化学のためのグラフニューラルネットワークに基づく予測モデルの極端な加速

Extreme Acceleration of Graph Neural Network-based Prediction Models for Quantum Chemistry ( http://arxiv.org/abs/2211.13853v1 )

ライセンス: Link先を確認
Hatem Helal, Jesun Firoz, Jenna Bilbrey, Mario Michael Krell, Tom Murray, Ang Li, Sotiris Xantheas, Sutanay Choudhury(参考訳) 分子特性計算は化学物理学の基盤である。 分子特性を計算するための高忠実度 \textit{ab initio} モデリング技術は、禁止的に高価であり、同じ予測をより効率的にする機械学習モデルの開発を動機付ける。 大規模分子データベース上のグラフニューラルネットワークのトレーニングには、可変サイズの数百万の小さなグラフを処理する必要性や、ソーシャルネットワークのような大規模グラフを学習することとは異なるコミュニケーションパターンのサポートなど、ユニークな計算上の課題が伴う。 本稿では,分子特性予測のためのグラフニューラルネットワークのトレーニングをスケールアップするための,ハードウェア・ソフトウェア共同設計手法を提案する。 本稿では,分子グラフのバッチを固定サイズパックに融合し,代替パディング技術に伴う冗長な計算とメモリを除去し,通信の最小化によるスループットを向上させるアルゴリズムを提案する。 グラフコアインテリジェンス処理ユニット(IPU)上に確立された分子特性予測モデルの実装を提供することにより,共同設計手法の有効性を示す。 本研究では, グラフ数, サイズ, 間隔の異なる複数の分子グラフデータベース上でのトレーニング性能を評価する。 このような共同設計アプローチは、そのような分子特性予測モデルのトレーニング時間を数日から2時間未満に短縮し、AIによる科学的発見の新たな可能性を開くことを実証する。

Molecular property calculations are the bedrock of chemical physics. High-fidelity \textit{ab initio} modeling techniques for computing the molecular properties can be prohibitively expensive, and motivate the development of machine-learning models that make the same predictions more efficiently. Training graph neural networks over large molecular databases introduces unique computational challenges such as the need to process millions of small graphs with variable size and support communication patterns that are distinct from learning over large graphs such as social networks. This paper demonstrates a novel hardware-software co-design approach to scale up the training of graph neural networks for molecular property prediction. We introduce an algorithm to coalesce the batches of molecular graphs into fixed size packs to eliminate redundant computation and memory associated with alternative padding techniques and improve throughput via minimizing communication. We demonstrate the effectiveness of our co-design approach by providing an implementation of a well-established molecular property prediction model on the Graphcore Intelligence Processing Units (IPU). We evaluate the training performance on multiple molecular graph databases with varying degrees of graph counts, sizes and sparsity. We demonstrate that such a co-design approach can reduce the training time of such molecular property prediction models from days to less than two hours, opening new possibilities for AI-driven scientific discovery.
翻訳日:2022-11-28 19:00:46 公開日:2022-11-25
# Galvatron: 自動並列処理を用いた複数のGPU上での効率的なトランスフォーマートレーニング

Galvatron: Efficient Transformer Training over Multiple GPUs Using Automatic Parallelism ( http://arxiv.org/abs/2211.13878v1 )

ライセンス: Link先を確認
Xupeng Miao, Yujie Wang, Youhe Jiang, Chunan Shi, Xiaonan Nie, Hailin Zhang, Bin Cui(参考訳) トランスフォーマーモデルは、様々な分野のアプリケーションで最先端のパフォーマンスを達成し、徐々に高度な大規模ディープラーニング(DL)モデルの基盤となっている。 しかし、これらのモデルを複数のGPU上で効率的にトレーニングする方法は、多くの並列性選択のために依然として難しい。 既存のDLシステムは、分散トレーニング計画を手作業で作成するか、非常に限られた検索空間内で並列性の組み合わせを適用している。 本稿では,複数の一般的な並列化次元を組み込んだ新しいシステムフレームワークであるGalvatronを提案し,最も効率的なハイブリッド並列化戦略を自動で見つける。 このような巨大な検索空間をよりよく探索するために 1) 合理的な直観に基づいて分解及び刈り取りを行う決定木を含む。 2)最適計画を生成するために動的計画探索アルゴリズムを設計する。 4つの代表的なtransformerワークロードの評価から、galvatronはgpuメモリ予算の異なる自動分散トレーニングを実行可能であることが分かる。 すべての拡張シナリオの中で、Galvatronは常に、制限された並列性を持つ以前の処理に比べて優れたシステムスループットを達成する。

Transformer models have achieved state-of-the-art performance on various domains of applications and gradually becomes the foundations of the advanced large deep learning (DL) models. However, how to train these models over multiple GPUs efficiently is still challenging due to a large number of parallelism choices. Existing DL systems either rely on manual efforts to make distributed training plans or apply parallelism combinations within a very limited search space. In this approach, we propose Galvatron, a new system framework that incorporates multiple popular parallelism dimensions and automatically finds the most efficient hybrid parallelism strategy. To better explore such a rarely huge search space, we 1) involve a decision tree to make decomposition and pruning based on some reasonable intuitions, and then 2) design a dynamic programming search algorithm to generate the optimal plan. Evaluations on four representative Transformer workloads show that Galvatron could perform automatically distributed training with different GPU memory budgets. Among all evluated scenarios, Galvatron always achieves superior system throughput compared to previous work with limited parallelism.
翻訳日:2022-11-28 19:00:27 公開日:2022-11-25
# 長期記憶ネットワークを用いた多変量時系列の信頼区間構築

Confidence Interval Construction for Multivariate time series using Long Short Term Memory Network ( http://arxiv.org/abs/2211.13915v1 )

ライセンス: Link先を確認
Aryan Bhambu, Arabin Kumar Dey(参考訳) 本稿では,長期記憶ネットワークを用いた多変量時系列予測のための信頼区間を構築するための新しい手法を提案する。 建設にはいくつかの新しいブロックブートストラップ技術が使用されている。 また,これら各スキームに対して革新的なブロック長選択手順を提案する。 2つの新しいベンチマークは、異なるブートストラップ手法による信頼区間の構成を比較するのに役立ちます。 S\&P 500ドルとDow Jones Indexデータセットによる全体の構成について説明する。

In this paper we propose a novel procedure to construct a confidence interval for multivariate time series predictions using long short term memory network. The construction uses a few novel block bootstrap techniques. We also propose an innovative block length selection procedure for each of these schemes. Two novel benchmarks help us to compare the construction of this confidence intervals by different bootstrap techniques. We illustrate the whole construction through S\&P $500$ and Dow Jones Index datasets.
翻訳日:2022-11-28 19:00:11 公開日:2022-11-25
# キャパシタ付き車両経路問題に対する構成的・摂動的深層学習アルゴリズムの併用

Combining Constructive and Perturbative Deep Learning Algorithms for the Capacitated Vehicle Routing Problem ( http://arxiv.org/abs/2211.13922v1 )

ライセンス: Link先を確認
Roberto Garc\'ia-Torres, Alitzel Adriana Macias-Infante, Santiago Enrique Conant-Pablos, Jos\'e Carlos Ortiz-Bayliss and Hugo Terashima-Mar\'in(参考訳) 容量化車両ルーティング問題(Capacitated Vehicle Routing Problem)は、複数の場所に製品を届ける車両の最適経路を見つけることの難題となるNPハード問題である。 近年,Deep Learning を用いてこの問題に対処するための建設的・摂動的ヒューリスティックの構築が試みられている。 本稿では,2つの強力な構成的・摂動的深層学習に基づくヒューリスティックを組み合わせ,その中核に注意機構を用いた複合型深層構築と摂動器の開発に参画する。 さらに,ノード数によるメモリ複雑性を低減させるメモリ効率のアルゴリズムを提案することにより,容量化車両ルーティング問題に対する注意モデル動的性を改善する。 我々の方法は有望な結果を示す。 他の複数のディープラーニング手法と比較して、一般的なデータセットのコスト改善を示す。 また、オペレーティング・リサーチ・フィールドから最先端のアート・ヒューリスティックスに密接な結果を得られる。 さらに、注意モデル・動的モデルのためのメモリ効率のよいアルゴリズムにより、100ノード以上の問題インスタンスで使用できる。

The Capacitated Vehicle Routing Problem is a well-known NP-hard problem that poses the challenge of finding the optimal route of a vehicle delivering products to multiple locations. Recently, new efforts have emerged to create constructive and perturbative heuristics to tackle this problem using Deep Learning. In this paper, we join these efforts to develop the Combined Deep Constructor and Perturbator, which combines two powerful constructive and perturbative Deep Learning-based heuristics, using attention mechanisms at their core. Furthermore, we improve the Attention Model-Dynamic for the Capacitated Vehicle Routing Problem by proposing a memory-efficient algorithm that reduces its memory complexity by a factor of the number of nodes. Our method shows promising results. It demonstrates a cost improvement in common datasets when compared against other multiple Deep Learning methods. It also obtains close results to the state-of-the art heuristics from the Operations Research field. Additionally, the proposed memory efficient algorithm for the Attention Model-Dynamic model enables its use in problem instances with more than 100 nodes.
翻訳日:2022-11-28 19:00:05 公開日:2022-11-25
# ニューラルネットワークのLU分解とToeplitz分解

LU decomposition and Toeplitz decomposition of a neural network ( http://arxiv.org/abs/2211.13935v1 )

ライセンス: Link先を確認
Yucong Liu, Simiao Jiao, and Lek-Heng Lim(参考訳) 任意の行列$A$がLU分解を持つことはよく知られている。 あまり知られていないのは、'Toeplitz decomposition' $A = T_1 T_2 \cdots T_r$ であるという事実である。 任意の連続関数 $f : \mathbb{r}^n \to \mathbb{r}^m$ は、任意のバイアスベクトル $b_i$ に対して$l_1 \sigma_1 u_1 \sigma_2 l_2 \sigma_3 u_2 \cdots l_r \sigma_{2r-1} u_r$、すなわち、重み行列が下三角行列と上三角行列の間を交互に交わる場合、$\sigma_i(x) := \sigma(x - b_i)$ という形をとるニューラルネットワークによって任意の精度に近似することを証明する。 同じ結果は、Toeplitz行列、すなわち$f \approx T_1 \sigma_1 T_2 \cdots \sigma_{r-1} T_r$ も任意の精度で成り立つ。 我々のToeplitzの結果は、畳み込みニューラルネットワークに対する固定幅普遍近似定理であり、これまでのところ任意の幅バージョンしか持たない。 この結果は,一般ニューラルネットワークである場合において特に適用されるので,ニューラルネットワークのLUおよびToeplitz分解とみなすことができる。 この結果の実用的意味は、ニューラルネットワークにおける重みパラメータの数を、普遍近似のパワーを犠牲にすることなく大幅に削減できるということである。 実データ集合についていくつかの実験を行い、重み行列にそのような構造を課すことで、テスト精度にほとんど影響を与えないトレーニングパラメータの数を鋭く減少させることを示した。

It is well-known that any matrix $A$ has an LU decomposition. Less well-known is the fact that it has a 'Toeplitz decomposition' $A = T_1 T_2 \cdots T_r$ where $T_i$'s are Toeplitz matrices. We will prove that any continuous function $f : \mathbb{R}^n \to \mathbb{R}^m$ has an approximation to arbitrary accuracy by a neural network that takes the form $L_1 \sigma_1 U_1 \sigma_2 L_2 \sigma_3 U_2 \cdots L_r \sigma_{2r-1} U_r$, i.e., where the weight matrices alternate between lower and upper triangular matrices, $\sigma_i(x) := \sigma(x - b_i)$ for some bias vector $b_i$, and the activation $\sigma$ may be chosen to be essentially any uniformly continuous nonpolynomial function. The same result also holds with Toeplitz matrices, i.e., $f \approx T_1 \sigma_1 T_2 \sigma_2 \cdots \sigma_{r-1} T_r$ to arbitrary accuracy, and likewise for Hankel matrices. A consequence of our Toeplitz result is a fixed-width universal approximation theorem for convolutional neural networks, which so far have only arbitrary width versions. Since our results apply in particular to the case when $f$ is a general neural network, we may regard them as LU and Toeplitz decompositions of a neural network. The practical implication of our results is that one may vastly reduce the number of weight parameters in a neural network without sacrificing its power of universal approximation. We will present several experiments on real data sets to show that imposing such structures on the weight matrices sharply reduces the number of training parameters with almost no noticeable effect on test accuracy.
翻訳日:2022-11-28 18:59:47 公開日:2022-11-25
# GPUにおける高能率インクリメンタルテキスト音声合成

Efficient Incremental Text-to-Speech on GPUs ( http://arxiv.org/abs/2211.13939v1 )

ライセンス: Link先を確認
Muyang Du, Chuan Liu, Jiaxing Qi, Junjie Lai(参考訳) ストリーミングTSとしても知られるインクリメンタルテキスト音声合成は、最適なユーザエクスペリエンスを提供するために、超低応答レイテンシを必要とするオンライン音声アプリケーションにますます適用されている。 しかし、gpuにデプロイされた既存の音声合成パイプラインのほとんどはまだ非インクリメンタルであり、特にパイプラインがエンドツーエンドのニューラルネットワークモデルで構築されている場合、高頻度シナリオの制限を明らかにする。 この問題に対処するため,Instant Request Pooling と Module-wise Dynamic Batching を用いて,GPU 上でリアルタイムインクリメンタル TTS を実行する方法を提案する。 実験の結果,nvidia a10 gpuで100 qps以下で80ms未満のハイクオリティな音声を生成でき,並列性とレイテンシにおいて非インクリメンタル双生児を大きく上回ることがわかった。 本研究は,GPUにおける高性能インクリメンタルTSの有効性を明らかにする。

Incremental text-to-speech, also known as streaming TTS, has been increasingly applied to online speech applications that require ultra-low response latency to provide an optimal user experience. However, most of the existing speech synthesis pipelines deployed on GPU are still non-incremental, which uncovers limitations in high-concurrency scenarios, especially when the pipeline is built with end-to-end neural network models. To address this issue, we present a highly efficient approach to perform real-time incremental TTS on GPUs with Instant Request Pooling and Module-wise Dynamic Batching. Experimental results demonstrate that the proposed method is capable of producing high-quality speech with a first-chunk latency lower than 80ms under 100 QPS on a single NVIDIA A10 GPU and significantly outperforms the non-incremental twin in both concurrency and latency. Our work reveals the effectiveness of high-performance incremental TTS on GPUs.
翻訳日:2022-11-28 18:59:02 公開日:2022-11-25
# パッチアウトオーディオトランスフォーマの大規模トレーニングによる一般音声表現の学習

Learning General Audio Representations with Large-Scale Training of Patchout Audio Transformers ( http://arxiv.org/abs/2211.13956v1 )

ライセンス: Link先を確認
Khaled Koutini, Shahed Masoudian, Florian Schmid, Hamid Eghbal-zadeh, Jan Schl\"uter, Gerhard Widmer(参考訳) 教師付きディープラーニング手法の成功は、生データから関連する特徴を学習する能力によるところが大きい。 大規模データセットでトレーニングされたDeep Neural Networks(DNN)は、さまざまな機能のセットをキャプチャし、同じドメインに属する見えないタスクやデータセットに一般化可能な表現を学ぶことができる。 したがって、これらのモデルは、より浅いモデルを分類器として組み合わせて、より小さなタスクやデータセットに対して強力な特徴抽出器として使用できる。 過去数年間、畳み込みニューラルネットワーク(CNN)は、主にオーディオ処理の方法として選択されてきた。 しかし、近年の注意に基づくトランスフォーマーモデルは、cnnを上回って監視された設定において大きな可能性を秘めている。 本研究では,大規模データセットで訓練された音声トランスフォーマーを用いて汎用表現を学習する。 これらのオーディオ変換器の異なる構成が、組込み品質に与える影響について検討する。 我々は,HEAR 2021 NeurIPSチャレンジ評価設定に従って,モデルの時間分解能,埋め込みレベル,受容領域を実験し,それらが各種タスクやデータセットのパフォーマンスに与える影響を検証した。 その結果,音声変換器で抽出した表現はCNN表現よりも優れていた。 さらに、Audiosetでトレーニングされた変換器は、幅広い下流タスクに対して非常に効果的な表現抽出器であることを示す。

The success of supervised deep learning methods is largely due to their ability to learn relevant features from raw data. Deep Neural Networks (DNNs) trained on large-scale datasets are capable of capturing a diverse set of features, and learning a representation that can generalize onto unseen tasks and datasets that are from the same domain. Hence, these models can be used as powerful feature extractors, in combination with shallower models as classifiers, for smaller tasks and datasets where the amount of training data is insufficient for learning an end-to-end model from scratch. During the past years, Convolutional Neural Networks (CNNs) have largely been the method of choice for audio processing. However, recently attention-based transformer models have demonstrated great potential in supervised settings, outperforming CNNs. In this work, we investigate the use of audio transformers trained on large-scale datasets to learn general-purpose representations. We study how the different setups in these audio transformers affect the quality of their embeddings. We experiment with the models' time resolution, extracted embedding level, and receptive fields in order to see how they affect performance on a variety of tasks and datasets, following the HEAR 2021 NeurIPS challenge evaluation setup. Our results show that representations extracted by audio transformers outperform CNN representations. Furthermore, we will show that transformers trained on Audioset can be extremely effective representation extractors for a wide range of downstream tasks.
翻訳日:2022-11-28 18:58:44 公開日:2022-11-25
# 高次元因果発見:独立性に基づく分解による逆共分散から学ぶ

High-Dimensional Causal Discovery: Learning from Inverse Covariance via Independence-based Decomposition ( http://arxiv.org/abs/2211.14221v1 )

ライセンス: Link先を確認
Shuyu Dong, Kento Uemura, Akito Fujii, Shuang Chang, Yusuke Koyanagi, Koji Maruhashi, Mich\`ele Sebag(参考訳) 観測データから因果関係を推定することは、変数の数が大きい場合の基本的かつ非常に複雑な問題である。 最近の進歩は因果構造モデル(sems)の学習に大きな進歩をもたらしたが、スケーラビリティの課題に直面している。 本稿では,高次元データから因果DAGを効率的に発見することを目的とする。 観測データの逆共分散推定器から因果DAGを復元する方法を検討する。 提案したアルゴリズムはICID (inverse covariance Estimation and {\it independent-based} decomposition) と呼ばれ、非ゼロパターンを保存する逆共分散行列の分解を探索する。 このアルゴリズムは,Cholesky分解における正定値行列の性質と非ゼロパターンの保存の利点を生かし,データ分布から因果構造を同定する上での有効性を説明する。 提案アルゴリズムは,スパースSEMの文脈において,$O(d^2)$の複雑さで因果DAGを復元することを示した。 この複雑さは、我々のアルゴリズムの優れた拡張性によって、徹底的な実験と最先端のアルゴリズムとの比較によって反映される。

Inferring causal relationships from observational data is a fundamental yet highly complex problem when the number of variables is large. Recent advances have made much progress in learning causal structure models (SEMs) but still face challenges in scalability. This paper aims to efficiently discover causal DAGs from high-dimensional data. We investigate a way of recovering causal DAGs from inverse covariance estimators of the observational data. The proposed algorithm, called ICID (inverse covariance estimation and {\it independence-based} decomposition), searches for a decomposition of the inverse covariance matrix that preserves its nonzero patterns. This algorithm benefits from properties of positive definite matrices supported on {\it chordal} graphs and the preservation of nonzero patterns in their Cholesky decomposition; we find exact mirroring between the support-preserving property and the independence-preserving property of our decomposition method, which explains its effectiveness in identifying causal structures from the data distribution. We show that the proposed algorithm recovers causal DAGs with a complexity of $O(d^2)$ in the context of sparse SEMs. The advantageously low complexity is reflected by good scalability of our algorithm in thorough experiments and comparisons with state-of-the-art algorithms.
翻訳日:2022-11-28 18:58:21 公開日:2022-11-25
# beyond smoothing:edge heterophily discriminatingを用いた教師なしグラフ表現学習

Beyond Smoothing: Unsupervised Graph Representation Learning with Edge Heterophily Discriminating ( http://arxiv.org/abs/2211.14065v1 )

ライセンス: Link先を確認
Yixin Liu, Yizhen Zheng, Daokun Zhang, Vincent CS Lee, Shirui Pan(参考訳) 教師なしグラフ表現学習(UGRL)は研究の注目を集め、いくつかのグラフ解析タスクにおいて有望な結果を得た。 ホモフィリーな仮定に基づいて、既存のUGRL法は学習したノード表現を全てのエッジに沿って滑らかにし、異なる属性を持つノードを接続するヘテロ親和性のあるエッジの存在を無視する傾向にある。 その結果、現在の手法は異種ノードが広く接続されている異種グラフに一般化することは困難であり、また敵攻撃にも脆弱である。 この問題に対処するために,同種エッジと異種エッジを識別・活用して表現を学習するEdge hEterophily discriminaTing (GREET) を用いた教師なしグラフ表現学習手法を提案する。 2種類のエッジを区別するために、特徴情報と構造情報からエッジをホモフィリ/ヘテロフィリに推論するエッジ判別器を構築する。 我々は,ランダムにサンプリングされたノード対がピボットとして振る舞うことにより,手作りのピボットアンチョードランキングロスを最小化し,教師なしの方法でエッジ判別子を訓練する。 ノード表現は、識別されたホモ親和性およびヘテロ親和性エッジから得られる二重チャネルエンコーディングと対比することによって学習される。 効果的な相互作用方式により、エッジ識別と表現学習は、トレーニングフェーズ中に相互に増強することができる。 GREETの優位性を実証するために、14のベンチマークデータセットと複数の学習シナリオについて広範な実験を行った。

Unsupervised graph representation learning (UGRL) has drawn increasing research attention and achieved promising results in several graph analytic tasks. Relying on the homophily assumption, existing UGRL methods tend to smooth the learned node representations along all edges, ignoring the existence of heterophilic edges that connect nodes with distinct attributes. As a result, current methods are hard to generalize to heterophilic graphs where dissimilar nodes are widely connected, and also vulnerable to adversarial attacks. To address this issue, we propose a novel unsupervised Graph Representation learning method with Edge hEterophily discriminaTing (GREET) which learns representations by discriminating and leveraging homophilic edges and heterophilic edges. To distinguish two types of edges, we build an edge discriminator that infers edge homophily/heterophily from feature and structure information. We train the edge discriminator in an unsupervised way through minimizing the crafted pivot-anchored ranking loss, with randomly sampled node pairs acting as pivots. Node representations are learned through contrasting the dual-channel encodings obtained from the discriminated homophilic and heterophilic edges. With an effective interplaying scheme, edge discriminating and representation learning can mutually boost each other during the training phase. We conducted extensive experiments on 14 benchmark datasets and multiple learning scenarios to demonstrate the superiority of GREET.
翻訳日:2022-11-28 18:43:56 公開日:2022-11-25
# EDGAR:AIによる銃弾のリアルタイム検出

EDGAR: Embedded Detection of Gunshots by AI in Real-time ( http://arxiv.org/abs/2211.14073v1 )

ライセンス: Link先を確認
Nathan Morsa(参考訳) 電子ショットカウンタは、定量的測定に基づく予防的および予測的メンテナンス、信頼性の向上、事故発生頻度の低減、メンテナンスコストの低減を可能にする。 市場投入までのリードタイムとカスタマイズの両面での市場プレッシャーに対処するため,機械学習を用いてショット検出とショットカウントの問題を汎用的に解決することを目指している。 本研究では,時系列で発射されるショットの総数のみを必要とすることで,最小限のラベリング労力でデータセットを構築できる手法について述べる。 本研究は,ラベル比率から学習し,これらの弱いラベルを活用して,計数問題やより一般的な識別問題を解くことができるインスタンスレベル分類器を導出できる手法を提案する最初の研究である。 また、この手法は、厳しいリアルタイム(100ms)の推論を提供しながら、制約の厳しいマイクロコントローラに展開可能であることも示している。 本手法を最先端の教師なしアルゴリズムに対して評価し,その性能向上を示すとともに,弱ラベルからの情報を効果的に活用できることを示す。 最後に,人間の生成した最先端アルゴリズムに対する手法を評価し,オフラインおよび実世界のベンチマークで同等のパフォーマンスを提供し,その性能を大幅に上回っていることを示す。

Electronic shot counters allow armourers to perform preventive and predictive maintenance based on quantitative measurements, improving reliability, reducing the frequency of accidents, and reducing maintenance costs. To answer a market pressure for both low lead time to market and increased customisation, we aim to solve the shot detection and shot counting problem in a generic way through machine learning. In this study, we describe a method allowing one to construct a dataset with minimal labelling effort by only requiring the total number of shots fired in a time series. To our knowledge, this is the first study to propose a technique, based on learning from label proportions, that is able to exploit these weak labels to derive an instance-level classifier able to solve the counting problem and the more general discrimination problem. We also show that this technique can be deployed in heavily constrained microcontrollers while still providing hard real-time (<100ms) inference. We evaluate our technique against a state-of-the-art unsupervised algorithm and show a sizeable improvement, suggesting that the information from the weak labels is successfully leveraged. Finally, we evaluate our technique against human-generated state-of-the-art algorithms and show that it provides comparable performance and significantly outperforms them in some offline and real-world benchmarks.
翻訳日:2022-11-28 18:43:28 公開日:2022-11-25
# スマート都市垂直産業のための強化学習に基づく仮想ネットワーク埋め込みのための分離手法

Isolation Scheme for Virtual Network Embedding Based on Reinforcement Learning for Smart City Vertical Industries ( http://arxiv.org/abs/2211.14158v1 )

ライセンス: Link先を確認
Ali Gohar(参考訳) 現代のICTインフラストラクチャは仮想化技術に基づいて構築されており、エネルギー、医療、製造、エンターテイメント、インテリジェントトランスポートなど、さまざまなスマートシティ垂直産業(SCVI)をサポートするために、さまざまな専用ネットワークを接続している。 幅広いSCVIのユースケースでは、サービスが継続的に確実に運用する必要がある。 特定のSCVIによる分離の違反、すなわち、SCVIネットワークは他のSCVIネットワークとは独立して動作し、インフラプロバイダ(InP)のサービス保証を著しく複雑にする。 第一に、これらのscviネットワークは多様なリソース要件を持ち、第二に、分離のような付加的な機能要件を必要とする。 SCVIのユースケースが直面している2つの問題に基づいて,深層強化学習(DRL)に基づく資源・隔離制約付き仮想ネットワーク埋め込み(VNE)アルゴリズムを提案する。 提案するdrl_vneアルゴリズムは,既存の3つの最先端ソリューションを12.9%,19.0%,4%の順応率,長期平均収益,長期平均収益率,コスト比で比較して,ダイナミクスの変化に自動的に適応することができる。

Modern ICT infrastructure is built on virtualization technologies, which connect a diverse set of dedicated networks to support a variety of smart city vertical industries (SCVI), such as energy, healthcare, manufacturing, entertainment, and intelligent transportation. The wide range of SCVI use cases require services to operate continuously and reliably. The violation of isolation by a specific SCVI, that is, a SCVI network must operate independently of other SCVI networks, complicates service assurance for infrastructure providers (InPs) significantly. As a result, a solution must be considered from the standpoint of isolation, which raises two issues: first, these SCVI networks have diverse resource requirements, and second, they necessitate additional functionality requirements such as isolation. Based on the above two problems faced by SCVI use cases, we propose a virtual network embedding (VNE) algorithm with resource and isolation constraints based on deep reinforcement learning (DRL). The proposed DRL_VNE algorithm can automatically adapt to changing dynamics and outperforms existing three state-of-the-art solutions by 12.9%, 19.0% and 4% in terms of the acceptance rate, the long-term average revenue, and long-term average revenue to cost ratio.
翻訳日:2022-11-28 18:42:49 公開日:2022-11-25
# データ駆動による高分子融液中のガラス転移の同定と解析

Data-driven identification and analysis of the glass transition in polymer melts ( http://arxiv.org/abs/2211.14220v1 )

ライセンス: Link先を確認
Atreyee Banerjee, Hsiao-Ping Hsu, Kurt Kremer, Oleksandra Kukharenko(参考訳) 本研究では, 高分子鎖の構造揺らぎに関する情報に基づくデータ駆動アプローチを提案し, 弱半フレキシブル鎖の高分子融液のガラス転移温度$t_g$を明確に同定する。 クラスタリングによる主成分分析 (PCA) を用いて, 液体状態とガラス状態の区別を行い, 漸近限界におけるT_g$の予測を行う。 以上よりT_g$の温度に近づくと,ロース型モノマー変位系に到達した短い分子動力学シミュレーション軌道を考えるだけで十分であることを示す。 PCAと参加率の最初の固有値は、T_g$あたりの急激な変化を示す。 我々のアプローチは最小限のユーザ入力を必要とし、堅牢で転送可能である。

We propose a data-driven approach based on information about structural fluctuations of polymer chains, which clearly identifies the glass transition temperature $T_g$ of polymer melts of weakly semiflexible chains. We use principal component analysis (PCA) with clustering to distinguish between liquid and glassy states and predict $T_g$ in the asymptotic limit. Our method indicates that for temperatures approaching $T_g$ from above it is sufficient to consider short molecular dynamics simulation trajectories, which just reach into the Rouse-like monomer displacement regime. The first eigenvalue of PCA and participation ratio show sharp changes around $T_g$. Our approach requires minimum user inputs and is robust and transferable.
翻訳日:2022-11-28 18:42:16 公開日:2022-11-25
# ニューラルDAE:拘束型ニューラルネットワーク

Neural DAEs: Constrained neural networks ( http://arxiv.org/abs/2211.14302v1 )

ライセンス: Link先を確認
Tue Boesen, Eldad Haber, Uri M. Ascher(参考訳) 本稿では,動的システムのニューラルネットワークに補助軌道情報を明示的に付加する効果について検討する。 本稿では,多様体上の微分代数方程式と微分方程式の分野から着想を得て,残留ニューラルネットワークにおいて同様の手法を導入する。 安定化と投影法による制約を議論し、多体振り子と分子動力学シナリオのシミュレーションを含む実験に基づいて、どの方法を使うかを示す。 私たちのメソッドのいくつかは、既存のコードで簡単に実装でき、トレーニングパフォーマンスへの影響は限られています。

In this article we investigate the effect of explicitly adding auxiliary trajectory information to neural networks for dynamical systems. We draw inspiration from the field of differential-algebraic equations and differential equations on manifolds and implement similar methods in residual neural networks. We discuss constraints through stabilization as well as projection methods, and show when to use which method based on experiments involving simulations of multi-body pendulums and molecular dynamics scenarios. Several of our methods are easy to implement in existing code and have limited impact on training performance while giving significant boosts in terms of inference.
翻訳日:2022-11-28 18:42:03 公開日:2022-11-25
# 符号付き二分重みネットワーク:スパーシティを利用した二分重みネットワークの効率向上

Signed Binary Weight Networks: Improving Efficiency of Binary Weight Networks by Exploiting Sparsity ( http://arxiv.org/abs/2211.13838v1 )

ライセンス: Link先を確認
Sachit Kuhar, Alexey Tumanov, Judy Hoffman(参考訳) AIをユビキタスにするためには、ディープニューラルネットワーク(DNN)の効率的な推論が不可欠である。 効率的な推論を可能にする2つの重要なアルゴリズム技術 - sparsityとbinarization。 これらの技術は、ハードウェア・ソフトウェアレベルでの重みの幅と重みの繰り返しに変換され、電力とレイテンシの要件が極めて低いDNNをデプロイできる。 重みのスパース性と重みの繰り返しを生かして)類似の精度を維持しつつ、さらに効率を向上させるための符号付きバイナリネットワークという新しい手法を提案する。 本手法は,imagenet および cifar10 データセットのバイナリと同等の精度を実現し,$>69\%$ sparsity となる。 汎用デバイスにこれらのモデルをデプロイする際の実際のスピードアップを観察する。 この非構造的疎度の高い割合は、二進数に関してASICのエネルギー消費をさらに2倍に減少させる可能性があることを示す。

Efficient inference of Deep Neural Networks (DNNs) is essential to making AI ubiquitous. Two important algorithmic techniques have shown promise for enabling efficient inference - sparsity and binarization. These techniques translate into weight sparsity and weight repetition at the hardware-software level allowing the deployment of DNNs with critically low power and latency requirements. We propose a new method called signed-binary networks to improve further efficiency (by exploiting both weight sparsity and weight repetition) while maintaining similar accuracy. Our method achieves comparable accuracy on ImageNet and CIFAR10 datasets with binary and can lead to $>69\%$ sparsity. We observe real speedup when deploying these models on general-purpose devices. We show that this high percentage of unstructured sparsity can lead to a further ~2x reduction in energy consumption on ASICs with respect to binary.
翻訳日:2022-11-28 18:41:13 公開日:2022-11-25
# エネルギーモデルを用いたエンドツーエンド確率最適化

End-to-End Stochastic Optimization with Energy-Based Model ( http://arxiv.org/abs/2211.13837v1 )

ライセンス: Link先を確認
Lingkai Kong, Jiaming Cui, Yuchen Zhuang, Rui Feng, B. Aditya Prakash, Chao Zhang(参考訳) 近年,未知パラメータを含む確率的最適化問題に対してDFLが提案されている。 予測モデリングを暗黙的に微分可能な最適化層に統合することにより、DFLは標準的な2段階予測列最適化パイプラインよりも優れた性能を示した。 しかし、既存のDFL法の多くは、凸問題や凸問題のサブセットにのみ適用でき、凸問題に容易に緩和できる。 さらに、トレーニングイテレーション毎に最適化問題を解き、差別化する必要があるため、トレーニングでは非効率になる可能性がある。 エネルギーモデルを用いた確率最適化のための汎用的で効率的なDFL手法SO-EBMを提案する。 暗黙の最適化層を誘導するためにKKT条件に頼る代わりに、SO-EBMはエネルギー関数に基づいて微分可能な最適化層を用いて元の最適化問題をパラメータ化する。 最適化ランドスケープをよりよく近似するために,最適位置を捕捉する最大可能性損失と,全エネルギーランドスケープを捕捉する分布型正規化器を併用した学習目標を提案する。 最後に,ガウス混合提案に基づく自己正規化重要サンプルを用いたSO-EBMの効率的な訓練手法を提案する。 我々は,SO-EBMを3つのアプリケーション – 電力スケジューリング,COVID-19資源割り当て,非凸対人セキュリティゲーム – で評価し,SO-EBMの有効性と効率を実証した。

Decision-focused learning (DFL) was recently proposed for stochastic optimization problems that involve unknown parameters. By integrating predictive modeling with an implicitly differentiable optimization layer, DFL has shown superior performance to the standard two-stage predict-then-optimize pipeline. However, most existing DFL methods are only applicable to convex problems or a subset of nonconvex problems that can be easily relaxed to convex ones. Further, they can be inefficient in training due to the requirement of solving and differentiating through the optimization problem in every training iteration. We propose SO-EBM, a general and efficient DFL method for stochastic optimization using energy-based models. Instead of relying on KKT conditions to induce an implicit optimization layer, SO-EBM explicitly parameterizes the original optimization problem using a differentiable optimization layer based on energy functions. To better approximate the optimization landscape, we propose a coupled training objective that uses a maximum likelihood loss to capture the optimum location and a distribution-based regularizer to capture the overall energy landscape. Finally, we propose an efficient training procedure for SO-EBM with a self-normalized importance sampler based on a Gaussian mixture proposal. We evaluate SO-EBM in three applications: power scheduling, COVID-19 resource allocation, and non-convex adversarial security game, demonstrating the effectiveness and efficiency of SO-EBM.
翻訳日:2022-11-28 18:33:00 公開日:2022-11-25
# MPCViT:不均一注意を伴うMPCフレンドリーな視覚変換器の探索

MPCViT: Searching for MPC-friendly Vision Transformer with Heterogeneous Attention ( http://arxiv.org/abs/2211.13955v1 )

ライセンス: Link先を確認
Wenxuan Zeng, Meng Li, Wenjie Xiong, Wenjie Lu, Jin Tan, Runsheng Wang, Ru Huang(参考訳) セキュアなマルチパーティ計算(MPC)は、非信頼できるサーバ上の暗号化されたデータを直接計算し、ディープラーニング推論におけるデータとモデルのプライバシの両方を保護する。 しかし、ビジョントランスフォーマー(ViT)を含む既存のニューラルネットワーク(NN)アーキテクチャは、MPCプロトコルの設計や最適化は行われておらず、マルチヘッドアテンション(MHA)におけるSoftmax関数による大きな遅延オーバーヘッドが発生している。 本稿では,MPCにおける高精度かつ効率的なViT推論を実現するために,MPCViTと呼ばれるMPCフレンドリーなViTを提案する。 我々は,MPCの異なる種類の注意空間を体系的に比較し,高い精度とMPC効率の注意を多様な構造粒度と組み合わせた異種注意探索空間を提案する。 さらに,高速vit最適化のための簡易かつ効果的なニューラルネットワーク探索アルゴリズムを提案する。 MPCViTは、MPCの先行技術であるViTよりも大幅に優れている。 提案したNASアルゴリズムを用いて,Tiny-ImageNetデータセット上でのLinformerとMPCFormerと比較して,MPCViTが7.9倍,2.8倍のレイテンシ低減を実現していることを示す。 さらに、適切な知識蒸留(KD)により、MPCViTはTiny-ImageNetデータセットの9.9倍のレイテンシでベースラインのViTよりも1.9%精度が向上する。

Secure multi-party computation (MPC) enables computation directly on encrypted data on non-colluding untrusted servers and protects both data and model privacy in deep learning inference. However, existing neural network (NN) architectures, including Vision Transformers (ViTs), are not designed or optimized for MPC protocols and incur significant latency overhead due to the Softmax function in the multi-head attention (MHA). In this paper, we propose an MPC-friendly ViT, dubbed MPCViT, to enable accurate yet efficient ViT inference in MPC. We systematically compare different attention variants in MPC and propose a heterogeneous attention search space, which combines the high-accuracy and MPC-efficient attentions with diverse structure granularities. We further propose a simple yet effective differentiable neural architecture search (NAS) algorithm for fast ViT optimization. MPCViT significantly outperforms prior-art ViT variants in MPC. With the proposed NAS algorithm, our extensive experiments demonstrate that MPCViT achieves 7.9x and 2.8x latency reduction with better accuracy compared to Linformer and MPCFormer on the Tiny-ImageNet dataset, respectively. Further, with proper knowledge distillation (KD), MPCViT even achieves 1.9% better accuracy compared to the baseline ViT with 9.9x latency reduction on the Tiny-ImageNet dataset.
翻訳日:2022-11-28 18:32:39 公開日:2022-11-25
# batmannet:分子表現のためのバイブランチマスクグラフトランスフォーマーオートエンコーダ

BatmanNet: Bi-branch Masked Graph Transformer Autoencoder for Molecular Representation ( http://arxiv.org/abs/2211.13979v1 )

ライセンス: Link先を確認
Zhen Wang, Zheng Feng, Yanjun Li, Bowen Li, Yongrui Wang, Chulin Sha, Min He, Xiaolin Li(参考訳) グラフニューラルネットワーク(GNN)をAIDD(AI-driven drug discovery)に応用する試みが盛んに行われているが、特にラベル付き分子が不十分な場合には、効果的な分子表現学習は未解決の課題である。 近年の研究では、ラベルなしデータセットの自己教師付き学習によって事前訓練された大きなGNNモデルにより、下流の分子特性予測タスクにおける転送性能が向上することが示唆されている。 しかし、それらはしばしば大規模なデータセットとかなりの計算資源を必要とし、それは時間消費、計算コスト、環境にやさしいものである。 これらの制約を緩和するために,分子表現学習のための新しい事前学習モデル,バイブランチマスクグラフトランスフォーマーオートエンコーダ(batmannet)を提案する。 BatmanNetは、マスクされた分子グラフから欠落したノードとエッジを再構築する2つの調整された補足グラフオートエンコーダを備えている。 驚いたことに、BatmanNetは、原子と結合の非常に隠蔽された割合(60%)が最高の性能を達成したことに気づいた。 さらに,ノードやエッジに対して非対称なグラフベースのエンコーダ-デコーダアーキテクチャを提案する。トランスフォーマベースのエンコーダはノードやエッジの可視サブセットのみを取り,軽量デコーダは潜在表現とマスクトークンから元の分子を再構築する。 この単純かつ効果的な非対称設計により、我々のバットマンネットは、分子表現学習のための現在のディープニューラルネットワークの大きな制限を克服し、基礎となる構造的および意味的情報をキャプチャするために、ずっと小さなラベルのない分子データセットからでも効率的に学習することができる。 例えば、250Kの未標識分子を事前学習データとして使うと、2.575Mのパラメータを持つBatmanNetは、1100Mの分子に事前学習された100Mのパラメータを持つ現在の最先端の手法と比較して平均AUCの0.5%の改善を達成する。

Although substantial efforts have been made using graph neural networks (GNNs) for AI-driven drug discovery (AIDD), effective molecular representation learning remains an open challenge, especially in the case of insufficient labeled molecules. Recent studies suggest that big GNN models pre-trained by self-supervised learning on unlabeled datasets enable better transfer performance in downstream molecular property prediction tasks. However, they often require large-scale datasets and considerable computational resources, which is time-consuming, computationally expensive, and environmentally unfriendly. To alleviate these limitations, we propose a novel pre-training model for molecular representation learning, Bi-branch Masked Graph Transformer Autoencoder (BatmanNet). BatmanNet features two tailored and complementary graph autoencoders to reconstruct the missing nodes and edges from a masked molecular graph. To our surprise, BatmanNet discovered that the highly masked proportion (60%) of the atoms and bonds achieved the best performance. We further propose an asymmetric graph-based encoder-decoder architecture for either nodes and edges, where a transformer-based encoder only takes the visible subset of nodes or edges, and a lightweight decoder reconstructs the original molecule from the latent representation and mask tokens. With this simple yet effective asymmetrical design, our BatmanNet can learn efficiently even from a much smaller-scale unlabeled molecular dataset to capture the underlying structural and semantic information, overcoming a major limitation of current deep neural networks for molecular representation learning. For instance, using only 250K unlabelled molecules as pre-training data, our BatmanNet with 2.575M parameters achieves a 0.5% improvement on the average AUC compared with the current state-of-the-art method with 100M parameters pre-trained on 11M molecules.
翻訳日:2022-11-28 18:32:16 公開日:2022-11-25
# m$^2$m:微分プライベートスケッチから様々なデータ分析タスクを実行する一般的な方法

M$^2$M: A general method to perform various data analysis tasks from a differentially private sketch ( http://arxiv.org/abs/2211.14062v1 )

ライセンス: Link先を確認
Florimond Houssiau, Vincent Schellekens, Antoine Chatalic, Shreyas Kumar Annamraju, Yves-Alexandre de Montjoye(参考訳) 差分プライバシーは、機密データに対して分析を行うための標準的なプライバシー定義である。 しかし、そのプライバシー予算は、アナリストが合理的な精度で実行できるタスクの数を制限しているため、実際にデプロイすることは困難である。 これは、データセットを1つのノイズの多いスケッチベクトルに圧縮して、アナリストと共有し、任意に多くの分析を行う、プライベートスケッチによって緩和することができる。 しかし、スケッチから特定のタスクを実行するアルゴリズムはケースバイケースで開発されなければならない。 本稿では,1つのプライベートスケッチから幅広いデータ探索タスクを実行するための汎用的モーメント・ツー・モーメント法(m$^2$m)を提案する。 この方法は、属性の経験的モーメント、共分散行列、クエリ数(ヒストグラムを含む)、回帰モデルの推定に使うことができる。 本手法は,スケッチ機構をブラックボックス操作として扱うことにより,文献から得られる多種多様なスケッチに適用し,さらなる工学的・プライバシー的損失を伴わずに応用範囲を広げ,微分プライバシー下でのデータ探索のためのスケッチを広く採用するための技術的障壁を取り除く。 本手法を,人工および実世界のデータを用いたデータ探索タスクで検証し,個人のスケッチから統計や分類モデルを確実に推定できることを示す。

Differential privacy is the standard privacy definition for performing analyses over sensitive data. Yet, its privacy budget bounds the number of tasks an analyst can perform with reasonable accuracy, which makes it challenging to deploy in practice. This can be alleviated by private sketching, where the dataset is compressed into a single noisy sketch vector which can be shared with the analysts and used to perform arbitrarily many analyses. However, the algorithms to perform specific tasks from sketches must be developed on a case-by-case basis, which is a major impediment to their use. In this paper, we introduce the generic moment-to-moment (M$^2$M) method to perform a wide range of data exploration tasks from a single private sketch. Among other things, this method can be used to estimate empirical moments of attributes, the covariance matrix, counting queries (including histograms), and regression models. Our method treats the sketching mechanism as a black-box operation, and can thus be applied to a wide variety of sketches from the literature, widening their ranges of applications without further engineering or privacy loss, and removing some of the technical barriers to the wider adoption of sketches for data exploration under differential privacy. We validate our method with data exploration tasks on artificial and real-world data, and show that it can be used to reliably estimate statistics and train classification models from private sketches.
翻訳日:2022-11-28 18:31:40 公開日:2022-11-25
# 大規模環境における静的・動的シーンの効率的な3次元再構成・ストリーミング・可視化

Efficient 3D Reconstruction, Streaming and Visualization of Static and Dynamic Scene Parts for Multi-client Live-telepresence in Large-scale Environments ( http://arxiv.org/abs/2211.14310v1 )

ライセンス: Link先を確認
Leif Van Holland, Patrick Stotko, Stefan Krumpen, Reinhard Klein, Michael Weinmann(参考訳) 静的でダイナミックなシーンエンティティを備えたルームスケールシーンのテレプレゼンスシステムの目覚ましい進歩にもかかわらず、その能力を数平方メートル以上の大きな動的環境を持つシナリオに拡張することは依然として困難である。 本稿では,1台のコンシューマグレードのRGB-Dカメラを用いた軽量シーンキャプチャをベースとして,静的シーンと動的シーンの双方を実用的な帯域幅要件で共有することを目的とした。 To this end, we present a system which is built upon a novel hybrid volumetric scene representation in terms of the combination of a voxel-based scene representation for the static contents, that not only stores the reconstructed surface geometry but also contains information about the object semantics as well as their accumulated dynamic movement over time, and a point-cloud-based representation for dynamic scene parts, where the respective separation from static parts is achieved based on semantic and instance information extracted for the input frames. 静的なコンテンツと動的コンテンツの両方を独立に同時にストリーミングすることで、動的になるまで静的なモデル内で潜在的に動くが現在静的なシーンエンティティをシームレスに統合し、リモートクライアントで静的なデータと動的データを融合することで、インタラクティブなレートでvrベースのライブテレプレゼンスを実現できる。 本評価では, デザイン選択に関する視覚的品質, 性能, アブレーション研究の観点から, 新たなアプローチの可能性を示す。

Despite the impressive progress of telepresence systems for room-scale scenes with static and dynamic scene entities, expanding their capabilities to scenarios with larger dynamic environments beyond a fixed size of a few squaremeters remains challenging. In this paper, we aim at sharing 3D live-telepresence experiences in large-scale environments beyond room scale with both static and dynamic scene entities at practical bandwidth requirements only based on light-weight scene capture with a single moving consumer-grade RGB-D camera. To this end, we present a system which is built upon a novel hybrid volumetric scene representation in terms of the combination of a voxel-based scene representation for the static contents, that not only stores the reconstructed surface geometry but also contains information about the object semantics as well as their accumulated dynamic movement over time, and a point-cloud-based representation for dynamic scene parts, where the respective separation from static parts is achieved based on semantic and instance information extracted for the input frames. With an independent yet simultaneous streaming of both static and dynamic content, where we seamlessly integrate potentially moving but currently static scene entities in the static model until they are becoming dynamic again, as well as the fusion of static and dynamic data at the remote client, our system is able to achieve VR-based live-telepresence at interactive rates. Our evaluation demonstrates the potential of our novel approach in terms of visual quality, performance, and ablation studies regarding involved design choices.
翻訳日:2022-11-28 18:25:30 公開日:2022-11-25
# 耐故障性オフラインマルチエージェントパス計画

Fault-Tolerant Offline Multi-Agent Path Planning ( http://arxiv.org/abs/2211.13908v1 )

ライセンス: Link先を確認
Keisuke Okumura, S\'ebastien Tixeuil(参考訳) 本研究では,複数のエージェントが実行時にクラッシュする可能性のある新しいグラフパス計画問題について検討し,ワークスペースの一部をブロックする。 私たちの設定では、エージェントは隣接するクラッシュしたエージェントを検出し、実行時にパスを変更できます。 その目的は、各エージェントの一連のパスとスイッチングルールを作成し、他のエージェントの予期せぬクラッシュにもかかわらず、すべての正しいエージェントが衝突やデッドロックなしで目的地に到達することを保証することである。 このような計画は、信頼できるマルチロボットシステムを構築する上で魅力的である。 本稿では,問題形式化,計算複雑度などの理論的解析,オフライン計画問題の解法を提案する。

We study a novel graph path planning problem for multiple agents that may crash at runtime, and block part of the workspace. In our setting, agents can detect neighboring crashed agents, and change followed paths at runtime. The objective is then to prepare a set of paths and switching rules for each agent, ensuring that all correct agents reach their destinations without collisions or deadlocks, despite unforeseen crashes of other agents. Such planning is attractive to build reliable multi-robot systems. We present problem formalization, theoretical analysis such as computational complexities, and how to solve this offline planning problem.
翻訳日:2022-11-28 18:24:23 公開日:2022-11-25
# 人間に対する運動制御タスクの補助的指導

Assistive Teaching of Motor Control Tasks to Humans ( http://arxiv.org/abs/2211.14003v1 )

ライセンス: Link先を確認
Megha Srivastava, Erdem Biyik, Suvir Mirchandani, Noah Goodman, Dorsa Sadigh(参考訳) 近年,ロボット遠隔操作支援などの自律性と補助的ai技術に関する研究が,一定のタスクにおいて限られた能力を持つユーザをモデル化し,支援することを目指している。 しかしながら、これらのアプローチは人間が適応する能力を考慮して失敗し、最終的には制御タスク自体の実行方法を学ぶ。 さらに、人間が介入することが望ましいアプリケーションでは、これらの方法は完全な自己制御で成功する方法を学ぶ能力を阻害する可能性がある。 本稿では,自動車の駐車や航空機の着陸といった運動制御タスクの補助的指導の問題に焦点をあてる。 ヒトの日常活動や職業においてユビキタスな役割を担っているにもかかわらず、運動タスクは高い複雑さと分散のために一様に教えられることは滅多にない。 強化学習(RL)からスキル発見手法を活用するAI支援学習アルゴリズムを提案する。 (i)任意の運動制御タスクを教示可能なスキルに分解する。 (二)新しいドリルシーケンスの構築、及び (三)異なる能力の学生にカリキュラムを個別化する。 2つの運動制御タスク - ジョイスティックで車を駐車し、バリニーズアルファベットから文字を書く - について、合成とユーザーによる広範囲な研究を通して、スキルによる教育は、スキルのない完全な軌道を実践するよりも約40%向上し、個別化されたドリルを実践することで最大25%の改善をもたらすことが示されている。 ソースコードはhttps://github.com/Stanford-ILIAD/teachingで入手できる。

Recent works on shared autonomy and assistive-AI technologies, such as assistive robot teleoperation, seek to model and help human users with limited ability in a fixed task. However, these approaches often fail to account for humans' ability to adapt and eventually learn how to execute a control task themselves. Furthermore, in applications where it may be desirable for a human to intervene, these methods may inhibit their ability to learn how to succeed with full self-control. In this paper, we focus on the problem of assistive teaching of motor control tasks such as parking a car or landing an aircraft. Despite their ubiquitous role in humans' daily activities and occupations, motor tasks are rarely taught in a uniform way due to their high complexity and variance. We propose an AI-assisted teaching algorithm that leverages skill discovery methods from reinforcement learning (RL) to (i) break down any motor control task into teachable skills, (ii) construct novel drill sequences, and (iii) individualize curricula to students with different capabilities. Through an extensive mix of synthetic and user studies on two motor control tasks -- parking a car with a joystick and writing characters from the Balinese alphabet -- we show that assisted teaching with skills improves student performance by around 40% compared to practicing full trajectories without skills, and practicing with individualized drills can result in up to 25% further improvement. Our source code is available at https://github.com/Stanford-ILIAD/teaching
翻訳日:2022-11-28 18:24:12 公開日:2022-11-25
# 移動ロボットにおける人間-ロボットチーム編成のための階層的可変自律型混合イニシアティブフレームワーク

A Hierarchical Variable Autonomy Mixed-Initiative Framework for Human-Robot Teaming in Mobile Robotics ( http://arxiv.org/abs/2211.14095v1 )

ライセンス: Link先を確認
Dimitris Panagopoulos, Giannis Petousakis, Aniketh Ramesh, Tianshu Ruan, Grigoris Nikolaou, Rustam Stolkin, Manolis Chiou(参考訳) 本稿では,移動ロボットの協調制御において,遠隔操作者とAIエージェントとの制御権限移動の問題に対処する混合開始型(MI)フレームワークを提案する。 我々の階層的エキスパート誘導混合開始制御スイッチ(HierEMICS)は、人間のオペレータの状態と意図に関する情報を活用する。 制御切り替えポリシーは臨界階層に基づいている。 高忠実度シミュレートされた災害応答と遠隔検査シナリオにおいて,HierEMICSと最先端のエキスパート誘導型混合初期制御スイッチ(EMICS)を移動ロボットナビゲーションの文脈で比較実験を行った。 結果は、HierEMICSは、MI制御パラダイムと関連する共有制御パラダイムの両方において根本的な課題である、人間とAIエージェントの制御のための競合を減らすことを示唆している。 さらに,改良された航法安全(衝突の少ない),LOA切替効率,制御低減のためのコンフリクトなどの統計的に有意な証拠を提供する。

This paper presents a Mixed-Initiative (MI) framework for addressing the problem of control authority transfer between a remote human operator and an AI agent when cooperatively controlling a mobile robot. Our Hierarchical Expert-guided Mixed-Initiative Control Switcher (HierEMICS) leverages information on the human operator's state and intent. The control switching policies are based on a criticality hierarchy. An experimental evaluation was conducted in a high-fidelity simulated disaster response and remote inspection scenario, comparing HierEMICS with a state-of-the-art Expert-guided Mixed-Initiative Control Switcher (EMICS) in the context of mobile robot navigation. Results suggest that HierEMICS reduces conflicts for control between the human and the AI agent, which is a fundamental challenge in both the MI control paradigm and also in the related shared control paradigm. Additionally, we provide statistically significant evidence of improved, navigational safety (i.e., fewer collisions), LOA switching efficiency, and conflict for control reduction.
翻訳日:2022-11-28 18:23:48 公開日:2022-11-25
# ニューラルレンダリングによる教師なし連続意味適応

Unsupervised Continual Semantic Adaptation through Neural Rendering ( http://arxiv.org/abs/2211.13969v1 )

ライセンス: Link先を確認
Zhizheng Liu, Francesco Milano, Jonas Frey, Marco Hutter, Roland Siegwart, Hermann Blum, Cesar Cadena(参考訳) アプリケーションの増加は、シーンのシーケンスにわたって知覚タスクにデプロイされるデータ駆動モデルに依存している。 トレーニングデータとデプロイメントデータのミスマッチのため、新しいシーンでモデルを適用することは、しばしば優れたパフォーマンスを得るために重要である。 本研究では,セマンティクスセグメンテーションのタスクに対して,セマンティクスセグメンテーションを行うための連続的マルチシーン適応について検討する。 セグメンテーションモデルの予測を融合させ,ビュー一貫性のあるセマンティックラベルを擬似ラベルとして使用することにより,シーン毎にセマンティック・NeRFネットワークをトレーニングする。 セグメンテーションモデルとのジョイントトレーニングにより,セマンティック・ニューラルフモデルにより2次元3次元の知識伝達が可能となる。 さらに、サイズが小さく、長期記憶に保存でき、その後、任意の視点からデータをレンダリングして忘れることを減らすことができる。 我々は,Voxelベースのベースラインと最先端の教師なしドメイン適応手法の両方より優れているScanNetに対するアプローチを評価する。

An increasing amount of applications rely on data-driven models that are deployed for perception tasks across a sequence of scenes. Due to the mismatch between training and deployment data, adapting the model on the new scenes is often crucial to obtain good performance. In this work, we study continual multi-scene adaptation for the task of semantic segmentation, assuming that no ground-truth labels are available during deployment and that performance on the previous scenes should be maintained. We propose training a Semantic-NeRF network for each scene by fusing the predictions of a segmentation model and then using the view-consistent rendered semantic labels as pseudo-labels to adapt the model. Through joint training with the segmentation model, the Semantic-NeRF model effectively enables 2D-3D knowledge transfer. Furthermore, due to its compact size, it can be stored in a long-term memory and subsequently used to render data from arbitrary viewpoints to reduce forgetting. We evaluate our approach on ScanNet, where we outperform both a voxel-based baseline and a state-of-the-art unsupervised domain adaptation method.
翻訳日:2022-11-28 18:17:32 公開日:2022-11-25
# 野生における単一画像デフォーカスデブラリングのための学習可能なボケカーネル

Learnable Blur Kernel for Single-Image Defocus Deblurring in the Wild ( http://arxiv.org/abs/2211.14017v1 )

ライセンス: Link先を確認
Jucai Zhai, Pengcheng Zeng, Chihao Ma, Yong Zhao, Jie Chen(参考訳) 最近の研究によると、デュアルピクセルセンサーはデフォーカスマップ推定と画像デフォーカスの劣化に大きな進歩を遂げている。 しかし、リアルタイムのデュアルピクセルビューの抽出は、アルゴリズムの展開において面倒で複雑である。 さらに、デフォーカスデブロワーリングネットワークによって生成されたデブロワード画像は、人間の知覚に不満足な高周波の詳細を欠いている。 この問題を解決するために,デフォーカスマップのガイダンスを用いて画像のデフォーカスを行う新しいデフォーカスデブロリング手法を提案する。 提案手法は、教師なしの手法であるデフォーカスマップを推定する学習可能なぼかしカーネルと、生成的敵ネットワーク(DefocusGAN)を初めてデフォーカスする単一イメージデフォーカスとから構成される。 提案するネットワークは,異なる領域の劣化を学習し,現実的な詳細を回復することができる。 本稿では,このトレーニングプロセスを導くために,デフォーカス対逆損失を提案する。 比較実験の結果、学習可能なぼかしカーネルでは、生成されたデフォーカスマップが教師付きメソッドに匹敵する結果が得られることを確認した。 単一画像デフォーカスデブラリングタスクにおいて,提案手法は最先端の成果,特に知覚品質が著しく向上し,psnrは25.56db,lpipsは0.111dbに達した。

Recent research showed that the dual-pixel sensor has made great progress in defocus map estimation and image defocus deblurring. However, extracting real-time dual-pixel views is troublesome and complex in algorithm deployment. Moreover, the deblurred image generated by the defocus deblurring network lacks high-frequency details, which is unsatisfactory in human perception. To overcome this issue, we propose a novel defocus deblurring method that uses the guidance of the defocus map to implement image deblurring. The proposed method consists of a learnable blur kernel to estimate the defocus map, which is an unsupervised method, and a single-image defocus deblurring generative adversarial network (DefocusGAN) for the first time. The proposed network can learn the deblurring of different regions and recover realistic details. We propose a defocus adversarial loss to guide this training process. Competitive experimental results confirm that with a learnable blur kernel, the generated defocus map can achieve results comparable to supervised methods. In the single-image defocus deblurring task, the proposed method achieves state-of-the-art results, especially significant improvements in perceptual quality, where PSNR reaches 25.56 dB and LPIPS reaches 0.111.
翻訳日:2022-11-28 18:17:00 公開日:2022-11-25
# 画像マッティングのための特権付き事前情報蒸留

Privileged Prior Information Distillation for Image Matting ( http://arxiv.org/abs/2211.14036v1 )

ライセンス: Link先を確認
Cheng Lyu, Jiake Xie, Bo Xu, Cheng Lu, Han Huang, Xin Huang, Ming Wu, Chuang Zhang, and Yong Tang(参考訳) 特に前景が意味的に曖昧、無彩色、または高い透過率である場面において、決定論的かつ未決定領域を分離しようとすると、トリマップフリーなイメージマットング法の性能は制限される。 本稿では,事前環境認識情報を効果的に転送し,学生のハードフォアグラウンドでのパフォーマンスを向上させることを目的とした,ppid-im(primized prior information distillation for image matting)という新しい枠組みを提案する。 トリマップの事前情報は、実際の推論中に学生ネットワークに入力されることなく、トレーニング期間中の教師モデルのみを規定する。 効果的な特権的クロスモダリティ(すなわちtrimapとrgb)情報蒸留を実現するために、より知識に富んだ意味表現と環境認識情報を持つtrimapフリーの学生を補強するクロスレベルセマンティック蒸留(clsd)モジュールを導入する。 また,トリマップベースの教師からトリマップのない生徒に特権的ローカル属性を効率的に転送し,局所領域最適化の指導を行うアテンションガイド型ローカル蒸留モジュールを提案する。 画像マッチングにおけるPPIDフレームワークの有効性と優位性を示す実験を行った。 さらに、我々のトリマップフリーのIndexNet-PPIDは、特に無色、弱いテクスチャ、不規則なオブジェクトのシナリオにおいて、競合する最先端の手法をはるかに上回る。

Performance of trimap-free image matting methods is limited when trying to decouple the deterministic and undetermined regions, especially in the scenes where foregrounds are semantically ambiguous, chromaless, or high transmittance. In this paper, we propose a novel framework named Privileged Prior Information Distillation for Image Matting (PPID-IM) that can effectively transfer privileged prior environment-aware information to improve the performance of students in solving hard foregrounds. The prior information of trimap regulates only the teacher model during the training stage, while not being fed into the student network during actual inference. In order to achieve effective privileged cross-modality (i.e. trimap and RGB) information distillation, we introduce a Cross-Level Semantic Distillation (CLSD) module that reinforces the trimap-free students with more knowledgeable semantic representations and environment-aware information. We also propose an Attention-Guided Local Distillation module that efficiently transfers privileged local attributes from the trimap-based teacher to trimap-free students for the guidance of local-region optimization. Extensive experiments demonstrate the effectiveness and superiority of our PPID framework on the task of image matting. In addition, our trimap-free IndexNet-PPID surpasses the other competing state-of-the-art methods by a large margin, especially in scenarios with chromaless, weak texture, or irregular objects.
翻訳日:2022-11-28 18:16:38 公開日:2022-11-25
# モバイル端末におけるリアルタイムアンダーディスクカメラ画像復元とHDR

Real-Time Under-Display Cameras Image Restoration and HDR on Mobile Devices ( http://arxiv.org/abs/2211.14040v1 )

ライセンス: Link先を確認
Marcos V. Conde and Florin Vasluianu and Sabari Nathan and Radu Timofte(参考訳) 新しいフルスクリーンデバイスのトレンドは、画面の後ろにカメラを配置することで、ディスプレイとボディの比率を大きくし、アイコンタクトを強化し、スマートフォン、テレビ、タブレットでノッチのない視聴体験を提供する。 一方、アンダーディスプレイカメラ(UDC)によって撮影された画像は、その前面のスクリーンによって劣化する。 画像復元のためのディープラーニング手法は、キャプチャ画像の劣化を著しく低減し、人間の目にとって満足な結果をもたらす。 しかし、ほとんどの提案されたソリューションは、モバイルデバイス上でリアルタイムに使用できるほど信頼できないか、効率的である。 本稿では,商用スマートフォン上でFHD画像をリアルタイムに処理し,高品質な結果を提供する効率的な深層学習手法を用いて,この画像復元問題を解決することを目的とする。 我々は,視覚障害者のudc画像復元とhdrのための軽量モデルを提案し,スマートフォン上での性能と実行時間を比較するベンチマークも提供する。 我々のモデルは、他のモデルよりもx4少ない演算をしながら、UDCベンチマークで競合します。 我々の知る限りでは、我々はこの実世界の単一画像復元問題に、効率性と生産の観点からアプローチし分析する最初の取り組みである。

The new trend of full-screen devices implies positioning the camera behind the screen to bring a larger display-to-body ratio, enhance eye contact, and provide a notch-free viewing experience on smartphones, TV or tablets. On the other hand, the images captured by under-display cameras (UDCs) are degraded by the screen in front of them. Deep learning methods for image restoration can significantly reduce the degradation of captured images, providing satisfying results for the human eyes. However, most proposed solutions are unreliable or efficient enough to be used in real-time on mobile devices. In this paper, we aim to solve this image restoration problem using efficient deep learning methods capable of processing FHD images in real-time on commercial smartphones while providing high-quality results. We propose a lightweight model for blind UDC Image Restoration and HDR, and we also provide a benchmark comparing the performance and runtime of different methods on smartphones. Our models are competitive on UDC benchmarks while using x4 less operations than others. To the best of our knowledge, we are the first work to approach and analyze this real-world single image restoration problem from the efficiency and production point of view.
翻訳日:2022-11-28 18:16:12 公開日:2022-11-25
# エッジビデオ分析のためのタスク指向通信

Task-Oriented Communication for Edge Video Analytics ( http://arxiv.org/abs/2211.14049v1 )

ライセンス: Link先を確認
Jiawei Shao, Xinjie Zhang, Jun Zhang(参考訳) 人工知能(AI)技術の開発とカメラ搭載デバイスの普及により、多くのエッジビデオ分析アプリケーションが登場し、ネットワークエッジに計算集約型AIモデルを配置するよう呼びかけている。 エッジ推論は、計算集約的なワークロードをローエンドデバイスからビデオ分析用の強力なエッジサーバに移行する有望なソリューションだが、帯域幅が限られているため、デバイスとサーバ間の通信はボトルネックのままである。 本稿では,複数のデバイスが視覚感覚データを収集し,情報をエッジサーバに送信して処理を行う,エッジビデオ解析のためのタスク指向通信フレームワークを提案する。 低レイテンシ推論を可能にするために、このフレームワークは、空間的および時間的領域におけるビデオ冗長性を排除し、エッジサーバでのビデオを再構成するのではなく、下流タスクに不可欠な最小限の情報を送信する。 具体的には、決定論的情報ボトルネック(IB)原理に基づいて、その特徴の情報性と通信コストのトレードオフを特徴付けるコンパクトなタスク関連特徴を抽出する。 連続フレームの特徴は時間的に相関するので,特徴符号化において,前の特徴を側情報として捉えてビットレートを低減するための時間エントロピーモデル(TEM)を提案する。 推測性能をさらに向上するため,サーバに空間-時空間融合モジュールを構築し,現在のフレームと前のフレームの特徴を統合して共同推論を行う。 ビデオ分析タスクに関する広範囲な実験により,提案手法がビデオデータのタスク関連情報を効果的にエンコードし,既存の手法よりも優れたレートパフォーマンストレードオフを実現することが証明された。

With the development of artificial intelligence (AI) techniques and the increasing popularity of camera-equipped devices, many edge video analytics applications are emerging, calling for the deployment of computation-intensive AI models at the network edge. Edge inference is a promising solution to move the computation-intensive workloads from low-end devices to a powerful edge server for video analytics, but the device-server communications will remain a bottleneck due to the limited bandwidth. This paper proposes a task-oriented communication framework for edge video analytics, where multiple devices collect the visual sensory data and transmit the informative features to an edge server for processing. To enable low-latency inference, this framework removes video redundancy in spatial and temporal domains and transmits minimal information that is essential for the downstream task, rather than reconstructing the videos at the edge server. Specifically, it extracts compact task-relevant features based on the deterministic information bottleneck (IB) principle, which characterizes a tradeoff between the informativeness of the features and the communication cost. As the features of consecutive frames are temporally correlated, we propose a temporal entropy model (TEM) to reduce the bitrate by taking the previous features as side information in feature encoding. To further improve the inference performance, we build a spatial-temporal fusion module at the server to integrate features of the current and previous frames for joint inference. Extensive experiments on video analytics tasks evidence that the proposed framework effectively encodes task-relevant information of video data and achieves a better rate-performance tradeoff than existing methods.
翻訳日:2022-11-28 18:15:55 公開日:2022-11-25
# モナイを用いたオープンソース頭蓋骨再建術

Open-Source Skull Reconstruction with MONAI ( http://arxiv.org/abs/2211.14051v1 )

ライセンス: Link先を確認
Jianning Li, Andr\'e Ferreira, Behrus Puladi, Victor Alves, Michael Kamp, Moon-Sung Kim, Felix Nensa, Jens Kleesiek, Seyed-Ahmad Ahmadi, Jan Egger(参考訳) MUG500+の頭蓋骨データセットを事前訓練したmonAIの深層学習に基づく頭蓋骨再建法を提案する。 実装はmonAIコントリビューションガイドラインに従っているため、monAIユーザが簡単に試し、使用し、拡張することができる。 本論文の主な目的は,monaiフレームワークの下で,オープンソースコードと事前学習されたディープラーニングモデルを調査することである。 現在、オープンソースソフトウェア、特に(トレーニング済みの)ディープラーニングモデルがますます重要になっている。 長年にわたり、医療画像分析は大きな変化を経験してきた。 10年以上前、アルゴリズムはCやC++のような低レベルのプログラミング言語で実装され、最適化されなければならなかった。 今日では、Pythonのようなハイレベルなスクリプト言語や、PyTorchやTensorFlowといったフレームワーク、さらには多くの公開コードリポジトリが手元にある。 結果として、過去に数千行のCやC++コードを持つ実装が、数行でスクリプト化され、また、わずかな時間で実行できるようになった。 これをさらに高レベルにするために、MonAI(Medicical Open Network for Artificial Intelligence)フレームワークは、医療画像研究をより便利なプロセスに調整し、全分野を加速させ、推進する。 monaiフレームワークは、コミュニティがサポートし、オープンソースで、pytorchベースのフレームワークで、事前トレーニングされたモデルによる研究貢献を他の人に提供することができる。 頭蓋骨再建のためのコードとトレーニング済み重量は、https://github.com/Project-MONAI/research-contributions/tree/master/SkullRecで公開されている。

We present a deep learning-based approach for skull reconstruction for MONAI, which has been pre-trained on the MUG500+ skull dataset. The implementation follows the MONAI contribution guidelines, hence, it can be easily tried out and used, and extended by MONAI users. The primary goal of this paper lies in the investigation of open-sourcing codes and pre-trained deep learning models under the MONAI framework. Nowadays, open-sourcing software, especially (pre-trained) deep learning models, has become increasingly important. Over the years, medical image analysis experienced a tremendous transformation. Over a decade ago, algorithms had to be implemented and optimized with low-level programming languages, like C or C++, to run in a reasonable time on a desktop PC, which was not as powerful as today's computers. Nowadays, users have high-level scripting languages like Python, and frameworks like PyTorch and TensorFlow, along with a sea of public code repositories at hand. As a result, implementations that had thousands of lines of C or C++ code in the past, can now be scripted with a few lines and in addition executed in a fraction of the time. To put this even on a higher level, the Medical Open Network for Artificial Intelligence (MONAI) framework tailors medical imaging research to an even more convenient process, which can boost and push the whole field. The MONAI framework is a freely available, community-supported, open-source and PyTorch-based framework, that also enables to provide research contributions with pre-trained models to others. Codes and pre-trained weights for skull reconstruction are publicly available at: https://github.com/Project-MONAI/research-contributions/tree/master/SkullRec
翻訳日:2022-11-28 18:15:27 公開日:2022-11-25
# ハイパースペクトル画像雑音化のための空間スペクトルトランス

Spatial-Spectral Transformer for Hyperspectral Image Denoising ( http://arxiv.org/abs/2211.14090v1 )

ライセンス: Link先を確認
Miaoyu Li, Ying Fu, Yulun Zhang(参考訳) ハイパースペクトル画像(HSI)は、その後のHSIアプリケーションにとって重要な前処理手順である。 残念ながら、HSIのDenoising領域におけるディープラーニングの発展を目撃する一方で、既存の畳み込みに基づく手法は、HSIの非局所特性をモデル化する計算効率と能力のトレードオフに直面している。 本稿では,この問題を軽減するための空間スペクトル変換器(SST)を提案する。 空間次元とスペクトル次元の両方において内在的類似性特性を十分に探求するため,トランスフォーマーアーキテクチャを用いて非局所的空間自己アテンションと大域的スペクトル自己アテンションを行う。 ウィンドウベースの空間自己注意は、隣接する領域を超えた空間的類似性に焦点を当てる。 一方、スペクトル自己アテンションは、高度に相関するバンド間の長距離依存性を利用する。 実験の結果,提案手法は定量的品質および視覚的結果において最先端のHSI復調法よりも優れていた。

Hyperspectral image (HSI) denoising is a crucial preprocessing procedure for the subsequent HSI applications. Unfortunately, though witnessing the development of deep learning in HSI denoising area, existing convolution-based methods face the trade-off between computational efficiency and capability to model non-local characteristics of HSI. In this paper, we propose a Spatial-Spectral Transformer (SST) to alleviate this problem. To fully explore intrinsic similarity characteristics in both spatial dimension and spectral dimension, we conduct non-local spatial self-attention and global spectral self-attention with Transformer architecture. The window-based spatial self-attention focuses on the spatial similarity beyond the neighboring region. While, spectral self-attention exploits the long-range dependencies between highly correlative bands. Experimental results show that our proposed method outperforms the state-of-the-art HSI denoising methods in quantitative quality and visual results.
翻訳日:2022-11-28 18:14:59 公開日:2022-11-25
# MRIによるアルツハイマー病・前頭側頭型認知症の鑑別診断

Deep grading for MRI-based differential diagnosis of Alzheimer's disease and Frontotemporal dementia ( http://arxiv.org/abs/2211.14096v1 )

ライセンス: Link先を確認
Huy-Dung Nguyen, Micha\"el Cl\'ement, Vincent Planche, Boris Mansencal, Pierrick Coup\'e(参考訳) アルツハイマー病と前頭側頭性認知症は神経変性性認知症の一般的な形態である。 行動変化と認知障害は両疾患の臨床経過で見られ、その鑑別診断は医師にとって困難である。 したがって、この診断課題に特化した正確なツールが臨床実践に有用である。 しかし,現在の構造的イメージング法は主に各疾患の検出に焦点が当てられているが,その鑑別診断はまれである。 本稿では,疾患検出と鑑別診断の両面において,深層学習に基づくアプローチを提案する。 本応用には, 構造グレーディングと構造萎縮の2種類のバイオマーカーの利用を提案する。 まず,健常人,アルツハイマー病患者,前頭側頭型認知症患者の解剖学的パターンを,構造MRIを入力として局所的に判定する3D U-Netの大規模なアンサンブルをトレーニングすることを提案する。 アンサンブルの出力は2チャンネルの病気の座標マップであり、臨床医にとって容易に解釈できる3次元階調マップに変換できる。 この2チャンネルマップは、異なる分類タスクのための多層パーセプトロン分類器と結合される。 第2に,ディープラーニングフレームワークとボリュームに基づく従来の機械学習戦略を組み合わせることで,モデルの識別能力と堅牢性を向上させることを提案する。 クロスバリデーション法と外部バリデーション法の両方を併用し,3319 MRIを用いた実験により,診断法と鑑別診断法を比較検討した。

Alzheimer's disease and Frontotemporal dementia are common forms of neurodegenerative dementia. Behavioral alterations and cognitive impairments are found in the clinical courses of both diseases and their differential diagnosis is sometimes difficult for physicians. Therefore, an accurate tool dedicated to this diagnostic challenge can be valuable in clinical practice. However, current structural imaging methods mainly focus on the detection of each disease but rarely on their differential diagnosis. In this paper, we propose a deep learning based approach for both problems of disease detection and differential diagnosis. We suggest utilizing two types of biomarkers for this application: structure grading and structure atrophy. First, we propose to train a large ensemble of 3D U-Nets to locally determine the anatomical patterns of healthy people, patients with Alzheimer's disease and patients with Frontotemporal dementia using structural MRI as input. The output of the ensemble is a 2-channel disease's coordinate map able to be transformed into a 3D grading map which is easy to interpret for clinicians. This 2-channel map is coupled with a multi-layer perceptron classifier for different classification tasks. Second, we propose to combine our deep learning framework with a traditional machine learning strategy based on volume to improve the model discriminative capacity and robustness. After both cross-validation and external validation, our experiments based on 3319 MRI demonstrated competitive results of our method compared to the state-of-the-art methods for both disease detection and differential diagnosis.
翻訳日:2022-11-28 18:14:45 公開日:2022-11-25
# doubleu-netplus : 医用画像の意味セグメンテーションのためのマルチスケール残差特徴融合ネットワークを用いた新しい注意と文脈を導いたデュアルu-net

DoubleU-NetPlus: A Novel Attention and Context Guided Dual U-Net with Multi-Scale Residual Feature Fusion Network for Semantic Segmentation of Medical Images ( http://arxiv.org/abs/2211.14235v1 )

ライセンス: Link先を確認
Md. Rayhan Ahmed, Adnan Ferdous Ashrafi, Raihan Uddin Ahmed, Swakkhar Shatabda, A.K.M. Muzahidul Islam, Salekul Islam(参考訳) 医療画像に対する関心領域の正確な分割は、生命を脅かす疾患の効果的な治療計画を考案するための重要な経路となる。 U-Netとその最先端版であるCE-NetやDoubleU-Netは、関心領域の様々なスケールの存在、コンテキスト環境の複雑さ、曖昧な境界、医療画像におけるテクスチャの多角性などにより、ネットワークの畳み込み単位の高レベルの出力特徴マップを効果的にモデル化することが依然として困難である。 本稿では、より正確な医用画像分割のための識別的特徴表現をモデル化するネットワークの能力を高めるために、マルチコンテキスト特徴と注意戦略を活用し、DoubleU-NetPlusという新しいデュアルU-Netアーキテクチャを提案する。 DoubleU-NetPlusにはいくつかのアーキテクチャ変更が含まれている。 特に,EfficientNetB7を特徴エンコーダモジュール,新たに設計されたマルチカーネル残差畳み込みモジュール,およびアテンションに基づくアラス空間ピラミッドプールモジュールを適応的特徴として組み込んで,差別的マルチスケール高レベル特徴マップを段階的かつ正確に蓄積し,サリアント領域を強調する。 さらに,医用画像の特徴の選択的モデリングを促進するために,新しい三重注意ゲートモジュールとハイブリッド三重注意モジュールを導入する。 さらに、勾配消滅問題を緩和し、より深い空間的詳細を持つ高分解能特徴を組み込むため、標準畳み込み操作を注意誘導残差畳み込み操作に置き換える。

Accurate segmentation of the region of interest in medical images can provide an essential pathway for devising effective treatment plans for life-threatening diseases. It is still challenging for U-Net, and its state-of-the-art variants, such as CE-Net and DoubleU-Net, to effectively model the higher-level output feature maps of the convolutional units of the network mostly due to the presence of various scales of the region of interest, intricacy of context environments, ambiguous boundaries, and multiformity of textures in medical images. In this paper, we exploit multi-contextual features and several attention strategies to increase networks' ability to model discriminative feature representation for more accurate medical image segmentation, and we present a novel dual U-Net-based architecture named DoubleU-NetPlus. The DoubleU-NetPlus incorporates several architectural modifications. In particular, we integrate EfficientNetB7 as the feature encoder module, a newly designed multi-kernel residual convolution module, and an adaptive feature re-calibrating attention-based atrous spatial pyramid pooling module to progressively and precisely accumulate discriminative multi-scale high-level contextual feature maps and emphasize the salient regions. In addition, we introduce a novel triple attention gate module and a hybrid triple attention module to encourage selective modeling of relevant medical image features. Moreover, to mitigate the gradient vanishing issue and incorporate high-resolution features with deeper spatial details, the standard convolution operation is replaced with the attention-guided residual convolution operations, ...
翻訳日:2022-11-28 18:14:23 公開日:2022-11-25
# 肥大化を伴う胎児脳MRIの領域一般化

Domain generalization in fetal brain MRI segmentation \\with multi-reconstruction augmentation ( http://arxiv.org/abs/2211.14282v1 )

ライセンス: Link先を確認
Priscille de Dumast, Meritxell Bach Cuadra(参考訳) ヒト子宮内脳の発生の定量的解析は異常な特徴付けに不可欠である。 磁気共鳴画像(mri)のセグメンテーションは定量的解析の資産である。 しかし、胎児脳MRIアノテートデータセットの不足と、これらのコホート内での変動の制限により、自動セグメンテーション法の開発が妨げられている。 そこで本研究では, 胎児脳MRIの超解像再構成手法を用いて, パラメータの異なる1つの被験者を複数回再構成し, 効率的なチューニング不要なデータ拡張戦略を提案する。 全体として、後者はSRパイプライン上のセグメンテーション法の一般化を著しく改善する。

Quantitative analysis of in utero human brain development is crucial for abnormal characterization. Magnetic resonance image (MRI) segmentation is therefore an asset for quantitative analysis. However, the development of automated segmentation methods is hampered by the scarce availability of fetal brain MRI annotated datasets and the limited variability within these cohorts. In this context, we propose to leverage the power of fetal brain MRI super-resolution (SR) reconstruction methods to generate multiple reconstructions of a single subject with different parameters, thus as an efficient tuning-free data augmentation strategy. Overall, the latter significantly improves the generalization of segmentation methods over SR pipelines.
翻訳日:2022-11-28 18:13:46 公開日:2022-11-25
# スパースビューct再構成のためのシンノグラム領域の生成的モデリング

Generative Modeling in Sinogram Domain for Sparse-view CT Reconstruction ( http://arxiv.org/abs/2211.13926v1 )

ライセンス: Link先を確認
Bing Guan, Cailian Yang, Liu Zhang, Shanzhou Niu, Minghui Zhang, Yuhao Wang, Weiwen Wu, Qiegen Liu(参考訳) ct検査における放射線被曝量は患者に有害であるが, プロジェクションビューの数を直感的に減少させることで有意に低減できる。 プロジェクションビューの縮小は、通常、再構成された画像の重いエイリアシングアーティファクトにつながる。 疎視データを用いた従来のディープラーニング(DL)技術は、教師付き方法でネットワークをトレーニングするためにスパースビュー/フルビューCTイメージペアを必要とする。 プロジェクションビューの回数が変化した場合、DLネットワークはスパースビュー/フルビューCT画像ペアを更新して再トレーニングする必要がある。 この制限を緩和するために,sparse-view ct再構成のためのシンノグラム領域における教師なしスコアベース生成モデルを提案する。 具体的には,まず,フルビューシングラムデータを用いたスコアベース生成モデルを訓練し,マルチチャネル戦略を用いてネットワーク入力として高次元テンソルを形成し,先行分布をキャプチャする。 そして, 推定段階では, 確率微分方程式(sde)ソルバとデータ一貫性ステップを繰り返し実行し, フルビュー投影を実現する。 最終的な画像再構成にはフィルタ付きバックプロジェクション(fbp)アルゴリズムが用いられた。 提案手法をCTデータを用いて定性的,定量的に評価した。 実験結果から,本手法は教師付き学習手法と同等あるいは優れた性能を示した。

The radiation dose in computed tomography (CT) examinations is harmful for patients but can be significantly reduced by intuitively decreasing the number of projection views. Reducing projection views usually leads to severe aliasing artifacts in reconstructed images. Previous deep learning (DL) techniques with sparse-view data require sparse-view/full-view CT image pairs to train the network with supervised manners. When the number of projection view changes, the DL network should be retrained with updated sparse-view/full-view CT image pairs. To relieve this limitation, we present a fully unsupervised score-based generative model in sinogram domain for sparse-view CT reconstruction. Specifically, we first train a score-based generative model on full-view sinogram data and use multi-channel strategy to form highdimensional tensor as the network input to capture their prior distribution. Then, at the inference stage, the stochastic differential equation (SDE) solver and data-consistency step were performed iteratively to achieve fullview projection. Filtered back-projection (FBP) algorithm was used to achieve the final image reconstruction. Qualitative and quantitative studies were implemented to evaluate the presented method with several CT data. Experimental results demonstrated that our method achieved comparable or better performance than the supervised learning counterparts.
翻訳日:2022-11-28 18:05:27 公開日:2022-11-25
# 定量的サセプティビリティマッピングのためのアフィン変換編集・精製ディープニューラルネットワーク

Affine Transformation Edited and Refined Deep Neural Network for Quantitative Susceptibility Mapping ( http://arxiv.org/abs/2211.13942v1 )

ライセンス: Link先を確認
Zhuang Xiong, Yang Gao, Feng Liu, Hongfu Sun(参考訳) 深層ニューラルネットワークは、量的感受性マッピング(QSM)のための双極子反転を解く大きな可能性を示している。 しかし,既存の深層学習手法の大半の性能は,取得方向や空間分解能といったミスマッチしたシーケンスパラメータによって劇的に劣化する。 本稿では,QSMのための終端から終端までのAFfine Transformation Edited and Refined(AFTER)ディープニューラルネットワークを提案する。 after-qsmニューラルネットワークは、フォワードアフィン変換層から始まり、次に双極子反転のためのunet、次いで逆アフィン変換層から始まり、qsm微細化のための残密ネットワーク(rdn)へと続く。 シミュレーションとin-vivo実験により、提案したアフターQSMネットワークアーキテクチャは優れた一般化性を示した。 高い斜めおよび異方性スキャンからサセプティビリティマップを再現し、シミュレーションテストで最高の画質評価を導き、他の方法と比較して、生体内実験におけるストレッチアーティファクトやノイズレベルを抑制することができる。 さらに,アフィン変換による画像ぼかしや感受性の過小評価をRDN精製網で有意に低減した。 また,after-qsmネットワークは,従来の手法による復元時間を数分から数秒に短縮した。

Deep neural networks have demonstrated great potential in solving dipole inversion for Quantitative Susceptibility Mapping (QSM). However, the performances of most existing deep learning methods drastically degrade with mismatched sequence parameters such as acquisition orientation and spatial resolution. We propose an end-to-end AFfine Transformation Edited and Refined (AFTER) deep neural network for QSM, which is robust against arbitrary acquisition orientation and spatial resolution up to 0.6 mm isotropic at the finest. The AFTER-QSM neural network starts with a forward affine transformation layer, followed by an Unet for dipole inversion, then an inverse affine transformation layer, followed by a Residual Dense Network (RDN) for QSM refinement. Simulation and in-vivo experiments demonstrated that the proposed AFTER-QSM network architecture had excellent generalizability. It can successfully reconstruct susceptibility maps from highly oblique and anisotropic scans, leading to the best image quality assessments in simulation tests and suppressed streaking artifacts and noise levels for in-vivo experiments compared with other methods. Furthermore, ablation studies showed that the RDN refinement network significantly reduced image blurring and susceptibility underestimation due to affine transformations. In addition, the AFTER-QSM network substantially shortened the reconstruction time from minutes using conventional methods to only a few seconds.
翻訳日:2022-11-28 18:05:04 公開日:2022-11-25
# Wild-Time: 時間によるWildディストリビューションシフトのベンチマーク

Wild-Time: A Benchmark of in-the-Wild Distribution Shift over Time ( http://arxiv.org/abs/2211.14238v1 )

ライセンス: Link先を確認
Huaxiu Yao, Caroline Choi, Bochuan Cao, Yoonho Lee, Pang Wei Koh, Chelsea Finn(参考訳) テスト分布がトレーニング分布と異なる場合の分散シフトは、実世界でデプロイされた機械学習モデルの性能を著しく低下させる可能性がある。 時空シフト -- 時間経過から生じる分布シフト -- は徐々に発生し、タイムスタンプメタデータの追加構造を持つことが多い。 タイムスタンプメタデータを活用することで、モデルは過去の分散シフトのトレンドから学び、未来への外挿が可能になる。 近年の研究では分布変化が研究されているが、時間シフトは未解明のままである。 このギャップに対処するため、wild-timeは患者の予後やニュース分類など、さまざまな現実のアプリケーションで発生する時間分布の変化を反映した5つのデータセットのベンチマークである。 これらのデータセットについて,ドメイン一般化,継続学習,自己教師付き学習,アンサンブル学習など,13の先行手法を体系的にベンチマークする。 固定時間分割による評価(Eval-Fix)とデータストリームによる評価(Eval-Stream)の2つの評価戦略を用いる。 私たちの主要な評価戦略であるEval-Fixは、単純な評価プロトコルを提供することを目標としています。 いずれの評価方略も,分布外データから分布外データへの平均的な性能低下を観察する。 既存の方法は、このギャップを閉じることができない。 コードはhttps://wild-time.github.io/で入手できる。

Distribution shift occurs when the test distribution differs from the training distribution, and it can considerably degrade performance of machine learning models deployed in the real world. Temporal shifts -- distribution shifts arising from the passage of time -- often occur gradually and have the additional structure of timestamp metadata. By leveraging timestamp metadata, models can potentially learn from trends in past distribution shifts and extrapolate into the future. While recent works have studied distribution shifts, temporal shifts remain underexplored. To address this gap, we curate Wild-Time, a benchmark of 5 datasets that reflect temporal distribution shifts arising in a variety of real-world applications, including patient prognosis and news classification. On these datasets, we systematically benchmark 13 prior approaches, including methods in domain generalization, continual learning, self-supervised learning, and ensemble learning. We use two evaluation strategies: evaluation with a fixed time split (Eval-Fix) and evaluation with a data stream (Eval-Stream). Eval-Fix, our primary evaluation strategy, aims to provide a simple evaluation protocol, while Eval-Stream is more realistic for certain real-world applications. Under both evaluation strategies, we observe an average performance drop of 20% from in-distribution to out-of-distribution data. Existing methods are unable to close this gap. Code is available at https://wild-time.github.io/.
翻訳日:2022-11-28 17:59:18 公開日:2022-11-25
# 予算エージェントによるコンビニアル・シビック・クラウドファンディング--均衡における福祉の最適性と最適偏差

Combinatorial Civic Crowdfunding with Budgeted Agents: Welfare Optimality at Equilibrium and Optimal Deviation ( http://arxiv.org/abs/2211.13941v1 )

ライセンス: Link先を確認
Sankarshan Damle, Manisha Padala, Sujit Gujar(参考訳) Civic Crowdfunding (CC)は「群衆の力」を使って公共プロジェクトへの貢献を集めている。 これらのプロジェクトは除外できないため、エージェントは ``free-ride,''' を好み、結果としてプロジェクトは資金提供されない。 1つのプロジェクトCCに対して、研究者は、貢献するエージェントにインセンティブを与えるための返金を提供することを提案している。 これらの資金保証は、エージェントが無制限の予算を持つ場合にのみ適用される。 この作業は、CCのために複数のプロジェクトが利用可能であり、エージェントが限られた予算を持つ、統合的な設定に焦点を当てている。 我々は、資金が保証できる特定の条件を研究します。 さらに、予算制限により、利用可能なすべてのプロジェクトが資金提供できない場合には、プロジェクトの最適な社会福祉サブセットへの資金提供が望ましい。 我々は,任意の単調返済スキームの均衡において最適な福祉を達成することの不可能性を証明する。 そして、エージェントが実際にプロジェクトに貢献するために使用できる異なるヒューリスティックスを研究します。 シミュレーションにより,得られた福祉とエージェントユーティリティの平均的なトレードオフとして,ヒューリスティックスのパフォーマンスを示す。

Civic Crowdfunding (CC) uses the ``power of the crowd'' to garner contributions towards public projects. As these projects are non-excludable, agents may prefer to ``free-ride,'' resulting in the project not being funded. For single project CC, researchers propose to provide refunds to incentivize agents to contribute, thereby guaranteeing the project's funding. These funding guarantees are applicable only when agents have an unlimited budget. This work focuses on a combinatorial setting, where multiple projects are available for CC and agents have a limited budget. We study certain specific conditions where funding can be guaranteed. Further, funding the optimal social welfare subset of projects is desirable when every available project cannot be funded due to budget restrictions. We prove the impossibility of achieving optimal welfare at equilibrium for any monotone refund scheme. We then study different heuristics that the agents can use to contribute to the projects in practice. Through simulations, we demonstrate the heuristics' performance as the average-case trade-off between welfare obtained and agent utility.
翻訳日:2022-11-28 17:58:03 公開日:2022-11-25
# 待ち時間を最小化する顧客による戦略的施設配置

Strategic Facility Location with Clients that Minimize Total Waiting Time ( http://arxiv.org/abs/2211.14016v1 )

ライセンス: Link先を確認
Simon Krogmann and Pascal Lenzner and Alexander Skopalik(参考訳) 施設と顧客を戦略的に振る舞う非協力型双方向施設配置ゲームについて検討した。 これは、クライアントが最も近い施設を単に訪れる他の多くの施設のロケーションゲームとは対照的である。 施設エージェントは、できるだけ多くの購買力を惹きつけるための施設を開くためにグラフ上の場所を選択し、クライアントエージェントは、その総待ち時間を最小化するために、購入力を戦略的に分配することによって、どの施設をパトロンにするかを選択する。 ここでは、施設の待ち時間は、受け取った総購入力に依存する。 クライアントステージはアトミック・スプリット・テーブル・ジャッジゲームであり,クライアント平衡の存在,一意性,効率的な計算を示唆する。 したがって、機能エージェントは効率的にクライアントの振る舞いを予測でき、それに従って戦略的決定を行うことができる。 それにもかかわらず、サブゲーム完全平衡は、このゲームの全ての事例に存在せず、それらの存在はNPハードであることを示す。 正の面では、3-近似サブゲーム完全平衡を計算するための単純で効率的なアルゴリズムを提供する。

We study a non-cooperative two-sided facility location game in which facilities and clients behave strategically. This is in contrast to many other facility location games in which clients simply visit their closest facility. Facility agents select a location on a graph to open a facility to attract as much purchasing power as possible, while client agents choose which facilities to patronize by strategically distributing their purchasing power in order to minimize their total waiting time. Here, the waiting time of a facility depends on its received total purchasing power. We show that our client stage is an atomic splittable congestion game, which implies existence, uniqueness and efficient computation of a client equilibrium. Therefore, facility agents can efficiently predict client behavior and make strategic decisions accordingly. Despite that, we prove that subgame perfect equilibria do not exist in all instances of this game and that their existence is NP-hard to decide. On the positive side, we provide a simple and efficient algorithm to compute 3-approximate subgame perfect equilibria.
翻訳日:2022-11-28 17:57:42 公開日:2022-11-25
# WLAN干渉推定のためのクロスネットワーク転送可能なニューラルモデル

Cross-network transferable neural models for WLAN interference estimation ( http://arxiv.org/abs/2211.14026v1 )

ライセンス: Link先を確認
Danilo Marinho Fernandes, Jonatan Krolikowski, Zied Ben Houidi, Fuxing Chen, Dario Rossi(参考訳) 時空干渉は、ある期間において、ノードが送信または受信する前に他の送信を待たなければならない時間の割合を測定することで、wlanにとって重要な性能指標である。 与えられた状態変化(例えば、チャネル、帯域幅、電力)による干渉を正確に推定できれば、WLANリソースをよりよく制御でき、実際に実装する前に設定の影響を評価することができる。 本稿では,WLANにおける干渉推定の原理的アプローチを採用する。 まず、その影響要因を特徴付けるために実データを使用し、データの精度、一般化、堅牢性の観点から、さまざまなディープラーニングアーキテクチャの制御された比較のための一連の関連する合成ワークロードを導出します。 当然ながら、グラフ畳み込みネットワーク(gcns)は総合的に最高のパフォーマンスをもたらし、キャンパスランに固有のグラフ構造を活用している。 LSTMなどとは異なり、ノードインデックスを付加しなければ、特定のノードの振る舞いを学ぶのに苦労していることに気付きます。 トレーニング時に見当たらない運用デプロイメントにトレーニングモデルを適用することで、最終的にgcnモデルの一般化機能を検証します。

Airtime interference is a key performance indicator for WLANs, measuring, for a given time period, the percentage of time during which a node is forced to wait for other transmissions before to transmitting or receiving. Being able to accurately estimate interference resulting from a given state change (e.g., channel, bandwidth, power) would allow a better control of WLAN resources, assessing the impact of a given configuration before actually implementing it. In this paper, we adopt a principled approach to interference estimation in WLANs. We first use real data to characterize the factors that impact it, and derive a set of relevant synthetic workloads for a controlled comparison of various deep learning architectures in terms of accuracy, generalization and robustness to outlier data. We find, unsurprisingly, that Graph Convolutional Networks (GCNs) yield the best performance overall, leveraging the graph structure inherent to campus WLANs. We notice that, unlike e.g. LSTMs, they struggle to learn the behavior of specific nodes, unless given the node indexes in addition. We finally verify GCN model generalization capabilities, by applying trained models on operational deployments unseen at training time.
翻訳日:2022-11-28 17:57:25 公開日:2022-11-25
# 密集したヘビーニューラルネットワーク:教師なし学習のレプリカ対称画像

Dense Hebbian neural networks: a replica symmetric picture of unsupervised learning ( http://arxiv.org/abs/2211.14067v1 )

ライセンス: Link先を確認
Elena Agliari, Linda Albanese, Francesco Alemanno, Andrea Alessandrelli, Adriano Barra, Fosca Giannotti, Daniele Lotito, Dino Pedreschi(参考訳) 我々は,教師なしの高密度な連想型ニューラルネットワークを考察し,モンテカルロシミュレーションを用いて,統計力学手法を用いて解析的な計算能力について検討する。 特に,トレーニングデータセットの品質や量,ネットワークストレージなどの制御パラメータの関数としての性能を要約した位相図を,ネットワークサイズや構造レスデータセットの限界値として有効とする。 さらに,統計力学で標準的に使用されるマクロ観測器と,機械学習で一般的に使用される損失関数との間に橋渡しを行う。 技術的には、分析的な側面から、ゲラの補間において大きな偏差と安定性解析を行い、ポストシナプスポテンシャルに関連する非ガウシアン分布に取り組む一方で、モンテカルロスキームにプレフカ近似を挿入し、シナプステンソルの評価を高速化し、全体としてはニューラルネットワークを一般に研究するための新しい広範なアプローチを得る。

We consider dense, associative neural-networks trained with no supervision and we investigate their computational capabilities analytically, via a statistical-mechanics approach, and numerically, via Monte Carlo simulations. In particular, we obtain a phase diagram summarizing their performance as a function of the control parameters such as the quality and quantity of the training dataset and the network storage, valid in the limit of large network size and structureless datasets. Moreover, we establish a bridge between macroscopic observables standardly used in statistical mechanics and loss functions typically used in the machine learning. As technical remarks, from the analytic side, we implement large deviations and stability analysis within Guerra's interpolation to tackle the not-Gaussian distributions involved in the post-synaptic potentials while, from the computational counterpart, we insert Plefka approximation in the Monte Carlo scheme, to speed up the evaluation of the synaptic tensors, overall obtaining a novel and broad approach to investigate neural networks in general.
翻訳日:2022-11-28 17:57:05 公開日:2022-11-25
# Cryo-EM構造の潜時空間拡散モデル

Latent Space Diffusion Models of Cryo-EM Structures ( http://arxiv.org/abs/2211.14169v1 )

ライセンス: Link先を確認
Karsten Kreis, Tim Dockhorn, Zihao Li, Ellen Zhong(参考訳) クリオ電子顕微鏡(cryo-EM)は、構造生物学において大きな動的タンパク質複合体を画像化する能力においてユニークなツールである。 この能力の鍵は、最近のディープラーニングベースのアプローチを含む、ヘテロジニアスなcryo-em再構成のための画像処理アルゴリズムである。 最新の手法であるcryodrgnは、変分オートエンコーダ(vae)フレームワークを使用して、単一粒子cryo-emイメージングデータからタンパク質構造の連続的な分布を学ぶ。 クライオDRGNは複雑な構造運動をモデル化できるが、VAEのガウス事前分布は、特に多モード分布(例えば構成的不均一性)のために構造を生成的にサンプリングすることができない。 ここでは,cryodrgnフレームワークに先立って,表現豊かで学習可能な拡散モデルを訓練する。 本手法はcryo-emイメージングデータから直接分子コンフォメーション上の高品質生成モデルを学ぶ。 2つの合成データセットと2つの実データセットでモデルからサンプルを抽出できることを示し、サンプルはVAE以前の分布のサンプルと異なり、正確にデータ分布に従う。 また, 拡散モデルが, 高速潜時空間トラバーサルおよび関心状態間の補間にどのように活用できるかを実証する。 データ分布の正確なモデルを学習することにより,不均質cryo-emアンサンブルの生成的モデリング,サンプリング,分布解析におけるツールのアンロックを行う。

Cryo-electron microscopy (cryo-EM) is unique among tools in structural biology in its ability to image large, dynamic protein complexes. Key to this ability is image processing algorithms for heterogeneous cryo-EM reconstruction, including recent deep learning-based approaches. The state-of-the-art method cryoDRGN uses a Variational Autoencoder (VAE) framework to learn a continuous distribution of protein structures from single particle cryo-EM imaging data. While cryoDRGN can model complex structural motions, the Gaussian prior distribution of the VAE fails to match the aggregate approximate posterior, which prevents generative sampling of structures especially for multi-modal distributions (e.g. compositional heterogeneity). Here, we train a diffusion model as an expressive, learnable prior in the cryoDRGN framework. Our approach learns a high-quality generative model over molecular conformations directly from cryo-EM imaging data. We show the ability to sample from the model on two synthetic and two real datasets, where samples accurately follow the data distribution unlike samples from the VAE prior distribution. We also demonstrate how the diffusion model prior can be leveraged for fast latent space traversal and interpolation between states of interest. By learning an accurate model of the data distribution, our method unlocks tools in generative modeling, sampling, and distribution analysis for heterogeneous cryo-EM ensembles.
翻訳日:2022-11-28 17:56:45 公開日:2022-11-25
# ナップサックを用いた(バイナリ)コンテクストバンディットの解法ヒューリスティックについて

On the Re-Solving Heuristic for (Binary) Contextual Bandits with Knapsacks ( http://arxiv.org/abs/2211.13952v1 )

ライセンス: Link先を確認
Rui Ai, Zhaohua Chen, Xiaotie Deng, Yuqi Pan, Chang Wang and Mingwei Yang(参考訳) knapsacks (CBwK) による文脈的包帯の問題では、エージェントは$T$ラウンドのそれぞれの i.d.コンテキストを受け取り、アクションを選択し、ランダムな報酬と、i.d.外部要因に関連するリソースのランダムな消費をもたらす。 エージェントの目標は、初期リソース制約の下で蓄積された報酬を最大化することである。 本研究では,収益管理に成功している再解決ヒューリスティックと,この問題を解決するための分布推定手法を組み合わせる。 我々は,外部要因のサンプル取得の困難さが異なる2つの情報フィードバックモデルについて検討する。 1)一般的な問題に対して,我々のアルゴリズムは流体ベンチマークに対して,$\widetilde O(T^{\alpha_u} + T^{\alpha_v} + T^{1/2})$の後悔を与えることを示す。 ここで、$\alpha_u$ と $\alpha_v$ はそれぞれコンテキストの複雑さと外部因子分布を反映している。 この結果は既存の結果に匹敵する。 (2) 流体問題は一意で非退化の最適解を持つ線形計画法であるとき、アルゴリズムは$\widetilde o(1)$ regretとなる。 私たちの知る限りでは、これは情報フィードバックモデルによらずcbwk問題を引き起こした最初の$\widetilde o(1)$ regretである。 我々はさらに数値実験を用いて結果を検証する。

In the problem of (binary) contextual bandits with knapsacks (CBwK), the agent receives an i.i.d. context in each of the $T$ rounds and chooses an action, resulting in a random reward and a random consumption of resources that are related to an i.i.d. external factor. The agent's goal is to maximize the accumulated reward under the initial resource constraints. In this work, we combine the re-solving heuristic, which proved successful in revenue management, with distribution estimation techniques to solve this problem. We consider two different information feedback models, with full and partial information, which vary in the difficulty of getting a sample of the external factor. Under both information feedback settings, we achieve two-way results: (1) For general problems, we show that our algorithm gets an $\widetilde O(T^{\alpha_u} + T^{\alpha_v} + T^{1/2})$ regret against the fluid benchmark. Here, $\alpha_u$ and $\alpha_v$ reflect the complexity of the context and external factor distributions, respectively. This result is comparable to existing results. (2) When the fluid problem is linear programming with a unique and non-degenerate optimal solution, our algorithm leads to an $\widetilde O(1)$ regret. To the best of our knowledge, this is the first $\widetilde O(1)$ regret result in the CBwK problem regardless of information feedback models. We further use numerical experiments to verify our results.
翻訳日:2022-11-28 17:49:57 公開日:2022-11-25
# 任意のクライアントアベイラビリティを持つフェデレーショングラフベースサンプリング

Federated Graph-based Sampling with Arbitrary Client Availability ( http://arxiv.org/abs/2211.13975v1 )

ライセンス: Link先を確認
Zheng Wang, Xiaoliang Fan, Jianzhong Qi, Haibing Jin, Peizhen Yang, Siqi Shen, Cheng Wang(参考訳) フェデレーション学習は、元のデータに直接アクセスせずに機械学習モデルを最適化する強力な結果を示しているが、そのパフォーマンスは、収束を遅くし、最終的な学習モデルにバイアスを与える断続的なクライアントアベイラビリティによって妨げられる可能性がある。 任意のクライアントアベイラビリティの下で安定的かつバイアスフリーなトレーニングを実現するには、大きな課題がある。 これらの課題に対処するために、グローバルモデル更新を安定化し、任意のクライアントが同時に利用できる長期的なバイアスを軽減するために、フェデレーショングラフベースサンプリング(federated graph-based sampling, fedgs)というフレームワークを提案する。 まず,データ分散依存グラフ(3dg)を用いてクライアントのデータ相関をモデル化し,サンプルしたクライアントのデータを相互に分離し,最適モデル更新の近似を理論的に改善することが示されている。 第2に,サンプリングされたクライアントのデータ分布の遠方的制約により,クライアントがサンプリングされた回数のばらつきを最小化し,長期バイアスを緩和する。 FedGSの有効性を検証するために、我々は7つのクライアントアベイラビリティーモードの包括的なセットの下で、3つのデータセットで実験を行う。 実験結果から,FedGSが公正なクライアントサンプリング方式を実現し,任意のクライアント可用性でモデル性能を向上させるという利点が確認できた。 私たちのコードは \url{https://github.com/WwZzz/FedGS} で利用可能です。

While federated learning has shown strong results in optimizing a machine learning model without direct access to the original data, its performance may be hindered by intermittent client availability which slows down the convergence and biases the final learned model. There are significant challenges to achieve both stable and bias-free training under arbitrary client availability. To address these challenges, we propose a framework named Federated Graph-based Sampling (FedGS), to stabilize the global model update and mitigate the long-term bias given arbitrary client availability simultaneously. First, we model the data correlations of clients with a Data-Distribution-Dependency Graph (3DG) that helps keep the sampled clients data apart from each other, which is theoretically shown to improve the approximation to the optimal model update. Second, constrained by the far-distance in data distribution of the sampled clients, we further minimize the variance of the numbers of times that the clients are sampled, to mitigate long-term bias. To validate the effectiveness of FedGS, we conduct experiments on three datasets under a comprehensive set of seven client availability modes. Our experimental results confirm FedGS's advantage in both enabling a fair client-sampling scheme and improving the model performance under arbitrary client availability. Our code is available at \url{https://github.com/WwZzz/FedGS}.
翻訳日:2022-11-28 17:49:30 公開日:2022-11-25
# 対人オーバーフィッティングに対する境界逆例

Boundary Adversarial Examples Against Adversarial Overfitting ( http://arxiv.org/abs/2211.14088v1 )

ライセンス: Link先を確認
Muhammad Zaid Hameed, Beat Buesser(参考訳) 標準の敵のトレーニングアプローチは強固な過剰フィッティングに苦しめられ、モデルがあまりに長く敵の訓練を受けると、堅牢な正確さが低下する。 この問題の発端はいまだ不明であり、大きな損失データや小さな損失データによる記憶効果や、敵の訓練が進むにつれてトレーニングサンプルの損失分布の違いの増加など、相反する説明が報告されている。 その結果, 低損失データに対する早期停止, 時間感覚, 重みの摂動などの緩和手法が提案されている。 しかし、これらの戦略の副作用は、標準的な対人訓練に比べてクリーンな精度の低下である。 本稿では,これらの緩和アプローチが相互に補完的であるかどうかを,対向訓練性能の向上のために検討する。 さらに,実例生成に必要最小限のコストで得られるヘルパー逆例の使用を提案し,ロバストな精度を損なうことなく,既存手法のクリーンな精度を向上させる方法を示す。

Standard adversarial training approaches suffer from robust overfitting where the robust accuracy decreases when models are adversarially trained for too long. The origin of this problem is still unclear and conflicting explanations have been reported, i.e., memorization effects induced by large loss data or because of small loss data and growing differences in loss distribution of training samples as the adversarial training progresses. Consequently, several mitigation approaches including early stopping, temporal ensembling and weight perturbations on small loss data have been proposed to mitigate the effect of robust overfitting. However, a side effect of these strategies is a larger reduction in clean accuracy compared to standard adversarial training. In this paper, we investigate if these mitigation approaches are complimentary to each other in improving adversarial training performance. We further propose the use of helper adversarial examples that can be obtained with minimal cost in the adversarial example generation, and show how they increase the clean accuracy in the existing approaches without compromising the robust accuracy.
翻訳日:2022-11-28 17:49:05 公開日:2022-11-25
# 綿花現象の季節内推定のためのファジィクラスタリング

Fuzzy clustering for the within-season estimation of cotton phenology ( http://arxiv.org/abs/2211.14099v1 )

ライセンス: Link先を確認
Vasileios Sitokonstantinou, Alkiviadis Koukos, Ilias Tsoumas, Nikolaos S. Bartsotas, Charalampos Kontoes, Vassilia Karathanassi(参考訳) 作物表現学は作物収量の推定と農業管理にとって重要な情報である。 伝統的に、フェノロジーは地上から観測されてきたが、地球観測、気象観測、土壌データを用いて作物の生理的成長を捉えている。 本研究では,綿花のフィールドレベルでの季節内表現学推定のための新しい手法を提案する。 本研究では,地球観測植生指標(センチネル-2由来)と大気・土壌パラメータの数値シミュレーションを応用した。 提案手法は,実世界のシナリオにおいて最も教師あり代替手段が実用的でないような,粗末で希少な事実データを扱うため,教師なしである。 ファジィc-meansクラスタリングを用いて綿の主な表現学的段階を同定し,クラスターメンバーシップ重みを用いて隣接する段階間の遷移相を更に予測した。 モデルを評価するため,ギリシャのオルコメノスで1,285回の作物生育地観測を行った。 そこで我々は,フィールドの一次成長段階と二次成長段階を表す2つの表現学ラベルを割り当て,段階遷移の時期を示す新しい収集プロトコルを導入した。 我々のモデルは,ランダムな合意を分離し,その真の能力を評価するベースラインモデルに対してテストされた。 その結果,本モデルがベースラインモデルよりもかなり優れており,教師なしのアプローチの性質を考慮すると有望であることがわかった。 限界と今後の課題を徹底的に議論する。 地上観測は、利用可能なデータセットでフォーマットされ、公開時にhttps://github.com/Agri-Hub/cotton-phenology-datasetで利用可能になる。

Crop phenology is crucial information for crop yield estimation and agricultural management. Traditionally, phenology has been observed from the ground; however Earth observation, weather and soil data have been used to capture the physiological growth of crops. In this work, we propose a new approach for the within-season phenology estimation for cotton at the field level. For this, we exploit a variety of Earth observation vegetation indices (derived from Sentinel-2) and numerical simulations of atmospheric and soil parameters. Our method is unsupervised to address the ever-present problem of sparse and scarce ground truth data that makes most supervised alternatives impractical in real-world scenarios. We applied fuzzy c-means clustering to identify the principal phenological stages of cotton and then used the cluster membership weights to further predict the transitional phases between adjacent stages. In order to evaluate our models, we collected 1,285 crop growth ground observations in Orchomenos, Greece. We introduced a new collection protocol, assigning up to two phenology labels that represent the primary and secondary growth stage in the field and thus indicate when stages are transitioning. Our model was tested against a baseline model that allowed to isolate the random agreement and evaluate its true competence. The results showed that our model considerably outperforms the baseline one, which is promising considering the unsupervised nature of the approach. The limitations and the relevant future work are thoroughly discussed. The ground observations are formatted in an ready-to-use dataset and will be available at https://github.com/Agri-Hub/cotton-phenology-dataset upon publication.
翻訳日:2022-11-28 17:48:47 公開日:2022-11-25
# PipeFisher: パイプライニングと漁業情報行列を用いた大規模言語モデルの効率的な訓練

PipeFisher: Efficient Training of Large Language Models Using Pipelining and Fisher Information Matrices ( http://arxiv.org/abs/2211.14133v1 )

ライセンス: Link先を確認
Kazuki Osawa, Shigang Li, Torsten Hoefler(参考訳) パイプライン並列処理により、大規模分散アクセラレータクラスタ上でのLarge Language Models(LLM)の効率的なトレーニングが可能になる。 しかし、起動時と分解時のパイプラインバブルはアクセラレータの利用を減らす。 マイクロバッチと双方向パイプラインを用いた効率的なパイプラインスキームが提案されているが、同期前方および後方通過では相当数の気泡が充填できない。 この問題に対処するため,llm訓練の補助的効果を得るために気泡に余分な作業を割り当てることを提案する。 この方向の例として,フィッシャー情報行列に基づく2次最適化手法であるK-FACをバブルに割り当てて収束を加速するPipeFisherを提案する。 BERTベースとラージモデルの第1相事前トレーニングでは、K-FACによる加速利用を大幅に改善し、改良された収束の恩恵を受けることにより、一階オプティマイザによるトレーニングに比べて(シミュレーションされた)トレーニング時間を50-75%に短縮する。

Pipeline parallelism enables efficient training of Large Language Models (LLMs) on large-scale distributed accelerator clusters. Yet, pipeline bubbles during startup and tear-down reduce the utilization of accelerators. Although efficient pipeline schemes with micro-batching and bidirectional pipelines have been proposed to maximize utilization, a significant number of bubbles cannot be filled using synchronous forward and backward passes. To address this problem, we suggest that extra work be assigned to the bubbles to gain auxiliary benefits in LLM training. As an example in this direction, we propose PipeFisher, which assigns the work of K-FAC, a second-order optimization method based on the Fisher information matrix, to the bubbles to accelerate convergence. In Phase 1 pretraining of BERT-Base and -Large models, PipeFisher reduces the (simulated) training time to 50-75% compared to training with a first-order optimizer by greatly improving the accelerator utilization and benefiting from the improved convergence by K-FAC.
翻訳日:2022-11-28 17:48:19 公開日:2022-11-25
# ファジィフ近傍近似アルゴリズムにおける不明瞭性関係の影響評価

Evaluation of the impact of the indiscernibility relation on the fuzzy-rough nearest neighbours algorithm ( http://arxiv.org/abs/2211.14134v1 )

ライセンス: Link先を確認
Henri Bollaert and Chris Cornelis(参考訳) ファジィ粗集合は曖昧で不正確で不確実な情報を扱うのに適しており、現実世界の分類問題にもうまく適用されてきた。 この理論の著名な代表の1つは、古典的なk-ネアレスト近傍アルゴリズムに基づく分類アルゴリズムであるファジィロー近傍(frnn)である。 FRNNのくちばしは、データ集合における2つの要素がどの程度類似しているかを測定する不明瞭な関係である。 本稿では,この不明瞭性関係がFRNN分類の性能に与える影響について検討する。 距離関数とカーネルに基づく関係に加えて、初めてFRNNに対する距離距離距離学習の効果についても検討する。 さらに,マハラノビス距離に基づく非対称なクラス固有関係も導入し,各クラス間の相関を利用して,通常のマハラノビス距離よりも大幅に改善されているが,マンハッタン距離に圧倒されている。 全体として、Neighbourhood Components Analysisアルゴリズムは、正確性のために取引速度が最良のパフォーマンスであることがわかった。

Fuzzy rough sets are well-suited for working with vague, imprecise or uncertain information and have been succesfully applied in real-world classification problems. One of the prominent representatives of this theory is fuzzy-rough nearest neighbours (FRNN), a classification algorithm based on the classical k-nearest neighbours algorithm. The crux of FRNN is the indiscernibility relation, which measures how similar two elements in the data set of interest are. In this paper, we investigate the impact of this indiscernibility relation on the performance of FRNN classification. In addition to relations based on distance functions and kernels, we also explore the effect of distance metric learning on FRNN for the first time. Furthermore, we also introduce an asymmetric, class-specific relation based on the Mahalanobis distance which uses the correlation within each class, and which shows a significant improvement over the regular Mahalanobis distance, but is still beaten by the Manhattan distance. Overall, the Neighbourhood Components Analysis algorithm is found to be the best performer, trading speed for accuracy.
翻訳日:2022-11-28 17:48:00 公開日:2022-11-25
# 高次元および低サンプルサイズデータのためのグラフ畳み込みネットワークに基づく特徴選択

Graph Convolutional Network-based Feature Selection for High-dimensional and Low-sample Size Data ( http://arxiv.org/abs/2211.14144v1 )

ライセンス: Link先を確認
Can Chen, Scott T. Weiss, Yang-Yu Liu(参考訳) 特徴選択はモデル構築に必要な特徴のサブセットを選択する強力な次元還元手法である。 多くの特徴選択法が提案されているが、その多くは高次元および低サンプルサイズ(hdlss)設定下では過剰フィッティングの課題により失敗する。 本稿では,hdlssデータに重要な機能を選択するために,グラフ畳み込みネットワーク機能セレクタ(graces)というディープラーニング手法を提案する。 我々はgracesが合成データと実世界のデータセットの両方で他の特徴選択手法よりも優れていることを示す実証的証拠を示す。

Feature selection is a powerful dimension reduction technique which selects a subset of relevant features for model construction. Numerous feature selection methods have been proposed, but most of them fail under the high-dimensional and low-sample size (HDLSS) setting due to the challenge of overfitting. In this paper, we present a deep learning-based method - GRAph Convolutional nEtwork feature Selector (GRACES) - to select important features for HDLSS data. We demonstrate empirical evidence that GRACES outperforms other feature selection methods on both synthetic and real-world datasets.
翻訳日:2022-11-28 17:47:41 公開日:2022-11-25
# XAIによる災害予測の克服

Overcoming Catastrophic Forgetting by XAI ( http://arxiv.org/abs/2211.14177v1 )

ライセンス: Link先を確認
Giang Nguyen(参考訳) 深層ニューラルネットワークの振る舞いを説明することは、通常ブラックボックスと見なされるが、特に人間の生活のさまざまな側面で採用されている場合に重要である。 本研究は、解釈可能な機械学習(ML)の利点を生かして、連続的な学習環境における破滅的な忘れ方を説明する新しいツールであるCatastrophic Forgetting Dissector(CFD)を提案する。 また,本ツールの観察に基づいて,臨界凍結と呼ばれる新しい手法を提案する。 resnetの実験は、この有名なネットワークのどのコンポーネントが忘れているかを示す、壊滅的な忘れ方を示す。 新しい連続学習アルゴリズムは,近年の様々な手法をかなりのマージンで打ち負かし,調査の能力を証明する。 臨界凍結は破滅的な忘れ方を攻撃するだけでなく、説明可能性も露呈する。

Explaining the behaviors of deep neural networks, usually considered as black boxes, is critical especially when they are now being adopted over diverse aspects of human life. Taking the advantages of interpretable machine learning (interpretable ML), this work proposes a novel tool called Catastrophic Forgetting Dissector (or CFD) to explain catastrophic forgetting in continual learning settings. We also introduce a new method called Critical Freezing based on the observations of our tool. Experiments on ResNet articulate how catastrophic forgetting happens, particularly showing which components of this famous network are forgetting. Our new continual learning algorithm defeats various recent techniques by a significant margin, proving the capability of the investigation. Critical freezing not only attacks catastrophic forgetting but also exposes explainability.
翻訳日:2022-11-28 17:47:30 公開日:2022-11-25
# 分散認識型ランダム化平滑化証明書

Invariance-Aware Randomized Smoothing Certificates ( http://arxiv.org/abs/2211.14207v1 )

ライセンス: Link先を確認
Jan Schuchardt, Stephan G\"unnemann(参考訳) 翻訳や回転における不変性など、異なるドメイン固有の不変性に従うモデルの構築は、分子特性予測、医用画像、タンパク質の折り畳み、LiDAR分類といった現実世界の問題に機械学習を適用する上で重要な側面である。 モデルの不均一性がどのように活用され、その予測の堅牢性を確実に保証できるかを初めて検討する。 我々は,不変性に関するホワイトボックス知識を用いて,強力なブラックボックスランダム平滑化手法を強化するグレイボックス手法を提案する。 まず, 群軌道に基づくグレーボックス証明書を開発し, 置換およびユークリッド等化の下で不変な任意のモデルに適用できる。 そして、確実にタイトなグレーボックス証明書を導き出す。 証明可能な厳密な証明書はより強力な保証を提供することができるが、実際は軌道ベースの手法が良い近似であることを示す。

Building models that comply with the invariances inherent to different domains, such as invariance under translation or rotation, is a key aspect of applying machine learning to real world problems like molecular property prediction, medical imaging, protein folding or LiDAR classification. For the first time, we study how the invariances of a model can be leveraged to provably guarantee the robustness of its predictions. We propose a gray-box approach, enhancing the powerful black-box randomized smoothing technique with white-box knowledge about invariances. First, we develop gray-box certificates based on group orbits, which can be applied to arbitrary models with invariance under permutation and Euclidean isometries. Then, we derive provably tight gray-box certificates. We experimentally demonstrate that the provably tight certificates can offer much stronger guarantees, but that in practical scenarios the orbit-based method is a good approximation.
翻訳日:2022-11-28 17:47:16 公開日:2022-11-25
# GREAD: グラフニューラル反応拡散方程式

GREAD: Graph Neural Reaction-Diffusion Equations ( http://arxiv.org/abs/2211.14208v1 )

ライセンス: Link先を確認
Jeongwhan Choi, Seoyoung Hong, Noseong Park, Sung-Bae Cho(参考訳) グラフニューラルネットワーク(GNN)は、ディープラーニングに関する最も人気のある研究トピックの1つである。 GNN法は通常、グラフ信号処理理論に基づいて設計されている。 特に、拡散方程式はGNNのコア処理層の設計に広く用いられており、過度に滑らかな問題に対して必然的に脆弱である。 最近、いくつかの論文が拡散方程式とともに反応方程式に注意を払っている。 しかし、それらはすべて限定的な反応方程式である。 そこで本研究では,我々が設計した1つの特殊反応方程式に加えて,一般的な反応方程式をすべて考慮した反応拡散式に基づくgnn法を提案する。 本論文は,反応拡散式に基づくgnnに関する最も包括的な研究の1つである。 9つのデータセットと17のベースラインを用いた実験では、GREADと呼ばれる手法がほぼすべてのケースで性能を向上する。 さらなる合成データ実験により、GREADは過剰な平滑化を緩和し、様々なホモフィリーレートで良好に機能することが示された。

Graph neural networks (GNNs) are one of the most popular research topics for deep learning. GNN methods typically have been designed on top of the graph signal processing theory. In particular, diffusion equations have been widely used for designing the core processing layer of GNNs and therefore, they are inevitably vulnerable to the oversmoothing problem. Recently, a couple of papers paid attention to reaction equations in conjunctions with diffusion equations. However, they all consider limited forms of reaction equations. To this end, we present a reaction-diffusion equation-based GNN method that considers all popular types of reaction equations in addition to one special reaction equation designed by us. To our knowledge, our paper is one of the most comprehensive studies on reaction-diffusion equation-based GNNs. In our experiments with 9 datasets and 17 baselines, our method, called GREAD, outperforms them in almost all cases. Further synthetic data experiments show that GREAD mitigates the oversmoothing and performs well for various homophily rates.
翻訳日:2022-11-28 17:47:01 公開日:2022-11-25
# マルチラベル分類データにおける誤アノテーションの同定

Identifying Incorrect Annotations in Multi-Label Classification Data ( http://arxiv.org/abs/2211.13895v1 )

ライセンス: Link先を確認
Aditya Thyagarajan, El\'ias Snorrason, Curtis Northcutt, Jonas Mueller(参考訳) マルチラベル分類では、データセット内の各例は、1つ以上のクラス(またはクラス)に属するものとしてアノテートされる。 例えば、特定のイメージ(またはドキュメント)にそれぞれのタグを適用できるような、イメージ(またはドキュメント)のタグ付けがある。 考えられる多くのクラスを考えると、データアノテータは実際にそのようなデータをラベル付けする際にエラーを起こしやすい。 本稿では,マルチラベル分類データセットにおける誤ラベル例を見つけるアルゴリズムについて検討する。 本稿では、この設定に対する信頼学習フレームワークの拡張と、ラベルエラーのある事例を正しくラベル付けされたものよりも格付けするラベル品質スコアを提案する。 どちらのアプローチも訓練された分類器を利用できる。 CelebA画像タギングデータセットにおいて,提案手法がラベル誤り検出のアルゴリズムを実証的に上回り,多くのラベル誤りを検出する手法を適用した。

In multi-label classification, each example in a dataset may be annotated as belonging to one or more classes (or none of the classes). Example applications include image (or document) tagging where each possible tag either applies to a particular image (or document) or not. With many possible classes to consider, data annotators are likely to make errors when labeling such data in practice. Here we consider algorithms for finding mislabeled examples in multi-label classification datasets. We propose an extension of the Confident Learning framework to this setting, as well as a label quality score that ranks examples with label errors much higher than those which are correctly labeled. Both approaches can utilize any trained classifier. After demonstrating that our methodology empirically outperforms other algorithms for label error detection, we apply our approach to discover many label errors in the CelebA image tagging dataset.
翻訳日:2022-11-28 17:38:24 公開日:2022-11-25
# 外部評価のための政策適応型推定器の選択

Policy-Adaptive Estimator Selection for Off-Policy Evaluation ( http://arxiv.org/abs/2211.13904v1 )

ライセンス: Link先を確認
Takuma Udagawa, Haruka Kiyohara, Yusuke Narita, Yuta Saito, Kei Tateno(参考訳) Off-policy Evaluation (OPE) は、オフラインログデータのみを使用して、カウンターファクトポリシーの性能を正確に評価することを目的としている。 多くの推定器が開発されているが、評価器の精度は評価方針、行動数、騒音レベルなど、与えられたOPEタスクによって大きく異なるため、他の推定器を優越する単一の推定器は存在しない。 したがって、データ駆動型推定器選択問題はますます重要になり、OPEの精度に大きな影響を及ぼす可能性がある。 しかし,正確な推定精度は一般に得られないため,ログデータのみを用いて最も正確な推定器を特定することは極めて困難である。 本稿では, ope に対する推定子選択の難解な問題を初めて検討する。 特に、利用可能なログデータを適切にサブサンプリングし、基礎となる推定子選択タスクに有用な擬似ポリシーを構築することにより、所定のopeタスクに適応した推定子選択を可能にする。 合成および実世界の企業データに関する総合的な実験により、提案手法は非適応的ヒューリスティックと比較して推定器の選択を大幅に改善することを示した。

Off-policy evaluation (OPE) aims to accurately evaluate the performance of counterfactual policies using only offline logged data. Although many estimators have been developed, there is no single estimator that dominates the others, because the estimators' accuracy can vary greatly depending on a given OPE task such as the evaluation policy, number of actions, and noise level. Thus, the data-driven estimator selection problem is becoming increasingly important and can have a significant impact on the accuracy of OPE. However, identifying the most accurate estimator using only the logged data is quite challenging because the ground-truth estimation accuracy of estimators is generally unavailable. This paper studies this challenging problem of estimator selection for OPE for the first time. In particular, we enable an estimator selection that is adaptive to a given OPE task, by appropriately subsampling available logged data and constructing pseudo policies useful for the underlying estimator selection task. Comprehensive experiments on both synthetic and real-world company data demonstrate that the proposed procedure substantially improves the estimator selection compared to a non-adaptive heuristic.
翻訳日:2022-11-28 17:38:08 公開日:2022-11-25
# ピクセル同士が強い: 未知の領域を全部取り除く

Pixels Together Strong: Segmenting Unknown Regions Rejected by All ( http://arxiv.org/abs/2211.14293v1 )

ライセンス: Link先を確認
Nazir Nayal, M{\i}sra Yavuz, Jo\~ao F. Henriques, Fatma G\"uney(参考訳) セマンティックセグメンテーション法は通常、固定されたセマンティックカテゴリのセットを仮定してピクセル単位の分類を行う。 既知のセット上ではうまく機能するが、ネットワークは未知のオブジェクトを識別するために必要なオブジェクト性の概念を学習できない。 本稿では,未知のオブジェクトセグメンテーションのための問合せベースのマスク分類の可能性を検討する。 オブジェクトクエリは、あるクラスを予測し、あるクラスを1対すべての分類器のように振る舞うことを専門としており、すべてのクエリによって無視される領域を見つけることによって未知を検出することができる。 モデル行動の詳細な解析に基づいて,新しい異常スコアリング関数を提案する。 マスク分類は対象性を保つのに役立つことを示し,提案するスコアリング関数は不確かさの源を排除できることを示した。 本手法は,再トレーニングや異常値データの使用なしに,高い領域シフト下でも,複数のベンチマークにおいて一貫した改善を実現する。 外れ値に対する控えめな監督により、クローズドセットのパフォーマンスに影響を与えずにさらなる改善が達成できることを示す。

Semantic segmentation methods typically perform per-pixel classification by assuming a fixed set of semantic categories. While they perform well on the known set, the network fails to learn the concept of objectness, which is necessary for identifying unknown objects. In this paper, we explore the potential of query-based mask classification for unknown object segmentation. We discover that object queries specialize in predicting a certain class and behave like one vs. all classifiers, allowing us to detect unknowns by finding regions that are ignored by all the queries. Based on a detailed analysis of the model's behavior, we propose a novel anomaly scoring function. We demonstrate that mask classification helps to preserve the objectness and the proposed scoring function eliminates irrelevant sources of uncertainty. Our method achieves consistent improvements in multiple benchmarks, even under high domain shift, without retraining or using outlier data. With modest supervision for outliers, we show that further improvements can be achieved without affecting the closed-set performance.
翻訳日:2022-11-28 17:33:08 公開日:2022-11-25
# belfusion: 行動駆動型人間の運動予測のための潜在拡散

BeLFusion: Latent Diffusion for Behavior-Driven Human Motion Prediction ( http://arxiv.org/abs/2211.14304v1 )

ライセンス: Link先を確認
German Barquero, Sergio Escalera, and Cristina Palmero(参考訳) 確率的人間の運動予測(hmp)は一般的に、生成的逆ネットワークと変分オートエンコーダによって取り組まれている。 ほとんどの先行研究は、骨格関節の分散の観点から非常に多様な動きを予測することを目的としていた。 このことは、しばしば非現実的で過去の動きと不整合である、高速かつ運動分岐運動を予測する方法につながった。 このような方法は、微妙な関節変位を伴う多様な低範囲行動や行動を予測する必要がある文脈を無視する。 そこで本研究では,hmpにおける潜伏拡散モデルを用いて,行動がポーズや動作と無関係な潜伏空間からサンプルを採取するモデルであるbelfusionを提案する。 その結果、多様性は行動の観点から奨励される。 サンプルの動作を進行中の動作に転送する能力のおかげで、Belfusion氏の予測は、芸術の状況よりもはるかに現実的なさまざまな行動を示す。 これを支援するために, 累積運動分布面積(Area of the Cumulative Motion Distribution)と平均ペアワイズ距離誤差(Average Pairwise Distance Error)という2つの指標を導入する。 最後に,確率hmpの新しいクロスデータセットシナリオにおいて,belfusionの一般化能力を証明する。

Stochastic human motion prediction (HMP) has generally been tackled with generative adversarial networks and variational autoencoders. Most prior works aim at predicting highly diverse movements in terms of the skeleton joints' dispersion. This has led to methods predicting fast and motion-divergent movements, which are often unrealistic and incoherent with past motion. Such methods also neglect contexts that need to anticipate diverse low-range behaviors, or actions, with subtle joint displacements. To address these issues, we present BeLFusion, a model that, for the first time, leverages latent diffusion models in HMP to sample from a latent space where behavior is disentangled from pose and motion. As a result, diversity is encouraged from a behavioral perspective. Thanks to our behavior coupler's ability to transfer sampled behavior to ongoing motion, BeLFusion's predictions display a variety of behaviors that are significantly more realistic than the state of the art. To support it, we introduce two metrics, the Area of the Cumulative Motion Distribution, and the Average Pairwise Distance Error, which are correlated to our definition of realism according to a qualitative study with 126 participants. Finally, we prove BeLFusion's generalization power in a new cross-dataset scenario for stochastic HMP.
翻訳日:2022-11-28 17:32:52 公開日:2022-11-25
# MAEDAY:MAE for few and zero shot AnomalY-Detection

MAEDAY: MAE for few and zero shot AnomalY-Detection ( http://arxiv.org/abs/2211.14307v1 )

ライセンス: Link先を確認
Eli Schwartz, Assaf Arbelle, Leonid Karlinsky, Sivan Harary, Florian Scheidegger, Sivan Doveh, Raja Giryes(参考訳) Anomaly-Detection (AD) の目標は、正の(良い)例の集合だけを与えられた未知の分布から、外れ値、または領域を識別することである。 Few-Shot AD (FSAD) は、最小限の通常の例で同じタスクを解くことを目的としている。 クエリの埋め込みベクトルを参照埋め込みの集合と比較する最近の埋め込み方式は、FSADの優れた結果を示しており、1つの良い例が提示されている。 イメージ再構成に基づく別のアプローチが歴史的にADに使われてきた。 モデルは、分布外画像に遭遇すると領域の回復に失敗すると仮定して、崩壊した観測から正常なイメージを復元するモデルを訓練する。 しかし、画像再構成ベースの手法は低ショット環境ではまだ使われておらず、適切に実行するには様々な正規画像のセットで訓練する必要がある。 FSADの周辺環境に基づいて画像領域を復元する自己教師型トランスフォーマモデルであるMasked Auto-Encoder (MAE) を用いることを提案する。 我々は,任意の自然画像(ImageNet)を事前学習し,通常の画像に対してのみ微調整を行うことにより,MAEが良好な性能を発揮することを示す。 我々はこのメソッドを MAEDAY と命名する。 さらに、MAEDAYは埋め込み方式の直交信号を提供し、2つのアプローチのアンサンブルは非常に強力なSOTA結果を得る。 また、ZSAD(Zero-Shot AD)の新たな課題として、通常のサンプルをトレーニング時に利用できない課題を提示する。 我々は、このタスクでmaedayが驚くほどうまく機能していることを示します。 最後に、地上の異物検出のための新しいデータセットを提供し、この課題に対して優れた結果を示す。 コードはhttps://github.com/EliSchwartz/MAEDAY で入手できる。

The goal of Anomaly-Detection (AD) is to identify outliers, or outlying regions, from some unknown distribution given only a set of positive (good) examples. Few-Shot AD (FSAD) aims to solve the same task with a minimal amount of normal examples. Recent embedding-based methods, that compare the embedding vectors of queries to a set of reference embeddings, have demonstrated impressive results for FSAD, where as little as one good example is provided. A different approach, image-reconstruction-based, has been historically used for AD. The idea is to train a model to recover normal images from corrupted observations, assuming that the model will fail to recover regions when encountered with an out-of-distribution image. However, image-reconstruction-based methods were not yet used in the low-shot regime as they need to be trained on a diverse set of normal images in order to properly perform. We suggest using Masked Auto-Encoder (MAE), a self-supervised transformer model trained for recovering missing image regions based on their surroundings for FSAD. We show that MAE performs well by pre-training on an arbitrary set of natural images (ImageNet) and only fine-tuning on a small set of normal images. We name this method MAEDAY. We further find that MAEDAY provides an orthogonal signal to the embedding-based methods and the ensemble of the two approaches achieves very strong SOTA results. We also present a novel task of Zero-Shot AD (ZSAD) where no normal samples are available at training time. We show that MAEDAY performs surprisingly well at this task. Finally, we provide a new dataset for detecting foreign objects on the ground and demonstrate superior results for this task as well. Code is available at https://github.com/EliSchwartz/MAEDAY .
翻訳日:2022-11-28 17:32:31 公開日:2022-11-25
# WALDO:オブジェクト層分解とパラメトリックフロー予測を用いた将来のビデオ合成

WALDO: Future Video Synthesis using Object Layer Decomposition and Parametric Flow Prediction ( http://arxiv.org/abs/2211.14308v1 )

ライセンス: Link先を確認
Guillaume Le Moing and Jean Ponce and Cordelia Schmid(参考訳) 本稿では,過去の映像フレームの予測手法であるwaldo(warping layer-decomposed objects)について述べる。 個々の画像は、オブジェクトマスクと小さなコントロールポイントを組み合わせた複数の層に分解される。 レイヤー構造は各ビデオの全てのフレームで共有され、フレーム間の密接な接続を構築する。 個々の層に関連付けられたパラメトリックな幾何学的変換を組み合わせることで、複雑なシーンの動作をモデル化し、ビデオ合成を過去のフレームに関連付けられた層を発見し、対応する変換を予測し、それに従って関連オブジェクト領域を反動させ、残りの画像部分を埋め込む。 Cityscapes(KITTI)データセットの大規模な実験により、WALDOは、SSIM、LPIPS、FVDメトリクスの相対的な改善、例えば3, 27, 51%(Resp. 5, 20, 11%)において、以前の作業よりも大幅に優れていた。 私たちのアプローチで合成されたコード、事前トレーニングされたモデル、ビデオサンプルは、プロジェクトwebページhttps://16lemoing.github.io/waldoで見ることができる。

This paper presents WALDO (WArping Layer-Decomposed Objects), a novel approach to the prediction of future video frames from past ones. Individual images are decomposed into multiple layers combining object masks and a small set of control points. The layer structure is shared across all frames in each video to build dense inter-frame connections. Complex scene motions are modeled by combining parametric geometric transformations associated with individual layers, and video synthesis is broken down into discovering the layers associated with past frames, predicting the corresponding transformations for upcoming ones and warping the associated object regions accordingly, and filling in the remaining image parts. Extensive experiments on the Cityscapes (resp. KITTI) dataset show that WALDO significantly outperforms prior works with, e.g., 3, 27, and 51% (resp. 5, 20 and 11%) relative improvement in SSIM, LPIPS and FVD metrics. Code, pretrained models, and video samples synthesized by our approach can be found in the project webpage https://16lemoing.github.io/waldo.
翻訳日:2022-11-28 17:32:03 公開日:2022-11-25
# GPT-3による子どもの興味ある質問応答スキルの育成

GPT-3-driven pedagogical agents for training children's curious question-asking skills ( http://arxiv.org/abs/2211.14228v1 )

ライセンス: Link先を確認
Rania Abdelghani, Yen-Hsiang Wang, Xingdi Yuan, Tong Wang, H\'el\`ene Sauz\'eon and Pierre-Yves Oudeyer(参考訳) 興味ある質問をする学生の能力は、学習プロセスを改善する重要なスキルである。 このスキルを訓練するために、従来の研究では、学習中の子供の好奇心を促進するために特定の手がかりを提案する会話エージェントを使用していた。 教育的効率を示すにもかかわらず、この方法は教育資源ごとに手動でプロンプトを生成することに依存しているため、非常に長くコストのかかるプロセスである。 この文脈では、自然言語処理分野の進歩を活用し、大きな言語モデル(GPT-3)を用いて、このエージェントの好奇心を刺激する手がかりを自動生成し、子どもたちがより深く問いかけるのを助ける。 この研究は、エージェントに対する異なる好奇心を喚起する行動を調べるために使用しました。 対象は9歳から10歳までの75名の学生であった。 彼らは手作りの会話エージェントと対話し、手動で抽出した手がかりを提案、事前定義された質問に繋がる「閉じた」手がかり、同じ種類の手がかりを提案できるgpt-3駆動のエージェント、あるいはいくつかの可能な質問につながる「オープンな」手がかりを提案できるgpt-3駆動のエージェントと対話した。 その結果,2つの「閉じた」エージェントを持つ子どもの間で同様の質問行動がみられたが,「開けた」エージェントの参加者の方が有意に良好であった。 最初の結果から,好奇心刺激学習技術の実装を容易にするため,GPT-3の有効性が示唆された。 第2のステップでは、GPT-3は、子どもに好奇心を表現させる自律性を持たせるための、関連するオープンな手がかりを提案する上で、効果的であることも示している。

Students' ability to ask curious questions is a crucial skill that improves their learning processes. To train this skill, previous research has used a conversational agent that propose specific cues to prompt children's curiosity during learning. Despite showing pedagogical efficiency, this method is still limited since it relies on generating the said prompts by hand for each educational resource, which can be a very long and costly process. In this context, we leverage the advances in the natural language processing field and explore using a large language model (GPT-3) to automate the generation of this agent's curiosity-prompting cues to help children ask more and deeper questions. We then used this study to investigate a different curiosity-prompting behavior for the agent. The study was conducted with 75 students aged between 9 and 10. They either interacted with a hand-crafted conversational agent that proposes "closed" manually-extracted cues leading to predefined questions, a GPT-3-driven one that proposes the same type of cues, or a GPT-3-driven one that proposes "open" cues that can lead to several possible questions. Results showed a similar question-asking performance between children who had the two "closed" agents, but a significantly better one for participants with the "open" agent. Our first results suggest the validity of using GPT-3 to facilitate the implementation of curiosity-stimulating learning technologies. In a second step, we also show that GPT-3 can be efficient in proposing the relevant open cues that leave children with more autonomy to express their curiosity.
翻訳日:2022-11-28 17:31:09 公開日:2022-11-25
# multiverse: 偽ニュース検出のための多言語証拠

Multiverse: Multilingual Evidence for Fake News Detection ( http://arxiv.org/abs/2211.14279v1 )

ライセンス: Link先を確認
Daryna Dementieva, Mikhail Kuimov, and Alexander Panchenko(参考訳) 誤解を招く情報はインターネット上に驚くほど速く広がり、場合によっては不可分な結果をもたらす可能性がある。 フェイクニュース検出技術の開発が不可欠になりつつある。 現在のアプローチの限界の1つは、これらのモデルは1つの言語にのみ焦点を絞っており、多言語情報を使用しないことである。 本研究では,偽ニュースの検出や既存手法の改善に使用可能な多言語証拠に基づく新機能であるmultiverseを提案する。 偽ニュース検出の特徴として言語横断的証拠を用いた仮説は, 第一に, 既知の真偽および偽ニュースの集合に基づく手動実験によって確認される。 その後、提案する機能に基づく偽ニュース分類システムと、一般的な話題ニュースの2つのマルチドメインデータセットと、1つの偽ニュースデータセットのベースラインを比較した。

Misleading information spreads on the Internet at an incredible speed, which can lead to irreparable consequences in some cases. It is becoming essential to develop fake news detection technologies. While substantial work has been done in this direction, one of the limitations of the current approaches is that these models are focused only on one language and do not use multilingual information. In this work, we propose Multiverse -- a new feature based on multilingual evidence that can be used for fake news detection and improve existing approaches. The hypothesis of the usage of cross-lingual evidence as a feature for fake news detection is confirmed, firstly, by manual experiment based on a set of known true and fake news. After that, we compared our fake news classification system based on the proposed feature with several baselines on two multi-domain datasets of general-topic news and one fake COVID-19 news dataset showing that in additional combination with linguistic features it yields significant improvements.
翻訳日:2022-11-28 17:30:28 公開日:2022-11-25
# MS-PS:新しい総合的なトレーニングデータセットを備えた測光ステレオのためのマルチスケールネットワーク

MS-PS: A Multi-Scale Network for Photometric Stereo With a New Comprehensive Training Dataset ( http://arxiv.org/abs/2211.14118v1 )

ライセンス: Link先を確認
Cl\'ement Hardy, Yvain Qu\'eau, David Tschumperl\'e(参考訳) 光度ステレオ(PS)問題は、異なる照明方向で撮影された一連の写真のおかげで、物体の3次元表面を再構成する。 本稿では,psのマルチスケールアーキテクチャを提案する。新しいデータセットと組み合わせることで,最先端の成果が得られる。 提案するアーキテクチャは柔軟で,可変数のイメージと可変画像サイズを,性能を損なうことなく考慮することが可能である。 さらに,PS問題に対する畳み込みニューラルネットワークをトレーニングするために,関連する合成データセットの生成を可能にする一連の制約を定義する。 提案するデータセットは既存のデータセットよりもはるかに大きく,異方性反射率(金属,ガラスなど)を持つ難解な材料が多数含まれている。 公開ベンチマークでは,これら2つのコントリビュートの組み合わせにより,従来の最先端手法と比較して推定正規場の精度が大幅に向上することを示した。

The photometric stereo (PS) problem consists in reconstructing the 3D-surface of an object, thanks to a set of photographs taken under different lighting directions. In this paper, we propose a multi-scale architecture for PS which, combined with a new dataset, yields state-of-the-art results. Our proposed architecture is flexible: it permits to consider a variable number of images as well as variable image size without loss of performance. In addition, we define a set of constraints to allow the generation of a relevant synthetic dataset to train convolutional neural networks for the PS problem. Our proposed dataset is much larger than pre-existing ones, and contains many objects with challenging materials having anisotropic reflectance (e.g. metals, glass). We show on publicly available benchmarks that the combination of both these contributions drastically improves the accuracy of the estimated normal field, in comparison with previous state-of-the-art methods.
翻訳日:2022-11-28 17:22:58 公開日:2022-11-25
# PoET:シングルビュー・マルチオブジェクト6次元ポス推定用ポス推定変換器

PoET: Pose Estimation Transformer for Single-View, Multi-Object 6D Pose Estimation ( http://arxiv.org/abs/2211.14125v1 )

ライセンス: Link先を確認
Thomas Jantos, Mohamed Amin Hamdad, Wolfgang Granig, Stephan Weiss, Jan Steinbrener(参考訳) 正確な6Dオブジェクトのポーズ推定は、把握やローカライゼーションといった様々なロボットアプリケーションにとって重要なタスクである。 物体の対称性やクラッタ,オクルージョンなどによる難題であるが,深度や3Dモデルなどの追加情報が提供されない場合には,さらに困難になる。 本稿では、RGB画像を入力とし、画像内の各オブジェクトに対する6Dポーズを予測するトランスフォーマーベースのアプローチを提案する。 画像に加えて、ネットワークは深度マップや3dオブジェクトモデルなどの追加情報を必要としない。 まず、画像はオブジェクト検出器を通過して特徴マップを生成し、オブジェクトを検出する。 そして、検出された境界ボックスを付加情報として、特徴マップを変圧器に供給する。 その後、出力オブジェクトクエリは、別個の翻訳および回転ヘッドによって処理される。 挑戦的なYCB-Vデータセットに対するRGBのみのアプローチの最先端結果を得る。 6-DoF状態推定タスクのポーズセンサとして,結果モデルの適合性を示す。 コードはhttps://github.com/aau-cns/poetで入手できる。

Accurate 6D object pose estimation is an important task for a variety of robotic applications such as grasping or localization. It is a challenging task due to object symmetries, clutter and occlusion, but it becomes more challenging when additional information, such as depth and 3D models, is not provided. We present a transformer-based approach that takes an RGB image as input and predicts a 6D pose for each object in the image. Besides the image, our network does not require any additional information such as depth maps or 3D object models. First, the image is passed through an object detector to generate feature maps and to detect objects. Then, the feature maps are fed into a transformer with the detected bounding boxes as additional information. Afterwards, the output object queries are processed by a separate translation and rotation head. We achieve state-of-the-art results for RGB-only approaches on the challenging YCB-V dataset. We illustrate the suitability of the resulting model as pose sensor for a 6-DoF state estimation task. Code is available at https://github.com/aau-cns/poet.
翻訳日:2022-11-28 17:22:43 公開日:2022-11-25
# 一般化された少数ショットセマンティクスセグメンテーションのための強固なベースライン

A Strong Baseline for Generalized Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2211.14126v1 )

ライセンス: Link先を確認
Sina Hajimiri, Malik Boudiaf, Ismail Ben Ayed, Jose Dolz(参考訳) 本稿では,簡単なトレーニングプロセスと最適化の容易な推論フェーズを備えた,一般化されたマイナショットセグメンテーションフレームワークを提案する。 特に、よく知られたInfoMaxの原理に基づいて、学習した特徴表現とそれに対応する予測との相互情報(MI)を最大化する単純なモデルを提案する。 また,MIに基づく定式化から派生した用語は,知識蒸留用語と結合し,基礎クラスにおける知識を保持する。 簡単なトレーニングプロセスでは、ベースクラスでトレーニングされたセグメンテーションネットワークの上に推論モデルを適用することができる。 提案した推論は、PASCAL-$5^i$およびCOCO-$20^i$の一般的な小ショットセグメンテーションベンチマークに対して大幅に改善される。 特に新規クラスでは、改善率は5%から20%(PASCAL-$5^i$)、そして1ショットと5ショットのシナリオでは2.5%から10.5%(COCO-$20^i$)である。 さらに,パフォーマンスギャップがさらに悪化する,より困難な設定を提案する。 私たちのコードはhttps://github.com/sinahmr/DIaM.comで公開されています。

This paper introduces a generalized few-shot segmentation framework with a straightforward training process and an easy-to-optimize inference phase. In particular, we propose a simple yet effective model based on the well-known InfoMax principle, where the Mutual Information (MI) between the learned feature representations and their corresponding predictions is maximized. In addition, the terms derived from our MI-based formulation are coupled with a knowledge distillation term to retain the knowledge on base classes. With a simple training process, our inference model can be applied on top of any segmentation network trained on base classes. The proposed inference yields substantial improvements on the popular few-shot segmentation benchmarks PASCAL-$5^i$ and COCO-$20^i$. Particularly, for novel classes, the improvement gains range from 5% to 20% (PASCAL-$5^i$) and from 2.5% to 10.5% (COCO-$20^i$) in the 1-shot and 5-shot scenarios, respectively. Furthermore, we propose a more challenging setting, where performance gaps are further exacerbated. Our code is publicly available at https://github.com/sinahmr/DIaM.
翻訳日:2022-11-28 17:22:29 公開日:2022-11-25
# エゴセントリック行動予測のためのインタラクションビジュアルトランスフォーマ

Interaction Visual Transformer for Egocentric Action Anticipation ( http://arxiv.org/abs/2211.14154v1 )

ライセンス: Link先を確認
Debaditya Roy, Ramanathan Rajendiran and Basura Fernando(参考訳) 人間と物体の相互作用は、自我中心の行動予測のために探求されていない最も重要な視覚的手がかりの1つである。 本稿では,アクションの実行による物体と人間の手の外観の変化を計算し,その変化を利用して映像表現を洗練させることにより,インタラクションをモデル化するトランスフォーマー変種を提案する。 具体的には,空間クロスアテンション(sca)を用いて手と物体の相互作用をモデル化し,さらに軌道クロスアテンションを用いた文脈情報から環境改良されたインタラクショントークンを得る。 これらのトークンを用いて,行動予測のためのインタラクション中心のビデオ表現を構築する。 本稿では,EPICKTICHENS100(EK100)とEGTEA Gaze+を用いて,最先端のアクション予測性能を実現するモデルInAViTを述べる。 InAViTは、オブジェクト中心のビデオ表現を含む他のビジュアルトランスフォーマーベースの手法より優れている。 EK100評価サーバでは、InAViTは公開リーダーボード上で(提出時点で)最高パフォーマンスの手法であり、平均5回のリコールで2番目に良いモデルよりも3.3%上回っている。

Human-object interaction is one of the most important visual cues that has not been explored for egocentric action anticipation. We propose a novel Transformer variant to model interactions by computing the change in the appearance of objects and human hands due to the execution of the actions and use those changes to refine the video representation. Specifically, we model interactions between hands and objects using Spatial Cross-Attention (SCA) and further infuse contextual information using Trajectory Cross-Attention to obtain environment-refined interaction tokens. Using these tokens, we construct an interaction-centric video representation for action anticipation. We term our model InAViT which achieves state-of-the-art action anticipation performance on large-scale egocentric datasets EPICKTICHENS100 (EK100) and EGTEA Gaze+. InAViT outperforms other visual transformer-based methods including object-centric video representation. On the EK100 evaluation server, InAViT is the top-performing method on the public leaderboard (at the time of submission) where it outperforms the second-best model by 3.3% on mean-top5 recall.
翻訳日:2022-11-28 17:22:09 公開日:2022-11-25
# 2次元スーパービジョンによる3次元シーン先行学習

Learning 3D Scene Priors with 2D Supervision ( http://arxiv.org/abs/2211.14157v1 )

ライセンス: Link先を確認
Yinyu Nie, Angela Dai, Xiaoguang Han, Matthias Nie{\ss}ner(参考訳) ホロスティックな3次元シーン理解は、3次元環境におけるレイアウト構成とオブジェクト形状の両方を推定する。 近年の研究では、3次元の監督(3dバウンディングボックスやcadモデルなど)を活用して、様々な入力モード(画像や3dスキャンなど)からの3dシーン推定の進歩を示しており、大規模な収集は高価でしばしば難解である。 この欠点に対処するために,3次元地上真実を必要としないレイアウトと形状の3次元シーンを学習する手法を提案する。 代わりに、マルチビューのRGB画像から2Dの監視に頼っています。 本手法は3dシーンを潜伏ベクトルとして表現し,それらのクラスカテゴリ,3dバウンディングボックス,メッシュを特徴とする一連のオブジェクトに段階的に復号することができる。 事前のシーンを表す自動回帰デコーダをトレーニングすることで,シーン合成や補間,単一視点の再構成など,多くの下流アプリケーションを実現する。 3D-FRONT と ScanNet の実験により,本手法は単一視点再構成における技術状況よりも優れており,3D の監督を必要とするベースラインに対するシーン合成における最先端の結果が得られた。

Holistic 3D scene understanding entails estimation of both layout configuration and object geometry in a 3D environment. Recent works have shown advances in 3D scene estimation from various input modalities (e.g., images, 3D scans), by leveraging 3D supervision (e.g., 3D bounding boxes or CAD models), for which collection at scale is expensive and often intractable. To address this shortcoming, we propose a new method to learn 3D scene priors of layout and shape without requiring any 3D ground truth. Instead, we rely on 2D supervision from multi-view RGB images. Our method represents a 3D scene as a latent vector, from which we can progressively decode to a sequence of objects characterized by their class categories, 3D bounding boxes, and meshes. With our trained autoregressive decoder representing the scene prior, our method facilitates many downstream applications, including scene synthesis, interpolation, and single-view reconstruction. Experiments on 3D-FRONT and ScanNet show that our method outperforms state of the art in single-view reconstruction, and achieves state-of-the-art results in scene synthesis against baselines which require for 3D supervision.
翻訳日:2022-11-28 17:21:51 公開日:2022-11-25
# NeuralUDF:任意位相をもつ表面の多視点再構成のための符号なし距離場学習

NeuralUDF: Learning Unsigned Distance Fields for Multi-view Reconstruction of Surfaces with Arbitrary Topologies ( http://arxiv.org/abs/2211.14173v1 )

ライセンス: Link先を確認
Xiaoxiao Long, Cheng Lin, Lingjie Liu, Yuan Liu, Peng Wang, Christian Theobalt, Taku Komura, Wenping Wang(参考訳) 本稿では2次元画像からボリュームレンダリングにより任意の位相で表面を再構成する新しい手法であるNeuralUDFを提案する。 ニューラルレンダリングに基づく再構成の最近の進歩は、説得力のある結果を得た。 しかし、これらの手法は、対象の形状を内外に分割する必要がある表面表現としてSigned Distance Function (SDF)を採用するため、閉曲面を持つ物体に限られる。 本稿では,表面をUDF(Unsigned Distance Function)として表現し,ニューラルUDF表現を学習するための新しいボリュームレンダリング手法を提案する。 具体的には,udfフィールドのロバスト最適化のために,udfの特性とボリュームレンダリングスキームを関連付ける新たな密度関数を導入した。 DTUおよびDeepFashion3Dデータセットを用いた実験により,本手法は複雑な形状を持つ非閉形を高品質に再現できるだけでなく,閉面の再構成におけるSDF法と同等の性能を発揮することが示された。

We present a novel method, called NeuralUDF, for reconstructing surfaces with arbitrary topologies from 2D images via volume rendering. Recent advances in neural rendering based reconstruction have achieved compelling results. However, these methods are limited to objects with closed surfaces since they adopt Signed Distance Function (SDF) as surface representation which requires the target shape to be divided into inside and outside. In this paper, we propose to represent surfaces as the Unsigned Distance Function (UDF) and develop a new volume rendering scheme to learn the neural UDF representation. Specifically, a new density function that correlates the property of UDF with the volume rendering scheme is introduced for robust optimization of the UDF fields. Experiments on the DTU and DeepFashion3D datasets show that our method not only enables high-quality reconstruction of non-closed shapes with complex typologies, but also achieves comparable performance to the SDF based methods on the reconstruction of closed surfaces.
翻訳日:2022-11-28 17:21:28 公開日:2022-11-25
# MCFFA-Net:Apple Foliar病分類のためのマルチコンテキスト特徴フュージョンと注意誘導ネットワーク

MCFFA-Net: Multi-Contextual Feature Fusion and Attention Guided Network for Apple Foliar Disease Classification ( http://arxiv.org/abs/2211.14175v1 )

ライセンス: Link先を確認
Md. Rayhan Ahmed, Adnan Ferdous Ashrafi, Raihan Uddin Ahmed, Tanveer Ahmed(参考訳) 多くの病気がリンゴ生産業界で深刻な経済損失を引き起こしている。 リンゴの葉の早期の病原性同定は、感染の拡散を防ぎ、生産性を高めるのに役立つ。 したがって、異なるリンゴ葉病の同定と分類を研究することが重要である。 さまざまな従来の機械学習とディープラーニング手法がこの問題に対処し、調査してきた。 しかし、複雑な背景、画像中の病点の変化、同じ葉に複数の疾患の症状が存在するため、これらの疾患を分類することは依然として困難である。 本稿では,MobileNetV2,DenseNet201,InceptionResNetV2という3つの事前学習アーキテクチャをバックボーンネットワークとして構成した,移動学習に基づくスタック型アンサンブルアーキテクチャ MCFFA-Netを提案する。 また,抽出した特徴から複数の拡張された受容野を持つマルチスケールなコンテキスト情報をキャプチャする,新しいマルチスケール拡張残畳み込みモジュールを提案する。 チャネルベースのアテンション機構は,MCFFA-Netをマルチ受信分野の関連情報に集中させるために,圧縮および励起ネットワークを通じて提供される。 MCFFA-Netの分類精度は90.86%である。

Numerous diseases cause severe economic loss in the apple production-based industry. Early disease identification in apple leaves can help to stop the spread of infections and provide better productivity. Therefore, it is crucial to study the identification and classification of different apple foliar diseases. Various traditional machine learning and deep learning methods have addressed and investigated this issue. However, it is still challenging to classify these diseases because of their complex background, variation in the diseased spot in the images, and the presence of several symptoms of multiple diseases on the same leaf. This paper proposes a novel transfer learning-based stacked ensemble architecture named MCFFA-Net, which is composed of three pre-trained architectures named MobileNetV2, DenseNet201, and InceptionResNetV2 as backbone networks. We also propose a novel multi-scale dilated residual convolution module to capture multi-scale contextual information with several dilated receptive fields from the extracted features. Channel-based attention mechanism is provided through squeeze and excitation networks to make the MCFFA-Net focused on the relevant information in the multi-receptive fields. The proposed MCFFA-Net achieves a classification accuracy of 90.86%.
翻訳日:2022-11-28 17:21:08 公開日:2022-11-25
# 見回しと参照:3次元視覚接地のための2次元合成意味論知識蒸留

Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for 3D Visual Grounding ( http://arxiv.org/abs/2211.14241v1 )

ライセンス: Link先を確認
Eslam Mohamed Bakr, Yasmeen Alsaedy, Mohamed Elhoseiny(参考訳) 3dビジュアルグラウンドタスクは、3dシーンのターゲットオブジェクトを識別するために、visualとlanguage streams comprehending referential languageで検討されている。 しかし、既存のほとんどの手法は、市販の点群エンコーダを使って3D視覚的手がかりを捉えるために視覚的ストリームに費やしている。 この記事では、"ポイントクラウドから合成された2Dヒントによって3Dビジュアルストリームを統合でき、それらをトレーニングやテストで効率的に利用できますか? 主なアイデアは、2D入力を余分に必要とせずにリッチな2Dオブジェクト表現を組み込むことで、3Dエンコーダを支援することである。 この目的のために、3dポイントクラウドから合成された2dのヒントを活用し、その適性を実証的に示し、学習した視覚表現の品質を高める。 我々は,Nr3D,Sr3D,ScanReferのデータセットに関する総合的な実験を通じてアプローチを検証する。 提案するモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマーク(Nr3D, Sr3D, ScanRefer)で最先端の3D視覚グラウンド技術よりも優れている。 コードはhttps://eslambakr.github.io/lar.github.io/で入手できる。

The 3D visual grounding task has been explored with visual and language streams comprehending referential language to identify target objects in 3D scenes. However, most existing methods devote the visual stream to capturing the 3D visual clues using off-the-shelf point clouds encoders. The main question we address in this paper is "can we consolidate the 3D visual stream by 2D clues synthesized from point clouds and efficiently utilize them in training and testing?". The main idea is to assist the 3D encoder by incorporating rich 2D object representations without requiring extra 2D inputs. To this end, we leverage 2D clues, synthetically generated from 3D point clouds, and empirically show their aptitude to boost the quality of the learned visual representations. We validate our approach through comprehensive experiments on Nr3D, Sr3D, and ScanRefer datasets and show consistent performance gains compared to existing methods. Our proposed module, dubbed as Look Around and Refer (LAR), significantly outperforms the state-of-the-art 3D visual grounding techniques on three benchmarks, i.e., Nr3D, Sr3D, and ScanRefer. The code is available at https://eslambakr.github.io/LAR.github.io/.
翻訳日:2022-11-28 17:20:47 公開日:2022-11-25
# neural poisson:ニューラルネットワークのインジケータ機能

Neural Poisson: Indicator Functions for Neural Fields ( http://arxiv.org/abs/2211.14249v1 )

ライセンス: Link先を確認
Angela Dai and Matthias Nie{\ss}ner(参考訳) 3次元形状の符号付き距離場表現(SDF)は、3次元形状の再構成と生成において顕著な進歩を示した。 本稿では,3次元シーンのニューラルフィールド表現のための新しいパラダイムを提案する。表面をsdfとして特徴づけるのではなく,ポアソンに触発された表面を,ニューラルネットワークに最適化されたインジケータ関数として特徴づける。 重要となるのは,実スキャンデータの再構成において,インジケータ関数表現は,視線に基づく空空間を示す共通範囲センシング入力に基づいて,単純かつ効果的な制約を可能にすることである。 このような空の空間情報は走査過程に固有のものであり、この知識を組み込むことでより正確な表面再構成が可能になる。 提案手法は, 合成3次元シーンデータと実写3次元シーンデータの両方に対して, スタンファー距離を9.5%改善し, 最先端の再現性能を示すものである。

Implicit neural field generating signed distance field representations (SDFs) of 3D shapes have shown remarkable progress in 3D shape reconstruction and generation. We introduce a new paradigm for neural field representations of 3D scenes; rather than characterizing surfaces as SDFs, we propose a Poisson-inspired characterization for surfaces as indicator functions optimized by neural fields. Crucially, for reconstruction of real scan data, the indicator function representation enables simple and effective constraints based on common range sensing inputs, which indicate empty space based on line of sight. Such empty space information is intrinsic to the scanning process, and incorporating this knowledge enables more accurate surface reconstruction. We show that our approach demonstrates state-of-the-art reconstruction performance on both synthetic and real scanned 3D scene data, with 9.5% improvement in Chamfer distance over state of the art.
翻訳日:2022-11-28 17:20:22 公開日:2022-11-25
# Degenerate Swin to Win:Sophisticated Operationsのない平易なウィンドウベースのトランス

Degenerate Swin to Win: Plain Window-based Transformer without Sophisticated Operations ( http://arxiv.org/abs/2211.14255v1 )

ライセンス: Link先を確認
Tan Yu, Ping Li(参考訳) 自然言語処理におけるトランスフォーマーの驚異的な成果は、コンピュータビジョンコミュニティの研究者が視覚トランスフォーマーを構築する動機となった。 畳み込みニューラルネットワーク(cnn)と比較して、視覚トランスフォーマーは、長距離依存性を特徴付けることができるより大きな受容場を持つ。 それにもかかわらず、視覚トランスフォーマーの大きな受容場には膨大な計算コストが伴っている。 効率を高めるために、ウィンドウベースの視覚トランスフォーマーが出現する。 画像を複数のローカルウィンドウにトリミングし、各ウィンドウ内でセルフアテンションを行う。 グローバル受容領域を取り戻すため、ウィンドウベースのビジョントランスフォーマーは、いくつかの高度な操作を開発することで、クロスウィンドウ通信を実現するために多くの努力を払った。 本研究では,Swin Transformerのキーデザイン要素であるシフトウィンドウパーティショニングの必要性を確認する。 我々は,単純な奥行き方向畳み込みが効果的なクロスウィンドウ通信を実現するのに十分であることを見出した。 具体的には、奥行き方向の畳み込みが存在するため、スウィントランスのシフトウィンドウ構成は、さらなる性能向上に繋がることができない。 これにより、洗練されたシフトされたウィンドウパーティショニングを廃して、スウィントランスをプレーンウィンドウベース(ウィン)トランスに縮退させる。 提案されたWin Transformerは概念的にはSwin Transformerよりもシンプルで実装が容易である。 一方,画像認識,セマンティクスセグメンテーション,オブジェクト検出など複数のコンピュータビジョンタスクにおいて,winトランスフォーマティブはswinトランスフォーマよりも一貫して優れた性能を実現している。

The formidable accomplishment of Transformers in natural language processing has motivated the researchers in the computer vision community to build Vision Transformers. Compared with the Convolution Neural Networks (CNN), a Vision Transformer has a larger receptive field which is capable of characterizing the long-range dependencies. Nevertheless, the large receptive field of Vision Transformer is accompanied by the huge computational cost. To boost efficiency, the window-based Vision Transformers emerge. They crop an image into several local windows, and the self-attention is conducted within each window. To bring back the global receptive field, window-based Vision Transformers have devoted a lot of efforts to achieving cross-window communications by developing several sophisticated operations. In this work, we check the necessity of the key design element of Swin Transformer, the shifted window partitioning. We discover that a simple depthwise convolution is sufficient for achieving effective cross-window communications. Specifically, with the existence of the depthwise convolution, the shifted window configuration in Swin Transformer cannot lead to an additional performance improvement. Thus, we degenerate the Swin Transformer to a plain Window-based (Win) Transformer by discarding sophisticated shifted window partitioning. The proposed Win Transformer is conceptually simpler and easier for implementation than Swin Transformer. Meanwhile, our Win Transformer achieves consistently superior performance than Swin Transformer on multiple computer vision tasks, including image recognition, semantic segmentation, and object detection.
翻訳日:2022-11-28 17:20:05 公開日:2022-11-25
# comformer: セマンティクスとパンオプティカルセグメンテーションにおける連続学習

CoMFormer: Continual Learning in Semantic and Panoptic Segmentation ( http://arxiv.org/abs/2211.13999v1 )

ライセンス: Link先を確認
Fabio Cermelli, Matthieu Cord, Arthur Douillard(参考訳) セグメンテーションのための継続的な学習は、最近関心が高まっている。 しかしながら、以前のすべての作品は、狭義の意味セグメンテーションとパンオプティカルセグメンテーションを無視している。 そこで,本稿では,意味的および汎視的セグメンテーションを操作可能な最初の連続学習モデルを提案する。 セグメンテーションをマスク分類問題と考える最近のトランスフォーマーアプローチに触発されて,我々はCoMFormerを設計する。 提案手法はトランスフォーマーアーキテクチャの特性を利用して時間とともに新しいクラスを学習する。 具体的には,マスクをベースとした疑似ラベル技術とともに,新しい適応蒸留損失を提案する。 提案手法を評価するために,挑戦的なade20kデータセット上で,新しい連続的panopticセグメンテーションベンチマークを導入する。 私たちのCoMFormerは、古いクラスを忘れるだけでなく、より効果的に新しいクラスを学ぶことで、既存のすべてのベースラインを上回ります。 さらに,大規模連続的セマンティックセグメンテーションシナリオにおいて,CoMFormerが最先端手法を著しく上回っていることを示す広範な評価を報告する。

Continual learning for segmentation has recently seen increasing interest. However, all previous works focus on narrow semantic segmentation and disregard panoptic segmentation, an important task with real-world impacts. %a In this paper, we present the first continual learning model capable of operating on both semantic and panoptic segmentation. Inspired by recent transformer approaches that consider segmentation as a mask-classification problem, we design CoMFormer. Our method carefully exploits the properties of transformer architectures to learn new classes over time. Specifically, we propose a novel adaptive distillation loss along with a mask-based pseudo-labeling technique to effectively prevent forgetting. To evaluate our approach, we introduce a novel continual panoptic segmentation benchmark on the challenging ADE20K dataset. Our CoMFormer outperforms all the existing baselines by forgetting less old classes but also learning more effectively new classes. In addition, we also report an extensive evaluation in the large-scale continual semantic segmentation scenario showing that CoMFormer also significantly outperforms state-of-the-art methods.
翻訳日:2022-11-28 17:14:28 公開日:2022-11-25
# 高分解能ビデオフレーム補間のための効率的な特徴抽出

Efficient Feature Extraction for High-resolution Video Frame Interpolation ( http://arxiv.org/abs/2211.14005v1 )

ライセンス: Link先を確認
Moritz Nottebaum, Stefan Roth and Simone Schaub-Meyer(参考訳) ビデオフレーム補間のための多くの深層学習手法は、特徴抽出、動き推定、画像合成の3つの主要構成要素で構成されている。 既存のアプローチは主にこれらのモジュールをどのように設計するかという点で区別できる。 しかし、例えば4kで高解像度画像を補間する場合、適切なメモリ要件で高い精度を達成するための設計選択は限られている。 特徴抽出層は、入力を圧縮し、動き推定などの後半段階に関連する情報を抽出するのに役立つ。 しかし、これらの層は、しばしばパラメータ、計算時間、メモリでコストがかかる。 フレーム補間に適した抽出情報を保持しつつ, 次元削減と軽量な最適化を併用して, 入力表現を圧縮する方法を示す。 さらに、事前訓練されたフローネットワークも合成ネットワークも必要とせず、トレーニング可能なパラメータの数と必要なメモリを減らす。 3つの4Kベンチマークで評価すると、ネットワークの複雑さとメモリの要求が全体として最小でありながら、事前学習のない方法で最先端の画像品質が得られる。

Most deep learning methods for video frame interpolation consist of three main components: feature extraction, motion estimation, and image synthesis. Existing approaches are mainly distinguishable in terms of how these modules are designed. However, when interpolating high-resolution images, e.g. at 4K, the design choices for achieving high accuracy within reasonable memory requirements are limited. The feature extraction layers help to compress the input and extract relevant information for the latter stages, such as motion estimation. However, these layers are often costly in parameters, computation time, and memory. We show how ideas from dimensionality reduction combined with a lightweight optimization can be used to compress the input representation while keeping the extracted information suitable for frame interpolation. Further, we require neither a pretrained flow network nor a synthesis network, additionally reducing the number of trainable parameters and required memory. When evaluating on three 4K benchmarks, we achieve state-of-the-art image quality among the methods without pretrained flow while having the lowest network complexity and memory requirements overall.
翻訳日:2022-11-28 17:14:06 公開日:2022-11-25
# SCOOP:自己監督型対応と最適化型シーンフロー

SCOOP: Self-Supervised Correspondence and Optimization-Based Scene Flow ( http://arxiv.org/abs/2211.14020v1 )

ライセンス: Link先を確認
Itai Lang, Dror Aiger, Forrester Cole, Shai Avidan, Michael Rubinstein(参考訳) シーンフローの推定はコンピュータビジョンにおける長年の課題であり、連続した観察からシーンの3d動きを見つけることが目的である。 近年,3dポイントクラウドからのシーンフローの計算が試みられている。 一般的なアプローチは、ソースとターゲットポイントのクラウドを消費し、ポイント毎の翻訳ベクトルを出力する回帰モデルをトレーニングすることだ。 別の方法として、点雲間の点マッチングを学習し、初期対応フローの洗練を後退させることがある。 どちらの場合も、フローの回帰は自由3d空間で行われ、典型的な解決策は大きな注釈付き合成データセットに頼ることであるため、学習タスクは非常に難しい。 本研究では,地中流れの監視を必要とせず,少ないデータ量で学習可能なシーンフロー推定手法であるscoopを提案する。 先行研究とは対照的に,学習点の特徴表現に着目した純粋対応モデルを訓練し,その流れを源点とソフト対応対象点との差として初期化する。 そして, 実行時相において, 自己監督対象のフローリファインメント成分を直接最適化し, 点雲間のコヒーレントかつ正確な流れ場を導出する。 トレーニングデータの一部を使用中に,既存の先行手法と比較して,我々の手法が達成した性能向上を示す実験を行った。 私たちのコードはhttps://github.com/itailang/SCOOP.comで公開されています。

Scene flow estimation is a long-standing problem in computer vision, where the goal is to find the 3D motion of a scene from its consecutive observations. Recently, there have been efforts to compute the scene flow from 3D point clouds. A common approach is to train a regression model that consumes source and target point clouds and outputs the per-point translation vectors. An alternative is to learn point matches between the point clouds concurrently with regressing a refinement of the initial correspondence flow. In both cases, the learning task is very challenging since the flow regression is done in the free 3D space, and a typical solution is to resort to a large annotated synthetic dataset. We introduce SCOOP, a new method for scene flow estimation that can be learned on a small amount of data without employing ground-truth flow supervision. In contrast to previous work, we train a pure correspondence model focused on learning point feature representation and initialize the flow as the difference between a source point and its softly corresponding target point. Then, in the run-time phase, we directly optimize a flow refinement component with a self-supervised objective, which leads to a coherent and accurate flow field between the point clouds. Experiments on widespread datasets demonstrate the performance gains achieved by our method compared to existing leading techniques while using a fraction of the training data. Our code is publicly available at https://github.com/itailang/SCOOP.
翻訳日:2022-11-28 17:13:49 公開日:2022-11-25
# 3D対応グローバル対応学習によるハードな仮想試行に向けて

Towards Hard-pose Virtual Try-on via 3D-aware Global Correspondence Learning ( http://arxiv.org/abs/2211.14052v1 )

ライセンス: Link先を確認
Zaiyu Huang, Hanhui Li, Zhenyu Xie, Michael Kampffmeyer, Qingling Cai, Xiaodan Liang(参考訳) 本稿では,多彩なポーズや視点変化の存在下で,画像に基づく仮想試行を目標とする。 既存の方法は、主に2次元のポーズと外観に基づいて衣服の反りの流れを推定し、3次元の人体形状の幾何学的先行を省略するため、この設定で制限されている。 また,現在の衣服の反りは局所的な領域に限定されているため,長距離の依存関係を捉えるのに効果がなく,アーティファクトによる流れが劣る。 これらの課題に対処するために,グローバルな意味的相関,局所的な変形,および3次元人体の幾何学的先行を協調的にエンコードする信頼性のある3D対応のグローバル通信を提案する。 特に、ソースとターゲットの人物を描いた画像対が与えられる。 (a)まず2つのエンコーダによるポーズ認識とハイレベル表現を取得し,画素ワイドな大域対応を予測するために複数の改良モジュールを備えた粗大なデコーダを導入する。 b) 画像から推定される3次元パラメトリック人間モデルを先行として組み込んで, 対応改善プロセスの規則化を行い, フローを3次元認識し, ポーズや視点のバリエーションをよりよく扱えるようにした。 (c)最後に、対向生成装置は、3D認識フローによって歪んだ衣服と、対象者の画像とを入力として、フォトリアリスティックな試着結果を合成する。 公開ベンチマークとHardPoseテストセットに関する大規模な実験は、SOTA試行アプローチに対する我々の手法の優位性を実証している。

In this paper, we target image-based person-to-person virtual try-on in the presence of diverse poses and large viewpoint variations. Existing methods are restricted in this setting as they estimate garment warping flows mainly based on 2D poses and appearance, which omits the geometric prior of the 3D human body shape. Moreover, current garment warping methods are confined to localized regions, which makes them ineffective in capturing long-range dependencies and results in inferior flows with artifacts. To tackle these issues, we present 3D-aware global correspondences, which are reliable flows that jointly encode global semantic correlations, local deformations, and geometric priors of 3D human bodies. Particularly, given an image pair depicting the source and target person, (a) we first obtain their pose-aware and high-level representations via two encoders, and introduce a coarse-to-fine decoder with multiple refinement modules to predict the pixel-wise global correspondence. (b) 3D parametric human models inferred from images are incorporated as priors to regularize the correspondence refinement process so that our flows can be 3D-aware and better handle variations of pose and viewpoint. (c) Finally, an adversarial generator takes the garment warped by the 3D-aware flow, and the image of the target person as inputs, to synthesize the photo-realistic try-on result. Extensive experiments on public benchmarks and our HardPose test set demonstrate the superiority of our method against the SOTA try-on approaches.
翻訳日:2022-11-28 17:13:27 公開日:2022-11-25
# 地域ganインバージョンによるきめ細かい顔スワップ

Fine-Grained Face Swapping via Regional GAN Inversion ( http://arxiv.org/abs/2211.14068v1 )

ライセンス: Link先を確認
Zhian Liu, Maomao Li, Yong Zhang, Cairong Wang, Qi Zhang, Jue Wang, Yongwei Nie(参考訳) 本稿では,所望の微妙な形状とテクスチャの詳細を忠実に保持する,高忠実な顔交換のための新しいパラダイムを提案する。 顔のきめ細かい編集の観点から、顔のスワッピングを再考し、顔成分の形状やテクスチャの明示的な乱れに基づく枠組みを提案する。 e4s原則に従い、顔の特徴のグローバルスワップとローカルスワップの両方を可能にし、ユーザが指定した部分スワップの量を制御する。 さらに、E4Sパラダイムは本質的に、顔マスクを用いて顔の閉塞を処理できる。 我々のシステムの中核には、形状とテクスチャの明示的な切り離しを可能にする新しいRegional GAN Inversion(RGI)手法がある。 また、StyleGANの潜在空間でフェイススワップを行うこともできる。 具体的には、各顔成分のテクスチャを地域スタイルのコードに投影するマルチスケールマスクガイドエンコーダを設計する。 また,スタイルコードを用いて機能マップを操作するためのマスク誘導型インジェクションモジュールも設計した。 これにより、スタイルやマスクスワップの簡易化問題として、顔スワップを再構成する。 1024$\times$1024で高解像度画像を作成するだけでなく、テクスチャや形状の保存における我々のアプローチの優位性を示す。

We present a novel paradigm for high-fidelity face swapping that faithfully preserves the desired subtle geometry and texture details. We rethink face swapping from the perspective of fine-grained face editing, \textit{i.e., ``editing for swapping'' (E4S)}, and propose a framework that is based on the explicit disentanglement of the shape and texture of facial components. Following the E4S principle, our framework enables both global and local swapping of facial features, as well as controlling the amount of partial swapping specified by the user. Furthermore, the E4S paradigm is inherently capable of handling facial occlusions by means of facial masks. At the core of our system lies a novel Regional GAN Inversion (RGI) method, which allows the explicit disentanglement of shape and texture. It also allows face swapping to be performed in the latent space of StyleGAN. Specifically, we design a multi-scale mask-guided encoder to project the texture of each facial component into regional style codes. We also design a mask-guided injection module to manipulate the feature maps with the style codes. Based on the disentanglement, face swapping is reformulated as a simplified problem of style and mask swapping. Extensive experiments and comparisons with current state-of-the-art methods demonstrate the superiority of our approach in preserving texture and shape details, as well as working with high resolution images at 1024$\times$1024.
翻訳日:2022-11-28 17:13:01 公開日:2022-11-25
# Copy-Pasting Coherent Depth Regionsは都市シーンセグメンテーションのためのコントラスト学習を改善する

Copy-Pasting Coherent Depth Regions Improves Contrastive Learning for Urban-Scene Segmentation ( http://arxiv.org/abs/2211.14074v1 )

ライセンス: Link先を確認
Liang Zeng, Attila Lengyel, Nergis T\"omen, Jan van Gemert(参考訳) 本研究では,無ラベル映像が自己教師あり深度推定の訓練に利用できる都市シーンのセグメンテーションのための自己教師ありコントラスト学習を促進するために,推定深度を活用する。 3次元空間におけるコヒーレントなピクセル群の意味論は自己完結であり、それらが現れる文脈に不変であると主張する。 我々は,コヒーレントな意味的関連画素を推定深度からコヒーレントな深度領域に分類し,その文脈を合成的に変化させるためにコピーペーストを用いる。 このように、相互文脈対応は対照的な学習で構築され、文脈不変表現が学習される。 都市景観の非教師なしセマンティクスセグメンテーションでは,従来のベースラインを7.14%上回り,都市景観では7.14%,kittiでは6.65%上回った。 都市景観とkittiセグメンテーションを微調整するには,既存のモデルと競合するが,imagenetやcocoを事前学習する必要はなく,計算効率も優れている。 私たちのコードはhttps://github.com/LeungTsang/CPCDRで利用可能です。

In this work, we leverage estimated depth to boost self-supervised contrastive learning for segmentation of urban scenes, where unlabeled videos are readily available for training self-supervised depth estimation. We argue that the semantics of a coherent group of pixels in 3D space is self-contained and invariant to the contexts in which they appear. We group coherent, semantically related pixels into coherent depth regions given their estimated depth and use copy-paste to synthetically vary their contexts. In this way, cross-context correspondences are built in contrastive learning and a context-invariant representation is learned. For unsupervised semantic segmentation of urban scenes, our method surpasses the previous state-of-the-art baseline by +7.14% in mIoU on Cityscapes and +6.65% on KITTI. For fine-tuning on Cityscapes and KITTI segmentation, our method is competitive with existing models, yet, we do not need to pre-train on ImageNet or COCO, and we are also more computationally efficient. Our code is available on https://github.com/LeungTsang/CPCDR
翻訳日:2022-11-28 17:12:35 公開日:2022-11-25
# ShadowNeuS:Shadow Ray Supervisionによる神経SDF再構成

ShadowNeuS: Neural SDF Reconstruction by Shadow Ray Supervision ( http://arxiv.org/abs/2211.14086v1 )

ライセンス: Link先を確認
Jingwang Ling, Zhibo Wang, Feng Xu(参考訳) シーンとマルチビュー画像平面間のカメラ線を監視することにより、NeRFは新規なビュー合成作業のためのニューラルシーン表現を再構成する。 一方、光源とシーンの間の影の光は未だ検討されていない。 そこで本研究では,光線沿線試料と光線位置の両方を最適化する新しい影線監視手法を提案する。 影線を監督することにより、複数の照明条件下で一視点の純影やRGB画像からシーンの神経SDFを再構成することに成功した。 シングルビューのバイナリシャドウが与えられると、カメラの視線に制限されない完全なシーンを再構築するためにニューラルネットワークをトレーニングします。 さらに画像色と影線の相関関係をモデル化することにより,RGB入力に効果的に拡張することができる。 本手法は, 単視点バイナリシャドウやRGB画像からの形状復元の課題について, 従来の手法と比較し, 大幅な改善が見られた。 コードとデータはリリースされます。

By supervising camera rays between a scene and multi-view image planes, NeRF reconstructs a neural scene representation for the task of novel view synthesis. On the other hand, shadow rays between the light source and the scene have yet to be considered. Therefore, we propose a novel shadow ray supervision scheme that optimizes both the samples along the ray and the ray location. By supervising shadow rays, we successfully reconstruct a neural SDF of the scene from single-view pure shadow or RGB images under multiple lighting conditions. Given single-view binary shadows, we train a neural network to reconstruct a complete scene not limited by the camera's line of sight. By further modeling the correlation between the image colors and the shadow rays, our technique can also be effectively extended to RGB inputs. We compare our method with previous works on challenging tasks of shape reconstruction from single-view binary shadow or RGB images and observe significant improvements. The code and data will be released.
翻訳日:2022-11-28 17:12:08 公開日:2022-11-25
# セマンティックシーン理解のための言語支援型3次元特徴学習

Language-Assisted 3D Feature Learning for Semantic Scene Understanding ( http://arxiv.org/abs/2211.14091v1 )

ライセンス: Link先を確認
Junbo Zhang, Guofan Fan, Guanghan Wang, Zhengyuan Su, Kaisheng Ma, Li Yi(参考訳) 記述的な3D特徴の学習は、多様なオブジェクトと複雑な構造を持つ3Dシーンを理解するために不可欠である。 しかし、重要な幾何学的属性とシーンコンテキストが、エンドツーエンドの訓練された3Dシーン理解ネットワークにおいて十分に強調されるかどうかは通常不明である。 3次元特徴学習を重要な幾何学的属性やシーンコンテキストへ導くために,テキストシーン記述の助けを探る。 3Dシーンと組み合わせた自由形式の記述を考慮し,オブジェクトの関係やオブジェクト属性に関する知識を抽出する。 次に3つの分類に基づく補助タスクを通じて,3次元特徴学習に知識を注入する。 この言語支援トレーニングは、現代のオブジェクト検出とインスタンスセグメンテーション手法と組み合わせて、3Dセマンティックなシーン理解を促進することができる。 さらに、言語支援で学んだ3d機能は、言語機能と連携し、様々な3d言語マルチモーダルタスクに役立つ。 3次元言語タスクと3次元言語タスクのベンチマーク実験により,言語支援型3次元特徴学習の有効性が示された。 コードはhttps://github.com/Asterisci/Language-Assisted-3Dで入手できる。

Learning descriptive 3D features is crucial for understanding 3D scenes with diverse objects and complex structures. However, it is usually unknown whether important geometric attributes and scene context obtain enough emphasis in an end-to-end trained 3D scene understanding network. To guide 3D feature learning toward important geometric attributes and scene context, we explore the help of textual scene descriptions. Given some free-form descriptions paired with 3D scenes, we extract the knowledge regarding the object relationships and object attributes. We then inject the knowledge to 3D feature learning through three classification-based auxiliary tasks. This language-assisted training can be combined with modern object detection and instance segmentation methods to promote 3D semantic scene understanding, especially in a label-deficient regime. Moreover, the 3D feature learned with language assistance is better aligned with the language features, which can benefit various 3D-language multimodal tasks. Experiments on several benchmarks of 3D-only and 3D-language tasks demonstrate the effectiveness of our language-assisted 3D feature learning. Code is available at https://github.com/Asterisci/Language-Assisted-3D.
翻訳日:2022-11-28 17:11:51 公開日:2022-11-25
# OCO-GANを用いた条件的・非条件的意味画像合成

Unifying conditional and unconditional semantic image synthesis with OCO-GAN ( http://arxiv.org/abs/2211.14105v1 )

ライセンス: Link先を確認
Marl\`ene Careil, St\'ephane Lathuili\`ere, Camille Couprie, Jakob Verbeek(参考訳) 近年,生成画像モデルが広く研究されている。 非条件条件設定では、非競合画像の限界分布をモデル化する。 さらなる制御を可能にするために、画像合成は、画像内のオブジェクトの位置を生成者に指示するセマンティックセグメンテーションマップで条件付けることができる。 これら2つのタスクは密接な関係にあるが、一般的には単独で研究されている。 我々は,OCO-GAN(Optionally Conditioned GAN)を提案する。OCO-GANは両タスクを統一的に処理し,セマンティックマップや潜伏者に直接条件付け可能な共有画像合成ネットワークである。 共有識別器を用いたエンドツーエンドアプローチで逆向きに訓練することで、両方のタスク間の相乗効果を活用できる。 cityscapes、coco-stuff、ade20kデータセットを限られたデータ、半教師あり、完全なデータレジームで実験し、優れたパフォーマンスを得るとともに、すべての設定で条件付きおよび無条件の両方を生成できる既存のハイブリッドモデルよりも優れたパフォーマンスを得る。 さらに,本研究の結果は,非条件モデルや条件モデルに特化している最先端技術よりも優れている。

Generative image models have been extensively studied in recent years. In the unconditional setting, they model the marginal distribution from unlabelled images. To allow for more control, image synthesis can be conditioned on semantic segmentation maps that instruct the generator the position of objects in the image. While these two tasks are intimately related, they are generally studied in isolation. We propose OCO-GAN, for Optionally COnditioned GAN, which addresses both tasks in a unified manner, with a shared image synthesis network that can be conditioned either on semantic maps or directly on latents. Trained adversarially in an end-to-end approach with a shared discriminator, we are able to leverage the synergy between both tasks. We experiment with Cityscapes, COCO-Stuff, ADE20K datasets in a limited data, semi-supervised and full data regime and obtain excellent performance, improving over existing hybrid models that can generate both with and without conditioning in all settings. Moreover, our results are competitive or better than state-of-the art specialised unconditional and conditional models.
翻訳日:2022-11-28 17:11:33 公開日:2022-11-25
# 3DDesigner:テキスト誘導拡散モデルによる光リアルな3Dオブジェクト生成と編集を目指して

3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models ( http://arxiv.org/abs/2211.14108v1 )

ライセンス: Link先を確認
Gang Li, Heliang Zheng, Chaoyue Wang, Chang Li, Changwen Zheng, Dacheng Tao(参考訳) テキスト誘導拡散モデルは画像/ビデオ生成と編集において優れた性能を示している。 3Dシナリオでの探索はほとんど行われていない。 本稿では,本トピックに関する3つの基本的,興味深い問題について論じる。 まず、テキスト誘導拡散モデルを用いて \textbf{3d- consistent generation} を実現する。 具体的には、NeRFのようなニューラルフィールドを統合して、所定のカメラビューに対して低解像度の粗い結果を生成する。 このような結果は、以下の拡散過程の条件情報として3D先行情報を提供できる。 2つの異なる視点に対応する新しい2ストリームの非同期拡散プロセスを用いて、クロスビュー対応をモデル化することにより、3次元の一貫性をさらに向上する。 次に,1つのビューからオブジェクトを編集することで,360$^{\circ}$操作結果を生成する2段階のソリューションを提案する。 ステップ1では,予測ノイズをブレンドして2次元局所編集を行う。 ステップ2では、2Dブレンドしたノイズをビュー非依存のテキスト埋め込み空間にマッピングする。 対応するテキスト埋め込みが得られたら、360$^{\circ}$イメージを生成することができる。 最後に、私たちはモデルを拡張して、1つのイメージを微調整することで \textbf{one-shot novel view synthesis} を実行し、まず、新しいビュー合成にテキストガイダンスを利用する可能性を示しています。 大規模な実験と様々な応用が、我々の3Dデザイナの長所を示しています。 プロジェクトページは \url{https://3ddesigner-diffusion.github.io/} で入手できる。

Text-guided diffusion models have shown superior performance in image/video generation and editing. While few explorations have been performed in 3D scenarios. In this paper, we discuss three fundamental and interesting problems on this topic. First, we equip text-guided diffusion models to achieve \textbf{3D-consistent generation}. Specifically, we integrate a NeRF-like neural field to generate low-resolution coarse results for a given camera view. Such results can provide 3D priors as condition information for the following diffusion process. During denoising diffusion, we further enhance the 3D consistency by modeling cross-view correspondences with a novel two-stream (corresponding to two different views) asynchronous diffusion process. Second, we study \textbf{3D local editing} and propose a two-step solution that can generate 360$^{\circ}$ manipulated results by editing an object from a single view. Step 1, we propose to perform 2D local editing by blending the predicted noises. Step 2, we conduct a noise-to-text inversion process that maps 2D blended noises into the view-independent text embedding space. Once the corresponding text embedding is obtained, 360$^{\circ}$ images can be generated. Last but not least, we extend our model to perform \textbf{one-shot novel view synthesis} by fine-tuning on a single image, firstly showing the potential of leveraging text guidance for novel view synthesis. Extensive experiments and various applications show the prowess of our 3DDesigner. Project page is available at \url{https://3ddesigner-diffusion.github.io/}.
翻訳日:2022-11-28 17:11:13 公開日:2022-11-25
# 単眼画像からの高忠実・3次元連続画像合成のための詳細なレーダマンフォールドの学習

Learning Detailed Radiance Manifolds for High-Fidelity and 3D-Consistent Portrait Synthesis from Monocular Image ( http://arxiv.org/abs/2211.13901v1 )

ライセンス: Link先を確認
Yu Deng, Baoyuan Wang, Heung-Yeung Shum(参考訳) 単眼ポートレート画像の新しいビュー合成における鍵となる課題は、連続的なポーズ変動下での3次元一貫性である。 既存の手法のほとんどは2D生成モデルに依存しており、しばしば3Dの不整合が明らかになる。 本稿では,最近提案された3次元認識gan,すなわち,放射多様体表現による仮想被写体の多視点画像生成において強い3次元一貫性を示す生成的放射多様体(gram)に基づく,単眼的ポートレート画像に対する3次元一貫性を有する新しいビュー合成手法を提案する。 しかし、実画像をグラムの潜在空間にマッピングするエンコーダを単に学習すれば、インスタンス固有の最適化による再構成忠実性の向上は時間がかかりながら、忠実な詳細を伴わずに粗い放射多様体を再構築できるだけである。 単分子画像から放射率多様体の3次元連続的な詳細を学習し、それらを粗な放射率多様体と組み合わせて高忠実度再構成を行う。 粗ラミアンス多様体に由来する3次元前駆体は、学習された詳細を制御し、新しい視点で合理的に合成された結果を保証するために用いられる。 In-the-wild 2D画像に基づいて,本手法は従来技術よりも高忠実で3D一貫性のポートレート合成を実現する。

A key challenge for novel view synthesis of monocular portrait images is 3D consistency under continuous pose variations. Most existing methods rely on 2D generative models which often leads to obvious 3D inconsistency artifacts. We present a 3D-consistent novel view synthesis approach for monocular portrait images based on a recent proposed 3D-aware GAN, namely Generative Radiance Manifolds (GRAM), which has shown strong 3D consistency at multiview image generation of virtual subjects via the radiance manifolds representation. However, simply learning an encoder to map a real image into the latent space of GRAM can only reconstruct coarse radiance manifolds without faithful fine details, while improving the reconstruction fidelity via instance-specific optimization is time-consuming. We introduce a novel detail manifolds reconstructor to learn 3D-consistent fine details on the radiance manifolds from monocular images, and combine them with the coarse radiance manifolds for high-fidelity reconstruction. The 3D priors derived from the coarse radiance manifolds are used to regulate the learned details to ensure reasonable synthesized results at novel views. Trained on in-the-wild 2D images, our method achieves high-fidelity and 3D-consistent portrait synthesis largely outperforming the prior art.
翻訳日:2022-11-28 17:05:32 公開日:2022-11-25
# 画像強調のための相互誘導と残像統合

Mutual Guidance and Residual Integration for Image Enhancement ( http://arxiv.org/abs/2211.13919v1 )

ライセンス: Link先を確認
Kun Zhou, KenKun Liu, Wenbo Li, Xiaoguang Han, Jiangbo Lu(参考訳) 従来の研究は、画像強調のためのグローバルおよびローカル調整の必要性を示している。 しかし、既存の畳み込みニューラルネットワーク(cnns)とトランスフォーマーモデルでは、計算効率とグローバルローカル情報利用の有効性のバランスをとる上で大きな課題がある。 特に、既存の方法は通常、双方向相互作用の重要性を無視して、グローバル-ローカル融合モードを採用する。 これらの課題に対処するため,我々は,コンパクトなアーキテクチャを維持しつつ,効果的な双方向グローバルな情報交換を行うための相互誘導ネットワーク(MGN)を提案する。 本設計では,グローバルな関係のモデリングに重点を置き,一方がローカルな情報処理にコミットする2ブランチのフレームワークを採用する。 そこで我々は,双方向のグローバル・ローカル・インタラクションのための効果的な注意に基づく相互指導手法を開発した。 その結果、グローバルとローカルの両方のブランチは、相互情報集約のメリットを享受できる。 さらに,mgnの結果をさらに精錬するために,分断・解法に従う新たな残差積分スキームを提案する。 提案手法の有効性を実証し,複数の公開画像強調ベンチマークにおける最先端性能を実現する。

Previous studies show the necessity of global and local adjustment for image enhancement. However, existing convolutional neural networks (CNNs) and transformer-based models face great challenges in balancing the computational efficiency and effectiveness of global-local information usage. Especially, existing methods typically adopt the global-to-local fusion mode, ignoring the importance of bidirectional interactions. To address those issues, we propose a novel mutual guidance network (MGN) to perform effective bidirectional global-local information exchange while keeping a compact architecture. In our design, we adopt a two-branch framework where one branch focuses more on modeling global relations while the other is committed to processing local information. Then, we develop an efficient attention-based mutual guidance approach throughout our framework for bidirectional global-local interactions. As a result, both the global and local branches can enjoy the merits of mutual information aggregation. Besides, to further refine the results produced by our MGN, we propose a novel residual integration scheme following the divide-and-conquer philosophy. The extensive experiments demonstrate the effectiveness of our proposed method, which achieves state-of-the-art performance on several public image enhancement benchmarks.
翻訳日:2022-11-28 17:05:07 公開日:2022-11-25
# UperFormer: セマンティックセグメンテーションのためのマルチスケールトランスフォーマーベースのデコーダ

UperFormer: A Multi-scale Transformer-based Decoder for Semantic Segmentation ( http://arxiv.org/abs/2211.13928v1 )

ライセンス: Link先を確認
Jing Xu, Wentao Shi, Pan Gao, Zhengwei Wang, Qizhu Li(参考訳) セマンティクスセグメンテーションに関する最近の多くの研究はトランスフォーマベースのエンコーダの設計と実装に重点を置いているが、トランスフォーマベースのデコーダにはあまり注目されていない。 符号探索が画素精度予測であるようなタスクに対しては,高レベルなキューを切り離し,画素レベルの精度でオブジェクト境界を作業させることで,エンコーダの段差が優れたセグメンテーション性能を達成する上で,デコーダの段差と同等に重要であると論じる。 本稿では,階層型エンコーダのプラグアンドプレイであり,エンコーダアーキテクチャによらず高品質なセグメンテーション結果が得られるUperFormerというトランスフォーマベースのデコーダを提案する。 UperFormerは、慎重に設計されたマルチヘッドスキップアテンションユニットと、新しいアップサンプリング操作を備えている。 マルチヘッドスキップの注意は、バックボーンからデコーダの機能を融合することができる。 エンコーダの機能を組み込んだアップサンプリング操作は、オブジェクトのローカライゼーションに適しています。 従来のアップサンプリング法に比べて0.4%から3.2%増加する。 UperFormerとSwin Transformer(Swin-T)を組み合わせることで、セマンティックセグメンテーションタスクのための完全なトランスフォーマーベースの対称ネットワークが形成される。 広範な実験により,提案手法は高い効率と計算効率を示す。 cityscapesデータセットでは、最先端のパフォーマンスを実現します。 より困難なADE20Kデータセットでは、私たちの最高のモデルでは、50.18のシングルスケールmIoUと、現在の最先端モデルと同等の51.8のマルチスケールmIoUが得られます。 私たちのソースコードとモデルは、https://github.com/shiwt03/uperformerで公開されています。

While a large number of recent works on semantic segmentation focus on designing and incorporating a transformer-based encoder, much less attention and vigor have been devoted to transformer-based decoders. For such a task whose hallmark quest is pixel-accurate prediction, we argue that the decoder stage is just as crucial as that of the encoder in achieving superior segmentation performance, by disentangling and refining the high-level cues and working out object boundaries with pixel-level precision. In this paper, we propose a novel transformer-based decoder called UperFormer, which is plug-and-play for hierarchical encoders and attains high quality segmentation results regardless of encoder architecture. UperFormer is equipped with carefully designed multi-head skip attention units and novel upsampling operations. Multi-head skip attention is able to fuse multi-scale features from backbones with those in decoders. The upsampling operation, which incorporates feature from encoder, can be more friendly for object localization. It brings a 0.4% to 3.2% increase compared with traditional upsampling methods. By combining UperFormer with Swin Transformer (Swin-T), a fully transformer-based symmetric network is formed for semantic segmentation tasks. Extensive experiments show that our proposed approach is highly effective and computationally efficient. On Cityscapes dataset, we achieve state-of-the-art performance. On the more challenging ADE20K dataset, our best model yields a single-scale mIoU of 50.18, and a multi-scale mIoU of 51.8, which is on-par with the current state-of-art model, while we drastically cut the number of FLOPs by 53.5%. Our source code and models are publicly available at: https://github.com/shiwt03/UperFormer
翻訳日:2022-11-28 17:04:48 公開日:2022-11-25
# XKD:ビデオ表現学習のためのドメインアライメントを用いたクロスモーダル知識蒸留

XKD: Cross-modal Knowledge Distillation with Domain Alignment for Video Representation Learning ( http://arxiv.org/abs/2211.13929v1 )

ライセンス: Link先を確認
Pritam Sarkar and Ali Etemad(参考訳) ビデオクリップから意味のある表現を学習するための,新しい自己教師型フレームワーク XKD を提案する。 XKDは2つの擬似タスクで訓練される。 まず、マスクデータ再構成を行い、モダリティ固有の表現を学習する。 次に,教師/学生が補完的な情報を学ぶためのセットアップを通じて,2つのモダリティ間で自己指導型クロスモーダルな知識蒸留を行う。 転送に最も有効な情報を特定するとともに,知識伝達を妨げる音声と視覚の領域ギャップに対処するために,効果的なクロスモーダル蒸留のためのドメインアライメント戦略を導入する。 最後に,オーディオとビジュアルの両方のストリームを処理可能な汎用ソリューションを開発するために,提案するフレームワークのモダリティ非依存の変種を導入し,オーディオとビジュアルの両方のモダリティに同じバックボーンを使用する。 提案するクロスモーダル知識蒸留は, ucf101では8.4%, hmdb51では8.1%, キネティクス音では13.8%, キネティクス400では14.2%, ビデオアクション分類の線形評価top-1精度を向上させる。 さらに、モーダリティ非依存の変異は、異なるデータストリームを処理できる汎用ネットワークを開発する上で有望な結果を示す。 コードはプロジェクトのWebサイトで公開されている。

We present XKD, a novel self-supervised framework to learn meaningful representations from unlabelled video clips. XKD is trained with two pseudo tasks. First, masked data reconstruction is performed to learn modality-specific representations. Next, self-supervised cross-modal knowledge distillation is performed between the two modalities through teacher-student setups to learn complementary information. To identify the most effective information to transfer and also to tackle the domain gap between audio and visual modalities which could hinder knowledge transfer, we introduce a domain alignment strategy for effective cross-modal distillation. Lastly, to develop a general-purpose solution capable of handling both audio and visual streams, a modality-agnostic variant of our proposed framework is introduced, which uses the same backbone for both audio and visual modalities. Our proposed cross-modal knowledge distillation improves linear evaluation top-1 accuracy of video action classification by 8.4% on UCF101, 8.1% on HMDB51, 13.8% on Kinetics-Sound, and 14.2% on Kinetics400. Additionally, our modality-agnostic variant shows promising results in developing a general-purpose network capable of handling different data streams. The code is released on the project website.
翻訳日:2022-11-28 17:04:16 公開日:2022-11-25
# オープンセット微細画像認識のための空間時間アテンションネットワーク

Spatial-Temporal Attention Network for Open-Set Fine-Grained Image Recognition ( http://arxiv.org/abs/2211.13940v1 )

ライセンス: Link先を確認
Jiayin Sun, Hong Wang and Qiulei Dong(参考訳) 様々な視覚的タスクにおけるトランスフォーマーの成功によって、空間的自己認識機構は近年、コンピュータビジョンコミュニティにおいてますます注目を集めている。 しかし,空間的自己着脱機構を有する典型的視覚トランスフォーマは,細粒画像のカテゴリを識別する正確な注意マップを学習できないことがわかった。 この問題に対処するため,脳内の時間的注意機構を動機としたSTANと呼ばれる微細な特徴表現を学習するための空間時間的注意ネットワークを提案し,複数のモーメントに対応する空間的自己注意操作のシーケンスを実装して学習した特徴を段階的に集約する。 The proposed STAN consists of four modules: a self-attention backbone module for learning a sequence of features with self-attention operations, a spatial feature self-organizing module for facilitating the model training, a spatial-temporal feature learning module for aggregating the re-organized features via a Long Short-Term Memory network, and a context-aware module that is implemented as the forget block of the spatial-temporal feature learning module for preserving/forgetting the long-term memory by utilizing contextual information. そこで,提案したSTANネットワークを線形分類器(STAN-OSFGR)と統合し,開放された粒度認識のためのSTAN方式を提案する。 3つの細粒度データセットと2つの粗粒度データセットに関する広範囲な実験結果から,提案手法が9つの最先端オープンセット認識法を著しく上回っていることが示された。

Triggered by the success of transformers in various visual tasks, the spatial self-attention mechanism has recently attracted more and more attention in the computer vision community. However, we empirically found that a typical vision transformer with the spatial self-attention mechanism could not learn accurate attention maps for distinguishing different categories of fine-grained images. To address this problem, motivated by the temporal attention mechanism in brains, we propose a spatial-temporal attention network for learning fine-grained feature representations, called STAN, where the features learnt by implementing a sequence of spatial self-attention operations corresponding to multiple moments are aggregated progressively. The proposed STAN consists of four modules: a self-attention backbone module for learning a sequence of features with self-attention operations, a spatial feature self-organizing module for facilitating the model training, a spatial-temporal feature learning module for aggregating the re-organized features via a Long Short-Term Memory network, and a context-aware module that is implemented as the forget block of the spatial-temporal feature learning module for preserving/forgetting the long-term memory by utilizing contextual information. Then, we propose a STAN-based method for open-set fine-grained recognition by integrating the proposed STAN network with a linear classifier, called STAN-OSFGR. Extensive experimental results on 3 fine-grained datasets and 2 coarse-grained datasets demonstrate that the proposed STAN-OSFGR outperforms 9 state-of-the-art open-set recognition methods significantly in most cases.
翻訳日:2022-11-28 17:03:45 公開日:2022-11-25
# MIAD: 教師なし異常検出のための保守検査データセット

MIAD: A Maintenance Inspection Dataset for Unsupervised Anomaly Detection ( http://arxiv.org/abs/2211.13968v1 )

ライセンス: Link先を確認
Tianpeng Bao, Jiadong Chen, Wei Li, Xiang Wang, Jingjing Fei, Liwei Wu, Rui Zhao, Ye Zheng(参考訳) 視覚異常検出は,製造工程中の製品の欠陥を見つけるための製造検査だけでなく,特に屋外の最適作業条件を維持するためのメンテナンス検査においても重要な役割を担っている。 欠陥サンプルの不足により,近年,教師なし異常検出が注目されている。 しかし, 監視不能な異常検出のための既存のデータセットは製造検査に偏り, 様々なカメラ視点, 乱雑な背景, 長期作業後の物体表面の劣化など, 外部制御されていない環境下での保守検査を考慮しない。 各種の屋外産業シナリオにおいて,100K以上の高分解能カラー画像を含むMIADデータセットの総合的な保守検査に焦点をあてた。 このデータセットは3Dグラフィックソフトウェアによって生成され、表面および論理異常の両方をピクセル精度の基底真理でカバーしている。 非教師付き異常検出のための代表アルゴリズムの広範囲な評価を行い、MIADとそれに対応する実験結果が屋外教師なし異常検出タスクにおける研究コミュニティに刺激を与えると期待する。 価値と関連する今後の作業は、私たちの新しいデータセットから生み出すことができます。

Visual anomaly detection plays a crucial role in not only manufacturing inspection to find defects of products during manufacturing processes, but also maintenance inspection to keep equipment in optimum working condition particularly outdoors. Due to the scarcity of the defective samples, unsupervised anomaly detection has attracted great attention in recent years. However, existing datasets for unsupervised anomaly detection are biased towards manufacturing inspection, not considering maintenance inspection which is usually conducted under outdoor uncontrolled environment such as varying camera viewpoints, messy background and degradation of object surface after long-term working. We focus on outdoor maintenance inspection and contribute a comprehensive Maintenance Inspection Anomaly Detection (MIAD) dataset which contains more than 100K high-resolution color images in various outdoor industrial scenarios. This dataset is generated by a 3D graphics software and covers both surface and logical anomalies with pixel-precise ground truth. Extensive evaluations of representative algorithms for unsupervised anomaly detection are conducted, and we expect MIAD and corresponding experimental results can inspire research community in outdoor unsupervised anomaly detection tasks. Worthwhile and related future work can be spawned from our new dataset.
翻訳日:2022-11-28 17:03:23 公開日:2022-11-25
# ILSGAN: 教師なし前地上セグメンテーションのための独立層合成

ILSGAN: Independent Layer Synthesis for Unsupervised Foreground-Background Segmentation ( http://arxiv.org/abs/2211.13974v1 )

ライセンス: Link先を確認
Qiran Zou, Yu Yang, Wing Yin Cheung, Chang Liu, Xiangyang Ji(参考訳) 非教師なしフォアグラウンド・バックグラウンド・セグメンテーションは、乱雑な背景から、特に層状GAN(Generative Adversarial Network)アプローチによって、非常に有望な対象を抽出することを目的としている。 しかしながら、人間のアノテーションがなければ、それらは通常、"information leakage"と呼ばれる非無視的な意味と視覚的混乱を伴う前景層と背景層を生成する傾向があり、それによって生成されたセグメンテーションマスクが顕著に劣化する。 この問題を軽減するために,独立層合成GAN (ILSGAN) と呼ばれる,単純かつ効果的な明示的な層独立性モデリング手法を提案する。 具体的には、前景と背景の可視領域間の相互情報の最小化を目標とし、層間独立を促進する。 理論的および実験的分析により、明示的な層独立性モデリングは情報漏洩を抑制するために重要であり、セグメンテーション性能の向上に寄与する。 また,我々のilsganは,複雑な実世界のデータに対して,最先端の生成品質とセグメンテーション性能を実現している。 コードは補足資料で入手できる。

Unsupervised foreground-background segmentation aims at extracting salient objects from cluttered backgrounds, where Generative Adversarial Network (GAN) approaches, especially layered GANs, show great promise. However, without human annotations, they are typically prone to produce foreground and background layers with non-negligible semantic and visual confusion, dubbed ``information leakage", resulting in notable degeneration of the generated segmentation mask. To alleviate this issue, we propose a simple-yet-effective explicit layer independence modeling approach, termed Independent Layer Synthesis GAN (ILSGAN), pursuing independent foreground-background layer generation by encouraging their discrepancy. Specifically, it targets minimizing the mutual information between visible and invisible regions of the foreground and background to spur interlayer independence. Through in-depth theoretical and experimental analyses, we justify that explicit layer independence modeling is critical to suppressing information leakage and contributes to impressive segmentation performance gains. Also, our ILSGAN achieves strong state-of-the-art generation quality and segmentation performance on complex real-world data. The code is available in the supplementary material.
翻訳日:2022-11-28 17:03:04 公開日:2022-11-25
# CLIP-ReID:コンクリートのテキストラベルを使わずに画像再同定のための視覚言語モデルの構築

CLIP-ReID: Exploiting Vision-Language Model for Image Re-Identification without Concrete Text Labels ( http://arxiv.org/abs/2211.13977v1 )

ライセンス: Link先を確認
Siyuan Li, Li Sun, Qingli Li(参考訳) CLIPのような事前訓練された視覚言語モデルは、画像分類やセグメンテーションなど、さまざまな下流タスクで優れたパフォーマンスを示している。 しかし、詳細な画像再識別(ReID)では、ラベルはインデックスであり、具体的なテキスト記述がない。 したがって、これらのタスクにどのようなモデルを適用するかは未定である。 本稿ではまず,クリップ内の画像エンコーダによって初期化される視覚モデルの微調整により,様々なreidタスクにおける競合性能が得られていることを示す。 次に,より良い視覚的表現を促進するための二段階戦略を提案する。 鍵となるアイデアは、各IDの学習可能なテキストトークンセットを通じてCLIPのクロスモーダル記述能力をフル活用し、テキストエンコーダに与え、あいまいな記述を形成することである。 最初のトレーニング段階では、CLIPのイメージエンコーダとテキストエンコーダが固定され、バッチ内で計算された対照的な損失によってテキストトークンだけがゼロから最適化される。 第2段階では、ID固有のテキストトークンとそのエンコーダが静的になり、イメージエンコーダを微調整するための制約を提供する。 下流タスクにおける設計された損失の助けを借りて、イメージエンコーダはデータをベクタとして正確に表現することができる。 提案手法の有効性は、人や車両のReIDタスクのための複数のデータセット上で検証される。 コードはhttps://github.com/Syliz517/CLIP-ReIDで入手できる。

Pre-trained vision-language models like CLIP have recently shown superior performances on various downstream tasks, including image classification and segmentation. However, in fine-grained image re-identification (ReID), the labels are indexes, lacking concrete text descriptions. Therefore, it remains to be determined how such models could be applied to these tasks. This paper first finds out that simply fine-tuning the visual model initialized by the image encoder in CLIP, has already obtained competitive performances in various ReID tasks. Then we propose a two-stage strategy to facilitate a better visual representation. The key idea is to fully exploit the cross-modal description ability in CLIP through a set of learnable text tokens for each ID and give them to the text encoder to form ambiguous descriptions. In the first training stage, image and text encoders from CLIP keep fixed, and only the text tokens are optimized from scratch by the contrastive loss computed within a batch. In the second stage, the ID-specific text tokens and their encoder become static, providing constraints for fine-tuning the image encoder. With the help of the designed loss in the downstream task, the image encoder is able to represent data as vectors in the feature embedding accurately. The effectiveness of the proposed strategy is validated on several datasets for the person or vehicle ReID tasks. Code is available at https://github.com/Syliz517/CLIP-ReID.
翻訳日:2022-11-28 17:02:38 公開日:2022-11-25
# シーンテキスト検出のための集約テキスト変換器

Aggregated Text Transformer for Scene Text Detection ( http://arxiv.org/abs/2211.13984v1 )

ライセンス: Link先を確認
Zhao Zhou, Xiangcheng Du, Yingbin Zheng, Cheng Jin(参考訳) 本稿では,自然画像におけるシーンテキスト検出のためのマルチスケールアグリゲーション戦略について検討する。 本稿では,シーン画像中のテキストをマルチスケールの自己認識機構で表現するアグリゲートテキストTRansformer(ATTR)を提案する。 画像ピラミッドから複数の解像度で始めると、特徴はまず共有重量で異なるスケールで抽出され、次にTransformerのエンコーダ・デコーダアーキテクチャに入力される。 マルチスケール画像表現は頑健であり、様々なサイズのテキストコンテンツに関する豊富な情報を含んでいる。 テキストトランスフォーマーはこれらの機能を集約して、さまざまなスケールでインタラクションを学び、テキスト表現を改善する。 提案手法は,各テキストインスタンスを個々のバイナリマスクとして表現することで,シーンテキストを検出する。 公開シーンテキスト検出データセットの大規模な実験により,提案手法の有効性が示された。

This paper explores the multi-scale aggregation strategy for scene text detection in natural images. We present the Aggregated Text TRansformer(ATTR), which is designed to represent texts in scene images with a multi-scale self-attention mechanism. Starting from the image pyramid with multiple resolutions, the features are first extracted at different scales with shared weight and then fed into an encoder-decoder architecture of Transformer. The multi-scale image representations are robust and contain rich information on text contents of various sizes. The text Transformer aggregates these features to learn the interaction across different scales and improve text representation. The proposed method detects scene texts by representing each text instance as an individual binary mask, which is tolerant of curve texts and regions with dense instances. Extensive experiments on public scene text detection datasets demonstrate the effectiveness of the proposed framework.
翻訳日:2022-11-28 17:02:15 公開日:2022-11-25
# ダイナミックニューラル・ポートレート

Dynamic Neural Portraits ( http://arxiv.org/abs/2211.13994v1 )

ライセンス: Link先を確認
Michail Christos Doukas, Stylianos Ploumpis, Stefanos Zafeiriou(参考訳) フルヘッド再現問題に対する新しいアプローチであるDynamic Neural Portraitsを提案する。 本手法は,頭部ポーズ,表情,視線を明示的に制御し,写実的な映像像を生成する。 提案アーキテクチャは,3次元顔の描画をリアルな画像に変換するため,GANベースの画像変換ネットワークに依存する既存の手法とは異なる。 代わりに、制御可能なダイナミクスを持つ2次元座標ベースMLPに基づいてシステムを構築する。 最近の3D NeRFライクなシステムとは対照的に、2Dベースの表現を採用するという直感は、ビデオのポートレートが単眼の静止カメラによって捉えられているという事実に起因している。 主に,我々の生成モデルと表現が混在していることを条件に,我々のシステムも音声機能によって駆動可能であることを示す。 実験の結果,提案手法は最近のNeRF法よりも270倍高速であり,ネットワークは1024×1024の解像度で24fpsの高速化を実現している。

We present Dynamic Neural Portraits, a novel approach to the problem of full-head reenactment. Our method generates photo-realistic video portraits by explicitly controlling head pose, facial expressions and eye gaze. Our proposed architecture is different from existing methods that rely on GAN-based image-to-image translation networks for transforming renderings of 3D faces into photo-realistic images. Instead, we build our system upon a 2D coordinate-based MLP with controllable dynamics. Our intuition to adopt a 2D-based representation, as opposed to recent 3D NeRF-like systems, stems from the fact that video portraits are captured by monocular stationary cameras, therefore, only a single viewpoint of the scene is available. Primarily, we condition our generative model on expression blendshapes, nonetheless, we show that our system can be successfully driven by audio features as well. Our experiments demonstrate that the proposed method is 270 times faster than recent NeRF-based reenactment methods, with our networks achieving speeds of 24 fps for resolutions up to 1024 x 1024, while outperforming prior works in terms of visual quality.
翻訳日:2022-11-28 17:02:02 公開日:2022-11-25
# 適応注意リンクに基づく視覚変換器の正則化

Adaptive Attention Link-based Regularization for Vision Transformers ( http://arxiv.org/abs/2211.13852v1 )

ライセンス: Link先を確認
Heegon Jin, Jongwon Choi(参考訳) 近年,トランスフォーマーネットワークが様々な視覚課題に採用されているが,誘導バイアスを無視するモデルの訓練には,広範なトレーニングデータと長いトレーニング時間が必要である。 事前学習した畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)のアテンションヘッドとの訓練可能なリンクを用いて、ViTのトレーニング効率を向上させるための正規化手法を提案する。 トレーニング可能なリンクはアテンション拡張モジュールと呼ばれ、ViTと同時にトレーニングされ、ViTのトレーニングを強化し、データ不足による過度な問題を回避することができる。 訓練された注意強化モジュールから,各cnnアクティベーションマップと各vit注意ヘッドの関係を抽出でき,これに基づいて高度な注意強化モジュールを提案する。 その結果,少ないデータ量でもvitの性能が大幅に向上し,学習中のコンバージェンスが高速化できることがわかった。

Although transformer networks are recently employed in various vision tasks with outperforming performance, extensive training data and a lengthy training time are required to train a model to disregard an inductive bias. Using trainable links between the channel-wise spatial attention of a pre-trained Convolutional Neural Network (CNN) and the attention head of Vision Transformers (ViT), we present a regularization technique to improve the training efficiency of ViT. The trainable links are referred to as the attention augmentation module, which is trained simultaneously with ViT, boosting the training of ViT and allowing it to avoid the overfitting issue caused by a lack of data. From the trained attention augmentation module, we can extract the relevant relationship between each CNN activation map and each ViT attention head, and based on this, we also propose an advanced attention augmentation module. Consequently, even with a small amount of data, the suggested method considerably improves the performance of ViT while achieving faster convergence during training.
翻訳日:2022-11-28 16:54:42 公開日:2022-11-25
# カラー画像描画のための構造ハンケル領域の生成モデリング

Generative Modeling in Structural-Hankel Domain for Color Image Inpainting ( http://arxiv.org/abs/2211.13857v1 )

ライセンス: Link先を確認
Zihao Li, Chunhua Wu, Shenglin Wu, Wenbo Wan, Yuhao Wang, Qiegen Liu(参考訳) 近年,複数種類の画像を用いて多数のサンプルを収集する研究が盛んに行われている。 本研究は,カラー画像インペインティングタスクのための低ランク構造-ハンケル行列支援スコアベース生成モデル(shgm)を構築するために,サンプル数が10つかそれ以上の新たなアイデアを提案する。 先行学習過程において、まず複数の画像から特定の内部中間パッチを抽出し、これらのパッチから構造ハンケル行列を構築する。 スコアベース生成モデルを用いてパッチの内部統計分布を学習するため、大規模ハンケル行列は最終的により高次元のテンソルに折り畳み、事前学習を行う。 反復的な塗り込みプロセスの間、shgmは塗り込み問題を低ランク環境における条件付き生成手順として捉えている。 その結果、確率微分方程式解決器、乗算器の交互方向法、データ一貫性ステップを代替して中間復元画像を得る。 実験結果はSHGMの顕著な性能と多様性を示した。

In recent years, some researchers focused on using a single image to obtain a large number of samples through multi-scale features. This study intends to a brand-new idea that requires only ten or even fewer samples to construct the low-rank structural-Hankel matrices-assisted score-based generative model (SHGM) for color image inpainting task. During the prior learning process, a certain amount of internal-middle patches are firstly extracted from several images and then the structural-Hankel matrices are constructed from these patches. To better apply the score-based generative model to learn the internal statistical distribution within patches, the large-scale Hankel matrices are finally folded into the higher dimensional tensors for prior learning. During the iterative inpainting process, SHGM views the inpainting problem as a conditional generation procedure in low-rank environment. As a result, the intermediate restored image is acquired by alternatively performing the stochastic differential equation solver, alternating direction method of multipliers, and data consistency steps. Experimental results demonstrated the remarkable performance and diversity of SHGM.
翻訳日:2022-11-28 16:54:23 公開日:2022-11-25
# DATE:完全な畳み込みオブジェクト検出のためのデュアルアサインメント

DATE: Dual Assignment for End-to-End Fully Convolutional Object Detection ( http://arxiv.org/abs/2211.13859v1 )

ライセンス: Link先を確認
Yiqun Chen, Qiang Chen, Qinghao Hu, Jian Cheng(参考訳) 完全畳み込み検出器は1対1の割り当てを破棄し、エンドツーエンド検出を達成するために1対1の割り当て戦略を採用するが、収束の遅い問題に苦しむ。 本稿では,これら2つの代入法を再検討し,一対多の代入をエンドツーエンドの完全畳み込み検出器に戻すことがモデル収束に有効であることを示す。 この観測に基づいて、終端から終端までの完全畳み込みのde\textbf{TE}ction (DATE) に対して {\em \textbf{D}ual \textbf{A}ssignment} を提案する。 本手法は,訓練中の1対1と1対1の2つの分岐を構築し,より監督的な信号を提供することで1対1の分岐の収束を高速化する。 DATEは、モデル推論のための1対1のマッチング戦略を持つブランチのみを使用します。 実験結果から,Dual AssignmentはOneNetおよびDeFCN上でのモデル収束を高速化する。 コード: https://github.com/yiqunchen1999/date。

Fully convolutional detectors discard the one-to-many assignment and adopt a one-to-one assigning strategy to achieve end-to-end detection but suffer from the slow convergence issue. In this paper, we revisit these two assignment methods and find that bringing one-to-many assignment back to end-to-end fully convolutional detectors helps with model convergence. Based on this observation, we propose {\em \textbf{D}ual \textbf{A}ssignment} for end-to-end fully convolutional de\textbf{TE}ction (DATE). Our method constructs two branches with one-to-many and one-to-one assignment during training and speeds up the convergence of the one-to-one assignment branch by providing more supervision signals. DATE only uses the branch with the one-to-one matching strategy for model inference, which doesn't bring inference overhead. Experimental results show that Dual Assignment gives nontrivial improvements and speeds up model convergence upon OneNet and DeFCN. Code: https://github.com/YiqunChen1999/date.
翻訳日:2022-11-28 16:54:07 公開日:2022-11-25
# FFHQ-UV:3次元顔再構成のための正常顔面UVテクスチャデータセット

FFHQ-UV: Normalized Facial UV-Texture Dataset for 3D Face Reconstruction ( http://arxiv.org/abs/2211.13874v1 )

ライセンス: Link先を確認
Haoran Bai, Di Kang, Haoxian Zhang, Jinshan Pan, Linchao Bao(参考訳) 本稿では,5万以上の高品質なテクスチャuvマップと,照度,中性表現,清浄された顔領域を含む大規模顔用uvテクスチャデータセットを提案する。 データセットはFFHQという大規模な顔画像データセットから派生したもので、完全に自動で堅牢なUVテクスチャ生産パイプラインの助けを借りています。 我々のパイプラインは、最近のStyleGANベースの顔画像編集手法を利用して、画像入力から多視点正規化顔画像を生成する。 次に、精巧なUVテクスチャ抽出、補正、完了手順を適用し、正規化顔画像から高品質なUVマップを生成する。 既存のuvテキストデータセットと比較して、データセットはより多様で高品質なテクスチャマップを持っています。 さらに,パラメトリックフィッティングに基づく3次元顔再構成のための非線形テクスチャベースとしてganベースのテクスチャデコーダを訓練する。 実験の結果,本手法は最先端の手法よりも再構成精度が向上し,さらに,現実的なレンダリングが可能な高品質なテクスチャマップが得られた。 データセット、コード、トレーニング済みテクスチャデコーダはhttps://github.com/csbhr/FFHQ-UVで公開されている。

We present a large-scale facial UV-texture dataset that contains over 50,000 high-quality texture UV-maps with even illuminations, neutral expressions, and cleaned facial regions, which are desired characteristics for rendering realistic 3D face models under different lighting conditions. The dataset is derived from a large-scale face image dataset namely FFHQ, with the help of our fully automatic and robust UV-texture production pipeline. Our pipeline utilizes the recent advances in StyleGAN-based facial image editing approaches to generate multi-view normalized face images from single-image inputs. An elaborated UV-texture extraction, correction, and completion procedure is then applied to produce high-quality UV-maps from the normalized face images. Compared with existing UV-texture datasets, our dataset has more diverse and higher-quality texture maps. We further train a GAN-based texture decoder as the nonlinear texture basis for parametric fitting based 3D face reconstruction. Experiments show that our method improves the reconstruction accuracy over state-of-the-art approaches, and more importantly, produces high-quality texture maps that are ready for realistic renderings. The dataset, code, and pre-trained texture decoder are publicly available at https://github.com/csbhr/FFHQ-UV.
翻訳日:2022-11-28 16:53:47 公開日:2022-11-25
# AFR-Net:注意駆動型指紋認識ネットワーク

AFR-Net: Attention-Driven Fingerprint Recognition Network ( http://arxiv.org/abs/2211.13897v1 )

ライセンス: Link先を確認
Steven A. Grosz and Anil K. Jain(参考訳) コンピュータビジョンにおける視覚トランスフォーマー(vit)の使用は、インダクティブバイアス(局所性、重み共有など)の制限や、他のディープラーニング手法(畳み込みニューラルネットワーク(cnn)など)と比較してスケーラビリティの向上によって増加している。 これにより、指紋認識を含む生体認証におけるvitの使用に関する初期の研究が行われた。 本研究では,iによる指紋認識におけるトランスフォーマーの初期研究を改善する。 )vanilla vit, ii に加え,追加の注意に基づくアーキテクチャを評価すること。 ) より大規模で多様なトレーニングと評価データセットへのスケーリング,iii。 ) 注意ベースとCNNベースの埋め込みの補完表現を併用し, 認証(1:1の比較)と識別(1:N比較)の両方において, 最先端(SOTA)指紋認識を改善した。 我々の統合アーキテクチャであるAFR-Net(Attention-Driven Fingerprint Recognition Network)は、SOTAの商用指紋システム、Verifinger v12.3、多くのセンサー内、クロスセンサー(コンタクトレスを含む)、指紋マッチングデータセットのロール化など、いくつかのベースライントランスフォーマーとCNNベースのモデルを上回っています。 さらに,ネットワーク内の中間的特徴マップから抽出した局所的埋め込みを用いて,低確信な状況下でグローバル埋め込みを洗練し,各モデルに対する全体的な認識精度を著しく向上させる再調整戦略を提案する。 この調整戦略は追加のトレーニングを必要とせず、パフォーマンスを高めるために既存のディープラーニングネットワーク(注意ベース、CNNベース、または両方を含む)のラッパーとして適用することができる。

The use of vision transformers (ViT) in computer vision is increasing due to limited inductive biases (e.g., locality, weight sharing, etc.) and increased scalability compared to other deep learning methods (e.g., convolutional neural networks (CNN)). This has led to some initial studies on the use of ViT for biometric recognition, including fingerprint recognition. In this work, we improve on these initial studies for transformers in fingerprint recognition by i.) evaluating additional attention-based architectures in addition to vanilla ViT, ii.) scaling to larger and more diverse training and evaluation datasets, and iii.) combining the complimentary representations of attention-based and CNN-based embeddings for improved state-of-the-art (SOTA) fingerprint recognition for both authentication (1:1 comparisons) and identification (1:N comparisions). Our combined architecture, AFR-Net (Attention-Driven Fingerprint Recognition Network), outperforms several baseline transformer and CNN-based models, including a SOTA commercial fingerprint system, Verifinger v12.3, across many intra-sensor, cross-sensor (including contact to contactless), and latent to rolled fingerprint matching datasets. Additionally, we propose a realignment strategy using local embeddings extracted from intermediate feature maps within the networks to refine the global embeddings in low certainty situations, which boosts the overall recognition accuracy significantly for all the evaluations across each of the models. This realignment strategy requires no additional training and can be applied as a wrapper to any existing deep learning network (including attention-based, CNN-based, or both) to boost its performance.
翻訳日:2022-11-28 16:53:26 公開日:2022-11-25
# 効果的な文脈内学習のための相補的説明

Complementary Explanations for Effective In-Context Learning ( http://arxiv.org/abs/2211.13892v1 )

ライセンス: Link先を確認
Xi Ye, Srinivasan Iyer, Asli Celikyilmaz, Ves Stoyanov, Greg Durrett, Ramakanth Pasunuru(参考訳) 大規模言語モデル (LLM) は、説明のインプロンプトから学習する際、顕著な能力を示した。 しかし、どのような説明がインコンテキスト学習に効果的であるかの理解は限られている。 この研究は、文脈内学習に説明が使用されるメカニズムをよりよく理解することを目的としている。 まず、計算トレース(解の分解の仕方)とプロンプトの自然言語という2つの異なる要因が、説明を用いた場合のパフォーマンス向上に与える影響について検討する。 3つの制御されたタスクに関する説明を摂動することで、両要因が説明の有効性に寄与し、LCMがある程度説明に従うことを示す。 さらに、与えられたテストクエリを解決するために、最大限に効果的な説明セットを作る方法について研究する。 LLMは、個々の例によって指定された異なる推論をプロンプトで融合できるので、説明セットの相補性から恩恵を受けることができる。 さらに、関連する例を示すことも、より効果的なプロンプトに寄与する。 そこで本研究では,複数のLLM上での3つの実世界のタスク間での文脈内学習性能の向上に成功し,関連性と相補性の両方を持つ類似集合を構築するための,最大対数関係に基づく例選択手法を提案する。

Large language models (LLMs) have exhibited remarkable capabilities in learning from explanations in prompts. Yet, there has been limited understanding of what makes explanations effective for in-context learning. This work aims to better understand the mechanisms by which explanations are used for in-context learning. We first study the impact of two different factors on prompting performance when using explanations: the computation trace (the way the solution is decomposed) and the natural language of the prompt. By perturbing explanations on three controlled tasks, we show that both factors contribute to the effectiveness of explanations, indicating that LLMs do faithfully follow the explanations to some extent. We further study how to form maximally effective sets of explanations for solving a given test query. We find that LLMs can benefit from the complementarity of the explanation set as they are able to fuse different reasoning specified by individual exemplars in prompts. Additionally, having relevant exemplars also contributes to more effective prompts. Therefore, we propose a maximal-marginal-relevance-based exemplar selection approach for constructing exemplar sets that are both relevant as well as complementary, which successfully improves the in-context learning performance across three real-world tasks on multiple LLMs.
翻訳日:2022-11-28 16:20:27 公開日:2022-11-25
# MUSIED:マルチソース不均一なインフォーマルテキストからのイベント検出ベンチマーク

MUSIED: A Benchmark for Event Detection from Multi-Source Heterogeneous Informal Texts ( http://arxiv.org/abs/2211.13896v1 )

ライセンス: Link先を確認
Xiangyu Xi, Jianwei Lv, Shuaipeng Liu, Wei Ye, Fan Yang and Guanglu Wan(参考訳) イベント検出(ED)は、構造化されていないテキストからイベントトリガーを特定し、分類する。 過去数年間の著しい進歩にもかかわらず、ほとんどの研究は、正式なテキスト(例えば、ニュース記事、wikipedia文書、財務発表)からイベントを検出することに焦点を当てている。 さらに、各データセットのテキストは、単一のソースまたは複数の比較的均質なソースから作成されている。 ウェブや企業内で大量のユーザ生成テキストが蓄積される中、通常複数の異種ソースから、これらの非公式テキストで意味のある出来事を特定することは、重要な実用価値の問題となっている。 インフォーマルテキストやヘテロジニアステキストを含むシナリオにイベント検出を展開する先駆的な調査として,食品サービスのための主要なeコマースプラットフォームにおいて,ユーザレビュー,テキスト会話,電話会話に基づく,新たな大規模中国イベント検出データセットを提案する。 提案するデータセットのテキストの非公式性とマルチソースの不均一性特性を定量的に定性的に検証することにより慎重に検討する。 最先端のイベント検出手法による大規模な実験は、これらの特徴によって引き起こされるユニークな課題を検証し、複数ソースの非公式なイベント検出が未解決の問題であり、さらなる努力が必要であることを示す。 ベンチマークとコードは \url{https://github.com/myeclipse/MUSIED} で公開されている。

Event detection (ED) identifies and classifies event triggers from unstructured texts, serving as a fundamental task for information extraction. Despite the remarkable progress achieved in the past several years, most research efforts focus on detecting events from formal texts (e.g., news articles, Wikipedia documents, financial announcements). Moreover, the texts in each dataset are either from a single source or multiple yet relatively homogeneous sources. With massive amounts of user-generated text accumulating on the Web and inside enterprises, identifying meaningful events in these informal texts, usually from multiple heterogeneous sources, has become a problem of significant practical value. As a pioneering exploration that expands event detection to the scenarios involving informal and heterogeneous texts, we propose a new large-scale Chinese event detection dataset based on user reviews, text conversations, and phone conversations in a leading e-commerce platform for food service. We carefully investigate the proposed dataset's textual informality and multi-source heterogeneity characteristics by inspecting data samples quantitatively and qualitatively. Extensive experiments with state-of-the-art event detection methods verify the unique challenges posed by these characteristics, indicating that multi-source informal event detection remains an open problem and requires further efforts. Our benchmark and code are released at \url{https://github.com/myeclipse/MUSIED}.
翻訳日:2022-11-28 16:20:07 公開日:2022-11-25
# テキスト分類におけるトークン分類とシーケンス分類の比較検討

Comparison Study Between Token Classification and Sequence Classification In Text Classification ( http://arxiv.org/abs/2211.13899v1 )

ライセンス: Link先を確認
Amir Jafari(参考訳) 自然言語処理タスクには教師なしの機械学習技術が適用されており、GLUEなどのベンチマークを上回る成功を収めている。 言語モデルの構築は一つの言語でよい結果を得ることができ、分類、要約、生成などの複数のNLPタスクをアウトオブボックスモデルとして適用することができる。 NLPで使われている古典的なアプローチの中で、マスク付き言語モデリングが最も使われている。 一般的に、言語モデルを構築する唯一の要件は、大量のテキストデータのコーパスの存在である。 テキスト分類エンジンは、コストを節約するためにテキストを分類するために、古典的および最先端のトランスフォーマーモデルから様々なモデルを使用する。 シーケンス分類器は主にテキスト分類の領域で使用される。 しかしトークン分類器も実行可能な候補モデルである。 シーケンス分類器とトークン分類器は、コンテキスト情報が異なるため、分類予測を改善する傾向がある。 本研究の目的は、シーケンス分類器とトークン分類器の性能を比較し、同じデータセット上で各モデルを評価することである。 本研究では,事前学習したモデルをベースモデルとして使用し,これらの2つのスコア付けパラダイムの結果をトークン分類器とシーケンス分類器で比較する。 .

Unsupervised Machine Learning techniques have been applied to Natural Language Processing tasks and surpasses the benchmarks such as GLUE with great success. Building language models approach achieves good results in one language and it can be applied to multiple NLP task such as classification, summarization, generation and etc as an out of box model. Among all the of the classical approaches used in NLP, the masked language modeling is the most used. In general, the only requirement to build a language model is presence of the large corpus of textual data. Text classification engines uses a variety of models from classical and state of art transformer models to classify texts for in order to save costs. Sequence Classifiers are mostly used in the domain of text classification. However Token classifiers also are viable candidate models as well. Sequence Classifiers and Token Classifier both tend to improve the classification predictions due to the capturing the context information differently. This work aims to compare the performance of Sequence Classifier and Token Classifiers and evaluate each model on the same set of data. In this work, we are using a pre-trained model as the base model and Token Classifier and Sequence Classier heads results of these two scoring paradigms with be compared..
翻訳日:2022-11-28 16:19:43 公開日:2022-11-25
# テキストデータにおけるディープラーニング異常検出法

A Deep Learning Anomaly Detection Method in Textual Data ( http://arxiv.org/abs/2211.13900v1 )

ライセンス: Link先を確認
Amir Jafari(参考訳) 本稿では,古典的機械学習アルゴリズムと組み合わされたディープラーニングとトランスフォーマアーキテクチャを用いて,テキスト中のテキスト異常の検出と識別を行う。 ディープラーニングモデルは、すべてのテキストコンテキストを数値表現に変換するテキストデータに関する非常に重要なコンテキスト情報を提供する。 文変換,オートエンコーダ,ロジスティック回帰,距離計算といった複数の機械学習手法を用いて異常の予測を行った。 本手法はテキストデータ上でテストされ,元のテキストに注入された異なるソースからの構文データを異常として,あるいはターゲットとして使用した。 異常検出の分野において異なる手法とアルゴリズムを説明し,最良の手法の結果を示す。 これらの結果から,本アルゴリズムは他の異常検出法と比較して偽陽性率を低減できる可能性が示唆された。

In this article, we propose using deep learning and transformer architectures combined with classical machine learning algorithms to detect and identify text anomalies in texts. Deep learning model provides a very crucial context information about the textual data which all textual context are converted to a numerical representation. We used multiple machine learning methods such as Sentence Transformers, Auto Encoders, Logistic Regression and Distance calculation methods to predict anomalies. The method are tested on the texts data and we used syntactic data from different source injected into the original text as anomalies or use them as target. Different methods and algorithm are explained in the field of outlier detection and the results of the best technique is presented. These results suggest that our algorithm could potentially reduce false positive rates compared with other anomaly detection methods that we are testing.
翻訳日:2022-11-28 16:19:26 公開日:2022-11-25
# 用法に基づく文法の露出と出現:35言語による計算実験

Exposure and Emergence in Usage-Based Grammar: Computational Experiments in 35 Languages ( http://arxiv.org/abs/2211.14160v1 )

ライセンス: Link先を確認
Jonathan Dunn(参考訳) 本稿では,構築文法の出現における露出の役割について,計算実験を用いて考察する。 使用法に基づく文法は、学習者の実際の言語使用への露出に依存すると仮定されているが、そのような露出のメカニズムは、いくつかの独立した構成でのみ研究されている。 この論文と実験 (i)構成員の成長率 (ii)独立レジスタに露出した文法の収束率、 (iii)最近観測されていないとき、建築が忘れられる割合。 これらの実験により,語彙は文法よりも急速に成長し,文法の成長速度は語彙の成長速度に依存しないことが示された。 同時に、レジスタ固有の文法は露出量が増加するにつれてより類似した構成に収束する。 これは、露光が増加するにつれて特定のレジスタの影響がより重要になることを意味する。 最後に、最近観測されていないとき、建設が忘れられる速度は、建設物の成長率を反映している。 本稿では,構文の出現と拡張の両面を含む使用法に基づく文法の計算モデルを提案する。

This paper uses computational experiments to explore the role of exposure in the emergence of construction grammars. While usage-based grammars are hypothesized to depend on a learner's exposure to actual language use, the mechanisms of such exposure have only been studied in a few constructions in isolation. This paper experiments with (i) the growth rate of the constructicon, (ii) the convergence rate of grammars exposed to independent registers, and (iii) the rate at which constructions are forgotten when they have not been recently observed. These experiments show that the lexicon grows more quickly than the grammar and that the growth rate of the grammar is not dependent on the growth rate of the lexicon. At the same time, register-specific grammars converge onto more similar constructions as the amount of exposure increases. This means that the influence of specific registers becomes less important as exposure increases. Finally, the rate at which constructions are forgotten when they have not been recently observed mirrors the growth rate of the constructicon. This paper thus presents a computational model of usage-based grammar that includes both the emergence and the unentrenchment of constructions.
翻訳日:2022-11-28 16:19:11 公開日:2022-11-25
# 予測が読書時間に及ぼす影響について

On the Effect of Anticipation on Reading Times ( http://arxiv.org/abs/2211.14301v1 )

ライセンス: Link先を確認
Tiago Pimentel, Clara Meister, Ethan G. Wilcox, Roger Levy, Ryan Cotterell(参考訳) 過去20年間に渡り、多くの研究が予測可能な単語(すなわち、高次の単語)が読まれるのにどれだけ時間がかかるかを示した。 一般的に、これらの以前の研究は、読み取りプロセスが純粋に応答的であると暗黙的に仮定した: 読者は新しい単語を観察し、必要に応じて読み出す時間を割り当てる。 読者は、例えば、それに対する期待に基づいて、将来の単語に時間を割り当てることができる。 本研究では,本研究における読書の予測特性について,今後の素材の予測が読書時間に与える影響について検討する。 具体的には、2つの自己ペーシングと2つのアイトラッキングという4つの読み取り時間データセットに対する超越的および文脈的エントロピーの影響を調べることで予測を検証した。 実験された4つのデータセットのうち3つで、エントロピーは読み出し時間だけでなく、推定時間も予測する。 次に、コンテキストエントロピーがRTに影響を与える4つの認知メカニズムを仮説を立てます。 全体として、結果は予測と応答性の両方の読み取りのビューをサポートします。

Over the past two decades, numerous studies have demonstrated how less predictable (i.e. higher surprisal) words take more time to read. In general, these previous studies implicitly assumed the reading process to be purely responsive: readers observe a new word and allocate time to read it as required. These results, however, are also compatible with a reading time that is anticipatory: readers could, e.g., allocate time to a future word based on their expectation about it. In this work, we examine the anticipatory nature of reading by looking at how people's predictions about upcoming material influence reading times. Specifically, we test anticipation by looking at the effects of surprisal and contextual entropy on four reading-time datasets: two self-paced and two eye-tracking. In three of four datasets tested, we find that the entropy predicts reading times as well as (or better than) the surprisal. We then hypothesise four cognitive mechanisms through which the contextual entropy could impact RTs -- three of which we design experiments to analyse. Overall, our results support a view of reading that is both anticipatory and responsive.
翻訳日:2022-11-28 16:18:49 公開日:2022-11-25
# 暗黙的談話関係認識のためのグローバルおよびローカル階層認識コントラストフレームワーク

Global and Local Hierarchy-aware Contrastive Framework for Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2211.13873v1 )

ライセンス: Link先を確認
Yuxin Jiang, Linhan Zhang, Wei Wang(参考訳) 明示的な接続性がないため、暗黙の言論関係認識(IDRR)は言論分析において難しい課題である。 IDRRの重要なステップは、2つの引数間の高品質な談話関係表現を学習することである。 近年の手法では,感覚の階層的情報全体を多段階認識のための談話関係表現に統合する傾向にある。 それでも、すべての感覚を含む静的階層構造(グローバル階層として定義される)を不十分に組み入れ、各インスタンス(局所階層として定義される)に対応する階層的感覚ラベルシーケンスを無視する。 より優れた対話関係表現を学習するためのグローバル・ローカル階層を十分に活用するために,コントラスト学習の助けを借りて2種類の階層をモデル化する新しいGLobal and LOcal Hierarchy-aware Contrastive Framework(GLOF)を提案する。 PDTBデータセットを用いた実験結果から,本手法はすべての階層レベルで現在の最先端モデルよりも優れていた。

Due to the absence of explicit connectives, implicit discourse relation recognition (IDRR) remains a challenging task in discourse analysis. The critical step for IDRR is to learn high-quality discourse relation representations between two arguments. Recent methods tend to integrate the whole hierarchical information of senses into discourse relation representations for multi-level sense recognition. Nevertheless, they insufficiently incorporate the static hierarchical structure containing all senses (defined as global hierarchy), and ignore the hierarchical sense label sequence corresponding to each instance (defined as local hierarchy). For the purpose of sufficiently exploiting global and local hierarchies of senses to learn better discourse relation representations, we propose a novel GLobal and LOcal Hierarchy-aware Contrastive Framework (GLOF), to model two kinds of hierarchies with the aid of contrastive learning. Experimental results on the PDTB dataset demonstrate that our method remarkably outperforms the current state-of-the-art model at all hierarchical levels.
翻訳日:2022-11-28 16:08:19 公開日:2022-11-25
# ゼロショット関係抽出のための銀標準データによる学習

Learning with Silver Standard Data for Zero-shot Relation Extraction ( http://arxiv.org/abs/2211.13883v1 )

ライセンス: Link先を確認
Tianyin Wang, Jianwei Wang, Ziqian Zeng(参考訳) 教師付き関係抽出(re)法の優れた性能は、大量の金標準データに大きく依存している。 最近のゼロショット関係抽出法は、REタスクを他のNLPタスクに変換し、これらのNLPタスクのオフザシェルフモデルを使用して、大量のREアノテーションデータを用いることなく、テストデータに直接推論を行う。 これらの手法の潜在的に価値のある副産物は、大規模な銀標準データである。 しかし、潜在的に有価な銀標準データの使用に関するさらなる調査は行われていない。 本稿では,まず銀標準データから少量のクリーンデータを検出し,選択したクリーンデータを用いて事前学習したモデルを微調整する。 次に、関係型を推論するために微調整モデルを使用します。 また,クリーンデータを選択する際のクラス情報を考慮したクリーンデータ検出モジュールを提案する。 実験の結果, ゼロショットREタスクにおけるTACREDおよびWiki80データセットにおいて, ベースラインを12%, 11%上回る性能が得られた。 異なる分布の銀標準データを使用することで、さらなる性能向上が可能となる。

The superior performance of supervised relation extraction (RE) methods heavily relies on a large amount of gold standard data. Recent zero-shot relation extraction methods converted the RE task to other NLP tasks and used off-the-shelf models of these NLP tasks to directly perform inference on the test data without using a large amount of RE annotation data. A potentially valuable by-product of these methods is the large-scale silver standard data. However, there is no further investigation on the use of potentially valuable silver standard data. In this paper, we propose to first detect a small amount of clean data from silver standard data and then use the selected clean data to finetune the pretrained model. We then use the finetuned model to infer relation types. We also propose a class-aware clean data detection module to consider class information when selecting clean data. The experimental results show that our method can outperform the baseline by 12% and 11% on TACRED and Wiki80 dataset in the zero-shot RE task. By using extra silver standard data of different distributions, the performance can be further improved.
翻訳日:2022-11-28 16:08:01 公開日:2022-11-25
# 長期4次元アグリロボットデータセットの収集と評価

Collection and Evaluation of a Long-Term 4D Agri-Robotic Dataset ( http://arxiv.org/abs/2211.14013v1 )

ライセンス: Link先を確認
Riccardo Polvara, Sergi Molina Mellado, Ibrahim Hroob, Grzegorz Cielniak and Marc Hanheide(参考訳) 長期的な自律性は、ロボットに最も要求される能力の1つだ。 再現性と堅牢性を高い基準で提供し、長い時間軸上で同じタスクを何度も実行する可能性は非常に魅力的である。 長期的な自律性は、精密農業のためのロボットシステムの導入において重要な役割を担っている。 このスコープを念頭に置いて,複数カ月間にわたるデータ収集のための自律移動ロボットの長期展開に向けた取り組みを報告した。 主な目的は、マッピングやローカライゼーションタスクにおける環境変化の影響を分析するために、同じエリアから異なる時点のデータを収集することである。 本稿では,4つのデータセッションを用いたマップベースのローカライズ研究について述べる。 本研究は, 環境の現況と視覚的に異なる場合の予測障害を特定し, 長期間の4次元局所化結果を改善するために, 安定した時間的特徴を抽出する手法であるLTS-Netを期待する。

Long-term autonomy is one of the most demanded capabilities looked into a robot. The possibility to perform the same task over and over on a long temporal horizon, offering a high standard of reproducibility and robustness, is appealing. Long-term autonomy can play a crucial role in the adoption of robotics systems for precision agriculture, for example in assisting humans in monitoring and harvesting crops in a large orchard. With this scope in mind, we report an ongoing effort in the long-term deployment of an autonomous mobile robot in a vineyard for data collection across multiple months. The main aim is to collect data from the same area at different points in time so to be able to analyse the impact of the environmental changes in the mapping and localisation tasks. In this work, we present a map-based localisation study taking 4 data sessions. We identify expected failures when the pre-built map visually differs from the environment's current appearance and we anticipate LTS-Net, a solution pointed at extracting stable temporal features for improving long-term 4D localisation results.
翻訳日:2022-11-28 16:01:58 公開日:2022-11-25
# CAD2Render: 製造用GPUアクセラレーション光合成データ生成用モジュールツールキット

CAD2Render: A Modular Toolkit for GPU-accelerated Photorealistic Synthetic Data Generation for the Manufacturing Industry ( http://arxiv.org/abs/2211.14054v1 )

ライセンス: Link先を確認
Steven Moonen and Bram Vanherle and Joris de Hoog and Taoufik Bourgana and Abdellatif Bey-Temsamani and Nick Michiels(参考訳) 製造業界では、製品や組立品質管理におけるコンピュータビジョンの利用が普及しつつある。 近年、機械学習ベースのソリューションは、性能と堅牢性の観点から、古典的なコンピュータビジョンアルゴリズムよりも優れています。 しかし、大きな欠点は、十分に大きくラベル付けされたトレーニングデータセットを必要とすることだ。 これは特に低体積・高分散製造に当てはまる。 幸いなことに、この業界では、製造または組み立てされた製品のCADモデルが利用可能である。 本稿では,unity high definition render pipeline(hdrp)に基づくgpuアクセラレーション合成データジェネレータcad2renderについて述べる。 CAD2Renderはモジュラー方式でバリエーションを追加するように設計されており、工業用ユースケースのニーズに合わせて高度にカスタマイズ可能なデータ生成を可能にする。 CAD2Renderは製造用途に特化して設計されているが、他のドメインでも使用することができる。 CAD2Renderは,2つの産業関連設備で技術性能を実証することで検証する。 提案手法により生成されたデータは,ロボットの指示に十分な精度で物体検出と推定モデルを訓練するために利用できることを示す。 CAD2Renderのコードはhttps://github.com/EDM-Research/CAD2Renderで公開されている。

The use of computer vision for product and assembly quality control is becoming ubiquitous in the manufacturing industry. Lately, it is apparent that machine learning based solutions are outperforming classical computer vision algorithms in terms of performance and robustness. However, a main drawback is that they require sufficiently large and labeled training datasets, which are often not available or too tedious and too time consuming to acquire. This is especially true for low-volume and high-variance manufacturing. Fortunately, in this industry, CAD models of the manufactured or assembled products are available. This paper introduces CAD2Render, a GPU-accelerated synthetic data generator based on the Unity High Definition Render Pipeline (HDRP). CAD2Render is designed to add variations in a modular fashion, making it possible for high customizable data generation, tailored to the needs of the industrial use case at hand. Although CAD2Render is specifically designed for manufacturing use cases, it can be used for other domains as well. We validate CAD2Render by demonstrating state of the art performance in two industrial relevant setups. We demonstrate that the data generated by our approach can be used to train object detection and pose estimation models with a high enough accuracy to direct a robot. The code for CAD2Render is available at https://github.com/EDM-Research/CAD2Render.
翻訳日:2022-11-28 16:01:41 公開日:2022-11-25
# comprintを用いた画像偽造検出のためのトレーニングデータ改善

Training Data Improvement for Image Forgery Detection using Comprint ( http://arxiv.org/abs/2211.14079v1 )

ライセンス: Link先を確認
Hannes Mareen, Dante Vanden Bussche, Glenn Van Wallendael, Luisa Verdoliva, and Peter Lambert(参考訳) 操作された画像は、偽情報を拡散するのに使用される世界の消費者にとって脅威である。 従ってcomprintはjpeg圧縮指紋を利用して偽造検出を可能にする。 本稿では,トレーニングセットがComprintのパフォーマンスに与える影響を評価する。 最も興味深いことに、トレーニング中に低品質で圧縮された画像は精度に大きな影響を与えないのに対し、再圧縮を組み込むことで堅牢性が向上することがわかった。 そのため、消費者はスマートフォンでcomprintを使って画像の本物性を検証することができる。

Manipulated images are a threat to consumers worldwide, when they are used to spread disinformation. Therefore, Comprint enables forgery detection by utilizing JPEG-compression fingerprints. This paper evaluates the impact of the training set on Comprint's performance. Most interestingly, we found that including images compressed with low quality factors during training does not have a significant effect on the accuracy, whereas incorporating recompression boosts the robustness. As such, consumers can use Comprint on their smartphones to verify the authenticity of images.
翻訳日:2022-11-28 16:01:24 公開日:2022-11-25
# インスタンスセグメンテーションを用いた思春期特発性側頭症に対する cobb 角度計測の自動化

Automating Cobb Angle Measurement for Adolescent Idiopathic Scoliosis using Instance Segmentation ( http://arxiv.org/abs/2211.14122v1 )

ライセンス: Link先を確認
Chaojun Chen, Khashayar Namdar, Yujie Wu, Shahob Hosseinpour, Manohar Shroff, Andrea S. Doria, Farzad Khalvati(参考訳) スコリシス(scoliosis)は、小児期に診断される脊椎の3次元変形である。 人口の2-3%が影響しており、北米の人口は約700万人である。 現在、スコリオーシスの基準基準基準は、曲率中心の場所におけるコブ角度の手動割り当てに基づいている。 この手動のプロセスは時間を要するため、サーバ間の分散やサーバ内分散の影響を受けない。 これらの不正確な問題を克服するために、機械学習(ML)手法を使用してコブ角測定プロセスを自動化する。 本稿では,YOLACT(インスタンスセグメンテーションモデル)を用いたコブ角計測タスクを提案する。 提案手法はまず,YOLACTを用いてX線画像に椎骨を分割し,最小境界ボックスアプローチを用いて重要なランドマークを追跡する。 最後に、抽出したランドマークを用いて対応するコブ角を算出する。 このモデルは10.76%の対称平均絶対パーセンテージ(smape)スコアを達成し、椎骨の局在と cobb 角度の測定の両方においてこのプロセスの信頼性を示した。

Scoliosis is a three-dimensional deformity of the spine, most often diagnosed in childhood. It affects 2-3% of the population, which is approximately seven million people in North America. Currently, the reference standard for assessing scoliosis is based on the manual assignment of Cobb angles at the site of the curvature center. This manual process is time consuming and unreliable as it is affected by inter- and intra-observer variance. To overcome these inaccuracies, machine learning (ML) methods can be used to automate the Cobb angle measurement process. This paper proposes to address the Cobb angle measurement task using YOLACT, an instance segmentation model. The proposed method first segments the vertebrae in an X-Ray image using YOLACT, then it tracks the important landmarks using the minimum bounding box approach. Lastly, the extracted landmarks are used to calculate the corresponding Cobb angles. The model achieved a Symmetric Mean Absolute Percentage Error (SMAPE) score of 10.76%, demonstrating the reliability of this process in both vertebra localization and Cobb angle measurement.
翻訳日:2022-11-28 16:01:15 公開日:2022-11-25
# SpaText: 制御可能な画像生成のための空間テキスト表現

SpaText: Spatio-Textual Representation for Controllable Image Generation ( http://arxiv.org/abs/2211.14305v1 )

ライセンス: Link先を確認
Omri Avrahami, Thomas Hayes, Oran Gafni, Sonal Gupta, Yaniv Taigman, Devi Parikh, Dani Lischinski, Ohad Fried, Xi Yin(参考訳) 最近のテキスト・画像拡散モデルでは、前例のない品質の説得力のある結果が得られる。 しかし、異なる領域やオブジェクトの形状やレイアウトをきめ細かな方法で制御することはほぼ不可能である。 このようなコントロールを提供する以前の試みは、固定されたラベルに依存することで妨げられた。 そこで本稿では,open-vocabulary scene controlを用いたテキスト対画像生成手法であるspatextを提案する。 シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザは、各関心領域が自由形式の自然言語記述によって注釈付けされたセグメンテーションマップを提供する。 画像内の各領域に詳細なテキスト記述を有する大規模データセットの欠如により,現在の大規模テキストから画像へのデータセットを活用し,新たなクリップベースの時空間表現のアプローチを基礎として,ピクセルベースと潜在型モデルという2つの最先端拡散モデルの有効性を示す。 さらに,拡散モデルにおける分類器フリー誘導法を多条件ケースに拡張する方法を示し,別の高速化推論アルゴリズムを提案する。 最後に,fidスコアとユーザスタディに加えて,いくつかの自動評価指標を提供し,その手法を評価し,自由形式のテクストシーン制御による画像生成において最先端の結果が得られることを示す。

Recent text-to-image diffusion models are able to generate convincing results of unprecedented quality. However, it is nearly impossible to control the shapes of different regions/objects or their layout in a fine-grained fashion. Previous attempts to provide such controls were hindered by their reliance on a fixed set of labels. To this end, we present SpaText - a new method for text-to-image generation using open-vocabulary scene control. In addition to a global text prompt that describes the entire scene, the user provides a segmentation map where each region of interest is annotated by a free-form natural language description. Due to lack of large-scale datasets that have a detailed textual description for each region in the image, we choose to leverage the current large-scale text-to-image datasets and base our approach on a novel CLIP-based spatio-textual representation, and show its effectiveness on two state-of-the-art diffusion models: pixel-based and latent-based. In addition, we show how to extend the classifier-free guidance method in diffusion models to the multi-conditional case and present an alternative accelerated inference algorithm. Finally, we offer several automatic evaluation metrics and use them, in addition to FID scores and a user study, to evaluate our method and show that it achieves state-of-the-art results on image generation with free-form textual scene control.
翻訳日:2022-11-28 16:00:58 公開日:2022-11-25
# RUST:未提示画像からの潜在神経シーン表現

RUST: Latent Neural Scene Representations from Unposed Imagery ( http://arxiv.org/abs/2211.14306v1 )

ライセンス: Link先を確認
Mehdi S. M. Sajjadi, Aravindh Mahendran, Thomas Kipf, Etienne Pot, Daniel Duckworth, Mario Lucic, Klaus Greff(参考訳) 2次元の観察から3dシーンの構造を推測することは、コンピュータビジョンにおける根本的な課題である。 近年,ニューラルシーン表現に基づくアプローチが広く普及し,様々なアプリケーションに適用されている。 この領域で残っている大きな課題の1つは、1つのシーンを超えて効果的に一般化する潜在表現を提供する単一のモデルを訓練することである。 SRT(Scene Representation Transformer)はこの方向を約束しているが、より広い範囲の多様なシーンにスケールすることは困難であり、正確な地上真実データを必要とする。 この問題に対処するために,RGB画像だけで訓練された新規ビュー合成のためのポーズレスアプローチであるRUST(Really Unposed Scene representation Transformer)を提案する。 我々の主な洞察は、ターゲット画像を覗き見し、デコーダがビュー合成に使用する潜伏ポーズの埋め込みを学習するPose Encoderを訓練できるということです。 我々は,学習された潜在ポーズ構造について経験的調査を行い,有意義なテスト時間カメラ変換と正確なポーズ読み出しを可能にすることを示す。 おそらく意外なことに、RUSTは完璧なカメラポーズにアクセスできる方法と同じような品質を実現し、それによって、償却されたニューラルシーン表現の大規模トレーニングの可能性を解き放ちます。

Inferring the structure of 3D scenes from 2D observations is a fundamental challenge in computer vision. Recently popularized approaches based on neural scene representations have achieved tremendous impact and have been applied across a variety of applications. One of the major remaining challenges in this space is training a single model which can provide latent representations which effectively generalize beyond a single scene. Scene Representation Transformer (SRT) has shown promise in this direction, but scaling it to a larger set of diverse scenes is challenging and necessitates accurately posed ground truth data. To address this problem, we propose RUST (Really Unposed Scene representation Transformer), a pose-free approach to novel view synthesis trained on RGB images alone. Our main insight is that one can train a Pose Encoder that peeks at the target image and learns a latent pose embedding which is used by the decoder for view synthesis. We perform an empirical investigation into the learned latent pose structure and show that it allows meaningful test-time camera transformations and accurate explicit pose readouts. Perhaps surprisingly, RUST achieves similar quality as methods which have access to perfect camera pose, thereby unlocking the potential for large-scale training of amortized neural scene representations.
翻訳日:2022-11-28 16:00:35 公開日:2022-11-25
# 決定推定係数を用いたモデル自由強化学習に関する一考察

A Note on Model-Free Reinforcement Learning with the Decision-Estimation Coefficient ( http://arxiv.org/abs/2211.14250v1 )

ライセンス: Link先を確認
Dylan J. Foster and Noah Golowich and Jian Qian and Alexander Rakhlin and Ayush Sekhari(参考訳) 一般化関数近似を用いた強化学習と構造化帯域を含む対話型意思決定の課題について考察する。 最近、Foster et al. (2021) は、対話的な意思決定において最適の後悔を低く抑える統計的複雑さの尺度である決定推定係数(Decision-Estimation Coefficient)を導入し、同じ量で上界を達成するメタアルゴリズム、推定対決定を導入した。 推定と決定は縮小であり、オンライン推定(教師あり)のアルゴリズムを意思決定のアルゴリズムに引き上げる。 本稿では,zhang (2022) が導入した特殊形の楽観的推定と推定・決定を組み合わせることで,より寛大な推定誤差の概念を取り入れることで,foster et al. (2021) のそれを改善する保証を得ることができることを示す。 この手法を用いて,値関数近似を用いたモデルフリー強化学習における後悔境界の導出を行う。

We consider the problem of interactive decision making, encompassing structured bandits and reinforcement learning with general function approximation. Recently, Foster et al. (2021) introduced the Decision-Estimation Coefficient, a measure of statistical complexity that lower bounds the optimal regret for interactive decision making, as well as a meta-algorithm, Estimation-to-Decisions, which achieves upper bounds in terms of the same quantity. Estimation-to-Decisions is a reduction, which lifts algorithms for (supervised) online estimation into algorithms for decision making. In this note, we show that by combining Estimation-to-Decisions with a specialized form of optimistic estimation introduced by Zhang (2022), it is possible to obtain guarantees that improve upon those of Foster et al. (2021) by accommodating more lenient notions of estimation error. We use this approach to derive regret bounds for model-free reinforcement learning with value function approximation.
翻訳日:2022-11-28 15:59:52 公開日:2022-11-25
# vaeの暗黙的等尺性を利用したアニーリングプロセスによる自己学習モンテカルロ

Toward Unlimited Self-Learning Monte Carlo with Annealing Process Using VAE's Implicit Isometricity ( http://arxiv.org/abs/2211.14024v1 )

ライセンス: Link先を確認
Yuma Ichikawa, Akira Nakagawa, Hiromoto Masayuki, Yuhei Umeda(参考訳) 自己学習モンテカルロ (slmc) 法は, 機械学習モデルを用いてマルコフ連鎖モンテカルロ (mcmc) 法を高速化するために最近提案されている。 しかし、SLMC法は、訓練データが得られにくいマルチモーダル分布に直接適用することは困難である。 本稿では,アプリケーションの範囲を大きく広げるために,'annealing VAE-SLMC'と呼ばれる新しいSLMC手法を提案する。 我々のVAE-SLMCは、可変オートエンコーダ(VAE)を生成モデルとして利用し、VAEの理論的に導出された暗黙的等尺性を適用して、任意の先行状態に依存しない効率的な並列提案を行う。 VAE-SLMCとアダプティブアニール処理を併用することにより,非バイアストレーニングデータ取得が困難である場合に適用できる。 また,並列アニーリングプロセスとチェーン間の交換プロセスを提案し,アニーリング操作をより正確かつ効率的なものにする。 実験により,マルチモーダル玩具分布と実用的マルチモーダル後方分布から不偏サンプルを巧みに得ることができ,既存のslmc法では達成が困難であることを確認した。

Self-learning Monte Carlo (SLMC) methods are recently proposed to accelerate Markov chain Monte Carlo (MCMC) methods by using a machine learning model.With generative models having latent variables, SLMC methods realize efficient Monte Carlo updates with less autocorrelation. However, SLMC methods are difficult to directly apply to multimodal distributions for which training data are difficult to obtain. In this paper, we propose a novel SLMC method called the ``annealing VAE-SLMC" to drastically expand the range of applications. Our VAE-SLMC utilizes a variational autoencoder (VAE) as a generative model to make efficient parallel proposals independent of any previous state by applying the theoretically derived implicit isometricity of the VAE. We combine an adaptive annealing process to the VAE-SLMC, making our method applicable to the cases where obtaining unbiased training data is difficult in practical sense due to slow mixing. We also propose a parallel annealing process and an exchange process between chains to make the annealing operation more precise and efficient. Experiments validate that our method can proficiently obtain unbiased samples from multiple multimodal toy distributions and practical multimodal posterior distributions, which is difficult to achieve with the existing SLMC methods.
翻訳日:2022-11-28 15:54:49 公開日:2022-11-25
# 振る舞いの悪い学習曲線の調査:または、データが増えてパフォーマンスが向上しないか

A Survey of Learning Curves with Bad Behavior: or How More Data Need Not Lead to Better Performance ( http://arxiv.org/abs/2211.14061v1 )

ライセンス: Link先を確認
Marco Loog and Tom Viering(参考訳) 学習者の一般化性能をトレーニングセットサイズと比較すると、いわゆる学習曲線が得られる。 このツールは、学習者の行動に関する洞察を提供するものであり、モデル選択、より多くのトレーニングデータの効果の予測、トレーニングの計算複雑性の低減にも有用である。 そこで我々は,学習曲線の概念を(理想的に)正確にし,上記の曲線の使用法を簡潔に議論した。 しかし、この調査の焦点の大きい部分は学習曲線であり、より多くのデータが必ずしも一般化性能の向上につながるとは限らないことを示している。 人工知能の分野で多くの研究者にとって驚くべき結果だ。 本研究は,本研究の意義を指摘し,今後の理論的・実証的調査を前提とした,この分野におけるオープン問題の概観と議論で結論づける。

Plotting a learner's generalization performance against the training set size results in a so-called learning curve. This tool, providing insight in the behavior of the learner, is also practically valuable for model selection, predicting the effect of more training data, and reducing the computational complexity of training. We set out to make the (ideal) learning curve concept precise and briefly discuss the aforementioned usages of such curves. The larger part of this survey's focus, however, is on learning curves that show that more data does not necessarily leads to better generalization performance. A result that seems surprising to many researchers in the field of artificial intelligence. We point out the significance of these findings and conclude our survey with an overview and discussion of open problems in this area that warrant further theoretical and empirical investigation.
翻訳日:2022-11-28 15:54:23 公開日:2022-11-25
# Bypass指数時間前処理:重み相関前処理による高速ニューラルネットワークトレーニング

Bypass Exponential Time Preprocessing: Fast Neural Network Training via Weight-Data Correlation Preprocessing ( http://arxiv.org/abs/2211.14227v1 )

ライセンス: Link先を確認
Josh Alman, Jiehao Liang, Zhao Song, Ruizhe Zhang, Danyang Zhuo(参考訳) 過去10年間で、ディープニューラルネットワークは私たちの社会を変え、すでにさまざまな機械学習アプリケーションに広く適用されています。 最先端のディープニューラルネットワークは、モデル精度の向上を実現するために、毎年大きくなってきており、その結果、モデルトレーニングは大量のコンピューティングリソースを消費し、将来的にはより多くのリソースを消費するようになる。 現在のトレーニングメソッドを使って、各イテレーションでデータポイント$x \in \mathbb{R}^d$をレイヤーで処理するには、レイヤ内のすべての$m$ニューロンを評価するために、$\Theta(md)$時間を使う必要があります。 これは、層全体の処理が$n$のデータポイントに対して$\theta(nmd)$の時間を要することを意味する。 最近の作業(Song, Yang and Zhang, NeurIPS 2021)では、このイテレーション毎の時間を$o(nmd)$に削減していますが、データかニューラルネットワークの重みを前処理するのに指数関数的な時間が必要です。 本研究では,各反復でどのニューロンが発火するかを迅速かつ動的に検出するために,ツリーデータ構造に重みデータ相関を簡易に格納する前処理手法を提案する。 我々の方法は前処理で$O(nmd)$時間しか必要とせず、イテレーション毎に$o(nmd)$時間を達成する。 我々は新しいアルゴリズムを低境界で補完し、複雑性理論から一般的な予想を仮定すると、発火ニューロンを動的に検出するアルゴリズムを実質的に高速化することができないことを証明した。

Over the last decade, deep neural networks have transformed our society, and they are already widely applied in various machine learning applications. State-of-art deep neural networks are becoming larger in size every year to deliver increasing model accuracy, and as a result, model training consumes substantial computing resources and will only consume more in the future. Using current training methods, in each iteration, to process a data point $x \in \mathbb{R}^d$ in a layer, we need to spend $\Theta(md)$ time to evaluate all the $m$ neurons in the layer. This means processing the entire layer takes $\Theta(nmd)$ time for $n$ data points. Recent work [Song, Yang and Zhang, NeurIPS 2021] reduces this time per iteration to $o(nmd)$, but requires exponential time to preprocess either the data or the neural network weights, making it unlikely to have practical usage. In this work, we present a new preprocessing method that simply stores the weight-data correlation in a tree data structure in order to quickly, dynamically detect which neurons fire at each iteration. Our method requires only $O(nmd)$ time in preprocessing and still achieves $o(nmd)$ time per iteration. We complement our new algorithm with a lower bound, proving that assuming a popular conjecture from complexity theory, one could not substantially speed up our algorithm for dynamic detection of firing neurons.
翻訳日:2022-11-28 15:54:11 公開日:2022-11-25
# バイアス圧縮によるフェデレーション非凸最適化における誤差フィードバックの解析

Analysis of Error Feedback in Federated Non-Convex Optimization with Biased Compression ( http://arxiv.org/abs/2211.14292v1 )

ライセンス: Link先を確認
Xiaoyun Li and Ping Li(参考訳) 統合学習(FL)システムでは、例えば無線ネットワークでは、クライアントと中央サーバ間の通信コストがボトルネックとなることが多い。 コミュニケーションコストを削減するため、コミュニケーション圧縮のパラダイムは文学における一般的な戦略となっている。 本稿では,非凸FL問題における偏差勾配圧縮手法に着目する。 分散学習の古典的な設定では、誤差フィードバック法(EF)はバイアス勾配圧縮の欠点を緩和する一般的な手法である。 本研究では,Fed-EFと呼ばれる誤りフィードバックを備えた圧縮FL方式について検討する。 さらに、グローバルモデルオプティマイザの選択に応じて、Fed-EF-SGDとFed-EF-AMSの2つの変種を提案する。 我々は,flにバイアスド圧縮を直接適用することで,収束率の非バニッシブバイアスを生じさせる汎用的理論的解析法を提案する。 提案したFed-EFは、データ不均一性の下でのフル精度FLの収束率と線形スピードアップとを一致させることができる。 さらに, FL において重要なシナリオである部分的クライアント参加の下で, EF の新たな解析手法を開発する。 部分的な参加の下で、Fed-EFの収束率は、いわゆる ‘stale error compensation' 効果により、余分な緩やかな要因を示す。 部分的参加下でのFed-EFのノルム収束に対する安定化誤差蓄積の直感的影響を正当化するための数値的研究を行った。 最後に、Fed-EFに双方向圧縮を組み込むことで収束結果が変化しないことを示す。 まとめると、フェデレーション非凸最適化における誤差フィードバックの徹底的な解析を行う。 部分的なクライアント参加による分析は、エラーフィードバック機構の理論的制限や改善の可能な方向に関する洞察も提供する。

In federated learning (FL) systems, e.g., wireless networks, the communication cost between the clients and the central server can often be a bottleneck. To reduce the communication cost, the paradigm of communication compression has become a popular strategy in the literature. In this paper, we focus on biased gradient compression techniques in non-convex FL problems. In the classical setting of distributed learning, the method of error feedback (EF) is a common technique to remedy the downsides of biased gradient compression. In this work, we study a compressed FL scheme equipped with error feedback, named Fed-EF. We further propose two variants: Fed-EF-SGD and Fed-EF-AMS, depending on the choice of the global model optimizer. We provide a generic theoretical analysis, which shows that directly applying biased compression in FL leads to a non-vanishing bias in the convergence rate. The proposed Fed-EF is able to match the convergence rate of the full-precision FL counterparts under data heterogeneity with a linear speedup. Moreover, we develop a new analysis of the EF under partial client participation, which is an important scenario in FL. We prove that under partial participation, the convergence rate of Fed-EF exhibits an extra slow-down factor due to a so-called ``stale error compensation'' effect. A numerical study is conducted to justify the intuitive impact of stale error accumulation on the norm convergence of Fed-EF under partial participation. Finally, we also demonstrate that incorporating the two-way compression in Fed-EF does not change the convergence results. In summary, our work conducts a thorough analysis of the error feedback in federated non-convex optimization. Our analysis with partial client participation also provides insights on a theoretical limitation of the error feedback mechanism, and possible directions for improvements.
翻訳日:2022-11-28 15:53:42 公開日:2022-11-25
# 欧州のAI責任指令 -- ハーフハードアプローチの批判と今後の教訓

The European AI Liability Directives -- Critique of a Half-Hearted Approach and Lessons for the Future ( http://arxiv.org/abs/2211.13960v1 )

ライセンス: Link先を確認
Philipp Hacker(参考訳) aiシステムの最適責任フレームワークは、世界中で未解決の問題のままである。 欧州委員会は2022年9月に、新たなai責任指令と製品責任指令の改訂という2つの提案を前進させた。 それらは、EUにおけるAI規制の最終的かつ待望の基盤となっている。 重要なことに、責任提案とEUのAI法は本質的に相互運用されており、後者は被災者の個人的権利を一切含んでおらず、前者はAI開発と展開に関する特定の実質的な規則を欠いている。 総合すると、これらの行為は、米国や他の国に大きな影響を与えるai規制においてブリュッセル効果を引き起こす可能性がある。 この論文は3つの新しい貢献をする。 まず、欧州委員会の提案を詳細に検討し、正しい方向に進む一方で、最終的にはハーフハーフハーフのアプローチを表現している。もし前向きに制定されたら、EUにおけるAIの責任は、主に証拠メカニズムの開示と、欠陥、欠陥、因果関係に関する狭義の予測にかかっている。 第二に、この記事は修正を提案するが、これは論文の最後にAnnexで収集される。 第3に、AIがもたらす重要なリスクの分析に基づいて、最終部では、EU以降におけるAIの責任と規制の将来への道のりを図示している。 これには、AI責任のための包括的なフレームワーク、イノベーションをサポートするための条項、非差別/アルゴリズムフェアネスの拡張、説明可能なAI、持続可能性が含まれる。 我々は、AI法における持続可能性影響評価と、債務制度における持続可能な設計欠陥を通じて、持続可能なAI規制を飛躍的に開始することを提案する。 このようにして、この法律は公正なAIとXAIだけでなく、持続可能なAI(SAI)にも役立ちます。

The optimal liability framework for AI systems remains an unsolved problem across the globe. In a much-anticipated move, the European Commission advanced two proposals outlining the European approach to AI liability in September 2022: a novel AI Liability Directive and a revision of the Product Liability Directive. They constitute the final, and much-anticipated, cornerstone of AI regulation in the EU. Crucially, the liability proposals and the EU AI Act are inherently intertwined: the latter does not contain any individual rights of affected persons, and the former lack specific, substantive rules on AI development and deployment. Taken together, these acts may well trigger a Brussels effect in AI regulation, with significant consequences for the US and other countries. This paper makes three novel contributions. First, it examines in detail the Commission proposals and shows that, while making steps in the right direction, they ultimately represent a half-hearted approach: if enacted as foreseen, AI liability in the EU will primarily rest on disclosure of evidence mechanisms and a set of narrowly defined presumptions concerning fault, defectiveness and causality. Hence, second, the article suggests amendments, which are collected in an Annex at the end of the paper. Third, based on an analysis of the key risks AI poses, the final part of the paper maps out a road for the future of AI liability and regulation, in the EU and beyond. This includes: a comprehensive framework for AI liability; provisions to support innovation; an extension to non-discrimination/algorithmic fairness, as well as explainable AI; and sustainability. I propose to jump-start sustainable AI regulation via sustainability impact assessments in the AI Act and sustainable design defects in the liability regime. In this way, the law may help spur not only fair AI and XAI, but potentially also sustainable AI (SAI).
翻訳日:2022-11-28 15:43:08 公開日:2022-11-25
# Automata Cascades: 表現性とサンプル複雑度

Automata Cascades: Expressivity and Sample Complexity ( http://arxiv.org/abs/2211.14028v1 )

ライセンス: Link先を確認
Alessandro Ronca, Nadezda A. Knorozova, Giuseppe De Giacomo(参考訳) すべてのオートマトンは、基本的なオートマトンのカスケードに分解できる。 これはKrohnとRhodesによるPrime Decomposition Theoremである。 カスケードによって、automattaのサンプル複雑性をコンポーネントの観点から記述できることを示した。 特に,試料の複雑さは,成分数と単一成分の最大複雑性において線形であることを示す。 これは、互いに相互作用する多くの部分からなる大きな動的システムを表現するオートマトンを学習する可能性を開く。 これは、状態と入力文字の総数の観点から記述された、オートマタのサンプル複雑性の確立された理解とは対照的であり、結果として、利用可能なデータ量において状態と文字の数が線形であるようなオートマタを学習することしかできないことを意味する。 その代わり、我々の結果は、無限の入力アルファベットと利用可能なデータ量で指数関数的な多くの状態を持つオートマトンを原則として学習できることを示します。

Every automaton can be decomposed into a cascade of basic automata. This is the Prime Decomposition Theorem by Krohn and Rhodes. We show that cascades allow for describing the sample complexity of automata in terms of their components. In particular, we show that the sample complexity is linear in the number of components and the maximum complexity of a single component. This opens to the possibility for learning automata representing large dynamic systems consisting of many parts interacting with each other. It is in sharp contrast with the established understanding of the sample complexity of automata, described in terms of the overall number of states and input letters, which in turn implies that it is only possible to learn automata where the number of states and letters is linear in the amount of data available. Instead our results show that one can in principle learn automata with infinite input alphabets and a number of states that is exponential in the amount of data available.
翻訳日:2022-11-28 15:42:35 公開日:2022-11-25
# マルチモーダル情報を用いた分子共同表現学習

Molecular Joint Representation Learning via Multi-modal Information ( http://arxiv.org/abs/2211.14042v1 )

ライセンス: Link先を確認
Tianyu Wu, Yang Tang, Qiyu Sun, Luolin Xiong(参考訳) 近年、人工知能は、薬物発見のプロセス全体を加速する上で重要な役割を担っている。 異なるモーダル(例えば、テキストシーケンスやグラフ)の様々な分子表現スキームが開発されている。 それらをデジタル符号化することで、対応するネットワーク構造を通して異なる化学情報を学ぶことができる。 分子グラフと簡易分子入力線入力システム(smiles)は、現在の分子表現学習の一般的な手段である。 従来の作業では,各タスクの単一モーダル表現における特定の情報損失の問題を解決するために,両者を組み合わせて試みてきた。 このようなマルチモーダルインフォーメーションをさらに活用するには、異なる表現から学習された化学特性の対応を考える必要がある。 これを実現するために,SMILESとMMSGと呼ばれる分子グラフのマルチモーダル情報を用いた分子共同表現学習フレームワークを提案する。 マルチモーダル情報間の特徴対応を強化するために,Transformerのアテンションバイアスとして結合レベルグラフ表現を導入することにより,自己注意機構を改善する。 さらに,グラフから集約された情報フローを強化するために,双方向メッセージ通信グラフニューラルネットワーク(BMC GNN)を提案する。 公共財産予測データセットに関する多くの実験が,本モデルの有効性を実証した。

In recent years, artificial intelligence has played an important role on accelerating the whole process of drug discovery. Various of molecular representation schemes of different modals (e.g. textual sequence or graph) are developed. By digitally encoding them, different chemical information can be learned through corresponding network structures. Molecular graphs and Simplified Molecular Input Line Entry System (SMILES) are popular means for molecular representation learning in current. Previous works have done attempts by combining both of them to solve the problem of specific information loss in single-modal representation on various tasks. To further fusing such multi-modal imformation, the correspondence between learned chemical feature from different representation should be considered. To realize this, we propose a novel framework of molecular joint representation learning via Multi-Modal information of SMILES and molecular Graphs, called MMSG. We improve the self-attention mechanism by introducing bond level graph representation as attention bias in Transformer to reinforce feature correspondence between multi-modal information. We further propose a Bidirectional Message Communication Graph Neural Network (BMC GNN) to strengthen the information flow aggregated from graphs for further combination. Numerous experiments on public property prediction datasets have demonstrated the effectiveness of our model.
翻訳日:2022-11-28 15:42:20 公開日:2022-11-25
# 深層完全畳み込みニューラルネットワークの普遍近似特性について

On the Universal Approximation Property of Deep Fully Convolutional Neural Networks ( http://arxiv.org/abs/2211.14047v1 )

ライセンス: Link先を確認
Ting Lin, Zuowei Shen, Qianxiao Li(参考訳) 動的システムの観点からの深部完全畳み込みネットワークによるシフト不変あるいは同変関数の近似について検討する。 我々は, 深い残差完全畳み込みネットワークとその連続層ネットワークが, 一定のチャネル幅でこれらの対称関数の普遍近似を達成できることを証明した。 さらに、各層に少なくとも2つのチャネルを持ち、少なくとも2つの畳み込みカーネルサイズを持つ非残留変種でも同じことができることを示す。 さらに,チャネルが少ないネットワークやカーネルが少ないネットワークが普遍的な近似器にならないという意味では,これらの要件が必要であることを示す。

We study the approximation of shift-invariant or equivariant functions by deep fully convolutional networks from the dynamical systems perspective. We prove that deep residual fully convolutional networks and their continuous-layer counterpart can achieve universal approximation of these symmetric functions at constant channel width. Moreover, we show that the same can be achieved by non-residual variants with at least 2 channels in each layer and convolutional kernel size of at least 2. In addition, we show that these requirements are necessary, in the sense that networks with fewer channels or smaller kernels fail to be universal approximators.
翻訳日:2022-11-28 15:35:08 公開日:2022-11-25
# テンソルネットワークを用いた正のラベルなし学習

Positive unlabeled learning with tensor networks ( http://arxiv.org/abs/2211.14085v1 )

ライセンス: Link先を確認
Bojan \v{Z}unkovi\v{c}(参考訳) 正のラベルなし学習は正のラベルなしデータを持つ二項分類問題である。 医療やパーソナライズされた広告など、ネガティブなラベルが高価または不可能なドメインでは一般的である。 局所的に精製された状態テンソルネットワークを正のラベル付き学習問題に適用し、MNIST画像と15の分類/混合データセット上でモデルをテストする。 MNISTデータセットでは,非常に少ないラベル付き正のサンプルでも最先端の結果が得られる。 同様に、分類データセットの最先端性を大幅に改善する。 さらに,ラベルなしサンプルにおける異なるモデルの出力間の一致分画は,モデルの性能を示す良い指標であることを示す。 最後に,本手法は,単純な合成データセットを用いて,新たな正および負のインスタンスを生成することができる。

Positive unlabeled learning is a binary classification problem with positive and unlabeled data. It is common in domains where negative labels are costly or impossible to obtain, e.g., medicine and personalized advertising. We apply the locally purified state tensor network to the positive unlabeled learning problem and test our model on the MNIST image and 15 categorical/mixed datasets. On the MNIST dataset, we achieve state-of-the-art results even with very few labeled positive samples. Similarly, we significantly improve the state-of-the-art on categorical datasets. Further, we show that the agreement fraction between outputs of different models on unlabeled samples is a good indicator of the model's performance. Finally, our method can generate new positive and negative instances, which we demonstrate on simple synthetic datasets.
翻訳日:2022-11-28 15:34:59 公開日:2022-11-25
# CHIMLE:マルチモーダル条件画像合成のための条件階層型IMLE

CHIMLE: Conditional Hierarchical IMLE for Multimodal Conditional Image Synthesis ( http://arxiv.org/abs/2211.14286v1 )

ライセンス: Link先を確認
Shichong Peng, Alireza Moazeni, Ke Li(参考訳) 条件付き画像合成における永続的な課題は、入力画像毎に1つの出力画像のみが観察されているにもかかわらず、同じ入力画像から多様な出力画像を生成することである。 GANベースの手法はモード崩壊を起こしやすいため、多様性は低い。 これを回避するために、モード崩壊を根本的に克服できるImplicit Maximum Likelihood Estimation (IMLE)を利用する。 IMLEはGANと同じジェネレータを使用するが、異なる非敵対的な目的でトレーニングすることで、各観察画像が近傍に生成されたサンプルを持つことを保証する。 残念なことに、高忠実な画像を生成するには、従来のIMLEベースの手法では大量のサンプルを必要とするため、高価である。 本稿では,この制限を回避するための新しい手法を提案する。これは条件付き階層型IMLE (CHIMLE) をダブし,多数のサンプルを必要とすることなく高忠実度画像を生成する。 提案手法は,画像の忠実度やモードカバレッジの面で,従来の最善のimle,gan,拡散ベースの手法,すなわち1日毎,16倍の超解像度,画像のカラー化,画像圧縮の4つのタスクにおいて有意に優れていた。 本手法は,Fr'echet Inception Distance (FID)を従来のIMLE法と比較して平均36.9%,非IMLE法に比べて平均27.5%改善する。

A persistent challenge in conditional image synthesis has been to generate diverse output images from the same input image despite only one output image being observed per input image. GAN-based methods are prone to mode collapse, which leads to low diversity. To get around this, we leverage Implicit Maximum Likelihood Estimation (IMLE) which can overcome mode collapse fundamentally. IMLE uses the same generator as GANs but trains it with a different, non-adversarial objective which ensures each observed image has a generated sample nearby. Unfortunately, to generate high-fidelity images, prior IMLE-based methods require a large number of samples, which is expensive. In this paper, we propose a new method to get around this limitation, which we dub Conditional Hierarchical IMLE (CHIMLE), which can generate high-fidelity images without requiring many samples. We show CHIMLE significantly outperforms the prior best IMLE, GAN and diffusion-based methods in terms of image fidelity and mode coverage across four tasks, namely night-to-day, 16x single image super-resolution, image colourization and image decompression. Quantitatively, our method improves Fr\'echet Inception Distance (FID) by 36.9% on average compared to the prior best IMLE-based method, and by 27.5% on average compared to the best non-IMLE-based general-purpose methods.
翻訳日:2022-11-28 15:34:48 公開日:2022-11-25
# 予測行動と特徴的3次元ポーズ

Forecasting Actions and Characteristic 3D Poses ( http://arxiv.org/abs/2211.14309v1 )

ライセンス: Link先を確認
Christian Diller, Thomas Funkhouser, Angela Dai(参考訳) 本研究では,アクションラベルと3次元特徴ポーズ(3Dポーズ)を協調的に予測し,より長期的な人間の行動のモデル化を提案する。 従来の作業ではアクションと3Dポーズが別々に予測されているが,2つのタスクの性質が結合していることが観察され,一緒に予測される。 入力された2dビデオ観察から、これらのアクションを特徴付ける3dポーズと共に、将来のアクションシーケンスを共同で予測する。 複合アクションラベルと3dポーズアノテーションは複雑なアクションシーケンスの動画を取得するのが困難で費用がかかるため、既存の2つのアクションビデオデータセットからアクションラベルと2dポーズの監督をトレーニングし、3dの予測されたポーズを奨励する敵対的損失と組み合わされる。 共同動作の相補的性質と特徴的3次元ポーズ予測を実証し, 共同作業は各タスクを個々に比較し, より堅牢な長期シーケンス予測を可能にし, 行動予測と特徴的3次元ポーズに対する代替アプローチよりも優れていることを示す。

We propose to model longer-term future human behavior by jointly predicting action labels and 3D characteristic poses (3D poses representative of the associated actions). While previous work has considered action and 3D pose forecasting separately, we observe that the nature of the two tasks is coupled, and thus we predict them together. Starting from an input 2D video observation, we jointly predict a future sequence of actions along with 3D poses characterizing these actions. Since coupled action labels and 3D pose annotations are difficult and expensive to acquire for videos of complex action sequences, we train our approach with action labels and 2D pose supervision from two existing action video datasets, in tandem with an adversarial loss that encourages likely 3D predicted poses. Our experiments demonstrate the complementary nature of joint action and characteristic 3D pose prediction: our joint approach outperforms each task treated individually, enables robust longer-term sequence prediction, and outperforms alternative approaches to forecast actions and characteristic 3D poses.
翻訳日:2022-11-28 15:34:20 公開日:2022-11-25
# Re^2TAL: Reversible Temporal Action Localizationのためのプレトレーニングビデオバックボーンのリライト

Re^2TAL: Rewiring Pretrained Video Backbones for Reversible Temporal Action Localization ( http://arxiv.org/abs/2211.14053v1 )

ライセンス: Link先を確認
Chen Zhao, Shuming Liu, Karttikeya Mangalam, Bernard Ghanem(参考訳) 時間的行動定位(tal)は、様々な長さと複雑な内容の行動を予測するのに長い形式の推論を必要とする。 限られたGPUメモリを考えると、このような長ビデオ(ビデオから予測まで)でTALのエンドツーエンドをトレーニングすることは大きな課題である。 ほとんどのメソッドは、ローカライズ問題に最適化することなく、事前抽出された機能のみをトレーニングすることができ、その結果、ローカライズ性能が制限される。 本研究では,ビデオバックボーンを可逆性talにリワイヤリングする,新しいエンドツーエンド手法であるRe2TALを提案する。 Re2TALは可逆モジュールを備えたバックボーンを構築し、入力を出力から取り出すことができ、トレーニング中に大きな中間アクティベーションをメモリからクリアすることができる。 我々は,1種類の可逆モジュールを設計する代わりに,パラメータを変更することなく可逆モジュールへの残留接続を持つ任意のモジュールを変換するネットワークリワイリング機構を提案する。 これは、2つの利点を提供する: 1)既存のモデルや将来のモデル設計から、多種多様な可逆ネットワークを容易に得ることができ、2) 可逆モデルは、元の非可逆バージョンの事前訓練されたパラメータを再利用するため、はるかに少ないトレーニング労力を必要とする。 Re2TALの平均mAPは37.01%に達し、ActivityNet-v1.3では最新記録となり、THUMOS-14ではtIoU=0.5で64.9%となった。

Temporal action localization (TAL) requires long-form reasoning to predict actions of various lengths and complex content. Given limited GPU memory, training TAL end-to-end on such long-form videos (i.e., from videos to predictions) is a significant challenge. Most methods can only train on pre-extracted features without optimizing them for the localization problem, consequently limiting localization performance. In this work, to extend the potential in TAL networks, we propose a novel end-to-end method Re2TAL, which rewires pretrained video backbones for reversible TAL. Re2TAL builds a backbone with reversible modules, where the input can be recovered from the output such that the bulky intermediate activations can be cleared from memory during training. Instead of designing one single type of reversible module, we propose a network rewiring mechanism, to transform any module with a residual connection to a reversible module without changing any parameters. This provides two benefits: (1) a large variety of reversible networks are easily obtained from existing and even future model designs, and (2) the reversible models require much less training effort as they reuse the pre-trained parameters of their original non-reversible versions. Re2TAL reaches 37.01% average mAP, a new state-of-the-art record on ActivityNet-v1.3, and mAP 64.9% at tIoU=0.5 on THUMOS-14 without using optimal flow.
翻訳日:2022-11-28 15:33:50 公開日:2022-11-25
# Ladder Siamese Network:マルチレベル自己監督学習のための方法と指針

Ladder Siamese Network: a Method and Insights for Multi-level Self-Supervised Learning ( http://arxiv.org/abs/2211.13844v1 )

ライセンス: Link先を確認
Ryota Yoshihashi, Shuhei Nishimura, Dai Yonebayashi, Yuya Otsuka, Tomohiro Tanaka, Takashi Miyazaki(参考訳) siamese-network-based self-supervised learning (ssl)は、トレーニングの収束と不安定に苦しむ。 これを軽減するために,我々はLadder Siamese Networkと呼ばれるディープネットの各段階における中間的な自己スーパービジョンを利用するフレームワークを提案する。 自己教師付き損失は中間層を単一のサンプルに対する異なるデータ拡張と整合させることを奨励し、トレーニングの進行を促進し、中間層自体の識別能力を高める。 既存の作業ではSSLですでにマルチレベルな自己監視を活用していますが、その点では私たちの意見は違います。 1) 理論的, 実証的両面において, 非コントラスト的なシームズフレームワークの有用性を明らかにする。 2)画像レベルの分類,インスタンスレベル検出,ピクセルレベルのセグメンテーションを同時に改善する。 実験により,提案手法は,imagenet線形分類で1.0%,coco検出で1.2%,pascal vocセグメンテーションで3.1%,byolベースラインを1.0%改善できることがわかった。 最先端の手法と比較して,ラダーベースモデルは,すべてのテストベンチマークにおいて,大きな劣化を生じさせることなく,競争力とバランスの取れたパフォーマンスを実現する。

Siamese-network-based self-supervised learning (SSL) suffers from slow convergence and instability in training. To alleviate this, we propose a framework to exploit intermediate self-supervisions in each stage of deep nets, called the Ladder Siamese Network. Our self-supervised losses encourage the intermediate layers to be consistent with different data augmentations to single samples, which facilitates training progress and enhances the discriminative ability of the intermediate layers themselves. While some existing work has already utilized multi-level self supervisions in SSL, ours is different in that 1) we reveal its usefulness with non-contrastive Siamese frameworks in both theoretical and empirical viewpoints, and 2) ours improves image-level classification, instance-level detection, and pixel-level segmentation simultaneously. Experiments show that the proposed framework can improve BYOL baselines by 1.0% points in ImageNet linear classification, 1.2% points in COCO detection, and 3.1% points in PASCAL VOC segmentation. In comparison with the state-of-the-art methods, our Ladder-based model achieves competitive and balanced performances in all tested benchmarks without causing large degradation in one.
翻訳日:2022-11-28 15:24:35 公開日:2022-11-25
# ガイドイマジネーションによる小規模データセットの拡張

Expanding Small-Scale Datasets with Guided Imagination ( http://arxiv.org/abs/2211.13976v1 )

ライセンス: Link先を確認
Yifan Zhang, Daquan Zhou, Bryan Hooi, Kai Wang, Jiashi Feng(参考訳) ディープニューラルネットワーク(DNN)のパワーは、トレーニングデータ量、品質、多様性に大きく依存する。 しかし、多くの現実のシナリオでは、大規模データの収集と注釈付けは費用がかかり、時間がかかる。 これはDNNの適用を著しく妨げている。 この課題に対処するため、データセット拡張という新たなタスクを検討し、小さなデータセットを拡張するために、ラベル付きサンプルを自動生成する。 この目的のために、最近開発された大規模生成モデル(例えば、DALL-E2)と再構成モデル(例えば、MAE)を活用して、シードデータから情報的な新しいデータを作成し、小さなデータセットを拡張するガイドImagination Framework(GIF)を提案する。 具体的には、シードデータの潜在的な特徴を意味的に意味のある空間に最適化し、生成モデルに入力し、新たなコンテンツでフォトリアリスティックな画像を生成することで想像力を発揮する。 モデルトレーニングに有用なサンプルを作成するための想像力を導くために,CLIPのゼロショット認識能力を活用し,予測一貫性,エントロピー最大化,多様性向上の3つの基準を導入する。 これらの必須基準をガイダンスとして、gifは異なる領域のデータセットを拡張するのに適しており、6つの自然画像データセットの平均で29.9%、医療画像データセットで平均12.3%の精度向上をもたらす。

The power of Deep Neural Networks (DNNs) depends heavily on the training data quantity, quality and diversity. However, in many real scenarios, it is costly and time-consuming to collect and annotate large-scale data. This has severely hindered the application of DNNs. To address this challenge, we explore a new task of dataset expansion, which seeks to automatically create new labeled samples to expand a small dataset. To this end, we present a Guided Imagination Framework (GIF) that leverages the recently developed big generative models (e.g., DALL-E2) and reconstruction models (e.g., MAE) to "imagine" and create informative new data from seed data to expand small datasets. Specifically, GIF conducts imagination by optimizing the latent features of seed data in a semantically meaningful space, which are fed into the generative models to generate photo-realistic images with new contents. For guiding the imagination towards creating samples useful for model training, we exploit the zero-shot recognition ability of CLIP and introduce three criteria to encourage informative sample generation, i.e., prediction consistency, entropy maximization and diversity promotion. With these essential criteria as guidance, GIF works well for expanding datasets in different domains, leading to 29.9% accuracy gain on average over six natural image datasets, and 12.3% accuracy gain on average over three medical image datasets.
翻訳日:2022-11-28 15:24:14 公開日:2022-11-25
# TrustGAN: 生成的敵ネットワークによる安全で信頼性の高いディープラーニングモデルのトレーニング

TrustGAN: Training safe and trustworthy deep learning models through generative adversarial networks ( http://arxiv.org/abs/2211.13991v1 )

ライセンス: Link先を確認
H\'elion du Mas des Bourboux(参考訳) ディープラーニングモデルはさまざまなタスクのために開発されており、実環境で動作するために毎日デプロイされている。 これらのタスクのいくつかは重要であり、例えば軍事通信や癌診断など、モデルは信頼と安全が必要である。 これらのモデルには、実際のデータ、シミュレーションデータ、あるいは両者の組み合わせが与えられ、予測性が高いように訓練される。 しかし、十分な実際のデータを集めたり、実際のすべての条件をシミュレートしたりすることは、コストがかかり、機密性のため、場合によっては不可能である。 実際、現実の状況は常に変化しており、時には難解である。 解決策は、十分な自信が持てば、フラグを上げたり、あるいは放棄したりできるような、マシンラーニングモデルをデプロイすることです。 問題の一つは、標準モデルが、その予測が信頼できない分散サンプルを検出するのに簡単に失敗することである。 本稿では,信頼度をターゲットとした生成的敵ネットワークパイプラインであるTrustGANを紹介する。 予測能力に影響を与えることなく、信頼性のターゲットモデル推定を改善する深層学習パイプラインである。 パイプラインは、予測とこの予測に対する信頼を出力する任意のディープラーニングモデルを受け入れることができる。 さらに、パイプラインはこのターゲットモデルを変更する必要はない。 これにより、MLOps(Machine Learning Operations)設定で簡単にデプロイできる。 パイプラインは、MNISTデータに基づいて訓練されたターゲット分類モデルに適用され、画像に基づいて番号を認識する。 このようなモデルを標準的にトレーニングした場合とTrustGANと比較する。 FashionMNIST と CIFAR10 の分布外サンプルでは,推定信頼度が大きく低下している。 RML2016.04Cで試験されたAugModの1D無線信号に基づいて訓練された分類モデルについても同様の結論が得られた。 コードも公開しています。

Deep learning models have been developed for a variety of tasks and are deployed every day to work in real conditions. Some of these tasks are critical and models need to be trusted and safe, e.g. military communications or cancer diagnosis. These models are given real data, simulated data or combination of both and are trained to be highly predictive on them. However, gathering enough real data or simulating them to be representative of all the real conditions is: costly, sometimes impossible due to confidentiality and most of the time impossible. Indeed, real conditions are constantly changing and sometimes are intractable. A solution is to deploy machine learning models that are able to give predictions when they are confident enough otherwise raise a flag or abstain. One issue is that standard models easily fail at detecting out-of-distribution samples where their predictions are unreliable. We present here TrustGAN, a generative adversarial network pipeline targeting trustness. It is a deep learning pipeline which improves a target model estimation of the confidence without impacting its predictive power. The pipeline can accept any given deep learning model which outputs a prediction and a confidence on this prediction. Moreover, the pipeline does not need to modify this target model. It can thus be easily deployed in a MLOps (Machine Learning Operations) setting. The pipeline is applied here to a target classification model trained on MNIST data to recognise numbers based on images. We compare such a model when trained in the standard way and with TrustGAN. We show that on out-of-distribution samples, here FashionMNIST and CIFAR10, the estimated confidence is largely reduced. We observe similar conclusions for a classification model trained on 1D radio signals from AugMod, tested on RML2016.04C. We also publicly release the code.
翻訳日:2022-11-28 15:23:50 公開日:2022-11-25
# MorphPool: CNNにおける効率的な非線形プールとアンプール

MorphPool: Efficient Non-linear Pooling & Unpooling in CNNs ( http://arxiv.org/abs/2211.14037v1 )

ライセンス: Link先を確認
Rick Groenendijk, Leo Dorst, and Theo Gevers(参考訳) プーリングは本質的に数学的形態学の分野からの操作であり、マックスプーリングは限定的な特別な場合である。 MorphPoolingのより一般的な設定は、ニューラルネットワークを構築するためのツールセットを大幅に拡張する。 プール操作に加えて、ピクセルレベルの予測に使われるエンコーダデコーダネットワークもアンプールを必要とする。 アンプールとコンボリューションやデコンボリューションを組み合わせるのが一般的である。 しかし、その形態特性を用いることで、アンプール化を一般化し改善することができる。 2つのタスクと3つの大規模データセットに関する広範な実験により、形態的プーリングとアンプールによって、パラメータ数を大幅に削減した予測性能が向上することが示された。

Pooling is essentially an operation from the field of Mathematical Morphology, with max pooling as a limited special case. The more general setting of MorphPooling greatly extends the tool set for building neural networks. In addition to pooling operations, encoder-decoder networks used for pixel-level predictions also require unpooling. It is common to combine unpooling with convolution or deconvolution for up-sampling. However, using its morphological properties, unpooling can be generalised and improved. Extensive experimentation on two tasks and three large-scale datasets shows that morphological pooling and unpooling lead to improved predictive performance at much reduced parameter counts.
翻訳日:2022-11-28 15:23:22 公開日:2022-11-25
# プレコンディショニング機能勾配流を用いた粒子ベース変分推定

Particle-based Variational Inference with Preconditioned Functional Gradient Flow ( http://arxiv.org/abs/2211.13954v1 )

ライセンス: Link先を確認
Hanze Dong, Xi Wang, Yong Lin, Tong Zhang(参考訳) 粒子ベース変分推論 (VI) は, モデル試料と対象後部とのKL分散を勾配流の推定値で最小化する。 スタイン変分勾配降下(SVGD)の人気により、粒子ベースのVIアルゴリズムの焦点は、勾配流を近似するケルネルヒルベルト空間(RKHS)の関数の性質に向けられている。 しかし、RKHSの要求は関数クラスとアルゴリズムの柔軟性を制限する。 本稿では, トラクタブルな関数勾配流の推定値を得るための一般的な枠組みを提案する。 我々のフレームワークにおける関数勾配フローは、RKHSノルムを特別な場合として含む一般関数正規化項で定義することができる。 我々は,このフレームワークを用いて新しい粒子型viアルゴリズム,preconditioned functional gradient flow (pfg)を提案する。 svgdと比較すると,提案手法にはいくつかの利点がある。大きな関数クラス,大きな粒子サイズのシナリオにおける拡張性の向上,不条件分布への適応性の向上,kl分岐における連続時間収束性の実現。 ニューラルネットワークのような非線形関数クラスは勾配流を推定するために組み込むことができる。 理論と実験の両方が我々の枠組みの有効性を示している。

Particle-based variational inference (VI) minimizes the KL divergence between model samples and the target posterior with gradient flow estimates. With the popularity of Stein variational gradient descent (SVGD), the focus of particle-based VI algorithms has been on the properties of functions in Reproducing Kernel Hilbert Space (RKHS) to approximate the gradient flow. However, the requirement of RKHS restricts the function class and algorithmic flexibility. This paper remedies the problem by proposing a general framework to obtain tractable functional gradient flow estimates. The functional gradient flow in our framework can be defined by a general functional regularization term that includes the RKHS norm as a special case. We use our framework to propose a new particle-based VI algorithm: preconditioned functional gradient flow (PFG). Compared with SVGD, the proposed method has several advantages: larger function class; greater scalability in large particle-size scenarios; better adaptation to ill-conditioned distributions; provable continuous-time convergence in KL divergence. Non-linear function classes such as neural networks can be incorporated to estimate the gradient flow. Both theory and experiments have shown the effectiveness of our framework.
翻訳日:2022-11-28 15:17:17 公開日:2022-11-25
# フレムレット生成マニフォールドから熱化学状態変数を推定するためのアンサンブルに基づくディープフレームワーク

An Ensemble-Based Deep Framework for Estimating Thermo-Chemical State Variables from Flamelet Generated Manifolds ( http://arxiv.org/abs/2211.14098v1 )

ライセンス: Link先を確認
Amol Salunkhe and Georgios Georgalis and Abani Patra and Varun Chandola(参考訳) 乱流燃焼の完全な計算には、反応の速度論を低次元多様体にマッピングし、CFD実行中にこの近似多様体を調べて熱化学状態変数を推定する2つのステップがある。 先行研究で我々は,2つのステップを個別に学習するために深層アーキテクチャを用いることで,ベンチマークと比較し,鍵状態変数である源エネルギーを73%高精度に推定できることを示し,dns乱流燃焼フレームワークに統合できることを示した。 自然の形では、そのような深層アーキテクチャは、源エネルギーと主要な種源用語である関心量の不確実性定量化を許さない。 本稿では,関心量の後方分布を近似する深層アンサンブルを導入することで,このようなアーキテクチャ,特にchemtabについて拡張する。 これらのアンサンブルモデルを作成するための2つの戦略について検討する。1つはフレイムレットの原点情報(フレイムレット戦略)を保持し、もう1つは原点を無視し、全てのデータを独立に考慮する(ポイント戦略)。 これらのモデルをトレーニングするために、53の化学種と325の反応からなるGRI-Mech 3.0メタン機構によって生成されたフレアレットデータを使用しました。 実験の結果, フラムレット戦略は, 関心量の絶対予測誤差の点で優れているが, アンサンブルの訓練に用いるフレームレットの種類に依存していることがわかった。 ポイントズ戦略は、フレイムレットタイプとは独立に、興味の量の変化を捉えるのに最適である。 全体として、ChemTab Deep Ensemblesは、これらの修正のないモデルと比較して、ソースエネルギーと主要な種源の項をより正確に表現することができると結論付けている。

Complete computation of turbulent combustion flow involves two separate steps: mapping reaction kinetics to low-dimensional manifolds and looking-up this approximate manifold during CFD run-time to estimate the thermo-chemical state variables. In our previous work, we showed that using a deep architecture to learn the two steps jointly, instead of separately, is 73% more accurate at estimating the source energy, a key state variable, compared to benchmarks and can be integrated within a DNS turbulent combustion framework. In their natural form, such deep architectures do not allow for uncertainty quantification of the quantities of interest: the source energy and key species source terms. In this paper, we expand on such architectures, specifically ChemTab, by introducing deep ensembles to approximate the posterior distribution of the quantities of interest. We investigate two strategies of creating these ensemble models: one that keeps the flamelet origin information (Flamelets strategy) and one that ignores the origin and considers all the data independently (Points strategy). To train these models we used flamelet data generated by the GRI--Mech 3.0 methane mechanism, which consists of 53 chemical species and 325 reactions. Our results demonstrate that the Flamelets strategy is superior in terms of the absolute prediction error for the quantities of interest, but is reliant on the types of flamelets used to train the ensemble. The Points strategy is best at capturing the variability of the quantities of interest, independent of the flamelet types. We conclude that, overall, ChemTab Deep Ensembles allows for a more accurate representation of the source energy and key species source terms, compared to the model without these modifications.
翻訳日:2022-11-28 15:16:57 公開日:2022-11-25
# 逆可解性とセキュリティ : フェデレーション学習への応用

Inverse Solvability and Security with Applications to Federated Learning ( http://arxiv.org/abs/2211.14115v1 )

ライセンス: Link先を確認
Tomasz Piotrowski, Matthias Frey, Renato L.G. Cavalcante, Rafail Ismailov(参考訳) 本稿では,一般線形フォワードモデルにおける逆可解性と安全性の概念を紹介し,連体学習で用いられるモデルに適用する方法を示す。 本稿では,本論文で定義した逆可解性とセキュリティが異なるようなモデルの例を示す。 また,フェデレート学習の繰り返しに参加する多数のユーザが,解答可能性とセキュリティを高めるためにどのように活用できるかを示す。 最後に、非線形ケースを含む提示概念の拡張について論じる。

We introduce the concepts of inverse solvability and security for a generic linear forward model and demonstrate how they can be applied to models used in federated learning. We provide examples of such models which differ in the resulting inverse solvability and security as defined in this paper. We also show how the large number of users participating in a given iteration of federated learning can be leveraged to increase both solvability and security. Finally, we discuss possible extensions of the presented concepts including the nonlinear case.
翻訳日:2022-11-28 15:16:27 公開日:2022-11-25
# 因子モデルにおける二重強近傍

Doubly robust nearest neighbors in factor models ( http://arxiv.org/abs/2211.14297v1 )

ライセンス: Link先を確認
Raaz Dwivedi, Katherine Tian, Sabina Tomkins, Predrag Klasnja, Susan Murphy, Devavrat Shah(参考訳) 本稿では,複数のユニットが複数の時点に複数の処理を割り当てるパネルデータ設定において,各ユニットが一定の確率でサンプリングされた非事実的推論のための改良型を提案する。 我々はこの推定器を2倍に頑健な近接推定器と呼び、各単位に対応する平均パラメータにバインドされた高い確率の非漸近誤差を与える。 私たちの保証は、二重ロバストな推定器は、これらの設定のために事前の作業で分析された近隣の推定器と比較して、エラーの(ほぼ)クアドドラティックな改善を提供することを示している。

In this technical note, we introduce an improved variant of nearest neighbors for counterfactual inference in panel data settings where multiple units are assigned multiple treatments over multiple time points, each sampled with constant probabilities. We call this estimator a doubly robust nearest neighbor estimator and provide a high probability non-asymptotic error bound for the mean parameter corresponding to each unit at each time. Our guarantee shows that the doubly robust estimator provides a (near-)quadratic improvement in the error compared to nearest neighbor estimators analyzed in prior work for these settings.
翻訳日:2022-11-28 15:16:20 公開日:2022-11-25
# インテリジェントサンプリングと二重損失を用いたCSPプラントの吸収管破壊の検出

Detecting broken Absorber Tubes in CSP plants using intelligent sampling and dual loss ( http://arxiv.org/abs/2211.14077v1 )

ライセンス: Link先を確認
Miguel Angel P\'erez-Cuti\~no and Juan Sebasti\'an Valverde and Jos\'e Miguel D\'iaz-B\'a\~nez(参考訳) 集中太陽発電(csp)は、化石燃料から再生可能エネルギーへの転換を主導する成長中の技術の1つだ。 システムの高度化とサイズは、信頼性、可用性、保守性、安全性を確保するためのメンテナンスタスクの増加を必要とする。 現在、パラボリック・トラフ・コレクターシステムによるCSPプラントの自動故障検出は2つの主な欠点を証明している。 1)使用中の装置は、受信管の近くに手動で設置する必要がある。 2)機械学習ベースのソリューションは実工場ではテストされない。 我々は、抽出されたデータと無人航空機の使用、および7つの実工場に設置されたセンサーによって提供されるデータを組み合わせることで、両方のギャップに対処する。 得られたデータセットはこの種の最初のもので、この種のプラントにおける障害検出問題の研究活動を標準化するのに役立ちます。 本研究は,CSPプラントにおける吸収管の破片検出のための教師付き機械学習アルゴリズムを提案する。 提案手法は, クラス不均衡問題を考慮に入れ, モデル全体の性能を損なうことなく, マイノリティクラスのアルゴリズムの精度を高める。 ディープリシダルネットワークでは,F1スコアに悪影響を及ぼすことなく,マイノリティークラスのリコールを5%増加させる不均衡とバランスの問題を同時に解決する。 さらに、ランダムアンダーサンプリング技術は、f1-scoreで最大の増加 (3%) を持つアルゴリズムを分類するヒストグラム勾配強調アルゴリズムとして、従来の機械学習モデルの性能を高める。 我々の知る限りでは,本論文は,プラントのデータを用いて,この問題の自動解法を初めて提供するものである。

Concentrated solar power (CSP) is one of the growing technologies that is leading the process of changing from fossil fuels to renewable energies. The sophistication and size of the systems require an increase in maintenance tasks to ensure reliability, availability, maintainability and safety. Currently, automatic fault detection in CSP plants using Parabolic Trough Collector systems evidences two main drawbacks: 1) the devices in use needs to be manually placed near the receiver tube, 2) the Machine Learning-based solutions are not tested in real plants. We address both gaps by combining the data extracted with the use of an Unmaned Aerial Vehicle, and the data provided by sensors placed within 7 real plants. The resulting dataset is the first one of this type and can help to standardize research activities for the problem of fault detection in this type of plants. Our work proposes supervised machine-learning algorithms for detecting broken envelopes of the absorber tubes in CSP plants. The proposed solution takes the class imbalance problem into account, boosting the accuracy of the algorithms for the minority class without harming the overall performance of the models. For a Deep Residual Network, we solve an imbalance and a balance problem at the same time, which increases by 5% the Recall of the minority class with no harm to the F1-score. Additionally, the Random Under Sampling technique boost the performance of traditional Machine Learning models, being the Histogram Gradient Boost Classifier the algorithm with the highest increase (3%) in the F1-Score. To the best of our knowledge, this paper is the first providing an automated solution to this problem using data from operating plants.
翻訳日:2022-11-28 15:06:40 公開日:2022-11-25
# 深部RNNの普遍性のための最小幅

Minimal Width for Universal Property of Deep RNN ( http://arxiv.org/abs/2211.13866v1 )

ライセンス: Link先を確認
Chang hoon Song, Geonho Hwang, Jun ho Lee, Myungjoo Kang(参考訳) リカレントニューラルネットワーク(RNN)は、シーケンシャルデータを扱うために広く使われているディープラーニングネットワークである。 力学系をイミットすると、無限幅 RNN はコンパクト領域内の任意の開力学系を近似することができる。 一般に、境界幅の深いネットワークは、実際には広帯域ネットワークよりも効果的であるが、深い狭義構造に対する普遍近似定理はまだ広く研究されていない。 本研究では,細密なrnnの普遍性を証明し,普遍性に対する最小幅の上限がデータの長さに依存しないことを示す。 具体的には、ReLU を活性化した深い RNN が、それぞれ$d_x+d_y+2$ と $\max\{d_x+1,d_y\}$ の幅を持つ任意の連続関数や$L^p$ 関数を近似できることを示し、ターゲット関数は $\mathbb{R}^{d_x}$ のベクトルの有限列を $\mathbb{R}^{d_y}$ のベクトルの有限列にマッピングする。 また、アクティベーション関数が$\tanh$以上の場合に必要な追加の幅を計算する。 さらに、双方向RNNなどの他のリカレントネットワークの普遍性を証明する。 多層パーセプトロンとRNNを組み合わせることで、我々の理論と証明技術は深層RNNのさらなる研究に向けた最初のステップとなる。

A recurrent neural network (RNN) is a widely used deep-learning network for dealing with sequential data. Imitating a dynamical system, an infinite-width RNN can approximate any open dynamical system in a compact domain. In general, deep networks with bounded widths are more effective than wide networks in practice; however, the universal approximation theorem for deep narrow structures has yet to be extensively studied. In this study, we prove the universality of deep narrow RNNs and show that the upper bound of the minimum width for universality can be independent of the length of the data. Specifically, we show that a deep RNN with ReLU activation can approximate any continuous function or $L^p$ function with the widths $d_x+d_y+2$ and $\max\{d_x+1,d_y\}$, respectively, where the target function maps a finite sequence of vectors in $\mathbb{R}^{d_x}$ to a finite sequence of vectors in $\mathbb{R}^{d_y}$. We also compute the additional width required if the activation function is $\tanh$ or more. In addition, we prove the universality of other recurrent networks, such as bidirectional RNNs. Bridging a multi-layer perceptron and an RNN, our theory and proof technique can be an initial step toward further research on deep RNNs.
翻訳日:2022-11-28 15:05:46 公開日:2022-11-25
# WSSL: イメージインペインティングのための軽量な自己教師型学習フレームワーク

WSSL: Weighted Self-supervised Learning Framework For Image-inpainting ( http://arxiv.org/abs/2211.13856v1 )

ライセンス: Link先を確認
Shubham Gupta, Rahul Kunigal Ravishankar, Madhoolika Gangaraju, Poojasree Dwarkanath and Natarajan Subramanyam(参考訳) 画像の塗装は、画像の失われた部分を再生する過程である。 改良されたアルゴリズムベースの手法は優れた結果を示したが、2つの大きな欠点がある。 見えないデータでテストしても、うまく機能しない。 画像のグローバルなコンテキストをキャプチャできないため、視覚的に見当たらない結果になる。 本稿では,これらの問題に対処するために,新たな自己教師型学習フレームワークであるWeighted Self-Supervised Learning (WSSL)を提案する。 複数の重み付けされたプレテキストタスクから機能を学ぶためにWSSLを設計しました。 これらの機能はダウンストリームタスク、イメージインペインティングに利用されます。 また,このフレームワークの性能を向上し,より視覚的に魅力的な画像を生成するため,画像インパインティングのための新たな損失関数を提案する。 損失関数は、再構成損失と知覚損失関数の両方を利用して画像を再生する。 我々の実験では、WSSLは従来の手法よりも優れており、損失関数はより良い結果をもたらす。

Image inpainting is the process of regenerating lost parts of the image. Supervised algorithm-based methods have shown excellent results but have two significant drawbacks. They do not perform well when tested with unseen data. They fail to capture the global context of the image, resulting in a visually unappealing result. We propose a novel self-supervised learning framework for image-inpainting: Weighted Self-Supervised Learning (WSSL) to tackle these problems. We designed WSSL to learn features from multiple weighted pretext tasks. These features are then utilized for the downstream task, image-inpainting. To improve the performance of our framework and produce more visually appealing images, we also present a novel loss function for image inpainting. The loss function takes advantage of both reconstruction loss and perceptual loss functions to regenerate the image. Our experimentation shows WSSL outperforms previous methods, and our loss function helps produce better results.
翻訳日:2022-11-28 14:58:31 公開日:2022-11-25
# TAOTF:ディープニューラルネットワークにおける2段階ほぼ直交トレーニングフレームワーク

TAOTF: A Two-stage Approximately Orthogonal Training Framework in Deep Neural Networks ( http://arxiv.org/abs/2211.13902v1 )

ライセンス: Link先を確認
Taoyong Cui, Jianze Li, Yuhan Dong and Li Liu(参考訳) 硬度や軟度を含む直交性制約は、ディープニューラルネットワーク(dnn)モデルの重み行列、特に畳み込みニューラルネットワーク(cnn)と視覚トランスフォーマー(vit)を正規化し、モデルパラメータ冗長性を低減し、トレーニング安定性を向上させるために用いられてきた。 しかし、制約のあるモデルのノイズの多いデータに対する堅牢性は必ずしも満足できるとは限らない。 本研究では,この問題をノイズの多いデータシナリオで解くために,直交解空間と主タスク解空間とのトレードオフを見つけるための2段階ほぼ直交学習フレームワーク(TAOTF)を提案する。 最初の段階では, 偏極分解に基づく直交初期化(PDOI)と呼ばれる新しいアルゴリズムを提案し, 直交最適化の優れた初期化を求める。 第二段階では、他の既存手法とは異なり、DNNモデルのすべての層に対してソフト直交制約を適用する。 提案手法は自然画像と医用画像データセットの両方においてモデル非依存の枠組みを評価し,既存の手法よりも安定して優れた性能が得られることを示す。

The orthogonality constraints, including the hard and soft ones, have been used to normalize the weight matrices of Deep Neural Network (DNN) models, especially the Convolutional Neural Network (CNN) and Vision Transformer (ViT), to reduce model parameter redundancy and improve training stability. However, the robustness to noisy data of these models with constraints is not always satisfactory. In this work, we propose a novel two-stage approximately orthogonal training framework (TAOTF) to find a trade-off between the orthogonal solution space and the main task solution space to solve this problem in noisy data scenarios. In the first stage, we propose a novel algorithm called polar decomposition-based orthogonal initialization (PDOI) to find a good initialization for the orthogonal optimization. In the second stage, unlike other existing methods, we apply soft orthogonal constraints for all layers of DNN model. We evaluate the proposed model-agnostic framework both on the natural image and medical image datasets, which show that our method achieves stable and superior performances to existing methods.
翻訳日:2022-11-28 14:58:18 公開日:2022-11-25
# 物体検出データセットにおける雑音ラベル対策

Combating noisy labels in object detection datasets ( http://arxiv.org/abs/2211.13993v1 )

ライセンス: Link先を確認
Krystian Chachu{\l}a, Adam Popowicz, Jakub {\L}yskawa, Bart{\l}omiej Olber, Piotr Fr\k{a}tczak, Krystian Radlak(参考訳) ディープニューラルネットワークのためのトレーニングデータセットの品質は、結果のモデルの正確性に寄与する重要な要因である。 これはオブジェクト検出などの難しいタスクにおいてさらに重要である。 これらのデータセットのエラーに対処することは、過去には、一部のサンプルが不正確である、あるいはその信頼性を予測し、トレーニング中に適切な重み付けを割り当てていることを受け入れることに制限されていた。 本研究では,異なるアプローチを提案する。 最初に、自信ある学習アルゴリズムをオブジェクト検出タスクに拡張した。 元のトレーニングデータセットに誤ったラベルを見つけることに集中することで、ルートの誤った例を排除できる。 疑わしいバウンディングボックスは、データセット自体の品質を改善するために再アノテーションされるため、既に複雑なアーキテクチャを複雑にすることなく、より良いモデルに繋がる。 FPRが0.3未満の人工乱れ箱の99 %を効果的に指摘できる。 我々はこの手法を、よく知られたオブジェクト検出データセットを修正するための有望な経路とみなしている。

The quality of training datasets for deep neural networks is a key factor contributing to the accuracy of resulting models. This is even more important in difficult tasks such as object detection. Dealing with errors in these datasets was in the past limited to accepting that some fraction of examples is incorrect or predicting their confidence and assigning appropriate weights during training. In this work, we propose a different approach. For the first time, we extended the confident learning algorithm to the object detection task. By focusing on finding incorrect labels in the original training datasets, we can eliminate erroneous examples in their root. Suspicious bounding boxes can be re-annotated in order to improve the quality of the dataset itself, thus leading to better models without complicating their already complex architectures. We can effectively point out 99\% of artificially disturbed bounding boxes with FPR below 0.3. We see this method as a promising path to correcting well-known object detection datasets.
翻訳日:2022-11-28 14:57:58 公開日:2022-11-25
# PIP: 位置エンコード画像

PIP: Positional-encoding Image Prior ( http://arxiv.org/abs/2211.14298v1 )

ライセンス: Link先を確認
Nimrod Shabtay, Eli Schwartz and Raja Giryes(参考訳) 深部画像先行(dip)では、畳み込みニューラルネットワーク(cnn)を装着して、潜在空間を劣化した(例えばノイズの多い)画像にマッピングするが、その過程でクリーン画像の再構築を学習する。 この現象はCNNの内部イメージ優先によるものである。 我々は、神経の暗黙的な表現の観点から、ディップフレームワークを再検討する。 この観点から、ランダムもしくは学習済みの潜伏語をフーリエ・フィーチャース (Positional Encoding) に置き換える。 本稿では,Fourierの機能特性により,単純なピクセルレベルのMPPで畳み込み層を置き換えることができることを示す。 我々は、このスキームを ``positional encoding image prior" (pip) と命名し、パラメータの少ない様々な画像再構成タスクのディップと非常によく似た性能を示す。 さらに,PIPは3D-DIPが苦労して不安定なビデオに容易に拡張できることを示した。 ビデオを含むすべてのタスクのコードと追加の例は、プロジェクトページhttps://nimrodshabtay.github.io/pip/で見ることができる。

In Deep Image Prior (DIP), a Convolutional Neural Network (CNN) is fitted to map a latent space to a degraded (e.g. noisy) image but in the process learns to reconstruct the clean image. This phenomenon is attributed to CNN's internal image-prior. We revisit the DIP framework, examining it from the perspective of a neural implicit representation. Motivated by this perspective, we replace the random or learned latent with Fourier-Features (Positional Encoding). We show that thanks to the Fourier features properties, we can replace the convolution layers with simple pixel-level MLPs. We name this scheme ``Positional Encoding Image Prior" (PIP) and exhibit that it performs very similarly to DIP on various image-reconstruction tasks with much less parameters required. Additionally, we demonstrate that PIP can be easily extended to videos, where 3D-DIP struggles and suffers from instability. Code and additional examples for all tasks, including videos, are available on the project page https://nimrodshabtay.github.io/PIP/
翻訳日:2022-11-28 14:57:44 公開日:2022-11-25
# 能力認識ニューラルマシン翻訳:機械翻訳は自身の翻訳品質を知ることができるか?

Competency-Aware Neural Machine Translation: Can Machine Translation Know its Own Translation Quality? ( http://arxiv.org/abs/2211.13865v1 )

ライセンス: Link先を確認
Pei Zhang, Baosong Yang, Haoran Wei, Dayiheng Liu, Kai Fan, Luo Si and Jun Xie(参考訳) ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。 能力意識の欠如はNMTを信頼できないものにしている。 これは、人間の翻訳者が予測に疑念を抱くたびにフィードバックやさらなる調査を行うのとは対照的である。 このギャップを埋めるために、従来のNMTを自己推定器で拡張し、ソース文を翻訳し、その能力を評価する能力を提供することにより、新しい能力認識NMTを提案する。 自己推定子は復号処理の情報を符号化し、原文の本来の意味を再構築できるかどうかを調べる。 4つの翻訳タスクにおける実験結果から,提案手法は翻訳タスクを無傷で実行するだけでなく,品質推定に優れた性能をもたらすことが示された。 最先端の計量法や品質評価法で通常必要とされる参照データや注釈データに頼らず、上記のBLEURT, COMET, BERTScoreなどの様々な手法よりも、人間の品質判断とさらに高い相関性が得られる。 定量的および定性的な分析は、我々のモデルにおける能力意識の堅牢性を示す。

Neural machine translation (NMT) is often criticized for failures that happen without awareness. The lack of competency awareness makes NMT untrustworthy. This is in sharp contrast to human translators who give feedback or conduct further investigations whenever they are in doubt about predictions. To fill this gap, we propose a novel competency-aware NMT by extending conventional NMT with a self-estimator, offering abilities to translate a source sentence and estimate its competency. The self-estimator encodes the information of the decoding procedure and then examines whether it can reconstruct the original semantics of the source sentence. Experimental results on four translation tasks demonstrate that the proposed method not only carries out translation tasks intact but also delivers outstanding performance on quality estimation. Without depending on any reference or annotated data typically required by state-of-the-art metric and quality estimation methods, our model yields an even higher correlation with human quality judgments than a variety of aforementioned methods, such as BLEURT, COMET, and BERTScore. Quantitative and qualitative analyses show better robustness of competency awareness in our model.
翻訳日:2022-11-28 14:50:37 公開日:2022-11-25
# TRAC:アクションと変更の推論のためのテキストベンチマーク

TRAC: A Textual Benchmark for Reasoning about Actions and Change ( http://arxiv.org/abs/2211.13930v1 )

ライセンス: Link先を確認
Weinan He, Canming Huang, Zhanhao Xiao, Yongmei Liu(参考訳) 行動と変化(RAC)に関する推論は、絶えず変化する環境を理解し、相互作用するために不可欠である。 これまでのAI研究は、行動の基本的で必須の知識、すなわち前提条件と効果の重要性を示してきた。 しかし、伝統的な手法は論理的な形式化に依存し、実用的応用を妨げる。 近年のトランスフォーマーベース言語モデル(LM)では、テキストよりも推論が望ましいため、LMがRAC問題を解決するために効果的に学習できるかどうかという疑問が持ち上がっている。 総合的なテキストベンチマークとして4つの重要なRACタスクを提案し、RACにフォーカスする他の言語的要求(例えば接地)の影響を最小限に抑える方法で問題を生成する。 その結果得られたベンチマークTRACは、様々な複雑さの問題を包含し、RACに必要な構造一般化能力を正確にターゲットとして、LMのよりきめ細かい評価を促進する。 3つの高性能トランスを用いた実験は、TRACがもたらした課題に対処するために追加の努力が必要であることを示している。

Reasoning about actions and change (RAC) is essential to understand and interact with the ever-changing environment. Previous AI research has shown the importance of fundamental and indispensable knowledge of actions, i.e., preconditions and effects. However, traditional methods rely on logical formalization which hinders practical applications. With recent transformer-based language models (LMs), reasoning over text is desirable and seemingly feasible, leading to the question of whether LMs can effectively and efficiently learn to solve RAC problems. We propose four essential RAC tasks as a comprehensive textual benchmark and generate problems in a way that minimizes the influence of other linguistic requirements (e.g., grounding) to focus on RAC. The resulting benchmark, TRAC, encompassing problems of various complexities, facilitates a more granular evaluation of LMs, precisely targeting the structural generalization ability much needed for RAC. Experiments with three high-performing transformers indicates that additional efforts are needed to tackle challenges raised by TRAC.
翻訳日:2022-11-28 14:50:17 公開日:2022-11-25
# エピジェネティックブロッキングが動的多目的最適化問題に及ぼす影響

The Effect of Epigenetic Blocking on Dynamic Multi-Objective Optimisation Problems ( http://arxiv.org/abs/2211.14222v1 )

ライセンス: Link先を確認
Sizhe Yuen, Thomas H.G. Ezard, Adam J. Sobey(参考訳) 何百もの進化的計算手法が報告されている。 進化論の観点からは、群知能の文化的継承と進化的アルゴリズムの遺伝的継承の2つの基本的なメカニズムに焦点を当てている。 現代の進化生物学は遺伝学を超越し、いわゆる「拡張進化合成」を提唱している。 拡張進化合成からの多くの概念は、同じ一般的な機構の特定の実装へと興味が移りつつあるため、進化的計算から遠ざかっている。 そのような概念の1つはエピジェネティックな継承であり、進化的思考の中心と考えられている。 エピジェネティックなメカニズムは、環境変化に素早く非あるいは部分的に適応できる。 動的多目的最適化問題は、フィットネスが複数の目的(取引)によって決定され、環境が常に変化している自然界と同じような状況を表す。 本稿では、自然界におけるエピジェネティック継承の利点が動的多目的最適化問題において複製されるかどうかを問う。 具体的には、最先端の多目的遺伝アルゴリズムMOEA/D-DEにエピジェネティック・ブロッキング機構を適用し、その性能をFDA、JY、UDFの3種類の動的テスト関数で比較する。 このメカニズムは16の試験のうち12の問題を改善し、さらに多くのアルゴリズムが自然界で見られるエピジェネティックなメカニズムを探索すべきであることを示す。

Hundreds of Evolutionary Computation approaches have been reported. From an evolutionary perspective they focus on two fundamental mechanisms: cultural inheritance in Swarm Intelligence and genetic inheritance in Evolutionary Algorithms. Contemporary evolutionary biology looks beyond genetic inheritance, proposing a so-called ``Extended Evolutionary Synthesis''. Many concepts from the Extended Evolutionary Synthesis have been left out of Evolutionary Computation as interest has moved toward specific implementations of the same general mechanisms. One such concept is epigenetic inheritance, which is increasingly considered central to evolutionary thinking. Epigenetic mechanisms allow quick non- or partially-genetic adaptations to environmental changes. Dynamic multi-objective optimisation problems represent similar circumstances to the natural world where fitness can be determined by multiple objectives (traits), and the environment is constantly changing. This paper asks if the advantages that epigenetic inheritance provide in the natural world are replicated in dynamic multi-objective optimisation problems. Specifically, an epigenetic blocking mechanism is applied to a state-of-the-art multi-objective genetic algorithm, MOEA/D-DE, and its performance is compared on three sets of dynamic test functions, FDA, JY, and UDF. The mechanism shows improved performance on 12 of the 16 test problems, providing initial evidence that more algorithms should explore the wealth of epigenetic mechanisms seen in the natural world.
翻訳日:2022-11-28 14:41:38 公開日:2022-11-25
# Operator Splitting Value Iteration

Operator Splitting Value Iteration ( http://arxiv.org/abs/2211.13937v1 )

ライセンス: Link先を確認
Amin Rakhsha, Andrew Wang, Mohammad Ghavamzadeh, Amir-massoud Farahmand(参考訳) 本稿では, 環境の近似モデルを用いて値関数の収束を高速化する, 割引MDPのための新しい計画と強化学習アルゴリズムを提案する。 数値線形代数における分割アプローチに着想を得て,政策評価と制御問題の両方に対して演算子分割値反復 (os-vi) を導入する。 os-viはモデルが十分正確であれば、より高速に収束する。 また、OS-Dynaと呼ばれるアルゴリズムのサンプルベースのバージョンも導入する。 従来のDynaアーキテクチャとは異なり、OS-Dynaはモデル近似誤差の存在下でも正しい値関数に収束する。

We introduce new planning and reinforcement learning algorithms for discounted MDPs that utilize an approximate model of the environment to accelerate the convergence of the value function. Inspired by the splitting approach in numerical linear algebra, we introduce Operator Splitting Value Iteration (OS-VI) for both Policy Evaluation and Control problems. OS-VI achieves a much faster convergence rate when the model is accurate enough. We also introduce a sample-based version of the algorithm called OS-Dyna. Unlike the traditional Dyna architecture, OS-Dyna still converges to the correct value function in presence of model approximation error.
翻訳日:2022-11-28 14:41:17 公開日:2022-11-25
# 統一表現と行動蒸留による形態素過程の一般化システム

A System for Morphology-Task Generalization via Unified Representation and Behavior Distillation ( http://arxiv.org/abs/2211.14296v1 )

ライセンス: Link先を確認
Hiroki Furuta, Yusuke Iwasawa, Yutaka Matsuo, Shixiang Shane Gu(参考訳) 自然言語や視覚における汎用的な大規模モデルの台頭により、データ駆動型アプローチが、連続制御などの他の領域におけるより広範な一般化を実現することが期待できる。 本研究では,多量の習熟行動データを蒸留することにより,各種エージェントを操作し,様々な課題を解決する単一ポリシーを学習する方法について検討する。 そこで,本質的な3次元幾何学的関係を維持しつつ,複数のタスクと多様なエージェント形態の入力出力 (io) インタフェースを調整するために,観察,行動,目標/タスクを統一グラフ表現で扱う形態素タスクグラフを提案する。 また,mxt-bench を開発し,ハードウェアアクセラレーションシミュレータによる多種多様な形態・タスクの組み合わせの手続き的生成を支援する。 MxT-Bench上での効率的な表現とアーキテクチャ選択により、トランスフォーマーアーキテクチャと結合したモルフォロジー-タスクグラフ表現は、最近の離散トークン化を含む他のベースラインと比較してマルチタスク性能を改善し、下流マルチタスク模倣学習におけるゼロショット転送やサンプル効率の事前知識を提供する。 私たちの研究は、大規模に多様なオフラインデータセット、統一されたio表現、教師付き学習によるポリシー表現とアーキテクチャの選択を示唆しています。

The rise of generalist large-scale models in natural language and vision has made us expect that a massive data-driven approach could achieve broader generalization in other domains such as continuous control. In this work, we explore a method for learning a single policy that manipulates various forms of agents to solve various tasks by distilling a large amount of proficient behavioral data. In order to align input-output (IO) interface among multiple tasks and diverse agent morphologies while preserving essential 3D geometric relations, we introduce morphology-task graph, which treats observations, actions and goals/task in a unified graph representation. We also develop MxT-Bench for fast large-scale behavior generation, which supports procedural generation of diverse morphology-task combinations with a minimal blueprint and hardware-accelerated simulator. Through efficient representation and architecture selection on MxT-Bench, we find out that a morphology-task graph representation coupled with Transformer architecture improves the multi-task performances compared to other baselines including recent discrete tokenization, and provides better prior knowledge for zero-shot transfer or sample efficiency in downstream multi-task imitation learning. Our work suggests large diverse offline datasets, unified IO representation, and policy representation and architecture selection through supervised learning form a promising approach for studying and advancing morphology-task generalization.
翻訳日:2022-11-28 14:33:23 公開日:2022-11-25
# tpa-net: テキストから物理アニメーションへのデータセットの生成

TPA-Net: Generate A Dataset for Text to Physics-based Animation ( http://arxiv.org/abs/2211.13887v1 )

ライセンス: Link先を確認
Yuxing Qiu, Feng Gao, Minchen Li, Govind Thattai, Yin Yang, Chenfanfu Jiang(参考訳) 近年のVision-Language(V&L)共同研究は、様々なテキスト駆動タスクにおいて顕著な成果を上げている。 t2v(high-quality text-to-video)は、ミッションが不可能であると考えられてきたタスクで、最新の作品でかなり良い結果が得られることが証明された。 しかし、生成されたビデオは、多くの場合、システムが純粋にデータ駆動であり、物理法則に従わないため、望ましくないアーティファクトを持っている。 この問題に対処し、さらにT2Vを高レベルな物理リアリズムに推し進めるために、多数のマルチモーダル3Dテキスト・ビデオ・シミュレーション(T2V/S)データでギャップを狭める自律データ生成技術とデータセットを提案する。 データセットでは、固体と流体の両方に対する高分解能3次元物理シミュレーションと、物理現象のテキスト記述を提供する。 我々は最先端物理シミュレーション手法を利用する (i)増分ポテンシャル接触(ipc)及び (ii)弾性変形、材料破壊、衝突、乱流等を含む多様なシナリオをシミュレートするための材料点法(mpm) さらに、T2VやNeural Radiance Fields(NeRF)などのコミュニティのために、高品質なマルチビューレンダリングビデオが提供されている。 この作業は、完全に自動化されたText-to-Video/Simulation(T2V/S)に向けた最初のステップである。 実例とその後の作業はhttps://sites.google.com/view/tpa-netにある。

Recent breakthroughs in Vision-Language (V&L) joint research have achieved remarkable results in various text-driven tasks. High-quality Text-to-video (T2V), a task that has been long considered mission-impossible, was proven feasible with reasonably good results in latest works. However, the resulting videos often have undesired artifacts largely because the system is purely data-driven and agnostic to the physical laws. To tackle this issue and further push T2V towards high-level physical realism, we present an autonomous data generation technique and a dataset, which intend to narrow the gap with a large number of multi-modal, 3D Text-to-Video/Simulation (T2V/S) data. In the dataset, we provide high-resolution 3D physical simulations for both solids and fluids, along with textual descriptions of the physical phenomena. We take advantage of state-of-the-art physical simulation methods (i) Incremental Potential Contact (IPC) and (ii) Material Point Method (MPM) to simulate diverse scenarios, including elastic deformations, material fractures, collisions, turbulence, etc. Additionally, high-quality, multi-view rendering videos are supplied for the benefit of T2V, Neural Radiance Fields (NeRF), and other communities. This work is the first step towards fully automated Text-to-Video/Simulation (T2V/S). Live examples and subsequent work are at https://sites.google.com/view/tpa-net.
翻訳日:2022-11-28 14:32:53 公開日:2022-11-25
# Far3Det:Far-Field 3D検出に向けて

Far3Det: Towards Far-Field 3D Detection ( http://arxiv.org/abs/2211.13858v1 )

ライセンス: Link先を確認
Shubham Gupta, Jeet Kanjani, Mengtian Li, Francesco Ferroni, James Hays, Deva Ramanan, Shu Kong(参考訳) 対象物の遠方3d検出(far3det)を観察者から一定の距離(例えば$50m)以上で行うタスクに注目した。 Far3Detは高速で走行する自動運転車(AV)にとって特に重要であり、十分なブレーキ距離を確保するには遠距離障害物を検出する必要がある。 しかし、nuScenesのような現代のAVベンチマークは、特定の距離(50m)までの性能を評価するため、この問題を強調している。 遠方からの3dアノテーションを得るのが難しく、特に遠方からの物体に対してわずかなポイントリターンを生成するlidarセンサーでは困難である。 実際、遠方体(50m以上)の約50%がライダー点を含まないことが分かる。 第二に、現在の3D検出のメトリクスは、人間の視覚とステレオの相違の両方に対する耐性に反し、近距離および遠距離のオブジェクトに対して同じ許容しきい値を使用する"1-size-fits-all"という哲学を採用している。 どちらの要因もfar3detタスクの不完全な解析につながる。 例えば、従来の知恵では、高解像度のRGBセンサーは遠距離物体の3D検出に不可欠であるべきだが、Lidarベースの手法は、現在のベンチマークリーダーボードのRGBセンサーよりも高い順位にある。 far3detベンチマークへの第一歩として、nuscenesデータセットから注釈付きシーンを見つけ、注釈付き遠方検証セットを導出する手法を開発した。 また,far3detの評価プロトコルを提案し,far3detの各種3次元検出法について検討する。 その結果,高分解能RGBが遠距離場における3次元検出を改善するという,長年にわたる従来の知恵を確実に正当化した。 さらに,rgbおよびlidar検出器からの検知を,遠方界における最先端の3d検出器を著しく上回る非最大抑制法に基づいて,簡便かつ効果的な手法を提案する。

We focus on the task of far-field 3D detection (Far3Det) of objects beyond a certain distance from an observer, e.g., $>$50m. Far3Det is particularly important for autonomous vehicles (AVs) operating at highway speeds, which require detections of far-field obstacles to ensure sufficient braking distances. However, contemporary AV benchmarks such as nuScenes underemphasize this problem because they evaluate performance only up to a certain distance (50m). One reason is that obtaining far-field 3D annotations is difficult, particularly for lidar sensors that produce very few point returns for far-away objects. Indeed, we find that almost 50% of far-field objects (beyond 50m) contain zero lidar points. Secondly, current metrics for 3D detection employ a "one-size-fits-all" philosophy, using the same tolerance thresholds for near and far objects, inconsistent with tolerances for both human vision and stereo disparities. Both factors lead to an incomplete analysis of the Far3Det task. For example, while conventional wisdom tells us that high-resolution RGB sensors should be vital for 3D detection of far-away objects, lidar-based methods still rank higher compared to RGB counterparts on the current benchmark leaderboards. As a first step towards a Far3Det benchmark, we develop a method to find well-annotated scenes from the nuScenes dataset and derive a well-annotated far-field validation set. We also propose a Far3Det evaluation protocol and explore various 3D detection methods for Far3Det. Our result convincingly justifies the long-held conventional wisdom that high-resolution RGB improves 3D detection in the far-field. We further propose a simple yet effective method that fuses detections from RGB and lidar detectors based on non-maximum suppression, which remarkably outperforms state-of-the-art 3D detectors in the far-field.
翻訳日:2022-11-28 14:31:06 公開日:2022-11-25
# モダリティを欠くロバストな行動認識のための良い実践に向けて

Towards Good Practices for Missing Modality Robust Action Recognition ( http://arxiv.org/abs/2211.13916v1 )

ライセンス: Link先を確認
Sangmin Woo, Sumin Lee, Yeonju Park, Muhammad Adi Nugroho, Changick Kim(参考訳) 標準的なマルチモーダルモデルは、トレーニングと推論の段階で同じモダリティを使用する。 しかし、実際には、マルチモーダルモデルが動作する環境はそのような仮定を満たさないかもしれない。 したがって、推論の段階でモダリティが欠けている場合、パフォーマンスは劇的に劣化する。 モダリティの欠如に対して堅牢なモデルをどうやってトレーニングすればよいのか? 本稿では,マルチモーダルな行動認識のための優れたプラクティスのセットを求め,推論時にいくつかのモダリティが利用できない状況に特に関心を寄せる。 まず,トレーニング中(データ拡張など)にモデルを効果的に規則化する方法について検討する。 第二に、モダリティの欠如に対するロバスト性に関する融合法について検討し、トランスフォーマーベースの融合は、和や結合よりもモダリティの欠如に対してより良いロバスト性を示すことを示した。 第3に,モダリティ特徴をランダムにドロップすることでモダリティ予測符号の欠如を学習し,残りのモダリティ特徴で再構成を試みる,シンプルなモジュラーネットワークであるActionMAEを提案する。 これらの優れたプラクティスを結合することで、マルチモーダルなアクション認識だけでなく、モダリティの欠如に対して堅牢なモデルを構築します。 本モデルでは,複数のベンチマークの最先端性を達成し,モダリティを欠くシナリオにおいても競争性能を維持する。 コードはhttps://github.com/sangminwoo/ActionMAEで入手できる。

Standard multi-modal models assume the use of the same modalities in training and inference stages. However, in practice, the environment in which multi-modal models operate may not satisfy such assumption. As such, their performances degrade drastically if any modality is missing in the inference stage. We ask: how can we train a model that is robust to missing modalities? This paper seeks a set of good practices for multi-modal action recognition, with a particular interest in circumstances where some modalities are not available at an inference time. First, we study how to effectively regularize the model during training (e.g., data augmentation). Second, we investigate on fusion methods for robustness to missing modalities: we find that transformer-based fusion shows better robustness for missing modality than summation or concatenation. Third, we propose a simple modular network, ActionMAE, which learns missing modality predictive coding by randomly dropping modality features and tries to reconstruct them with the remaining modality features. Coupling these good practices, we build a model that is not only effective in multi-modal action recognition but also robust to modality missing. Our model achieves the state-of-the-arts on multiple benchmarks and maintains competitive performances even in missing modality scenarios. Codes are available at https://github.com/sangminwoo/ActionMAE.
翻訳日:2022-11-28 14:30:31 公開日:2022-11-25
# ドメイン一般化のためのクロスドメインアンサンブル蒸留

Cross-Domain Ensemble Distillation for Domain Generalization ( http://arxiv.org/abs/2211.14058v1 )

ライセンス: Link先を確認
Kyungmoon Lee, Sungyeon Kim, Suha Kwak(参考訳) ドメインの一般化は、目に見えないターゲットドメインに一般化するモデルを学習するタスクである。 本稿では,モデルが平坦な極小に収束することを奨励しながら,ドメイン不変な特徴を学習し,最近はドメイン一般化の十分条件となった,ドメイン一般化のための単純かつ効果的な方法であるクロスドメインアンサンブル蒸留法(xded)を提案する。 そこで本手法では,同一ラベルのトレーニングデータから,異なるドメインから出力ロジットのアンサンブルを生成し,そのアンサンブルとのミスマッチに対して各出力をペナルティ化する。 また,任意の対象領域であっても,モデルがスタイル一貫性のある予測を生成するように,特徴を標準化するデスティル化手法を提案する。 本手法は,クロスドメイン画像分類,パーソンリid,セマンティクスセグメンテーションの一般化能力を大幅に向上させる。 さらに,本手法で学習したモデルは,敵攻撃や画像の破損に対して堅牢であることを示す。

Domain generalization is the task of learning models that generalize to unseen target domains. We propose a simple yet effective method for domain generalization, named cross-domain ensemble distillation (XDED), that learns domain-invariant features while encouraging the model to converge to flat minima, which recently turned out to be a sufficient condition for domain generalization. To this end, our method generates an ensemble of the output logits from training data with the same label but from different domains and then penalizes each output for the mismatch with the ensemble. Also, we present a de-stylization technique that standardizes features to encourage the model to produce style-consistent predictions even in an arbitrary target domain. Our method greatly improves generalization capability in public benchmarks for cross-domain image classification, cross-dataset person re-ID, and cross-dataset semantic segmentation. Moreover, we show that models learned by our method are robust against adversarial attacks and image corruptions.
翻訳日:2022-11-28 14:30:10 公開日:2022-11-25
# ネットワーク支援空間進化を用いた辞書攻撃のための2次元および3次元マスターフェイスの生成

Generating 2D and 3D Master Faces for Dictionary Attacks with a Network-Assisted Latent Space Evolution ( http://arxiv.org/abs/2211.13964v1 )

ライセンス: Link先を確認
Tomer Friedlander, Ron Shmelkin, Lior Wolf(参考訳) マスターフェイス(master face)は、人口の比率が高い顔認証をパスする顔画像である。 これらの顔は、ユーザー情報にアクセスせずに、成功の可能性の高いユーザーを偽装するのに使うことができる。 2次元および3次元の顔検証モデルのために,スタイルガン顔生成器の潜在埋め込み空間における進化的アルゴリズムを用いて顔の最適化を行う。 2次元顔認証では,複数の進化戦略を比較し,適応度評価を加えることなく,有望なサンプルを探索するためのニューラルネットワークを用いた新しいアプローチを提案する。 その結果,6つの主顔認識システムにおいて,10個の主顔未満のLFWデータセットやRFWデータセットのアイデンティティをかなり網羅することが可能であることが判明した。 3Dでは,2次元スタイルGAN2ジェネレータを用いて顔を生成し,深部3次元顔再構成ネットワークを用いて3次元構造を予測する。 2つの異なる3D顔認証システムを採用すると、40%から50%のカバレッジが得られる。 さらに,2次元モデルと3次元モデルとを同時に組み合わせた2次元RGBと3次元マスターフェイスのペア生成を提案する。

A master face is a face image that passes face-based identity authentication for a high percentage of the population. These faces can be used to impersonate, with a high probability of success, any user, without having access to any user information. We optimize these faces for 2D and 3D face verification models, by using an evolutionary algorithm in the latent embedding space of the StyleGAN face generator. For 2D face verification, multiple evolutionary strategies are compared, and we propose a novel approach that employs a neural network to direct the search toward promising samples, without adding fitness evaluations. The results we present demonstrate that it is possible to obtain a considerable coverage of the identities in the LFW or RFW datasets with less than 10 master faces, for six leading deep face recognition systems. In 3D, we generate faces using the 2D StyleGAN2 generator and predict a 3D structure using a deep 3D face reconstruction network. When employing two different 3D face recognition systems, we are able to obtain a coverage of 40%-50%. Additionally, we present the generation of paired 2D RGB and 3D master faces, which simultaneously match 2D and 3D models with high impersonation rates.
翻訳日:2022-11-28 14:24:21 公開日:2022-11-25
# 同じ人を選ぶ:アルゴリズムのモノカルチャーは均質化につながるか?

Picking on the Same Person: Does Algorithmic Monoculture lead to Outcome Homogenization? ( http://arxiv.org/abs/2211.13972v1 )

ライセンス: Link先を確認
Rishi Bommasani, Kathleen A. Creel, Ananya Kumar, Dan Jurafsky, Percy Liang(参考訳) 機械学習のスコープが広がるにつれて、同じシステムやコンポーネントを共有するシステム(トレーニングデータなど)が複数の意思決定者によってデプロイされるという、アルゴリズムによるモノカルチャーの繰り返しテーマが観察される。 共有は明確な利点(例えばコストの償却)を提供するが、リスクはあるか? 我々は、特定の個人やグループがすべての意思決定者から負の結果を経験する程度という、そのようなリスク、結果の均質化を導入する。 同じ個人やグループが好ましくない結果のみを経験すれば、制度的な排除を制度化し、社会的階層を登録することができる。 アルゴリズムによるモノカルチャーと結果のホモジェナイゼーションを関連付けるため,意思決定者がトレーニングデータや特定のモデルなどのコンポーネントを共有すれば,より均一な結果が得られるという,コンポーネント共有仮説を提案する。 この仮説をアルゴリズムフェアネスベンチマークで検証し、トレーニングデータの共有が、グループレベルの効果を概して上回り、均質化を確実に悪化させることを示した。 さらに、ファンデーションモデルのAIにおける支配的なパラダイム、すなわち、無数の下流タスクに適応可能なモデルを考えると、モデルの共有はタスク間の結果を均質化するかどうかをテストする。 視覚と言語の設定の両方において、基礎モデルを適用するための特定の方法が結果の均質化の度合いに大きく影響することを発見した。 結果均質化のための哲学的分析と社会的な課題を、デプロイされた機械学習システムに影響を及ぼすことに着目して結論付ける。

As the scope of machine learning broadens, we observe a recurring theme of algorithmic monoculture: the same systems, or systems that share components (e.g. training data), are deployed by multiple decision-makers. While sharing offers clear advantages (e.g. amortizing costs), does it bear risks? We introduce and formalize one such risk, outcome homogenization: the extent to which particular individuals or groups experience negative outcomes from all decision-makers. If the same individuals or groups exclusively experience undesirable outcomes, this may institutionalize systemic exclusion and reinscribe social hierarchy. To relate algorithmic monoculture and outcome homogenization, we propose the component-sharing hypothesis: if decision-makers share components like training data or specific models, then they will produce more homogeneous outcomes. We test this hypothesis on algorithmic fairness benchmarks, demonstrating that sharing training data reliably exacerbates homogenization, with individual-level effects generally exceeding group-level effects. Further, given the dominant paradigm in AI of foundation models, i.e. models that can be adapted for myriad downstream tasks, we test whether model sharing homogenizes outcomes across tasks. We observe mixed results: we find that for both vision and language settings, the specific methods for adapting a foundation model significantly influence the degree of outcome homogenization. We conclude with philosophical analyses of and societal challenges for outcome homogenization, with an eye towards implications for deployed machine learning systems.
翻訳日:2022-11-28 14:24:01 公開日:2022-11-25
# ComCLIP: 学習不要なコンポジションイメージとテキストマッチング

ComCLIP: Training-Free Compositional Image and Text Matching ( http://arxiv.org/abs/2211.13854v1 )

ライセンス: Link先を確認
Kenan Jiang, Xuehai He, Ruize Xu, Xin Eric Wang(参考訳) Contrastive Language-Image Pretraining (CLIP) は、大規模でオープンな視覚概念をカバーする自然言語監督の全体的利用により、画像テキストマッチングに優れたゼロショット性能を示した。 しかし、CLIPをコンポジションイメージとテキストマッチングに適応させることは依然として困難であり、コンポジションワードの概念とビジュアルコンポーネントのモデル理解を必要とする、より困難なイメージとマッチングマスクである。 本稿では,ゼロショット画像とテキストマッチングにおける合成汎化の改善に向けて,その問題を因果的観点から検討する。 そこで本研究では,新しいCLIPモデル(ComCLIP)を提案する。 comclipは入力画像を被写体、オブジェクト、アクションサブイメージに分割し、クリップの視覚エンコーダとテキストエンコーダを合成し、合成テキストの埋め込みとサブイメージの埋め込みで進化するマッチングを実行する。 このように、ComCLIPは、事前訓練されたCLIPモデルによって導入された素早い相関を緩和し、画像とテキストマッチングを行う際の各エンティティの寄与を動的に評価することができる。 SVOとComVGの合成画像テキストマッチングとFlickr8Kの一般画像テキスト検索の実験により,CLIPのさらなる訓練や微調整を伴わずとも,CLIPのゼロショット推論能力を高めるプラグイン・アンド・プレイ法の有効性が示された。

Contrastive Language-Image Pretraining (CLIP) has demonstrated great zero-shot performance for image-text matching because of its holistic use of natural language supervision that covers large-scale, open-world visual concepts. However, it is still challenging to adapt CLIP to compositional image and text matching -- a more challenging image and matching mask requiring the model understanding of compositional word concepts and visual components. Towards better compositional generalization in zero-shot image and text matching, in this paper, we study the problem from a causal perspective: the erroneous semantics of individual entities are essentially confounders that cause the matching failure. Therefore, we propose a novel training-free compositional CLIP model (ComCLIP). ComCLIP disentangles input images into subjects, objects, and action sub-images and composes CLIP's vision encoder and text encoder to perform evolving matching over compositional text embedding and sub-image embeddings. In this way, ComCLIP can mitigate spurious correlations introduced by the pretrained CLIP models and dynamically assess the contribution of each entity when performing image and text matching. Experiments on compositional image-text matching on SVO and ComVG and general image-text retrieval on Flickr8K demonstrate the effectiveness of our plug-and-play method, which boosts the zero-shot inference ability of CLIP even without further training or fine-tuning of CLIP.
翻訳日:2022-11-28 14:23:08 公開日:2022-11-25
# プロセスと結果に基づくフィードバックによる計算語問題の解法

Solving math word problems with process- and outcome-based feedback ( http://arxiv.org/abs/2211.14275v1 )

ライセンス: Link先を確認
Jonathan Uesato, Nate Kushman, Ramana Kumar, Francis Song, Noah Siegel, Lisa Wang, Antonia Creswell, Geoffrey Irving, Irina Higgins(参考訳) 最近の研究は、言語モデルに推論ステップの生成を求めることで、多くの推論タスクのパフォーマンスが向上していることを示している。 プロンプトを超えて進むと、これはどのようにモデルを監視するべきかという疑問を提起する:最終結果を監督する結果ベースのアプローチ、あるいは推論プロセス自体を監督するプロセスベースのアプローチ? これらのアプローチの違いは、ファイナアンスエラーだけでなく、推論エラーにおいても当然期待できるが、これは検出が難しく、教育のような現実世界の多くのドメインで問題となる。 我々は、自然言語タスクであるGSM8Kで訓練されたプロセスベースと結果ベースのアプローチの包括的な比較を行う。 純粋な結果に基づく監視は、ラベルの監督を減らして、同様の最終回答エラー率を生成する。 しかし、正しい推論ステップのためには、プロセスベースのフィードバックをエミュレートした学習報酬モデルからプロセスベースの監視または監督を使用する必要がある。 16.8%の$\to$ 12.7%のファイナル・アンサー・エラー14.0%の$\to$ 3.4%の推論・エラーまで改善した。

Recent work has shown that asking language models to generate reasoning steps improves performance on many reasoning tasks. When moving beyond prompting, this raises the question of how we should supervise such models: outcome-based approaches which supervise the final result, or process-based approaches which supervise the reasoning process itself? Differences between these approaches might naturally be expected not just in final-answer errors but also in reasoning errors, which can be difficult to detect and are problematic in many real-world domains such as education. We run the first comprehensive comparison between process- and outcome-based approaches trained on a natural language task, GSM8K. We find that pure outcome-based supervision produces similar final-answer error rates with less label supervision. However, for correct reasoning steps we find it necessary to use process-based supervision or supervision from learned reward models that emulate process-based feedback. In total, we improve the previous best results from 16.8% $\to$ 12.7% final-answer error and 14.0% $\to$ 3.4% reasoning error among final-answer-correct solutions.
翻訳日:2022-11-28 14:21:19 公開日:2022-11-25
# FLAIR #1: セマンティックセグメンテーションとドメイン適応データセット

FLAIR #1: semantic segmentation and domain adaptation dataset ( http://arxiv.org/abs/2211.12979v2 )

ライセンス: Link先を確認
Anatol Garioud, St\'ephane Peillet, Eva Bookjans, S\'ebastien Giordano, Boris Wattrelos(参考訳) フランス国立地理学・森林情報研究所(IGN)は、フランス領の土地被覆を文書化し、測定する任務を持ち、高解像度の空中画像や地形地図を含む参照地理的データセットを提供している。 土地被覆のモニタリングは土地管理と計画のイニシアチブにおいて重要な役割を果たす。 リモートセンシング技術とともに、人工知能(ia)は、土地被覆とその進化を決定する強力なツールになることを約束する。 IGNは現在、高解像度の土地被覆地図の作成においてIAの可能性を探っている。 特に,空中画像のセマンティックセグメンテーションを得るために深層学習法が用いられている。 しかし、フランスのように広い領域は異質な文脈を暗示している: 風景の変化と画像の取得は、フランス全土で均一で信頼性が高く正確な結果を提供することを困難にしている。 FLAIR-oneデータセットは、現在IGNで使われているデータセットの一部であり、フランス国立土地被覆地図「Occupation du sol \`a grande \'echelle」(OCS-GE)の確立に使用されている。

The French National Institute of Geographical and Forest Information (IGN) has the mission to document and measure land-cover on French territory and provides referential geographical datasets, including high-resolution aerial images and topographic maps. The monitoring of land-cover plays a crucial role in land management and planning initiatives, which can have significant socio-economic and environmental impact. Together with remote sensing technologies, artificial intelligence (IA) promises to become a powerful tool in determining land-cover and its evolution. IGN is currently exploring the potential of IA in the production of high-resolution land cover maps. Notably, deep learning methods are employed to obtain a semantic segmentation of aerial images. However, territories as large as France imply heterogeneous contexts: variations in landscapes and image acquisition make it challenging to provide uniform, reliable and accurate results across all of France. The FLAIR-one dataset presented is part of the dataset currently used at IGN to establish the French national reference land cover map "Occupation du sol \`a grande \'echelle" (OCS- GE).
翻訳日:2022-11-28 12:11:30 公開日:2022-11-25
# ハイブリッド行動空間における交通信号制御のための強化学習

Reinforcement learning for traffic signal control in hybrid action space ( http://arxiv.org/abs/2211.12956v2 )

ライセンス: Link先を確認
Haoqing Luo, sheng jin(参考訳) 一般的な強化学習に基づくトラヒック信号制御手法は、通常、動作空間に応じてステージング最適化または持続時間最適化である。 本稿では,ハイブリッドな近位政策最適化に基づく新しい制御アーキテクチャtboを提案する。 我々の知る限り、TBOは、ステージングと期間の同期最適化を実装する最初のRLベースのアルゴリズムである。 離散的かつ連続的なアクション空間と比較して、ハイブリッドアクション空間は統合された検索空間であり、TBOは頻繁なスイッチングと不飽和なリリースの間のトレードオフをよりよく実装する。 TBOがキューの長さと遅延をそれぞれ、既存のベースラインと比較して平均で13.78%、14.08%削減することを示す実験が行われた。 さらに,TBOが効率を向上しながら公正性を損なわないことを示すために,右側のジーニ係数を計算する。

The prevailing reinforcement-learning-based traffic signal control methods are typically staging-optimizable or duration-optimizable, depending on the action spaces. In this paper, we propose a novel control architecture, TBO, which is based on hybrid proximal policy optimization. To the best of our knowledge, TBO is the first RL-based algorithm to implement synchronous optimization of the staging and duration. Compared to discrete and continuous action spaces, hybrid action space is a merged search space, in which TBO better implements the trade-off between frequent switching and unsaturated release. Experiments are given to demonstrate that TBO reduces the queue length and delay by 13.78% and 14.08% on average, respectively, compared to the existing baselines. Furthermore, we calculate the Gini coefficients of the right-of-way to indicate TBO does not harm fairness while improving efficiency.
翻訳日:2022-11-28 12:08:30 公開日:2022-11-25