このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220719となっている論文です。

PDF登録状況(公開日: 20220719)

TitleAuthorsAbstract論文公表日・翻訳日
# 境界項からの宇宙論的摂動のデコヒーレンスと重力の非古典性

Decoherence of Cosmological Perturbations from Boundary Terms and the Non-Classicality of Gravity ( http://arxiv.org/abs/2207.04435v2 )

ライセンス: Link先を確認
Chon Man Sou, Duc Huy Tran, Yi Wang(参考訳) インフレーション的曲率摂動のデコヒーレンス$\zeta$は重力作用の境界項によって支配される。 この境界項は、宇宙的相関子$\left\langle \zeta^n \right\rangle$には影響しないが、以前の計算よりもずっと高速なデコヒーレンスを誘導する。 インフレーションデコヒーレンスの重力の起源は、重力の量子的(または古典的でない)性質に光を当てる。 古典的重力のシュリンガー・ニュートンの玩具モデルと比較することにより、古典的あるいは量子的起源の重力理論がデコヒーレンス率に対する異なる影響を$\zeta$と比較することによって区別できることが示される。 我々の計算は、密度ゆらぎ$\delta\rho$は、宇宙論的ベルのような実験を構築するために$\zeta$よりも量子情報を保存していることを示している。

We note that the decoherence of inflationary curvature perturbation $\zeta$ is dominated by a boundary term of the gravity action. Although this boundary term cannot affect cosmological correlators $\left\langle \zeta^n \right\rangle$, it induces much faster decoherence for $\zeta$ than that of previous calculations. The gravitational origin of inflationary decoherence sheds light on the quantum (or non-classical) nature of gravity. By comparing with a Schr\"odinger-Newton toy model of classical gravity, we show that gravity theories of classical or quantum origins can be distinguished by comparing their different impacts on decoherence rate of $\zeta$. Our calculation also indicates that density fluctuation $\delta\rho$ better preserves quantum information than $\zeta$ for the purpose of constructing cosmological Bell-like experiments.
翻訳日:2023-02-05 14:53:30 公開日:2022-07-19
# 超ラジカル相転移における創発的Schr\"{o}dinger cat状態

Emergent Schr\"{o}dinger cat states during superradiant phase transitions ( http://arxiv.org/abs/2207.05512v2 )

ライセンス: Link先を確認
Ri-Hua Zheng, Wen Ning, Ye-Hong Chen, Jia-Hao L\"u, Li-Tuo Shen, Kai Xu, Yu-Ran Zhang, Da Xu, Hekang Li, Yan Xia, Fan Wu, Zhen-Biao Yang, Adam Miranowicz, Neill Lambert, Dongning Zheng, Heng Fan, Franco Nori, and Shi-Biao Zheng(参考訳) 超ラジアント相転移(SPTs)は、量子レベル [1, 2] における光-物質相互作用を理解するために重要であり、臨界度を増強する量子センシング [3] において中心的な役割を果たす。 これまでのところ,sptは誘導散逸系 [4-9] で観測されているが,強い散逸が存在するため,創発光場は非古典的特性を示しなかった。 本稿では,超伝導量子ビットに結合した共振器を用いて実現し,量子ラビモデル [10,11] を実装した超古典的フォトニックフィールドの出現を特徴とするsptの実証実験を行う。 ウィグナーマトリクストモグラフィにより,光マッター状態を完全に特徴付ける。 測定されたマトリックス素子は、フォトニックschr\"{o}dinger cat状態[12]に固有の量子干渉を示し、光マッターの絡み合いを示す。 基本的な重要性に加えて、これらの観測されていない創発的量子現象は量子力学やフォールトトレラント量子計算に有用である。

Superradiant phase transitions (SPTs) are important for understanding light-matter interactions at the quantum level [1, 2], and play a central role in criticality-enhanced quantum sensing [3]. So far, SPTs have been observed in driven-dissipative systems [4-9], but the emergent light fields did not show any nonclassical characteristic due to the presence of strong dissipation. Here we report an experimental demonstration of the SPT featuring the emergence of a highly nonclassical photonic field, realized with a resonator coupled to a superconducting qubit, implementing the quantum Rabi model [10, 11]. We fully characterize the light-matter state by Wigner matrix tomography. The measured matrix elements exhibit quantum interference intrinsic of a photonic Schr\"{o}dinger cat state [12], and reveal light-matter entanglement. Besides their fundamental importance, these hitherto unobserved emergent quantum phenomena are useful for quantum metrology and fault-tolerant quantum computation.
翻訳日:2023-02-05 09:37:05 公開日:2022-07-19
# 完全並列量子チャネルを用いた超高速量子鍵分布

Ultrafast quantum key distribution using fully parallelized quantum channels ( http://arxiv.org/abs/2207.07345v2 )

ライセンス: Link先を確認
Robin Terhaar (1), Jasper R\"odiger (2), Matthias H\"au{\ss}ler (1), Michael Wahl (3), Helge Gehring (1), Martin A. Wolff (1), Fabian Beutel (1), Wladick Hartmann (1), Nicolai Walter (1), Jonas Hanke (2), Peter Hanne (2), Nino Walenta (2), Maximilian Diedrich (2), Nicolas Perlot (2), Max Tillmann (3), Tino R\"ohlicke (3), Mahdi Ahangarianabhari (3), Carsten Schuck (1) and Wolfram H.P. Pernice (4) ((1) Institute of Physics, University of M\"unster, (2) Fraunhofer Heinrich Hertz Institute, Berlin, (3) PicoQuant GmbH, Berlin (4) Kirchhoff-Institut f\"ur Physik, Universit\"at Heidelberg)(参考訳) 量子情報処理の分野は、量子力学の法則によって保護されたセキュアな通信を提供しており、機密データの情報転送に広く応用される可能性がある。 不適切なコスト効率の障害を克服するため、量子鍵分布(QKD)を用いた高スループットに必要な多くのコンポーネントについて広範な研究が行われている。 アプリケーション指向のソリューションを目指して,通信波長における高帯域幅セキュア通信を実現するマルチチャネルqkdシステムの実現について報告する。 この目的のために、ラックサイズの超伝導ナノワイヤ単光子検出器(SNSPD)システムと高度に並列化された時間相関単光子計器(TCSPC)ユニットを開発し、FPGA制御QKD評価装置に接続し、コヒーレント・ワンウェイプロトコルを用いて高い秘密鍵レートを実現する。

The field of quantum information processing offers secure communication protected by the laws of quantum mechanics and is on the verge of finding wider application for information transfer of sensitive data. To overcome the obstacle of inadequate cost-efficiency, extensive research is being done on the many components required for high data throughput using quantum key distribution (QKD). Aiming for an application-oriented solution, we report on the realization of a multichannel QKD system for plug-and-play high-bandwidth secure communication at telecom wavelength. For this purpose, a rack-sized multichannel superconducting nanowire single photon detector (SNSPD) system, as well as a highly parallelized time-correlated single photon counting (TCSPC) unit have been developed and linked to an FPGA-controlled QKD evaluation setup allowing for continuous operation and achieving high secret key rates using a coherent-one-way protocol.
翻訳日:2023-02-04 22:58:38 公開日:2022-07-19
# 事前・ポスト選択システムにおける不確実性関係

Uncertainty Relations in Pre- and Post-Selected Systems ( http://arxiv.org/abs/2207.07687v2 )

ライセンス: Link先を確認
Sahil, Sohail and Sibasish Ghosh(参考訳) 厳密な年代、不確実な関係は2つの不整合可観測体について報告されておらず、これらの可観測体を測定するために、前および後から選択された量子状態の連立的準備の不可能性を表現できる前および後選択(PPS)システムにおいて報告されている。 ここでは、与えられた前・後選択状態において測定された可観測性の不確実性(標準偏差)を定義することにより、ppsシステムに対するそのような不確実性関係を導出する。 ここでは,新たに定義された標準偏差と不確かさの関係を物理的に解釈する。 PPSシステムを用いた量子気象学におけるフィッシャー情報の最適化条件でもあるゼロ不確実性条件を導出する。 標準量子系が特定の条件を持つpps系に変換され、標準量子系では不可能タスクとなる場合、非可換可観測性のための量子状態の合同的鋭い準備が可能であることが示されている。 PPSシステムにおける不確実性と不確実性の関係の応用について述べる。 つまり、$です。 (i)不確実性の2つの異なる定義を用いた所定の事前選択の混合性の検出$$$$$ (ii)標準量子系における強い不確実性関係(すなわち、不確実性関係を自明にすることはできず、あるいは、初期準備されたシステムのほぼすべての可能な選択において下限は無効にできない) pps系における不確実性関係を用いて、(iii$)真の量子力学的不確実性関係は、事前選択が混合状態であるときの最初の不確実性の定義を用いて見つけることができる。

Till date, no uncertainty relation has been reported for two incompatible observables in a pre- and post-selected (PPS) system which can express the impossibility of jointly sharp preparation of pre- and post-selected quantum states for measuring those observables. Here, we derive such an uncertainty relation for a PPS system by defining an uncertainty (standard deviation) of an observable measured in the given pre- and post-selected states. We provide here physical interpretations of the newly defined standard deviation and the uncertainty relation. Zero uncertainty condition, which is also the condition for optimized Fisher information in quantum metrology using the PPS system, is derived. It is shown that joint sharp preparation of a quantum state for non-commuting observables is possible when the standard quantum system is transformed into a PPS system with certain conditions, an impossible task in standard quantum system. We provide here applications of uncertainty and uncertainty relation in the PPS system. Namely, $(i)$ detection of mixedness of the given pre-selection using two different definitions of the uncertainty, $(ii)$ stronger uncertainty relation in the standard quantum system (i.e., the uncertainty relation can not be made trivial or the lower bound can not be null for almost all possible choices of initially prepared systems) using the uncertainty relation in the PPS system, ($iii$) genuine quantum mechanical uncertainty relation can be found using the first definition of uncertainty when the pre-selection is a mixed state.
翻訳日:2023-02-04 22:41:38 公開日:2022-07-19
# 神経常微分方程式による量子散逸の学習

Learning quantum dissipation by the neural ordinary differential equation ( http://arxiv.org/abs/2207.09056v1 )

ライセンス: Link先を確認
Li Chen, Yadong Wu(参考訳) 量子散逸は、量子システムとその周辺環境の間の不可避な結合から生じており、情報の量子処理における主要な障害として知られている。 その存在とは別に、観測データからの散逸の追跡は、散逸を抑制するための作法を刺激する重要なトピックである。 本稿では,神経常微分方程式を用いて,力学的な観測から量子散逸を学習し,スピン系とスピン1/2鎖の2つの開量子スピン系において,この手法を具体的に示す。 また,実験におけるデータ取得のための有用なガイダンスを提供するデータセットの学習効率についても検討した。 我々の研究は、オープン量子システムにおける効果的なモデリングとデコヒーレンス抑制を確実に促進する。

Quantum dissipation arises from the unavoidable coupling between a quantum system and its surrounding environment, which is known as a major obstacle in the quantum processing of information. Apart from its existence, how to trace the dissipation from observational data is a crucial topic that may stimulate manners to suppress the dissipation. In this paper, we propose to learn the quantum dissipation from dynamical observations using the neural ordinary differential equation, and then demonstrate this method concretely on two open quantum-spin systems -- a large spin system and a spin-1/2 chain. We also investigate the learning efficiency of the dataset, which provides useful guidance for data acquisition in experiments. Our work promisingly facilitates effective modeling and decoherence suppression in open quantum systems.
翻訳日:2023-02-04 13:17:57 公開日:2022-07-19
# トラクタ原子干渉計の原理

Principles of tractor atom interferometry ( http://arxiv.org/abs/2207.09023v1 )

ライセンス: Link先を確認
Georg Raithel, Alisher Duspayev, Bineet Dash, Sebastian C. Carrasco, Michael H. Goerz, Vladan Vuletic, Vladimir S. Malinovsky(参考訳) 超低温原子の3次元閉じ込めと輸送に基づくトラクター原子干渉計(TAI)の設計概念を提案する。 この閉じ込めはデバイスサイズとウェーブ・パケットの分散を低減し、任意の保持時間を可能にし、不要な感度をキャンセルし、分割と再結合を迅速にし、有害な非線形励起の抑制を可能にする複雑な軌道の制御を容易にする。 これにより、コンパクトで高感度な量子センシング技術のさらなる進歩が可能になる。 特に,量子エンハンス型加速度計とジャイロスコープの実装に注目する。 スピン依存およびスカラートラップポテンシャルの両方に対するTAIプロトコルについて議論する。 最適制御理論を用いて,先行提案よりも2桁短い時間スケールでの波動関数の分割を断熱力学を用いて実証し,干渉位相が蓄積される全分離に費やされる時間を最大化する。 最後に、感度を向上させるために原子間の非古典的相関を含める可能性を検討する。 TAIの性能評価は原子干渉計測に基づくセンシングに有望な視点を与え、現在の最先端機器の感度を大きく上回っている。

We present possible design concepts for a tractor atom interferometer (TAI) based on three-dimensional confinement and transport of ultracold atoms. The confinement reduces device size and wave-packet dispersion, enables arbitrary holding times, and facilitates control to create complex trajectories that allow for optimization to cancel unwanted sensitivity, fast splitting and recombination, and suppression of detrimental nonadiabatic excitation. Thus, the design allows for further advancement of compact, high-sensitivity, quantum sensing technology. In particular, we focus on the implementation of quantum-enhanced accelerometers and gyroscopes. We discuss TAI protocols for both spin-dependent and scalar trapping potentials. Using optimal control theory, we demonstrate the splitting of the wave function on a time scale two orders of magnitude shorter than the previous proposal using adiabatic dynamics, thus maximizing the time spent at full separation, where the interferometric phase is accumulated. Lastly, we explore the possibility of including non-classical correlations between the atoms to improve sensitivity. The performance estimates for TAI give a promising perspective for atom-interferometry-based sensing, significantly exceeding the sensitivities of current state-of-the-art devices.
翻訳日:2023-02-04 13:17:32 公開日:2022-07-19
# 受動系における非エルミート効果の可観測性に関する基礎的制約

Fundamental constraints on the observability of non-Hermitian effects in passive systems ( http://arxiv.org/abs/2207.09014v1 )

ライセンス: Link先を確認
Henning Schomerus(参考訳) 散乱理論を用いて、受動デバイスにおける非エルミート効果の可視性を制限する物理的制約の結果を定量化する。 この制約は、システムが因果関係に従うという基本的な要件から生じ、内部時間遅延作用素の観点で簡潔に捉えることができ、さらに、状態密度における特定の非エルミート現象の可視性を直接測定できる。 異なる対称性クラスと非エルミート効果(例外点や非エルミート皮膚効果を含む)を対比することにより、その意味を説明する。

Utilizing scattering theory, we quantify the consequences of physical constraints that limit the visibility of non-Hermitian effects in passive devices. The constraints arise from the fundamental requirement that the system obeys causality, and can be captured concisely in terms of an internal time-delay operator, which furthermore provides a direct quantitative measure of the visibility of specific non-Hermitian phenomena in the density of states. We illustrate the implications by contrasting different symmetry classes and non-Hermitian effects, including exceptional points and the non-Hermitian skin effect, whose underlying extreme mode nonorthogonality turns out to be effectively disguised.
翻訳日:2023-02-04 13:17:00 公開日:2022-07-19
# 密度汎関数理論のレヴィ・リーブ埋め込みとその量子核:短期量子アルゴリズムを用いたハバードダイマーの図解

The Levy-Lieb embedding of density functional theory and its Quantum Kernel: Illustration for the Hubbard Dimer using near-term quantum algorithms ( http://arxiv.org/abs/2207.08995v1 )

ライセンス: Link先を確認
C. D. Pemmaraju, Amol Deshmukh(参考訳) レヴィとリーブの制約探索定式化は、N-表現可能な密度からN-粒子波動関数の空間への具体的な写像を提供し、密度汎関数理論の普遍函数を明示的に定義する。 本稿では,変分量子固有解法を用いて,パラダイム格子系であるハバードディマーに対するレヴィ・リーブ手順を数値的に実装する。 探索軌道に沿ったレヴィ・リーブ関数のリアルタイム計算を含むハイブリッド量子古典スキームを用いて密度変動最小化を示す。 さらに,レヴィ・リーブ法に含意される純状態埋め込みの密度に関連付けられた忠実性に基づく量子カーネルを示し,その密度の可観測関数の学習にカーネルを用いる。 本研究では,ハバードダイマーの数値実験を通じて,カーネルの高精度な一般化能力について検討する。

The constrained-search formulation of Levy and Lieb provides a concrete mapping from N-representable densities to the space of N-particle wavefunctions and explicitly defines the universal functional of density functional theory. We numerically implement the Levy-Lieb procedure for a paradigmatic lattice system, the Hubbard dimer, using a modified variational quantum eigensolver approach. We demonstrate density variational minimization using the resulting hybrid quantum-classical scheme featuring real-time computation of the Levy-Lieb functional along the search trajectory. We further illustrate a fidelity based quantum kernel associated with the density to pure-state embedding implied by the Levy-Lieb procedure and employ the kernel for learning observable functionals of the density. We study the kernel's ability to generalize with high accuracy through numerical experiments on the Hubbard dimer.
翻訳日:2023-02-04 13:16:47 公開日:2022-07-19
# オープン量子系における伝播の最大速度

Maximal Speed of Propagation in Open Quantum Systems ( http://arxiv.org/abs/2207.08991v1 )

ライセンス: Link先を確認
S\'ebastien Breteaux, J\'er\'emy Faupin, Marius Lemm, Israel Michael Sigal(参考訳) 我々はマルコフ開量子系のダイナミクスに束縛された最大速度を証明する。 ダイナミクスはフォン・ノイマン・リンドブラッド方程式を満たす量子チャネルの1パラメータ半群によって記述される。 その結果, 動的に変化する状態は, 多項式誤差まで適切な光円錐内に含まれることがわかった。 また,光円錐の斜面,すなわち最大伝播速度について境界を与える。 この結果は、開量子系における定常状態の局所摂動の伝播速度の上限を意味する。

We prove a maximal velocity bound for the dynamics of Markovian open quantum systems. The dynamics are described by one-parameter semi-groups of quantum channels satisfying the von Neumann-Lindblad equation. Our result says that dynamically evolving states are contained inside a suitable light cone up to polynomial errors. We also give a bound on the slope of the light cone, i.e., the maximal propagation speed. The result implies an upper bound on the speed of propagation of local perturbations of stationary states in open quantum systems.
翻訳日:2023-02-04 13:16:30 公開日:2022-07-19
# 結合型マクロペンデュラによる可視化波動力学:駆動量子ビットの古典的解析

Visualized Wave Mechanics by Coupled Macroscopic Pendula: Classical Analogue to Driven Quantum Bits ( http://arxiv.org/abs/2207.09296v1 )

ライセンス: Link先を確認
Heribert Lorenz and Sigmund Kohler and Anton Parafilo and Mikhail Kiselev and Stefan Ludwig(参考訳) 量子力学はますます現代の技術に浸透するが、その非決定論的な性質は我々の古典的日常世界と矛盾しているように見えるため、我々の理解はしばしば理解できないままである。 古典力学は対応原理に沿って、量子コヒーレンスを完全に平均化する大規模系の理論と見なされることが多い。 驚くべきことに、古典的モデルシステムを用いて量子ビット(qubit)のコヒーレントダイナミクスを再構築することは依然として可能である。 この古典から量子へのアナログは、古典と量子の世界の両方に適用される波動力学に基づいている。 本研究は, 微視的ペンデュラの動的挙動を変調カップリングを用いて検討する。 原理の証明として、Ravi振動、Landau-Zener遷移、Landau-Zener-St\"uckelberg-Majoranaインターフェロメトリーによって、我々の1対1のアナログを量子ビットに完全に制御することを示した。 我々の古典的量子ビット実証器は有用な量子技術を理解し開発するのに役立ちます。

Quantum mechanics increasingly penetrates modern technologies but, due to its non-deterministic nature seemingly contradicting our classical everyday world, our comprehension often stays elusive. Arguing along the correspondence principle, classical mechanics is often seen as a theory for large systems where quantum coherence is completely averaged out. Surprisingly, it is still possible to reconstruct the coherent dynamics of a quantum bit (qubit) by using a classical model system. This classical-to-quantum analogue is based on wave mechanics, which applies to both, the classical and the quantum world. In this spirit we investigate the dynamics of macroscopic physical pendula with a modulated coupling. As a proof of principle, we demonstrate full control of our one-to-one analogue to a qubit by realizing Rabi oscillations, Landau-Zener transitions and Landau-Zener-St\"uckelberg-Majorana interferometry. Our classical qubit demonstrator can help comprehending and developing useful quantum technologies.
翻訳日:2023-02-04 13:12:04 公開日:2022-07-19
# 擬スピン量子オットーエンジンの負の有効温度でのパワー

Power of a quasi-spin quantum Otto engine at negative effective temperature ( http://arxiv.org/abs/2207.09272v1 )

ライセンス: Link先を確認
Jens Nettersheim, Sabrina Burgardt, Quentin Bouton, Daniel Adam, Eric Lutz, and Artur Widera(参考訳) 熱機関は通常、異なる(正の)温度で熱浴と熱交換することで作動する。 しかし、非熱水浴は大幅な性能向上につながる可能性がある。 本稿では,原子状ルビジウム浴と相互作用するセシウム原子の準スピン状態において実現された単一原子量子オットーエンジンの出力を実験的に解析する。 準スピン状態の時間分解個体数から、実効スピン温度とシャノンエントロピーの助けを借りて定量化するエンジンの量子揺らぎのサイクルのダイナミクスを決定する。 負の温度領域では電力が増大し、最大エントロピーの半分で最大値に達することが判明した。 負の有効温度でのエンジンの運転は、無限の温度の場合を含む正の温度での運転と比較して最大30%の電力を増大させる。 同時に、負の温度状態に入ることで、エントロピーを0に近い値に減らし、高出力での高安定な動作を可能にする。 さらに, 量子エンジンの性能に及ぼすヒルベルト空間の大きさの影響を, 加工媒体のレベル数を変化させて数値的に検討した。 我々の研究は、高出力で効率的な単一原子量子エンジンの動作における変動制御の道を開く。

Heat engines usually operate by exchanging heat with thermal baths at different (positive) temperatures. Nonthermal baths may, however, lead to a significant performance boost. We here experimentally analyze the power output of a single-atom quantum Otto engine realized in the quasi-spin states of individual Cesium atoms interacting with an atomic Rubidium bath. From measured time-resolved populations of the quasi-spin state, we determine the dynamics during the cycle of both the effective spin temperature and of the quantum fluctuations of the engine, which we quantify with the help of the Shannon entropy. We find that power is enhanced in the negative temperature regime, and that it reaches its maximum value at half the maximum entropy. Quantitatively, operating our engine at negative effective temperatures increases the power by up to 30% compared to operation at positive temperatures, including even the case of infinite temperature. At the same time, entering the negative temperature regime allows for reducing the entropy to values close to zero, offering highly stable operation at high power output. We furthermore numerically investigate the influence of the size of the Hilbert space on the performance of the quantum engine by varying the number of levels of the working medium. Our work thereby paves the way to fluctuation control in the operation of high-power and efficient single-atom quantum engines.
翻訳日:2023-02-04 13:11:43 公開日:2022-07-19
# 21量子化の盲点

Blindly Factorizing 21 Quantumly ( http://arxiv.org/abs/2207.09267v1 )

ライセンス: Link先を確認
Aritra Das and Barry C. Sanders(参考訳) 遠隔量子サーバを信頼していない古典的クライアントに対して,半素数21を量子的に盲目的に分解する古典的検証可能な手法を開発した。 提案手法は, 次の半素数分解の問題を増やし, ハードベースを選択し, 非クリフォードゲートを実行し, 15 のセキュリティチェックも 21 で有効であることを示すことにより, 15 の盲点分解を量子的に達成する技術の現状を推し進める。 非クリフォード演算を組み込むアルゴリズム的アプローチはブラインド量子因子分解をスケールする段階を定め、一方5eprペアスキームはブラインド因子分解の現在の実演に取って代わるフォトニック実験を動機付ける。

We develop a classically verifiable scheme for blindly factorizing the semiprime 21 quantumly for a classical client who does not trust the remote quantum servers. Our scheme advances state of the art, which achieves blind factorization of 15 quantumly, by increasing the problem to factorizing the next semiprime, choosing a harder base, executing a non-Clifford gate, and showing that the security check for 15 also works for 21. Our algorithmic approach to incorporating non-Clifford operations sets the stage for scaling blind quantum factorization, whereas our five-EPR-pair scheme motivates a photonic experiment that supplants current demonstrations of blind factorization.
翻訳日:2023-02-04 13:11:21 公開日:2022-07-19
# 散逸結合光学系におけるスクイージング強化非線形性センシング

Squeezing enhanced nonlinearity sensing in dissipatively coupled optical systems ( http://arxiv.org/abs/2207.09261v1 )

ライセンス: Link先を確認
Dianzhen Cui, Jianning Li, Fude Li, Zhi-Cheng Shi, X. X. Yi(参考訳) 本論文では,2つのキャビティの固有非線形性に対する感度を高めるために,キャビティの1つをポンプすることによって提案する。 このシステムは、2つの散逸結合したマイクロリングキャビティから成り、1つは圧縮されたレーザーによって駆動される。 低ポンプレートでは、システムのスペクトルは実際のスペクトル特異性を取得する。 この特異性はシステムのポンプおよび非線形性に非常に敏感であり、コヒーレント駆動の場合と比較して、特異性に固有の非線形性に対するシステムの感度は、圧縮レーザーを用いることでさらに高めることができる。 さらに、このスキームは堅牢なゲインスト製造不完全である。 この研究は量子センサーの新たな道を開き、精密な測定や量子気象学など、多くの分野の応用を見出すことができる。

In this manuscript, we propose a proposal to enhance the sensitivity of two cavities to its intrinsic nonlinearities by pumping one of the cavities. The system consists of two dissipatively coupled micro-ring cavities, one of which is driven by a squeezed laser. With a low pump rate, the spectrum of the system acquires a real spectral singularity. We find that this singularity is very sensitive to the pumping and nonlinearity of the system, and compared to the case of coherent drive, the sensitivity of the system to intrinsic nonlinearities at the singularity can be further increased by using the squeezed laser. Moreover, the scheme is robust gainst fabrication imperfections. This work would open a new avenue for quantum sensors, which could find applications in many fields, such as the precise measurement and quantum metrology.
翻訳日:2023-02-04 13:11:08 公開日:2022-07-19
# GNS対称量子マルコフ半群の発電機の微分構造

The Differential Structure of Generators of GNS-symmetric Quantum Markov Semigroups ( http://arxiv.org/abs/2207.09247v1 )

ライセンス: Link先を確認
Melchior Wirth(参考訳) GNS対称量子マルコフ半群の生成元が導出の平方として書けることを示す。 これは、気相対称半群に対するシプリアーニとソーヴァゲットの結果を一般化する。 トラキシャル対称の場合と比較して、一般の場合の導出はモジュラー群の非自明性を反映してねじれた積規則を満たす。 このねじれは、我々が導入した tomita bimodules の新しい概念によって捉えられる。 量子マルコフ半群がある種の追加の正則性条件を満たすと、関連するトミタ双加群はより大きなフォン・ノイマン環の$l^2$空間内で実現され、その構成は自由アラキ-ウッド因子の作用素値バージョンである。

We show that the generator of a GNS-symmetric quantum Markov semigroup can be written as the square of a derivation. This generalizes a result of Cipriani and Sauvageot for tracially symmetric semigroups. Compared to the tracially symmetric case, the derivations in the general case satisfy a twisted product rule, reflecting the non-triviality of their modular group. This twist is captured by the new concept of Tomita bimodules we introduce. If the quantum Markov semigroup satisfies a certain additional regularity condition, the associated Tomita bimodule can be realized inside the $L^2$ space of a bigger von Neumann algebra, whose construction is an operator-valued version of free Araki-Woods factors.
翻訳日:2023-02-04 13:10:27 公開日:2022-07-19
# 量子カスケードレーザーにおける線幅増強因子の電子量子効果に対する感度依存性

Sensitive dependence of the linewidth enhancement factor on electronic quantum effects in quantum cascade lasers ( http://arxiv.org/abs/2207.09222v1 )

ライセンス: Link先を確認
Martin Franckie, Mathieu Bertrand, Jerome Faist(参考訳) ライン幅拡大係数(lef)は半導体レーザの振幅変動と位相ゆらぎの結合を記述しており、最近はライン幅拡大に加えて周波数コム形成の重要な要素となっている。 それは必然的に因果関係から生じ、クラマースとクローニッヒの関係で定式化され、メディアは強度の変動に対する感受性の非自明な依存を持つ。 熱的貢献は一般的に遅く、実験のダイナミクスを適切に設計することで除外されることが多いが、多くの量子的貢献は分離が難しい。 LEFを周波数コム形成、ソリトン生成、あるいはレーザーの細い直線幅に適した値に設計するためには、これらの効果を体系的にモデル化することが重要である。 この包括的研究では、非平衡グリーン関数モデルを用いて、LEFを計算するための一般的なスキームを導入する。 この直接法は、様々な光強度の下で系の応答をシミュレートし、強度変動への感受性の依存を抽出することにより、関連するすべての電子効果を含み、レーザーバイアスと周波数に依存する0.1〜1の範囲の動作量子カスケードレーザーのLEFを予測する。 また,多体効果,非共振遷移,分散(Bloch)ゲイン,反回転項,強度依存遷移エネルギー,高精度サブバンド分布などが,LEFの正確なシミュレーションに重要であることも確認した。

The linewidth enhancement factor (LEF) describes the coupling between amplitude and phase fluctuations in a semiconductor laser, and has recently been shown to be a crucial component for frequency comb formation in addition to linewidth broadening. It necessarily arises from causality, as famously formulated by the Kramers-Kronig relation, in media with non-trivial dependence of the susceptibility on intensity variations. While thermal contributions are typically slow, and thus can often be excluded by suitably designing the dynamics of an experiment, the many quantum contributions are harder to separate. In order to understand and, ultimately, design the LEF to suitable values for frequency comb formation, soliton generation, or narrow laser linewidth, it is therefore important to systematically model all these effects. In this comprehensive work, we introduce a general scheme for computing the LEF, which we employ with a non-equilibrium Green's function model. This direct method, based on simulating the system response under varying optical intensity, and extracting the dependence of the susceptibility to intensity fluctuations, can include all relevant electronic effects and predicts the LEF of an operating quantum cascade laser to be in the range of 0.1 - 1, depending on laser bias and frequency. We also confirm that many-body effects, off-resonant transitions, dispersive (Bloch) gain, counter-rotating terms, intensity-dependent transition energy, and precise subband distributions all significantly contribute and are important for accurate simulations of the LEF.
翻訳日:2023-02-04 13:10:14 公開日:2022-07-19
# 雑音中規模量子デバイスを用いた地盤構造の量子トポロジー最適化

Quantum topology optimization of ground structures using noisy intermediate-scale quantum devices ( http://arxiv.org/abs/2207.09181v1 )

ライセンス: Link先を確認
Yuki Sato and Ruho Kondo and Satoshi Koide and Seiji Kajita(参考訳) 実行可能な製品設計に到達するために、製品開発プロセスは数値シミュレーションや数理プログラミング技術を使うことが多い。 特にトポロジー最適化は、洞察に富んだ設計選択を生成する最も有望な手法の1つである。 位相最適化問題はNPハード組合せ最適化問題に還元され、ある位置における材料の存在と欠如の組合せが最適化される。 本研究では,量子コンピュータをトポロジー最適化問題の潜在的な解として利用することを検討する。 提案手法は2つの変分量子アルゴリズム (VQA) から構成される。第1はすべての受容可能な材料構成に対する状態平衡方程式を解き、第2は第1のVQAの量子状態を用いた量子重ね合わせにおける最適構成の確率を増幅する。 実機実験を含むいくつかの実験により,提案手法が最適構成を得ることができた。 これらの結果は、量子コンピュータがトポロジー最適化問題を解決する潜在的なツールになり得ることを示唆し、近い将来の製品設計の窓を開くことを示唆している。

To arrive at some viable product design, product development processes frequently use numerical simulations and mathematical programming techniques. Topology optimization, in particular, is one of the most promising techniques for generating insightful design choices. Topology optimization problems reduce to an NP-hard combinatorial optimization problem, where the combination of the existence or absence of the material at some positions is optimized. In this study, we examine the usage of quantum computers as a potential solution to topology optimization problems. The proposed method consists of two variational quantum algorithms (VQAs): the first solves the state equilibrium equation for all conceivable material configurations, while the second amplifies the likelihood of an optimal configuration in quantum superposition using the first VQA's quantum state. Several experiments, including a real device experiment, show that the proposed method successfully obtained the optimal configurations. These findings suggest that quantum computers could be a potential tool for solving topology optimization problems and they open the window to the near-future product designs.
翻訳日:2023-02-04 13:09:45 公開日:2022-07-19
# 任意次元の単位超写像に対する自由ポリカテゴリー

Free Polycategories for Unitary Supermaps of Arbitrary Dimension ( http://arxiv.org/abs/2207.09180v1 )

ライセンス: Link先を確認
Matt Wilson, Giulio Chiribella(参考訳) 抽象的対称モノイド圏の射を挿入できる孔の構成法を提供し、これをpolyslot construction pslot[c]と呼び、単一パーティで表現可能なpolyslotのサブクラスsrep[c]を同定する。 これらの構造は、量子スーパーマップを特徴づけるために使われる局所応用変換の概念を、ユニタリ圏のモノイド構造から直接ユニタリスーパーマップを再構成するのに十分な方法で強化する。 どちらの構成も、時間ループの生成を禁止しながら、順序および並列にスーパーマップを構成することができる量子スーパーマップのリッチな多カテゴリー意味論を自由に再構築する。 スーパーマップのキー構成の特徴を自由に構築し、有限次元の場合においてスーパーマップを特徴付けることにより、ユニタリスーパーマップの無限次元への適切な一般化としてポリスロットが提案され、量子スイッチのような正準例を含むことが示されている。 量子関連圏への特定の応用の他に、経路抽出群群と呼ばれる一般的な分類学的構造は、srep[C] と pslot[C] の構造が一致することが示される。

We provide a construction for holes into which morphisms of abstract symmetric monoidal categories can be inserted, termed the polyslot construction pslot[C], and identify a sub-class srep[C] of polyslots that are single-party representable. These constructions strengthen a previously introduced notion of locally-applicable transformation used to characterize quantum supermaps in a way that is sufficient to re-construct unitary supermaps directly from the monoidal structure of the category of unitaries. Both constructions furthermore freely reconstruct the enriched polycategorical semantics for quantum supermaps which allows to compose supermaps in sequence and in parallel whilst forbidding the creation of time-loops. By freely constructing key compositional features of supermaps, and characterizing supermaps in the finite-dimensional case, polyslots are proposed as a suitable generalization of unitary-supermaps to infinite dimensions and are shown to include canonical examples such as the quantum switch. Beyond specific applications to quantum-relevant categories, a general class of categorical structures termed path-contraction groupoids are defined on which the srep[C] and pslot[C] constructions are shown to coincide.
翻訳日:2023-02-04 13:09:27 公開日:2022-07-19
# W*-代数のパラメトリックモデルと情報幾何学

Parametric models and information geometry on W*-algebras ( http://arxiv.org/abs/2207.09396v1 )

ライセンス: Link先を確認
Florio M. Ciaglia, Fabio Di Nocera, J\"urgen Jost, Lorenz Schwachh\"ofer(参考訳) 古典的および量子的情報幾何学で用いられるパラメトリックモデルの概念を一般化する無限次元 W*-代数の正規正線型汎函数の滑らかなパラメトリックモデルの概念を導入する。 次に、この文脈で自然に利用できるジョルダン積を用いて、適切な正則性条件を満たすパラメトリックモデル上でリーマン計量テンソルを定義する。 このリーマン計量テンソルは、フィッシャー・ラオ計量テンソル、またはフービニ・スタディ計量テンソル、あるいはw*-代数とモデルに適切な選択をした場合のバーレス・ヘルストロム計量テンソルに還元される。

We introduce the notion of smooth parametric model of normal positive linear functionals on possibly infinite-dimensional W*-algebras generalizing the notions of parametric models used in classical and quantum information geometry. We then use the Jordan product naturally available in this context in order to define a Riemannian metric tensor on parametric models satsfying suitable regularity conditions. This Riemannian metric tensor reduces to the Fisher-Rao metric tensor, or to the Fubini-Study metric tensor, or to the Bures-Helstrom metric tensor when suitable choices for the W*-algebra and the models are made.
翻訳日:2023-02-04 13:02:16 公開日:2022-07-19
# 1つのRydberg原子によってスイッチングされるサブ波長原子配列

A subwavelength atomic array switched by a single Rydberg atom ( http://arxiv.org/abs/2207.09383v1 )

ライセンス: Link先を確認
Kritsana Srakaew, Pascal Weckesser, Simon Hollerith, David Wei, Daniel Adler, Immanuel Bloch, Johannes Zeiher(参考訳) 単一量子のレベルでの光・物質結合の強化は、量子科学における多くの応用に不可欠である。 サブ波長原子配列の協調光学応答は、光場の複数の空間モードへのアクセスを同時に提供しながら、そのような強い光-物質結合のための新しい経路を開くことが最近発見された。 このようなアレイへの効率的な単一モード自由空間結合が報告されているが、出射光場のモードに対する空間制御はいまだ解明されていない。 ここでは、リドベルク状態に励起される単一の制御されたアンシラ原子を用いて、自由空間における原子のサブ波長配列によって形成される原子的に薄いミラーの光学応答に対するそのような空間的制御を示す。 スイッチング挙動は、小さなリドベルク分画の原子鏡への混合によって制御され、その結果、アンシラとの強い双極子リドベルク相互作用が引き起こされる。 ラビ振動をancilla原子上で駆動することにより,アレーの透過と反射のコヒーレント制御を実証する。 この結果は、新しい量子コヒーレントなメタサーフェスを実現し、制御された原子-光子絡み合いと量子状態の決定論的工学を作り出す道を開いた。

Enhancing light-matter coupling at the level of single quanta is essential for numerous applications in quantum science. The cooperative optical response of subwavelength atomic arrays was recently found to open new pathways for such strong light-matter couplings, while simultaneously offering access to multiple spatial modes of the light field. Efficient single-mode free-space coupling to such arrays has been reported, but the spatial control over the modes of outgoing light fields has remained elusive. Here we demonstrate such spatial control over the optical response of an atomically thin mirror formed by a subwavelength array of atoms in free space using a single controlled ancilla atom excited to a Rydberg state. The switching behavior is controlled by the admixture of a small Rydberg fraction to the atomic mirror, and consequently strong dipolar Rydberg interactions with the ancilla. Driving Rabi oscillations on the ancilla atom, we demonstrate coherent control of the transmission and reflection of the array. Our results pave the way towards realizing novel quantum coherent metasurfaces, creating controlled atom-photon entanglement and deterministic engineering of quantum states of light.
翻訳日:2023-02-04 13:01:50 公開日:2022-07-19
# ジョセフソン接合配列における二重シャピロステップの証拠

Evidence of dual Shapiro steps in a Josephson junctions array ( http://arxiv.org/abs/2207.09381v1 )

ライセンス: Link先を確認
Nicol\`o Crescini, Samuel Cailleaux, Wiebke Guichard, C\'ecile Naud, Olivier Buisson, Kater Murch, Nicolas Roch(参考訳) 現代の一次電圧標準は交流ジョセフソン効果とそれに続くシャピロステップに基づいており、ジョセフソン接合に適用されたマイクロ波トーンは、マイクロ波周波数$f$と基本定数のみによって決定される定電圧$hf/2e$(h$はプランク定数、e$は電子電荷)を生成する。 電流と電圧の双対性議論は、ヨセフソン接合装置が適用周波数のみに設定された電流ステップを生成することができるという、2つのシャピロステップの可能性を長い間示唆してきた。 本稿では,2つのシャピロステップを明らかにするために,超小型ジョセフソン接合を大きな接合の高インピーダンス配列に埋め込む。 複数の周波数において、回路の交流応答が周波数$f$でマイクロ波トーンと同期していることを検出し、それに対応する直流応答における平坦なステップの出現を電流$2ef$で検出する。 この研究は、凝縮物質物理学において全表現である位相電荷双対性に新たな光を放ち、ジョセフソン回路に拡張する。 将来的には、回路量子電磁力学の分野における新しい実験の幅広い可能性を開き、量子メトロロジー電界三角形の長い閉包に向けた重要な一歩となる。

The modern primary voltage standard is based on the AC Josephson effect and the ensuing Shapiro steps, where a microwave tone applied to a Josephson junction yields a constant voltage $hf/2e$ ($h$ is Planck's constant and $e$ the electron charge) determined by only the microwave frequency $f$ and fundamental constants. Duality arguments for current and voltage have long suggested the possibility of dual Shapiro steps -- that a Josephson junction device could produce current steps with heights determined only on the applied frequency. In this report, we embed an ultrasmall Josephson junction in a high impedance array of larger junctions to reveal dual Shapiro steps. For multiple frequencies, we detect that the AC response of the circuit is synchronised with the microwave tone at frequency $f$, and the corresponding emergence of flat steps in the DC response with current $2ef$, equal to the tunnelling of a Cooper pair per tone period. This work sheds new light on phase-charge duality, omnipresent in condensed matter physics, and extends it to Josephson circuits. Looking forward, it opens a broad range of possibilities for new experiments in the field of circuit quantum electrodynamics and is an important step towards the long-sought closure of the quantum metrology electrical triangle.
翻訳日:2023-02-04 13:01:28 公開日:2022-07-19
# いくつかの1次元格子ボソンと相互作用する移動不純物

Mobile impurities interacting with a few one-dimensional lattice bosons ( http://arxiv.org/abs/2207.09309v1 )

ライセンス: Link先を確認
Vasil R. Yordanov, Felipe Isaule(参考訳) 相互作用するボソンを装填した小さな1次元光学格子に浸漬した1および2つのボソニック不純物の基底状態特性に関する包括的研究を報告する。 システムを2成分のボース・ハバードモデルを用いてモデル化し, 厳密な対角化法を用いて数値的に解く。 我々は,超流動からモット絶縁体遷移に至る双極子および双極子エネルギーを報告し,反発相互作用によって引き起こされる双極子境界状態の形成を確認する。 特に,絶縁体浴は強い結合性双極子を誘導し,超流動性浴はより浅い結合性を持つことがわかった。

We report a comprehensive study of the ground-state properties of one and two bosonic impurities immersed in small one-dimensional optical lattices loaded with a few interacting bosons. We model the system with a two-component Bose-Hubbard model and solve the problem numerically by means of the exact diagonalization method. We report polaron and bipolaron energies across the superfluid to Mott-insulator transition and confirm the formation of bipolaron bound states induced by repulsive interactions. In particular, we found that an insulator bath induces tightly bound bipolarons, whereas a superfluid bath induces shallower bound states.
翻訳日:2023-02-04 12:59:11 公開日:2022-07-19
# 熱エネルギー輸送の量子コヒーレンス制御--vモデルによるケーススタディ

Quantum coherence-control of thermal energy transport: The V model as a case study ( http://arxiv.org/abs/2207.09512v1 )

ライセンス: Link先を確認
Felix Ivander, Nicholas Anto-Sztrikacs, and Dvira Segal(参考訳) 本研究では,2つの熱浴に結合した3レベルv系の最小モデルについて検討し,過渡状態と非平衡定常状態の両方における熱輸送における量子コヒーレンスの役割について検討した。 我々のモデルでは、エネルギーは2つの平行な経路を通して浴槽の間で交換されるが、これは励起レベルの非退化(\delta$ のエネルギー分裂)と、アームの強度を調整する制御パラメータ $\alpha$ によって区別される。 レッドフィールド形式の非セクシャル量子マスター方程式を用いて、量子コヒーレンスと定常状態限界における熱電流の閉形式式を導出し、励起レベルを縮退させることに成功した。 非平衡浴, 水準の非縮退, 経路の非対称性の3つの成分を含むことによって, 3つの条件が同時に熱的およびコヒーレントな効果を満たす場合, Vモデルにおいて量子コヒーレンスが生成され, 持続されることを示す。 (i)異なる温度で2つの浴槽が保持される。 (ii)浴による経路は破壊的に干渉しない。 (iii) 温度は、効果的な局所平衡条件を介して干渉を破壊するために、制御パラメータ$\alpha$と混ざり合いません。 熱電流が抑制されるとコヒーレンスを最大化する。 一方、世俗的なレッドフィールド量子マスター方程式は幅広いパラメータで失敗することが示されている。 定常限界における解析結果に主眼を置きながら,コヒーレンスの過渡的挙動が定常限界と対比することを示す数値シミュレーションにより,これら2つの領域において異なる機構が作用していることが示唆された。 過渡コヒーレンスの寿命または定常状態でのマグニチュードを増大させるには、異なる物理パラメータの制御と最適化が必要である。

Here, we study a minimal model, the three-level V system coupled to two heat baths, and investigate the role of quantum coherences in heat transport in both the transient regime and in the nonequilibrium steady-state. In our model, energy is exchanged between the baths through two parallel pathways, which can be made distinct through the nondegeneracy of excited levels (energy splitting $\Delta$) and a control parameter $\alpha$, which adjusts the strength of one of the arms. Using a nonsecular quantum master equation of Redfield form, we succeed in deriving closed-form expressions for the quantum coherences and the heat current in the steady state limit for closely degenerate excited levels. By including three ingredients in our analysis: nonequilibrium baths, nondegeneracy of levels, and asymmetry of pathways, we show that quantum coherences are generated and sustained in the V model in the steady-state limit if three conditions, conjoining thermal and coherent effects are simultaneously met: (i) The two baths are held at different temperatures. (ii) Bath-induced pathways do not interfere destructively. (iii) Thermal rates do not mingle with the control parameter $\alpha$ to destroy interferences through an effective local equilibrium condition. We find that coherences are maximized when the heat current is suppressed. On the other hand, the secular Redfield quantum master equation is shown to fail in a broad range of parameters. Although we mainly focus on analytical results in the steady state limit, numerical simulations reveal that the transient behavior of coherences contrasts the steady-state limit, suggesting that different mechanisms are at play in these two regimes. Enhancing either the lifetime of transient coherences or their magnitude at steady state thus requires the control and optimization of different physical parameters.
翻訳日:2023-02-04 12:53:14 公開日:2022-07-19
# 線形クラスター状態を用いた匿名会議鍵合意実験

Experimental anonymous conference key agreement using linear cluster states ( http://arxiv.org/abs/2207.09487v1 )

ライセンス: Link先を確認
Lukas R\"uckle, Jakob Budde, Jarn de Jong, Frederik Hahn, Anna Pappa, Stefanie Barz(参考訳) マルチパーティの絡み合いは、ネットワーク内の複数のパーティ間でセキュアで匿名の鍵交換を可能にする。 特にGreenberger-Horne-Zeilinger状態(GHZ)は、匿名鍵交換プロトコルのリソース状態として導入され、より大きなネットワーク内のパーティの匿名サブセットが秘密鍵を確立する。 しかし、そのようなプロトコルに対する他のタイプのマルチパーティ・エンタングルメントの使用は、まだ明らかになっていない。 ここでは、線形クラスタ状態が、そのようなアプリケーションにおいて汎用的で潜在的にスケーラブルなリソースとして機能することを実証する。 我々は4つの光子を持つ匿名鍵交換プロトコルを線形クラスタ状態に実装し、ネットワーク内の3つのパーティ間で共有鍵を確立する。 本稿では,ノイズを考慮したプロトコルパラメータの最適化と,実環境下での有限鍵レートの最大化について述べる。 クラスタ状態が量子計算の柔軟なリソースとして確立されたことにより,ネットワークコンピューティングと通信のハイブリッド利用への第一歩となることを期待する。

Multipartite entanglement enables secure and anonymous key exchange between multiple parties in a network. In particular Greenberger-Horne-Zeilinger (GHZ) states have been introduced as resource states for anonymous key exchange protocols, in which an anonymous subset of parties within a larger network establishes a secret key. However, the use of other types of multipartite entanglement for such protocols remains relatively unexplored. Here we demonstrate that linear cluster states can serve as a versatile and potentially scalable resource in such applications. We implemented an anonymous key exchange protocol with four photons in a linear cluster state and established a shared key between three parties in our network. We show how to optimize the protocol parameters to account for noise and to maximize the finite key rate under realistic conditions. As cluster states have been established as a flexible resource in quantum computation, we expect that our demonstration provides a first step towards their hybrid use for networked computing and communication.
翻訳日:2023-02-04 12:52:41 公開日:2022-07-19
# 単一量子ビット計測による情報抽出の最適化

Optimizing the information extracted by a single qubit measurement ( http://arxiv.org/abs/2207.09479v1 )

ライセンス: Link先を確認
Stefano Polla, Gian-Luca R. Anselmetti, Thomas E. O'Brien(参考訳) 量子状態の準備毎に1ビットの情報のみを抽出する量子計算を考える。 これは、システムの残りの部分がエラーを検出するために測定されるエラー軽減スキームに関係している。 線形分解による演算子の期待値の推定をビットワイズ測定可能な項に最適化する。 最適分解は固有値 $\pm1$ を持つ反射の項でなければならないことが証明される。 高速フォワード可能な作用素の最適反射分解を発見し、簡単なパウリ分解を$N^{0.7}$で数値的に改善することを示す。

We consider a quantum computation that only extracts one bit of information per quantum state preparation. This is relevant for error mitigation schemes where the remainder of the system is measured to detect errors. We optimize the estimation of the expectation value of an operator by its linear decomposition into bitwise-measurable terms. We prove that optimal decompositions must be in terms of reflections with eigenvalues $\pm1$. We find the optimal reflection decomposition of a fast-forwardable operator, and show a numerical improvement over a simple Pauli decomposition by a factor $N^{0.7}$.
翻訳日:2023-02-04 12:52:16 公開日:2022-07-19
# ブラックホール情報パラドックスの控えめな見方

A Modest View of the Black Hole Information Paradox ( http://arxiv.org/abs/2207.09421v1 )

ライセンス: Link先を確認
Stephen Boughn(参考訳) 30年前、ジョン・プレスキルは「情報損失パラドックスは基礎物理学の革命をかなり先導するかもしれない」と結論付け、「ブラックホールの蒸発のパズルは20世紀初頭の量子理論の定式化に繋がったように、科学革命を助長するであろう」と述べた。 多くの人がまだこの評価に同意している。 一方、「パラドックス」は物理的世界とはほとんど関係がないように思われるが、少なくとも、自然、一般相対性理論、量子力学の2つの理論(数学的モデル)の矛盾を、事実上は観測結果が得られない、と単に指摘している。 情報パラドックスは純粋量子状態の概念、量子力学のユニタリ性、ホーキングによるブラックホールの蒸発に関する半古典的な計算に基づいている。 なぜなら、私にとって量子状態の概念はパラドックスによって要求されるよりもはるかに制限的であり、ユニタリティは自然の性質ではなく数学的モデルであり、測定のプロセスによってすでに破られているからです。 さらに、ホーキングの半古典的計算は、確実に限定的な適用性を持つ。

Thirty years ago, John Preskill concluded "that the information loss paradox may well presage a revolution in fundamental physics" and mused that "Conceivably, the puzzle of black hole evaporation portends a scientific revolution as sweeping as that that led to the formulation of quantum theory in the early 20th century." Many still agree with this assessment. On the other hand, it seems to me the "paradox" has little to do with the physical world but rather, at best, simply points out the possible inconsistency of two, already disparate, theories (mathematical models) of nature, general relativity and quantum mechanics, with virtually no conceivable observational consequences. The information paradox hinges on the concepts of a pure quantum state, the unitarity of quantum mechanics, and Hawking's semi-classical calculation of black hole evaporation. I used the qualifier "at best" above because, for me, the concept of a quantum state is far more restrictive than required by the paradox while unitarity is not a property of nature but rather of a mathematical model and is already violated by the process of making a measurement. Furthermore, the semi-classical calculation of Hawking is surely of limited applicability.
翻訳日:2023-02-04 12:50:31 公開日:2022-07-19
# 保存則を用いたrichtmyer-meshkov不安定性のディープラーニングモデル精度推定

Using Conservation Laws to Infer Deep Learning Model Accuracy of Richtmyer-meshkov Instabilities ( http://arxiv.org/abs/2208.11477v1 )

ライセンス: Link先を確認
Charles F. Jekel, Dane M. Sterbentz, Sylvie Aubry, Youngsoo Choi, Daniel A. White, Jonathan L. Belof(参考訳) Richtmyer-Meshkov不安定(RMI)は、衝撃波が摂動界面を通過するときに起こる複雑な現象である。 パラメータ化された高速衝突に対するRMIの形成を研究するために,1000以上の流体力学シミュレーションを行った。 深層学習は初期幾何学的摂動の密度と速度のフルフィールド流体力学解への時間的マッピングを学ぶために用いられた。 連続性方程式は損失関数に物理的情報を含めるために用いられたが、追加の訓練複雑さのコストでわずかな改善しか得られなかった。 ディープラーニングモデルからの予測は、ドメイン内の様々な幾何学的条件に対する時間的RMI生成を正確に捉えているように見える。 モデルの予測能力の精度を推定するために,第一原理的物理法則を検討した。 連続性方程式はモデルの精度と相関しないようにみられたが、質量と運動量の保存は精度と弱い相関を示した。 保存法則は深層学習モデルから迅速に計算できるため、相対的精度測定が必要なアプリケーションでは有用である。

Richtmyer-Meshkov Instability (RMI) is a complicated phenomenon that occurs when a shockwave passes through a perturbed interface. Over a thousand hydrodynamic simulations were performed to study the formation of RMI for a parameterized high velocity impact. Deep learning was used to learn the temporal mapping of initial geometric perturbations to the full-field hydrodynamic solutions of density and velocity. The continuity equation was used to include physical information into the loss function, however only resulted in very minor improvements at the cost of additional training complexity. Predictions from the deep learning model appear to accurately capture temporal RMI formations for a variety of geometric conditions within the domain. First principle physical laws were investigated to infer the accuracy of the model's predictive capability. While the continuity equation appeared to show no correlation with the accuracy of the model, conservation of mass and momentum were weakly correlated with accuracy. Since conservation laws can be quickly calculated from the deep learning model, they may be useful in applications where a relative accuracy measure is needed.
翻訳日:2023-02-04 12:44:08 公開日:2022-07-19
# Anti-CARLA:CARLAにおける自動運転車の対向テストフレームワーク

ANTI-CARLA: An Adversarial Testing Framework for Autonomous Vehicles in CARLA ( http://arxiv.org/abs/2208.06309v1 )

ライセンス: Link先を確認
Shreyas Ramakrishna, Baiting Luo, Christopher Kuhn, Gabor Karsai, and Abhishek Dubey(参考訳) 最近の自動運転システムの進歩にもかかわらず、2018年のuberの死亡事故のような事故は、これらのシステムがエッジケースの影響を受けやすいことを示している。 このようなシステムは、そのようなイベントを避けるために現実世界にデプロイされる前に、徹底的にテストされ、検証されなければならない。 オープンワールドシナリオでのテストは難しく、時間がかかり、コストがかかります。 これらの課題は、carlaのような運転シミュレータを使用することで解決できる。 このようなテストの重要な部分は、あるシステムの障害につながるシナリオを見つけることを目標とする、敵対的なテストである。 テストに関するいくつかの独立した取り組みがなされているが、敵対的なテストを可能にする確立されたテストフレームワークはまだcarlaで利用可能ではない。 そこで本研究では,本システムで故障する気象条件(大雨など)とセンサ障害(カメラ閉塞など)をシミュレートする,carlaにおける自動テストフレームワークであるanti-carlaを提案する。 所定のシステムがテストされるべき動作条件をシナリオ記述言語で指定する。 このフレームワークは、テストシステムがフェールする敵の動作条件を探索する効率的な検索メカニズムを提供する。 このようにして、抗CARLAはCARLAシミュレータを拡張し、任意の駆動パイプライン上で対角試験を行うことができる。 我々は、LBC(Learning By Cheating)アプローチで訓練された運転パイプラインをテストするために抗CARLAを使用する。 シミュレーションの結果,carlaベンチマークにおいて,lbcが100%の精度に到達したにも関わらず,抗carlaが効果的かつ自動的にさまざまな障害症例を発見できることが示されている。

Despite recent advances in autonomous driving systems, accidents such as the fatal Uber crash in 2018 show these systems are still susceptible to edge cases. Such systems must be thoroughly tested and validated before being deployed in the real world to avoid such events. Testing in open-world scenarios can be difficult, time-consuming, and expensive. These challenges can be addressed by using driving simulators such as CARLA instead. A key part of such tests is adversarial testing, in which the goal is to find scenarios that lead to failures of the given system. While several independent efforts in testing have been made, a well-established testing framework that enables adversarial testing has yet to be made available for CARLA. We therefore propose ANTI-CARLA, an automated testing framework in CARLA for simulating adversarial weather conditions (e.g., heavy rain) and sensor faults (e.g., camera occlusion) that fail the system. The operating conditions in which a given system should be tested are specified in a scenario description language. The framework offers an efficient search mechanism that searches for adversarial operating conditions that will fail the tested system. In this way, ANTI-CARLA extends the CARLA simulator with the capability of performing adversarial testing on any given driving pipeline. We use ANTI-CARLA to test the driving pipeline trained with Learning By Cheating (LBC) approach. The simulation results demonstrate that ANTI-CARLA can effectively and automatically find a range of failure cases despite LBC reaching an accuracy of 100% in the CARLA benchmark.
翻訳日:2023-02-04 12:43:50 公開日:2022-07-19
# 3次非線形相互作用によるカラーキュービット合成のための集積フォトニック回路

An integrated photonic circuit for color qubit preparation by third-order nonlinear interactions ( http://arxiv.org/abs/2207.09537v1 )

ライセンス: Link先を確認
A. L. Aguayo-Alvarado (1), F. Dom\'inguez-Serna (2), W. De La Cruz (3) and K. Garay-Palmett (1) ((1) Departamento de \'Optica - Centro de Investigaci\'on Cient\'ifica y de Educaci\'on Superior de Ensenada, M\'exico, (2) C\'atedras Conacyt - Centro de Investigaci\'on Cient\'ifica y de Educaci\'on Superior de Ensenada, M\'exico, (3) Centro de Nanociencias y Nanotecnolog\'ia, Universidad Nacional Aut\'onoma de M\'exico, M\'exico)(参考訳) 本研究は、差分周波数生成(dfg)の3次非線形過程を経た単一量子ビット合成と回転のためのデバイスとして機能する集積フォトニック回路の時間モードベースで実現可能な設計を提案する。 本回路の第1段階は, 単一光子状態を一意の時間モードで伝送するマイクロリングキャビティにおいて, 自発4光波混合により発色した単一光子の生成を含む。 第2段階は、単体に近い色のクビット形成フィリティに到達するための分散特性が制御された渦巻導波路におけるDFGの実装を含む。 本稿では,デバイス設計のための手法であるdfgプロセスに関連する一般化回転演算子と,ユーザアクセス可能なパラメータの関数としてqubit合成精度結果を提案する。

This work presents a feasible design of an integrated photonic circuit performing as a device for single-qubit preparation and rotations through the third-order nonlinear process of difference frequency generation (DFG) and defined in the temporal mode basis. The first stage of our circuit includes the generation of heralded single photons by spontaneous four-wave mixing in a micro-ring cavity engineered for delivering a single-photon state in a unique temporal mode. The second stage comprises the implementation of DFG in a spiral waveguide with controlled dispersion properties for reaching color qubit preparation fidelity close to unity. We present the generalized rotation operator related to the DFG process, a methodology for the device design, and qubit preparation fidelity results as a function of user-accessible parameters.
翻訳日:2023-02-04 12:42:29 公開日:2022-07-19
# 固体ナノキャビティ中の強結合不均一多ビット系における散逸誘起暗黒状態の生成

Dissipation-driven formation of entangled dark states in strongly-coupled inhomogeneous many-qubit systems in solid-state nanocavities ( http://arxiv.org/abs/2207.09523v1 )

ライセンス: Link先を確認
Mikhail Tokman, Alex Behne, Brandon Torres, Maria Erukhimova, Yongrui Wang, Alexey Belyanin(参考訳) 量子化電磁キャビティ場に強く結合した多量子ビット系の量子力学を、フェルミオンとキャビティ光子の両方の脱コヒーレンスと消散の存在下で研究し、異なる量子ビットのキャビティ場へのカップリング強度と遷移周波数の拡散を考慮した。 時間依存型量子状態振幅と可観測値のコンパクトな解析解は、確率的シュレーディンガー方程式アプローチを用いてリンドブラッド近似の幅広い種類の開量子系に対して導かれる。 初期量子状態の準備により、量子ビットのアンサンブルは、量子ビット間の破壊的または構成的干渉を伴う多量子ビット絡み合い状態のリッチな種類へと発展する。 特に、当初はごくわずかな量子ビットしか励起しない場合、空洞内の散逸は必然的に、空洞から完全に切り離され、空洞場の崩壊時間よりもずっと長く生きられるような強い暗黒状態へとシステムを駆動する。 また, 量子化空洞場へのコヒーレント結合が, 多ビット系における遷移周波数の拡散による劣化を克服し, 分離した暗黒状態の形成につながる条件についても検討する。

We study quantum dynamics of many-qubit systems strongly coupled to a quantized electromagnetic cavity field in the presence of decoherence and dissipation for both fermions and cavity photons, and taking into account the varying coupling strength of different qubits to the cavity field and the spread of their transition frequencies. Compact analytic solutions for time-dependent quantum state amplitudes and observables are derived for a broad class of open quantum systems in Lindblad approximation with the use of the stochastic Schroedinger equation approach. We show that depending on the initial quantum state preparation, an ensemble of qubits can evolve into a rich variety of many-qubit entangled states with destructive or constructive interference between the qubits. In particular, when only a small fraction of qubits is initially excited, the dissipation in a cavity will inevitably drive the system into robust dark states that are completely decoupled from the cavity and live much longer than the decay time of the cavity field. We also determine the conditions under which coherent coupling to the quantized cavity field overcomes the dephasing caused by a spread of transition frequencies in multi-qubit systems and leads to the formation of a decoupled dark state.
翻訳日:2023-02-04 12:42:13 公開日:2022-07-19
# アベリア高ゲージ対称性モデルのための基底状態空間の分類

Classification of the Ground State Space for Abelian Higher Gauge Symmetry Models ( http://arxiv.org/abs/2207.09522v1 )

ライセンス: Link先を確認
J. Lorca Espiro(参考訳) 文献では、アーベル高ゲージ対称性モデルはすべての有限次元において有効であることが示され、SPT相モデルの特徴的挙動を示す。 基底状態の縮退と絡み合いエントロピーは徹底的に研究されたが、基底状態空間の分類はいまだに不明である。 現在の論文の表記を予想すると、$\left(C_{\bullet} , \partial^C_{\bullet} \right)$ がこれらのモデルの幾何学的内容に関連する連鎖複体であるのに対し、$\left(G_{\bullet} , \partial^G_{\bullet} \right)$ はその対称性であるなら、基底状態空間は$H^0(C,G) \times H_0(C,G)$群で分類され、$H^0(C,G)$ はその構造に関連する$0$コホモロジー群であり、$H_0(C,G)$ は対応する$0$ホモロジー群である。

In the literature, abelian higher gauge symmetry models are shown to be valid in all finite dimensions and exhibit the characteristic behavior of SPT phases models. While the ground state degeneracy and the entanglement entropy were thoroughly studied, the classification of the ground state space still remained obscure. Anticipating the notation of the current paper, if $\left( C_{\bullet} , \partial^C_{\bullet} \right)$ is the chain complex associated to the geometrical content of these models, while $\left( G_{\bullet} , \partial^G_{\bullet} \right)$ is its symmetries counterpart, we show that the ground state space is classified by a $H^0 (C,G) \times H_0 (C,G)$ group, where $H^0(C,G)$ is the $0$-th cohomology group associated to its structure and $H_0 (C,G)$ is the corresponding $0$-th homology group.
翻訳日:2023-02-04 12:41:50 公開日:2022-07-19
# LightSolver - 量子にインスパイアされた新しいソルバー

LightSolver -- A New Quantum-inspired Solver Cracks the 3-Regular 3-XORSAT Challenge ( http://arxiv.org/abs/2207.09517v1 )

ライセンス: Link先を確認
Idan Meirzada, Assaf Kalinski, Dov Furman, Tsafrir Armon, Talya Vaknin, Harel Primack, Chene Tradonsky and Ruti Ben-Shlomi(参考訳) 必要計算タスクの複雑さが増大し、従来のコンピューティングの制約が破壊的なイノベーションを呼び起こす。 LightSolverは、全光学プラットフォームを使用してハード最適化問題を解決する新しい量子インスパイアされたコンピューティングパラダイムを考案した。 この作業では、LightSolverはデジタルシミュレータを導入し、3-Regular 3-XORSAT (3R3X)チャレンジに参加する。 これまでのところ、この課題はTTS(Time-to-solution)という観点で明らかな指数的障壁をもたらし、検査対象のプラットフォームが数百変数以上の問題を解決するのを妨げている。 LightSolverのシミュレータは指数障壁を破り、古典と量子プラットフォームの両方を数桁のオーダーで上回り、最大問題サイズを16,000変数以上に拡張した。

The increasing complexity of required computational tasks alongside the inherent limitations in conventional computing calls for disruptive innovation. LightSolver devised a new quantum-inspired computing paradigm, which utilizes an all-optical platform for solving hard optimization problems. In this work, LightSolver introduces its digital simulator and joins the 3-Regular 3-XORSAT (3R3X) challenge, which aims to map the best available state-of-the-art classical and quantum solvers. So far, the challenge has resulted in a clear exponential barrier in terms of time-to-solution (TTS), preventing the inspected platforms from solving problems larger than a few hundred variables. LightSolver's simulator is the first to break the exponential barrier, outperforming both classical and quantum platforms by several orders-of-magnitude and extending the maximal problem size to more than 16,000 variables.
翻訳日:2023-02-04 12:41:21 公開日:2022-07-19
# 深層学習は、乳がんサブタイプがどのように分類されるかを説明するカスタムメイドロジスティック回帰モデルを生成する

Deep learning generates custom-made logistic regression models for explaining how breast cancer subtypes are classified ( http://arxiv.org/abs/2001.06988v2 )

ライセンス: Link先を確認
Takuma Shibahara, Chisa Wada, Yasuho Yamashita, Kazuhiro Fujita, Masamichi Sato, Junichi Kuwata, Atsushi Okamoto, and Yoshimasa Ono(参考訳) 乳がんの内因性サブタイプを区別することは治療戦略を決定する上で重要である。 深層学習は、従来の統計的手法よりも正確な遺伝情報からサブタイプを予測することができるが、現在まで、どのサブタイプに関連づけられた遺伝子を直接研究するために深層学習は使われていない。 内在サブタイプに埋め込まれたメカニズムを明らかにするため,各患者にカスタムメイドロジスティック回帰を生成するPWLモデルという,説明可能な深層学習モデルを開発した。 ロジスティック回帰は, 医師と医療情報学研究者の両方に親しまれており, 特徴変数の重要性を解析することが可能であり, PWLモデルはこれらのロジスティック回帰の実践的能力を利用する。 本研究は, 乳癌の亜型分析が臨床的に有用であり, PWLモデルの有効性を検証する最善の方法の1つであることを示す。 まず、RNA-seqデータを用いてPWLモデルを訓練し、PAM50固有のサブタイプを予測し、サブタイプ予測タスクを通じてPAM50の41/50遺伝子に適用した。 第2に,PAM50サブタイプと乳癌のコピー数との関係を明らかにするための深部濃縮分析法を開発した。 以上の結果から,pwlモデルは細胞周期関連経路に関連する遺伝子を利用した。 これらの乳がん亜型分析の予備的成功は,乳癌の根底にあるメカニズムを解明し,全体の臨床成績を改善するための分析戦略の可能性を示している。

Differentiating the intrinsic subtypes of breast cancer is crucial for deciding the best treatment strategy. Deep learning can predict the subtypes from genetic information more accurately than conventional statistical methods, but to date, deep learning has not been directly utilized to examine which genes are associated with which subtypes. To clarify the mechanisms embedded in the intrinsic subtypes, we developed an explainable deep learning model called a point-wise linear (PWL) model that generates a custom-made logistic regression for each patient. Logistic regression, which is familiar to both physicians and medical informatics researchers, allows us to analyze the importance of the feature variables, and the PWL model harnesses these practical abilities of logistic regression. In this study, we show that analyzing breast cancer subtypes is clinically beneficial for patients and one of the best ways to validate the capability of the PWL model. First, we trained the PWL model with RNA-seq data to predict PAM50 intrinsic subtypes and applied it to the 41/50 genes of PAM50 through the subtype prediction task. Second, we developed a deep enrichment analysis method to reveal the relationships between the PAM50 subtypes and the copy numbers of breast cancer. Our findings showed that the PWL model utilized genes relevant to the cell cycle-related pathways. These preliminary successes in breast cancer subtype analysis demonstrate the potential of our analysis strategy to clarify the mechanisms underlying breast cancer and improve overall clinical outcomes.
翻訳日:2023-01-08 04:56:23 公開日:2022-07-19
# 量子アニーリングによるボルツマン機械の生成・判別訓練

Generative and discriminative training of Boltzmann machine through Quantum annealing ( http://arxiv.org/abs/2002.00792v3 )

ライセンス: Link先を確認
Siddhartha Srivastava, Veera Sundararaghavan(参考訳) 生成および識別タスクのためのボルツマンマシン(BM)を学習するためのハイブリッド量子古典法を提案する。 ボルツマンマシン(Boltzmann machine)は、可視および隠されたノードのネットワークを持つ非指向グラフであり、前者が読み出しサイトとして、後者が可視状態の確率を操作するために使用される。 Generative BMでは、可視データのサンプルは与えられたデータセットの確率分布を模倣する。 対照的に、識別性BMの可視部位は、所定の入力状態に対して出力状態の条件確率を最適化した入出力(I/O)読み出し部位として扱われる。 BM学習のコスト関数は、過パラメタを用いて調整されたKulback-Leibler(KL)発散と負条件付きログライクリーフ(NCLL)の重み付け和として定義される。 ここでは KL Divergence は生成学習のコストであり、NCLL は識別学習のコストである。 確率的ニュートン-ラフソン最適化スキームを提案する。 勾配とヘッセンは、量子アニール(QA)によって得られたBMの直接サンプルを用いて近似される。 量子アニーラー(quantum annealer)は、低温度だが有限温度で動作するイジングモデルの物理を表すハードウェアである。 この温度はbmの確率分布に影響するが、その値は未知である。 これまでの研究は、実際のハードウェアによってサンプリングされた状態の確率でサンプルされた状態の理論的ボルツマンエネルギーの回帰を通じて、この未知の温度を推定することに焦点を当ててきた。 これは制御パラメータの変化がシステム温度に影響しないと仮定するが、通常はそうではない。 代わりに、最適なパラメータセットを推定するために、エネルギーの代わりにサンプルの確率分布に作用するアプローチが提案されている。 これにより、最適集合が単一ランから得られることが保証される。

A hybrid quantum-classical method for learning Boltzmann machines (BM) for a generative and discriminative task is presented. Boltzmann machines are undirected graphs with a network of visible and hidden nodes where the former is used as the reading site while the latter is used to manipulate visible states' probability. In Generative BM, the samples of visible data imitate the probability distribution of a given data set. In contrast, the visible sites of discriminative BM are treated as Input/Output (I/O) reading sites where the conditional probability of output state is optimized for a given set of input states. The cost function for learning BM is defined as a weighted sum of Kullback-Leibler (KL) divergence and Negative conditional Log-Likelihood (NCLL), adjusted using a hyperparamter. Here, the KL Divergence is the cost for generative learning, and NCLL is the cost for discriminative learning. A Stochastic Newton-Raphson optimization scheme is presented. The gradients and the Hessians are approximated using direct samples of BM obtained through Quantum annealing (QA). Quantum annealers are hardware representing the physics of the Ising model that operates on low but finite temperature. This temperature affects the probability distribution of the BM; however, its value is unknown. Previous efforts have focused on estimating this unknown temperature through regression of theoretical Boltzmann energies of sampled states with the probability of states sampled by the actual hardware. This assumes that the control parameter change does not affect the system temperature, however, this is not usually the case. Instead, an approach that works on the probability distribution of samples, instead of the energies, is proposed to estimate the optimal parameter set. This ensures that the optimal set can be obtained from a single run.
翻訳日:2023-01-04 09:23:31 公開日:2022-07-19
# 非凸凸および凸非凸ミニマックス問題に対する単一ループ交流勾配投影アルゴリズム

A Unified Single-loop Alternating Gradient Projection Algorithm for Nonconvex-Concave and Convex-Nonconcave Minimax Problems ( http://arxiv.org/abs/2006.02032v3 )

ライセンス: Link先を確認
Zi Xu, Huiling Zhang, Yang Xu and Guanghui Lan(参考訳) 最近の研究は、いくつかの創発的応用にこれらの問題の関連性があるため、理論的収束保証付きミニマックス問題を解くための効率的なアルゴリズムの開発に向けられている。 本稿では,滑らかな非凸(強い)凸および(強い)凸-非凸ミニマックス問題を解くための単一ループ交流勾配投影(agp)アルゴリズムを提案する。 AGPは単純な勾配プロジェクションステップを用いて、各イテレーションで代わりに原始変数と双対変数を更新する。 目的関数の $\varepsilon$-stationary point が $\mathcal{o}\left( \varepsilon ^{-2} \right)$ (resp.0) にあることを示す。 $\mathcal{O}\left( \varepsilon ^{-4} \right)$) 非凸-強凸 (resp. nonconvex-concave) 条件下での反復。 さらに、目的関数の$\varepsilon$-定常点を得るための勾配複雑性は、$\mathcal{O}\left( \varepsilon ^{-2} \right)$ (resp) で制限される。 , $\mathcal{O}\left( \varepsilon ^{-4} \right)$) を強凸非凸(resp., convex-nonconcave)設定で表す。 我々の知る限りでは、非凸凸(強)と(強)凸非凸極小問題を解くための単純で統一された単一ループアルゴリズムが開発されたのは今回が初めてである。 さらに、後者の(強く)凸非凹のミニマックス問題を解く複雑さは、文献ではこれまで得られなかった。 数値計算の結果,提案アルゴリズムの効率性を示した。 さらに,より一般的なマルチブロック非滑らかな凹凸問題と(強く)凸非凹極小問題を解くためのブロック交互近似勾配(BAPG)アルゴリズムを提示することにより,AGPアルゴリズムを拡張した。 これら4つの異なる設定の下で、提案アルゴリズムの勾配複雑性も同様に確立することができる。

Much recent research effort has been directed to the development of efficient algorithms for solving minimax problems with theoretical convergence guarantees due to the relevance of these problems to a few emergent applications. In this paper, we propose a unified single-loop alternating gradient projection (AGP) algorithm for solving smooth nonconvex-(strongly) concave and (strongly) convex-nonconcave minimax problems. AGP employs simple gradient projection steps for updating the primal and dual variables alternatively at each iteration. We show that it can find an $\varepsilon$-stationary point of the objective function in $\mathcal{O}\left( \varepsilon ^{-2} \right)$ (resp. $\mathcal{O}\left( \varepsilon ^{-4} \right)$) iterations under nonconvex-strongly concave (resp. nonconvex-concave) setting. Moreover, its gradient complexity to obtain an $\varepsilon$-stationary point of the objective function is bounded by $\mathcal{O}\left( \varepsilon ^{-2} \right)$ (resp., $\mathcal{O}\left( \varepsilon ^{-4} \right)$) under the strongly convex-nonconcave (resp., convex-nonconcave) setting. To the best of our knowledge, this is the first time that a simple and unified single-loop algorithm is developed for solving both nonconvex-(strongly) concave and (strongly) convex-nonconcave minimax problems. Moreover, the complexity results for solving the latter (strongly) convex-nonconcave minimax problems have never been obtained before in the literature. Numerical results show the efficiency of the proposed AGP algorithm. Furthermore, we extend the AGP algorithm by presenting a block alternating proximal gradient (BAPG) algorithm for solving more general multi-block nonsmooth nonconvex-(strongly) concave and (strongly) convex-nonconcave minimax problems. We can similarly establish the gradient complexity of the proposed algorithm under these four different settings.
翻訳日:2022-11-25 18:39:44 公開日:2022-07-19
# GANsトレーニングの安定化に関する新しい視点:直接対人訓練

A New Perspective on Stabilizing GANs training: Direct Adversarial Training ( http://arxiv.org/abs/2008.09041v5 )

ライセンス: Link先を確認
Ziqiang Li, Pengfei Xia, Rentuo Tao, Hongjing Niu, Bin Li(参考訳) GAN(Generative Adversarial Networks)は、様々なコンピュータビジョンタスクにおいて顕著な進歩を遂げた画像生成モデルである。 しかしながら、トレーニングの不安定性は、GANベースの全てのアルゴリズムのオープンな問題の一つである。 損失関数、正規化および正規化技術、トレーニングアルゴリズム、モデルアーキテクチャにそれぞれ焦点をあてた、GANのトレーニングを安定化するための多くの手法が提案されている。 本稿では, 上記の方法と異なり, GANsトレーニングの安定化に向けた新たな視点を示す。 生成装置が生成した画像は、訓練過程において識別器の逆の例のように振る舞うことがあり、これがGANの不安定な訓練の原因となる可能性がある。 そこで本研究では,gansの訓練過程を安定化するdaf(direct adversarial training)法を提案する。 さらに, DAT法は判別器のリプシッツ定数を適応的に最小化できることを示す。 DATの高度な性能は、複数の損失関数、ネットワークアーキテクチャ、ハイパーパラメータ、データセットで検証される。 具体的には、SSGANをベースとしたCIFAR-100のFIDが11.5%、SSGANをベースとしたSTL-10のFIDが10.5%、SSGANをベースとしたLSUN-ベッドルームのFIDが13.2%である。 コードはhttps://github.com/iceli1007/DAT-GANで入手できる。

Generative Adversarial Networks (GANs) are the most popular image generation models that have achieved remarkable progress on various computer vision tasks. However, training instability is still one of the open problems for all GAN-based algorithms. Quite a number of methods have been proposed to stabilize the training of GANs, the focuses of which were respectively put on the loss functions, regularization and normalization technologies, training algorithms, and model architectures. Different from the above methods, in this paper, a new perspective on stabilizing GANs training is presented. It is found that sometimes the images produced by the generator act like adversarial examples of the discriminator during the training process, which may be part of the reason causing the unstable training of GANs. With this finding, we propose the Direct Adversarial Training (DAT) method to stabilize the training process of GANs. Furthermore, we prove that the DAT method is able to minimize the Lipschitz constant of the discriminator adaptively. The advanced performance of DAT is verified on multiple loss functions, network architectures, hyper-parameters, and datasets. Specifically, DAT achieves significant improvements of 11.5% FID on CIFAR-100 unconditional generation based on SSGAN, 10.5% FID on STL-10 unconditional generation based on SSGAN, and 13.2% FID on LSUN-Bedroom unconditional generation based on SSGAN. Code will be available at https://github.com/iceli1007/DAT-GAN
翻訳日:2022-10-27 11:42:02 公開日:2022-07-19
# 未来の知的ロボットにおける人間的行動に対する感情のモデル化

Modeling emotion for human-like behavior in future intelligent robots ( http://arxiv.org/abs/2009.14810v2 )

ライセンス: Link先を確認
Marwen Belkaid and Luiz Pessoa(参考訳) 過去数十年にわたり、認知的および感情的神経科学の研究は、感情は人間の知性にとって重要であり、実際には認知から区別できないことを強調してきた。 同時に、ロボットや人工エージェントの感情に関連したプロセスのシミュレーションやモデリングにも関心が集まっている。 本論では,感情モデリングにおける現在の景観のスナップショットを提供し,神経科学が技術の進歩にどのように役立つかを示すことを目的とする。 まず,感情モデリングに関する既存文献の概観から,情緒コンピューティング,ソーシャルロボティクス,ニューロロボティクスの3分野を概観する。 自然感情に関する現在の知識状況を簡単に要約し、人工感情における既存の提案が神経科学的な証拠と十分に接触していないことを強調する。 我々は、人工感情と知能機械の今後の研究をより一般的に導くための一連の原則を提供することで、結論付ける。 全体として、ロボットモデルにおける感情関連プロセスのより強力な統合は、未来のインテリジェントマシンにおける人間的な振る舞いの設計に不可欠である。 このような統合は、現実世界の問題に対処できる自律型社会機械の開発に寄与するだけでなく、人間の感情の理解の促進にも寄与する。

Over the past decades, research in cognitive and affective neuroscience has emphasized that emotion is crucial for human intelligence and in fact inseparable from cognition. Concurrently, there has been growing interest in simulating and modeling emotion-related processes in robots and artificial agents. In this opinion paper, our goal is to provide a snapshot of the present landscape in emotion modeling and to show how neuroscience can help advance the current state of the art. We start with an overview of the existing literature on emotion modeling in three areas of research: affective computing, social robotics, and neurorobotics. Briefly summarizing the current state of knowledge on natural emotion, we then highlight how existing proposals in artificial emotion do not make sufficient contact with neuroscientific evidence. We conclude by providing a set of principles to help guide future research in artificial emotion and intelligent machines more generally. Overall, we argue that a stronger integration of emotion-related processes in robot models is critical for the design of human-like behavior in future intelligent machines. Such integration not only will contribute to the development of autonomous social machines capable of tackling real-world problems but would contribute to advancing understanding of human emotion.
翻訳日:2022-10-12 23:44:46 公開日:2022-07-19
# 文脈的調音情報による音声強調

Speech Enhancement Guided by Contextual Articulatory Information ( http://arxiv.org/abs/2011.07442v3 )

ライセンス: Link先を確認
Yen-Ju Lu, Chia-Yu Chang, Cheng Yu, Ching-Feng Liu, Jeih-weih Hung, Shinji Watanabe, Yu Tsao(参考訳) 従来,音声の音響的特徴を調音的特徴の場所/マニピュレータで増強することにより,音声強調(SE)過程を導出することにより,音声の調音特性を考慮し,演奏性の向上を図ることができた。 したがって、調音属性の文脈情報は、SEのさらなる利益となる追加情報を持つ。 本研究では,e2e-asr(end-to-end automatic speech recognition)モデルを用いたseモデルの合同学習と,音素/単語系列の代わりに広音素クラス(bpcs)のシーケンスを予測することにより,拡張音声における文脈的調音情報を最適化し,性能を向上させるseシステムを提案する。 我々は,bpcベースのasrに基づくseシステムを学習するための2つの戦略を開発した。 発声, 発声, 音声強調タスクによる実験結果から, 文脈的調音情報によってSEシステムに促進され, 改善効果が向上することが確認された。 さらに、モノフォニックASRで訓練された別のSEシステムとは対照的に、BPCベースのASRは、異なる信号対雑音比(SNR)レベルで優れたSE性能が得られる。

Previous studies have confirmed that by augmenting acoustic features with the place/manner of articulatory features, the speech enhancement (SE) process can be guided to consider the articulatory properties of the input speech when performing enhancement to attain performance improvements. Thus, the contextual information of articulatory attributes has additional information that can further benefit SE. This study proposed an SE system that improved performance by optimizing contextual articulatory information in enhanced speech through joint training of the SE model with an end-to-end automatic speech recognition (E2E-ASR) model and predicting the sequence of broad phone classes (BPCs) instead of the phoneme/word sequences. We developed two strategies to train the SE system based on BPC-based ASR: multi-task learning and deep-feature training strategies. Experimental results from speech denoising, speech dereverberation, and impaired speech enhancement tasks confirmed that the contextual articulatory information facilitates the SE system to improve enhancement results. Moreover, in contrast to another SE system trained with monophonic ASR, the BPC-based ASR (providing contextual articulatory information) can achieve superior SE performance at different signal-to-noise ratio (SNR) levels.
翻訳日:2022-09-25 07:49:17 公開日:2022-07-19
# DNN解釈システムにおけるバックドア攻撃

Backdoor Attacks on the DNN Interpretation System ( http://arxiv.org/abs/2011.10698v3 )

ライセンス: Link先を確認
Shihong Fang, Anna Choromanska(参考訳) 解釈可能性はディープニューラルネットワーク(DNN)の内部動作を理解するために不可欠であり、多くの解釈手法は、DNNの予測に最も寄与する入力画像の一部をハイライトするサリエンシマップを生成する。 本稿では,裸眼では見えないインジェクションのみを入力画像としてネットワークが生成するサリエンシマップを変更するバックドアアタックを,予測精度を維持しながら設計する。 この攻撃は、トレーニングデータセットにトリガーで有毒なデータを注入することに依存する。 深層モデルのトレーニングに使用される目的関数のペナルティ項には,サリエンシマップが組み込まれており,トリガの有無に応じて,モデルトレーニングへの影響が条件付けられている。 我々は2種類の攻撃をデザインする: サリエンシーマップの特定の変更を強制するターゲット攻撃と、元のサリエンシーマップの上位ピクセルの重要性スコアが著しく低下した場合の非ターゲティング攻撃である。 本研究では,様々なディープラーニングアーキテクチャを対象とした,勾配に基づく,勾配のない解釈手法に対するバックドア攻撃の実証評価を行う。 非信頼なソースによって開発されたディープラーニングモデルをデプロイする場合、我々の攻撃は深刻なセキュリティ上の脅威となる。 最後に,提案手法が,トリガ(キー)の存在下でのみ正しいサリエンシーマップが得られ,選択したユーザのみに解釈システムを効果的に利用できるようにする逆設定で使用できることを示す。

Interpretability is crucial to understand the inner workings of deep neural networks (DNNs) and many interpretation methods generate saliency maps that highlight parts of the input image that contribute the most to the prediction made by the DNN. In this paper we design a backdoor attack that alters the saliency map produced by the network for an input image only with injected trigger that is invisible to the naked eye while maintaining the prediction accuracy. The attack relies on injecting poisoned data with a trigger into the training data set. The saliency maps are incorporated in the penalty term of the objective function that is used to train a deep model and its influence on model training is conditioned upon the presence of a trigger. We design two types of attacks: targeted attack that enforces a specific modification of the saliency map and untargeted attack when the importance scores of the top pixels from the original saliency map are significantly reduced. We perform empirical evaluation of the proposed backdoor attacks on gradient-based and gradient-free interpretation methods for a variety of deep learning architectures. We show that our attacks constitute a serious security threat when deploying deep learning models developed by untrusty sources. Finally, in the Supplement we demonstrate that the proposed methodology can be used in an inverted setting, where the correct saliency map can be obtained only in the presence of a trigger (key), effectively making the interpretation system available only to selected users.
翻訳日:2022-09-22 22:57:54 公開日:2022-07-19
# クラウドソーシングによるコンパニオンドローンCOROIDは、現在のパンデミックに対処する

COROID: A Crowdsourcing-based Companion Drones to Tackle Current and Future Pandemics ( http://arxiv.org/abs/2208.04704v1 )

ライセンス: Link先を確認
Ashish Rauniyar, Desta Haileselassie Hagos, Debesh Jha, Jan Erik H{\aa}keg{\aa}rd(参考訳) 世界保健機関(who)が既にパンデミックと宣言している現在の新型コロナウイルス(covid-19)は、この10年で最大のパンデミックを目撃している。 何百万人もの人々が感染しており、世界中で毎日数千人が死亡している。 一度に何千人もの患者を治療することの難しさから、最善の医療提供国でもパンデミックに対処できなかった。 感染数や死亡数の増加は、ウイルスの感染拡大によって深刻化している。 このようなパンデミックの状況に対処するための医療分野からの明確な解決策が見つかるまで、革新的な技術がパンデミックをある程度削減できると信じています。 技術革新は、この困難な時代に人々や社会を支援する新しい技術を導入する可能性がある。 そこで本稿では,現在および将来のパンデミックに取り組むために,ドローンをコンパニオンとして利用することを提案する。 当社のCOROIDドローンは、一般のスマートデバイスのセンサデータをクラウドソーシングする原則に基づいており、COROIDドローンに搭載されている赤外線カメラの読み取りを相関付けることができる。 私たちの知る限りでは、この概念は概念としても製品としてもまだ調査されていない。 したがって、コロイドドローンは革新的で、新型コロナウイルス(covid-19)と今後のパンデミックに取り組む大きな可能性を秘めている。

Due to the current COVID-19 virus, which has already been declared a pandemic by the World Health Organization (WHO), we are witnessing the greatest pandemic of the decade. Millions of people are being infected, resulting in thousands of deaths every day across the globe. Even it was difficult for the best healthcare-providing countries could not handle the pandemic because of the strain of treating thousands of patients at a time. The count of infections and deaths is increasing at an alarming rate because of the spread of the virus. We believe that innovative technologies could help reduce pandemics to a certain extent until we find a definite solution from the medical field to handle and treat such pandemic situations. Technology innovation has the potential to introduce new technologies that could support people and society during these difficult times. Therefore, this paper proposes the idea of using drones as a companion to tackle current and future pandemics. Our COROID drone is based on the principle of crowdsourcing sensors data of the public's smart devices, which can correlate the reading of the infrared cameras equipped on the COROID drones. To the best of our knowledge, this concept has yet to be investigated either as a concept or as a product. Therefore, we believe that the COROID drone is innovative and has a huge potential to tackle COVID-19 and future pandemics.
翻訳日:2022-08-14 18:25:02 公開日:2022-07-19
# 降圧心電図とgsrデータによるストレスの分類

Classification of Stress via Ambulatory ECG and GSR Data ( http://arxiv.org/abs/2208.04705v1 )

ライセンス: Link先を確認
Zachary Dair, Muhammad Muneeb Saad, Urja Pawar, Samantha Dockray, Ruairi O'Reilly(参考訳) 医療において、ストレスの検出と個人のメンタルヘルスと幸福の監視は困難である。 ウェアラブル技術の進歩により、継続的な生理的データ収集が可能になる。 このデータは精神生理学的分析を通じて精神状態や行動状態に関する洞察を与えることができる。 しかし、収集したデータの量によってタイムリーな結果を提供するには、自動分析が必要である。 機械学習は、制御された実験室環境における健康応用のための生理的データの自動分類を提供することに有効である。 しかし、無制御の環境は、さらなるモデリングを克服する必要がある追加の課題をもたらしている。 本研究は, 自己申告されたストレスアノテーションを用いて, 生理的データを用いて, ストレスを検出する機械学習分類器を用いたいくつかのアプローチを実験的に評価する。 トレーニング部SMILEデータセットのサブセットは、提出前にアプローチの評価を可能にする。 最適応力検出手法は90.77%の分類精度、91.24のF1スコア、90.42の感度、91.08の特異性を達成し、ExtraTrees分類器と特徴計算手法を利用している。 一方、チャレンジデータの精度は59.23%(BEaTS-MTUから54号、ユーザ名ZacDair)でかなり低い。 本研究では性能格差の原因について検討する。

In healthcare, detecting stress and enabling individuals to monitor their mental health and wellbeing is challenging. Advancements in wearable technology now enable continuous physiological data collection. This data can provide insights into mental health and behavioural states through psychophysiological analysis. However, automated analysis is required to provide timely results due to the quantity of data collected. Machine learning has shown efficacy in providing an automated classification of physiological data for health applications in controlled laboratory environments. Ambulatory uncontrolled environments, however, provide additional challenges requiring further modelling to overcome. This work empirically assesses several approaches utilising machine learning classifiers to detect stress using physiological data recorded in an ambulatory setting with self-reported stress annotations. A subset of the training portion SMILE dataset enables the evaluation of approaches before submission. The optimal stress detection approach achieves 90.77% classification accuracy, 91.24 F1-Score, 90.42 Sensitivity and 91.08 Specificity, utilising an ExtraTrees classifier and feature imputation methods. Meanwhile, accuracy on the challenge data is much lower at 59.23% (submission #54 from BEaTS-MTU, username ZacDair). The cause of the performance disparity is explored in this work.
翻訳日:2022-08-14 18:24:15 公開日:2022-07-19
# リジェクトオプションによるidpsシグネチャの分類と専門家知識の導入

IDPS Signature Classification with a Reject Option and the Incorporation of Expert Knowledge ( http://arxiv.org/abs/2207.10797v1 )

ライセンス: Link先を確認
Hidetoshi Kawaguchi, Yuichi Nakatani and Shogo Okada(参考訳) 侵入検知・防止システム(IDPS)の重要性が高まるにつれて、悪意のある通信パターンファイルによって生成されるシグネチャを管理するために多大なコストがかかる。 ネットワークセキュリティの専門家は、IDPSが機能することの重要性によって署名を分類する必要がある。 我々は,idp設定コストを削減するために,reject option (ro) を用いた機械学習署名分類モデルを提案し,評価する。 提案モデルの訓練には,署名分類に有効な特徴を設計することが不可欠である。 専門家は、事前定義されたif-thenルールで署名を分類する。 if-thenルールは、署名中の要素のキーワードマッチングに基づいて、低、中、高、または未知の重要度ラベルを返す。 そこで我々はまず,f-thenルールのキーワードマッチングに使用される記号的特徴(SF)とキーワード特徴(KF)の2種類の特徴を設計する。 次に、Web情報とメッセージ機能(WMF)を設計し、if-thenルールにマッチしないシグネチャのプロパティをキャプチャする。 WMFは、署名中のメッセージテキストの項周波数逆文書周波数(TF-IDF)の特徴として抽出される。 これらの特徴は、署名に記載された参照外部攻撃識別システムからWebスクレイピングによって得られる。 医療分野では,IDPSシグネチャの分類において障害を最小化する必要があるため,提案モデルにROを導入することを検討する。 提案手法の有効性は,if-thenルールで分類できるデータセットと,if-thenルールと一致しない要素で分類できるデータセットという,専門家によってラベル付けされた2つの署名からなる実データセットを用いて評価される。 実験では,提案モデルの評価を行った。 いずれの場合も, SFとWMFの併用は, SFとKFの併用よりも良好であった。 また,特徴分析も行った。

As the importance of intrusion detection and prevention systems (IDPSs) increases, great costs are incurred to manage the signatures that are generated by malicious communication pattern files. Experts in network security need to classify signatures by importance for an IDPS to work. We propose and evaluate a machine learning signature classification model with a reject option (RO) to reduce the cost of setting up an IDPS. To train the proposed model, it is essential to design features that are effective for signature classification. Experts classify signatures with predefined if-then rules. An if-then rule returns a label of low, medium, high, or unknown importance based on keyword matching of the elements in the signature. Therefore, we first design two types of features, symbolic features (SFs) and keyword features (KFs), which are used in keyword matching for the if-then rules. Next, we design web information and message features (WMFs) to capture the properties of signatures that do not match the if-then rules. The WMFs are extracted as term frequency-inverse document frequency (TF-IDF) features of the message text in the signatures. The features are obtained by web scraping from the referenced external attack identification systems described in the signature. Because failure needs to be minimized in the classification of IDPS signatures, as in the medical field, we consider introducing a RO in our proposed model. The effectiveness of the proposed classification model is evaluated in experiments with two real datasets composed of signatures labeled by experts: a dataset that can be classified with if-then rules and a dataset with elements that do not match an if-then rule. In the experiment, the proposed model is evaluated. In both cases, the combined SFs and WMFs performed better than the combined SFs and KFs. In addition, we also performed feature analysis.
翻訳日:2022-08-07 14:40:53 公開日:2022-07-19
# 建築要員の育成における機械学習アプローチ

Machine learning approach in the development of building occupant personas ( http://arxiv.org/abs/2207.11239v1 )

ライセンス: Link先を確認
Sheik Murad Hassan Anik, Xinghua Gao, Na Meng(参考訳) user personaは、デザイナーがユーザーのアーカイブタイプを記述するメンタルモデルを生成するためのコミュニケーションツールである。 利用者の快適さ,行動,エネルギー消費を考慮した,人間中心のスマートビル設計のための効果的な手法であることが実証されている。 建物のエネルギー消費の最適化はまた、居住者の好みや行動の深い理解を必要とする。 人格構築への現在のアプローチは、手動データ処理と分析の大きな障害に直面している。 本研究では,機械学習に基づく半自動化手法の提案と評価を行った。 我々は,2015年の家庭用エネルギー消費データセットを,線形判別分析,K近縁地区,決定木(ランドムフォレスト),サポートベクターマシン,およびAdaBoost分類器の5つの機械学習技術を用いて検討し,年齢,教育,温熱快適度など16の居住特性の予測を行った。 このモデルは、世帯内の居住者数、年齢層、暖房や冷却機器の好適使用を含む属性について、平均61%の精度と90%以上の精度を達成している。 本研究は,人的努力を最小限に抑えるために,人格構築のための機械学習技術の利用の可能性を示した。

The user persona is a communication tool for designers to generate a mental model that describes the archetype of users. Developing building occupant personas is proven to be an effective method for human-centered smart building design, which considers occupant comfort, behavior, and energy consumption. Optimization of building energy consumption also requires a deep understanding of occupants' preferences and behaviors. The current approaches to developing building occupant personas face a major obstruction of manual data processing and analysis. In this study, we propose and evaluate a machine learning-based semi-automated approach to generate building occupant personas. We investigate the 2015 Residential Energy Consumption Dataset with five machine learning techniques - Linear Discriminant Analysis, K Nearest Neighbors, Decision Tree (Random Forest), Support Vector Machine, and AdaBoost classifier - for the prediction of 16 occupant characteristics, such as age, education, and, thermal comfort. The models achieve an average accuracy of 61% and accuracy over 90% for attributes including the number of occupants in the household, their age group, and preferred usage of heating or cooling equipment. The results of the study show the feasibility of using machine learning techniques for the development of building occupant persona to minimize human effort.
翻訳日:2022-08-07 14:40:24 公開日:2022-07-19
# 少数ショット分類のためのベイズ証拠学習

Bayesian Evidential Learning for Few-Shot Classification ( http://arxiv.org/abs/2207.13137v1 )

ライセンス: Link先を確認
Xiongkun Linghu, Yan Bai, Yihang Lou, Shengsen Wu, Jinze Li, Jianzhong He, Tao Bai(参考訳) few-shot classification(fsc)は、非常に限定されたラベル付きサンプルを与えられたベースクラスから新しいクラスに一般化することを目的としている。 最先端のソリューションは、サンプル間の距離を計算するための良い計量と表現空間を見つけることを含む。 有望な精度性能にもかかわらず、計量ベースのFSC手法の不確実性を効果的にモデル化する方法は依然として課題である。 不確かさをモデル化するために、エビデンス理論に基づいたクラス確率上の分布を配置する。 その結果、不確実性モデリングとメトリック学習を分離することができる。 分類の不確実性を低減するため,ベイズ証拠融合定理を提案する。 観測されたサンプルから、ネットワークは事前学習されたネットワークによって生成された事前パラメータから後部分布パラメータを取得することを学習する。 詳細な勾配解析により,提案手法は滑らかな最適化目標を提供し,不確かさを捉えることができることを示した。 提案手法はメトリック学習戦略に依存せず,プラグアンドプレイモジュールとして実装することができる。 提案手法をいくつかの最新のFSC手法に統合し、標準FSCベンチマークにおける精度の向上と不確実性定量化を示す。

Few-Shot Classification(FSC) aims to generalize from base classes to novel classes given very limited labeled samples, which is an important step on the path toward human-like machine learning. State-of-the-art solutions involve learning to find a good metric and representation space to compute the distance between samples. Despite the promising accuracy performance, how to model uncertainty for metric-based FSC methods effectively is still a challenge. To model uncertainty, We place a distribution over class probability based on the theory of evidence. As a result, uncertainty modeling and metric learning can be decoupled. To reduce the uncertainty of classification, we propose a Bayesian evidence fusion theorem. Given observed samples, the network learns to get posterior distribution parameters given the prior parameters produced by the pre-trained network. Detailed gradient analysis shows that our method provides a smooth optimization target and can capture the uncertainty. The proposed method is agnostic to metric learning strategies and can be implemented as a plug-and-play module. We integrate our method into several newest FSC methods and demonstrate the improved accuracy and uncertainty quantification on standard FSC benchmarks.
翻訳日:2022-08-07 14:32:46 公開日:2022-07-19
# ALTO:UAV視覚位置認識と位置認識のための大規模データセット

ALTO: A Large-Scale Dataset for UAV Visual Place Recognition and Localization ( http://arxiv.org/abs/2207.12317v1 )

ライセンス: Link先を確認
Ivan Cisneros, Peng Yin, Ji Zhang, Howie Choset and Sebastian Scherer(参考訳) 本研究では,無人航空機の視覚的位置認識および局所化手法の開発とベンチマークのための,視覚に焦点を当てたデータセットであるALTOデータセットを提案する。 このデータセットは、オハイオとペンシルバニアの上空をヘリコプターが飛行する2つの長い(約150kmと260km)軌跡で構成されており、高精度GPS-INS地上真実位置データ、高精度加速度計、レーザー高度計、RGB下向きカメラ画像を含んでいる。 さらに, 飛行経路上での参照画像を提供することにより, このデータセットは, 画像登録や視覚オドメトリなど, ローカライゼーションに共通するvprベンチマークやタスクに適合する。 著者の知る限り、これはこの種の現実世界の空中車両のデータセットとしては最大である。 私たちのデータセットはhttps://github.com/metaslam/altoで利用可能です。

We present the ALTO dataset, a vision-focused dataset for the development and benchmarking of Visual Place Recognition and Localization methods for Unmanned Aerial Vehicles. The dataset is composed of two long (approximately 150km and 260km) trajectories flown by a helicopter over Ohio and Pennsylvania, and it includes high precision GPS-INS ground truth location data, high precision accelerometer readings, laser altimeter readings, and RGB downward facing camera imagery. In addition, we provide reference imagery over the flight paths, which makes this dataset suitable for VPR benchmarking and other tasks common in Localization, such as image registration and visual odometry. To the author's knowledge, this is the largest real-world aerial-vehicle dataset of this kind. Our dataset is available at https://github.com/MetaSLAM/ALTO.
翻訳日:2022-08-07 14:32:30 公開日:2022-07-19
# 3次元医用画像分割のための大カーネル注意

Large-Kernel Attention for 3D Medical Image Segmentation ( http://arxiv.org/abs/2207.11225v1 )

ライセンス: Link先を確認
Hao Li, Yang Nan, Javier Del Ser, Guang Yang(参考訳) ディープラーニング法を用いてMRI(MRI)やCT(CT)スキャンなどの3次元医用画像からの複数の臓器や腫瘍の自動分離は、がんの診断と治療に役立つ。 しかし、臓器はしばしば重複し、複雑に結合しており、大きな解剖学的変異と低いコントラストが特徴である。 さらに, 腫瘍形状, 位置, 外観の多様性は, 背景ボクセルの優位性と相まって, 正確な3次元画像分割を困難にしている。 本稿では,これらの問題に対処し,高精度な多臓器分節と腫瘍分節を実現するために,LKアテンションモジュールを提案する。 畳み込みと自己注意の利点は、局所的な文脈情報、長距離依存、チャネル適応を含むLKアテンションモジュールで組み合わせられる。 モジュールはまた、計算コストを最適化するためにLK畳み込みを分解し、U-NetのようなFCNに簡単に組み込むことができる。 包括的アブレーション実験は畳み込み分解の可能性を示し、最も効率的で効果的なネットワーク設計を探求した。 その中でも, ct-org と brats 2020 データセットを用いて, 最高の中型 lk 注意型 u-net ネットワークの評価を行い, 最先端のセグメンテーション性能を得た。 提案したLKアテンションモジュールによる性能改善も統計的に検証された。

Automatic segmentation of multiple organs and tumors from 3D medical images such as magnetic resonance imaging (MRI) and computed tomography (CT) scans using deep learning methods can aid in diagnosing and treating cancer. However, organs often overlap and are complexly connected, characterized by extensive anatomical variation and low contrast. In addition, the diversity of tumor shape, location, and appearance, coupled with the dominance of background voxels, makes accurate 3D medical image segmentation difficult. In this paper, a novel large-kernel (LK) attention module is proposed to address these problems to achieve accurate multi-organ segmentation and tumor segmentation. The advantages of convolution and self-attention are combined in the proposed LK attention module, including local contextual information, long-range dependence, and channel adaptation. The module also decomposes the LK convolution to optimize the computational cost and can be easily incorporated into FCNs such as U-Net. Comprehensive ablation experiments demonstrated the feasibility of convolutional decomposition and explored the most efficient and effective network design. Among them, the best Mid-type LK attention-based U-Net network was evaluated on CT-ORG and BraTS 2020 datasets, achieving state-of-the-art segmentation performance. The performance improvement due to the proposed LK attention module was also statistically validated.
翻訳日:2022-07-31 14:21:02 公開日:2022-07-19
# Harmony Search:医療システムの現状と利用

Harmony Search: Current Studies and Uses on Healthcare Systems ( http://arxiv.org/abs/2207.13075v1 )

ライセンス: Link先を確認
Maryam T. Abdulkhaleq, Tarik A. Rashid, Abeer Alsadoon, Bryar A. Hassan, Mokhtar Mohammadi, Jaza M. Abdullah, Amit Chhabra, Sazan L. Ali, Rawshan N. Othman, Hadil A. Hasan, Sara Azad, Naz A. Mahmood, Sivan S. Abdalrahman, Hezha O. Rasul, Nebojsa Bacanin, S.Vimal(参考訳) メタヒューリスティック検索アルゴリズムとして、Harmony Search (HS)がある。 HSは、その平衡探索および収束挙動と単純かつ柔軟な構造のために最適化問題の解を見つけることができることが確認されている。 この能力により、このアルゴリズムは、医療システム、異なる工学分野、コンピュータサイエンスなど、様々な分野の現実世界のアプリケーションに適用することが好まれる。 HSの人気は、HSとその医療システムに関する変種に関する文献を包括的に調査し、その強さや弱点を分析し、今後の研究方向性を示唆することを促す。 本稿では,4つのドメインにおいて,調和探索の現在の研究と利用について検討する。 (i)hsの変種は、その改変とハイブリダイゼーションを含む。 (ii)先行研究の概略 (iii)医療システムにおけるhsの適用 (4)最後に、医療システムにおけるHSの適用のための運用フレームワークが提案されている。 このレビューの主な貢献は、医療システムにおけるhsの徹底的な検査を提供することであり、また、この方法の調査や実施を希望する有望な学者にとって貴重な資源でもある。

One of the popular metaheuristic search algorithms is Harmony Search (HS). It has been verified that HS can find solutions to optimization problems due to its balanced exploratory and convergence behavior and its simple and flexible structure. This capability makes the algorithm preferable to be applied in several real-world applications in various fields, including healthcare systems, different engineering fields, and computer science. The popularity of HS urges us to provide a comprehensive survey of the literature on HS and its variants on health systems, analyze its strengths and weaknesses, and suggest future research directions. In this review paper, the current studies and uses of harmony search are studied in four main domains. (i) The variants of HS, including its modifications and hybridization. (ii) Summary of the previous review works. (iii) Applications of HS in healthcare systems. (iv) And finally, an operational framework is proposed for the applications of HS in healthcare systems. The main contribution of this review is intended to provide a thorough examination of HS in healthcare systems while also serving as a valuable resource for prospective scholars who want to investigate or implement this method.
翻訳日:2022-07-31 14:20:38 公開日:2022-07-19
# 視覚言語ナビゲーションのための目標駆動構造変圧器プランナー

Target-Driven Structured Transformer Planner for Vision-Language Navigation ( http://arxiv.org/abs/2207.11201v1 )

ライセンス: Link先を確認
Yusheng Zhao, Jinyu Chen, Chen Gao, Wenguan Wang, Lirong Yang, Haibing Ren, Huaxia Xia, Si Liu(参考訳) 視覚言語ナビゲーションは、インボディードエージェントが自然言語で3Dシーンをナビゲートするタスクである。 このエージェントは、視覚言語手がかりから長期航法目標を推測することが信頼性の高い経路計画に不可欠であるが、文献で研究されることは稀である。 本稿では,長期ホリゾン目標誘導および室内レイアウト対応ナビゲーションのための,目標駆動型構造化トランスフォーマープランナー(td-stp)を提案する。 具体的には,(未探査環境においても)長期的目標を明示的に推定するための虚構的シーントークン化機構を考案する。 さらに,調査室のレイアウトを構造的かつグローバルな計画のためのニューラルアテンションアーキテクチャにエレガントに組み込んだ構造化トランスフォーマープランナーを設計する。 実験の結果,td-stpは,r2rテストセットとreverieベンチマークテストにおいて,従来のベストメソッドの成功率を2%,5%向上させた。 私たちのコードはhttps://github.com/YushengZhao/TD-STP で利用可能です。

Vision-language navigation is the task of directing an embodied agent to navigate in 3D scenes with natural language instructions. For the agent, inferring the long-term navigation target from visual-linguistic clues is crucial for reliable path planning, which, however, has rarely been studied before in literature. In this article, we propose a Target-Driven Structured Transformer Planner (TD-STP) for long-horizon goal-guided and room layout-aware navigation. Specifically, we devise an Imaginary Scene Tokenization mechanism for explicit estimation of the long-term target (even located in unexplored environments). In addition, we design a Structured Transformer Planner which elegantly incorporates the explored room layout into a neural attention architecture for structured and global planning. Experimental results demonstrate that our TD-STP substantially improves previous best methods' success rate by 2% and 5% on the test set of R2R and REVERIE benchmarks, respectively. Our code is available at https://github.com/YushengZhao/TD-STP .
翻訳日:2022-07-31 14:15:42 公開日:2022-07-19
# MobileNetV3による農業病の軽度識別の改善

Improved lightweight identification of agricultural diseases based on MobileNetV3 ( http://arxiv.org/abs/2207.11238v1 )

ライセンス: Link先を確認
Yuhang Jiang, Wenping Tong(参考訳) 現在、農業用害虫や病気の同定には、モデルが十分に軽量で適用が難しいという問題がある。 本稿では,mobilenetv3に基づいて座標注意ブロックを提案する。 MobileNetV3のパラメータは22%削減され、モデルサイズは19.7%削減され、精度は0.92%向上した。 MobileNetV3-small のパラメータは 23.4% 削減され、モデルサイズは 18.3% 削減され、精度は 0.40% 向上した。 さらに改良されたmobilenetv3-smallはテストのためにjetson nanoに移行された。 精度は2.48%向上して98.31%、推論速度は7.5%向上した。 農業用害虫識別モデルを組み込みデバイスにデプロイするためのリファレンスを提供する。

At present, the identification of agricultural pests and diseases has the problem that the model is not lightweight enough and difficult to apply. Based on MobileNetV3, this paper introduces the Coordinate Attention block. The parameters of MobileNetV3-large are reduced by 22%, the model size is reduced by 19.7%, and the accuracy is improved by 0.92%. The parameters of MobileNetV3-small are reduced by 23.4%, the model size is reduced by 18.3%, and the accuracy is increased by 0.40%. In addition, the improved MobileNetV3-small was migrated to Jetson Nano for testing. The accuracy increased by 2.48% to 98.31%, and the inference speed increased by 7.5%. It provides a reference for deploying the agricultural pest identification model to embedded devices.
翻訳日:2022-07-31 14:15:27 公開日:2022-07-19
# 実際にそれを2回見る(yaltai): krakenエンジン内の領域分割の代わりにオブジェクト検出アプローチを使う

You Actually Look Twice At it (YALTAi): using an object detection approach instead of region segmentation within the Kraken engine ( http://arxiv.org/abs/2207.11230v1 )

ライセンス: Link先を確認
Thibault Cl\'erice (ENC, CJM, HiSoMA, UJML)(参考訳) レイアウト分析(ゾーンの識別とその分類)は、光学的文字認識と類似のタスクにおけるラインセグメンテーションに沿った最初のステップである。 テキストの本体を限界テキストやランニングタイトルから識別する能力は、デジタル化された本の全文を抽出することとノイズのある出力を区別する。 多くのセグメンタは画素分類に焦点を当てており、この出力の多角化は2010年代前半の焦点であったにもかかわらず、最新の歴史文書(icdar 2017以降)のターゲットには使われていない。 本稿では,画素分類に基づく多角化から等角形を用いた物体検出へタスクを効率良くシフトする。 krakenとyolov5のアウトプットをセグメンテーションの観点で比較し、後続のアウトプットが小さなデータセット (1110サンプル以下) で最初の値を大きく上回っていることを示した。 歴史的文書のトレーニングと評価のための2つのデータセットと,Kraken 4.1のセグメンテーションパイプラインにYOLOv5を注入する新しいパッケージYALTAiをリリースする。

Layout Analysis (the identification of zones and their classification) is the first step along line segmentation in Optical Character Recognition and similar tasks. The ability of identifying main body of text from marginal text or running titles makes the difference between extracting the work full text of a digitized book and noisy outputs. We show that most segmenters focus on pixel classification and that polygonization of this output has not been used as a target for the latest competition on historical document (ICDAR 2017 and onwards), despite being the focus in the early 2010s. We propose to shift, for efficiency, the task from a pixel classification-based polygonization to an object detection using isothetic rectangles. We compare the output of Kraken and YOLOv5 in terms of segmentation and show that the later severely outperforms the first on small datasets (1110 samples and below). We release two datasets for training and evaluation on historical documents as well as a new package, YALTAi, which injects YOLOv5 in the segmentation pipeline of Kraken 4.1.
翻訳日:2022-07-31 14:15:16 公開日:2022-07-19
# OpenFilter: ソーシャルメディアARフィルタの研究アクセスを民主化するためのフレームワーク

OpenFilter: A Framework to Democratize Research Access to Social Media AR Filters ( http://arxiv.org/abs/2207.12319v1 )

ライセンス: Link先を確認
Piera Riccio and Bill Psomas and Francesco Galati and Francisco Escolano and Thomas Hofmann and Nuria Oliver(参考訳) 自撮りの拡張現実(AR)フィルターは、マーケティング、エンターテイメント、美学など、さまざまな用途のソーシャルメディアプラットフォームで非常に人気がある。 社会構造や関係におけるAR顔フィルターの普及と顔の重要性を考えると、そのようなフィルターが心理的、芸術的、社会学的に与える影響を分析することへの科学コミュニティの関心が高まっている。 しかし、この領域では、主にARフィルタを用いた顔画像の公開データセットが欠如しているため、定量分析は少ない。 ほとんどのソーシャルメディアプラットフォームのプロプライエタリで密接な性質は、ユーザや科学者、実践者がコードや利用可能なAR顔フィルターの詳細にアクセスできない。 これらのプラットフォームからデータを収集するために顔を切り取ることは倫理的に受け入れられず、研究で避けるべきである。 本稿では、ソーシャルメディアプラットフォームで利用可能なARフィルタを、既存の顔の大規模なコレクションに適用するためのフレキシブルなフレームワークOpenFilterを提案する。 さらに、FairBeautyとB-LFWの2つの美化バージョンを共有し、これらの美化データセットの分析から得られた知見を概説する。

Augmented Reality or AR filters on selfies have become very popular on social media platforms for a variety of applications, including marketing, entertainment and aesthetics. Given the wide adoption of AR face filters and the importance of faces in our social structures and relations, there is increased interest by the scientific community to analyze the impact of such filters from a psychological, artistic and sociological perspective. However, there are few quantitative analyses in this area mainly due to a lack of publicly available datasets of facial images with applied AR filters. The proprietary, close nature of most social media platforms does not allow users, scientists and practitioners to access the code and the details of the available AR face filters. Scraping faces from these platforms to collect data is ethically unacceptable and should, therefore, be avoided in research. In this paper, we present OpenFilter, a flexible framework to apply AR filters available in social media platforms on existing large collections of human faces. Moreover, we share FairBeauty and B-LFW, two beautified versions of the publicly available FairFace and LFW datasets and we outline insights derived from the analysis of these beautified datasets.
翻訳日:2022-07-31 14:14:56 公開日:2022-07-19
# プロンプトベース感情分析によるコラボレーティブフィルタリングレコメンダの強化

Enhancing Collaborative Filtering Recommender with Prompt-Based Sentiment Analysis ( http://arxiv.org/abs/2207.12883v1 )

ライセンス: Link先を確認
Elliot Dang, Zheyuan Hu, Tong Li(参考訳) コラボレーティブフィルタリング(cf)リコメンダは、オンライン市場とeコマースにおいて重要なアプリケーションである。 しかしながら、cf recommenderは、ユーザレーティングのスパース性に関連する永続的な問題に苦しむことが証明されており、さらにコールドスタートの問題に繋がる。 既存の手法では,ユーザ評価の補完として,テキストレビューを感情スコアに変換するトークンレベルの感情分析を適用することで,データ空間の問題に対処している。 本稿では,BERTやRoBERTaを含む先進NLPモデルを用いた感情分析を最適化し,CFレコメンデータがさらに強化されているか実験する。 Amazon US Reviewsデータセット上にレコメンデータを構築し、トレーニング済みのBERTとRoBERTaに、従来の微調整のパラダイムと、新しいプロンプトベースの学習パラダイムをチューニングします。 実験結果から, 微調整されたRoBERTaで予測される評価値で向上したリコメンデータは, MAP, NDCG, Kの精度を基準レコメンデータと比較することにより, 総合的に30.7%向上したことがわかった。 プロンプトに基づく学習パラダイムは、純粋な感情分析において従来の微調整パラダイムよりも優れているが、CFレコメンデータをさらに改善することができない。

Collaborative Filtering(CF) recommender is a crucial application in the online market and ecommerce. However, CF recommender has been proven to suffer from persistent problems related to sparsity of the user rating that will further lead to a cold-start issue. Existing methods address the data sparsity issue by applying token-level sentiment analysis that translate text review into sentiment scores as a complement of the user rating. In this paper, we attempt to optimize the sentiment analysis with advanced NLP models including BERT and RoBERTa, and experiment on whether the CF recommender has been further enhanced. We build the recommenders on the Amazon US Reviews dataset, and tune the pretrained BERT and RoBERTa with the traditional fine-tuned paradigm as well as the new prompt-based learning paradigm. Experimental result shows that the recommender enhanced with the sentiment ratings predicted by the fine-tuned RoBERTa has the best performance, and achieved 30.7% overall gain by comparing MAP, NDCG and precision at K to the baseline recommender. Prompt-based learning paradigm, although superior to traditional fine-tune paradigm in pure sentiment analysis, fail to further improve the CF recommender.
翻訳日:2022-07-31 14:14:01 公開日:2022-07-19
# シーケンシャルレコメンデーションにおける代替型プロファイル汚染攻撃の防御

Defending Substitution-Based Profile Pollution Attacks on Sequential Recommenders ( http://arxiv.org/abs/2207.11237v1 )

ライセンス: Link先を確認
Zhenrui Yue, Huimin Zeng, Ziyi Kou, Lanyu Shang, Dong Wang(参考訳) 逐次レコメンダシステムはユーザダイナミクスのキャプチャにおいて著しく改善されているが、逐次レコメンダは置換ベースのプロファイル汚染攻撃に対して脆弱である。 本仮説を実証するために,ある脆弱な要素を選択し,それを逆数要素に置換することで入力シーケンスを修飾する置換型逆数攻撃アルゴリズムを提案する。 対象外および対象外の両方の攻撃シナリオにおいて,提案したプロファイル汚染アルゴリズムを用いて大きな性能劣化を観測する。 このような観測により、ディリクレ近傍サンプリングと呼ばれる効率的な対角防御法を設計する。 具体的には、複数のホップ近傍で構築された凸包からアイテム埋め込みをサンプリングし、入力シーケンスの元のアイテムを置き換える。 サンプリング中、ディリクレ分布は近所の確率分布を近似するために使われ、レコメンデーターは局所摂動と戦うことを学習する。 さらに,逐次レコメンデータシステム用に調整した逆訓練手法を考案する。 特に,選択した項目を1ホットエンコーディングで表現し,エンコーディングの勾配上昇を行い,トレーニング中の項目埋め込みの最悪の場合の線形結合を探索する。 そのため、埋め込み関数は堅牢なアイテム表現を学習し、トレーニングされたレコメンダはテストタイムの敵例に耐性がある。 大規模な実験では、我々の攻撃方法と防御方法の両方の有効性が示され、モデルアーキテクチャとデータセットの差でベースラインを一貫して上回ります。

While sequential recommender systems achieve significant improvements on capturing user dynamics, we argue that sequential recommenders are vulnerable against substitution-based profile pollution attacks. To demonstrate our hypothesis, we propose a substitution-based adversarial attack algorithm, which modifies the input sequence by selecting certain vulnerable elements and substituting them with adversarial items. In both untargeted and targeted attack scenarios, we observe significant performance deterioration using the proposed profile pollution algorithm. Motivated by such observations, we design an efficient adversarial defense method called Dirichlet neighborhood sampling. Specifically, we sample item embeddings from a convex hull constructed by multi-hop neighbors to replace the original items in input sequences. During sampling, a Dirichlet distribution is used to approximate the probability distribution in the neighborhood such that the recommender learns to combat local perturbations. Additionally, we design an adversarial training method tailored for sequential recommender systems. In particular, we represent selected items with one-hot encodings and perform gradient ascent on the encodings to search for the worst case linear combination of item embeddings in training. As such, the embedding function learns robust item representations and the trained recommender is resistant to test-time adversarial examples. Extensive experiments show the effectiveness of both our attack and defense methods, which consistently outperform baselines by a significant margin across model architectures and datasets.
翻訳日:2022-07-31 14:12:55 公開日:2022-07-19
# ビッグデータと教育 : 言語学習におけるビッグデータ分析の利用

Big Data and Education: using big data analytics in language learning ( http://arxiv.org/abs/2207.10572v1 )

ライセンス: Link先を確認
Vahid Ashrafimoghari(参考訳) データマイニングツールを使ったビッグデータの利用は、教育業界で急速にトレンドになりつつある。 データをタイムリーに収集、保存、管理、処理する現在の能力と、オンライン教育プラットフォームからのデータの組み合わせは、教育機関、学習者、教育者、研究者にとって前例のない機会である。 本稿では,教育データマイニングと学習分析に関する基本的な概念と,最も一般的なツール,手法,技術について考察し,特に言語学習におけるビッグデータ応用について議論する。

Working with big data using data mining tools is rapidly becoming a trend in education industry. The combination of the current capacity to collect, store, manage and process data in a timely manner, and data from online educational platforms represents an unprecedented opportunity for educational institutes, learners, educators, and researchers. In this position paper, we consider some basic concepts as well as most popular tools, methods and techniques regarding Educational Data Mining and Learning Analytics, and discuss big data applications in language learning, in particular.
翻訳日:2022-07-22 12:45:13 公開日:2022-07-19
# 階層型スペクトログラムトランスフォーマによる呼吸音からのcovid-19検出

COVID-19 Detection from Respiratory Sounds with Hierarchical Spectrogram Transformers ( http://arxiv.org/abs/2207.09529v1 )

ライセンス: Link先を確認
Idil Aytekin, Onat Dalmaz, Kaan Gonc, Haydar Ankishan, Emine U Saritas, Ulas Bagci, Haydar Celik and Tolga Cukur(参考訳) 新型コロナウイルス(COVID-19)などの流行する空気病のモニタリングは、呼吸アセスメントに特有である。 オースカルテーションは症状モニタリングの主流の手法であるが, 専門病院訪問の必要性により, 診断の利便性が損なわれている。 ポータブルデバイス上での呼吸音の録音に基づく連続的遠隔監視は、新型コロナウイルスのスクリーニングに役立つ有望な代替手段だ。 本研究では, 新型コロナウイルス患者の音声記録や呼吸音の健全なコントロールを識別する, 新たな深層学習手法を提案する。 提案手法は,呼吸音のスペクトル表現に新しい階層型スペクトログラム変換器(HST)を利用する。 HSTは、スペクトログラム内のローカルウィンドウ上の自己注意機構を具現化し、モデルステージ上でウィンドウサイズを徐々に成長させ、ローカルからグローバルなコンテキストを捉える。 HSTは、最先端の従来型およびディープラーニングベースラインと比較される。 多国籍データセットの総合的なデモンストレーションは、HSTが競合する手法より優れており、新型コロナウイルス感染の検出においてレシーバー操作特性曲線(AUC)の97%以上を達成していることを示している。

Monitoring of prevalent airborne diseases such as COVID-19 characteristically involve respiratory assessments. While auscultation is a mainstream method for symptomatic monitoring, its diagnostic utility is hampered by the need for dedicated hospital visits. Continual remote monitoring based on recordings of respiratory sounds on portable devices is a promising alternative, which can assist in screening of COVID-19. In this study, we introduce a novel deep learning approach to distinguish patients with COVID-19 from healthy controls given audio recordings of cough or breathing sounds. The proposed approach leverages a novel hierarchical spectrogram transformer (HST) on spectrogram representations of respiratory sounds. HST embodies self-attention mechanisms over local windows in spectrograms, and window size is progressively grown over model stages to capture local to global context. HST is compared against state-of-the-art conventional and deep-learning baselines. Comprehensive demonstrations on a multi-national dataset indicate that HST outperforms competing methods, achieving over 97% area under the receiver operating characteristic curve (AUC) in detecting COVID-19 cases.
翻訳日:2022-07-21 14:28:05 公開日:2022-07-19
# FedNet2Net: モデル成長によるフェデレーション学習におけるコミュニケーションと計算の節約

FedNet2Net: Saving Communication and Computations in Federated Learning with Model Growing ( http://arxiv.org/abs/2207.09568v1 )

ライセンス: Link先を確認
Amit Kumar Kundu and Joseph Jaja(参考訳) フェデレートラーニング(FL)は、最近開発された機械学習の分野であり、大量の分散クライアントのプライベートデータを、データを明示的に公開することなく、中央サーバの協調の下でグローバルモデルを開発するために使用する。 標準fl戦略には、大きな通信要求やクライアントのリソースに対する大きな影響など、多くの重大なボトルネックがある。 これらの問題に対処するためのいくつかの戦略が文献に記載されている。 本稿では「モデル成長」の概念に基づく新しいスキームを提案する。 まず、サーバは低複雑性の小さなモデルをデプロイし、最初のラウンドの間、データの複雑さを捉えるように訓練します。 このようなモデルの性能が飽和すると、サーバは関数保存変換の助けを借りてより大きなモデルに切り替える。 モデル複雑性は、より多くのデータがクライアントによって処理されるにつれて増大し、全体的なプロセスは、望ましいパフォーマンスを達成するまで継続する。 したがって、最も複雑なモデルは、我々のアプローチの最終段階でのみ放送され、通信コストとクライアントの計算要求が大幅に削減される。 提案手法は3つの標準ベンチマークで広範囲に検証され,通信量やクライアントの計算量を大幅に削減すると同時に,現在の最も効果的な戦略と比較した場合の精度も向上する。

Federated learning (FL) is a recently developed area of machine learning, in which the private data of a large number of distributed clients is used to develop a global model under the coordination of a central server without explicitly exposing the data. The standard FL strategy has a number of significant bottlenecks including large communication requirements and high impact on the clients' resources. Several strategies have been described in the literature trying to address these issues. In this paper, a novel scheme based on the notion of "model growing" is proposed. Initially, the server deploys a small model of low complexity, which is trained to capture the data complexity during the initial set of rounds. When the performance of such a model saturates, the server switches to a larger model with the help of function-preserving transformations. The model complexity increases as more data is processed by the clients, and the overall process continues until the desired performance is achieved. Therefore, the most complex model is broadcast only at the final stage in our approach resulting in substantial reduction in communication cost and client computational requirements. The proposed approach is tested extensively on three standard benchmarks and is shown to achieve substantial reduction in communication and client computation while achieving comparable accuracy when compared to the current most effective strategies.
翻訳日:2022-07-21 14:27:47 公開日:2022-07-19
# リニアアレイ・アクティブ音源波動場計測による近接面2次元Vs画像の周波数速度CNN

A Frequency-Velocity CNN for Developing Near-Surface 2D Vs Images from Linear-Array, Active-Source Wavefield Measurements ( http://arxiv.org/abs/2207.09580v1 )

ライセンス: Link先を確認
Aser Abbas (1), Joseph P. Vantassel (2), Brady R. Cox (1), Krishna Kumar (3), Jodie Crocker (3) ((1) Utah State University, (2) Virginia Tech, (3) The University of Texas at Austin)(参考訳) 地中物質を高速かつ非侵襲的に2次元せん断波速度(Vs)画像化するための周波数速度畳み込みニューラルネットワーク(CNN)を提案する。 周波数速度領域での動作は、正規化分散画像であるCNN入力を生成するために使用される線形アレイ、アクティブソースの実験的な構成において、大きな柔軟性を実現する。 波動場画像とは異なり、正規化分散画像は実験的な試験構成に比較的敏感であり、様々なソースタイプ、ソースオフセット、受信機数、受信機間隔を調節する。 本研究では, 従来の地表面物理問題, すなわち, 地層・地層・地層・岩盤界面を撮像することで, 周波数速度CNNの有効性を実証する。 この問題は,最近,様々なフィールドテスト構成を活用できる柔軟性に欠ける有望な時間距離cnnの開発により検討された。 ここでは、新しい周波数速度CNNが時間距離CNNに匹敵する精度を示し、様々なフィールドアプリケーションを扱うための柔軟性を提供する。 周波数速度cnnは、10万個の合成表面近傍モデルを用いて訓練、検証、テストされた。 提案した周波数速度CNNの様々な取得構成を一般化する能力は、まずトレーニングセットと異なる取得構成を持つ合成準曲面モデルを用いて試験され、その後テキサス州オースチンのHornsby Bendサイトで収集された実験データに適用される。 広範にわたる地質条件のために完全に開発された場合、提案されたcnnは、現在の擬似-2d表面波イメージング技術の迅速かつエンドツーエンドな代替として、あるいは完全な波形反転の開始モデルを開発するために、最終的に使用される可能性がある。

This paper presents a frequency-velocity convolutional neural network (CNN) for rapid, non-invasive 2D shear wave velocity (Vs) imaging of near-surface geo-materials. Operating in the frequency-velocity domain allows for significant flexibility in the linear-array, active-source experimental testing configurations used for generating the CNN input, which are normalized dispersion images. Unlike wavefield images, normalized dispersion images are relatively insensitive to the experimental testing configuration, accommodating various source types, source offsets, numbers of receivers, and receiver spacings. We demonstrate the effectiveness of the frequency-velocity CNN by applying it to a classic near-surface geophysics problem, namely, imaging a two-layer, undulating, soil-over-bedrock interface. This problem was recently investigated in our group by developing a time-distance CNN, which showed great promise but lacked flexibility in utilizing different field-testing configurations. Herein, the new frequency-velocity CNN is shown to have comparable accuracy to the time-distance CNN while providing greater flexibility to handle varied field applications. The frequency-velocity CNN was trained, validated, and tested using 100,000 synthetic near-surface models. The ability of the proposed frequency-velocity CNN to generalize across various acquisition configurations is first tested using synthetic near-surface models with different acquisition configurations from that of the training set, and then applied to experimental field data collected at the Hornsby Bend site in Austin, Texas, USA. When fully developed for a wider range of geological conditions, the proposed CNN may ultimately be used as a rapid, end-to-end alternative for current pseudo-2D surface wave imaging techniques or to develop starting models for full waveform inversion.
翻訳日:2022-07-21 14:27:27 公開日:2022-07-19
# 事前訓練されたモデルから秘密を発見

Revealing Secrets From Pre-trained Models ( http://arxiv.org/abs/2207.09539v1 )

ライセンス: Link先を確認
Mujahid Al Rafi, Yuan Feng, Hyeran Jeon(参考訳) 大規模データセットによるディープラーニングモデルのトレーニングの負担が増大する中、トランスファーラーニングは多くの新しいディープラーニングアルゴリズムで広く採用されている。 BERTのようなトランスフォーマーモデルは自然言語処理の主要なプレーヤーであり、デファクトスタンダードトレーニング手法としてトランスファーラーニングを使用している。 いくつかのビッグデータ企業は、いくつかの人気のあるデータセットでトレーニングされた事前トレーニングされたモデルをリリースしている。 トランスファーラーニングは、トレーニングモデルの時間と労力を大幅に削減します。 しかし、それはセキュリティ上の懸念の犠牲になる。 本稿では,事前学習モデルと微調整モデルが重み値の類似度が有意に高いという新しい知見を示す。 また、同じモデルであってもベンダー固有の計算パターンが存在することを示す。 これらの新たな知見により,ブラックボックス被害者モデルが使用するモデルアーキテクチャと事前学習モデル,ベンダ固有の計算パターンを明らかにしたモデル抽出アタックを提案し,微調整モデルと事前学習モデルとの重み付け値の類似性に基づいてモデル全体の重み付けを推定する。 また,新しい重量抽出プルーニングによってモデル抽出可能性を高めるために,重みの類似性を活用できることを示した。

With the growing burden of training deep learning models with large data sets, transfer-learning has been widely adopted in many emerging deep learning algorithms. Transformer models such as BERT are the main player in natural language processing and use transfer-learning as a de facto standard training method. A few big data companies release pre-trained models that are trained with a few popular datasets with which end users and researchers fine-tune the model with their own datasets. Transfer-learning significantly reduces the time and effort of training models. However, it comes at the cost of security concerns. In this paper, we show a new observation that pre-trained models and fine-tuned models have significantly high similarities in weight values. Also, we demonstrate that there exist vendor-specific computing patterns even for the same models. With these new findings, we propose a new model extraction attack that reveals the model architecture and the pre-trained model used by the black-box victim model with vendor-specific computing patterns and then estimates the entire model weights based on the weight value similarities between the fine-tuned model and pre-trained model. We also show that the weight similarity can be leveraged for increasing the model extraction feasibility through a novel weight extraction pruning.
翻訳日:2022-07-21 14:22:53 公開日:2022-07-19
# ロバスト多変量時系列予測に向けて:敵攻撃と防御機構

Towards Robust Multivariate Time-Series Forecasting: Adversarial Attacks and Defense Mechanisms ( http://arxiv.org/abs/2207.09572v1 )

ライセンス: Link先を確認
Linbo Liu, Youngsuk Park, Trong Nghia Hoang, Hilaf Hasson, Jun Huan(参考訳) 近年, ディープラーニングモデルが時系列予測の主流となってきており, 予測・意思決定システムに対する敵対的攻撃による潜在的な脆弱性が問題となっている。 このような挙動や防御機構が一変量時系列予測のために研究され始めたが、異なる時系列間の相関をエンコードする能力からしばしば好まれる多変量予測についての研究は、まだ少ない。 本研究では,多変量確率予測モデルに対する敵対的攻撃について検討し,攻撃予算制約と複数時系列間の相関構造を考慮した。 具体的には、攻撃コストを抑えるために、少数のアイテムの履歴だけを攻撃することによって、アイテム(時系列)の予測を損なうスパース間接攻撃について検討する。 これらの攻撃に対抗するため、我々は2つの防衛戦略も開発している。 まず,多変量時系列シナリオにランダム平滑化を適用し,実験による検証を行った。 第二に、スパース攻撃を利用して、堅牢な確率予測器を提供するエンドツーエンドの敵訓練を可能にする。 実データを用いた広範囲な実験により,攻撃手法が強力であること,防御アルゴリズムが他のベースライン防御機構よりも効果的であることを確認した。

As deep learning models have gradually become the main workhorse of time series forecasting, the potential vulnerability under adversarial attacks to forecasting and decision system accordingly has emerged as a main issue in recent years. Albeit such behaviors and defense mechanisms started to be investigated for the univariate time series forecasting, there are still few studies regarding the multivariate forecasting which is often preferred due to its capacity to encode correlations between different time series. In this work, we study and design adversarial attack on multivariate probabilistic forecasting models, taking into consideration attack budget constraints and the correlation architecture between multiple time series. Specifically, we investigate a sparse indirect attack that hurts the prediction of an item (time series) by only attacking the history of a small number of other items to save attacking cost. In order to combat these attacks, we also develop two defense strategies. First, we adopt randomized smoothing to multivariate time series scenario and verify its effectiveness via empirical experiments. Second, we leverage a sparse attacker to enable end-to-end adversarial training that delivers robust probabilistic forecasters. Extensive experiments on real dataset confirm that our attack schemes are powerful and our defend algorithms are more effective compared with other baseline defense mechanisms.
翻訳日:2022-07-21 14:22:33 公開日:2022-07-19
# 経路計画、ネットワーク輸送、強化学習のための新しいオークションアルゴリズム

New Auction Algorithms for Path Planning, Network Transport, and Reinforcement Learning ( http://arxiv.org/abs/2207.09588v1 )

ライセンス: Link先を確認
Dimitri Bertsekas(参考訳) 経路計画とネットワーク転送における古典的な最適化問題について考察し,その最適および準最適解に対する新しいオークションベースのアルゴリズムを提案する。 アルゴリズムは、物を求める人による競争入札に関連する数学的アイデアと、競売プロセスを支える付随する市場均衡に基づいている。 しかし、我々のアルゴリズムの出発点は、対象への人の割り当てではなく、有向グラフにおける重み付けと非重み付けのパス構成が異なる。 新しいアルゴリズムは、既存のメソッドに対していくつかの潜在的な利点がある。最大フローのような重要なコンテキストで経験的に高速であり、オンラインのリプランニングに適しており、分散非同期操作に適応できる。 さらに、スラック性制限を補うことなく、任意の初期価格を許容するので、オフライントレーニングやリアルタイム操作時のオンライントレーニングを使用する強化学習手法を活用できる。 この新しいアルゴリズムは、マルチステップのルックアヘッドやツリー検索スキーム、および/またはロールアウトアルゴリズムなどの近似を含む強化学習コンテキストにも使われる。

We consider some classical optimization problems in path planning and network transport, and we introduce new auction-based algorithms for their optimal and suboptimal solution. The algorithms are based on mathematical ideas that are related to competitive bidding by persons for objects and the attendant market equilibrium, which underlie auction processes. However, the starting point of our algorithms is different, namely weighted and unweighted path construction in directed graphs, rather than assignment of persons to objects. The new algorithms have several potential advantages over existing methods: they are empirically faster in some important contexts, such as max-flow, they are well-suited for on-line replanning, and they can be adapted to distributed asynchronous operation. Moreover, they allow arbitrary initial prices, without complementary slackness restrictions, and thus are better-suited to take advantage of reinforcement learning methods that use off-line training with data, as well as on-line training during real-time operation. The new algorithms may also find use in reinforcement learning contexts involving approximation, such as multistep lookahead and tree search schemes, and/or rollout algorithms.
翻訳日:2022-07-21 14:15:44 公開日:2022-07-19
# U-net-likeアーキテクチャを用いたMRI画像の自動前立腺領域分割モデルの比較

Comparison of automatic prostate zones segmentation models in MRI images using U-net-like architectures ( http://arxiv.org/abs/2207.09483v1 )

ライセンス: Link先を確認
Pablo Cesar Quihui-Rubio and Gilberto Ochoa-Ruiz and Miguel Gonzalez-Mendoza and Gerardo Rodriguez-Hernandez and Christian Mata(参考訳) 前立腺がんは、世界で2番目に頻繁に診断されるがんであり、世界でも6番目に多い死因である。 前立腺癌の診断において専門医が直面する主な問題は、腫瘍組織を含む関心領域(ROI)の局在である。 現在、このROIのセグメンテーションは専門医が手動で行うことが多いが、一部の患者では低検出率(約27-44%)または過剰診断に悩まされている。 そのため、磁気共鳴画像からROIの特徴を自動的に抽出するという課題にいくつかの研究が取り組んでおり、このプロセスは多くの診断や治療の応用を大いに促進することができる。 しかし、明確な前立腺境界の欠如、前立腺組織に内在する異質性、前立腺形状の多様性により、このプロセスは自動化が極めて困難であり、本研究では6つのディープラーニングモデルを、中央病院長のde dijonとカタルーニャ大学のpolitecnica de catalunyaから得られたmri画像のデータセットを用いて訓練し、分析した。 分類的クロスエントロピー損失関数を用いた複数のディープラーニングモデル(U-Net, Attention U-Net, Dense-UNet, Attention Dense-UNet, R2U-Net, Attention R2U-Net)の比較を行った。 この分析はDice score, Jaccard index, 平均2乗誤差の3つの指標を用いて行った。 すべてのゾーンを最もよく区切るモデルがr2u-netで、それぞれ0.869、0.0782、0.000013をdice、jaccard、平均2乗誤差で達成した。

Prostate cancer is the second-most frequently diagnosed cancer and the sixth leading cause of cancer death in males worldwide. The main problem that specialists face during the diagnosis of prostate cancer is the localization of Regions of Interest (ROI) containing a tumor tissue. Currently, the segmentation of this ROI in most cases is carried out manually by expert doctors, but the procedure is plagued with low detection rates (of about 27-44%) or overdiagnosis in some patients. Therefore, several research works have tackled the challenge of automatically segmenting and extracting features of the ROI from magnetic resonance images, as this process can greatly facilitate many diagnostic and therapeutic applications. However, the lack of clear prostate boundaries, the heterogeneity inherent to the prostate tissue, and the variety of prostate shapes makes this process very difficult to automate.In this work, six deep learning models were trained and analyzed with a dataset of MRI images obtained from the Centre Hospitalaire de Dijon and Universitat Politecnica de Catalunya. We carried out a comparison of multiple deep learning models (i.e. U-Net, Attention U-Net, Dense-UNet, Attention Dense-UNet, R2U-Net, and Attention R2U-Net) using categorical cross-entropy loss function. The analysis was performed using three metrics commonly used for image segmentation: Dice score, Jaccard index, and mean squared error. The model that give us the best result segmenting all the zones was R2U-Net, which achieved 0.869, 0.782, and 0.00013 for Dice, Jaccard and mean squared error, respectively.
翻訳日:2022-07-21 14:10:10 公開日:2022-07-19
# 深層学習を用いた3次元歯科画像のセグメンテーション

Segmentation of 3D Dental Images Using Deep Learning ( http://arxiv.org/abs/2207.09582v1 )

ライセンス: Link先を確認
Omar Boudraa(参考訳) 3D画像のセグメンテーションは多くの医学的分析と認識スキームにおいて、最近かつ重要なステップである。 実際、これは関連する研究テーマであり、その重要性と影響から根本的な課題である。 本稿では,最適な3次元セグメンテーション出力を得るために,様々な効率的な手法をハイブリダイズする多相ディープラーニングシステムを提案する。 まず、データの量を減らし、処理時間を短縮するために、デシメート圧縮技術の適用を提案し、正当化する。 次に,CNNモデルを用いて歯科像を15のクラスに分割する。 最後に、孤立メッシュを除去し、歯形を矯正するために、特別なKNNベースの変換を適用した。 実験は, 個人臨床ベンチマークで3次元歯科画像に適用したフレームワークの精度とロバスト性を示す。

3D image segmentation is a recent and crucial step in many medical analysis and recognition schemes. In fact, it represents a relevant research subject and a fundamental challenge due to its importance and influence. This paper provides a multi-phase Deep Learning-based system that hybridizes various efficient methods in order to get the best 3D segmentation output. First, to reduce the amount of data and accelerate the processing time, the application of Decimate compression technique is suggested and justified. We then use a CNN model to segment dental images into fifteen separated classes. In the end, a special KNN-based transformation is applied for the purpose of removing isolated meshes and of correcting dental forms. Experimentations demonstrate the precision and the robustness of the selected framework applied to 3D dental images within a private clinical benchmark.
翻訳日:2022-07-21 14:09:38 公開日:2022-07-19
# QuoteKG:Quotesの多言語知識グラフ

QuoteKG: A Multilingual Knowledge Graph of Quotes ( http://arxiv.org/abs/2207.09562v1 )

ライセンス: Link先を確認
Tin Kuculo, Simon Gottschalk and Elena Demidova(参考訳) 多数の人物が歴史のターンポイントをマークすることができる。 引用は原作者の行動を説明し、政治的あるいは個人的な決定を先導し、性格的特徴を明らかにすることができる。 インパクトフルな引用は言語の壁を越え、特定のスタンスに対する一般大衆の反応に影響を与える。 引用文とその文脈の真正性を確立する引用文の言語間知識グラフの提供は、重要人物の生活や、実際に言われたことの観点からの話題の探索を可能にするために非常に重要である。 本稿では,引用の多言語知識グラフであるquotkgを提案する。 我々は、Wikiquoteから引用を抽出するQuoteKG生成パイプラインを提案する。これは、多くの言語で自由かつ協調的に作成された引用のコレクションであり、同じ引用の異なる参照を一致させる。 QuoteKGには55ドルの言語で100万近い引用が含まれている。 QuoteKGは公開されており、SPARQLエンドポイント経由でアクセスすることができる。

Quotes of public figures can mark turning points in history. A quote can explain its originator's actions, foreshadowing political or personal decisions and revealing character traits. Impactful quotes cross language barriers and influence the general population's reaction to specific stances, always facing the risk of being misattributed or taken out of context. The provision of a cross-lingual knowledge graph of quotes that establishes the authenticity of quotes and their contexts is of great importance to allow the exploration of the lives of important people as well as topics from the perspective of what was actually said. In this paper, we present QuoteKG, the first multilingual knowledge graph of quotes. We propose the QuoteKG creation pipeline that extracts quotes from Wikiquote, a free and collaboratively created collection of quotes in many languages, and aligns different mentions of the same quote. QuoteKG includes nearly one million quotes in $55$ languages, said by more than $69,000$ people of public interest across a wide range of topics. QuoteKG is publicly available and can be accessed via a SPARQL endpoint.
翻訳日:2022-07-21 14:03:02 公開日:2022-07-19
# 低解像度画像分類のためのブロックベース畳み込みニューラルネットワーク

A Block-based Convolutional Neural Network for Low-Resolution Image Classification ( http://arxiv.org/abs/2207.09531v1 )

ライセンス: Link先を確認
Ashkan Ganj, Mohsen Ebadpour, Mahdi Darvish, Hamid Bahador(参考訳) 近年,CNNによる画像分類と特徴抽出によるアーキテクチャの成功により,画像分類が盛んになったが,ノイズや低品質の画像の分類にアートモデルを用いると,画像分類の課題がより困難になる。 そこで本研究では,ぼやけてノイズの多い低解像度画像の微妙な詳細を学習する新しい画像分類アーキテクチャを提案する。 新しいブロックを構築するために、私たちはres接続のアイデアとインセプションモジュールのアイデアを使いました。 MNISTデータセットを用いて、導入したアーキテクチャは他の最先端の畳み込みニューラルネットワークよりも正確で高速であることを示す広範な実験を行った。 モデルの特殊特性により,パラメータを少なくしてよりよい結果が得られる。

The success of CNN-based architecture on image classification in learning and extracting features made them so popular these days, but the task of image classification becomes more challenging when we use state of art models to classify noisy and low-quality images. To solve this problem, we proposed a novel image classification architecture that learns subtle details in low-resolution images that are blurred and noisy. In order to build our new blocks, we used the idea of Res Connections and the Inception module ideas. Using the MNIST datasets, we have conducted extensive experiments that show that the introduced architecture is more accurate and faster than other state-of-the-art Convolutional neural networks. As a result of the special characteristics of our model, it can achieve a better result with fewer parameters.
翻訳日:2022-07-21 13:25:01 公開日:2022-07-19
# ビジュアル製品レビューの深い分析

Deep Analysis of Visual Product Reviews ( http://arxiv.org/abs/2207.09499v1 )

ライセンス: Link先を確認
Chandranath Adak, Soumi Chattopadhyay, Muhammad Saqib(参考訳) 電子商取引産業の興隆に伴い、サービス提供者にとって顧客からのフィードバックの分析は不可欠になりつつある。 近年では、購入した商品画像をレビュースコアでアップロードすることが注目されている。 本稿では,このような視覚的なレビューを分析する作業について述べる。 これまでは、研究者は言語フィードバックの分析に取り組んできたが、ここでは、言語レビューが欠如しているかもしれない。最近の傾向は、顧客が言語フィードバックをタイプするのではなく、視覚的フィードバックを素早くアップロードすることを好む場合に見られる。 我々は,高レベルモデルが製品分類に係わる階層的アーキテクチャを提案し,低レベルモデルが顧客提供の製品画像からレビュースコアの予測に注意を払う。 私たちは、実際のビジュアル製品レビューを取得してデータベースを作成しました。 我々のアーキテクチャは、採用したデータベースで広範囲な実験を行い、有望な結果を得た。 提案された階層アーキテクチャは、シングルレベルの最高のアーキテクチャよりも57.48%の性能向上を達成した。

With the proliferation of the e-commerce industry, analyzing customer feedback is becoming indispensable to a service provider. In recent days, it can be noticed that customers upload the purchased product images with their review scores. In this paper, we undertake the task of analyzing such visual reviews, which is very new of its kind. In the past, the researchers worked on analyzing language feedback, but here we do not take any assistance from linguistic reviews that may be absent, since a recent trend can be observed where customers prefer to quickly upload the visual feedback instead of typing language feedback. We propose a hierarchical architecture, where the higher-level model engages in product categorization, and the lower-level model pays attention to predicting the review score from a customer-provided product image. We generated a database by procuring real visual product reviews, which was quite challenging. Our architecture obtained some promising results by performing extensive experiments on the employed database. The proposed hierarchical architecture attained a 57.48% performance improvement over the single-level best comparable architecture.
翻訳日:2022-07-21 13:15:41 公開日:2022-07-19
# 一般化ロングプレート分類のための不変特徴学習

Invariant Feature Learning for Generalized Long-Tailed Classification ( http://arxiv.org/abs/2207.09504v1 )

ライセンス: Link先を確認
Kaihua Tang, Mingyuan Tao, Jiaxin Qi, Zhenguang Liu, Hanwang Zhang(参考訳) 既存のlong-tailed classification (lt)メソッドは、headクラスがtailクラスよりも多くのサンプルを持つクラス間の不均衡に取り組むことだけに焦点を当てています。 実際、クラスがバランスを取っていても、各クラス内のサンプルは、異なる属性のために長い尾を持つ可能性がある。 属性は、ほとんどのデータセットにとって暗黙的なだけでなく、組合せ的に複雑であるため、バランスをとるのに非常に高価である。 そこで我々は,両タイプの不均衡を共同で検討するために,GLT(Generalized Long-Tailed Classification)という新たな研究課題を導入する。 一般化」により、GLT法は従来のLTを自然に解くべきであるが、逆ではない。 意外なことに、提案した2つのベンチマーク(ImageNet-GLTとMSCOCO-GLT)では、ほとんどのクラスワイドLTメソッドが退化している。 属性不変の特徴を学習することを無視しながら、クラス分布の調整を過度に強調するためである。 そこで本研究では,GLTの最初の強力なベースラインとして,不変特徴学習(IFL)手法を提案する。 iflはまず、不完全な予測からクラス内分布を分離した環境を発見し、それらの間の不変な特徴を学習する。 機能バックボーンの改善として、iflは1/2ステージの再バランス、拡張、アンサンブルといったltラインアップをすべて強化する。 コードとベンチマークはgithubで入手できる。 https://github.com/kaihuatang/generalized-long-tailed-benchmarks.pytorch

Existing long-tailed classification (LT) methods only focus on tackling the class-wise imbalance that head classes have more samples than tail classes, but overlook the attribute-wise imbalance. In fact, even if the class is balanced, samples within each class may still be long-tailed due to the varying attributes. Note that the latter is fundamentally more ubiquitous and challenging than the former because attributes are not just implicit for most datasets, but also combinatorially complex, thus prohibitively expensive to be balanced. Therefore, we introduce a novel research problem: Generalized Long-Tailed classification (GLT), to jointly consider both kinds of imbalances. By "generalized", we mean that a GLT method should naturally solve the traditional LT, but not vice versa. Not surprisingly, we find that most class-wise LT methods degenerate in our proposed two benchmarks: ImageNet-GLT and MSCOCO-GLT. We argue that it is because they over-emphasize the adjustment of class distribution while neglecting to learn attribute-invariant features. To this end, we propose an Invariant Feature Learning (IFL) method as the first strong baseline for GLT. IFL first discovers environments with divergent intra-class distributions from the imperfect predictions and then learns invariant features across them. Promisingly, as an improved feature backbone, IFL boosts all the LT line-up: one/two-stage re-balance, augmentation, and ensemble. Codes and benchmarks are available on Github: https://github.com/KaihuaTang/Generalized-Long-Tailed-Benchmarks.pytorch
翻訳日:2022-07-21 13:15:26 公開日:2022-07-19
# エッジの面品質評価のための効率的手法

An Efficient Method for Face Quality Assessment on the Edge ( http://arxiv.org/abs/2207.09505v1 )

ライセンス: Link先を確認
Sefa Burak Okcu, Burak O\u{g}uz \"Ozkalayc{\i} and Cevahir \c{C}{\i}\u{g}la(参考訳) 顔認識アプリケーションは、顔検出と特徴抽出の2つの主要なステップで構成されている。 単独の視覚ベースのソリューションでは、第1ステップは、カメラストリームを取り込み、単一のアイデンティティの複数の検出を生成する。 エッジデバイスに対する実践的なアプローチは、認識への適合性に応じて、これらのアイデンティティの検出を優先すべきである。 そこで本研究では,顔ランドマーク検出ネットワークに単一層を追加するだけで,顔品質スコアの回帰を提案する。 追加のコストがほとんどないため、顔の品質スコアは、この単一の層をトレーニングすることで得られる。 提案手法をエッジgpuに実装し,検出,追跡,アライメントを含むすべての顔検出パイプラインステップを実装した。 総合的な実験では、異なるデータセットと実生活シナリオのSOTA顔品質回帰モデルとの比較により、提案手法の効率性を示す。

Face recognition applications in practice are composed of two main steps: face detection and feature extraction. In a sole vision-based solution, the first step generates multiple detection for a single identity by ingesting a camera stream. A practical approach on edge devices should prioritize these detection of identities according to their conformity to recognition. In this perspective, we propose a face quality score regression by just appending a single layer to a face landmark detection network. With almost no additional cost, face quality scores are obtained by training this single layer to regress recognition scores with surveillance like augmentations. We implemented the proposed approach on edge GPUs with all face detection pipeline steps, including detection, tracking, and alignment. Comprehensive experiments show the proposed approach's efficiency through comparison with SOTA face quality regression models on different data sets and real-life scenarios.
翻訳日:2022-07-21 13:15:01 公開日:2022-07-19
# SeasoNet:ドイツにおける衛星画像の季節別分類、セグメンテーション、検索データセット

SeasoNet: A Seasonal Scene Classification, segmentation and Retrieval dataset for satellite Imagery over Germany ( http://arxiv.org/abs/2207.09507v1 )

ライセンス: Link先を確認
Dominik Ko{\ss}mann and Viktor Brack and Thorsten Wilhelm(参考訳) 本研究は,新しい大規模マルチラベル土地被覆と土地利用シーン理解データセットである seasonet を紹介する。 sentinel-2のタイルから1,759\,830ドルの画像があり、12のスペクトルバンドと120ドルのパッチサイズがついていて、120 \ \mathrm{px} \times 120 \ \ \mathrm{px}$である。 それぞれの画像には、ドイツのランドカバーモデル LBM-DE2018 の大規模ピクセルレベルラベルと、CORINE Land Cover Database (CLC) 2018 に基づくランドカバークラスと、オリジナルのCLCマップの5倍の最小マッピングユニット(MMU)が添付されている。 四季ごとの画素同期例に加えて,積雪セットも提供する。 これらの特性により、SeasoNetは現在最も多用途で最大のリモートセンシングシーン理解データセットとなり、ランドカバーマッピングのシーン分類からコンテンツベースのクロスシーズン画像検索、セルフ教師付き特徴学習まで応用できる。 シーン分類とセマンティクスセグメンテーションシナリオにおいて,新たなデータセット上で最先端のディープネットワークを評価することにより,ベースライン結果を提供する。

This work presents SeasoNet, a new large-scale multi-label land cover and land use scene understanding dataset. It includes $1\,759\,830$ images from Sentinel-2 tiles, with 12 spectral bands and patch sizes of up to $ 120 \ \mathrm{px} \times 120 \ \mathrm{px}$. Each image is annotated with large scale pixel level labels from the German land cover model LBM-DE2018 with land cover classes based on the CORINE Land Cover database (CLC) 2018 and a five times smaller minimum mapping unit (MMU) than the original CLC maps. We provide pixel synchronous examples from all four seasons, plus an additional snowy set. These properties make SeasoNet the currently most versatile and biggest remote sensing scene understanding dataset with possible applications ranging from scene classification over land cover mapping to content-based cross season image retrieval and self-supervised feature learning. We provide baseline results by evaluating state-of-the-art deep networks on the new dataset in scene classification and semantic segmentation scenarios.
翻訳日:2022-07-21 13:14:48 公開日:2022-07-19
# 第4回ABAWコンペティションにおけるHSE-NNチーム: マルチタスク感情認識と合成画像からの学習

HSE-NN Team at the 4th ABAW Competition: Multi-task Emotion Recognition and Learning from Synthetic Images ( http://arxiv.org/abs/2207.09508v1 )

ライセンス: Link先を確認
Andrey V. Savchenko(参考訳) 本稿では,第4回ABAW(Affective Behavior Analysis in the-wild)コンペティションにおけるHSE-NNチームの結果を紹介する。 新たなマルチタスク・エフィシエントネットモデルでは,表情の同時認識と,静止画像上での価値と覚醒の予測を訓練する。 MT-EmotiEffNetは、マルチタスク学習課題において、単純なフィードフォワードニューラルネットワークに入力される視覚的特徴を抽出する。 s-aff-wild2データベース上でのみトレーニングされるベースライン(0.3)や既存モデルと比較した場合,検証セットの性能測定値1.3を得た。 合成データチャレンジからの学習において、Real-ESRGANのような超解像技術を用いて、元の合成トレーニングセットの品質を高める。 次に、MT-EmotiEffNetは、新しいトレーニングセットに基づいて微調整される。 最後の予測は、事前訓練されたMT-EmotiEffNetsの単純な混合アンサンブルである。 我々の平均検証F1スコアは、ベースライン畳み込みニューラルネットワークよりも18%大きい。

In this paper, we present the results of the HSE-NN team in the 4th competition on Affective Behavior Analysis in-the-wild (ABAW). The novel multi-task EfficientNet model is trained for simultaneous recognition of facial expressions and prediction of valence and arousal on static photos. The resulting MT-EmotiEffNet extracts visual features that are fed into simple feed-forward neural networks in the multi-task learning challenge. We obtain performance measure 1.3 on the validation set, which is significantly greater when compared to either performance of baseline (0.3) or existing models that are trained only on the s-Aff-Wild2 database. In the learning from synthetic data challenge, the quality of the original synthetic training set is increased by using the super-resolution techniques, such as Real-ESRGAN. Next, the MT-EmotiEffNet is fine-tuned on the new training set. The final prediction is a simple blending ensemble of pre-trained and fine-tuned MT-EmotiEffNets. Our average validation F1 score is 18% greater than the baseline convolutional neural network.
翻訳日:2022-07-21 13:14:27 公開日:2022-07-19
# 視覚認識における形状・テクスチャ・色彩の寄与

Contributions of Shape, Texture, and Color in Visual Recognition ( http://arxiv.org/abs/2207.09510v1 )

ライセンス: Link先を確認
Yunhao Ge, Yao Xiao, Zhi Xu, Xingrui Wang, Laurent Itti(参考訳) ヒト視覚システム(hvs)の3つの重要な特徴 -- 〜形状、テクスチャ、色 ~ -- のオブジェクト分類への貢献について検討した。 我々は、画像から形状、テクスチャ、色の特徴を明確かつ個別に計算するヒューマノイドビジョンエンジン(HVE)を構築している。 得られた特徴ベクトルは、最終分類をサポートするために連結される。 HVEは3つの特徴のオブジェクト認識への貢献を要約・ランク付けできることを示す。 我々は人体実験を用いて、HVEとヒトの両方が、特定のクラスの分類をサポートするために、いくつかの特定の特徴(例えば、テクスチャは、人間とHVEの両方において、他の四肢とシマウマを区別する支配的な特徴である)を使用することを確認した。 HVEの助けを借りて、どんな環境(データセット)でも、タスク全体にとって最も重要な特徴(タスク固有のもの、色はCUBデータセットで分類する上で最も重要な機能)と、各クラス(クラス固有のもの、形状はiLab-20Mデータセットでボートを認識する上で最も重要な機能)をまとめることができる。 HVEのさらなる有用性を示すために,属性ラベルのない人間のオープンワールドゼロショット学習能力をシミュレートする。 最後に、HVEは、異なる特徴を組み合わせることで、人間の想像力をシミュレートできることを示す。 我々はHVEエンジンと対応するデータセットをオープンソースにします。

We investigate the contributions of three important features of the human visual system (HVS)~ -- ~shape, texture, and color ~ -- ~to object classification. We build a humanoid vision engine (HVE) that explicitly and separately computes shape, texture, and color features from images. The resulting feature vectors are then concatenated to support the final classification. We show that HVE can summarize and rank-order the contributions of the three features to object recognition. We use human experiments to confirm that both HVE and humans predominantly use some specific features to support the classification of specific classes (e.g., texture is the dominant feature to distinguish a zebra from other quadrupeds, both for humans and HVE). With the help of HVE, given any environment (dataset), we can summarize the most important features for the whole task (task-specific; e.g., color is the most important feature overall for classification with the CUB dataset), and for each class (class-specific; e.g., shape is the most important feature to recognize boats in the iLab-20M dataset). To demonstrate more usefulness of HVE, we use it to simulate the open-world zero-shot learning ability of humans with no attribute labeling. Finally, we show that HVE can also simulate human imagination ability with the combination of different features. We will open-source the HVE engine and corresponding datasets.
翻訳日:2022-07-21 13:14:10 公開日:2022-07-19
# ICRICS:画像圧縮センシングのための反復補償

ICRICS: Iterative Compensation Recovery for Image Compressive Sensing ( http://arxiv.org/abs/2207.09594v1 )

ライセンス: Link先を確認
Honggui Li, Maria Trocan, Dimitri Galayko, Mohamad Sawan(参考訳) 閉ループアーキテクチャは自動制御システムで広く利用されており、優れた性能を発揮する。 しかし、古典的な圧縮センシングシステムは、サンプリングと再構成を分離したオープンループアーキテクチャを採用している。 そこで,従来の圧縮センシングシステムにクローズドループフレームワークを導入することにより,画像圧縮センシング(ICRICS)の反復的補償回復法を提案する。 提案手法は既存手法に依存し,負のフィードバック構造を付加することで復元性能を向上させる。 圧縮センシングシステムの負のフィードバックに関する理論解析を行う。 提案手法の有効性の近似数学的証明も提供する。 3つ以上の画像データセットのシミュレーション実験により,提案手法は再構成性能において10の競合手法よりも優れていることが示された。 平均ピーク信号対雑音比の最大増分は4.36db、平均構造類似度の最大増分は0.034dbである。 負のフィードバック機構に基づく提案手法は,既存の画像圧縮センシングシステムにおける回復誤差を効率よく補正することができる。

Closed-loop architecture is widely utilized in automatic control systems and attain distinguished performance. However, classical compressive sensing systems employ open-loop architecture with separated sampling and reconstruction units. Therefore, a method of iterative compensation recovery for image compressive sensing (ICRICS) is proposed by introducing closed-loop framework into traditional compresses sensing systems. The proposed method depends on any existing approaches and upgrades their reconstruction performance by adding negative feedback structure. Theory analysis on negative feedback of compressive sensing systems is performed. An approximate mathematical proof of the effectiveness of the proposed method is also provided. Simulation experiments on more than 3 image datasets show that the proposed method is superior to 10 competition approaches in reconstruction performance. The maximum increment of average peak signal-to-noise ratio is 4.36 dB and the maximum increment of average structural similarity is 0.034 on one dataset. The proposed method based on negative feedback mechanism can efficiently correct the recovery error in the existing systems of image compressive sensing.
翻訳日:2022-07-21 13:09:07 公開日:2022-07-19
# 人間を補完する予測者のサンプル学習

Sample Efficient Learning of Predictors that Complement Humans ( http://arxiv.org/abs/2207.09584v1 )

ライセンス: Link先を確認
Mohammad-Amin Charusaie, Hussein Mozannar, David Sontag, Samira Samadi(参考訳) 学習アルゴリズムの目標の1つは、人間の意思決定者の負担を補完し軽減することである。 アルゴリズムが自分自身で予測するか、ダウンストリームの専門家に決定を延期することで、この目標を達成することができる。 この設定の基本的な側面は、平均誤差に最適化された予測子を学習するのではなく、人間の弱点を改善する補完的な予測子を学ぶ必要があることである。 本研究は,専門家の推論における補完的予測子の学習のメリットに関する,最初の理論的分析である。 このような予測関数を効率的に学習するために、専門家の推論に対する一貫した代理損失関数の族を考え、それらの理論的性質を解析する。 最後に,人間の専門家による予測の少ないデータを必要とする能動的学習方式を設計し,正確な推論系を学習する。

One of the goals of learning algorithms is to complement and reduce the burden on human decision makers. The expert deferral setting wherein an algorithm can either predict on its own or defer the decision to a downstream expert helps accomplish this goal. A fundamental aspect of this setting is the need to learn complementary predictors that improve on the human's weaknesses rather than learning predictors optimized for average error. In this work, we provide the first theoretical analysis of the benefit of learning complementary predictors in expert deferral. To enable efficiently learning such predictors, we consider a family of consistent surrogate loss functions for expert deferral and analyze their theoretical properties. Finally, we design active learning schemes that require minimal amount of data of human expert predictions in order to learn accurate deferral systems.
翻訳日:2022-07-21 13:03:56 公開日:2022-07-19
# 不特定環境における強固な強化学習の実現可能性

Feasible Adversarial Robust Reinforcement Learning for Underspecified Environments ( http://arxiv.org/abs/2207.09597v1 )

ライセンス: Link先を確認
JB Lanier, Stephen McAleer, Pierre Baldi, Roy Fox(参考訳) robust reinforcement learning (rl) は、可能な環境パラメータのセットの中で最悪の場合にうまく機能する学習ポリシーの問題を考察する。 実世界の環境では、ロバストなRLに対して可能な値のセットを選択することが難しい。 そのセットが狭すぎると、エージェントは考慮されていない妥当なパラメータ値に対して脆弱になる。 指定が広すぎると、エージェントは慎重すぎるでしょう。 本稿では,頑健な環境パラメータの集合を自動的に決定するFasible Adversarial Robust RL(FARR)を提案する。 FARRは暗黙的に、実行可能なパラメータ値のセットを、エージェントが十分なトレーニングリソースを与えられたベンチマーク報酬を達成できるものとして定義している。 この問題を2人プレイのゼロサムゲームとして定式化することにより、farrはこの実現可能なパラメータセットに対して頑健なサポートとポリシーを持つパラメータ値上の逆分布を共同で学習する。 このfarrゲームにおけるナッシュ均衡の近似を求めるpsroアルゴリズムを用いて、farrで訓練されたエージェントは、パラメータ化されたグリッドワールドと3つのmujoco制御環境において、既存のminimax、ドメインランダム化、後悔の目的よりも、逆のパラメータ選択に頑健であることを示す。

Robust reinforcement learning (RL) considers the problem of learning policies that perform well in the worst case among a set of possible environment parameter values. In real-world environments, choosing the set of possible values for robust RL can be a difficult task. When that set is specified too narrowly, the agent will be left vulnerable to reasonable parameter values unaccounted for. When specified too broadly, the agent will be too cautious. In this paper, we propose Feasible Adversarial Robust RL (FARR), a method for automatically determining the set of environment parameter values over which to be robust. FARR implicitly defines the set of feasible parameter values as those on which an agent could achieve a benchmark reward given enough training resources. By formulating this problem as a two-player zero-sum game, FARR jointly learns an adversarial distribution over parameter values with feasible support and a policy robust over this feasible parameter set. Using the PSRO algorithm to find an approximate Nash equilibrium in this FARR game, we show that an agent trained with FARR is more robust to feasible adversarial parameter selection than with existing minimax, domain-randomization, and regret objectives in a parameterized gridworld and three MuJoCo control environments.
翻訳日:2022-07-21 13:03:43 公開日:2022-07-19
# ディープニューラルネットワークの近似パワー:説明的数学的調査

Approximation Power of Deep Neural Networks: an explanatory mathematical survey ( http://arxiv.org/abs/2207.09511v1 )

ライセンス: Link先を確認
Mohammad Motamed(参考訳) 本調査の目的は、ディープニューラルネットワークの近似特性の説明的レビューを行うことである。 具体的には、ディープニューラルネットワークが他の古典的な線形および非線形近似手法に勝る方法と理由を理解することを目的としている。 この調査は3つの章からなる。 第1章では、深層ネットワークとその構成的非線形構造の基礎となる重要な概念と概念について概説する。 回帰と分類問題を解く際に最適化問題として定式化することでニューラルネットワーク問題を定式化する。 本稿では,最適化問題の解法として用いられる確率的勾配降下アルゴリズムとバックプロパゲーション式について簡単に議論し,アクティベーション関数の選択,コスト関数の選択,オーバーフィット問題,正規化など,ニューラルネットワークの性能に関するいくつかの問題に対処する。 第2章では、ニューラルネットワークの近似理論に焦点を移す。 多項式近似における密度の概念の導入から始まり、特に実数値連続函数に対するストーン・ワイエルシュトラスの定理を研究する。 次に、線形近似の枠組みの中で、フィードフォワードネットワークの密度と収束率に関する古典的な結果と、ソボレフ関数の近似におけるディープネットワークの複雑さに関する最近の研究について述べる。 第3章では、非線形近似理論を利用して、他の古典的非線形近似法よりも深いReLUネットワークの深さと近似の優位性について詳しく述べる。

The goal of this survey is to present an explanatory review of the approximation properties of deep neural networks. Specifically, we aim at understanding how and why deep neural networks outperform other classical linear and nonlinear approximation methods. This survey consists of three chapters. In Chapter 1 we review the key ideas and concepts underlying deep networks and their compositional nonlinear structure. We formalize the neural network problem by formulating it as an optimization problem when solving regression and classification problems. We briefly discuss the stochastic gradient descent algorithm and the back-propagation formulas used in solving the optimization problem and address a few issues related to the performance of neural networks, including the choice of activation functions, cost functions, overfitting issues, and regularization. In Chapter 2 we shift our focus to the approximation theory of neural networks. We start with an introduction to the concept of density in polynomial approximation and in particular study the Stone-Weierstrass theorem for real-valued continuous functions. Then, within the framework of linear approximation, we review a few classical results on the density and convergence rate of feedforward networks, followed by more recent developments on the complexity of deep networks in approximating Sobolev functions. In Chapter 3, utilizing nonlinear approximation theory, we further elaborate on the power of depth and approximation superiority of deep ReLU networks over other classical methods of nonlinear approximation.
翻訳日:2022-07-21 13:00:56 公開日:2022-07-19
# ESPnet-SE++:ロバスト音声認識・翻訳・理解のための音声強調

ESPnet-SE++: Speech Enhancement for Robust Speech Recognition, Translation, and Understanding ( http://arxiv.org/abs/2207.09514v1 )

ライセンス: Link先を確認
Yen-Ju Lu, Xuankai Chang, Chenda Li, Wangyou Zhang, Samuele Cornell, Zhaoheng Ni, Yoshiki Masuyama, Brian Yan, Robin Scheibler, Zhong-Qiu Wang, Yu Tsao, Yanmin Qian, Shinji Watanabe(参考訳) 本稿では,音声分離・拡張(SSE)のESPnetツールキットへの統合について述べる。 従来のESPnet-SEと比較すると、最近の最先端音声強調モデルや、それぞれのトレーニングおよび評価レシピなど、多くの特徴が追加されている。 重要なことに、音声認識(ASR)、音声翻訳(ST)、音声言語理解(SLU)など、音声強調フロントエンドと他のタスクを柔軟に組み合わせた新しいインターフェースが設計されている。 このような統合を実証するため,我々は,ノイズの少ないマルチチャネルSTとSLUタスクのための,慎重に設計された合成データセットの実験を行った。 これらの新しいタスクに加えて,CHiME-4 と WSJ0-2Mix を用いてマルチチャネルSE のベンチマークを行う。 その結果,seフロントエンドとバックエンドタスクの統合は,asr以外のタスク,特にマルチチャネルシナリオにおいても有望な研究方向であることがわかった。 コードはhttps://github.com/espnet/espnetで入手できる。 この作業のもうひとつの貢献であるマルチチャネルSTとSLUデータセットは、HuggingFaceでリリースされている。

This paper presents recent progress on integrating speech separation and enhancement (SSE) into the ESPnet toolkit. Compared with the previous ESPnet-SE work, numerous features have been added, including recent state-of-the-art speech enhancement models with their respective training and evaluation recipes. Importantly, a new interface has been designed to flexibly combine speech enhancement front-ends with other tasks, including automatic speech recognition (ASR), speech translation (ST), and spoken language understanding (SLU). To showcase such integration, we performed experiments on carefully designed synthetic datasets for noisy-reverberant multi-channel ST and SLU tasks, which can be used as benchmark corpora for future research. In addition to these new tasks, we also use CHiME-4 and WSJ0-2Mix to benchmark multi- and single-channel SE approaches. Results show that the integration of SE front-ends with back-end tasks is a promising research direction even for tasks besides ASR, especially in the multi-channel scenario. The code is available online at https://github.com/ESPnet/ESPnet. The multi-channel ST and SLU datasets, which are another contribution of this work, are released on HuggingFace.
翻訳日:2022-07-21 12:55:40 公開日:2022-07-19
# 人工ニューラルネットワークによる地下水汚染源の同定

Contaminant source identification in groundwater by means of artificial neural network ( http://arxiv.org/abs/2207.09459v1 )

ライセンス: Link先を確認
Daniele Secci, Laura Molino, Andrea Zanini(参考訳) 所望の環境保護システムでは地下水は排除できない。 過剰曝露の問題に加えて、持続的な開発という概念と全面的に矛盾する問題として、地下水汚染に関して無視できない問題がある。 主に集約的な農業活動や工業化によるものである。 文献では、特にリリース履歴やソース位置が特定される逆問題に対して、いくつかの論文が輸送問題に対処している。 本論文の革新的な目的は, 前方および逆輸送問題の解決, 結果の信頼性の確保, 不確実性の低減を図り, 複数のシナリオを解析し, 強非線形でも解析できるデータ駆動モデルを開発することである。 さらに、このツールは、修復戦略を即座に特定するために必須の、非常に高速な応答を提供する特徴を有する。 このモデルによる利点は、文献研究と比較された。 この点において、異なるケースを扱うために訓練されたフィードフォワード人工ニューラルネットワークは、データ駆動モデルを表している。 第一に、研究領域の特定の観測点における汚染物質の濃度(前方問題)を同定し、第二に、既知のソース位置におけるリリース履歴を識別する逆問題に対処すること、次に、ある汚染源の場合、リリース履歴を識別し、同時に、調査領域の特定のサブドメインにおけるソースの位置を特定すること。 最終的に、観測誤差を調査し、推定する。 その結果、ANNが複数のシナリオに対処する能力を強調し、現象を記述する物理的視点を使わずに非線形関数を近似し、計算負担と不確実性が非常に少ない信頼性のある結果を提供する。

In a desired environmental protection system, groundwater may not be excluded. In addition to the problem of over-exploitation, in total disagreement with the concept of sustainable development, another not negligible issue concerns the groundwater contamination. Mainly, this aspect is due to intensive agricultural activities or industrialized areas. In literature, several papers have dealt with transport problem, especially for inverse problems in which the release history or the source location are identified. The innovative aim of the paper is to develop a data-driven model that is able to analyze multiple scenarios, even strongly non-linear, in order to solve forward and inverse transport problems, preserving the reliability of the results and reducing the uncertainty. Furthermore, this tool has the characteristic of providing extremely fast responses, essential to identify remediation strategies immediately. The advantages produced by the model were compared with literature studies. In this regard, a feedforward artificial neural network, which has been trained to handle different cases, represents the data-driven model. Firstly, to identify the concentration of the pollutant at specific observation points in the study area (forward problem); secondly, to deal with inverse problems identifying the release history at known source location; then, in case of one contaminant source, identifying the release history and, at the same time, the location of the source in a specific sub-domain of the investigated area. At last, the observation error is investigated and estimated. The results are satisfactorily achieved, highlighting the capability of the ANN to deal with multiple scenarios by approximating nonlinear functions without the physical point of view that describes the phenomenon, providing reliable results, with very low computational burden and uncertainty.
翻訳日:2022-07-21 12:54:51 公開日:2022-07-19
# DESCN:個別処理効果推定のための深部宇宙クロスネットワーク

DESCN: Deep Entire Space Cross Networks for Individual Treatment Effect Estimation ( http://arxiv.org/abs/2207.09920v1 )

ライセンス: Link先を確認
Kailiang Zhong, Fengtong Xiao, Yan Ren, Yaorong Liang, Wenqing Yao, Xiaofeng Yang, and Ling Cen(参考訳) 因果推論は電子商取引や精密医療など様々な分野で広く応用されており、その性能は個別処理効果(ITE)の正確な推定に大きく依存している。 従来、ITEは個々のサンプル空間で処理および制御応答関数を個別にモデル化することで予測される。 しかし、このようなアプローチは通常、治療バイアスによる治療群とコントロール群間の分散分布と、それらの集団サイズの顕著なサンプル不均衡という2つの問題に遭遇する。 本稿では,エンド・ツー・エンドの観点から治療効果をモデル化するためのDeep Entire Space Cross Networks (DESCN)を提案する。 DESCNは、マルチタスク学習方式で、治療の妥当性、応答、および隠れた治療効果の統合情報をクロスネットワークを介してキャプチャする。 本手法は, サンプル空間全体の処理機能と応答機能を協調的に学習し, 治療バイアスを回避し, 中間的擬似処理効果予測ネットワークを用いてサンプルの不均衡を緩和する。 総合的な実験は、Eコマースブーチャー流通ビジネスから合成データセットと大規模生産データセットを用いて行われる。 その結果,DESCNはITE推定精度を向上し,昇降ランキング性能を向上させることができた。 生産データセットとソースコードのサンプルは、コミュニティの将来的な研究を促進するためにリリースされ、これは私たちの知る限り、因果推論のための最初の大規模公共バイアス処理データセットである。

Causal Inference has wide applications in various areas such as E-commerce and precision medicine, and its performance heavily relies on the accurate estimation of the Individual Treatment Effect (ITE). Conventionally, ITE is predicted by modeling the treated and control response functions separately in their individual sample spaces. However, such an approach usually encounters two issues in practice, i.e. divergent distribution between treated and control groups due to treatment bias, and significant sample imbalance of their population sizes. This paper proposes Deep Entire Space Cross Networks (DESCN) to model treatment effects from an end-to-end perspective. DESCN captures the integrated information of the treatment propensity, the response, and the hidden treatment effect through a cross network in a multi-task learning manner. Our method jointly learns the treatment and response functions in the entire sample space to avoid treatment bias and employs an intermediate pseudo treatment effect prediction network to relieve sample imbalance. Extensive experiments are conducted on a synthetic dataset and a large-scaled production dataset from the E-commerce voucher distribution business. The results indicate that DESCN can successfully enhance the accuracy of ITE estimation and improve the uplift ranking performance. A sample of the production dataset and the source code are released to facilitate future research in the community, which is, to the best of our knowledge, the first large-scale public biased treatment dataset for causal inference.
翻訳日:2022-07-21 12:51:07 公開日:2022-07-19
# 忘れるな! 後方崩壊緩和に対する対比的批判

Forget-me-not! Contrastive Critics for Mitigating Posterior Collapse ( http://arxiv.org/abs/2207.09535v1 )

ライセンス: Link先を確認
Sachit Menon, David Blei, Carl Vondrick(参考訳) 変分オートエンコーダ(vaes)は後方崩壊に苦しみ、モデリングや推論に使用される強力なニューラルネットワークは潜在表現を意味的に使わずに目標を最適化する。 我々は,潜在変数と観測値の対応を要求され,後方崩壊を検知しインセンティブを与える推論評論家を紹介する。 自己教師付きコントラスト表現学習における批判者の目的と文学を結びつけることで, 理論上, 経験上, 推論批判者の最適化は観察者と潜在者間の相互情報を増加させ, 後方崩壊を緩和することを示した。 このアプローチは実装が簡単で、以前の方法よりもはるかに少ないトレーニング時間を必要とするが、3つの確立したデータセットで競争力のある結果が得られる。 全体として、このアプローチは、コントラスト学習と変分オートエンコーダによる確率的モデリングという、それまで切り離されていたフレームワークを橋渡しする基礎を築いている。

Variational autoencoders (VAEs) suffer from posterior collapse, where the powerful neural networks used for modeling and inference optimize the objective without meaningfully using the latent representation. We introduce inference critics that detect and incentivize against posterior collapse by requiring correspondence between latent variables and the observations. By connecting the critic's objective to the literature in self-supervised contrastive representation learning, we show both theoretically and empirically that optimizing inference critics increases the mutual information between observations and latents, mitigating posterior collapse. This approach is straightforward to implement and requires significantly less training time than prior methods, yet obtains competitive results on three established datasets. Overall, the approach lays the foundation to bridge the previously disconnected frameworks of contrastive learning and probabilistic modeling with variational autoencoders, underscoring the benefits both communities may find at their intersection.
翻訳日:2022-07-21 12:49:58 公開日:2022-07-19
# 総合的ロバストなデータ駆動決定

Holistic Robust Data-Driven Decisions ( http://arxiv.org/abs/2207.09560v1 )

ライセンス: Link先を確認
Amine Bennouna and Bart Van Parys(参考訳) 機械学習と意思決定のためのデータ駆動型定式化の設計は、アウトオブサンプルのパフォーマンスがよい。 良いサンプル内性能が良いサンプル外性能を保証しないという観察は、一般にオーバーフィッティングとして知られている。 実際にはオーバーフィッティングはひとつの原因ではなく、複数の要因を同時に引き起こすのが一般的である。 オーバーフィットする情報源は3つあります (i)有限サンプルデータを用いた結果の統計的誤差 (ii)データポイントが有限の精度で測定され、最終的に発生するデータノイズ (iii)すべてのデータのごく一部が完全に破損する可能性のあるデータの誤特定 我々は、既存のデータ駆動定式化がこれら3つのソースのうちの1つに対して独立して堅牢であるとしても、すべてのオーバーフィッティングソースに対する全体的保護は同時には提供しないと主張している。 このような包括的保護を保証する新しいデータ駆動型定式化を設計し、さらに計算可能とする。 分布的にロバストな最適化定式化は、kullback-leiblerとlevy-prokhorovロバスト最適化定式化の新しい組み合わせとして解釈することができる。 最後に, 分類問題や回帰問題において, 一般的な定式化やロバストな定式化が, 提案するより一般的な定式化の特定の場合にどのように還元されるかを示す。

The design of data-driven formulations for machine learning and decision-making with good out-of-sample performance is a key challenge. The observation that good in-sample performance does not guarantee good out-of-sample performance is generally known as overfitting. Practical overfitting can typically not be attributed to a single cause but instead is caused by several factors all at once. We consider here three overfitting sources: (i) statistical error as a result of working with finite sample data, (ii) data noise which occurs when the data points are measured only with finite precision, and finally (iii) data misspecification in which a small fraction of all data may be wholly corrupted. We argue that although existing data-driven formulations may be robust against one of these three sources in isolation they do not provide holistic protection against all overfitting sources simultaneously. We design a novel data-driven formulation which does guarantee such holistic protection and is furthermore computationally viable. Our distributionally robust optimization formulation can be interpreted as a novel combination of a Kullback-Leibler and Levy-Prokhorov robust optimization formulation. Finally, we show how in the context of classification and regression problems several popular regularized and robust formulations reduce to a particular case of our proposed more general formulation.
翻訳日:2022-07-21 12:49:38 公開日:2022-07-19
# ヒューマンガイドによる協調問題解決--自然言語に基づく枠組み

Human-guided Collaborative Problem Solving: A Natural Language based Framework ( http://arxiv.org/abs/2207.09566v1 )

ライセンス: Link先を確認
Harsha Kokel, Mayukh Das, Rakibul Islam, Julia Bonn, Jon Cai, Soham Dan, Anjali Narayan-Chen, Prashant Jayannavar, Janardhan Rao Doppa, Julia Hockenmaier, Sriraam Natarajan, Martha Palmer, Dan Roth(参考訳) 本研究では,人間と機械の協調的問題解決の課題を,自然言語通信と組み合わせた計画課題とみなす。 我々のフレームワークは,言語発話を形式的表現に解析する自然言語エンジンと,ユーザとの限定的なインタラクションに基づく計画の一般化概念を誘導する概念学習器と,ヒューマンインタラクションに基づくタスクを解決するHTNプランナの3つのコンポーネントから構成される。 本稿では,minecraftベースのblocksworldドメインにおける協調的ビルディングタスクを実演することにより,協調問題解決の重要な課題を解決するためのフレームワークの能力を示す。 デモビデオはhttps://youtu.be/q1pwe4aahf0。

We consider the problem of human-machine collaborative problem solving as a planning task coupled with natural language communication. Our framework consists of three components -- a natural language engine that parses the language utterances to a formal representation and vice-versa, a concept learner that induces generalized concepts for plans based on limited interactions with the user, and an HTN planner that solves the task based on human interaction. We illustrate the ability of this framework to address the key challenges of collaborative problem solving by demonstrating it on a collaborative building task in a Minecraft-based blocksworld domain. The accompanied demo video is available at https://youtu.be/q1pWe4aahF0.
翻訳日:2022-07-21 12:43:34 公開日:2022-07-19
# 更新するか更新しないか? 深部モデルにおける平衡ニューロン

To update or not to update? Neurons at equilibrium in deep models ( http://arxiv.org/abs/2207.09455v1 )

ライセンス: Link先を確認
Andrea Bragagnolo and Enzo Tartaglione and Marco Grangetto(参考訳) ディープラーニング最適化の最近の進歩は、完全学習モデルに関するいくつかのアポテリオリ情報により、パラメータのサブセットを単に訓練することで、同じ性能に適合できることを示した。 このような発見は理論から応用まで幅広い影響を及ぼし、ルックアヘッド情報の利用なしにトレーニングするパラメータの最小サブセットを特定する方法の研究を推進している。 しかし,提案手法は最先端の性能と一致せず,非構造的疎結合モデルに依存している。 この研究では、焦点を単一パラメータから全ニューロンの挙動にシフトさせ、ニューロン平衡(neq)の概念を生かした。 ニューロンが平衡状態にあるとき(特定の入出力関係を学んだことを意味する)、その更新を停止することができるが、逆にニューロンが非平衡状態である場合、状態は平衡状態に向かって進化させ、そのパラメータを更新する。 提案手法は,neqを検証し,神経の平衡が特定の学習条件に依存することを観察し,最先端の学習戦略と課題について検証した。

Recent advances in deep learning optimization showed that, with some a-posteriori information on fully-trained models, it is possible to match the same performance by simply training a subset of their parameters. Such a discovery has a broad impact from theory to applications, driving the research towards methods to identify the minimum subset of parameters to train without look-ahead information exploitation. However, the methods proposed do not match the state-of-the-art performance, and rely on unstructured sparsely connected models. In this work we shift our focus from the single parameters to the behavior of the whole neuron, exploiting the concept of neuronal equilibrium (NEq). When a neuron is in a configuration at equilibrium (meaning that it has learned a specific input-output relationship), we can halt its update; on the contrary, when a neuron is at non-equilibrium, we let its state evolve towards an equilibrium state, updating its parameters. The proposed approach has been tested on different state-of-the-art learning strategies and tasks, validating NEq and observing that the neuronal equilibrium depends on the specific learning setup.
翻訳日:2022-07-21 12:43:23 公開日:2022-07-19
# アラームシーケンスと長期記憶アルゴリズムを用いた風力発電修理行動予測のためのディープラーニングフレームワーク

A Deep Learning Framework for Wind Turbine Repair Action Prediction Using Alarm Sequences and Long Short Term Memory Algorithms ( http://arxiv.org/abs/2207.09457v1 )

ライセンス: Link先を確認
Connor Walker, Callum Rothon, Koorosh Aslansefat, Yiannis Papadopoulos, Nina Dethlefs(参考訳) オフショアウィンド(osw)部門における運用とメンテナンスのコスト(o$\&$m)の削減に重点を置くことで、ドメインへのディープラーニング(dl)の新たな方法論と応用を探求する必要性が高まっている。 コンディションベースの監視(CBM)は、近年のアラームベースのシステムとデータ駆動意思決定の研究の最前線にある。 本稿では,この領域で行われている研究について,特にアラームシーケンスモデリングとその実装における課題について,簡単な知見を提供する。 本稿では,アラームシーケンスの入力シーケンスから関連する修復動作のセットを予測し,Long Short-term Memory(LSTM)モデルとBidirectional LSTM(biLSTM)モデルを比較した。 トレーニング精度を最大80.23$\%$で達成し、bilstmで最大76.01$\%$の試験精度を達成すれば、今後の研究で期待できる提案手法の潜在的な利点を強く示すことができる。 本稿では,提案手法をO$\&$Mプロシージャに統合するフレームワークを導入し,故障診断と修正のためにタービンへの不必要な船舶の移動とともに,紛らわしい多数のアラームの低減を含む潜在的な利点について考察する。

With an increasing emphasis on driving down the costs of Operations and Maintenance (O$\&$M) in the Offshore Wind (OSW) sector, comes the requirement to explore new methodology and applications of Deep Learning (DL) to the domain. Condition-based monitoring (CBM) has been at the forefront of recent research developing alarm-based systems and data-driven decision making. This paper provides a brief insight into the research being conducted in this area, with a specific focus on alarm sequence modelling and the associated challenges faced in its implementation. The paper proposes a novel idea to predict a set of relevant repair actions from an input sequence of alarm sequences, comparing Long Short-term Memory (LSTM) and Bidirectional LSTM (biLSTM) models. Achieving training accuracy results of up to 80.23$\%$, and test accuracy results of up to 76.01$\%$ with biLSTM gives a strong indication to the potential benefits of the proposed approach that can be furthered in future research. The paper introduces a framework that integrates the proposed approach into O$\&$M procedures and discusses the potential benefits which include the reduction of a confusing plethora of alarms, as well as unnecessary vessel transfers to the turbines for fault diagnosis and correction.
翻訳日:2022-07-21 12:43:04 公開日:2022-07-19
# ディープラーニングによる制御可能なデータ生成:レビュー

Controllable Data Generation by Deep Learning: A Review ( http://arxiv.org/abs/2207.09542v1 )

ライセンス: Link先を確認
Shiyu Wang, Yuanqi Du, Xiaojie Guo, Bo Pan, Liang Zhao(参考訳) ターゲット特性の下での新しいデータの設計と生成は、分子設計、画像編集、音声合成といった様々な重要な応用を惹きつけてきた。 従来の手作りのアプローチは、専門的な経験と集中的な人間の努力に大きく依存しているが、効率的で効率的なデータ生成をサポートするための科学的知識と低スループットの不足に悩まされている。 近年,深層学習の進歩は,データの表現と特性を学習する表現的手法を誘導している。 このような能力は、データの構造パターンと機能特性の相互関係を解明し、そのような関係を利用して、所望のプロパティが与えられた構造データを生成する新しい機会を提供する。 本稿では、制御可能な深層データ生成として知られるこの有望な研究領域を体系的にレビューする。 まず、潜在的な課題を提起し、予備案を提供する。 そして、制御可能な深層データ生成を正式に定義し、様々な技術に関する分類を提案し、この特定領域における評価指標を要約する。 その後、制御可能な深層データ生成のエキサイティングな応用が導入され、既存の研究が実験的に分析・比較される。 最後に、制御可能な深層データ生成の今後の方向性を強調し、5つの潜在的な課題を特定する。

Designing and generating new data under targeted properties has been attracting various critical applications such as molecule design, image editing and speech synthesis. Traditional hand-crafted approaches heavily rely on expertise experience and intensive human efforts, yet still suffer from the insufficiency of scientific knowledge and low throughput to support effective and efficient data generation. Recently, the advancement of deep learning induces expressive methods that can learn the underlying representation and properties of data. Such capability provides new opportunities in figuring out the mutual relationship between the structural patterns and functional properties of the data and leveraging such relationship to generate structural data given the desired properties. This article provides a systematic review of this promising research area, commonly known as controllable deep data generation. Firstly, the potential challenges are raised and preliminaries are provided. Then the controllable deep data generation is formally defined, a taxonomy on various techniques is proposed and the evaluation metrics in this specific domain are summarized. After that, exciting applications of controllable deep data generation are introduced and existing works are experimentally analyzed and compared. Finally, the promising future directions of controllable deep data generation are highlighted and five potential challenges are identified.
翻訳日:2022-07-21 12:42:40 公開日:2022-07-19
# 内視鏡的疾患検出のためのクラスアウェアロスによる知識蒸留

Knowledge distillation with a class-aware loss for endoscopic disease detection ( http://arxiv.org/abs/2207.09530v1 )

ライセンス: Link先を確認
Pedro E. Chavarrias-Solanon and Mansoor Ali-Teevno and Gilberto Ochoa-Ruiz and Sharib Ali(参考訳) 消化器癌(GI)の死亡率は毎年急激に増加しており、死亡率は大幅に上昇している。 内視鏡的診断は重要な診断支援を提供するが,上肢および下肢の微妙な病変は検出が困難であり,発見に難渋している。 本研究では, 深層学習を活用して, 病変検出の困難さを解消し, 発見率を最小化するためのフレームワークを開発する。 そこで本研究では,より大規模なデータセットを持つ1クラスの教師モデルのクラス確率を用いて,複数クラスの学生ネットワークをペナルティ化するエンド・ツー・エンドの学習環境を提案する。 本モデルでは,内視鏡的疾患検出 (EDD2020) と Kvasir-SEG データセットのどちらにおいても,平均平均精度 (mAP) が向上する。 さらに,このような学習パラダイムを用いることで,臨床上重要な新腫瘍およびポリープのカテゴリに対して高いapsを与える未発見のテストセットに一般化できることを示した。

Prevalence of gastrointestinal (GI) cancer is growing alarmingly every year leading to a substantial increase in the mortality rate. Endoscopic detection is providing crucial diagnostic support, however, subtle lesions in upper and lower GI are quite hard to detect and cause considerable missed detection. In this work, we leverage deep learning to develop a framework to improve the localization of difficult to detect lesions and minimize the missed detection rate. We propose an end to end student-teacher learning setup where class probabilities of a trained teacher model on one class with larger dataset are used to penalize multi-class student network. Our model achieves higher performance in terms of mean average precision (mAP) on both endoscopic disease detection (EDD2020) challenge and Kvasir-SEG datasets. Additionally, we show that using such learning paradigm, our model is generalizable to unseen test set giving higher APs for clinically crucial neoplastic and polyp categories
翻訳日:2022-07-21 12:36:55 公開日:2022-07-19
# Tip-Adapter:Few-shot分類のためのCLIPのトレーニング不要適応

Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification ( http://arxiv.org/abs/2207.09519v1 )

ライセンス: Link先を確認
Renrui Zhang, Zhang Wei, Rongyao Fang, Peng Gao, Kunchang Li, Jifeng Dai, Yu Qiao, Hongsheng Li(参考訳) 対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。 ダウンストリームタスクのゼロショット知識転送による印象的なパフォーマンスを示す。 CLIPの適応性をさらに強化するため、学習可能なモジュールを微調整する既存の手法が提案されている。 本稿では、Tip-Adapterと呼ばれる、ゼロショットCLIPのトレーニング不要な利点を継承するだけでなく、これらのトレーニング要求されたアプローチと互換性のある、CLIPのトレーニング不要な適応手法を提案する。 Tip-Adapterは、数ショットのトレーニングセットからキー値キャッシュモデルを介してアダプタを構築し、機能検索によってCLIPでエンコードされた以前の知識を更新する。 それに加えて、pip-adapterのパフォーマンスは、既存のメソッドよりも10$\times$少ないエポックでキャッシュモデルを微調整することで、imagenetにおける最先端のパフォーマンスをさらに高めることができる。 提案手法の優越性を示すため,11個のデータセットで少数ショットの分類実験を行った。 コードはhttps://github.com/gaopengcuhk/tip-adapterでリリースされる。

Contrastive Vision-Language Pre-training, known as CLIP, has provided a new paradigm for learning visual representations using large-scale image-text pairs. It shows impressive performance on downstream tasks by zero-shot knowledge transfer. To further enhance CLIP's adaption capability, existing methods proposed to fine-tune additional learnable modules, which significantly improves the few-shot performance but introduces extra training time and computational resources. In this paper, we propose a training-free adaption method for CLIP to conduct few-shot classification, termed as Tip-Adapter, which not only inherits the training-free advantage of zero-shot CLIP but also performs comparably to those training-required approaches. Tip-Adapter constructs the adapter via a key-value cache model from the few-shot training set, and updates the prior knowledge encoded in CLIP by feature retrieval. On top of that, the performance of Tip-Adapter can be further boosted to be state-of-the-art on ImageNet by fine-tuning the cache model for 10$\times$ fewer epochs than existing methods, which is both effective and efficient. We conduct extensive experiments of few-shot classification on 11 datasets to demonstrate the superiority of our proposed methods. Code is released at https://github.com/gaopengcuhk/Tip-Adapter.
翻訳日:2022-07-21 12:31:59 公開日:2022-07-19
# 欠落または空のラベルのコンテキストにおけるDice損失:$\Phi$と$\epsilon$の導入

The Dice loss in the context of missing or empty labels: Introducing $\Phi$ and $\epsilon$ ( http://arxiv.org/abs/2207.09521v1 )

ライセンス: Link先を確認
Sofie Tilborghs, Jeroen Bertels, David Robben, Dirk Vandermeulen, Frederik Maes(参考訳) dice損失は医用画像のセグメンテーションにおいて支配的な損失関数の1つであるが、ほとんどの研究はその導関数、すなわち勾配降下を用いる際の最適化の実際の運動を詳細に観察することを省略している。 本稿では,欠落ラベルや空白ラベルの存在下でのDice損失の特異な作用を強調した。 まず、ダイス損失とその微分の一般的な説明を与える理論的基礎を定式化する。 還元次元 $\Phi$ と滑らかな項 $\epsilon$ の選択は非自明であり、その振る舞いに大きな影響を与える。 我々は、欠落ラベルまたは空ラベルのセグメンテーション設定で動作する$\phi$と$\epsilon$のヒューリスティックな組み合わせを見つけ、提案する。 第二に、これらの知見を2つの公開データセットを用いてバイナリおよびマルチクラスセグメンテーション設定で実証的に検証する。 我々は$\Phi$と$\epsilon$の選択が確かに重要であることを確認した。 1つのバッチ(およびクラス)要素でリダクションが発生し、無視可能な$\epsilon$を持つ$\phi$が選択されると、サイコロロスは、紛失ラベルを自然に処理し、欠落ラベルに特有の最近の適応と同等に実行する。 複数のバッチ要素または$\epsilon$のヒューリスティックな値で還元が行われるように$\phi$が選択されると、diceロスは空のラベルを正しく処理する。 我々は、この研究がいくつかの本質的な視点を強調し、研究者が将来の作業におけるサイコロの損失の正確な実装をより正確に説明することを望んでいると信じている。

Albeit the Dice loss is one of the dominant loss functions in medical image segmentation, most research omits a closer look at its derivative, i.e. the real motor of the optimization when using gradient descent. In this paper, we highlight the peculiar action of the Dice loss in the presence of missing or empty labels. First, we formulate a theoretical basis that gives a general description of the Dice loss and its derivative. It turns out that the choice of the reduction dimensions $\Phi$ and the smoothing term $\epsilon$ is non-trivial and greatly influences its behavior. We find and propose heuristic combinations of $\Phi$ and $\epsilon$ that work in a segmentation setting with either missing or empty labels. Second, we empirically validate these findings in a binary and multiclass segmentation setting using two publicly available datasets. We confirm that the choice of $\Phi$ and $\epsilon$ is indeed pivotal. With $\Phi$ chosen such that the reductions happen over a single batch (and class) element and with a negligible $\epsilon$, the Dice loss deals with missing labels naturally and performs similarly compared to recent adaptations specific for missing labels. With $\Phi$ chosen such that the reductions happen over multiple batch elements or with a heuristic value for $\epsilon$, the Dice loss handles empty labels correctly. We believe that this work highlights some essential perspectives and hope that it encourages researchers to better describe their exact implementation of the Dice loss in future work.
翻訳日:2022-07-21 12:30:57 公開日:2022-07-19
# 重症心身障害患者に対する臨床動機づけ手法である生存支援のための強化学習

Reinforcement Learning For Survival, A Clinically Motivated Method For Critically Ill Patients ( http://arxiv.org/abs/2207.08040v2 )

ライセンス: Link先を確認
Thesath Nanayakkara(参考訳) 重症患者に対する最適な治療戦略を観察データから直接学ぶために、rlと確率的制御法を活用することには、かなりの関心が寄せられている。 しかし、制御目的と標準RL目標に対する最高の報酬選択には、大きな曖昧さがある。 本研究は,本研究の目的である重症心疾患患者に対する臨床的動機付け制御目標を提案する。 さらに,理論的な結果を示し,任意の値に基づくdeep rl法と並行して使用できる実用的なdeep rlアルゴリズムに適用する。 我々は,大規模な敗血症コホートを用いて実験を行い,臨床知識と一致した結果が得られることを示した。

There has been considerable interest in leveraging RL and stochastic control methods to learn optimal treatment strategies for critically ill patients, directly from observational data. However, there is significant ambiguity on the control objective and on the best reward choice for the standard RL objective. In this work, we propose a clinically motivated control objective for critically ill patients, for which the value functions have a simple medical interpretation. Further, we present theoretical results and adapt our method to a practical Deep RL algorithm, which can be used alongside any value based Deep RL method. We experiment on a large sepsis cohort and show that our method produces results consistent with clinical knowledge.
翻訳日:2022-07-21 10:51:58 公開日:2022-07-19
# 雑音観測によるレグレト最小化

Regret Minimization with Noisy Observations ( http://arxiv.org/abs/2207.09435v1 )

ライセンス: Link先を確認
Mohammad Mahdian, Jieming Mao and Kangning Wang(参考訳) 典型的な最適化問題では、最低コストまたは最高値の選択肢の1つを選択することが課題である。 実際には、これらのコスト/価値の量は、計測や機械学習といった、定量的なノイズ分布を伴うノイズの多いプロセスを通じて生じることが多い。 これらのノイズ分布を考慮に入れるために、1つのアプローチは、値の事前を仮定し、それを後部の構築に使用し、解を選ぶために標準的な確率最適化を適用することである。 しかし、多くの実践的応用において、そのような事前分布は利用できない。 本稿では,後悔最小化モデルを用いてこのようなシナリオを考察する。 私たちのモデルでは、そのタスクは$n$の値から最も高い値を選ぶことです。 値は未知であり、敵対者によって選択されるが、雑音のあるチャネルを通して観測され、付加音は既知の分布から確率的に引き出される。 ゴールは選択の後悔を最小限に抑えることであり、最も高い値と最悪の値の選択における選択された値の期待差として定義される。 観測値の最大値を選択するアルゴリズムは、$n = 2$ のときやノイズが期待できないときであっても、最適値よりも任意に後悔していることを示す。 一方,任意の$n$に対する最適後悔に一定の近似を与えるアルゴリズムを提案する。 このアルゴリズムは概念的に単純で計算効率が良く,ノイズ分布の最小知識しか必要としない。

In a typical optimization problem, the task is to pick one of a number of options with the lowest cost or the highest value. In practice, these cost/value quantities often come through processes such as measurement or machine learning, which are noisy, with quantifiable noise distributions. To take these noise distributions into account, one approach is to assume a prior for the values, use it to build a posterior, and then apply standard stochastic optimization to pick a solution. However, in many practical applications, such prior distributions may not be available. In this paper, we study such scenarios using a regret minimization model. In our model, the task is to pick the highest one out of $n$ values. The values are unknown and chosen by an adversary, but can be observed through noisy channels, where additive noises are stochastically drawn from known distributions. The goal is to minimize the regret of our selection, defined as the expected difference between the highest and the selected value on the worst-case choices of values. We show that the na\"ive algorithm of picking the highest observed value has regret arbitrarily worse than the optimum, even when $n = 2$ and the noises are unbiased in expectation. On the other hand, we propose an algorithm which gives a constant-approximation to the optimal regret for any $n$. Our algorithm is conceptually simple, computationally efficient, and requires only minimal knowledge of the noise distributions.
翻訳日:2022-07-20 14:41:34 公開日:2022-07-19
# エントロピーテンソル化による高次元分布のアイデンティティテスト

Identity Testing for High-Dimensional Distributions via Entropy Tensorization ( http://arxiv.org/abs/2207.09102v1 )

ライセンス: Link先を確認
Antonio Blanca, Zongchen Chen, Daniel \v{S}tefankovi\v{c}, Eric Vigoda(参考訳) n$次元分布の同一性テスト問題に対するアルゴリズムの改良と統計的および計算的下限のマッチングについて述べる。 アイデンティティテスト問題では、明示的な分布 $\mu$, $\varepsilon>0$, and access to a sample oracle for a hidden distribution $\pi$ が与えられる。 目標は、$\mu$ と $\pi$ の2つのディストリビューションが同一か、少なくとも$\varepsilon$-far かを区別することである。 隠れ分布の$\pi$から完全なサンプルにしかアクセスできない場合、指数関数的に多くのサンプルが必要になることが知られており、それ故に以前の研究は様々な条件付きサンプリングオラクルへの追加アクセスでアイデンティティテストを研究した。 ここでは、コーディネートオラクルと呼ばれる、かなり弱い条件サンプリングオラクルを検討し、この新しいモデルにおけるアイデンティティテスト問題のかなり完全な計算と統計的な特徴付けを提供する。 エントロピーの近似テンソル化として知られる解析的性質が、可視分布 $\mu$ に対して成り立つならば、座標オラクルに$\tilde{o}(n/\varepsilon)$クエリを使用する隠れた$\pi$ に対する効率的なアイデンティティテストアルゴリズムが存在することが証明される。 エントロピーの近似テンソル化は、高次元分布に対するマルコフ連鎖の最適混合時間境界を証明する古典的なツールであり、近年はスペクトル独立性を通じて分布の多くの族に対して確立されている。 我々は,Oracleのコーディネートの下でのクエリ数に対して,一致する$\Omega(n/\varepsilon)$statistical lowerboundでIDテストのアルゴリズム結果を補完する。 計算位相遷移も証明する:$\{+1,-1\}^n$上のスパース反強磁性イジングモデルに対して、エントロピーの近似テンソル化が失敗する状況では、RP=NPがなければ効率的な恒等性検査アルゴリズムは存在しない。

We present improved algorithms and matching statistical and computational lower bounds for the problem of identity testing $n$-dimensional distributions. In the identity testing problem, we are given as input an explicit distribution $\mu$, an $\varepsilon>0$, and access to a sampling oracle for a hidden distribution $\pi$. The goal is to distinguish whether the two distributions $\mu$ and $\pi$ are identical or are at least $\varepsilon$-far apart. When there is only access to full samples from the hidden distribution $\pi$, it is known that exponentially many samples may be needed, and hence previous works have studied identity testing with additional access to various conditional sampling oracles. We consider here a significantly weaker conditional sampling oracle, called the Coordinate Oracle, and provide a fairly complete computational and statistical characterization of the identity testing problem in this new model. We prove that if an analytic property known as approximate tensorization of entropy holds for the visible distribution $\mu$, then there is an efficient identity testing algorithm for any hidden $\pi$ that uses $\tilde{O}(n/\varepsilon)$ queries to the Coordinate Oracle. Approximate tensorization of entropy is a classical tool for proving optimal mixing time bounds of Markov chains for high-dimensional distributions, and recently has been established for many families of distributions via spectral independence. We complement our algorithmic result for identity testing with a matching $\Omega(n/\varepsilon)$ statistical lower bound for the number of queries under the Coordinate Oracle. We also prove a computational phase transition: for sparse antiferromagnetic Ising models over $\{+1,-1\}^n$, in the regime where approximate tensorization of entropy fails, there is no efficient identity testing algorithm unless RP=NP.
翻訳日:2022-07-20 14:41:02 公開日:2022-07-19
# データ中心の疫学予測:調査

Data-Centric Epidemic Forecasting: A Survey ( http://arxiv.org/abs/2207.09370v1 )

ライセンス: Link先を確認
Alexander Rodr\'iguez, Harshavardhan Kamarthi, Pulak Agarwal, Javen Ho, Mira Patel, Suchet Sapre, B. Aditya Prakash(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、公衆衛生から経済全体に至るまで、複数のドメインにおける意思決定者に対する流行予測の重要性をもたらした。 流行の進行を予測することは、しばしば天気予報と類似しているとして概念化されるが、いくつかの重要な違いがあり、非自明な課題である。 病気の拡散は、人間の行動、病原体力学、天候、環境条件にまたがる複数の要因によって引き起こされる。 研究の関心は、これまで観測できなかったような面を捉えたリッチなデータソースの可用性の増加と、政府の公衆衛生と資金機関の主導によるものだ。 これは特に、AIや機械学習の最近の革新と同様に、従来のデータソースを活用することによって予測能力を向上する可能性を示した、‘データ中心’ソリューションに関する一連の研究の結果である。 この調査は、さまざまなデータ駆動型方法論と実践的な進歩を掘り下げ、それらをナビゲートするための概念的枠組みを紹介します。 まず、疫学上の大量のデータセットと、流行予測に関連する新しいデータストリームを列挙し、症状のオンラインサーベイ、小売商取引、モビリティ、ゲノムデータなど様々な要因を捉えます。 次に、最近のデータ駆動統計・ディープラーニングに基づく手法と、メカニカルモデルのドメイン知識と統計的アプローチの有効性と柔軟性を組み合わせた新しいハイブリッドモデルのクラスに焦点を当てた手法とモデリングパラダイムについて論じる。 また,これらの予測システムの現実的な展開において生じる経験や課題についても論じる。 最後に,予測パイプライン全体に見られる課題と課題について紹介する。

The COVID-19 pandemic has brought forth the importance of epidemic forecasting for decision makers in multiple domains, ranging from public health to the economy as a whole. While forecasting epidemic progression is frequently conceptualized as being analogous to weather forecasting, however it has some key differences and remains a non-trivial task. The spread of diseases is subject to multiple confounding factors spanning human behavior, pathogen dynamics, weather and environmental conditions. Research interest has been fueled by the increased availability of rich data sources capturing previously unobservable facets and also due to initiatives from government public health and funding agencies. This has resulted, in particular, in a spate of work on 'data-centered' solutions which have shown potential in enhancing our forecasting capabilities by leveraging non-traditional data sources as well as recent innovations in AI and machine learning. This survey delves into various data-driven methodological and practical advancements and introduces a conceptual framework to navigate through them. First, we enumerate the large number of epidemiological datasets and novel data streams that are relevant to epidemic forecasting, capturing various factors like symptomatic online surveys, retail and commerce, mobility, genomics data and more. Next, we discuss methods and modeling paradigms focusing on the recent data-driven statistical and deep-learning based methods as well as on the novel class of hybrid models that combine domain knowledge of mechanistic models with the effectiveness and flexibility of statistical approaches. We also discuss experiences and challenges that arise in real-world deployment of these forecasting systems including decision-making informed by forecasts. Finally, we highlight some challenges and open problems found across the forecasting pipeline.
翻訳日:2022-07-20 14:40:24 公開日:2022-07-19
# クエリ可能なMLモデル動物園のためのメタデータ表現

Metadata Representations for Queryable ML Model Zoos ( http://arxiv.org/abs/2207.09315v1 )

ライセンス: Link先を確認
Ziyu Li, Rihan Hai, Alessandro Bozzon and Asterios Katsifodimos(参考訳) 機械学習(ML)の実践者や組織は、事前訓練されたモデルのモデル動物園を構築しており、レポート、監査、再現性、解釈可能性目的に有用なMLモデルとデータセットの特性を記述するメタデータを含んでいる。 metatadaは現在標準化されておらず、表現性は制限されており、相互運用可能な保存とクエリの方法は存在しない。 その結果、モデル検索、再利用、比較、構成が妨げられる。 本稿では,MLモデルのメタデータ表現と管理の標準化を提唱し,そのメタデータの管理とクエリを支援するツールキットを提案する。

Machine learning (ML) practitioners and organizations are building model zoos of pre-trained models, containing metadata describing properties of the ML models and datasets that are useful for reporting, auditing, reproducibility, and interpretability purposes. The metatada is currently not standardised; its expressivity is limited; and there is no interoperable way to store and query it. Consequently, model search, reuse, comparison, and composition are hindered. In this paper, we advocate for standardized ML model meta-data representation and management, proposing a toolkit supported to help practitioners manage and query that metadata.
翻訳日:2022-07-20 14:38:46 公開日:2022-07-19
# ネスト合成最適化のためのリーマン確率勾配法

Riemannian Stochastic Gradient Method for Nested Composition Optimization ( http://arxiv.org/abs/2207.09350v1 )

ライセンス: Link先を確認
Dewei Zhang and Sam Davanloo Tajbakhsh(参考訳) この研究は、各函数が期待を含むリーマン多様体上のネスト形式の函数の構成の最適化を考える。 このような問題は、強化学習における政策評価やメタ学習におけるモデルカスタマイズといった応用において人気が高まっている。 非結合最適化のための標準リーマン確率勾配法は、内部関数の確率近似が外部関数の勾配にバイアスを生じさせるので直接適用できない。 2段階の合成最適化のために、近似定常点を求めるリーマンの確率的合成勾配勾配降下 (r-scgd) 法を提案し、予想された二乗リーマン勾配が$\epsilon$, in o(\epsilon^{-2})$ から外関数の確率的勾配神託への呼び出しと、内関数の確率的関数および勾配神託を求める。 さらに,多層ネスト構成構造問題に対するR-SCGDアルゴリズムを,一階確率オラクルに対して$O(\epsilon^{-2})$と同じ複雑さで一般化する。 最後にr-scgd法の性能を強化学習における政策評価問題に対して数値的に評価する。

This work considers optimization of composition of functions in a nested form over Riemannian manifolds where each function contains an expectation. This type of problems is gaining popularity in applications such as policy evaluation in reinforcement learning or model customization in meta-learning. The standard Riemannian stochastic gradient methods for non-compositional optimization cannot be directly applied as stochastic approximation of inner functions create bias in the gradients of the outer functions. For two-level composition optimization, we present a Riemannian Stochastic Composition Gradient Descent (R-SCGD) method that finds an approximate stationary point, with expected squared Riemannian gradient smaller than $\epsilon$, in $O(\epsilon^{-2})$ calls to the stochastic gradient oracle of the outer function and stochastic function and gradient oracles of the inner function. Furthermore, we generalize the R-SCGD algorithms for problems with multi-level nested compositional structures, with the same complexity of $O(\epsilon^{-2})$ for the first-order stochastic oracle. Finally, the performance of the R-SCGD method is numerically evaluated over a policy evaluation problem in reinforcement learning.
翻訳日:2022-07-20 14:38:37 公開日:2022-07-19
# グループ同期のための未ロールアルゴリズム

Unrolled algorithms for group synchronization ( http://arxiv.org/abs/2207.09418v1 )

ライセンス: Link先を確認
Noam Janco and Tamir Bendory(参考訳) 群同期問題は、そのペア比のノイズ測定から群要素の集合を推定することを含む。 この課題は、単粒子核電子顕微鏡(cryo-em)における分子再構成問題を含む多くの計算問題において重要な要素である。 群要素を推定する標準的な方法は、線形および非線形作用素を反復的に適用することに基づいている。 ディープニューラルネットワークの構造的類似性に動機づけられ、アルゴリズムの最適化にトレーニングデータを使用するアルゴリズムの展開という概念を採用する。 我々は,3次元回転群上での同期を含む,いくつかのグループ同期インスタンスに対するアンロールアルゴリズムを設計する。 また,マルチリファレンスアライメント問題にも同様のアプローチを適用する。 数値実験により, ロールング戦略が既存の同期アルゴリズムよりも多種多様なシナリオにおいて優れていることを示す。

The group synchronization problem involves estimating a collection of group elements from noisy measurements of their pairwise ratios. This task is a key component in many computational problems, including the molecular reconstruction problem in single-particle cryo-electron microscopy (cryo-EM). The standard methods to estimate the group elements are based on iteratively applying linear and non-linear operators. Motivated by the structural similarity to deep neural networks, we adopt the concept of algorithm unrolling, where training data is used to optimize the algorithm. We design unrolled algorithms for several group synchronization instances, including synchronization over the group of 3-D rotations: the synchronization problem in cryo-EM. We also apply a similar approach to the multi-reference alignment problem. We show by numerical experiments that the unrolling strategy outperforms existing synchronization algorithms in a wide variety of scenarios.
翻訳日:2022-07-20 14:38:16 公開日:2022-07-19
# 超新星時系列分類への畳み込みニューラルネットワークアプローチ

A Convolutional Neural Network Approach to Supernova Time-Series Classification ( http://arxiv.org/abs/2207.09440v1 )

ライセンス: Link先を確認
Helen Qu, Masao Sako, Anais Moller, Cyrille Doux(参考訳) 宇宙で最も明るい天体の一つ、超新星(SNe)は、恒星の寿命の終わりを示す強力な爆発である。 超新星(sn)型は分光放射線によって定義されているが、分光の取得は論理的に不可能であることが多い。 したがって、時系列画像データのみを用いてSNeをタイプで識別する能力は、特に今後の望遠鏡の広さと深さの増大に照らして重要である。 本稿では,超新星の高速時系列分類のための畳み込みニューラルネットワーク手法を提案する。 本手法を完全持続時間と終了sn時系列に適用し,ふりかえりとリアルタイムの分類性能をシミュレートする。 宇宙学的に有用なタイプIa SNeを他のSNタイプと区別するために、振り返り分類が使用され、この方法では99%の精度が達成される。 2夜のデータと98%の正確さを振り返って考えると、60%の精度で6つのsnタイプを区別できます。

One of the brightest objects in the universe, supernovae (SNe) are powerful explosions marking the end of a star's lifetime. Supernova (SN) type is defined by spectroscopic emission lines, but obtaining spectroscopy is often logistically unfeasible. Thus, the ability to identify SNe by type using time-series image data alone is crucial, especially in light of the increasing breadth and depth of upcoming telescopes. We present a convolutional neural network method for fast supernova time-series classification, with observed brightness data smoothed in both the wavelength and time directions with Gaussian process regression. We apply this method to full duration and truncated SN time-series, to simulate retrospective as well as real-time classification performance. Retrospective classification is used to differentiate cosmologically useful Type Ia SNe from other SN types, and this method achieves >99% accuracy on this task. We are also able to differentiate between 6 SN types with 60% accuracy given only two nights of data and 98% accuracy retrospectively.
翻訳日:2022-07-20 14:38:05 公開日:2022-07-19
# 教育におけるデータサイエンスと機械学習

Data Science and Machine Learning in Education ( http://arxiv.org/abs/2207.09060v1 )

ライセンス: Link先を確認
Gabriele Benelli, Thomas Y. Chen, Javier Duarte, Matthew Feickert, Matthew Graham, Lindsey Gray, Dan Hackett, Phil Harris, Shih-Chieh Hsu, Gregor Kasieczka, Elham E. Khoda, Matthias Komm, Mia Liu, Mark S. Neubauer, Scarlet Norberg, Alexx Perloff, Marcel Rieger, Claire Savard, Kazuhiro Terao, Savannah Thais, Avik Roy, Jean-Roch Vlimant, Grigorios Chachamis(参考訳) 高エネルギー物理学(hep)におけるデータサイエンス(ds)と機械学習(ml)の役割の高まりは、hep研究の中心にある複雑な検出器、大規模データ、セット、高度な分析によって確立され、関連する。 さらに、物理データに固有の対称性を活用することで、コンピュータサイエンス研究の活発なサブフィールドとして、物理学にインフォームドされたMLが着想を得た。 HEP研究者は、教育、訓練、労働開発のために広く利用可能な材料から大きな恩恵を受ける。 また、これらの材料に貢献し、DS/ML関連の分野にソフトウェアを提供している。 物理学部は、ds、ml、物理学の交差点でコースを提供しており、しばしばhep研究者によって開発され、hepで使われるオープンソフトウェアとデータを含んでいる。 本稿では,HEP研究とDS/ML教育の相乗効果を探求し,この交差点における機会と課題について議論し,相互に有益なコミュニティ活動を提案する。

The growing role of data science (DS) and machine learning (ML) in high-energy physics (HEP) is well established and pertinent given the complex detectors, large data, sets and sophisticated analyses at the heart of HEP research. Moreover, exploiting symmetries inherent in physics data have inspired physics-informed ML as a vibrant sub-field of computer science research. HEP researchers benefit greatly from materials widely available materials for use in education, training and workforce development. They are also contributing to these materials and providing software to DS/ML-related fields. Increasingly, physics departments are offering courses at the intersection of DS, ML and physics, often using curricula developed by HEP researchers and involving open software and data used in HEP. In this white paper, we explore synergies between HEP research and DS/ML education, discuss opportunities and challenges at this intersection, and propose community activities that will be mutually beneficial.
翻訳日:2022-07-20 14:37:47 公開日:2022-07-19
# XG-BoT:ボットネット検出と鑑識のための説明可能なディープグラフニューラルネットワーク

XG-BoT: An Explainable Deep Graph Neural Network for Botnet Detection and Forensics ( http://arxiv.org/abs/2207.09088v1 )

ライセンス: Link先を確認
Wai Weng Lo, Siamak Layeghy, Mohanad Sarhan, Marius Portmann(参考訳) 本稿では,ボットネットノード検出のための深層グラフニューラルネットワークモデルであるxg-botを提案する。 提案モデルは主にボットネット検出器と自動鑑識用説明器から構成される。 XG-BoT検出器は、大規模ネットワーク下で悪意のあるボットネットノードを効果的に検出することができる。 具体的には、グラフ同型ネットワークとグループ化された可逆的残差接続を使用して、ボットネット通信グラフから表現的なノード表現を学習する。 xg-botの解説者は、疑わしいネットワークフローと関連するボットネットノードを強調することで、自動ネットワーク検査を行うことができる。 xg-botを実世界の大規模ボットネットネットワークグラフ上で評価した。 全体として、XG-BoTは評価指標の点で最先端よりも優れています。 また,XG-BoT説明器は,GNNExplainerに基づいて,自動ネットワーク鑑定のための有用な説明を生成可能であることを示す。

In this paper, we proposed XG-BoT, an explainable deep graph neural network model for botnet node detection. The proposed model is mainly composed of a botnet detector and an explainer for automatic forensics. The XG-BoT detector can effectively detect malicious botnet nodes under large-scale networks. Specifically, it utilizes a grouped reversible residual connection with a graph isomorphism network to learn expressive node representations from the botnet communication graphs. The explainer in XG-BoT can perform automatic network forensics by highlighting suspicious network flows and related botnet nodes. We evaluated XG-BoT on real-world, large-scale botnet network graphs. Overall, XG-BoT is able to outperform the state-of-the-art in terms of evaluation metrics. In addition, we show that the XG-BoT explainer can generate useful explanations based on GNNExplainer for automatic network forensics.
翻訳日:2022-07-20 14:37:31 公開日:2022-07-19
# 半アクティブ衝撃吸収体モデリングによるニューラルネットワークの利用

Using Neural Networks by Modelling Semi-Active Shock Absorber ( http://arxiv.org/abs/2207.09141v1 )

ライセンス: Link先を確認
Moritz Zink, Martin Schiele, Valentin Ivanov(参考訳) 絶え間なく増加する自動車制御システムには、適応性と堅牢性の観点から機能を改善するためのデジタルマッピングへの新たなアプローチが必要であり、オンラインソフトウェアのアップデートが容易になる。 近年の多くの研究から結論が得られたように、ニューラルネットワーク(NN)を適用した様々な手法は、例えば制御器のパラメータ化や条件監視など、自動車制御系設計における関連するデジタルツイン(DT)ツールの候補となる。 しかし、NNベースのDTは、トレーニングや設計に使用する十分な量のデータに対して、強い要求がある。 本稿では,DTフレームワーク内でのセミアクティブ衝撃吸収器のモデリングにより,回帰タスクを効率的に処理する方法を示す。 このアプローチは、時系列の増補技術の定常データへの適応に基づいており、後者のばらつきを増加させる。 このようなソリューションは、洗練されたデータベースのデータ準備のための詳細なデータエンジニアリング手法の背景を提供する。

A permanently increasing number of on-board automotive control systems requires new approaches to their digital mapping that improves functionality in terms of adaptability and robustness as well as enables their easier on-line software update. As it can be concluded from many recent studies, various methods applying neural networks (NN) can be good candidates for relevant digital twin (DT) tools in automotive control system design, for example, for controller parameterization and condition monitoring. However, the NN-based DT has strong requirements to an adequate amount of data to be used in training and design. In this regard, the paper presents an approach, which demonstrates how the regression tasks can be efficiently handled by the modeling of a semi-active shock absorber within the DT framework. The approach is based on the adaptation of time series augmentation techniques to the stationary data that increases the variance of the latter. Such a solution gives a background to elaborate further data engineering methods for the data preparation of sophisticated databases.
翻訳日:2022-07-20 14:37:19 公開日:2022-07-19
# 混合整数線形計画のためのマルチパラメトリック解析:伝送計画と混雑制御への応用

Multi-parametric Analysis for Mixed Integer Linear Programming: An Application to Transmission Planning and Congestion Control ( http://arxiv.org/abs/2207.09325v1 )

ライセンス: Link先を確認
Jian Liu, Rui Bo, Siyuan Wang(参考訳) 既存の送電線を拡大することは、送電渋滞に対処し、需要の増加と再生可能エネルギー源の増大による送電セキュリティを保証するのに有用なツールである。 本研究は, 送電線制約や発電, 需要収支条件を考慮したシステムコストの最小化を図るために, 容量を拡大すべき路線の選択と, 独立系事業者(ISO)の観点から, 送電線制約や電力需要収支条件を考慮したシステムコストの最小化と, 昇降・起動速度, 停止速度, 昇降速度制限, 最低昇降時間の導入について検討した。 そこで我々は,ISO単位コミットメントと経済ディスパッチモデルを開発し,混合整数線形プログラミング(MILP)問題に対する右側の不確実性多重パラメトリック解析として示す。 まず,バイナリ変数を連続変数に緩和し,lagrange法とkarush-kuhn-tucker条件を用いて最適解(最適決定変数と目的関数)と,アクティブ・非アクティブ制約に関連する臨界領域を得る。 さらに、各ノードにおける問題の上界を決定することによって、大規模MILP問題の従来の分岐法と境界法を拡張し、上界と下界の差を比較し、意思決定者の許容誤差範囲内で近似最適解に到達させる。 さらに、各行のパラメータに対する目的関数の最初の微分を用いて、混雑を緩和し、社会福祉を最大化するためにラインの選択を通知する。 最後に、パラメータの目的関数のコスト還元率と行のアップグレードのコストのバランスをとることで、容量アップグレードの量を選択する。 本研究は,数値シミュレーションによって支援され,意思決定指導付き送電線プランナーを提供する。

Enhancing existing transmission lines is a useful tool to combat transmission congestion and guarantee transmission security with increasing demand and boosting the renewable energy source. This study concerns the selection of lines whose capacity should be expanded and by how much from the perspective of independent system operator (ISO) to minimize the system cost with the consideration of transmission line constraints and electricity generation and demand balance conditions, and incorporating ramp-up and startup ramp rates, shutdown ramp rates, ramp-down rate limits and minimum up and minimum down times. For that purpose, we develop the ISO unit commitment and economic dispatch model and show it as a right-hand side uncertainty multiple parametric analysis for the mixed integer linear programming (MILP) problem. We first relax the binary variable to continuous variables and employ the Lagrange method and Karush-Kuhn-Tucker conditions to obtain optimal solutions (optimal decision variables and objective function) and critical regions associated with active and inactive constraints. Further, we extend the traditional branch and bound method for the large-scale MILP problem by determining the upper bound of the problem at each node, then comparing the difference between the upper and lower bounds and reaching the approximate optimal solution within the decision makers' tolerated error range. In additional, the objective function's first derivative on the parameters of each line is used to inform the selection of lines to ease congestion and maximize social welfare. Finally, the amount of capacity upgrade will be chosen by balancing the cost-reduction rate of the objective function on parameters and the cost of the line upgrade. Our findings are supported by numerical simulation and provide transmission line planners with decision-making guidance.
翻訳日:2022-07-20 14:36:57 公開日:2022-07-19
# オンラインダイナミクス学習による予測制御と空中ロボットへの応用

Online Dynamics Learning for Predictive Control with an Application to Aerial Robots ( http://arxiv.org/abs/2207.09344v1 )

ライセンス: Link先を確認
Tom Z. Jiahao, Kong Yao Chee, M. Ani Hsieh(参考訳) 本研究では,オンライン環境下でのモデル予測制御(MPC)における動的モデルの精度向上を課題とする。 予測モデルは学習し、モデルベースのコントローラに適用することができるが、これらのモデルはしばしばオフラインで学習される。 このオフライン設定では、トレーニングデータをまず収集し、精巧なトレーニング手順により予測モデルを学ぶ。 モデルが望ましい精度でトレーニングされた後、モデル予測コントローラにデプロイされる。 しかしながら、モデルはオフラインで学習されるため、デプロイメント中に観察される障害やモデルエラーには適応しない。 モデルとコントローラの適応性を改善するため,我々は,デプロイ時の動的モデルの精度を継続的に向上させるオンラインダイナミクス学習フレームワークを提案する。 我々は,知識に基づくニューラル常微分方程式(KNODE)を動的モデルとして採用し,移動学習にインスパイアされた手法を用いてモデルの精度を継続的に向上する。 本稿では,四足歩行ロボットを用いたフレームワークの有効性を実証し,シミュレーションと物理実験の両方においてそのフレームワークを検証する。 提案手法は,良好な軌道追跡性能を維持しつつ,時間変化の可能性のある障害を考慮できることを示す。

In this work, we consider the task of improving the accuracy of dynamic models for model predictive control (MPC) in an online setting. Even though prediction models can be learned and applied to model-based controllers, these models are often learned offline. In this offline setting, training data is first collected and a prediction model is learned through an elaborated training procedure. After the model is trained to a desired accuracy, it is then deployed in a model predictive controller. However, since the model is learned offline, it does not adapt to disturbances or model errors observed during deployment. To improve the adaptiveness of the model and the controller, we propose an online dynamics learning framework that continually improves the accuracy of the dynamic model during deployment. We adopt knowledge-based neural ordinary differential equations (KNODE) as the dynamic models, and use techniques inspired by transfer learning to continually improve the model accuracy. We demonstrate the efficacy of our framework with a quadrotor robot, and verify the framework in both simulations and physical experiments. Results show that the proposed approach is able to account for disturbances that are possibly time-varying, while maintaining good trajectory tracking performance.
翻訳日:2022-07-20 14:36:24 公開日:2022-07-19
# 軌道推定における機械学習:サーベイ

Machine Learning in Orbit Estimation: a Survey ( http://arxiv.org/abs/2207.08993v1 )

ライセンス: Link先を確認
Francisco Caldas and Cl\'audia Soares(参考訳) 最初の人工衛星が打ち上げられた50年代後半以降、有人宇宙物体(rsos)の数は着実に増え続けており、現在地球を周回している物体は1cm以上約100万個、現在追跡されているのは10cm以下と推定されている。ケスラー症候群と呼ばれる衝突の連鎖反応を回避するためには、宇宙デブリや衛星の軌道を正確に追跡し予測することが不可欠である。 現在の物理学に基づく手法では、7日間の予測でキロの誤差があり、1メートル未満の宇宙デブリを考えると不十分である。 典型的には、この故障は軌道の初めの宇宙物体の状態に関する不確実性によるもので、大気抵抗などの環境条件の誤差や、質量やrsoの幾何学のような特定の未知の特性が予測される。 データ駆動技術、すなわち機械学習を利用することで、未測定物体の特性を導出し、非保守力の効果を改善し、Deep Learningモデルが高度に複雑な非線形システムをモデル化する優れた抽象化能力によって、軌道予測精度を向上させることができる。 本稿では,この分野で現在行われている作業の概要について報告する。

Since the late '50s, when the first artificial satellite was launched, the number of resident space objects (RSOs) has steadily increased. It is estimated that around 1 Million objects larger than 1 cm are currently orbiting the Earth, with only 30,000, larger than 10 cm, presently being tracked. To avert a chain reaction of collisions, termed Kessler Syndrome, it is indispensable to accurately track and predict space debris and satellites' orbit alike. Current physics-based methods have errors in the order of kilometres for 7 days predictions, which is insufficient when considering space debris that have mostly less than 1 meter. Typically, this failure is due to uncertainty around the state of the space object at the beginning of the trajectory, forecasting errors in environmental conditions such as atmospheric drag, as well as specific unknown characteristics such as mass or geometry of the RSO. Leveraging data-driven techniques, namely machine learning, the orbit prediction accuracy can be enhanced: by deriving unmeasured objects' characteristics, improving non-conservative forces' effects, and by the superior abstraction capacity that Deep Learning models have of modelling highly complex non-linear systems. In this survey, we provide an overview of the current work being done in this field.
翻訳日:2022-07-20 14:32:12 公開日:2022-07-19
# 垂直ロジスティック回帰プライバシー保護は? 包括的プライバシー分析とその先

Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive Privacy Analysis and Beyond ( http://arxiv.org/abs/2207.09087v1 )

ライセンス: Link先を確認
Yuzheng Hu, Tianle Cai, Jinyong Shan, Shange Tang, Chaochao Cai, Ethan Song, Bo Li, Dawn Song(参考訳) 我々は,ミニバッチ勾配勾配で訓練された垂直ロジスティック回帰(VLR)について考察する。これは産業の関心が高まり,金融や医学研究など幅広い分野で有用であることが証明されている。 我々は,vlrの包括的かつ厳密なプライバシー分析をオープンソース連合学習フレームワークのクラスで提供し,プロトコルが互いに異なる可能性があるが,局所勾配を得る手順は暗黙的に共有されている。 私たちはまず、プロトコルの詳細な実装を無視し、oracleとして抽象化された共有プロシージャのみを仮定する、正直だが厳密な脅威モデルを検討します。 この一般的な設定下であっても、バッチサイズの適切な制約の下で、シングルディメンジョン機能とラベルを他方から回収することが可能であることに気付き、同じ哲学に従うすべてのフレームワークの潜在的な脆弱性が示される。 次に、同型暗号化(HE)に基づくプロトコルの一般的なインスタンス化について検討する。 本稿では,前回の解析において,補助暗号文の生成と圧縮により,バッチサイズに対する制約を著しく弱めるアクティブアタックを提案する。 HEプロトコル内のプライバシリークに対処するため,差分プライバシー(DP)に基づく簡便な対策を開発し,更新アルゴリズムの実用性とプライバシ保証を提供する。 最後に,ベンチマークデータセットに対する攻撃と防御の有効性を実証的に検証する。 以上より,すべての垂直フェデレーション学習フレームワークがプライバシーリスクを負う可能性があることを示唆する。また,水平フェデレーション学習のパワーをすでに実証しているdpは,特にheやマルチパーティ計算(mpc)技術と組み合わせる場合において,垂直的な設定において重要な役割を担っている。

We consider vertical logistic regression (VLR) trained with mini-batch gradient descent -- a setting which has attracted growing interest among industries and proven to be useful in a wide range of applications including finance and medical research. We provide a comprehensive and rigorous privacy analysis of VLR in a class of open-source Federated Learning frameworks, where the protocols might differ between one another, yet a procedure of obtaining local gradients is implicitly shared. We first consider the honest-but-curious threat model, in which the detailed implementation of protocol is neglected and only the shared procedure is assumed, which we abstract as an oracle. We find that even under this general setting, single-dimension feature and label can still be recovered from the other party under suitable constraints of batch size, thus demonstrating the potential vulnerability of all frameworks following the same philosophy. Then we look into a popular instantiation of the protocol based on Homomorphic Encryption (HE). We propose an active attack that significantly weaken the constraints on batch size in the previous analysis via generating and compressing auxiliary ciphertext. To address the privacy leakage within the HE-based protocol, we develop a simple-yet-effective countermeasure based on Differential Privacy (DP), and provide both utility and privacy guarantees for the updated algorithm. Finally, we empirically verify the effectiveness of our attack and defense on benchmark datasets. Altogether, our findings suggest that all vertical federated learning frameworks that solely depend on HE might contain severe privacy risks, and DP, which has already demonstrated its power in horizontal federated learning, can also play a crucial role in the vertical setting, especially when coupled with HE or secure multi-party computation (MPC) techniques.
翻訳日:2022-07-20 14:31:50 公開日:2022-07-19
# アクティブラーニング・アズ・ア・サービス:データ中心AIのための効率的なMLOpsシステム

Active-Learning-as-a-Service: An Efficient MLOps System for Data-Centric AI ( http://arxiv.org/abs/2207.09109v1 )

ライセンス: Link先を確認
Yizheng Huang, Huaizheng Zhang, Yuanming Li, Chiew Tong Lau, Yang You(参考訳) 今日のAIアプリケーションの成功には、モデルトレーニング(モデル中心)だけでなく、データエンジニアリング(データ中心)も必要です。 データ中心のAIでは、アクティブラーニング(AL)が重要な役割を果たすが、現在のALツールはALタスクを効率的に実行することはできない。 そこで本稿では,ALaaS(Active-Learning-as-a-Service)という,ALのための効率的なMLOpsシステムを提案する。 具体的には、alパイプラインをサポートするためにサーバクライアントアーキテクチャを採用し、高効率のためにステージレベルの並列処理を実装している。 一方、ALプロセスをさらに高速化するためにキャッシュとバッチ技術が使用される。 効率性に加えて、ALaaSはコンフィグレーション・アズ・ア・サービスの設計思想の助けを借りてアクセシビリティを保証する。 また、ALプロセスをいくつかのコンポーネントに抽象化し、高度なユーザが新しいシナリオにシステムを拡張するための豊富なAPIを提供する。 大規模な実験によると、ALaaSは他のすべてのベースラインよりもレイテンシとスループットが優れている。 さらなるアブレーション研究は、設計の有効性とALaaSの使いやすさを示しています。 私たちのコードは \url{https://github.com/MLSysOps/alaas} で利用可能です。

The success of today's AI applications requires not only model training (Model-centric) but also data engineering (Data-centric). In data-centric AI, active learning (AL) plays a vital role, but current AL tools can not perform AL tasks efficiently. To this end, this paper presents an efficient MLOps system for AL, named ALaaS (Active-Learning-as-a-Service). Specifically, ALaaS adopts a server-client architecture to support an AL pipeline and implements stage-level parallelism for high efficiency. Meanwhile, caching and batching techniques are employed to further accelerate the AL process. In addition to efficiency, ALaaS ensures accessibility with the help of the design philosophy of configuration-as-a-service. It also abstracts an AL process to several components and provides rich APIs for advanced users to extend the system to new scenarios. Extensive experiments show that ALaaS outperforms all other baselines in terms of latency and throughput. Further ablation studies demonstrate the effectiveness of our design as well as ALaaS's ease to use. Our code is available at \url{https://github.com/MLSysOps/alaas}.
翻訳日:2022-07-20 14:31:21 公開日:2022-07-19
# SCARA: 特徴指向最適化を備えたスケーラブルグラフニューラルネットワーク

SCARA: Scalable Graph Neural Networks with Feature-Oriented Optimization ( http://arxiv.org/abs/2207.09179v1 )

ライセンス: Link先を確認
Ningyi Liao, Dingheng Mo, Siqiang Luo, Xiang Li, Pengcheng Yin(参考訳) データ処理の最近の進歩は、非常に大規模な学習グラフの需要を刺激している。 グラフ学習タスクを解決するための新興かつ強力なアプローチであるグラフニューラルネットワーク(gnns)は、スケールアップが難しいことが知られている。 ほとんどのスケーラブルモデルは、GNNの高価なグラフメッセージパッシング伝搬手順を単純化するためにノードベースの手法を適用している。 しかし、百万グラフや数十億グラフに適用しても、そのような加速は不十分である。 本稿では,グラフ計算のための特徴指向最適化を備えたスケーラブルなGNNであるSCARAを提案する。 SCARAはノードの特徴からグラフの埋め込みを効率的に計算し、さらに特徴計算結果を選択して再利用することでオーバーヘッドを減らす。 理論解析は,gnnのトレーニングと推論に加えて,伝播過程の精度が保証された部分線形時間複雑性を実現することを示唆する。 SCARAの有効性と効率を評価するために,様々なデータセットに関する広範な実験を行った。 ベースラインと比較すると、scaraは高速収束と同等の精度で現在の最先端の方法よりも100倍のグラフ伝搬の加速に到達できる。 最も注目すべきは、最大10億のGNNデータセットであるPapers100M(111Mノード、1.6Bエッジ)を100秒でプリ計算するのが効率的である。

Recent advances in data processing have stimulated the demand for learning graphs of very large scales. Graph Neural Networks (GNNs), being an emerging and powerful approach in solving graph learning tasks, are known to be difficult to scale up. Most scalable models apply node-based techniques in simplifying the expensive graph message-passing propagation procedure of GNN. However, we find such acceleration insufficient when applied to million- or even billion-scale graphs. In this work, we propose SCARA, a scalable GNN with feature-oriented optimization for graph computation. SCARA efficiently computes graph embedding from node features, and further selects and reuses feature computation results to reduce overhead. Theoretical analysis indicates that our model achieves sub-linear time complexity with a guaranteed precision in propagation process as well as GNN training and inference. We conduct extensive experiments on various datasets to evaluate the efficacy and efficiency of SCARA. Performance comparison with baselines shows that SCARA can reach up to 100x graph propagation acceleration than current state-of-the-art methods with fast convergence and comparable accuracy. Most notably, it is efficient to process precomputation on the largest available billion-scale GNN dataset Papers100M (111M nodes, 1.6B edges) in 100 seconds.
翻訳日:2022-07-20 14:31:01 公開日:2022-07-19
# 階層クラスタリングによる越空フェデレーションエッジ学習

Over-the-Air Federated Edge Learning with Hierarchical Clustering ( http://arxiv.org/abs/2207.09232v1 )

ライセンス: Link先を確認
Ozan Ayg\"un, Mohammad Kazemi, Deniz G\"und\"uz, Tolga M. Duman(参考訳) そこで,モバイルユーザ(MU)は,局所勾配を集約するパラメータサーバ(PS)の助けを借りて,グローバルモデル上でのコンセンサスの実現を目指す。 OTA FLでは、MUはトレーニングラウンド毎にローカルデータを使用してモデルをトレーニングし、同じ周波数帯域を非符号化で同時に送信する。 重畳された勾配の受信信号に基づいて、PSはグローバルモデル更新を行う。 OTA FLは通信コストが大幅に削減されているが、チャネル効果やノイズの影響を受けやすい。 受信側で複数のアンテナを使用するとこれらの効果は減少するが、PSから遠く離れたユーザーにとってパスロスは依然として制限要因である。 この問題を改善するために,本論文では,中間サーバ(IS)を用いてMUがより密集した領域にクラスタを形成する無線ベースの階層型FLスキームを提案する。 本方式では, MUとISの通信にOTAクラスタアグリゲーション, およびISからPSへのOTAグローバルアグリゲーションを利用する。 提案アルゴリズムの収束解析を行い、導出した解析式と実験結果の数値評価により、ISsは送信電力を少なくしながら、OTA FL単独よりも高速に収束し、性能が向上することを示した。 また、異なるデータセットとデータ分布を持つ異なる数のクラスタイテレーションを用いて、パフォーマンスに関する結果を検証する。 クラスタアグリゲーションの最良の選択は、MUとクラスタ間のデータ分布に依存すると結論付けている。

We examine federated learning (FL) with over-the-air (OTA) aggregation, where mobile users (MUs) aim to reach a consensus on a global model with the help of a parameter server (PS) that aggregates the local gradients. In OTA FL, MUs train their models using local data at every training round and transmit their gradients simultaneously using the same frequency band in an uncoded fashion. Based on the received signal of the superposed gradients, the PS performs a global model update. While the OTA FL has a significantly decreased communication cost, it is susceptible to adverse channel effects and noise. Employing multiple antennas at the receiver side can reduce these effects, yet the path-loss is still a limiting factor for users located far away from the PS. To ameliorate this issue, in this paper, we propose a wireless-based hierarchical FL scheme that uses intermediate servers (ISs) to form clusters at the areas where the MUs are more densely located. Our scheme utilizes OTA cluster aggregations for the communication of the MUs with their corresponding IS, and OTA global aggregations from the ISs to the PS. We present a convergence analysis for the proposed algorithm, and show through numerical evaluations of the derived analytical expressions and experimental results that utilizing ISs results in a faster convergence and a better performance than the OTA FL alone while using less transmit power. We also validate the results on the performance using different number of cluster iterations with different datasets and data distributions. We conclude that the best choice of cluster aggregations depends on the data distribution among the MUs and the clusters.
翻訳日:2022-07-20 14:30:42 公開日:2022-07-19
# ディープディクショナリを用いた画像超解像

Image Super-Resolution with Deep Dictionary ( http://arxiv.org/abs/2207.09228v1 )

ライセンス: Link先を確認
Shunta Maeda(参考訳) Dongらの最初の成功以来、深層学習に基づくアプローチはシングルイメージ超解像の分野で支配的になっている。 これは、従来のスパースコーディングベースの手法のすべての手作り画像処理ステップを、ディープニューラルネットワークに置き換えるものだ。 高分解能と低分解能の辞書を明示的に作成するスパースコーディングベースの方法とは対照的に、ディープラーニングに基づく方法の辞書は、複数の畳み込みの非線形結合として暗黙的に取得される。 ディープラーニングベースの方法の欠点のひとつは、トレーニングデータセット(ドメイン外イメージ)とは異なるイメージに対して、パフォーマンスが低下する点だ。 本稿では,ディープラーニングの利点を犠牲にすることなく,高分解能辞書を明示的に学習するディープディクショナリ(srdd)を用いた,エンドツーエンドのスーパーレゾリューションネットワークを提案する。 広範な実験により、高解像度辞書の明示的な学習により、ネットワークはドメイン内テスト画像のパフォーマンスを維持しつつ、ドメイン外テスト画像に対してより堅牢になることが示された。

Since the first success of Dong et al., the deep-learning-based approach has become dominant in the field of single-image super-resolution. This replaces all the handcrafted image processing steps of traditional sparse-coding-based methods with a deep neural network. In contrast to sparse-coding-based methods, which explicitly create high/low-resolution dictionaries, the dictionaries in deep-learning-based methods are implicitly acquired as a nonlinear combination of multiple convolutions. One disadvantage of deep-learning-based methods is that their performance is degraded for images created differently from the training dataset (out-of-domain images). We propose an end-to-end super-resolution network with a deep dictionary (SRDD), where a high-resolution dictionary is explicitly learned without sacrificing the advantages of deep learning. Extensive experiments show that explicit learning of high-resolution dictionary makes the network more robust for out-of-domain test images while maintaining the performance of the in-domain test images.
翻訳日:2022-07-20 14:28:25 公開日:2022-07-19
# コンテンツ対応スケーラブルディープ圧縮センシング

Content-aware Scalable Deep Compressed Sensing ( http://arxiv.org/abs/2207.09313v1 )

ライセンス: Link先を確認
Bin Chen and Jian Zhang(参考訳) 画像圧縮センシング(cs)問題をより効率的に解決するために,適応的なサンプリングレート割り当て,細粒度スケーラビリティ,高品質な再構成を実現するcasnetと呼ばれる新しいコンテンツ対応スケーラブルネットワークを提案する。 まず,各画像領域の重要度を評価するためにデータ駆動型サリエンシ検出器を採用し,サンプリングレートアロケーションのためのサリエンシベースのブロック比アグリゲーション(BRA)戦略を提案する。 次に、統合学習可能な生成行列を開発し、順序付き構造を持つ任意のCS比のサンプリング行列を生成する。 塩分情報に導かれた最適化インスパイアされたリカバリサブネットと、ブロックアーティファクトを防止するマルチブロックトレーニングスキームを備えたcasnetは、様々なサンプリングレートでサンプリングされた画像ブロックを単一のモデルで共同で再構成する。 学習の収束を加速し、ネットワークの堅牢性を向上させるために、余分なパラメータを導入することなく拡張可能なSVDベースの初期化スキームとランダム変換拡張(RTE)戦略を提案する。 すべてのCASNetコンポーネントは、エンドツーエンドで組み合わせて学習することができる。 さらに,評価と実用的な配置のための4段階の実装も提供する。 実験により、CASNetは他のCSネットワークよりも大きなマージンで優れており、そのコンポーネントと戦略間の協調と相互サポートを検証している。 コードはhttps://github.com/Guaishou74851/CASNetで入手できる。

To more efficiently address image compressed sensing (CS) problems, we present a novel content-aware scalable network dubbed CASNet which collectively achieves adaptive sampling rate allocation, fine granular scalability and high-quality reconstruction. We first adopt a data-driven saliency detector to evaluate the importances of different image regions and propose a saliency-based block ratio aggregation (BRA) strategy for sampling rate allocation. A unified learnable generating matrix is then developed to produce sampling matrix of any CS ratio with an ordered structure. Being equipped with the optimization-inspired recovery subnet guided by saliency information and a multi-block training scheme preventing blocking artifacts, CASNet jointly reconstructs the image blocks sampled at various sampling rates with one single model. To accelerate training convergence and improve network robustness, we propose an SVD-based initialization scheme and a random transformation enhancement (RTE) strategy, which are extensible without introducing extra parameters. All the CASNet components can be combined and learned end-to-end. We further provide a four-stage implementation for evaluation and practical deployments. Experiments demonstrate that CASNet outperforms other CS networks by a large margin, validating the collaboration and mutual supports among its components and strategies. Codes are available at https://github.com/Guaishou74851/CASNet.
翻訳日:2022-07-20 14:28:10 公開日:2022-07-19
# Singulation-and-Graspingによる自己監督型対話オブジェクトセグメンテーション

Self-Supervised Interactive Object Segmentation Through a Singulation-and-Grasping Approach ( http://arxiv.org/abs/2207.09314v1 )

ライセンス: Link先を確認
Houjian Yu and Changhyun Choi(参考訳) unseenオブジェクトを使ったインスタンスセグメンテーションは、非構造化環境では難しい問題である。 そこで本研究では,新しいオブジェクトと積極的に対話し,各オブジェクトのトレーニングラベルを収集し,さらに微調整することでセグメンテーションモデルの性能を向上させるロボット学習手法を提案する。 singulation-and-grasping(sag)ポリシーはエンドツーエンドの強化学習を通じて訓練される。 物体の粗い山が与えられた場合, 物体の破片を押下・把持する動作を選択し, 視覚的観察と不完全なセグメンテーションの入力として, SaG ポリシーが取る物体に依存しないグルーピングを行う。 課題を3つのサブタスクに分解する:(1) 対象の歌唱サブタスクは、オブジェクトを分離することを目的としており、(2) 衝突のない把持サブタスクの難しさを緩和する空間を創出する。(3) マスク生成サブタスクは、光フローベースのバイナリ分類器と転送学習のための運動後処理を用いて自己ラベルのグランド・真理マスクを得る。 本システムは,シミュレートされた散文シーンにおいて,70%の歌唱成功率を達成する。 本システムの対話的セグメンテーションは, 玩具ブロック, YCBオブジェクト, 実世界の新規オブジェクトの平均精度を87.8%, 73.9%, 69.3%で達成し, いくつかのベースラインを上回っている。

Instance segmentation with unseen objects is a challenging problem in unstructured environments. To solve this problem, we propose a robot learning approach to actively interact with novel objects and collect each object's training label for further fine-tuning to improve the segmentation model performance, while avoiding the time-consuming process of manually labeling a dataset. The Singulation-and-Grasping (SaG) policy is trained through end-to-end reinforcement learning. Given a cluttered pile of objects, our approach chooses pushing and grasping motions to break the clutter and conducts object-agnostic grasping for which the SaG policy takes as input the visual observations and imperfect segmentation. We decompose the problem into three subtasks: (1) the object singulation subtask aims to separate the objects from each other, which creates more space that alleviates the difficulty of (2) the collision-free grasping subtask; (3) the mask generation subtask to obtain the self-labeled ground truth masks by using an optical flow-based binary classifier and motion cue post-processing for transfer learning. Our system achieves 70% singulation success rate in simulated cluttered scenes. The interactive segmentation of our system achieves 87.8%, 73.9%, and 69.3% average precision for toy blocks, YCB objects in simulation and real-world novel objects, respectively, which outperforms several baselines.
翻訳日:2022-07-20 14:27:45 公開日:2022-07-19
# レスキューへのコンピュータビジョン:伴奏アノテーションによる乳幼児の姿勢対称性の推定

Computer Vision to the Rescue: Infant Postural Symmetry Estimation from Incongruent Annotations ( http://arxiv.org/abs/2207.09352v1 )

ライセンス: Link先を確認
Xiaofei Huang, Michael Wan, Lingfei Luan, Bethany Tunik, Sarah Ostadabbas(参考訳) 両側の姿勢対称性は、自閉症スペクトラム障害(ASD)のリスクマーカーとして重要な役割を担い、乳児の先天性筋トーチオーリス(CMT)の症状としての役割を担っているが、現在の症状評価法は、退屈な臨床評価を必要とする。 本稿では,幼児の3次元ポーズ推定を利用したコンピュータビジョンに基づく幼児対称性評価システムの開発を行う。 地中真理評価に対するシステムの評価と校正は,人間の角度と対称性を調査した結果から,レータ間の信頼性が低いことが示唆された。 そこで本研究では, 誤認識の確率的グラフィカルモデルに基づいて, 基底真理のベイズ推定器を開発した。 ベイジアン・アグリゲーション・ラベルの予測において, 3次元の幼児ポーズ推定モデルでは68%, 3次元の成人ポーズ推定モデルでは60%, 3次元の幼児ポーズ推定モデルでは61%, 幼児の身体対称性を評価する上での幼児ドメイン知識の重要性が強調された。 また,調査の結果から,人格は高いバイアスや非一貫性に影響を受けやすいことが示唆された。その結果,最終3次元ポーズに基づく対称性評価システムは,ベイジアン集計人格で直接監督されることなく校正され,高い一貫性と低レベルなリムブ間評価バイアスを生じさせる。

Bilateral postural symmetry plays a key role as a potential risk marker for autism spectrum disorder (ASD) and as a symptom of congenital muscular torticollis (CMT) in infants, but current methods of assessing symmetry require laborious clinical expert assessments. In this paper, we develop a computer vision based infant symmetry assessment system, leveraging 3D human pose estimation for infants. Evaluation and calibration of our system against ground truth assessments is complicated by our findings from a survey of human ratings of angle and symmetry, that such ratings exhibit low inter-rater reliability. To rectify this, we develop a Bayesian estimator of the ground truth derived from a probabilistic graphical model of fallible human raters. We show that the 3D infant pose estimation model can achieve 68% area under the receiver operating characteristic curve performance in predicting the Bayesian aggregate labels, compared to only 61% from a 2D infant pose estimation model and 60% from a 3D adult pose estimation model, highlighting the importance of 3D poses and infant domain knowledge in assessing infant body symmetry. Our survey analysis also suggests that human ratings are susceptible to higher levels of bias and inconsistency, and hence our final 3D pose-based symmetry assessment system is calibrated but not directly supervised by Bayesian aggregate human ratings, yielding higher levels of consistency and lower levels of inter-limb assessment bias.
翻訳日:2022-07-20 14:27:18 公開日:2022-07-19
# 胸部X線結節拡大検出のための遠絡属性を用いた画像合成

Image Synthesis with Disentangled Attributes for Chest X-Ray Nodule Augmentation and Detection ( http://arxiv.org/abs/2207.09389v1 )

ライセンス: Link先を確認
Zhenrong Shen, Xi Ouyang, Bin Xiao, Jie-Zhi Cheng, Qian Wang, Dinggang Shen(参考訳) 胸部x線画像における肺結節の検出は肺癌の早期スクリーニングによく見られる。 ディープラーニングに基づくコンピュータ支援診断(CAD)システムは、CXRの結節スクリーニングのために放射線科医をサポートすることができる。 しかし、このような堅牢で正確なCADをトレーニングするには、高品質なアノテーションを備えた大規模で多様な医療データが必要である。 このようなデータセットの可用性を損なうため,データ拡張のために肺結節合成法を提案する。 それにもかかわらず、以前の手法では、検出器が望む大きさ属性で現実的な結節を生成する能力が欠けている。 そこで本研究では, 肺結節合成の枠組みを新たに導入し, 結節特性を形状, サイズ, テクスチャの3つの主相に分解する。 GANベースの形状生成器は、まず、多様な形状マスクを生成して結節形状をモデル化する。 以下のサイズ変調により、画素レベルの粒度で生成された結節形状の直径を定量的に制御できる。 粗く微細なゲート状畳み込みテクスチャ生成装置は、最終的に、変調形状マスクに条件付けられた視覚的に可視な結節テクスチャを合成する。 また,検出タスクで容易に見逃される結節の補充性を向上させるため,データ拡張のための結節属性を制御し,結節CXR画像の合成を提案する。 提案した肺結節合成フレームワークの画質,多様性,制御性の向上について実験を行った。 また,結節検出性能の大幅な向上に対するデータ拡張の有効性も検証した。

Lung nodule detection in chest X-ray (CXR) images is common to early screening of lung cancers. Deep-learning-based Computer-Assisted Diagnosis (CAD) systems can support radiologists for nodule screening in CXR. However, it requires large-scale and diverse medical data with high-quality annotations to train such robust and accurate CADs. To alleviate the limited availability of such datasets, lung nodule synthesis methods are proposed for the sake of data augmentation. Nevertheless, previous methods lack the ability to generate nodules that are realistic with the size attribute desired by the detector. To address this issue, we introduce a novel lung nodule synthesis framework in this paper, which decomposes nodule attributes into three main aspects including shape, size, and texture, respectively. A GAN-based Shape Generator firstly models nodule shapes by generating diverse shape masks. The following Size Modulation then enables quantitative control on the diameters of the generated nodule shapes in pixel-level granularity. A coarse-to-fine gated convolutional Texture Generator finally synthesizes visually plausible nodule textures conditioned on the modulated shape masks. Moreover, we propose to synthesize nodule CXR images by controlling the disentangled nodule attributes for data augmentation, in order to better compensate for the nodules that are easily missed in the detection task. Our experiments demonstrate the enhanced image quality, diversity, and controllability of the proposed lung nodule synthesis framework. We also validate the effectiveness of our data augmentation on greatly improving nodule detection performance.
翻訳日:2022-07-20 14:26:17 公開日:2022-07-19
# 5G対応医療物のインターネットにおけるセキュアクラスタリングのためのインテリジェント信頼クラウド管理手法

An Intelligent Trust Cloud Management Method for Secure Clustering in 5G enabled Internet of Medical Things ( http://arxiv.org/abs/2207.09057v1 )

ライセンス: Link先を確認
Liu Yang, Keping Yu, Simon X. Yang, Chinmay Chakraborty, Yinzhi Lu, Tan Guo(参考訳) 5g edge computing enabled internet of medical things(iomt)は、デバイス間通信(d2d)が将来の5gネットワークにとって有望なパラダイムである一方で、分散医療サービスを提供するための効率的な技術である。 本稿では,5gエッジコンピューティングとd2d対応iomtシステムにおけるセキュアで信頼性の高い通信を保証するため,intelligent trust cloud management手法を提案する。 まず,標準信頼雲を構築するためのアクティブトレーニング機構を提案する。 第二に、IoMTデバイスの個々の信頼雲はファジィ信頼推論とレコメンデーションによって確立することができる。 第3に、IoMTデバイスが悪意があるかどうかを判定する信頼分類方式を提案する。 最後に,オープン無線媒体下での信頼管理手法を適応的かつインテリジェントにするための信頼クラウド更新機構を提案する。 シミュレーションの結果,提案手法は信頼不確実性問題に効果的に対処し,悪意のあるデバイスの検出精度を向上させることができることがわかった。

5G edge computing enabled Internet of Medical Things (IoMT) is an efficient technology to provide decentralized medical services while Device-to-device (D2D) communication is a promising paradigm for future 5G networks. To assure secure and reliable communication in 5G edge computing and D2D enabled IoMT systems, this paper presents an intelligent trust cloud management method. Firstly, an active training mechanism is proposed to construct the standard trust clouds. Secondly, individual trust clouds of the IoMT devices can be established through fuzzy trust inferring and recommending. Thirdly, a trust classification scheme is proposed to determine whether an IoMT device is malicious. Finally, a trust cloud update mechanism is presented to make the proposed trust management method adaptive and intelligent under an open wireless medium. Simulation results demonstrate that the proposed method can effectively address the trust uncertainty issue and improve the detection accuracy of malicious devices.
翻訳日:2022-07-20 14:25:32 公開日:2022-07-19
# 説明可能なループ内動的データ駆動デジタル双生児

Explainable Human-in-the-loop Dynamic Data-Driven Digital Twins ( http://arxiv.org/abs/2207.09106v1 )

ライセンス: Link先を確認
Nan Zhang, Rami Bahsoon, Nikos Tziritas, Georgios Theodoropoulos(参考訳) Digital Twins (DT) は基本的に動的データ駆動型モデルであり、現実世界のシステムのリアルタイム共生「仮想レプリカ」として機能する。 DTは、動的データ駆動アプリケーションシステム(DDDAS)の双方向共生感覚フィードバックループを継続的更新に活用することができる。 その結果、dtのより正確なモデリングと分析を目的とした計測、分析、再構成を行うことができる。 再構成の決定は、自律的あるいは対話的であり、人間のループを保てる。 これらの決定の信頼性は、理論的根拠の不十分な説明によって妨げられ、代替案間で与えられた状況の決定を実行するために得られる有用性によって妨げられる。 さらに、異なる意思決定アルゴリズムとモデルには複雑さ、品質があり、結果としてモデルに異なるユーティリティが得られます。 説明可能性の欠如は、人間が決定を評価できる範囲を制限し、多くの場合、与えられた状況に不適切な更新を導き、モデルの全体的な精度を損なう可能性がある。 本論文の新たな貢献は、双方向共生感覚フィードバックを活用して、人間内DDDASおよびDTシステムにおける説明可能性を活用するアプローチである。 このアプローチは解釈可能な機械学習とゴールモデリングを利用して説明し、得られたユーティリティのトレードオフ分析を検討する。 このアプローチを実証するために、スマートウェアハウジングの例を使用します。

Digital Twins (DT) are essentially Dynamic Data-driven models that serve as real-time symbiotic "virtual replicas" of real-world systems. DT can leverage fundamentals of Dynamic Data-Driven Applications Systems (DDDAS) bidirectional symbiotic sensing feedback loops for its continuous updates. Sensing loops can consequently steer measurement, analysis and reconfiguration aimed at more accurate modelling and analysis in DT. The reconfiguration decisions can be autonomous or interactive, keeping human-in-the-loop. The trustworthiness of these decisions can be hindered by inadequate explainability of the rationale, and utility gained in implementing the decision for the given situation among alternatives. Additionally, different decision-making algorithms and models have varying complexity, quality and can result in different utility gained for the model. The inadequacy of explainability can limit the extent to which humans can evaluate the decisions, often leading to updates which are unfit for the given situation, erroneous, compromising the overall accuracy of the model. The novel contribution of this paper is an approach to harnessing explainability in human-in-the-loop DDDAS and DT systems, leveraging bidirectional symbiotic sensing feedback. The approach utilises interpretable machine learning and goal modelling to explainability, and considers trade-off analysis of utility gained. We use examples from smart warehousing to demonstrate the approach.
翻訳日:2022-07-20 14:25:17 公開日:2022-07-19
# GAFX: 一般的なオーディオ機能eXtractor

GAFX: A General Audio Feature eXtractor ( http://arxiv.org/abs/2207.09145v1 )

ライセンス: Link先を確認
Zhaoyang Bu, Hanhaodi Zhang, Xiaohu Zhu(参考訳) 音声タスクのためのほとんどの機械学習モデルは、手作りの機能であるスペクトログラムを扱う。 しかし、このスペクトログラムがディープラーニングベースの機能に置き換えられるかどうかはまだ不明である。 本稿では、異なる学習可能なニューラルネットワークの特徴抽出を成功したスペクトログラムモデルと比較し、デュアルu-net(gafx-u)、resnet(gafx-r)、アテンション(gafx-a)モジュールに基づく一般音声特徴抽出器(gafx)を提案する。 我々は,GTZANデータセットの楽曲ジャンル分類タスクにおいて,このモデルを評価する実験を設計し,我々のフレームワークとモデルGAFX-Uの異なる構成について,Audio Spectrogram Transformer (AST)分類器に追従して詳細なアブレーション研究を行う。

Most machine learning models for audio tasks are dealing with a handcrafted feature, the spectrogram. However, it is still unknown whether the spectrogram could be replaced with deep learning based features. In this paper, we answer this question by comparing the different learnable neural networks extracting features with a successful spectrogram model and proposed a General Audio Feature eXtractor (GAFX) based on a dual U-Net (GAFX-U), ResNet (GAFX-R), and Attention (GAFX-A) modules. We design experiments to evaluate this model on the music genre classification task on the GTZAN dataset and perform a detailed ablation study of different configurations of our framework and our model GAFX-U, following the Audio Spectrogram Transformer (AST) classifier achieves competitive performance.
翻訳日:2022-07-20 14:24:55 公開日:2022-07-19
# ケースコントロール研究における幾何学平均の役割

The role of the geometric mean in case-control studies ( http://arxiv.org/abs/2207.09016v1 )

ライセンス: Link先を確認
Amanda Coston and Edward H. Kennedy(参考訳) 歴史的に、結果が希少な場合やデータ収集が高価である場合、結果依存サンプリングは、公共の行政データなど、対象人口の偏りのあるサンプルにデータが容易に利用できるような、現代の多くの設定に関係している。 結果依存サンプリングでは、平均リスク差や平均リスク比などの共通効果尺度は特定されないが、条件付きオッズ比は特定される。 概して要約測度が特定されないため、条件付きオッズ比の集約は困難である。 さらに、限界オッズ比は全ての条件オッズ比よりも大きい(または小さい)ことができる。 このいわゆる奇数比の非可算性は、標準算術平均の代替集合を用いると避けられる。 我々は、このアグリゲーション方法の選択を明示する、新しい可算性の定義を提供し、オッズ比が幾何アグリゲーションの下で折り畳み可能であることを示す。 結果依存サンプリングにおいて、幾何オッズ比を部分的に同定し、推定し、推測する方法を述べる。 提案する推定器は効率的な影響関数に基づいており,2倍のロバストな特性を有する。

Historically used in settings where the outcome is rare or data collection is expensive, outcome-dependent sampling is relevant to many modern settings where data is readily available for a biased sample of the target population, such as public administrative data. Under outcome-dependent sampling, common effect measures such as the average risk difference and the average risk ratio are not identified, but the conditional odds ratio is. Aggregation of the conditional odds ratio is challenging since summary measures are generally not identified. Furthermore, the marginal odds ratio can be larger (or smaller) than all conditional odds ratios. This so-called non-collapsibility of the odds ratio is avoidable if we use an alternative aggregation to the standard arithmetic mean. We provide a new definition of collapsibility that makes this choice of aggregation method explicit, and we demonstrate that the odds ratio is collapsible under geometric aggregation. We describe how to partially identify, estimate, and do inference on the geometric odds ratio under outcome-dependent sampling. Our proposed estimator is based on the efficient influence function and therefore has doubly robust-style properties.
翻訳日:2022-07-20 14:24:36 公開日:2022-07-19
# hicf:双曲的情報協調フィルタリング

HICF: Hyperbolic Informative Collaborative Filtering ( http://arxiv.org/abs/2207.09051v1 )

ライセンス: Link先を確認
Menglin Yang, Zhihao Li, Min Zhou, Jiahong Liu, Irwin King(参考訳) ユーザ・イテム・ネットワークにおけるパワー・ロー分布の普及を考えると、双曲空間が注目され、最近はレコメンダ・システムで素晴らしい性能を得た。 双曲的レコメンデーションの利点は、その指数関数的に増加するキャパシティがパワーロー分散ユーザ・イットムネットワークを記述するのに適しているのに対して、ユークリッド同値は不足していることである。 しかし, メタボリックモデルではどの項目が効果的に推奨され, どちらが推奨できないのかは明らかでない。 上記の問題に対処するため,双曲型およびユークリッド型の推薦モデルの挙動をメディアとして,最も基本的な推奨手法である協調フィルタリング(collaborative filtering)を用いて検討する。 その結果,(1) テールアイテムはユークリッド空間よりも双曲空間に重点が置かれるが,改善の余地は十分にあること,(2) ヘッドアイテムは双曲空間に適度な注意を払われること,(3) にもかかわらず,双曲モデルの方がユークリッドモデルよりも競争性能が高いことが明らかとなった。 そこで本研究では, 提案手法を用いて, 頭部項目の推薦効果を補うと同時に, 尾項目の性能を向上させることを目的とした新しい学習法であるhyperbolic informative collaborative filtering (hicf) を設計した。 主な考え方は、双曲的マージンランキング学習に適応し、そのプル&プッシュ手順を幾何学的に認識し、頭と尾の両方の項目の学習のための情報的ガイダンスを提供することである。 広範な実験により解析結果が裏付けられ,提案手法の有効性が示された。 この作品はパーソナライズされたレコメンデーションにとって有益である。それは、ハイパーボリックスペースが、しばしばユーザーがカスタマイズした好みや新製品を表すテールアイテムのモデリングを容易にすることを明らかにしているからだ。

Considering the prevalence of the power-law distribution in user-item networks, hyperbolic space has attracted considerable attention and achieved impressive performance in the recommender system recently. The advantage of hyperbolic recommendation lies in that its exponentially increasing capacity is well-suited to describe the power-law distributed user-item network whereas the Euclidean equivalent is deficient. Nonetheless, it remains unclear which kinds of items can be effectively recommended by the hyperbolic model and which cannot. To address the above concerns, we take the most basic recommendation technique, collaborative filtering, as a medium, to investigate the behaviors of hyperbolic and Euclidean recommendation models. The results reveal that (1) tail items get more emphasis in hyperbolic space than that in Euclidean space, but there is still ample room for improvement; (2) head items receive modest attention in hyperbolic space, which could be considerably improved; (3) and nonetheless, the hyperbolic models show more competitive performance than Euclidean models. Driven by the above observations, we design a novel learning method, named hyperbolic informative collaborative filtering (HICF), aiming to compensate for the recommendation effectiveness of the head item while at the same time improving the performance of the tail item. The main idea is to adapt the hyperbolic margin ranking learning, making its pull and push procedure geometric-aware, and providing informative guidance for the learning of both head and tail items. Extensive experiments back up the analytic findings and also show the effectiveness of the proposed method. The work is valuable for personalized recommendations since it reveals that the hyperbolic space facilitates modeling the tail item, which often represents user-customized preferences or new products.
翻訳日:2022-07-20 14:21:07 公開日:2022-07-19
# FLDetector:フェデレーション学習に対するモデル中毒攻撃における悪意のあるクライアントの検出

FLDetector: Detecting Malicious Clients in Model Poisoning Attacks to Federated Learning ( http://arxiv.org/abs/2207.09209v1 )

ライセンス: Link先を確認
Zaixi Zhang, Xiaoyu Cao, Jinayuan Jia, Neil Zhenqiang Gong(参考訳) フェデレーション学習(fl)はモデル中毒攻撃に対して脆弱であり、悪意のあるクライアントは、操作されたモデル更新をサーバに送信することでグローバルモデルを破壊する。 既存の防御は主にビザンチン・ロバストflメソッドに依存しており、一部のクライアントが悪意を持っていても正確なグローバルモデルを学ぶことを目的としている。 しかし、実際には少数の悪意のあるクライアントにしか抵抗できない。 多数の悪意のあるクライアントによるモデル中毒攻撃を防御する方法は、依然としてオープンな課題である。 私たちのFLDetectorは悪意のあるクライアントを検出してこの問題に対処します。 FLDetectorは、Byzantine-robust FLメソッドが残りのクライアントを使って正確なグローバルモデルを学ぶことができるような、悪意のあるクライアントの大部分を検出し、削除することを目的としている。 私たちのキーとなる観察は、モデル中毒攻撃では、複数のイテレーションでクライアントからモデル更新が一貫性がないことです。 そのため、FLDetectorはモデルの更新一貫性をチェックして悪意のあるクライアントを検出する。 概して、サーバは、Cauchy平均値定理とL-BFGSを用いて、履歴モデル更新に基づいて、各イテレーションにおけるクライアントのモデル更新を予測し、クライアントから受信したモデル更新と予測されたモデル更新が複数のイテレーションで矛盾する場合、クライアントを悪意としてフラグする。 3つのベンチマークデータセットに対する広範な実験により、FLDetectorは複数の最先端モデル中毒攻撃において、悪意のあるクライアントを正確に検出できることが示された。 検出された悪意のあるクライアントを削除した後、既存のByzantine-robust FLメソッドは正確なグローバルモデルを学ぶことができる。

Federated learning (FL) is vulnerable to model poisoning attacks, in which malicious clients corrupt the global model via sending manipulated model updates to the server. Existing defenses mainly rely on Byzantine-robust FL methods, which aim to learn an accurate global model even if some clients are malicious. However, they can only resist a small number of malicious clients in practice. It is still an open challenge how to defend against model poisoning attacks with a large number of malicious clients. Our FLDetector addresses this challenge via detecting malicious clients. FLDetector aims to detect and remove the majority of the malicious clients such that a Byzantine-robust FL method can learn an accurate global model using the remaining clients. Our key observation is that, in model poisoning attacks, the model updates from a client in multiple iterations are inconsistent. Therefore, FLDetector detects malicious clients via checking their model-updates consistency. Roughly speaking, the server predicts a client's model update in each iteration based on its historical model updates using the Cauchy mean value theorem and L-BFGS, and flags a client as malicious if the received model update from the client and the predicted model update are inconsistent in multiple iterations. Our extensive experiments on three benchmark datasets show that FLDetector can accurately detect malicious clients in multiple state-of-the-art model poisoning attacks. After removing the detected malicious clients, existing Byzantine-robust FL methods can learn accurate global models.
翻訳日:2022-07-20 14:20:34 公開日:2022-07-19
# Magpie: 深層強化学習を用いた分散ファイルシステムの静的パラメータの自動調整

Magpie: Automatically Tuning Static Parameters for Distributed File Systems using Deep Reinforcement Learning ( http://arxiv.org/abs/2207.09298v1 )

ライセンス: Link先を確認
Houkun Zhu, Dominik Scheinert, Lauritz Thamsen, Kordian Gontarska, and Odej Kao(参考訳) 分散ファイルシステムは近年広く使われているが、デフォルトの設定は最適ではないことが多い。 同時に、設定パラメータのチューニングは一般的に困難で時間がかかります。 専門知識も必要であり、チューニング作業も高価である。 これは特に静的パラメータの場合で、システムやワークロードの再起動後にのみ変更が実行される。 我々は, パラメータ空間を戦略的に探索し, 利用することにより, 静的パラメータの調整に深層強化学習を利用する新しい手法Magpieを提案する。 静的パラメータのチューニングを促進するために,分散ファイルシステムのサーバとクライアントのメトリクスを用いて,静的パラメータとパフォーマンスの関係を理解する。 実験的な評価結果から,Magpie は分散ファイルシステム Lustre の性能を著しく向上させることができることがわかった。これは,単一性能指標の最適化に向けてチューニングした上で,平均的なアプローチで 91.8% のスループット向上を実現し,ベースラインに対して 39.7% のスループット向上を実現している。

Distributed file systems are widely used nowadays, yet using their default configurations is often not optimal. At the same time, tuning configuration parameters is typically challenging and time-consuming. It demands expertise and tuning operations can also be expensive. This is especially the case for static parameters, where changes take effect only after a restart of the system or workloads. We propose a novel approach, Magpie, which utilizes deep reinforcement learning to tune static parameters by strategically exploring and exploiting configuration parameter spaces. To boost the tuning of the static parameters, our method employs both server and client metrics of distributed file systems to understand the relationship between static parameters and performance. Our empirical evaluation results show that Magpie can noticeably improve the performance of the distributed file system Lustre, where our approach on average achieves 91.8% throughput gains against default configuration after tuning towards single performance indicator optimization, while it reaches 39.7% more throughput gains against the baseline.
翻訳日:2022-07-20 14:20:05 公開日:2022-07-19
# Few-Shot チームワーク

Few-Shot Teamwork ( http://arxiv.org/abs/2207.09300v1 )

ライセンス: Link先を確認
Elliot Fosong, Arrasy Rahman, Ignacio Carlucho, Stefano V. Albrecht(参考訳) チームで訓練された熟練したエージェントが、異なるタスクの熟練したエージェントと組み合わさって、目に見えないが関連するタスクに適応しなくてはならないという、新しい数発チームワーク(FST)問題を提案する。 我々は、FSTの問題は、複雑なタスクを完了させるためにエージェントのチームを訓練するために必要な経験を減らすこと、新しいタスクを完了させるために馴染みのないチームメイトと協力することの2つの異なる問題にどのように対処するかを議論する。 FSTの解決に向けた進歩は、マルチエージェント強化学習とアドホックチームワークの両方の進展につながる可能性がある。

We propose the novel few-shot teamwork (FST) problem, where skilled agents trained in a team to complete one task are combined with skilled agents from different tasks, and together must learn to adapt to an unseen but related task. We discuss how the FST problem can be seen as addressing two separate problems: one of reducing the experience required to train a team of agents to complete a complex task; and one of collaborating with unfamiliar teammates to complete a new task. Progress towards solving FST could lead to progress in both multi-agent reinforcement learning and ad hoc teamwork.
翻訳日:2022-07-20 14:19:48 公開日:2022-07-19
# マルチロボットシナリオにおけるフェデレーション強化学習の分散化について

On Decentralizing Federated Reinforcement Learning in Multi-Robot Scenarios ( http://arxiv.org/abs/2207.09372v1 )

ライセンス: Link先を確認
Jayprakash S. Nair, Divya D. Kulkarni, Ajitem Joshi, Sruthy Suresh(参考訳) Federated Learning(FL)は、複数のコンピューティングデバイス間で学習情報を協調的に集約し、それら間で共有することで、プライバシの問題と巨大な帯域幅の必要性に対処する。 FL技術は一般的に、デバイスから受け取ったモデルを集約するために中央サーバーまたはクラウドを使用する。 このような集中型FL技術は、中央ノードの故障やチャネル帯域のボトルネックといった固有の問題に悩まされる。 flがデバイスとして機能するコネクテッドロボットと併用される場合、中央制御エンティティの故障はカオス状態につながる可能性がある。 本稿では,マルチロボットシナリオにおいてFLを分散化するモバイルエージェントベースのパラダイムについて述べる。 オープンソースロボットシミュレータとして人気のwebotsと,モバイルエージェントプラットフォームであるtartarusを用いて,連帯学習を一組のコネクテッドロボットで分散化する手法を提案する。 webotsは異なるコンピュータシステム上で動作し,モバイルエージェントが分散連合強化学習(dfrl)のタスクをどのように実行するかを示す。 Q-learning と SARSA を用いた実験の結果,ロボット分野における分散FL の実現可能性を示した。 提案手法は他の学習アルゴリズムや実ロボットと併用できるため,マルチロボットシナリオにおいて異種学習アルゴリズムを同時に用いた分散FLの研究において重要なツールとして機能する。

Federated Learning (FL) allows for collaboratively aggregating learned information across several computing devices and sharing the same amongst them, thereby tackling issues of privacy and the need of huge bandwidth. FL techniques generally use a central server or cloud for aggregating the models received from the devices. Such centralized FL techniques suffer from inherent problems such as failure of the central node and bottlenecks in channel bandwidth. When FL is used in conjunction with connected robots serving as devices, a failure of the central controlling entity can lead to a chaotic situation. This paper describes a mobile agent based paradigm to decentralize FL in multi-robot scenarios. Using Webots, a popular free open-source robot simulator, and Tartarus, a mobile agent platform, we present a methodology to decentralize federated learning in a set of connected robots. With Webots running on different connected computing systems, we show how mobile agents can perform the task of Decentralized Federated Reinforcement Learning (dFRL). Results obtained from experiments carried out using Q-learning and SARSA by aggregating their corresponding Q-tables, show the viability of using decentralized FL in the domain of robotics. Since the proposed work can be used in conjunction with other learning algorithms and also real robots, it can act as a vital tool for the study of decentralized FL using heterogeneous learning algorithms concurrently in multi-robot scenarios.
翻訳日:2022-07-20 14:19:37 公開日:2022-07-19
# 模倣モデル:あなたのように行動するAIの倫理的意味

Mimetic Models: Ethical Implications of AI that Acts Like You ( http://arxiv.org/abs/2207.09394v1 )

ライセンス: Link先を確認
Reid McIlroy-Young, Jon Kleinberg, Siddhartha Sen, Solon Barocas, Ashton Anderson(参考訳) 人工知能研究の新たなテーマは、ゲームプレイ、テキスト生成、芸術表現などの領域において、特定の人々の決定と行動をシミュレートするモデルの作成である。 これらのモデルは、個人に適した方法で、あるいは単に固定された事前計算された振る舞いの再現ではなく、相互作用のために設計される方法で、以前のアプローチを超えています。 本稿では,これらをミメティックモデルとみなし,その普及に伴う倫理的・社会的問題を特徴づける枠組みを開発する。 私たちのフレームワークには、このようなモデルを使用するためのさまざまなシナリオが含まれており、モデリング対象、モデルのデプロイを行うオペレータ、モデルと相互作用するエンティティなど、さまざまな参加者への影響について検討しています。

An emerging theme in artificial intelligence research is the creation of models to simulate the decisions and behavior of specific people, in domains including game-playing, text generation, and artistic expression. These models go beyond earlier approaches in the way they are tailored to individuals, and the way they are designed for interaction rather than simply the reproduction of fixed, pre-computed behaviors. We refer to these as mimetic models, and in this paper we develop a framework for characterizing the ethical and social issues raised by their growing availability. Our framework includes a number of distinct scenarios for the use of such models, and considers the impacts on a range of different participants, including the target being modeled, the operator who deploys the model, and the entities that interact with it.
翻訳日:2022-07-20 14:19:14 公開日:2022-07-19
# ハミルトン・ヤコビ・ベルマンpdesのための深層学習ソルバのデータ駆動初期化

Data-driven initialization of deep learning solvers for Hamilton-Jacobi-Bellman PDEs ( http://arxiv.org/abs/2207.09299v1 )

ライセンス: Link先を確認
Anastasia Borovykh, Dante Kalise, Alexis Laignelet, Panos Parpas(参考訳) 非線形二次レギュレータ(NLQR)問題に関連するハミルトン・ヤコビ・ベルマン偏微分方程式(HJB PDE)の近似に対するディープラーニングアプローチ 状態依存リッカティ方程式制御法則は、教師付き学習のための勾配型合成データセットを生成するために最初に用いられる。 得られたモデルは、HJB PDEの残量に基づく損失関数の最小化のためのウォームスタートとなる。 教師付き学習と残留最小化の組み合わせは、素早い解決策を避け、教師付き学習のみのアプローチのデータ非効率を緩和する。 数値試験は提案手法の異なる利点を検証する。

A deep learning approach for the approximation of the Hamilton-Jacobi-Bellman partial differential equation (HJB PDE) associated to the Nonlinear Quadratic Regulator (NLQR) problem. A state-dependent Riccati equation control law is first used to generate a gradient-augmented synthetic dataset for supervised learning. The resulting model becomes a warm start for the minimization of a loss function based on the residual of the HJB PDE. The combination of supervised learning and residual minimization avoids spurious solutions and mitigate the data inefficiency of a supervised learning-only approach. Numerical tests validate the different advantages of the proposed methodology.
翻訳日:2022-07-20 14:19:00 公開日:2022-07-19
# カウント時系列の確率的再調

Probabilistic Reconciliation of Count Time Series ( http://arxiv.org/abs/2207.09322v1 )

ライセンス: Link先を確認
Giorgio Corani, Nicolo Rubattu, Dario Azzimonti, Alessandro Antonucci(参考訳) 我々は,任意の確率的ベース予測の解消のための原理的手法を提案する。 ベイズの規則により,底部と上部時系列のベース予測に含まれる情報とを融合することにより,確率的和解が得られることを示す。 提案手法をおもちゃの階層構造に記述し,我々の枠組みがどのような基盤予測の確率論的和解を可能にするかを示す。 我々は,数列の時間的階層の整合実験を行い,ガウス分布やガウス分布に基づく確率的整合よりも大きな改善を得た。

We propose a principled method for the reconciliation of any probabilistic base forecasts. We show how probabilistic reconciliation can be obtained by merging, via Bayes' rule, the information contained in the base forecast for the bottom and the upper time series. We illustrate our method on a toy hierarchy, showing how our framework allows the probabilistic reconciliation of any base forecast. We perform experiment in the reconciliation of temporal hierarchies of count time series, obtaining major improvements compared to probabilistic reconciliation based on the Gaussian or the truncated Gaussian distribution.
翻訳日:2022-07-20 14:18:50 公開日:2022-07-19
# 3次元顔ディテールアニメーションとマニピュレーションのための構造認識編集可能なモーファブルモデル

Structure-aware Editable Morphable Model for 3D Facial Detail Animation and Manipulation ( http://arxiv.org/abs/2207.09019v1 )

ライセンス: Link先を確認
Jingwang Ling, Zhibo Wang, Ming Lu, Quan Wang, Chen Qian, Feng Xu(参考訳) モーファブルモデルは3d顔の統計的モデリングに必須である。 モーフィナブルモデルに関する以前の研究は、主に大規模な顔の幾何学に焦点を合わせているが、顔の詳細は無視している。 本稿では,SEMM(Structure-aware Editable Morphable Model)を学習することで,顔の細部を表現できるモデルを強化する。 SEMMは、輪郭線距離場に基づく細部構造表現を導入し、より優れた対応を確立し、輪郭構造の直感的な操作を可能にする。 さらに、SEMMは2つの変換モジュールを導入し、表現のブレンドシェープ重みと年齢値を潜在空間の変化に変換する。 広範な実験により,提案モデルが顔の細部をコンパクトに表現し,表情アニメーションの質的,定量的に従来の手法を上回り,効果的な年齢編集と顔の輪郭線編集を実現することを実証した。 コードとモデルはhttps://github.com/gerwang/face-detail-manipulationで入手できる。

Morphable models are essential for the statistical modeling of 3D faces. Previous works on morphable models mostly focus on large-scale facial geometry but ignore facial details. This paper augments morphable models in representing facial details by learning a Structure-aware Editable Morphable Model (SEMM). SEMM introduces a detail structure representation based on the distance field of wrinkle lines, jointly modeled with detail displacements to establish better correspondences and enable intuitive manipulation of wrinkle structure. Besides, SEMM introduces two transformation modules to translate expression blendshape weights and age values into changes in latent space, allowing effective semantic detail editing while maintaining identity. Extensive experiments demonstrate that the proposed model compactly represents facial details, outperforms previous methods in expression animation qualitatively and quantitatively, and achieves effective age editing and wrinkle line editing of facial details. Code and model are available at https://github.com/gerwang/facial-detail-manipulation.
翻訳日:2022-07-20 14:18:40 公開日:2022-07-19
# 腎癌治療のための2022年多構造分節の多段階的枠組み

A Multi-Stage Framework for the 2022 Multi-Structure Segmentation for Renal Cancer Treatment ( http://arxiv.org/abs/2207.09165v1 )

ライセンス: Link先を確認
Yusheng Liu, Zhongchen Zhao and Lisheng Wang(参考訳) CTアンギオグラフィー(CTA)画像を用いた3次元腎解析は臨床的に非常に重要である。 腎、腎腫瘍、腎静脈、腎動脈の自動分画は、手術ベースの腎癌治療に大いに役立つ。 本稿では,新しいnnhra-unetネットワークを提案し,それに基づく多段階フレームワークを用いて腎臓の多層構造を分割し,kipa2022チャレンジに参加する。

Three-dimensional (3D) kidney parsing on computed tomography angiography (CTA) images is of great clinical significance. Automatic segmentation of kidney, renal tumor, renal vein and renal artery benefits a lot on surgery-based renal cancer treatment. In this paper, we propose a new nnhra-unet network, and use a multi-stage framework which is based on it to segment the multi-structure of kidney and participate in the KiPA2022 challenge.
翻訳日:2022-07-20 14:18:21 公開日:2022-07-19
# 複雑未知系に対するベイズ最適化フレームワークの開発について

On the development of a Bayesian optimisation framework for complex unknown systems ( http://arxiv.org/abs/2207.09154v1 )

ライセンス: Link先を確認
Mike Diessner, Yu Guan, Kevin J. Wilson, Richard D. Whalley(参考訳) ベイズ最適化は高価なブラックボックス関数を最適化する効果的な方法を提供する。 近年,流体力学の問題に応用されている。 本稿では, ベイズ最適化アルゴリズムを様々な合成試験関数に対して実験的に検討し, 比較する。 取得関数の選択とトレーニングサンプル数、獲得関数とモンテカルロに基づくアプローチの正確な計算、シングルポイントとマルチポイントの最適化について検討する。 テスト関数は様々な課題をカバーするため、ベイズ最適化のパフォーマンスを理解し、ベイズ最適化が良好で不十分な一般的な状況を特定するのに理想的なテストベッドとなる。 この知識は、目的関数が未知の流体力学を含むアプリケーションで利用することができる。 本研究の結果, 比較的単純な関数では選択が重要ではなく, より複雑な目的関数に対しては, 高い信頼度などの楽観的獲得関数が望ましいことが示唆された。 さらにモンテカルロアプローチの結果は解析的獲得関数の結果に匹敵する。 目的関数が並列評価を可能にする場合、マルチポイントアプローチはより迅速な代替手段を提供するが、より客観的な関数評価を必要とする可能性がある。

Bayesian optimisation provides an effective method to optimise expensive black box functions. It has recently been applied to problems in fluid dynamics. This paper studies and compares common Bayesian optimisation algorithms empirically on a range of synthetic test functions. It investigates the choice of acquisition function and number of training samples, exact calculation of acquisition functions and Monte Carlo based approaches and both single-point and multi-point optimisation. The test functions considered cover a wide selection of challenges and therefore serve as an ideal test bed to understand the performance of Bayesian optimisation and to identify general situations where Bayesian optimisation performs well and poorly. This knowledge can be utilised in applications, including those in fluid dynamics, where objective functions are unknown. The results of this investigation show that the choices to be made are less relevant for relatively simple functions, while optimistic acquisition functions such as Upper Confidence Bound should be preferred for more complex objective functions. Furthermore, results from the Monte Carlo approach are comparable to results from analytical acquisition functions. In instances where the objective function allows parallel evaluations, the multi-point approach offers a quicker alternative, yet it may potentially require more objective function evaluations.
翻訳日:2022-07-20 14:14:09 公開日:2022-07-19
# 資源制約付き分類問題の適応学習

Adaptive Learning for the Resource-Constrained Classification Problem ( http://arxiv.org/abs/2207.09196v1 )

ライセンス: Link先を確認
Danit Shifman Abukasis, Izack Cohen, Xiaochen Xian, Kejun Huang, Gonen Singer(参考訳) リソース制約付き分類タスクは、病気診断のためのテスト割り当て、限られた数のポジションを満たす際の採用決定、限られた検査予算の下で製造環境での欠陥検出など、現実世界のアプリケーションで一般的である。 典型的な分類アルゴリズムは、学習過程と資源制約を2つの分離および逐次タスクとして扱う。 ここでは,資源制約と学習を共同で考慮した適応学習手法を,誤分類コストの反復的微調整によって設計する。 公開データセットを用いた構造化実験により,提案手法を用いた決定木分類器の評価を行った。 適応学習アプローチは、特に共通アプローチの性能が不十分な難しい分類問題に対して、代替手法よりもはるかに優れた性能を発揮する。 資源制約のある分類問題に対処する手法のレパートリーとして,適応学習アプローチを重要視する。

Resource-constrained classification tasks are common in real-world applications such as allocating tests for disease diagnosis, hiring decisions when filling a limited number of positions, and defect detection in manufacturing settings under a limited inspection budget. Typical classification algorithms treat the learning process and the resource constraints as two separate and sequential tasks. Here we design an adaptive learning approach that considers resource constraints and learning jointly by iteratively fine-tuning misclassification costs. Via a structured experimental study using a publicly available data set, we evaluate a decision tree classifier that utilizes the proposed approach. The adaptive learning approach performs significantly better than alternative approaches, especially for difficult classification problems in which the performance of common approaches may be unsatisfactory. We envision the adaptive learning approach as an important addition to the repertoire of techniques for handling resource-constrained classification problems.
翻訳日:2022-07-20 14:13:52 公開日:2022-07-19
# 無線ネットワーク上でのグリーンな量子化フェデレーション学習:エネルギー効率の良い設計

Green, Quantized Federated Learning over Wireless Networks: An Energy-Efficient Design ( http://arxiv.org/abs/2207.09387v1 )

ライセンス: Link先を確認
Minsu Kim, Walid Saad, Mohammad Mozaffari, Merouane Debbah(参考訳) 本稿では,ローカルトレーニングとアップリンク伝送の両方において,有限精度のデータを表現したグリーン量子化FLフレームワークを提案する。 ここでは、有限精度レベルは、固定精度フォーマットで重みとアクティベーションを定量化する量子ニューラルネットワーク(QNN)を使用してキャプチャされる。 検討されたFLモデルでは、各デバイスがQNNを訓練し、量子化されたトレーニング結果を基地局に送信する。 局所学習のためのエネルギーモデルと量子化を伴う伝達は厳格に導出される。 エネルギー消費と通信ラウンドの数を同時に最小化するため、目標精度制約の下で収束を確保しつつ、局所的なイテレーション数、選択されたデバイス数、ローカルトレーニングと送信の両方の精度レベルについて多目的最適化問題を定式化する。 この問題を解決するために,提案するFLシステムの収束速度をシステム制御変数に対して解析的に導出する。 そこで, 問題のパレート境界は, 正規境界検査法を用いて効率的な解を提供する。 2つの目的間のトレードオフのバランスに関する設計洞察は、nash交渉解を用いて導出された収束率の解析から得られる。 シミュレーションの結果,提案するFLフレームワークは,全精度でデータを表すベースラインFLアルゴリズムと比較して,収束までのエネルギー消費量を最大52%削減できることがわかった。

In this paper, a green, quantized FL framework, which represents data with a finite precision level in both local training and uplink transmission, is proposed. Here, the finite precision level is captured through the use of quantized neural networks (QNNs) that quantize weights and activations in fixed-precision format. In the considered FL model, each device trains its QNN and transmits a quantized training result to the base station. Energy models for the local training and the transmission with quantization are rigorously derived. To minimize the energy consumption and the number of communication rounds simultaneously, a multi-objective optimization problem is formulated with respect to the number of local iterations, the number of selected devices, and the precision levels for both local training and transmission while ensuring convergence under a target accuracy constraint. To solve this problem, the convergence rate of the proposed FL system is analytically derived with respect to the system control variables. Then, the Pareto boundary of the problem is characterized to provide efficient solutions using the normal boundary inspection method. Design insights on balancing the tradeoff between the two objectives are drawn from using the Nash bargaining solution and analyzing the derived convergence rate. Simulation results show that the proposed FL framework can reduce energy consumption until convergence by up to 52% compared to a baseline FL algorithm that represents data with full precision.
翻訳日:2022-07-20 14:13:39 公開日:2022-07-19
# 深い平衡ネットワークは初期化統計に敏感である

Deep equilibrium networks are sensitive to initialization statistics ( http://arxiv.org/abs/2207.09432v1 )

ライセンス: Link先を確認
Atish Agarwala, Samuel S. Schoenholz(参考訳) ディープ平衡ネットワーク(DEQ)は、計算のためにメモリを交換するモデルを構築するための有望な方法である。 しかしながら、これらのモデルの理論的理解は、一組の重みの繰り返し適用のために、伝統的なネットワークと比較してまだ不足している。 本稿では,DECが初期化される行列系の高次統計に敏感であることを示す。 特に直交行列や対称行列を初期化することで、トレーニングの安定性が向上する。 これにより、より広範な初期重量スケールでのトレーニングを可能にする初期化の実践的な処方則が得られます。

Deep equilibrium networks (DEQs) are a promising way to construct models which trade off memory for compute. However, theoretical understanding of these models is still lacking compared to traditional networks, in part because of the repeated application of a single set of weights. We show that DEQs are sensitive to the higher order statistics of the matrix families from which they are initialized. In particular, initializing with orthogonal or symmetric matrices allows for greater stability in training. This gives us a practical prescription for initializations which allow for training with a broader range of initial weight scales.
翻訳日:2022-07-20 14:13:16 公開日:2022-07-19
# Deep Semantic Statistics Matching (D2SM) Denoising Network

Deep Semantic Statistics Matching (D2SM) Denoising Network ( http://arxiv.org/abs/2207.09302v1 )

ライセンス: Link先を確認
Kangfu Mei and Vishal M. Patel and Rui Huang(参考訳) ノイズ除去のような画像復元の最終的な目的は、ノイズ領域とクリア領域の正確な相関を見つけることである。 しかし、ピクセル単位の損失のようなエンドツーエンドの推論学習の最適化はサンプルからサンプルまでの方法で行われ、画像、特に意味論の固有相関を無視する。 本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。 事前訓練された分類ネットワークの意味的特徴を活用し、その意味的特徴空間におけるクリアイメージの確率的分布に暗黙的に一致する。 画像の意味的分布を学習することで,ネットワークの分断能力を大幅に向上させ,高レベルな視覚タスクにより分断結果をより理解することができることがわかった。 ノイズの多い都市景観データセットを用いた包括的実験により,提案手法の有効性とセグメンテーション精度が実証された。 さらに,超高分解能および脱ハージング実験を含む拡張タスクで観測された性能改善は,新しい汎用プラグアンドプレイコンポーネントとしての可能性を示している。

The ultimate aim of image restoration like denoising is to find an exact correlation between the noisy and clear image domains. But the optimization of end-to-end denoising learning like pixel-wise losses is performed in a sample-to-sample manner, which ignores the intrinsic correlation of images, especially semantics. In this paper, we introduce the Deep Semantic Statistics Matching (D2SM) Denoising Network. It exploits semantic features of pretrained classification networks, then it implicitly matches the probabilistic distribution of clear images at the semantic feature space. By learning to preserve the semantic distribution of denoised images, we empirically find our method significantly improves the denoising capabilities of networks, and the denoised results can be better understood by high-level vision tasks. Comprehensive experiments conducted on the noisy Cityscapes dataset demonstrate the superiority of our method on both the denoising performance and semantic segmentation accuracy. Moreover, the performance improvement observed on our extended tasks including super-resolution and dehazing experiments shows its potentiality as a new general plug-and-play component.
翻訳日:2022-07-20 14:10:10 公開日:2022-07-19
# dh-aug:3次元ポーズ推定のためのdh前方運動モデル駆動強化

DH-AUG: DH Forward Kinematics Model Driven Augmentation for 3D Human Pose Estimation ( http://arxiv.org/abs/2207.09303v1 )

ライセンス: Link先を確認
Linzhi Huang, Jiahao Liang, Weihong Deng(参考訳) データセットの多様性が欠如しているため、ポーズ推定器の一般化能力は乏しい。 この問題を解決するために、DH-AUGと呼ばれるDHフォワードキネマティクスモデルを用いたポーズ拡張ソリューションを提案する。 私たちは、前回の作業はすべてシングルフレームのポーズ拡張に基づいており、ビデオポーズ推定に直接適用された場合、これまで無視されていたいくつかの問題が存在することを観察する。 (i)骨回転における角度曖昧性(複数溶液) (ii)スケルトンビデオは運動連続性を欠いている。 これらの問題を解決するために,DHフォワード・キネマティクスモデルに基づく特別な生成器を提案する。 広範な実験により、dh-augはビデオポーズ推定器の一般化能力を大幅に向上できることが示されている。 さらに, 単フレーム3次元ポーズ推定器に適用した場合, 従来のベストポーズ拡張法よりも優れていた。 ソースコードはhttps://github.com/hlz0606/DH-AUG-DH-Forward-Kinematics-Model-Driven-Augmentation-for-3D-Human-Pose- Estimationでリリースされた。

Due to the lack of diversity of datasets, the generalization ability of the pose estimator is poor. To solve this problem, we propose a pose augmentation solution via DH forward kinematics model, which we call DH-AUG. We observe that the previous work is all based on single-frame pose augmentation, if it is directly applied to video pose estimator, there will be several previously ignored problems: (i) angle ambiguity in bone rotation (multiple solutions); (ii) the generated skeleton video lacks movement continuity. To solve these problems, we propose a special generator based on DH forward kinematics model, which is called DH-generator. Extensive experiments demonstrate that DH-AUG can greatly increase the generalization ability of the video pose estimator. In addition, when applied to a single-frame 3D pose estimator, our method outperforms the previous best pose augmentation method. The source code has been released at https://github.com/hlz0606/DH-AUG-DH-Forward-Kinematics-Model-Driven-Augmentation-for-3D-Human-Pose- Estimation.
翻訳日:2022-07-20 14:09:50 公開日:2022-07-19
# 単段3次元物体検出のためのIoUに基づく最適化の再考

Rethinking IoU-based Optimization for Single-stage 3D Object Detection ( http://arxiv.org/abs/2207.09332v1 )

ライセンス: Link先を確認
Hualian Sheng, Sijia Cai, Na Zhao, Bing Deng, Jianqiang Huang, Xian-Sheng Hua, Min-Jian Zhao, Gim Hee Lee(参考訳) IoU(Intersection-over-Union)に基づく最適化は、最終的なIoU予測距離と損失の整合性を維持するため、単段2次元物体検出器の回帰と分類の両方に広く用いられている。 近年、いくつかの3Dオブジェクト検出手法がIoUベースの最適化を採用しており、2D IoUを直接3D IoUに置き換えている。 しかし、3Dでのこのような直接計算は、複雑な実装と非効率な後方操作のために非常にコストがかかる。 さらに、3D IoUベースの最適化は回転に敏感であるため準最適であり、トレーニング不安定や検出性能の劣化を引き起こす可能性がある。 本稿では,回転分離型IoU(RDIoU)法を提案する。これは回転感度問題を緩和し,トレーニング段階における3D IoUよりも効率的な最適化目標を実現する。 具体的には、回転変数を独立項として分離し、3次元IoUの幾何学を保存することにより、回帰パラメータの複雑な相互作用を単純化する。 RDIoUを回帰と分類の両方に組み込むことで、ネットワークはより正確な境界ボックスを学習し、分類と回帰のミスアライメント問題を同時に克服することが奨励される。 KITTI と Waymo Open Dataset のベンチマーク実験により、我々の RDIoU 法は、単一ステージの3Dオブジェクト検出に大幅な改善をもたらすことが確認された。

Since Intersection-over-Union (IoU) based optimization maintains the consistency of the final IoU prediction metric and losses, it has been widely used in both regression and classification branches of single-stage 2D object detectors. Recently, several 3D object detection methods adopt IoU-based optimization and directly replace the 2D IoU with 3D IoU. However, such a direct computation in 3D is very costly due to the complex implementation and inefficient backward operations. Moreover, 3D IoU-based optimization is sub-optimal as it is sensitive to rotation and thus can cause training instability and detection performance deterioration. In this paper, we propose a novel Rotation-Decoupled IoU (RDIoU) method that can mitigate the rotation-sensitivity issue, and produce more efficient optimization objectives compared with 3D IoU during the training stage. Specifically, our RDIoU simplifies the complex interactions of regression parameters by decoupling the rotation variable as an independent term, yet preserving the geometry of 3D IoU. By incorporating RDIoU into both the regression and classification branches, the network is encouraged to learn more precise bounding boxes and concurrently overcome the misalignment issue between classification and regression. Extensive experiments on the benchmark KITTI and Waymo Open Dataset validate that our RDIoU method can bring substantial improvement for the single-stage 3D object detection.
翻訳日:2022-07-20 14:09:29 公開日:2022-07-19
# 変換器を用いた視覚表現学習:シーケンスからシーケンスへの視点

Visual Representation Learning with Transformer: A Sequence-to-Sequence Perspective ( http://arxiv.org/abs/2207.09339v1 )

ライセンス: Link先を確認
Li Zhang, Sixiao Zheng, Jiachen Lu, Xinxuan Zhao, Xiatian Zhu, Yanwei Fu, Tao Xiang, Jianfeng Feng(参考訳) 視覚表現学習は様々な視覚問題を解決する鍵となる。 畳み込みニューラルネットワーク(convolutional neural networks, cnns)は、先駆的なグリッド構造を前提として、ほとんどのディープビジョンモデルのデファクトスタンダードなアーキテクチャである。 例えば、古典的なセマンティックセグメンテーション法は、エンコーダ-デコーダアーキテクチャを備えた完全畳み込みネットワーク(FCN)を採用することが多い。 エンコーダは空間分解能を徐々に減少させ、より大きな受容野を持つより抽象的な視覚概念を学ぶ。 文脈モデリングはセグメンテーションに欠かせないため、最新の取り組みは、拡張された(アトラスな)畳み込みや注意モジュールの挿入を通じて、受容領域の増大に焦点を当てている。 しかし、FCNベースのアーキテクチャは変わっていない。 本稿では,視覚表現学習をシーケンス・ツー・シーケンス予測タスクとして一般的に扱うことで,新たな視点を提供する。 具体的には、ローカルな畳み込みや解像度の低減なしに、パッチのシーケンスとして画像をエンコードする純粋なトランスフォーマーをデプロイする。 グローバルコンテキストをTransformerの各レイヤでモデル化することで、視覚タスクのより優れた処理のために、より強力な視覚表現を学ぶことができる。 特に,セグメンテーションTRansformer (SETR) と呼ばれるセグメンテーションモデルでは,ADE20K (50.28% mIoU),Pascal Context (55.83% mIoU) を抜粋し,Cityscapes 上での競争結果に到達している。 さらに,階層的かつピラミッド的アーキテクチャにおいて,窓内の局所的注意と窓越しのグローバルアテンションを特徴とする階層的局所的グローバルトランスフォーマのファミリを定式化する。 画像分類,オブジェクト検出,インスタンスセグメンテーション,セマンティックセグメンテーションなど,様々な視覚的認識タスクにおいて,本手法が魅力的な性能を発揮することを示す。

Visual representation learning is the key of solving various vision problems. Relying on the seminal grid structure priors, convolutional neural networks (CNNs) have been the de facto standard architectures of most deep vision models. For instance, classical semantic segmentation methods often adopt a fully-convolutional network (FCN) with an encoder-decoder architecture. The encoder progressively reduces the spatial resolution and learns more abstract visual concepts with larger receptive fields. Since context modeling is critical for segmentation, the latest efforts have been focused on increasing the receptive field, through either dilated (i.e., atrous) convolutions or inserting attention modules. However, the FCN-based architecture remains unchanged. In this paper, we aim to provide an alternative perspective by treating visual representation learning generally as a sequence-to-sequence prediction task. Specifically, we deploy a pure Transformer to encode an image as a sequence of patches, without local convolution and resolution reduction. With the global context modeled in every layer of the Transformer, stronger visual representation can be learned for better tackling vision tasks. In particular, our segmentation model, termed as SEgmentation TRansformer (SETR), excels on ADE20K (50.28% mIoU, the first position in the test leaderboard on the day of submission), Pascal Context (55.83% mIoU) and reaches competitive results on Cityscapes. Further, we formulate a family of Hierarchical Local-Global (HLG) Transformers characterized by local attention within windows and global-attention across windows in a hierarchical and pyramidal architecture. Extensive experiments show that our method achieves appealing performance on a variety of visual recognition tasks (e.g., image classification, object detection and instance segmentation and semantic segmentation).
翻訳日:2022-07-20 14:09:04 公開日:2022-07-19
# 再構成・編集性向上のためのスタイルGANエンコーダのサイクル符号化

Cycle Encoding of a StyleGAN Encoder for Improved Reconstruction and Editability ( http://arxiv.org/abs/2207.09367v1 )

ライセンス: Link先を確認
Xudong Mao, Liujuan Cao, Aurele T. Gnanha, Zhenguo Yang, Qing Li, Rongrong Ji(参考訳) GANインバージョンは、事前訓練されたGANの潜在空間に入力イメージを反転させることを目的としている。 GAN変換の最近の進歩にもかかわらず、歪みと編集性の間のトレードオフを緩和すること、すなわち入力画像を正確に再構成し、反転した画像を小さな視覚的品質低下で編集することが課題である。 最近提案されたpivotalのチューニングモデルは、まず入力画像をピボットコードと呼ばれる潜在コードに反転させ、次に、入力画像をピボットコードに正確にマッピングできるようにジェネレータを変更する2段階のアプローチを用いて、再構成と編集性に著しい進歩を遂げている。 本稿では,ピボットコードの適切な設計により,復元性と編集性の両方を向上できることを示す。 高品質なピボット符号に対して、シンプルで効果的なサイクル符号化法を提案する。 提案手法の鍵となる考え方は,W->W+->Wというサイクルスキームに従って,様々な空間でエンコーダを段階的に訓練することである。 この訓練手法は、W と W+ の空間の性質、すなわち W の高編集性および W+ の低歪みを保存している。 さらに歪みの低減を図るため,最適化手法を用いてピボットコードを改良し,正規化項を導入して編集性の向上を図ることを提案する。 いくつかの最先端手法に対する定性的かつ定量的な比較は、我々のアプローチの優位性を示している。

GAN inversion aims to invert an input image into the latent space of a pre-trained GAN. Despite the recent advances in GAN inversion, there remain challenges to mitigate the tradeoff between distortion and editability, i.e. reconstructing the input image accurately and editing the inverted image with a small visual quality drop. The recently proposed pivotal tuning model makes significant progress towards reconstruction and editability, by using a two-step approach that first inverts the input image into a latent code, called pivot code, and then alters the generator so that the input image can be accurately mapped into the pivot code. Here, we show that both reconstruction and editability can be improved by a proper design of the pivot code. We present a simple yet effective method, named cycle encoding, for a high-quality pivot code. The key idea of our method is to progressively train an encoder in varying spaces according to a cycle scheme: W->W+->W. This training methodology preserves the properties of both W and W+ spaces, i.e. high editability of W and low distortion of W+. To further decrease the distortion, we also propose to refine the pivot code with an optimization-based method, where a regularization term is introduced to reduce the degradation in editability. Qualitative and quantitative comparisons to several state-of-the-art methods demonstrate the superiority of our approach.
翻訳日:2022-07-20 14:08:30 公開日:2022-07-19
# ABAW4チャレンジにおけるマルチタスク学習フレームワークに基づく感情認識

Emotion Recognition based on Multi-Task Learning Framework in the ABAW4 Challenge ( http://arxiv.org/abs/2207.09373v1 )

ライセンス: Link先を確認
Tenggan Zhang, Chuanhe Liu, Xiaolong Liu, Yuchen Liu, Liyu Meng, Lei Sun, Wenqiang Jiang, Fengyuan Zhang(参考訳) 本稿では,第4回日本感情行動分析学会(abaw)コンペティションにおけるマルチタスク学習(mtl)の課題について述べる。 視覚特徴表現に基づいて,トランスコーダ,lstmエンコーダ,grgベースのエンコーダといった3種類の時間的エンコーダを用いて,映像内の時間的コンテキスト情報をキャプチャする。 時間的文脈対応表現では、画像の価値、覚醒値、表現値、AU値を予測するためにマルチタスク・フレームワークを用いる。 さらに、初期価と覚醒予測を洗練させるために平滑化処理を適用し、異なるモデル設定から複数の結果を組み合わせるためにモデルアンサンブル戦略を用いる。 MTLチャレンジ検証データセット上での1.742ドルの性能を実現する。

This paper presents our submission to the Multi-Task Learning (MTL) Challenge of the 4th Affective Behavior Analysis in-the-wild (ABAW) competition. Based on visual feature representations, we utilize three types of temporal encoder to capture the temporal context information in the video, including the transformer based encoder, LSTM based encoder and GRU based encoder. With the temporal context-aware representations, we employ multi-task framework to predict the valence, arousal, expression and AU values of the images. In addition, smoothing processing is applied to refine the initial valence and arousal predictions, and a model ensemble strategy is used to combine multiple results from different model setups. Our system achieves the performance of $1.742$ on MTL Challenge validation dataset.
翻訳日:2022-07-20 14:08:06 公開日:2022-07-19
# RCLane: レーン検出のためのリレーチェイン予測

RCLane: Relay Chain Prediction for Lane Detection ( http://arxiv.org/abs/2207.09399v1 )

ライセンス: Link先を確認
Shenghua Xu, Xinyue Cai, Bin Zhao, Li Zhang, Hang Xu, Yanwei Fu, Xiangyang Xue(参考訳) レーン検出は多くの現実世界の自律システムの重要な構成要素である。 様々なレーン検出手法が提案され、時間とともに安定したベンチマークの改善が報告されているが、レーン検出は未解決の問題のままである。 これは、既存のレーン検出手法のほとんどがレーン検出を密集した予測または検出タスクとして扱うためであり、レーンマーカーのユニークなトポロジー(y字型、フォーク形、ほぼ水平線)を考慮し、サブ最適解をもたらすものはほとんどない。 本稿では,リレーチェーン予測に基づく車線検出手法を提案する。 具体的には,前景と背景領域を分類するためのセグメンテーションマップをモデル化する。 前景領域の各画素点について、前方の分岐点と後方の分岐点を通り、レーン全体を回復する。 各ブランチは転送マップと距離マップをデコードし、次のポイントに移動する方向と、リレーステーション(次のポイント)を段階的に予測するステップ数を生成する。 そのため、私たちのモデルは車線に沿ってキーポイントをキャプチャすることができます。 その単純さにもかかわらず、我々の戦略はTuSimple、CULane、CurveLanes、LLAMASの4つの主要なベンチマークで新しい最先端のベンチマークを確立することができる。

Lane detection is an important component of many real-world autonomous systems. Despite a wide variety of lane detection approaches have been proposed, reporting steady benchmark improvements over time, lane detection remains a largely unsolved problem. This is because most of the existing lane detection methods either treat the lane detection as a dense prediction or a detection task, few of them consider the unique topologies (Y-shape, Fork-shape, nearly horizontal lane) of the lane markers, which leads to sub-optimal solution. In this paper, we present a new method for lane detection based on relay chain prediction. Specifically, our model predicts a segmentation map to classify the foreground and background region. For each pixel point in the foreground region, we go through the forward branch and backward branch to recover the whole lane. Each branch decodes a transfer map and a distance map to produce the direction moving to the next point, and how many steps to progressively predict a relay station (next point). As such, our model is able to capture the keypoints along the lanes. Despite its simplicity, our strategy allows us to establish new state-of-the-art on four major benchmarks including TuSimple, CULane, CurveLanes and LLAMAS.
翻訳日:2022-07-20 14:07:53 公開日:2022-07-19
# det6d - 地形のロバスト性を改善する3d物体検出装置

Det6D: A Ground-Aware Full-Pose 3D Object Detector for Improving Terrain Robustness ( http://arxiv.org/abs/2207.09412v1 )

ライセンス: Link先を確認
Junyuan Ouyang, Haoyao Chen(参考訳) LiDARによる正確な3Dオブジェクト検出は、自動運転に不可欠である。 既存の研究はすべて、フラットワールドの仮定に基づいている。 しかし、実際の道路は急な区間で複雑になり、前提を破ることがある。 現在の手法では、傾斜地における物体の正確な検出が難しいため、性能劣化に悩まされている。 本研究では,空間的および姿勢的制約を伴わない初の自由度3d物体検出装置であるdet6dを提案する。 空間範囲全体の物体を検出する能力を確立することにより,点ベースフレームワークを選択する。 ピッチやロールを含む全方向のポーズを予測するために,局所的な地盤制約を生かした配向枝を設計する。 そこで本研究では,不平坦な地形を平坦なシーンに記録した既存のデータセットから合成するデータ拡張手法であるslide-augを提案する。 異なる地形における本手法の有効性とロバスト性について実験を行った。 さらに、ネットワークが2つの余分なポーズを予測する方法について、拡張実験を行った。 提案されたモジュールは、既存のポイントベースのフレームワークのプラグイン・アンド・プレイである。 コードはhttps://github.com/HITSZ-NRSL/De6Dで公開されている。

Accurate 3D object detection with LiDAR is critical for autonomous driving. Existing research is all based on the flat-world assumption. However, the actual road can be complex with steep sections, which breaks the premise. Current methods suffer from performance degradation in this case due to difficulty correctly detecting objects on sloped terrain. In this work, we propose Det6D, the first full-degree-of-freedom 3D object detector without spatial and postural limitations, to improve terrain robustness. We choose the point-based framework by founding their capability of detecting objects in the entire spatial range. To predict full-degree poses, including pitch and roll, we design a ground-aware orientation branch that leverages the local ground constraints. Given the difficulty of long-tail non-flat scene data collection and 6D pose annotation, we present Slope-Aug, a data augmentation method for synthesizing non-flat terrain from existing datasets recorded in flat scenes. Experiments on various datasets demonstrate the effectiveness and robustness of our method in different terrains. We further conducted an extended experiment to explore how the network predicts the two extra poses. The proposed modules are plug-and-play for existing point-based frameworks. The code is available at https://github.com/HITSZ-NRSL/De6D.
翻訳日:2022-07-20 14:07:34 公開日:2022-07-19
# 映像における多目的対話認識の幾何学的特徴

Geometric Features Informed Multi-person Human-object Interaction Recognition in Videos ( http://arxiv.org/abs/2207.09425v1 )

ライセンス: Link先を確認
Tanqiu Qiao and Qianhui Men and Frederick W. B. Li and Yoshiki Kubotani and Shigeo Morishima and Hubert P. H. Shum(参考訳) ビデオにおけるヒューマン・オブジェクト・インタラクション(HOI)の認識は、人間の活動を分析する上で重要である。 視覚的特徴に焦点を当てた既存の作業は、通常、現実世界のシナリオで排除される。 このような問題は、複数の人やオブジェクトがHOIに関与している場合、さらに複雑になります。 ヒトのポーズや物体の位置といった幾何学的特徴がHOIを理解する上で有意義な情報をもたらすことを考慮し、HOI認識における視覚的特徴と幾何学的特徴の両方の利点を組み合わせ、新しい2レベル幾何的特徴インフォームドグラフ畳み込みネットワーク(2G-GCN)を提案する。 幾何学レベルグラフは、人間と物体の幾何学的特徴の相互依存性をモデル化し、融合レベルグラフは、さらに人間と物体の視覚的特徴を融合させる。 挑戦シナリオにおける本手法の新規性と有効性を示すために,新しい多人数HOIデータセット(MPHOI-72)を提案する。 mphoi-72 (multi-person hoi), cad-120 (single-human hoi) およびbimanual action (two-hand hoi) データセットの広範な実験により,最新技術と比較して優れた性能が得られた。

Human-Object Interaction (HOI) recognition in videos is important for analyzing human activity. Most existing work focusing on visual features usually suffer from occlusion in the real-world scenarios. Such a problem will be further complicated when multiple people and objects are involved in HOIs. Consider that geometric features such as human pose and object position provide meaningful information to understand HOIs, we argue to combine the benefits of both visual and geometric features in HOI recognition, and propose a novel Two-level Geometric feature-informed Graph Convolutional Network (2G-GCN). The geometric-level graph models the interdependency between geometric features of humans and objects, while the fusion-level graph further fuses them with visual features of humans and objects. To demonstrate the novelty and effectiveness of our method in challenging scenarios, we propose a new multi-person HOI dataset (MPHOI-72). Extensive experiments on MPHOI-72 (multi-person HOI), CAD-120 (single-human HOI) and Bimanual Actions (two-hand HOI) datasets demonstrate our superior performance compared to state-of-the-arts.
翻訳日:2022-07-20 14:07:14 公開日:2022-07-19
# PoserNet: オブジェクト検出を爆発させるカメラの精製

PoserNet: Refining Relative Camera Poses Exploiting Object Detections ( http://arxiv.org/abs/2207.09445v1 )

ライセンス: Link先を確認
Matteo Taiana, Matteo Toso, Stuart James, Alessio Del Bue(参考訳) 画像の集合に関連付けられたカメラのポーズの推定は、画像間の特徴マッチングによく依存する。 対照的に、私たちは、明示的なセマンティックオブジェクト検出よりも、ポーズ推定問題を導出するために、オブジェクトネス領域を使用して、この課題に最初に取り組みます。 本稿では,一対関係カメラのポーズを近似的に改善する軽量グラフニューラルネットワークPose Refiner Network(PoserNet)を提案する。 PoserNetは、複数のビューにまたがってオブジェクト性領域(正確には境界ボックスとして表現される)の関連を利用して、疎結合なビューグラフをグローバルに洗練する。 グラフのさまざまなサイズにわたる7-scenesデータセットを評価し,境界ボックスに基づいて得られた初期推定値に対して,回転の中央誤差を62度向上させる最適化に基づく運動平均化アルゴリズムに,このプロセスがいかに有用かを示す。 コードとデータはhttps://github.com/IIT-PAVIS/PoserNetで公開されている。

The estimation of the camera poses associated with a set of images commonly relies on feature matches between the images. In contrast, we are the first to address this challenge by using objectness regions to guide the pose estimation problem rather than explicit semantic object detections. We propose Pose Refiner Network (PoserNet) a light-weight Graph Neural Network to refine the approximate pair-wise relative camera poses. PoserNet exploits associations between the objectness regions - concisely expressed as bounding boxes - across multiple views to globally refine sparsely connected view graphs. We evaluate on the 7-Scenes dataset across varied sizes of graphs and show how this process can be beneficial to optimisation-based Motion Averaging algorithms improving the median error on the rotation by 62 degrees with respect to the initial estimates obtained based on bounding boxes. Code and data are available at https://github.com/IIT-PAVIS/PoserNet.
翻訳日:2022-07-20 14:06:51 公開日:2022-07-19
# 変形性注意流による単段仮想試行

Single Stage Virtual Try-on via Deformable Attention Flows ( http://arxiv.org/abs/2207.09161v1 )

ライセンス: Link先を確認
Shuai Bai, Huiling Zhou, Zhikang Li, Chang Zhou, Hongxia Yang(参考訳) 仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。 既存の手法は通常、衣類のワープとボディブレンディングを扱うための多段階のフレームワークを構築したり、ノイズや不正確なパーサーベースのラベルに大きく依存する。 以上の課題を解決するために,複数フロー推定に変形性注意スキームを適用した新しい変形性注意フロー(daflow)を開発し,単段トライオンフレームワークを提案する。 姿勢キーポイントのみを指導として、基準人物及び衣服画像に対して、自己変形性注意流及び横断変形性注意流を推定する。 複数の流れ場をサンプリングすることにより、異なる意味領域から特徴レベルと画素レベル情報を同時に抽出し、注目機構を介してマージする。 衣服の反りと身体の合成を同時に可能とし、エンドツーエンドでフォトリアリスティックな結果をもたらす。 2つの試行データセットに対する広範囲な実験により,提案手法は定性的かつ定量的に最先端の性能を達成することを示した。 さらに,他の2つの画像編集タスクに対する追加実験により,マルチビュー合成と画像アニメーションの汎用性が示された。

Virtual try-on aims to generate a photo-realistic fitting result given an in-shop garment and a reference person image. Existing methods usually build up multi-stage frameworks to deal with clothes warping and body blending respectively, or rely heavily on intermediate parser-based labels which may be noisy or even inaccurate. To solve the above challenges, we propose a single-stage try-on framework by developing a novel Deformable Attention Flow (DAFlow), which applies the deformable attention scheme to multi-flow estimation. With pose keypoints as the guidance only, the self- and cross-deformable attention flows are estimated for the reference person and the garment images, respectively. By sampling multiple flow fields, the feature-level and pixel-level information from different semantic areas are simultaneously extracted and merged through the attention mechanism. It enables clothes warping and body synthesizing at the same time which leads to photo-realistic results in an end-to-end manner. Extensive experiments on two try-on datasets demonstrate that our proposed method achieves state-of-the-art performance both qualitatively and quantitatively. Furthermore, additional experiments on the other two image editing tasks illustrate the versatility of our method for multi-view synthesis and image animation.
翻訳日:2022-07-20 14:03:51 公開日:2022-07-19
# 画像セマンティックセグメンテーションに基づくガウス混合モデルによる大域的・局所的特徴

Global and Local Features through Gaussian Mixture Models on Image Semantic Segmentation ( http://arxiv.org/abs/2207.09162v1 )

ライセンス: Link先を確認
Darwin Saire and Ad\'in Ram\'irez Rivera(参考訳) セマンティックセグメンテーションタスクは、ピクセル単位での高密度な分類を目指している。 ディープモデルは、このタスクに取り組む進歩を示した。 しかし、これらのアプローチの残りの問題は、しばしばセグメント化されたオブジェクトの境界で生成される空間精度の損失である。 提案モデルでは,前者をサポートするグローバル表現を抽出しながら特徴表現の内部構造を提供することにより,この問題に対処する。 内部構造を適合させるために,トレーニング中,スキップ接続と復号段とをマージしたデータからガウス混合モデルを予測し,誤帰納バイアスを回避する。 さらに,学習表現(グローバル表現とローカル表現)とクラスタリング動作を組み合わせることで,意味セグメンテーションを改善できることを示した。 最後に、CityscapesとSynthiaデータセットの進歩を示す結果を示す。

The semantic segmentation task aims at dense classification at the pixel-wise level. Deep models exhibited progress in tackling this task. However, one remaining problem with these approaches is the loss of spatial precision, often produced at the segmented objects' boundaries. Our proposed model addresses this problem by providing an internal structure for the feature representations while extracting a global representation that supports the former. To fit the internal structure, during training, we predict a Gaussian Mixture Model from the data, which, merged with the skip connections and the decoding stage, helps avoid wrong inductive biases. Furthermore, our results show that we can improve semantic segmentation by providing both learning representations (global and local) with a clustering behavior and combining them. Finally, we present results demonstrating our advances in Cityscapes and Synthia datasets.
翻訳日:2022-07-20 14:03:31 公開日:2022-07-19
# セルフスーパービジョンは、少しの学習者になれる

Self-Supervision Can Be a Good Few-Shot Learner ( http://arxiv.org/abs/2207.09176v1 )

ライセンス: Link先を確認
Yuning Lu, Liangjian Wen, Jianzhuang Liu, Yajing Liu, Xinmei Tian(参考訳) 既存の数ショット学習(FSL)メソッドは、大量のラベル付きデータセットによるトレーニングに依存しており、豊富なラベル付きデータを活用できない。 情報理論の観点から,自己監督型学習表現を用いた効果的な教師なしFSL法を提案する。 InfoMaxの原則に従って,本手法はデータの固有構造を捉えることによって包括的表現を学習する。 具体的には、インスタンスの相互情報(MI)とそれらの表現を低バイアスMI推定器で最大化し、自己教師付き事前学習を行う。 教師付き事前学習は, 授業の識別可能な特徴に焦点をあてるのではなく, 自己教師型モデルでは, 授業に対する偏見が低くなり, 未確認クラスの一般化性が向上する。 教師付き事前学習と自己監督型事前学習は、実際には異なるMI目標を最大化している。 さらに、FSLの性能を様々なトレーニング設定で解析する大規模な実験が行われた。 その結果, 自己指導型プレトレーニングは, 適切な条件下で指導型プレトレーニングよりも優れていた。 提案手法は最先端のFSL手法と比較して,ベースクラスのラベルなしで広く使用されているFSLベンチマークにおいて同等の性能を実現する。

Existing few-shot learning (FSL) methods rely on training with a large labeled dataset, which prevents them from leveraging abundant unlabeled data. From an information-theoretic perspective, we propose an effective unsupervised FSL method, learning representations with self-supervision. Following the InfoMax principle, our method learns comprehensive representations by capturing the intrinsic structure of the data. Specifically, we maximize the mutual information (MI) of instances and their representations with a low-bias MI estimator to perform self-supervised pre-training. Rather than supervised pre-training focusing on the discriminable features of the seen classes, our self-supervised model has less bias toward the seen classes, resulting in better generalization for unseen classes. We explain that supervised pre-training and self-supervised pre-training are actually maximizing different MI objectives. Extensive experiments are further conducted to analyze their FSL performance with various training settings. Surprisingly, the results show that self-supervised pre-training can outperform supervised pre-training under the appropriate conditions. Compared with state-of-the-art FSL methods, our approach achieves comparable performance on widely used FSL benchmarks without any labels of the base classes.
翻訳日:2022-07-20 14:03:17 公開日:2022-07-19
# 顔偽造検出のための異種コンテンツ情報の探索

Exploring Disentangled Content Information for Face Forgery Detection ( http://arxiv.org/abs/2207.09202v1 )

ライセンス: Link先を確認
Jiahao Liang, Huafeng Shi, and Weihong Deng(参考訳) 畳み込みニューラルネットワークに基づく顔偽造検出手法は、トレーニング中に顕著な結果を得たが、テスト中に同等のパフォーマンスを維持するのに苦労した。 我々は,検出器がアーチファクトトレースよりもコンテンツ情報に焦点を合わせやすいことを観察し,検出器がデータセットの固有バイアスに敏感であり,過度な過フィッティングにつながることを示唆する。 本研究の目的は,コンテンツ情報削除のための組込み型アンタングル化フレームワークを設計し,コンテンツ一貫性制約(C2C)とグローバル表現コントラスト制約(GRCC)を提案し,アンタングル化特徴の独立性を高めることである。 さらに,コンテンツバイアスの影響を調べるために,二つの不均衡データセットを巧みに構築する。 広範囲にわたる可視化と実験により,本フレームワークはコンテンツ情報の干渉を無視するだけでなく,不審な遺物跡を発掘し,競争性能を発揮できることを示した。

Convolutional neural network based face forgery detection methods have achieved remarkable results during training, but struggled to maintain comparable performance during testing. We observe that the detector is prone to focus more on content information than artifact traces, suggesting that the detector is sensitive to the intrinsic bias of the dataset, which leads to severe overfitting. Motivated by this key observation, we design an easily embeddable disentanglement framework for content information removal, and further propose a Content Consistency Constraint (C2C) and a Global Representation Contrastive Constraint (GRCC) to enhance the independence of disentangled features. Furthermore, we cleverly construct two unbalanced datasets to investigate the impact of the content bias. Extensive visualizations and experiments demonstrate that our framework can not only ignore the interference of content information, but also guide the detector to mine suspicious artifact traces and achieve competitive performance.
翻訳日:2022-07-20 14:02:57 公開日:2022-07-19
# 低温画像上でのKinD-LCE曲線の推定とレチネックス融合

KinD-LCE Curve Estimation And Retinex Fusion On Low-Light Image ( http://arxiv.org/abs/2207.09210v1 )

ライセンス: Link先を確認
Xiaochun Lei, Junlin Xie, Zetao Jiang, Weiliang Mai, Zhaoting Gong, Chang Lu, Linjun Lu, Ziqi Shan(参考訳) 低光画像ノイズと色収差の問題は、オブジェクト検出、セマンティックセグメンテーション、インスタンスセグメンテーションといったタスクにおいて難しい問題である。 本稿では,低輝度化のためのアルゴリズムを提案する。 kind-lceは、ネットワーク構造において光曲線推定モジュールを使用して、retinex分解画像の照明マップを強化し、画像輝度を向上させるとともに、復元された画像詳細を復元し、詳細損失を低減する照明マップと反射マップ融合モジュールを提案した。 最後に,ノイズ除去のための全変動損失関数を組み込んだ。 本手法では,gladnetデータセットをトレーニングセットとし,lolデータセットをテストセットとし,exdarkをダウンストリームタスクのデータセットとして検証する。 ベンチマークに関する広範な実験は、この手法の利点を示し、psnrが19.7216、ssimが0.08213である最先端の結果に近い。

The problems of low light image noise and chromatic aberration is a challenging problem for tasks such as object detection, semantic segmentation, instance segmentation, etc. In this paper, we propose the algorithm for low illumination enhancement. KinD-LCE uses the light curve estimation module in the network structure to enhance the illumination map in the Retinex decomposed image, which improves the image brightness; we proposed the illumination map and reflection map fusion module to restore the restored image details and reduce the detail loss. Finally, we included a total variation loss function to eliminate noise. Our method uses the GladNet dataset as the training set, and the LOL dataset as the test set and is validated using ExDark as the dataset for downstream tasks. Extensive Experiments on the benchmarks demonstrate the advantages of our method and are close to the state-of-the-art results, which achieve a PSNR of 19.7216 and SSIM of 0.8213 in terms of metrics.
翻訳日:2022-07-20 14:02:38 公開日:2022-07-19
# 学習をやめないで:CLIPモデルの継続的な学習を目指して

Don't Stop Learning: Towards Continual Learning for the CLIP Model ( http://arxiv.org/abs/2207.09248v1 )

ライセンス: Link先を確認
Yuxuan Ding, Lingqiao Liu, Chunna Tian, Jingyuan Yang, Haoxuan Ding(参考訳) Contrastive Language-Image Pre-Training(CLIP)モデルは、コンピュータビジョンコミュニティで注目を集める大規模な事前訓練モデルである。 巨大な画像テキストトレーニングセットから恩恵を受け、CLIPモデルはゼロショット学習と画像テキストマッチングの優れた能力を学んだ。 対象とする視覚概念におけるCLIPの認識性能を高めるために、追加のトレーニングデータに基づいてクラスを微調整することで、CLIPモデルをさらに更新することが望ましい場合が多い。 アップデートによって、CLIPのゼロショット学習や画像テキストマッチング能力、すなわち破滅的な忘れの問題が損なわれるだろうか? もしそうなら、既存の連続学習アルゴリズムは破滅的な忘れのリスクを軽減できるのだろうか? これらの疑問に答えるために,本研究では,CLIPモデルの継続的学習問題に関する体系的研究を行う。 我々は、微調整更新の影響を測定するための評価プロトコルを構築し、既存の継続学習手法を改良し、CLIPモデルの忘れる問題を緩和する様々な方法を模索する。 本研究は,CLIP継続学習問題の課題を明らかにし,さらなる研究の基盤となる。 さらに,CLIPモデルの忘れ問題を軽減するために,VR-LwF (Replayed Vocabulary) を用いた学習学習アルゴリズムを提案する。

The Contrastive Language-Image Pre-training (CLIP) Model is a recently proposed large-scale pre-train model which attracts increasing attention in the computer vision community. Benefiting from its gigantic image-text training set, the CLIP model has learned outstanding capabilities in zero-shot learning and image-text matching. To boost the recognition performance of CLIP on some target visual concepts, it is often desirable to further update the CLIP model by fine-tuning some classes-of-interest on extra training data. This operation, however, raises an important concern: will the update hurt the zero-shot learning or image-text matching capability of the CLIP, i.e., the catastrophic forgetting issue? If yes, could existing continual learning algorithms be adapted to alleviate the risk of catastrophic forgetting? To answer these questions, this work conducts a systemic study on the continual learning issue of the CLIP model. We construct evaluation protocols to measure the impact of fine-tuning updates and explore different ways to upgrade existing continual learning methods to mitigate the forgetting issue of the CLIP model. Our study reveals the particular challenges of CLIP continual learning problem and lays a foundation for further researches. Moreover, we propose a new algorithm, dubbed Learning without Forgetting via Replayed Vocabulary (VR-LwF), which shows exact effectiveness for alleviating the forgetting issue of the CLIP model.
翻訳日:2022-07-20 14:01:56 公開日:2022-07-19
# テンポラルパーシング変圧器を用いた行動品質評価

Action Quality Assessment with Temporal Parsing Transformer ( http://arxiv.org/abs/2207.09270v1 )

ライセンス: Link先を確認
Yang Bai, Desen Zhou, Songyang Zhang, Jian Wang, Errui Ding, Yu Guan, Yang Long, Jingdong Wang(参考訳) アクション品質評価(aqa)は、微妙な視覚的な違いのために、タスクの理解と解決にユニークな課題をもたらす。 既存の最先端の手法は通常、スコアの回帰やランク付けのための総合的なビデオ表現に依存している。 上記の制限を克服するために, 包括的特徴を時間的部分レベル表現に分解する時間的解析変換器を提案する。 具体的には、学習可能なクエリセットを使用して、特定のアクションに対するアトミックなテンポラリパターンを表現する。 この復号化プロセスでは,フレーム表現を一定数の時間順序部分表現に変換する。 品質スコアを得るためには,部分表現に基づく最先端のコントラスト回帰を採用する。 既存のaqaデータセットは時間的部分レベルのラベルやパーティションを提供していないので、デコーダの横断的注意応答に関する2つの新しい損失関数を提案する。 大規模な実験により,提案手法は3つの公開AQAベンチマークの先行研究よりもかなり優れていた。

Action Quality Assessment(AQA) is important for action understanding and resolving the task poses unique challenges due to subtle visual differences. Existing state-of-the-art methods typically rely on the holistic video representations for score regression or ranking, which limits the generalization to capture fine-grained intra-class variation. To overcome the above limitation, we propose a temporal parsing transformer to decompose the holistic feature into temporal part-level representations. Specifically, we utilize a set of learnable queries to represent the atomic temporal patterns for a specific action. Our decoding process converts the frame representations to a fixed number of temporally ordered part representations. To obtain the quality score, we adopt the state-of-the-art contrastive regression based on the part representations. Since existing AQA datasets do not provide temporal part-level labels or partitions, we propose two novel loss functions on the cross attention responses of the decoder: a ranking loss to ensure the learnable queries to satisfy the temporal order in cross attention and a sparsity loss to encourage the part representations to be more discriminative. Extensive experiments show that our proposed method outperforms prior work on three public AQA benchmarks by a considerable margin.
翻訳日:2022-07-20 14:01:35 公開日:2022-07-19
# 知識度を考慮したユニバーサルドメイン適応のためのサンプル間親和性の拡大

Exploiting Inter-Sample Affinity for Knowability-Aware Universal Domain Adaptation ( http://arxiv.org/abs/2207.09280v1 )

ライセンス: Link先を確認
Yifan Wang and Lin Zhang and Ran Song and Lin Ma and Wei Zhang(参考訳) ユニバーサルドメイン適応(Universal Domain adapt、UDA)は、ソースドメインからターゲットドメインへの共通クラスの知識をラベルセットに関する事前の知識なしで転送することを目的としており、ターゲットドメイン内の既知のものと未知のサンプルを区別する必要がある。 最近の手法では既知のクラス内のサンプル間親和性を高めたが、未知のサンプルと既知のクラスとの間のサンプル間親和性は無視された。 本稿では,このようなサンプル間の親和性を利用してUDAの性能を大幅に向上させることができることを明らかにする。 まず,各対象サンプルの可知性を,ソース領域の近傍サンプルを探索することによって推定する。 そこで,対象試料が不明か不明かを判断するために,推定知識量に適用する自動解法を提案する。 次に,従来の手法のように各既知のクラス内のサンプル間の親和性を高めることに加えて,未知のターゲットと既知のクラス間の親和性を低減するために,推定された可知性に基づいて新たな損失を設計する。 最後に,4つの公開データセットを用いた実験により,本手法が既存の最先端手法を大幅に上回ることを示した。

Universal domain adaptation (UDA) aims to transfer the knowledge of common classes from source domain to target domain without any prior knowledge on the label set, which requires to distinguish the unknown samples from the known ones in the target domain. Recent methods preferred to increase the inter-sample affinity within a known class, while they ignored the inter-sample affinity between the unknown samples and the known ones. This paper reveals that exploiting such inter-sample affinity can significantly improve the performance of UDA and proposes a knowability-aware UDA framework based on it. First, we estimate the knowability of each target sample by searching its neighboring samples in the source domain. Then, we propose an auto-thresholding scheme applied to the estimated knowability to determine whether a target sample is unknown or known. Next, in addition to increasing the inter-sample affinity within each known class like previous methods, we design new losses based on the estimated knowability to reduce the inter-sample affinity between the unknown target samples and the known ones. Finally, experiments on four public datasets demonstrate that our method significantly outperforms existing state-of-the-art methods.
翻訳日:2022-07-20 14:01:11 公開日:2022-07-19
# 深マンハッタンハフ変換によるパノラマ画像のキューブマップからの3次元部屋配置推定

3D Room Layout Estimation from a Cubemap of Panorama Image via Deep Manhattan Hough Transform ( http://arxiv.org/abs/2207.09291v1 )

ライセンス: Link先を確認
Yining Zhao, Chao Wen, Zhou Xue, Yue Gao(参考訳) 1枚のパノラマ画像から3次元の空間配置を推定する際、大域的なワイヤーフレームによって重要な幾何学的構造をコンパクトに記述することができる。 この観察に基づいて, 学習可能なハフ変換ブロックにおける長距離幾何パターンのモデル化により, 3次元空間の壁を推定する方法を提案する。 我々は、この特徴を立方体写像タイルからマンハッタン世界のハフ空間に変換し、その特徴を直接幾何学的出力にマッピングする。 畳み込み層は局所勾配のような線の特徴を学習するだけでなく、グローバル情報を利用して単純なネットワーク構造で閉塞壁を予測する。 以前のほとんどの作業とは異なり、予測は各キューブマップタイル上で個別に行われ、レイアウト推定を得るために組み立てられる。 実験の結果,近年の予測精度と性能において比較結果が得られた。 コードはhttps://github.com/starrah/dmh-netで入手できる。

Significant geometric structures can be compactly described by global wireframes in the estimation of 3D room layout from a single panoramic image. Based on this observation, we present an alternative approach to estimate the walls in 3D space by modeling long-range geometric patterns in a learnable Hough Transform block. We transform the image feature from a cubemap tile to the Hough space of a Manhattan world and directly map the feature to the geometric output. The convolutional layers not only learn the local gradient-like line features, but also utilize the global information to successfully predict occluded walls with a simple network structure. Unlike most previous work, the predictions are performed individually on each cubemap tile, and then assembled to get the layout estimation. Experimental results show that we achieve comparable results with recent state-of-the-art in prediction accuracy and performance. Code is available at https://github.com/Starrah/DMH-Net.
翻訳日:2022-07-20 14:00:50 公開日:2022-07-19
# 背景を未知とした少数ショットオープンセット認識

Few-shot Open-set Recognition Using Background as Unknowns ( http://arxiv.org/abs/2207.09059v1 )

ライセンス: Link先を確認
Nan Song, Chi Zhang, Guosheng Lin(参考訳) 少数ショットのオープンセット認識は、観察されたクラスの限られたトレーニングデータのみを与えられた、見た画像と新しい画像の両方を分類することを目的としている。 このタスクの課題は、事前定義されたクラスを少数のトレーニングデータで分類するために差別的な分類器を学ぶだけでなく、トレーニング時に決して現れない未確認クラスからの入力を拒否することである。 本稿では,2つの新しい側面から問題を解くことを提案する。 第一に、標準クローズセット分類においてなされるように、見るクラス間の決定境界を学習する代わりに、これらの領域にある画像が見えないクラスとして認識されるように、見えないクラスのための空間を予約する。 第2に,このような決定境界を効果的に学習するために,授業の背景となる特徴を活用することを提案する。 これらの背景領域は、クローズセット分類の決定に大きく寄与しないため、分類子学習のための疑似アンセエンクラスとして使用するのが自然である。 広範な実験により,提案手法は複数のベースラインを上回るだけでなく,tieredimagenet,miniimagenet,caltech-uscd birds-200-2011 (cub) の3つのベンチマークで最新の結果が得られた。

Few-shot open-set recognition aims to classify both seen and novel images given only limited training data of seen classes. The challenge of this task is that the model is required not only to learn a discriminative classifier to classify the pre-defined classes with few training data but also to reject inputs from unseen classes that never appear at training time. In this paper, we propose to solve the problem from two novel aspects. First, instead of learning the decision boundaries between seen classes, as is done in standard close-set classification, we reserve space for unseen classes, such that images located in these areas are recognized as the unseen classes. Second, to effectively learn such decision boundaries, we propose to utilize the background features from seen classes. As these background regions do not significantly contribute to the decision of close-set classification, it is natural to use them as the pseudo unseen classes for classifier learning. Our extensive experiments show that our proposed method not only outperforms multiple baselines but also sets new state-of-the-art results on three popular benchmarks, namely tieredImageNet, miniImageNet, and Caltech-USCD Birds-200-2011 (CUB).
翻訳日:2022-07-20 13:58:04 公開日:2022-07-19
# モーメント中央化に基づく畳み込みニューラルネットワークのためのグラディエントDescentOptimizers

Moment Centralization based Gradient Descent Optimizers for Convolutional Neural Networks ( http://arxiv.org/abs/2207.09066v1 )

ライセンス: Link先を確認
Sumanth Sadu, Shiv Ram Dubey, SR Sreeja(参考訳) 畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンアプリケーションに非常に魅力的な性能を示している。 CNNのトレーニングは一般に確率勾配降下(SGD)に基づく最適化手法を用いて行われる。 適応運動量に基づくSGD最適化器は最近のトレンドである。 しかし、既存のオプティマイザは1次モーメントにおいてゼロ平均を維持することができず、最適化に苦労する。 本稿では,CNNのためのモーメント集中型SGDオプティマイザを提案する。 具体的には、1次モーメントにゼロ平均制約を明示的に課す。 提案されたモーメント集中は本質的に汎用的であり、既存の適応運動量に基づくオプティマイザと統合することができる。 提案手法は,画像分類のためのベンチマークcifar10,cifar100,tinyimagenetデータセット上でadam,radam,adabeliefの3つの最先端最適化技術を用いてテストされた。 提案するモーメント集中化と統合することで,既存のオプティマイザの性能が向上する。 さらに,提案するモーメント集中化の結果は,既存の勾配集中化よりも良好である。 おもちゃの例を用いた解析分析により,提案手法がより短くスムーズな最適化軌道につながることが示された。 ソースコードは \url{https://github.com/sumanthsadhu/MC-optimizer} で公開されている。

Convolutional neural networks (CNNs) have shown very appealing performance for many computer vision applications. The training of CNNs is generally performed using stochastic gradient descent (SGD) based optimization techniques. The adaptive momentum-based SGD optimizers are the recent trends. However, the existing optimizers are not able to maintain a zero mean in the first-order moment and struggle with optimization. In this paper, we propose a moment centralization-based SGD optimizer for CNNs. Specifically, we impose the zero mean constraints on the first-order moment explicitly. The proposed moment centralization is generic in nature and can be integrated with any of the existing adaptive momentum-based optimizers. The proposed idea is tested with three state-of-the-art optimization techniques, including Adam, Radam, and Adabelief on benchmark CIFAR10, CIFAR100, and TinyImageNet datasets for image classification. The performance of the existing optimizers is generally improved when integrated with the proposed moment centralization. Further, The results of the proposed moment centralization are also better than the existing gradient centralization. The analytical analysis using the toy example shows that the proposed method leads to a shorter and smoother optimization trajectory. The source code is made publicly available at \url{https://github.com/sumanthsadhu/MC-optimizer}.
翻訳日:2022-07-20 13:57:40 公開日:2022-07-19
# 画像検索のための文脈無意識知識蒸留

Context Unaware Knowledge Distillation for Image Retrieval ( http://arxiv.org/abs/2207.09070v1 )

ライセンス: Link先を確認
Bytasandram Yaswanth Reddy, Shiv Ram Dubey, Rakesh Kumar Sanodiya, Ravi Ranjan Prasad Karn(参考訳) 既存のデータ依存ハッシュ法は、数百万のパラメータを持つ巨大なバックボーンネットワークを使用し、計算的に複雑である。 既存の知識蒸留法では、ディープ(教師)モデルのロジットやその他の特徴と、教師のネットワークをコンテキスト上の学生モデルと並行して微調整する必要があるコンパクト(学生)モデルの知識を使用する。 ターゲットコンテキストで教師を訓練するには、より多くの時間と計算資源が必要である。 本稿では,教師モデルの知識を標的の文脈で微調整することなく活用する,文脈を意識しない知識蒸留を提案する。 また,知識蒸留のための効率的な学生モデルアーキテクチャを提案する。 提案手法は2段階のプロセスに従う。 最初のステップは、教師モデルからの知識蒸留を意識せずに、学生モデルを事前学習することである。 2番目のステップは、画像検索の文脈で学生モデルを微調整することである。 提案手法の有効性を示すために,検索結果の比較を行った。 パラメータとノーです DCH(Deep cauchy hashing)やCSQ(Central similarity Quantization)など,さまざまな検索フレームワーク下での教師モデルによる学生モデルの運用について検討した。 実験の結果,提案手法が検索結果と効率のトレードオフをもたらすことを確認した。 この論文で使用されたコードは、 \url{https://github.com/satoru2001/CUKDFIR} で公開されている。

Existing data-dependent hashing methods use large backbone networks with millions of parameters and are computationally complex. Existing knowledge distillation methods use logits and other features of the deep (teacher) model and as knowledge for the compact (student) model, which requires the teacher's network to be fine-tuned on the context in parallel with the student model on the context. Training teacher on the target context requires more time and computational resources. In this paper, we propose context unaware knowledge distillation that uses the knowledge of the teacher model without fine-tuning it on the target context. We also propose a new efficient student model architecture for knowledge distillation. The proposed approach follows a two-step process. The first step involves pre-training the student model with the help of context unaware knowledge distillation from the teacher model. The second step involves fine-tuning the student model on the context of image retrieval. In order to show the efficacy of the proposed approach, we compare the retrieval results, no. of parameters and no. of operations of the student models with the teacher models under different retrieval frameworks, including deep cauchy hashing (DCH) and central similarity quantization (CSQ). The experimental results confirm that the proposed approach provides a promising trade-off between the retrieval results and efficiency. The code used in this paper is released publicly at \url{https://github.com/satoru2001/CUKDFIR}.
翻訳日:2022-07-20 13:57:21 公開日:2022-07-19
# 弱教師付き点雲分割のためのデュアル適応変換

Dual Adaptive Transformations for Weakly Supervised Point Cloud Segmentation ( http://arxiv.org/abs/2207.09084v1 )

ライセンス: Link先を確認
Zhonghua Wu and Yicheng Wu and Guosheng Lin and Jianfei Cai and Chen Qian(参考訳) 弱教師付きポイントクラウドセグメンテーション、すなわち3次元シーン全体においていくつかのラベル付きポイントしか持たないポイントクラウドを意味的にセグメンテーションすることは、モデルトレーニングのために大量の高密度アノテーションを収集する重い負担のために非常に望ましい。 しかし、制限されたアノテートデータがラベル伝搬のガイダンスを不十分にする可能性があるため、既存の手法では3dポイントクラウドを正確に分割することは難しいままである。 滑らか性に基づく手法は有望な進歩を遂げていると考えられるが,本稿では,様々な摂動の下での一貫性制約を適用し,ラベルのない3次元点を効果的に定式化することを提案する。 具体的には,弱教師付きポイントクラウドセグメンテーションのための新しいdat(\textbf{d}ual \textbf{a}daptive \textbf{t}ransformations)モデルを提案する。 我々は,大規模S3DISデータセットとScanNet-V2データセットの2つの人気バックボーンを用いたDATモデルの評価を行った。 大規模な実験により、我々のモデルはラベルのない3Dポイントを効果的に活用し、両方のデータセットで大きなパフォーマンス向上を達成でき、弱教師付きポイントクラウドセグメンテーションのための新しい最先端のパフォーマンスを設定できることが示された。

Weakly supervised point cloud segmentation, i.e. semantically segmenting a point cloud with only a few labeled points in the whole 3D scene, is highly desirable due to the heavy burden of collecting abundant dense annotations for the model training. However, existing methods remain challenging to accurately segment 3D point clouds since limited annotated data may lead to insufficient guidance for label propagation to unlabeled data. Considering the smoothness-based methods have achieved promising progress, in this paper, we advocate applying the consistency constraint under various perturbations to effectively regularize unlabeled 3D points. Specifically, we propose a novel DAT (\textbf{D}ual \textbf{A}daptive \textbf{T}ransformations) model for weakly supervised point cloud segmentation, where the dual adaptive transformations are performed via an adversarial strategy at both point-level and region-level, aiming at enforcing the local and structural smoothness constraints on 3D point clouds. We evaluate our proposed DAT model with two popular backbones on the large-scale S3DIS and ScanNet-V2 datasets. Extensive experiments demonstrate that our model can effectively leverage the unlabeled 3D points and achieve significant performance gains on both datasets, setting new state-of-the-art performance for weakly supervised point cloud segmentation.
翻訳日:2022-07-20 13:56:58 公開日:2022-07-19
# MHR-Net:2次元からの非剛体形状の多重補綴再構成

MHR-Net: Multiple-Hypothesis Reconstruction of Non-Rigid Shapes from 2D Views ( http://arxiv.org/abs/2207.09086v1 )

ライセンス: Link先を確認
Haitian Zeng, Xin Yu, Jiaxu Miao, Yi Yang(参考訳) NRSfM(Non-Rigid Shapes from Motion)を復元する新しい手法であるMHR-Netを提案する。 mhr-netは、2dビューのための合理的な再構築セットを見つけることを目的としている。 厳密でない形状の教師なし生成に対処するため,MHR-Netにおける新しい決定論的基底と確率的変形法を開発した。 非剛性形状をまず粗い形状基底と柔軟な形状変形の和として表現し、次に変形部の不確かさをモデル化して複数の仮説を生成する。 MHR-Netは、再射損失と最良の仮説に基づいて最適化されている。 さらに, 類似形状間の剛性回転を低減し, 性能をさらに向上させる, 新たなprocrustean residual lossの設計を行った。 実験により、MHR-NetはHuman3.6M、SURREAL、300-VWのデータセット上で最先端の復元精度を達成することが示された。

We propose MHR-Net, a novel method for recovering Non-Rigid Shapes from Motion (NRSfM). MHR-Net aims to find a set of reasonable reconstructions for a 2D view, and it also selects the most likely reconstruction from the set. To deal with the challenging unsupervised generation of non-rigid shapes, we develop a new Deterministic Basis and Stochastic Deformation scheme in MHR-Net. The non-rigid shape is first expressed as the sum of a coarse shape basis and a flexible shape deformation, then multiple hypotheses are generated with uncertainty modeling of the deformation part. MHR-Net is optimized with reprojection loss on the basis and the best hypothesis. Furthermore, we design a new Procrustean Residual Loss, which reduces the rigid rotations between similar shapes and further improves the performance. Experiments show that MHR-Net achieves state-of-the-art reconstruction accuracy on Human3.6M, SURREAL and 300-VW datasets.
翻訳日:2022-07-20 13:56:30 公開日:2022-07-19
# eCDT:同時特徴検出と追跡のためのイベントクラスタリング

eCDT: Event Clustering for Simultaneous Feature Detection and Tracking- ( http://arxiv.org/abs/2207.09108v1 )

ライセンス: Link先を確認
Sumin Hu, Yeeun Kim, Hyungtae Lim, Alex Junho Lee, Hyun Myung(参考訳) 他の標準的なカメラとは対照的に、イベントカメラは、非同期イベントのコレクションとして、世界を完全に異なる方法で解釈する。 イベントカメラのユニークなデータ出力にもかかわらず、多くのイベント特徴検出と追跡アルゴリズムはフレームベースのデータ表現に方向転換することで大きな進歩を示している。 本稿では,イベントクラスタリングに基づく検出・追跡(eCDT)と呼ばれる,特徴の検出と追跡を同時に行う新しいイベントデータフレンドリーな手法を提案する。 提案手法は,k-nn分類器に基づく空間クラスタリングと,隣接する極性イベントをクラスタ化してイベント軌跡を検索するアプリケーション(kcscan)を用いた新しいクラスタリング手法である。ヘッドとテールディスクリプタマッチングプロセスにより,異なる極性に再出現するイベントクラスタを継続的に追跡し,特徴トラックを延長する。 時空間におけるクラスタリングアプローチにより,特徴検出と特徴追跡を同時に行う。 また、eCDTは、元のイベントデータの高時間分解能を損なわない調整可能な時間窓で、任意の周波数で特徴トラックを抽出することができる。 提案手法は, 最先端手法と比較して30%の精度で特徴追跡が可能であり, 誤差もほぼ同じである。

Contrary to other standard cameras, event cameras interpret the world in an entirely different manner; as a collection of asynchronous events. Despite event camera's unique data output, many event feature detection and tracking algorithms have shown significant progress by making detours to frame-based data representations. This paper questions the need to do so and proposes a novel event data-friendly method that achieve simultaneous feature detection and tracking, called event Clustering-based Detection and Tracking (eCDT). Our method employs a novel clustering method, named as k-NN Classifier-based Spatial Clustering and Applications with Noise (KCSCAN), to cluster adjacent polarity events to retrieve event trajectories.With the aid of a Head and Tail Descriptor Matching process, event clusters that reappear in a different polarity are continually tracked, elongating the feature tracks. Thanks to our clustering approach in spatio-temporal space, our method automatically solves feature detection and feature tracking simultaneously. Also, eCDT can extract feature tracks at any frequency with an adjustable time window, which does not corrupt the high temporal resolution of the original event data. Our method achieves 30% better feature tracking ages compared with the state-of-the-art approach while also having a low error approximately equal to it.
翻訳日:2022-07-20 13:56:15 公開日:2022-07-19
# Expert-LaSTS: エキスパート知識による交通シナリオの遅延スペース

Expert-LaSTS: Expert-Knowledge Guided Latent Space for Traffic Scenarios ( http://arxiv.org/abs/2207.09120v1 )

ライセンス: Link先を確認
Jonas Wurst, Lakshman Balasubramanian, Michael Botsch and Wolfgang Utschick(参考訳) 自動運転車のシナリオベーステストには,交通シナリオのクラスタ化と新たなシナリオタイプの検出が必要である。 これらのタスクは、トラフィックシナリオのよい類似度測定または良い表現の恩恵を受けます。 本稿では,トラフィックシナリオの表現学習を支援するエキスパート知識を提案する。 このような潜在空間は、クラスタリングの成功と新しいシナリオタイプ検出に使用される。 expert-knowledgeは、トラフィックシナリオの潜在表現が満たす目標を定義するために使用される。 ネットワークアーキテクチャと損失がこれらの目的からどのように設計され、専門家知識が組み込まれているかを示す。 手動ラベリングを必要としない交通シナリオの自動マイニング戦略が提案されている。 その結果,ベースライン法と比較して性能上の優位性を示した。 また,潜在空間の広範囲な解析を行う。

Clustering traffic scenarios and detecting novel scenario types are required for scenario-based testing of autonomous vehicles. These tasks benefit from either good similarity measures or good representations for the traffic scenarios. In this work, an expert-knowledge aided representation learning for traffic scenarios is presented. The latent space so formed is used for successful clustering and novel scenario type detection. Expert-knowledge is used to define objectives that the latent representations of traffic scenarios shall fulfill. It is presented, how the network architecture and loss is designed from these objectives, thereby incorporating expert-knowledge. An automatic mining strategy for traffic scenarios is presented, such that no manual labeling is required. Results show the performance advantage compared to baseline methods. Additionally, extensive analysis of the latent space is performed.
翻訳日:2022-07-20 13:55:53 公開日:2022-07-19
# 意味的ギャップを縮小する:コピーモブ偽造検出のための局所モーメント不変量の空間プール

Shrinking the Semantic Gap: Spatial Pooling of Local Moment Invariants for Copy-Move Forgery Detection ( http://arxiv.org/abs/2207.09135v1 )

ライセンス: Link先を確認
Chao Wang, Zhiqiu Huang, Shuren Qi, Yaoshen Yu, Guohua Shen(参考訳) Copy-move forgeryは、特定のパッチをコピーして画像に貼り付ける操作で、潜在的に違法または非倫理的使用がある。 近年,コピーモーブ偽造の法医学的手法が進歩し,検出精度とロバスト性が向上している。 しかし、高い自己相似性や強い信号破壊を持つ画像では、既存のアルゴリズムはしばしば非効率なプロセスと信頼性の低い結果を示す。 これは主に、低レベルの視覚表現と高レベルの意味概念の間に固有の意味的ギャップがあるためである。 本稿では,中間画像表現のための局所モーメント不変量の空間プーリングを用いて,コピー・モーブ・フォージェリ検出における意味ギャップ問題の緩和を図る。 この検出手法は, 従来の2つの側面により拡張される。 1) この分野に初めて視覚の袋モデルを導入することは,法医学研究の新しい視点を意味するかもしれない。 2)デジタル画像の空間構造と視覚的サリエンシ情報を網羅した,単語間特徴記述とマッチングパイプラインを提案する。 大規模な実験結果から, セマンティックギャップに起因する問題を克服する上で, 最先端のアルゴリズムよりも優れた性能を示した。

Copy-move forgery is a manipulation of copying and pasting specific patches from and to an image, with potentially illegal or unethical uses. Recent advances in the forensic methods for copy-move forgery have shown increasing success in detection accuracy and robustness. However, for images with high self-similarity or strong signal corruption, the existing algorithms often exhibit inefficient processes and unreliable results. This is mainly due to the inherent semantic gap between low-level visual representation and high-level semantic concept. In this paper, we present a very first study of trying to mitigate the semantic gap problem in copy-move forgery detection, with spatial pooling of local moment invariants for midlevel image representation. Our detection method expands the traditional works on two aspects: 1) we introduce the bag-of-visual-words model into this field for the first time, may meaning a new perspective of forensic study; 2) we propose a word-to-phrase feature description and matching pipeline, covering the spatial structure and visual saliency information of digital images. Extensive experimental results show the superior performance of our framework over state-of-the-art algorithms in overcoming the related problems caused by the semantic gap.
翻訳日:2022-07-20 13:55:43 公開日:2022-07-19
# 3次元シーンフローネットワークの課題

What Matters for 3D Scene Flow Network ( http://arxiv.org/abs/2207.09143v1 )

ライセンス: Link先を確認
Guangming Wang, Yunzhe Hu, Zhe Liu, Yiyang Zhou, Masayoshi Tomizuka, Wei Zhan, and Hesheng Wang(参考訳) 点雲からの3次元シーンフロー推定はコンピュータビジョンにおける低レベルな3次元モーション知覚タスクである。 フロー埋め込みはシーンフロー推定において一般的に用いられる手法であり、2つの連続するフレーム間の点運動を符号化する。 したがって、流れの埋め込みは運動の全体方向を正確に捉えることが重要である。 しかし、以前の研究はソフト対応を決定するために局所的にのみ探索し、実際の一致点となる遠点を無視した。 さらに、推定された対応は、通常、隣接する点雲の前方方向からのものであり、後方方向から得られた推定対応とは一致しない。 これらの問題に対処するために,初期シーンフロー推定時に後方方向の信頼性を検証できる新しい全対全フロー埋め込み層を提案する。 さらに,点類似度計算,予測器の入力要素,予測器と改良器のレベル設計など,3次元シーンフローネットワークの主要コンポーネントにおける設計選択について検討・比較する。 最も効果的なデザインを慎重に選択した後、FlyingThings3DとKITTI Scene Flowデータセットで最先端のパフォーマンスを実現するモデルを提示します。 提案したモデルは,FlyingThings3Dデータセットで少なくとも38.2%,KITTI Scene Flowデータセットで24.7%,EPE3Dメトリックで,既存のすべてのメソッドを上回ります。 コードはhttps://github.com/irmvlab/3dflowでリリースします。

3D scene flow estimation from point clouds is a low-level 3D motion perception task in computer vision. Flow embedding is a commonly used technique in scene flow estimation, and it encodes the point motion between two consecutive frames. Thus, it is critical for the flow embeddings to capture the correct overall direction of the motion. However, previous works only search locally to determine a soft correspondence, ignoring the distant points that turn out to be the actual matching ones. In addition, the estimated correspondence is usually from the forward direction of the adjacent point clouds, and may not be consistent with the estimated correspondence acquired from the backward direction. To tackle these problems, we propose a novel all-to-all flow embedding layer with backward reliability validation during the initial scene flow estimation. Besides, we investigate and compare several design choices in key components of the 3D scene flow network, including the point similarity calculation, input elements of predictor, and predictor & refinement level design. After carefully choosing the most effective designs, we are able to present a model that achieves the state-of-the-art performance on FlyingThings3D and KITTI Scene Flow datasets. Our proposed model surpasses all existing methods by at least 38.2% on FlyingThings3D dataset and 24.7% on KITTI Scene Flow dataset for EPE3D metric. We release our codes at https://github.com/IRMVLab/3DFlow.
翻訳日:2022-07-20 13:55:19 公開日:2022-07-19
# 自己監督型クロスモーダル超解法のための相互変調学習

Learning Mutual Modulation for Self-Supervised Cross-Modal Super-Resolution ( http://arxiv.org/abs/2207.09156v1 )

ライセンス: Link先を確認
Xiaoyu Dong, Naoto Yokoya, Longguang Wang, Tatsumi Uezato(参考訳) 自己教師付きクロスモーダル・スーパーレゾリューション(sr)はペアトレーニングデータの取得の難しさを克服できるが、低解像度(lr)ソースと高解像度(hr)ガイド画像のみが異なるモダリティを持つため、難しい。 既存の手法では、LR空間における擬似的あるいは弱い監督を利用して、ソースのモダリティに不忠実であるか、曖昧な結果をもたらす。 この問題に対処するために、ソース・ツー・ガイドの変調とガイド・ツー・ソースの変調を含む相互変調戦略によりタスクに取り組む相互変調SR(MMSR)モデルを提案する。 これらの変調では、クロスモーダル空間依存性を十分に活用し、ガイドの解像度をエミュレートするソースを誘導し、ガイドにソースのモダリティ特性を模倣させるクロスドメイン適応フィルタを開発する。 さらに,MMSRを完全自己教師型で訓練するために,サイクル整合性制約を採用する。 各種タスクの実験により,MMSRの最先端性能が示された。

Self-supervised cross-modal super-resolution (SR) can overcome the difficulty of acquiring paired training data, but is challenging because only low-resolution (LR) source and high-resolution (HR) guide images from different modalities are available. Existing methods utilize pseudo or weak supervision in LR space and thus deliver results that are blurry or not faithful to the source modality. To address this issue, we present a mutual modulation SR (MMSR) model, which tackles the task by a mutual modulation strategy, including a source-to-guide modulation and a guide-to-source modulation. In these modulations, we develop cross-domain adaptive filters to fully exploit cross-modal spatial dependency and help induce the source to emulate the resolution of the guide and induce the guide to mimic the modality characteristics of the source. Moreover, we adopt a cycle consistency constraint to train MMSR in a fully self-supervised manner. Experiments on various tasks demonstrate the state-of-the-art performance of our MMSR.
翻訳日:2022-07-20 13:54:56 公開日:2022-07-19
# 行動からの構造: 人工物体3次元構造発見のための相互作用の学習

Structure from Action: Learning Interactions for Articulated Object 3D Structure Discovery ( http://arxiv.org/abs/2207.08997v1 )

ライセンス: Link先を確認
Neil Nie, Samir Yitzhak Gadre, Kiana Ehsani, Shuran Song(参考訳) 人工物は日常生活に豊富である。 パーツや関節、キネマティクスの発見は、ロボットがこれらの物体と対話するためには不可欠だ。 提案手法は, 推定された相互作用の列を通して, 物体の3次元部分形状と関節パラメータを検出するフレームワークである structure from action (sfa) を導入する。 我々の重要な洞察は、3次元の相互作用と知覚を協調して3次元のCADモデルを構築することであり、特に訓練中に見えないカテゴリの場合である。 情報的相互作用を選択することで、SfAは部品を発見し、閉じた引き出しの内側のように、最初に閉塞された表面を明らかにする。 3Dで視覚的観察を集約することにより、SfAは複数の部分を正確に分割し、部分形状を再構成し、標準座標フレーム内の全ての関節パラメータを推測する。 シミュレーションで訓練された単一のsfaモデルが未知のキネマティック構造を持つ多数の未知のオブジェクトカテゴリと実世界のオブジェクトに一般化できることを実験により証明した。 コードとデータは公開される予定だ。

Articulated objects are abundant in daily life. Discovering their parts, joints, and kinematics is crucial for robots to interact with these objects. We introduce Structure from Action (SfA), a framework that discovers the 3D part geometry and joint parameters of unseen articulated objects via a sequence of inferred interactions. Our key insight is that 3D interaction and perception should be considered in conjunction to construct 3D articulated CAD models, especially in the case of categories not seen during training. By selecting informative interactions, SfA discovers parts and reveals initially occluded surfaces, like the inside of a closed drawer. By aggregating visual observations in 3D, SfA accurately segments multiple parts, reconstructs part geometry, and infers all joint parameters in a canonical coordinate frame. Our experiments demonstrate that a single SfA model trained in simulation can generalize to many unseen object categories with unknown kinematic structures and to real-world objects. Code and data will be publicly available.
翻訳日:2022-07-20 13:50:56 公開日:2022-07-19
# SS-MFAR : 半教師付きマルチタスク顔認識

SS-MFAR : Semi-supervised Multi-task Facial Affect Recognition ( http://arxiv.org/abs/2207.09012v1 )

ライセンス: Link先を確認
Darshan Gera, Badveeti Naveen Siva Kumar, Bobbili Veerendra Raj Kumar, S Balasubramanian(参考訳) 自動的感情認識は、教育、ゲーム、ソフトウェア開発、自動車、医療など、多くの分野で応用されているが、野生のデータセットで満足のいくパフォーマンスを達成することは自明な作業ではない。 in-the-wildデータセットは、合成データセットよりも現実のシナリオを表現するが、以前のデータセットは不完全ラベルの問題に悩まされる。 本稿では,第4回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションにおけるマルチタスク学習課題について紹介する。 この課題で考慮されている3つのタスクは、valence-arousal(VA)推定、表現の6つの基本(不安、嫌悪感、恐怖、幸福、悲しみ、驚き)、中立、および12のアクションユニット(AU)とAU-\{1,2,4,6,7,10,12,15,23,24,25,26\}である。 本手法では,タスク毎のタスク固有分類器と,各表現クラスに対する適応しきい値と,不完全ラベルに対する半教師付き学習を併用した,深層残差ネットワークを用いた。 ソースコードはhttps://github.com/1980x/ABAW2022DMACSで入手できる。

Automatic affect recognition has applications in many areas such as education, gaming, software development, automotives, medical care, etc. but it is non trivial task to achieve appreciable performance on in-the-wild data sets. In-the-wild data sets though represent real-world scenarios better than synthetic data sets, the former ones suffer from the problem of incomplete labels. Inspired by semi-supervised learning, in this paper, we introduce our submission to the Multi-Task-Learning Challenge at the 4th Affective Behavior Analysis in-the-wild (ABAW) 2022 Competition. The three tasks that are considered in this challenge are valence-arousal(VA) estimation, classification of expressions into 6 basic (anger, disgust, fear, happiness, sadness, surprise), neutral, and the 'other' category and 12 action units(AU) numbered AU-\{1,2,4,6,7,10,12,15,23,24,25,26\}. Our method Semi-supervised Multi-task Facial Affect Recognition titled \textbf{SS-MFAR} uses a deep residual network with task specific classifiers for each of the tasks along with adaptive thresholds for each expression class and semi-supervised learning for the incomplete labels. Source code is available at https://github.com/1980x/ABAW2022DMACS.
翻訳日:2022-07-20 13:50:24 公開日:2022-07-19
# ml-bpm: セマンティクスセグメンテーションにおけるオープン複合ドメイン適応のための双方向測光混合によるマルチティーシェラー学習

ML-BPM: Multi-teacher Learning with Bidirectional Photometric Mixing for Open Compound Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2207.09045v1 )

ライセンス: Link先を確認
Fei Pan, Sungsu Hur, Seokju Lee, Junsik Kim, In So Kweon(参考訳) オープン化合物ドメイン適応(OCDA)は、ターゲットドメインを複数の未知の同種サブドメインの複合体とみなしている。 OCDAの目標は、ラベル付けされたソースドメインとラベル付けされていない複合ターゲットドメインの間のドメインギャップを最小限に抑えることである。 セマンティックセグメンテーションのための現在のOCDAは、手動のドメイン分離を採用し、すべてのターゲットサブドメインに同時に適応するために単一のモデルを採用している。 しかし、ターゲットサブドメインへの適応は、モデルが他の異なるターゲットサブドメインへの適応を妨げる可能性があるため、パフォーマンスが制限される。 そこで本研究では,双方向測光混合を用いたマルチティーチャーフレームワークを導入し,各サブドメインに個別に適応する。 まず、最適なサブドメイン数を求めるために、自動ドメイン分離を提案する。 そこで,本稿では,各教師モデルが双方向光メトリック混合を用いて1つの対象サブドメインに適応するマルチティーチャーフレームワークを提案する。 さらに, 適応蒸留を行い, 学生モデルを学習し, 整合性正規化を適用し, 生徒の一般化を改善する。 ベンチマークデータセットによる実験結果から,既存の最先端アプローチに対する複合ドメインとオープンドメインの両方に対する提案手法の有効性が示された。

Open compound domain adaptation (OCDA) considers the target domain as the compound of multiple unknown homogeneous subdomains. The goal of OCDA is to minimize the domain gap between the labeled source domain and the unlabeled compound target domain, which benefits the model generalization to the unseen domains. Current OCDA for semantic segmentation methods adopt manual domain separation and employ a single model to simultaneously adapt to all the target subdomains. However, adapting to a target subdomain might hinder the model from adapting to other dissimilar target subdomains, which leads to limited performance. In this work, we introduce a multi-teacher framework with bidirectional photometric mixing to separately adapt to every target subdomain. First, we present an automatic domain separation to find the optimal number of subdomains. On this basis, we propose a multi-teacher framework in which each teacher model uses bidirectional photometric mixing to adapt to one target subdomain. Furthermore, we conduct an adaptive distillation to learn a student model and apply consistency regularization to improve the student generalization. Experimental results on benchmark datasets show the efficacy of the proposed approach for both the compound domain and the open domains against existing state-of-the-art approaches.
翻訳日:2022-07-20 13:49:55 公開日:2022-07-19
# 人物再同定のための動的プロトタイプマスク

Dynamic Prototype Mask for Occluded Person Re-Identification ( http://arxiv.org/abs/2207.09046v1 )

ライセンス: Link先を確認
Lei Tan, Pingyang Dai, Rongrong Ji, Yongjian Wu(参考訳) 近年、人物の再識別は目覚ましい改善を遂げているが、異なる障害によって引き起こされる共通の閉塞ケースは、実際のアプリケーションシナリオにおいてまだ未解決の問題である。 既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを用いてこの問題に対処している。 それにもかかわらず、アシスタントモデルとReIDデータセットの間の避けられない領域ギャップは、効果的で効率的なモデルを得るのが困難になっている。 予備学習ネットワークから脱出し、エンドツーエンドトレーニング可能なネットワークで自動アライメントを実現するために、2つの自明な事前知識に基づく新しい動的プロトタイプマスク(dpm)を提案する。 具体的には、階層型マスク生成器を考案し、階層型セマンティクスを用いて、高品質な総合プロトタイプと隠蔽された入力画像の特徴表現との間の可視パターン空間を選択する。 この条件下では、occluded表現は選択された部分空間内で自然に整列することができる。 次に,高品質な全体的プロトタイプの特徴表現を豊かにするとともに,より完全な機能空間を提供するため,画像全体に異なるパターン表現を集約するために,ヘッドエンリッチモジュールを導入する。 包括的および包括的人物再同定ベンチマークによる広範囲な実験的評価は、最先端の手法よりもDPMの優れた性能を示す。 コードはhttps://github.com/stone96123/dpmでリリースされる。

Although person re-identification has achieved an impressive improvement in recent years, the common occlusion case caused by different obstacles is still an unsettled issue in real application scenarios. Existing methods mainly address this issue by employing body clues provided by an extra network to distinguish the visible part. Nevertheless, the inevitable domain gap between the assistant model and the ReID datasets has highly increased the difficulty to obtain an effective and efficient model. To escape from the extra pre-trained networks and achieve an automatic alignment in an end-to-end trainable network, we propose a novel Dynamic Prototype Mask (DPM) based on two self-evident prior knowledge. Specifically, we first devise a Hierarchical Mask Generator which utilizes the hierarchical semantic to select the visible pattern space between the high-quality holistic prototype and the feature representation of the occluded input image. Under this condition, the occluded representation could be well aligned in a selected subspace spontaneously. Then, to enrich the feature representation of the high-quality holistic prototype and provide a more complete feature space, we introduce a Head Enrich Module to encourage different heads to aggregate different patterns representation in the whole image. Extensive experimental evaluations conducted on occluded and holistic person re-identification benchmarks demonstrate the superior performance of the DPM over the state-of-the-art methods. The code is released at https://github.com/stone96123/DPM.
翻訳日:2022-07-20 13:49:35 公開日:2022-07-19
# TTVFI:ビデオフレーム補間のための軌道認識変換器

TTVFI: Learning Trajectory-Aware Transformer for Video Frame Interpolation ( http://arxiv.org/abs/2207.09048v1 )

ライセンス: Link先を確認
Chengxu Liu, Huan Yang, Jianlong Fu, Xueming Qian(参考訳) ビデオフレーム補間(VFI)は、2つの連続するフレーム間の中間フレームを合成することを目的としている。 最先端のアプローチは通常2段階のソリューションを採用する。 1)フローベースモーション推定による局所ワープ画素の生成 2) 歪んだピクセルをブレンドして深層神経合成ネットワークを通してフルフレームを形成する。 しかし、連続する2つのフレームからの反りが一貫性に欠けるため、新しいフレームの反りのある特徴は通常整列せず、特に大きく複雑な動きが発生すると、ゆがみやぼやけたフレームとなる。 本稿では,ビデオフレーム補間用トラジェクトリ対応トランスフォーマ(TTVFI)を提案する。 特に,不整合な動きをクエリトークンとして定式化し,元の2つの連続したフレームからキーと値への運動軌跡の関連領域を定式化する。 自己注意は軌道に沿った関連するトークンから学習され、エンドツーエンドのトレーニングを通じて原始的特徴を中間フレームにブレンドする。 実験結果から,本手法は4つのvfiベンチマークにおいて,最先端手法よりも優れていることがわかった。 コードと事前トレーニングされたモデルの両方が間もなくリリースされる。

Video frame interpolation (VFI) aims to synthesize an intermediate frame between two consecutive frames. State-of-the-art approaches usually adopt a two-step solution, which includes 1) generating locally-warped pixels by flow-based motion estimations, 2) blending the warped pixels to form a full frame through deep neural synthesis networks. However, due to the inconsistent warping from the two consecutive frames, the warped features for new frames are usually not aligned, which leads to distorted and blurred frames, especially when large and complex motions occur. To solve this issue, in this paper we propose a novel Trajectory-aware Transformer for Video Frame Interpolation (TTVFI). In particular, we formulate the warped features with inconsistent motions as query tokens, and formulate relevant regions in a motion trajectory from two original consecutive frames into keys and values. Self-attention is learned on relevant tokens along the trajectory to blend the pristine features into intermediate frames through end-to-end training. Experimental results demonstrate that our method outperforms other state-of-the-art methods in four widely-used VFI benchmarks. Both code and pre-trained models will be released soon.
翻訳日:2022-07-20 13:49:13 公開日:2022-07-19
# レベルセット進化を伴うbox-supervised instance segmentation

Box-supervised Instance Segmentation with Level Set Evolution ( http://arxiv.org/abs/2207.09055v1 )

ライセンス: Link先を確認
Wentong Li, Wenyu Liu, Jianke Zhu, Miaomiao Cui, Xiansheng Hua, Lei Zhang(参考訳) ピクセルワイズマスクラベルを用いた完全教師付き手法とは対照的に、ボックス教師付きインスタンスセグメンテーションは、最近多くの研究が注目されている単純なボックスアノテーションを活用する。 本稿では,従来のレベルセットモデルと深層ニューラルネットワークを微妙に統合した,シングルショットボックス制御型インスタンスセグメンテーション手法を提案する。 特に,提案手法では,連続したチャン・ヴェーゼエネルギーに基づく関数をエンドツーエンドで連続的に学習する。 単純なマスク管理SOLOv2モデルを用いて、各インスタンスのレベルセットとして、インスタンス認識マスクマップを予測する。 入力画像とその深い特徴を入力データとして使用してレベルセット曲線を進化させ、ボックス投影関数を用いて初期境界を求める。 完全微分可能エネルギー関数を最小化することにより、各インスタンスのレベルセットは対応する境界ボックスアノテーション内で反復的に最適化される。 4つの難解なベンチマークの実験結果から,提案手法の様々なシナリオにおけるロバストなインスタンスセグメンテーション性能を示す。 コードはhttps://github.com/liwentomng/boxlevelsetで入手できる。

In contrast to the fully supervised methods using pixel-wise mask labels, box-supervised instance segmentation takes advantage of the simple box annotations, which has recently attracted a lot of research attentions. In this paper, we propose a novel single-shot box-supervised instance segmentation approach, which integrates the classical level set model with deep neural network delicately. Specifically, our proposed method iteratively learns a series of level sets through a continuous Chan-Vese energy-based function in an end-to-end fashion. A simple mask supervised SOLOv2 model is adapted to predict the instance-aware mask map as the level set for each instance. Both the input image and its deep features are employed as the input data to evolve the level set curves, where a box projection function is employed to obtain the initial boundary. By minimizing the fully differentiable energy function, the level set for each instance is iteratively optimized within its corresponding bounding box annotation. The experimental results on four challenging benchmarks demonstrate the leading performance of our proposed approach to robust instance segmentation in various scenarios. The code is available at: https://github.com/LiWentomng/boxlevelset.
翻訳日:2022-07-20 13:48:54 公開日:2022-07-19
# ウルドゥー語とテキストに基づく感性分析装置

Urdu Speech and Text Based Sentiment Analyzer ( http://arxiv.org/abs/2207.09163v1 )

ライセンス: Link先を確認
Waqar Ahmad, Maryam Edalati(参考訳) 他の人が何を考えているかを発見することは、常に情報収集戦略の重要な側面でした。 オンラインレビューサイトや個人ブログなど,意見に富んだリソースの普及と普及により,情報技術を活用して,他人のアイデアを探求し,理解することが可能になる。 人々の意見を理解する上で重要な機能であるため、感情分析(SA)は重要な課題である。 一方、既存の研究は主に英語に焦点を合わせており、少なからぬ量の研究が低リソース言語に向けられている。 感情分析では,ユーザ評価に基づく新しいマルチクラスUrduデータセットを提案する。 tweeterのウェブサイトはurduデータセットを取得するのに使われた。 提案するデータセットには、人間の専門家によって慎重に2つのカテゴリに分類された1万のレビューが含まれています。 本研究の目的は,urdu感情分析のための手作業による注釈付きデータセットの構築とベースライン結果の確立である。 Naivebayes、Stanza、Textblob、Vader、Frairを含む5種類のレキシコンおよびルールベースのアルゴリズムが採用され、実験の結果、Flairが70%の精度で他のテストアルゴリズムより優れていることが示された。

Discovering what other people think has always been a key aspect of our information-gathering strategy. People can now actively utilize information technology to seek out and comprehend the ideas of others, thanks to the increased availability and popularity of opinion-rich resources such as online review sites and personal blogs. Because of its crucial function in understanding people's opinions, sentiment analysis (SA) is a crucial task. Existing research, on the other hand, is primarily focused on the English language, with just a small amount of study devoted to low-resource languages. For sentiment analysis, this work presented a new multi-class Urdu dataset based on user evaluations. The tweeter website was used to get Urdu dataset. Our proposed dataset includes 10,000 reviews that have been carefully classified into two categories by human experts: positive, negative. The primary purpose of this research is to construct a manually annotated dataset for Urdu sentiment analysis and to establish the baseline result. Five different lexicon- and rule-based algorithms including Naivebayes, Stanza, Textblob, Vader, and Flair are employed and the experimental results show that Flair with an accuracy of 70% outperforms other tested algorithms.
翻訳日:2022-07-20 13:46:42 公開日:2022-07-19
# 無線センサネットワークにおけるコストと信頼性のトレードオフのバランス:多目的最適化配置法

Balancing the trade-off between cost and reliability for wireless sensor networks: a multi-objective optimized deployment method ( http://arxiv.org/abs/2207.09089v1 )

ライセンス: Link先を確認
Long Chen, Yingying Xu, Fangyi Xu, Qian Hu, Zhenzhou Tang(参考訳) センサノード(SN)の展開は無線センサネットワーク(WSN)のシステム性能において常に決定的な役割を果たす。 本研究では, 信頼性と配置コストのトレードオフを深く把握した, 実用的異種wsnの最適配置手法を提案する。 具体的には、SNの最適なデプロイを提供することで、カバレッジの度合いと接続の度合いを最大化し、デプロイメント全体のコストを最小化する。 さらに、この研究はsnsの多様性(感知範囲と展開コストの違い)と3次元の3次元配置シナリオを完全に考慮している。 これは多目的最適化問題であり、非凸、マルチモーダル、NPハードである。 そこで本研究では, 競合型多目的海洋捕食者アルゴリズム (CMOMPA) と呼ばれる, 新たなスワムベース多目的最適化アルゴリズムを開発し, その性能を10種類の最先端多目的最適化アルゴリズムとの総合的な比較実験により検証した。 計算結果から,CMOMPAは収束度や精度において他よりも優れており,マルチモーダル多目的最適化問題において優れた性能を示した。 また,CMOMPAに基づく最適なSNs配置法の有効性を評価するために,十分なシミュレーションを行った。 その結果、最適化されたデプロイメントは、デプロイメントコスト間のトレードオフ、信頼性、ネットワーク信頼性のバランスをとることができる。 ソースコードはhttps://github.com/iNet-WZU/CMOMPAで入手できる。

The deployment of the sensor nodes (SNs) always plays a decisive role in the system performance of wireless sensor networks (WSNs). In this work, we propose an optimal deployment method for practical heterogeneous WSNs which gives a deep insight into the trade-off between the reliability and deployment cost. Specifically, this work aims to provide the optimal deployment of SNs to maximize the coverage degree and connection degree, and meanwhile minimize the overall deployment cost. In addition, this work fully considers the heterogeneity of SNs (i.e. differentiated sensing range and deployment cost) and three-dimensional (3-D) deployment scenarios. This is a multi-objective optimization problem, non-convex, multimodal and NP-hard. To solve it, we develop a novel swarm-based multi-objective optimization algorithm, known as the competitive multi-objective marine predators algorithm (CMOMPA) whose performance is verified by comprehensive comparative experiments with ten other stateof-the-art multi-objective optimization algorithms. The computational results demonstrate that CMOMPA is superior to others in terms of convergence and accuracy and shows excellent performance on multimodal multiobjective optimization problems. Sufficient simulations are also conducted to evaluate the effectiveness of the CMOMPA based optimal SNs deployment method. The results show that the optimized deployment can balance the trade-off among deployment cost, sensing reliability and network reliability. The source code is available on https://github.com/iNet-WZU/CMOMPA.
翻訳日:2022-07-20 13:46:10 公開日:2022-07-19
# alterfactual Explanations -- 説明AIシステムにおける非関連性

Alterfactual Explanations -- The Relevance of Irrelevance for Explaining AI Systems ( http://arxiv.org/abs/2207.09374v1 )

ライセンス: Link先を確認
Silvan Mertes, Christina Karle, Tobias Huber, Katharina Weitz, Ruben Schlagowski, Elisabeth Andr\'e(参考訳) 反現実的思考の分野からの説明メカニズムは、人間が慣れ親しんだ自然な推論方法に従うため、説明可能な人工知能(XAI)の広く使われているパラダイムである。 しかし、この分野の一般的なアプローチは、AIの決定において特に重要である特徴や特徴に関する情報を伝えることに基づいている。 我々は、決定を完全に理解するためには、関連する特徴に関する知識だけでなく、無関係な情報の認識もAIシステムのユーザーのメンタルモデルの作成に大きく貢献すると主張している。 そこで我々は,AIシステムを説明する新しい方法を提案する。 私たちのアプローチは、Alterfactual Explanations(Alterfactual Explanations)と呼ばれ、AIの入力の無関係な特徴が変更された代替現実を示すものです。 これにより、ユーザはAIの決定に影響を与えることなく、入力データのどの特性が任意に変化するかを直接知ることができる。 我々は、我々のアプローチを広範なユーザー調査で評価し、AIに対する参加者の理解に大きく貢献できることを明らかにした。 我々は,AIの推論のさまざまな側面を,反事実的説明法よりも理解するために,人工的説明が適していることを示す。

Explanation mechanisms from the field of Counterfactual Thinking are a widely-used paradigm for Explainable Artificial Intelligence (XAI), as they follow a natural way of reasoning that humans are familiar with. However, all common approaches from this field are based on communicating information about features or characteristics that are especially important for an AI's decision. We argue that in order to fully understand a decision, not only knowledge about relevant features is needed, but that the awareness of irrelevant information also highly contributes to the creation of a user's mental model of an AI system. Therefore, we introduce a new way of explaining AI systems. Our approach, which we call Alterfactual Explanations, is based on showing an alternative reality where irrelevant features of an AI's input are altered. By doing so, the user directly sees which characteristics of the input data can change arbitrarily without influencing the AI's decision. We evaluate our approach in an extensive user study, revealing that it is able to significantly contribute to the participants' understanding of an AI. We show that alterfactual explanations are suited to convey an understanding of different aspects of the AI's reasoning than established counterfactual explanation methods.
翻訳日:2022-07-20 13:45:45 公開日:2022-07-19
# 外眼写真における新しい全身バイオマーカーの発見

Discovering novel systemic biomarkers in photos of the external eye ( http://arxiv.org/abs/2207.08998v1 )

ライセンス: Link先を確認
Boris Babenko, Ilana Traynis, Christina Chen, Preeti Singh, Akib Uddin, Jorge Cuadros, Lauren P. Daskivich, April Y. Maa, Ramasamy Kim, Eugene Yu-Chuan Kang, Yossi Matias, Greg S. Corrado, Lily Peng, Dale R. Webster, Christopher Semturs, Jonathan Krause, Avinash V. Varadarajan, Naama Hammel, Yun Liu(参考訳) 最近,糖尿病性網膜疾患とHbA1c上昇の徴候が認められた。 本稿では,外眼写真に追加の全身的な医療状況に関する情報が含まれているかを評価する。 肝 (アルブミン, ast), 腎臓 (レースフリーの2021 ckd-epi クレアチニン式, 尿 acr) , 骨と鉱物 (カルシウム), 甲状腺 (tsh), 血液量 (hgb, wbc, 血小板) など, 外部の眼の写真を入力として, 複数の全身パラメータを推定する深層学習システム (dls) を開発した。 カリフォルニア州ロサンゼルス郡で糖尿病検診を受けた49,015人の患者から151,237枚の画像が撮影された。 評価は、事前に指定された9つのシステムパラメータに注目し、ロサンゼルス郡とアトランタ大都市圏の3つの独立した場所で糖尿病患者28,869名を対象に、3つの検証セット(a, b, c)を活用した。 臨床検診変数(年齢,性別,人種・民族,糖尿病年数など)を取り入れたベースラインモデルと比較した。 基準値と比較すると, DLSはAST>36, カルシウム<8.6, eGFR<60, Hgb<11, 血小板<150, ACR>=300, WBC<4の検出において統計的に有意な優れた性能を示した。 ACR>=300, Hgb<11が7.3~13.2%, DLSはACR>=300, Hgb<11が7.3~13.2%であった。 以上の結果から,外眼写真は複数の臓器系にまたがる全身の健康に重要なバイオマーカーを含んでいることが示唆された。 これらのバイオマーカーが臨床的影響にどのように変換されるかを調べるためには、さらなる研究が必要である。

External eye photos were recently shown to reveal signs of diabetic retinal disease and elevated HbA1c. In this paper, we evaluate if external eye photos contain information about additional systemic medical conditions. We developed a deep learning system (DLS) that takes external eye photos as input and predicts multiple systemic parameters, such as those related to the liver (albumin, AST); kidney (eGFR estimated using the race-free 2021 CKD-EPI creatinine equation, the urine ACR); bone & mineral (calcium); thyroid (TSH); and blood count (Hgb, WBC, platelets). Development leveraged 151,237 images from 49,015 patients with diabetes undergoing diabetic eye screening in 11 sites across Los Angeles county, CA. Evaluation focused on 9 pre-specified systemic parameters and leveraged 3 validation sets (A, B, C) spanning 28,869 patients with and without diabetes undergoing eye screening in 3 independent sites in Los Angeles County, CA, and the greater Atlanta area, GA. We compared against baseline models incorporating available clinicodemographic variables (e.g. age, sex, race/ethnicity, years with diabetes). Relative to the baseline, the DLS achieved statistically significant superior performance at detecting AST>36, calcium<8.6, eGFR<60, Hgb<11, platelets<150, ACR>=300, and WBC<4 on validation set A (a patient population similar to the development sets), where the AUC of DLS exceeded that of the baseline by 5.2-19.4%. On validation sets B and C, with substantial patient population differences compared to the development sets, the DLS outperformed the baseline for ACR>=300 and Hgb<11 by 7.3-13.2%. Our findings provide further evidence that external eye photos contain important biomarkers of systemic health spanning multiple organ systems. Further work is needed to investigate whether and how these biomarkers can be translated into clinical impact.
翻訳日:2022-07-20 13:39:49 公開日:2022-07-19
# VoloGAN:合成深度データに対する逆領域適応

VoloGAN: Adversarial Domain Adaptation for Synthetic Depth Data ( http://arxiv.org/abs/2207.09204v1 )

ライセンス: Link先を確認
Sascha Kirch, Rafael Pag\'es, Sergio Arnaldo, Sergio Mart\'in(参考訳) 本稿では,高品質な3Dモデルの合成RGB-D画像を,消費者の深度センサで生成可能なRGB-D画像に変換する対向領域適応ネットワークVoloGANを提案する。 このシステムは,同一のハイエンド3Dモデルデータベースに対して,実世界の捕捉条件を再現した単一ビュー3D再構成アルゴリズムの高精度なトレーニングデータを生成するのに特に有用である。 このネットワークはCycleGANフレームワークを使用し、ジェネレータ用のU-NetアーキテクチャとSIV-GANにインスパイアされた識別器を備えている。 異なるオプティマイザと学習率スケジュールを使用して、ジェネレータと判別器をトレーニングします。 さらに,画像チャネルを個別に考慮し,その構造的類似性を評価する損失関数を構築する。 本稿では,CycleGANを用いて合成3Dデータの対角領域適応を応用し,少数のトレーニングサンプルを持つボリュームビデオジェネレータモデルを訓練できることを実証する。

We present VoloGAN, an adversarial domain adaptation network that translates synthetic RGB-D images of a high-quality 3D model of a person, into RGB-D images that could be generated with a consumer depth sensor. This system is especially useful to generate high amount training data for single-view 3D reconstruction algorithms replicating the real-world capture conditions, being able to imitate the style of different sensor types, for the same high-end 3D model database. The network uses a CycleGAN framework with a U-Net architecture for the generator and a discriminator inspired by SIV-GAN. We use different optimizers and learning rate schedules to train the generator and the discriminator. We further construct a loss function that considers image channels individually and, among other metrics, evaluates the structural similarity. We demonstrate that CycleGANs can be used to apply adversarial domain adaptation of synthetic 3D data to train a volumetric video generator model having only few training samples.
翻訳日:2022-07-20 13:39:04 公開日:2022-07-19
# 信頼できる医療AIを目指して - チェストラジオグラフィーによる新型コロナウイルススクリーニングのための注意に基づく特徴学習

Towards Trustworthy Healthcare AI: Attention-Based Feature Learning for COVID-19 Screening With Chest Radiography ( http://arxiv.org/abs/2207.09312v1 )

ライセンス: Link先を確認
Kai Ma, Pengcheng Xi, Karim Habashy, Ashkan Ebadi, St\'ephane Tremblay, Alexander Wong(参考訳) 信頼性を備えたAIモデルの構築は、特に医療などの規制領域において重要である。 従来の研究では、畳み込みニューラルネットワークをバックボーンアーキテクチャとして使用しているが、これは過剰な予防と過剰な信頼感を招き、医療画像のコンテキストにおける重大な欠陥である。 本研究では,注意に基づくメカニズムを用いた視覚トランスフォーマーを用いた特徴学習手法を提案し,医療画像のための新しいバックボーンアーキテクチャとしてトランスフォーマーの表現学習能力を検討する。 新型コロナウイルスの胸部X線写真分類の課題を通じて,ビジョントランスフォーマーのアーキテクチャ進歩にのみメリットがあるかを検討する。 定量的・質的評価は,「信頼度」計算と視覚的説明可能性手法を用いて,モデルの信頼性について行った。 注意に基づく機能学習アプローチは、医療のための信頼できるディープラーニングモデルを構築する上で有望であると結論づける。

Building AI models with trustworthiness is important especially in regulated areas such as healthcare. In tackling COVID-19, previous work uses convolutional neural networks as the backbone architecture, which has shown to be prone to over-caution and overconfidence in making decisions, rendering them less trustworthy -- a crucial flaw in the context of medical imaging. In this study, we propose a feature learning approach using Vision Transformers, which use an attention-based mechanism, and examine the representation learning capability of Transformers as a new backbone architecture for medical imaging. Through the task of classifying COVID-19 chest radiographs, we investigate into whether generalization capabilities benefit solely from Vision Transformers' architectural advances. Quantitative and qualitative evaluations are conducted on the trustworthiness of the models, through the use of "trust score" computation and a visual explainability technique. We conclude that the attention-based feature learning approach is promising in building trustworthy deep learning models for healthcare.
翻訳日:2022-07-20 13:38:46 公開日:2022-07-19
# 微分可能非線形最適化のためのライブラリthetheus

Theseus: A Library for Differentiable Nonlinear Optimization ( http://arxiv.org/abs/2207.09442v1 )

ライセンス: Link先を確認
Luis Pineda, Taosha Fan, Maurizio Monge, Shobha Venkataraman, Paloma Sodhi, Ricky Chen, Joseph Ortiz, Daniel DeTone, Austin Wang, Stuart Anderson, Jing Dong, Brandon Amos, Mustafa Mukadam(参考訳) 我々はPyTorch上に構築された微分可能非線形最小二乗最適化(DNLS)のための効率的なアプリケーションに依存しないオープンソースライブラリであるSoseusについて述べる。 既存のDNLS実装はアプリケーション固有のものであり、効率的のために重要な多くの材料を常に組み込んでいるわけではない。 Theseusはアプリケーションに依存しないので、二階最適化、標準コスト関数、リー群など、同じ基盤となる差別化可能なコンポーネントを使って構築されたいくつかの例を示す。 効率性のために、Seesusはスパースソルバ、自動ベクトル化、バッチ化、GPUアクセラレーション、および暗黙の微分と直接損失最小化による勾配計算をサポートする。 一連のアプリケーションで広範なパフォーマンス評価を行い、これらの機能が組み込まれれば、大幅な効率向上とスケーラビリティが向上します。 プロジェクトページ: https://sites.google.com/view/theseus-ai

We present Theseus, an efficient application-agnostic open source library for differentiable nonlinear least squares (DNLS) optimization built on PyTorch, providing a common framework for end-to-end structured learning in robotics and vision. Existing DNLS implementations are application specific and do not always incorporate many ingredients important for efficiency. Theseus is application-agnostic, as we illustrate with several example applications that are built using the same underlying differentiable components, such as second-order optimizers, standard costs functions, and Lie groups. For efficiency, Theseus incorporates support for sparse solvers, automatic vectorization, batching, GPU acceleration, and gradient computation with implicit differentiation and direct loss minimization. We do extensive performance evaluation in a set of applications, demonstrating significant efficiency gains and better scalability when these features are incorporated. Project page: https://sites.google.com/view/theseus-ai
翻訳日:2022-07-20 13:38:29 公開日:2022-07-19
# フーリエ測定による生成的圧縮センシングを特徴付けるコヒーレンスパラメータ

A coherence parameter characterizing generative compressed sensing with Fourier measurements ( http://arxiv.org/abs/2207.09340v1 )

ライセンス: Link先を確認
Aaron Berk, Simone Brugiapaglia, Babhru Joshi, Yaniv Plan, Matthew Scott, \"Ozg\"ur Yilmaz(参考訳) bora et al. (2017) では、測定行列がガウス的かつ信号構造が生成ニューラルネットワーク(gnn)の範囲である設定において、圧縮センシングの保証のために数学的枠組みが開発された。 GNNを用いた圧縮センシングの問題は、測定行列および/またはネットワーク重みがガウス分布に従えば広く解析される。 我々は、ユニタリ行列のランダムな行で一様にサンプリングして得られる測定行列(特別な場合としてサブサンプリングされたフーリエ測度を含む)へ、サブガウジアン仮定を超越する。 具体的には,スカーレット等 (2022, p. 10) のオープン問題に対処し, サブサンプリングアイソメトリを用いた生成的圧縮センシングに対する最初の制限的アイソメトリを証明し, ほぼ最適に近いサンプル複雑性を持つ回復限界を与える。 回復効率は、ネットワークの範囲と測定行列の間の相互作用を測定する新しいパラメータであるコヒーレンスによって特徴づけられる。 我々のアプローチは、高次元確率の中心となる部分空間カウント引数とアイデアに依存する。 さらに,測定演算子との整合性を確保するために,GNNをトレーニングするための正規化戦略を提案する。 我々は、この正規化トレーニング戦略をサポートする魅力的な数値シミュレーションを提供し、この戦略は、信号回復のための測定の少ない低いコヒーレンスネットワークを生成する。 このことは、我々の理論的結果とともに、サブサンプル等距離による生成的圧縮センシングを特徴付ける自然量としてのコヒーレンスを支持する。

In Bora et al. (2017), a mathematical framework was developed for compressed sensing guarantees in the setting where the measurement matrix is Gaussian and the signal structure is the range of a generative neural network (GNN). The problem of compressed sensing with GNNs has since been extensively analyzed when the measurement matrix and/or network weights follow a subgaussian distribution. We move beyond the subgaussian assumption, to measurement matrices that are derived by sampling uniformly at random rows of a unitary matrix (including subsampled Fourier measurements as a special case). Specifically, we prove the first known restricted isometry guarantee for generative compressed sensing with subsampled isometries, and provide recovery bounds with nearly order-optimal sample complexity, addressing an open problem of Scarlett et al. (2022, p. 10). Recovery efficacy is characterized by the coherence, a new parameter, which measures the interplay between the range of the network and the measurement matrix. Our approach relies on subspace counting arguments and ideas central to high-dimensional probability. Furthermore, we propose a regularization strategy for training GNNs to have favourable coherence with the measurement operator. We provide compelling numerical simulations that support this regularized training strategy: our strategy yields low coherence networks that require fewer measurements for signal recovery. This, together with our theoretical results, supports coherence as a natural quantity for characterizing generative compressed sensing with subsampled isometries.
翻訳日:2022-07-20 13:37:32 公開日:2022-07-19
# 多言語トランスフォーマエンコーダ : 単語レベルのタスク非依存評価

Multilingual Transformer Encoders: a Word-Level Task-Agnostic Evaluation ( http://arxiv.org/abs/2207.09076v1 )

ライセンス: Link先を確認
F\'elix Gaschi, Fran\c{c}ois Plesse, Parisa Rastin and Yannick Toussaint(参考訳) トランスフォーマーベースのモデルの中には、言語間転送学習を実行できるものもある: これらのモデルは、1つの言語で特定のタスクで訓練され、他の言語で同じタスクで比較的良い結果を与えることができる。 しかし、トランスフォーマーベースのモデルが言語間の共通パターンを学ぶかどうかについては、まだ合意が得られていない。 このようなモデルによって構築された文脈化表現のアライメントを評価するための単語レベルタスク非依存手法を提案する。 本手法は, 単語レベルのアライメントを評価するために, 従来の手法よりも正確な翻訳語対を提供する。 以上の結果から,多言語トランスフォーマーモデルの内部層は,他の明示的なアライメント表現よりも優れており,さらに多言語アライメントの厳密な定義にもとづく。

Some Transformer-based models can perform cross-lingual transfer learning: those models can be trained on a specific task in one language and give relatively good results on the same task in another language, despite having been pre-trained on monolingual tasks only. But, there is no consensus yet on whether those transformer-based models learn universal patterns across languages. We propose a word-level task-agnostic method to evaluate the alignment of contextualized representations built by such models. We show that our method provides more accurate translated word pairs than previous methods to evaluate word-level alignment. And our results show that some inner layers of multilingual Transformer-based models outperform other explicitly aligned representations, and even more so according to a stricter definition of multilingual alignment.
翻訳日:2022-07-20 13:37:06 公開日:2022-07-19
# NLUタスク間の多言語原型モデルの言語間移動性について

On the cross-lingual transferability of multilingual prototypical models across NLU tasks ( http://arxiv.org/abs/2207.09157v1 )

ライセンス: Link先を確認
Oralie Cattan, Christophe Servan and Sophie Rosset(参考訳) 教師付きディープラーニングベースのアプローチはタスク指向ダイアログに適用されており、十分な数のトレーニング例がある場合、限定されたドメインや言語アプリケーションに有効であることが証明されている。 実際には、これらのアプローチはドメイン駆動設計とアンダーリソース言語の欠点に悩まされている。 ドメインモデルと言語モデルは、問題領域が進化するにつれて成長し、変化するはずである。 一方、伝達学習の研究は、意味的に豊かな表現を学習する多言語トランスフォーマーベースモデルの言語間能力を示す。 一方、上記のアプローチに加えて、メタラーニングにより、遥かに一般化可能なタスクおよび言語学習アルゴリズムの開発が可能になった。 本稿では,原型ニューラルネットワークと多言語トランスフォーマーモデルを用いた構文的少数ショット学習の言語間変換可能性について検討する。 また,MultiATIS++コーパスにおける自然言語理解タスクの実験により,低次言語と高次言語の間で観測された移動学習性能を大幅に向上することを示した。 より一般的に、我々のアプローチは、与えられた言語で学習した有意義な潜伏空間をメタラーニングを用いて、見つからない、そして未解決の空間に一般化できることを確認した。

Supervised deep learning-based approaches have been applied to task-oriented dialog and have proven to be effective for limited domain and language applications when a sufficient number of training examples are available. In practice, these approaches suffer from the drawbacks of domain-driven design and under-resourced languages. Domain and language models are supposed to grow and change as the problem space evolves. On one hand, research on transfer learning has demonstrated the cross-lingual ability of multilingual Transformers-based models to learn semantically rich representations. On the other, in addition to the above approaches, meta-learning have enabled the development of task and language learning algorithms capable of far generalization. Through this context, this article proposes to investigate the cross-lingual transferability of using synergistically few-shot learning with prototypical neural networks and multilingual Transformers-based models. Experiments in natural language understanding tasks on MultiATIS++ corpus shows that our approach substantially improves the observed transfer learning performances between the low and the high resource languages. More generally our approach confirms that the meaningful latent space learned in a given language can be can be generalized to unseen and under-resourced ones using meta-learning.
翻訳日:2022-07-20 13:36:50 公開日:2022-07-19
# アクタークリティカルに基づく即興強化学習

Actor-Critic based Improper Reinforcement Learning ( http://arxiv.org/abs/2207.09090v1 )

ライセンス: Link先を確認
Mohammadi Zaki, Avinash Mohan, Aditya Gopalan and Shie Mannor(参考訳) 我々は,未知のマルコフ決定プロセスに対して,学習者に$m$のベースコントローラを付与する不適切な強化学習設定を検討し,それらを最適に組み合わせ,ベースコントローラよりも優れる可能性のある新しいコントローラを作りたい。 これはコントローラー間のチューニングに役立ち、おそらくはミスマッチやシミュレーション環境で学習し、比較的少ない試行で与えられたターゲット環境に適したコントローラを得るのに役立ちます。 そこで本研究では,(1)ポリシーグラディエントに基づくアプローチ,(2)シンプルなアクター・クリティカル(AC)ベースのスキームと,利用可能な情報に依存するナチュラル・アクター・クリティカル(NAC)のスキームを切り替えるアルゴリズムを提案する。 どちらのアルゴリズムも、与えられたコントローラの不適切な混合のクラス上で動作する。 最初のケースでは、勾配オラクルへのアクセスを仮定する収束率の保証を導出する。 ACに基づくアプローチでは、基本的なACの場合の定常点とNACの場合の大域的最適点に収束率を保証する。 数値計算結果 (i)双極子を安定化する標準制御理論ベンチマーク、 (II) 制約付き待ち行列タスクは, 基本方針が不安定な場合でも, 不適切なポリシ最適化アルゴリズムがシステムを安定化できることを示す。

We consider an improper reinforcement learning setting where a learner is given $M$ base controllers for an unknown Markov decision process, and wishes to combine them optimally to produce a potentially new controller that can outperform each of the base ones. This can be useful in tuning across controllers, learnt possibly in mismatched or simulated environments, to obtain a good controller for a given target environment with relatively few trials. Towards this, we propose two algorithms: (1) a Policy Gradient-based approach; and (2) an algorithm that can switch between a simple Actor-Critic (AC) based scheme and a Natural Actor-Critic (NAC) scheme depending on the available information. Both algorithms operate over a class of improper mixtures of the given controllers. For the first case, we derive convergence rate guarantees assuming access to a gradient oracle. For the AC-based approach we provide convergence rate guarantees to a stationary point in the basic AC case and to a global optimum in the NAC case. Numerical results on (i) the standard control theoretic benchmark of stabilizing an cartpole; and (ii) a constrained queueing task show that our improper policy optimization algorithm can stabilize the system even when the base policies at its disposal are unstable.
翻訳日:2022-07-20 13:33:53 公開日:2022-07-19
# 効率的なマルチステップスパース・リワード強化学習のための抽象実証と適応探索

Abstract Demonstrations and Adaptive Exploration for Efficient and Stable Multi-step Sparse Reward Reinforcement Learning ( http://arxiv.org/abs/2207.09243v1 )

ライセンス: Link先を確認
Xintong Yang, Ze Ji, Jing Wu, Yu-kun Lai(参考訳) Deep Reinforcement Learning (DRL) は、ロボット工学を含む多くの分野で人気があるが、最先端のDRLアルゴリズムは、タスク補完報酬信号のみを与えられたいくつかのブロックを積み重ねるなど、長い水平、多ステップ、スパースな報酬タスクを学習するのに依然として苦労している。 このようなタスクの学習効率を向上させるために,人間の体験に触発された2つのコンポーネント(抽象的なデモンストレーションと適応探索)を統合するDRL探索手法A^2を提案する。 A^2は、複雑なタスクをサブタスクに分解し、次に学習するサブタスクの正しい順序を提供する。 訓練中、エージェントは環境を適応的に探索し、よく訓練されたサブタスクに対してより決定論的に、そしてより確率論的に未学習サブタスクに対して行動する。 アブレーションと比較実験はいくつかのグリッドワールドタスクと3つのロボット操作タスクで行われている。 A^2 は一般的な DRL アルゴリズム (DQN,DDPG,SAC) をこれらの環境でより効率的に安定して学習できることを示す。

Although Deep Reinforcement Learning (DRL) has been popular in many disciplines including robotics, state-of-the-art DRL algorithms still struggle to learn long-horizon, multi-step and sparse reward tasks, such as stacking several blocks given only a task-completion reward signal. To improve learning efficiency for such tasks, this paper proposes a DRL exploration technique, termed A^2, which integrates two components inspired by human experiences: Abstract demonstrations and Adaptive exploration. A^2 starts by decomposing a complex task into subtasks, and then provides the correct orders of subtasks to learn. During training, the agent explores the environment adaptively, acting more deterministically for well-mastered subtasks and more stochastically for ill-learnt subtasks. Ablation and comparative experiments are conducted on several grid-world tasks and three robotic manipulation tasks. We demonstrate that A^2 can aid popular DRL algorithms (DQN, DDPG, and SAC) to learn more efficiently and stably in these environments.
翻訳日:2022-07-20 13:33:33 公開日:2022-07-19
# ビットの送信を超えて:コンテキスト、セマンティクス、タスク指向通信

Beyond Transmitting Bits: Context, Semantics, and Task-Oriented Communications ( http://arxiv.org/abs/2207.09353v1 )

ライセンス: Link先を確認
Deniz Gunduz, Zhijin Qin, Inaki Estella Aguerri, Harpreet S. Dhillon, Zhaohui Yang, Aylin Yener, Kai Kit Wong, Chan-Byoung Chae(参考訳) 現在までの通信システムは、主にビットシーケンスを確実に通信することを目的としている。 このようなアプローチは、メッセージの意味やメッセージ交換が達成しようとするゴールに非依存な効率的なエンジニアリング設計を提供する。 しかし次世代システムは、メッセージセマンティクスを折り畳み、コミュニケーションの目的を設計に組み込むことによって、潜在的に豊かになる可能性がある。 さらに、これらのシステムは、通信交換が行われるコンテキストを認識し、新しい設計洞察への道筋を提供することができる。 このチュートリアルでは、初期の適応、意味認識とタスク指向のコミュニケーションから始め、基礎、アルゴリズム、潜在的な実装をカバーする、これまでの取り組みを要約する。 その焦点は、情報理論を利用して基礎を提供するアプローチと、意味論やタスク対応コミュニケーションにおける学習の重要な役割である。

Communication systems to date primarily aim at reliably communicating bit sequences. Such an approach provides efficient engineering designs that are agnostic to the meanings of the messages or to the goal that the message exchange aims to achieve. Next generation systems, however, can be potentially enriched by folding message semantics and goals of communication into their design. Further, these systems can be made cognizant of the context in which communication exchange takes place, providing avenues for novel design insights. This tutorial summarizes the efforts to date, starting from its early adaptations, semantic-aware and task-oriented communications, covering the foundations, algorithms and potential implementations. The focus is on approaches that utilize information theory to provide the foundations, as well as the significant role of learning in semantics and task-aware communications.
翻訳日:2022-07-20 13:33:11 公開日:2022-07-19
# 確率勾配ランゲヴィンダイナミクスの急激な均一時間誤差推定

A sharp uniform-in-time error estimate for Stochastic Gradient Langevin Dynamics ( http://arxiv.org/abs/2207.09304v1 )

ライセンス: Link先を確認
Lei Li and Yuliang Wang(参考訳) 一般的なサンプリングアルゴリズムである確率勾配ランジュバンダイナミクス (sgld) に対するシャープな一様時間誤差推定法を確立した。 穏やかな仮定の下で、SGLD 反復とランゲヴィン拡散の間の KL 分割に対する一様時間 $O(\eta^2)$ が得られ、$\eta$ はステップサイズ(あるいは学習率)である。 我々の分析は、様々なステップサイズでも有効である。 これに基づいて、SGLD 反復とランゲヴィン拡散の不変分布の間の距離に対する$O(\eta)$バウンドをワッサーシュタインあるいは全変分距離の観点から得ることができる。

We establish a sharp uniform-in-time error estimate for the Stochastic Gradient Langevin Dynamics (SGLD), which is a popular sampling algorithm. Under mild assumptions, we obtain a uniform-in-time $O(\eta^2)$ bound for the KL-divergence between the SGLD iteration and the Langevin diffusion, where $\eta$ is the step size (or learning rate). Our analysis is also valid for varying step sizes. Based on this, we are able to obtain an $O(\eta)$ bound for the distance between the SGLD iteration and the invariant distribution of the Langevin diffusion, in terms of Wasserstein or total variation distances.
翻訳日:2022-07-20 13:32:23 公開日:2022-07-19
# 長期視覚認識のためのバランス付きコントラスト学習

Balanced Contrastive Learning for Long-Tailed Visual Recognition ( http://arxiv.org/abs/2207.09052v1 )

ライセンス: Link先を確認
Jianggang, Zhu and Zheng, Wang and Jingjing, Chen and Yi-Ping Phoebe, Chen and Yu-Gang, Jiang(参考訳) 現実のデータは典型的には長い尾の分布を辿り、少数の大半がデータの大半を占め、少数派は限られた数のサンプルを含んでいる。 分類モデルは、尾のクラスを表現し分類するクロスエントロピー闘争を最小限にする。 偏りのない分類器を学習する問題はよく研究されているが、不均衡データを表す手法は未検討である。 本稿では,不均衡データに対する表現学習に着目した。 近年,教師付きコントラスト学習はバランスデータに有望な性能を示した。 しかし、理論解析によって、ロングテールデータの場合、表現学習の理想的な幾何学的構成である正規な単純集合を形成することができないことが分かる。 sclの最適化動作を補正し,長期視覚認識の性能をさらに向上させるため,バランスドコントラスト学習(bcl)のための新しい損失を提案する。 SCLと比較して、BCLには2つの改善がある: 負のクラスの勾配コントリビューションのバランスをとるclass-averaging、すべてのクラスがミニバッチに表示されるclass-complement。 提案するバランスドコントラスト学習 (bcl) 法は, 正則なシンプレックスの形成条件を満たし, クロスエントロピーの最適化を支援する。 BCLと組み合わされたこの2ブランチフレームワークは,CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT, iNaturalist2018などの長期ベンチマークデータセット上で,より強力な特徴表現と競争性能を実現する。 私たちのコードは \href{https://github.com/FlamieZhu/BCL}{this URL} で利用可能です。

Real-world data typically follow a long-tailed distribution, where a few majority categories occupy most of the data while most minority categories contain a limited number of samples. Classification models minimizing cross-entropy struggle to represent and classify the tail classes. Although the problem of learning unbiased classifiers has been well studied, methods for representing imbalanced data are under-explored. In this paper, we focus on representation learning for imbalanced data. Recently, supervised contrastive learning has shown promising performance on balanced data recently. However, through our theoretical analysis, we find that for long-tailed data, it fails to form a regular simplex which is an ideal geometric configuration for representation learning. To correct the optimization behavior of SCL and further improve the performance of long-tailed visual recognition, we propose a novel loss for balanced contrastive learning (BCL). Compared with SCL, we have two improvements in BCL: class-averaging, which balances the gradient contribution of negative classes; class-complement, which allows all classes to appear in every mini-batch. The proposed balanced contrastive learning (BCL) method satisfies the condition of forming a regular simplex and assists the optimization of cross-entropy. Equipped with BCL, the proposed two-branch framework can obtain a stronger feature representation and achieve competitive performance on long-tailed benchmark datasets such as CIFAR-10-LT, CIFAR-100-LT, ImageNet-LT, and iNaturalist2018. Our code is available at \href{https://github.com/FlamieZhu/BCL}{this URL}.
翻訳日:2022-07-20 13:27:40 公開日:2022-07-19
# インクリメンタルランク更新によるインクリメンタルタスク学習

Incremental Task Learning with Incremental Rank Updates ( http://arxiv.org/abs/2207.09074v1 )

ライセンス: Link先を確認
Rakib Hyder and Ken Shao and Boyu Hou and Panos Markopoulos and Ashley Prater-Bennette and M. Salman Asif(参考訳) インクリメンタル・タスク・ラーニング(ITL、Incremental Task Learning)とは、複数のタスクに対して1つのネットワークをトレーニングすることを目的とした連続的な学習のカテゴリである。 ニューラルネットワークは、新しいタスクのために訓練されたときに古いタスクを忘れがちである。 この問題に対処するために、IPLメソッドはエピソードメモリ、パラメータ正規化、マスキングとプルーニング、拡張可能なネットワーク構造を使用する。 本稿では,低ランク因子化に基づく新しいインクリメンタルタスク学習フレームワークを提案する。 特に、各層に対するネットワーク重みを、複数の rank-1 行列の線形結合として表現する。 新しいタスクのためにネットワークを更新するために、ランク1(またはローランク)行列を学び、それを各層の重み付けに追加する。 また,前回のタスクで学習した低ランク行列に対して,異なる重みを割り当てるセレクタベクトルも新たに導入する。 本手法は,現在の最先端手法よりも精度と忘れやすさにおいて優れた性能を示す。 また,エピソディックメモリやマスクベースの手法に比べ,メモリ効率も向上した。 私たちのコードはhttps://github.com/csiplab/task-increment-rank-update.gitで入手できる。

Incremental Task learning (ITL) is a category of continual learning that seeks to train a single network for multiple tasks (one after another), where training data for each task is only available during the training of that task. Neural networks tend to forget older tasks when they are trained for the newer tasks; this property is often known as catastrophic forgetting. To address this issue, ITL methods use episodic memory, parameter regularization, masking and pruning, or extensible network structures. In this paper, we propose a new incremental task learning framework based on low-rank factorization. In particular, we represent the network weights for each layer as a linear combination of several rank-1 matrices. To update the network for a new task, we learn a rank-1 (or low-rank) matrix and add that to the weights of every layer. We also introduce an additional selector vector that assigns different weights to the low-rank matrices learned for the previous tasks. We show that our approach performs better than the current state-of-the-art methods in terms of accuracy and forgetting. Our method also offers better memory efficiency compared to episodic memory- and mask-based approaches. Our code will be available at https://github.com/CSIPlab/task-increment-rank-update.git
翻訳日:2022-07-20 13:27:13 公開日:2022-07-19
# FedX: クロス知識蒸留による教師なしのフェデレーション学習

FedX: Unsupervised Federated Learning with Cross Knowledge Distillation ( http://arxiv.org/abs/2207.09158v1 )

ライセンス: Link先を確認
Sungwon Han, Sungwon Park, Fangzhao Wu, Sundong Kim, Chuhan Wu, Xing Xie and Meeyoung Cha(参考訳) 本稿では、教師なしのフェデレーション学習フレームワークであるFedXについて述べる。 我々のモデルは分散化および異種ローカルデータからバイアスのない表現を学習する。 コントラスト学習をコアコンポーネントとする双方向の知識蒸留を採用しており、クライアントがデータ機能を共有することなくフェデレートされたシステムが機能する。 さらに、その適応可能なアーキテクチャは、フェデレーション設定における既存の教師なしアルゴリズムのアドオンモジュールとして使用できる。 実験により、5つの教師なしアルゴリズムの性能が大幅に向上した(1.58--5.52pp)。

This paper presents FedX, an unsupervised federated learning framework. Our model learns unbiased representation from decentralized and heterogeneous local data. It employs a two-sided knowledge distillation with contrastive learning as a core component, allowing the federated system to function without requiring clients to share any data features. Furthermore, its adaptable architecture can be used as an add-on module for existing unsupervised algorithms in federated settings. Experiments show that our model improves performance significantly (1.58--5.52pp) on five unsupervised algorithms.
翻訳日:2022-07-20 13:26:53 公開日:2022-07-19
# Caltech Fish Counting Dataset: マルチオブジェクト追跡とカウントのためのベンチマーク

The Caltech Fish Counting Dataset: A Benchmark for Multiple-Object Tracking and Counting ( http://arxiv.org/abs/2207.09295v1 )

ライセンス: Link先を確認
Justin Kay, Peter Kulits, Suzanne Stathatos, Siqi Deng, Erik Young, Sara Beery, Grant Van Horn, Pietro Perona(参考訳) CFC(Caltech Fish Counting Dataset)は、ソナービデオ中の魚を検出し、追跡し、カウントするための大規模なデータセットである。 我々は、低信号対雑音コンピュータビジョンアプリケーションやマルチオブジェクトトラッキング(mot)とカウントにおける領域一般化に取り組むためのリッチなデータソースとしてソナービデオを特定した。 都市内の人々や車両のビデオに大きく制限されている既存のMOTやカウントデータセットと比較して、CFCは、ターゲットが容易に解決できず、外観の特徴が容易にターゲットの再識別に活用できない自然界のドメインから派生している。 7つのsonarカメラから150万以上のビデオに50万以上のアノテーションが組み込まれており、cfcはmotとカウントアルゴリズムを訓練し、未発見のテスト場所での一般化性能を評価することができる。 我々は大規模なベースライン実験を行い、MOTの一般化と計数において、最先端技術への挑戦と機会を特定する。

We present the Caltech Fish Counting Dataset (CFC), a large-scale dataset for detecting, tracking, and counting fish in sonar videos. We identify sonar videos as a rich source of data for advancing low signal-to-noise computer vision applications and tackling domain generalization in multiple-object tracking (MOT) and counting. In comparison to existing MOT and counting datasets, which are largely restricted to videos of people and vehicles in cities, CFC is sourced from a natural-world domain where targets are not easily resolvable and appearance features cannot be easily leveraged for target re-identification. With over half a million annotations in over 1,500 videos sourced from seven different sonar cameras, CFC allows researchers to train MOT and counting algorithms and evaluate generalization performance at unseen test locations. We perform extensive baseline experiments and identify key challenges and opportunities for advancing the state of the art in generalization in MOT and counting.
翻訳日:2022-07-20 13:26:45 公開日:2022-07-19
# 牛乳を買うのを忘れないで。食料品のリマインダーロボット

Don't Forget to Buy Milk: Contextually Aware Grocery Reminder Household Robot ( http://arxiv.org/abs/2207.09050v1 )

ライセンス: Link先を確認
Ali Ayub, Chrystopher L. Nehaniv, and Kerstin Dautenhahn(参考訳) 家庭で作業する補助ロボットは、家庭内で支援作業を行うためにアイテムを入手する必要がある。 しかし、これらのアイテムが切れると、アシストロボットはユーザーが行方不明のアイテムを買うことを思い出さなければならない。 本稿では,ロボットがユーザとのインタラクションを通じて,家庭の個人化されたコンテキスト知識を学習できる計算アーキテクチャを提案する。 アーキテクチャは学習した知識を使って、家計から失われたアイテムを長期間にわたって予測することができる。 このアーキテクチャは、最先端の知覚学習アルゴリズム、メモリエンコーディングと学習の認知モデル、家庭から欠落したアイテムを予測する推論モジュール、ユーザと対話するためのグラフィカルユーザインターフェース(GUI)を統合している。 アーキテクチャはfetchモバイルマニピュレータロボットと統合され、複数のコンテキストとオブジェクトを持つ大きな屋内環境で検証される。 実験の結果,ロボットはユーザとのインタラクションを通じて文脈知識を学習することで環境に適応できることがわかった。 このロボットは、学習した知識を使って、数週間にわたって行方不明のアイテムを正確に予測し、知覚的および知覚的エラーに対して堅牢である。

Assistive robots operating in household environments would require items to be available in the house to perform assistive tasks. However, when these items run out, the assistive robot must remind its user to buy the missing items. In this paper, we present a computational architecture that can allow a robot to learn personalized contextual knowledge of a household through interactions with its user. The architecture can then use the learned knowledge to make predictions about missing items from the household over a long period of time. The architecture integrates state-of-the-art perceptual learning algorithms, cognitive models of memory encoding and learning, a reasoning module for predicting missing items from the household, and a graphical user interface (GUI) to interact with the user. The architecture is integrated with the Fetch mobile manipulator robot and validated in a large indoor environment with multiple contexts and objects. Our experimental results show that the robot can adapt to an environment by learning contextual knowledge through interactions with its user. The robot can also use the learned knowledge to correctly predict missing items over multiple weeks and it is robust against sensory and perceptual errors.
翻訳日:2022-07-20 13:25:20 公開日:2022-07-19
# 変分因果推論による目標条件強化学習の一般化

Generalizing Goal-Conditioned Reinforcement Learning with Variational Causal Reasoning ( http://arxiv.org/abs/2207.09081v1 )

ライセンス: Link先を確認
Wenhao Ding, Haohong Lin, Bo Li, Ding Zhao(参考訳) ヒューマンインテリジェンスにおける一般化可能なソリューションを実現するための重要な要素として、推論は、部分対全体論を要約し、原因と効果の関係を発見することによって、強化学習(RL)エージェントの様々な目標への一般化に大きな可能性をもたらす。 しかし、因果関係を発見して表現する方法は依然として大きなギャップであり、因果関係rlの開発を妨げている。 本稿では、オブジェクトとイベントの関係に基づいて構築された構造であるCausal Graph(CG)を用いて、Gal-Conditioned RL(GCRL)を増強する。 我々はGCRL問題をCGを潜時変数として変分極大に定式化する。 提案手法は,CGの後部を推定するための介入データ,一般化可能なモデルと解釈可能なポリシーの学習,という2つのステップを交互に行う理論的性能保証付きフレームワークを提案する。 推論下での一般化能力を検証する公開ベンチマークが欠如していることから,提案手法の有効性を実証的に示すために9つのタスクを設計した。 さらなる理論的解析により、我々の業績改善は因果発見、遷移モデリング、政策訓練の活発なサイクルによるものであることが示され、これは広範囲なアブレーション研究における実験的証拠と一致する。

As a pivotal component to attaining generalizable solutions in human intelligence, reasoning provides great potential for reinforcement learning (RL) agents' generalization towards varied goals by summarizing part-to-whole arguments and discovering cause-and-effect relations. However, how to discover and represent causalities remains a huge gap that hinders the development of causal RL. In this paper, we augment Goal-Conditioned RL (GCRL) with Causal Graph (CG), a structure built upon the relation between objects and events. We novelly formulate the GCRL problem into variational likelihood maximization with CG as latent variables. To optimize the derived objective, we propose a framework with theoretical performance guarantees that alternates between two steps: using interventional data to estimate the posterior of CG; using CG to learn generalizable models and interpretable policies. Due to the lack of public benchmarks that verify generalization capability under reasoning, we design nine tasks and then empirically show the effectiveness of the proposed method against five baselines on these tasks. Further theoretical analysis shows that our performance improvement is attributed to the virtuous cycle of causal discovery, transition modeling, and policy training, which aligns with the experimental evidence in extensive ablation studies.
翻訳日:2022-07-20 13:25:01 公開日:2022-07-19
# 大規模ニューラルネットワークにおける可変重要性の遅延推定

Lazy Estimation of Variable Importance for Large Neural Networks ( http://arxiv.org/abs/2207.09097v1 )

ライセンス: Link先を確認
Yue Gao, Abby Stevens, Rebecca Willet, Garvesh Raskutti(参考訳) 不透明な予測モデルが現代生活の多くの領域に影響を及ぼすにつれて、特定の予測を行うための入力変数の重要性の定量化への関心が高まっている。 近年、すべての変数で訓練されたフルモデルと、興味のある変数(s)を除外した縮小モデルとの予測パワーの差を分析する変数重要度(VI)を測定するモデルに依存しない手法が急増している。 これらの方法に共通するボトルネックは、各変数(または変数のサブセット)に対する還元モデルの推定である。 そこで本研究では,重要な推論保証付き縮退モデルを高速かつ柔軟な近似法を提案する。 モデルパラメータ全体を初期化する線形化によって、広いニューラルネットワークを完全に再トレーニングする必要性を置き換える。 問題を凸化するためにリッジのようなペナルティを加えることで、リッジペナルティパラメータが十分に大きい場合、この方法は変数重要度測度を、トレーニングサンプルの数である$o(\frac{1}{\sqrt{n}})$で推定する。 また、我々の推定器は漸近的に正規であり、VI推定に対する信頼境界を提供することができることを示す。 いくつかのデータ生成体制下では,本手法が高速かつ正確であることをシミュレーションにより実証し,季節気候予測の例で実世界の適用性を示す。

As opaque predictive models increasingly impact many areas of modern life, interest in quantifying the importance of a given input variable for making a specific prediction has grown. Recently, there has been a proliferation of model-agnostic methods to measure variable importance (VI) that analyze the difference in predictive power between a full model trained on all variables and a reduced model that excludes the variable(s) of interest. A bottleneck common to these methods is the estimation of the reduced model for each variable (or subset of variables), which is an expensive process that often does not come with theoretical guarantees. In this work, we propose a fast and flexible method for approximating the reduced model with important inferential guarantees. We replace the need for fully retraining a wide neural network by a linearization initialized at the full model parameters. By adding a ridge-like penalty to make the problem convex, we prove that when the ridge penalty parameter is sufficiently large, our method estimates the variable importance measure with an error rate of $O(\frac{1}{\sqrt{n}})$ where $n$ is the number of training samples. We also show that our estimator is asymptotically normal, enabling us to provide confidence bounds for the VI estimates. We demonstrate through simulations that our method is fast and accurate under several data-generating regimes, and we demonstrate its real-world applicability on a seasonal climate forecasting example.
翻訳日:2022-07-20 13:20:56 公開日:2022-07-19
# ナダラヤ-ワトソン回帰の訓練カーネルによる不均一処理効果

Heterogeneous Treatment Effect with Trained Kernels of the Nadaraya-Watson Regression ( http://arxiv.org/abs/2207.09139v1 )

ライセンス: Link先を確認
Andrei V. Konstantinov and Stanislav R. Kirpichenko and Lev V. Utkin(参考訳) 本論文では, 条件付き平均処理効果を推定する新しい手法を提案する。 これはTNW-CATE(Traiable Nadaraya-Watson regression for CATE)と呼ばれ、コントロールの数がかなり多く、治療の数は少ないという仮定に基づいている。 tnw-cateは、制御群と治療群から患者の予後を予測するためにnadaraya-watson回帰を用いる。 TNW-CATEの主なアイデアは、特定の形式の重み共有ニューラルネットワークを使用して、Nadaraya-Watson回帰のカーネルをトレーニングすることだ。 ネットワークはコントロールに基づいてトレーニングされ、各サブネットワークがトレーニング可能なカーネルを実装するような共有パラメータで、標準カーネルをニューラルネットワークのセットに置き換えるが、ネットワーク全体はnadaraya-watson推定器を実装している。 ネットワークは特徴ベクトルが特徴空間にあることを記憶している。 提案手法は、ソースとターゲットデータのドメインが似ている場合の転送学習に似ているが、タスクが異なる。 様々な数値シミュレーション実験では、TNW-CATEをよく知られたT-learner、S-learner、X-learnerと比較した。 TNW-CATEを実装するアルゴリズムのコードはhttps://github.com/Stasychbr/TNW-CATEで公開されている。

A new method for estimating the conditional average treatment effect is proposed in the paper. It is called TNW-CATE (the Trainable Nadaraya-Watson regression for CATE) and based on the assumption that the number of controls is rather large whereas the number of treatments is small. TNW-CATE uses the Nadaraya-Watson regression for predicting outcomes of patients from the control and treatment groups. The main idea behind TNW-CATE is to train kernels of the Nadaraya-Watson regression by using a weight sharing neural network of a specific form. The network is trained on controls, and it replaces standard kernels with a set of neural subnetworks with shared parameters such that every subnetwork implements the trainable kernel, but the whole network implements the Nadaraya-Watson estimator. The network memorizes how the feature vectors are located in the feature space. The proposed approach is similar to the transfer learning when domains of source and target data are similar, but tasks are different. Various numerical simulation experiments illustrate TNW-CATE and compare it with the well-known T-learner, S-learner and X-learner for several types of the control and treatment outcome functions. The code of proposed algorithms implementing TNW-CATE is available in https://github.com/Stasychbr/TNW-CATE.
翻訳日:2022-07-20 13:20:31 公開日:2022-07-19
# 転校学習におけるアウトオブディストリビューションの一般化

Assaying Out-Of-Distribution Generalization in Transfer Learning ( http://arxiv.org/abs/2207.09239v1 )

ライセンス: Link先を確認
Florian Wenzel, Andrea Dittadi, Peter Vincent Gehler, Carl-Johann Simon-Gabriel, Max Horn, Dominik Zietlow, David Kernert, Chris Russell, Thomas Brox, Bernt Schiele, Bernhard Sch\"olkopf, Francesco Locatello(参考訳) アウトオブディストリビューションの一般化は一般的には不適切な問題であるため、様々な研究プログラムで様々なプロキシターゲット(例えば、キャリブレーション、逆ロバスト性、アルゴリズム的腐敗、シフト間の不変性)が研究され、異なる推奨結果が得られた。 同じ実証目標を共有しながら、これらのアプローチは実データ上で同じ実験条件下でテストされたことはない。 本稿では,先行研究の統一的な視点を取り,経験的に対処するメッセージの不一致を強調するとともに,モデルのロバスト性を測定する方法と改善方法を提案する。 この目的のために, 精度, 校正誤差, 敵対的攻撃, 環境不変性, 合成的腐敗の訓練と分散評価のための172組のデータセットを収集した。 私たちは9つの異なるアーキテクチャから31k以上のネットワークを微調整しました。 以上の結果から, 分布域内および分布域外におけるアキュラシーは, 共同で増加する傾向にあるが, その関係はデータセットに依存し, 従来より小さく, 複雑であることが示された。

Since out-of-distribution generalization is a generally ill-posed problem, various proxy targets (e.g., calibration, adversarial robustness, algorithmic corruptions, invariance across shifts) were studied across different research programs resulting in different recommendations. While sharing the same aspirational goal, these approaches have never been tested under the same experimental conditions on real data. In this paper, we take a unified view of previous work, highlighting message discrepancies that we address empirically, and providing recommendations on how to measure the robustness of a model and how to improve it. To this end, we collect 172 publicly available dataset pairs for training and out-of-distribution evaluation of accuracy, calibration error, adversarial attacks, environment invariance, and synthetic corruptions. We fine-tune over 31k networks, from nine different architectures in the many- and few-shot setting. Our findings confirm that in- and out-of-distribution accuracies tend to increase jointly, but show that their relation is largely dataset-dependent, and in general more nuanced and more complex than posited by previous, smaller scale studies.
翻訳日:2022-07-20 13:20:06 公開日:2022-07-19
# 特徴選択のための神経性欲望の追求

Neural Greedy Pursuit for Feature Selection ( http://arxiv.org/abs/2207.09390v1 )

ライセンス: Link先を確認
Sandipan Das, Alireza M. Javid, Prakash Borpatra Gohain, Yonina C. Eldar, Saikat Chatterjee(参考訳) 非線形予測問題に対して,入力特徴量$p$のうち重要な特徴をn$選択するための欲望アルゴリズムを提案する。 繰り返し損失最小化手順において、各特徴を順次1つずつ選択する。 ニューラルネットワークをアルゴリズムの予測器として使用して損失を計算するため,本手法をニューラル・グリーディ・サーチ(ngp)と呼ぶ。 NGP は、$N \ll P$ のときの$N$ の特徴を選択するのに効率的であり、シーケンシャルな選択手順に続く降下順序における特徴の重要性の概念を提供する。 我々はNGPがDeepLIFTやDrop-one-out Losといったいくつかの機能選択手法よりも優れた性能を提供することを示す。 さらに,トレーニングデータサイズがしきい値を超えると,偽陽性のない全ての$n$特徴の完全選択が可能となる相転移挙動を実験的に示す。

We propose a greedy algorithm to select $N$ important features among $P$ input features for a non-linear prediction problem. The features are selected one by one sequentially, in an iterative loss minimization procedure. We use neural networks as predictors in the algorithm to compute the loss and hence, we refer to our method as neural greedy pursuit (NGP). NGP is efficient in selecting $N$ features when $N \ll P$, and it provides a notion of feature importance in a descending order following the sequential selection procedure. We experimentally show that NGP provides better performance than several feature selection methods such as DeepLIFT and Drop-one-out loss. In addition, we experimentally show a phase transition behavior in which perfect selection of all $N$ features without false positives is possible when the training data size exceeds a threshold.
翻訳日:2022-07-20 13:19:46 公開日:2022-07-19
# 日常作業における衝突の可能性を説明するためのリレーショナルキャプションモデル

Relational Future Captioning Model for Explaining Likely Collisions in Daily Tasks ( http://arxiv.org/abs/2207.09083v1 )

ライセンス: Link先を確認
Motonari Kambara and Komei Sugiura(参考訳) 日々のタスクをサポートする国内サービスロボットは、高齢者や障害者にとって有望なソリューションだ。 国内サービスロボットが行動を起こす前に衝突リスクを説明することが重要である。 本稿では,今後のイベントに関するキャプションを作成することを目的とする。 本稿では,将来のキャプションタスクのためのクロスモーダル言語生成モデルであるRelational Future Captioning Model (RFCM)を提案する。 RFCMにはリレーショナル・セルフアテンション・エンコーダがあり、トランスフォーマーにおける従来の自己アテンションよりも効率的にイベント間の関係を抽出する。 比較実験を行い、RFCMが2つのデータセットのベースライン法より優れていることを示す。

Domestic service robots that support daily tasks are a promising solution for elderly or disabled people. It is crucial for domestic service robots to explain the collision risk before they perform actions. In this paper, our aim is to generate a caption about a future event. We propose the Relational Future Captioning Model (RFCM), a crossmodal language generation model for the future captioning task. The RFCM has the Relational Self-Attention Encoder to extract the relationships between events more effectively than the conventional self-attention in transformers. We conducted comparison experiments, and the results show the RFCM outperforms a baseline method on two datasets.
翻訳日:2022-07-20 13:19:32 公開日:2022-07-19
# ロバスト心電図分類のための相関ネットワークアーキテクチャ

Decorrelative Network Architecture for Robust Electrocardiogram Classification ( http://arxiv.org/abs/2207.09031v1 )

ライセンス: Link先を確認
Christopher Wiedeman and Ge Wang(参考訳) 人工知能は医療データ分析において大きな進歩を遂げてきたが、堅牢性と解釈性の欠如により、これらの手法が広く展開されることは防がれている。 特に、データ駆動モデルは、モデルパフォーマンスを劇的に低下させる小さな標的摂動である敵攻撃に対して脆弱である。 最近の例として、深層学習は心電図分類(ecg)で印象的な性能を示したが、hanらはネットワークの74%を騙した現実的な摂動を開発した [2020]。 現在の敵対的防御パラダイムは、多くの高次元問題に対して計算集約的で実用的ではない。 これまでの研究によると、ネットワークの脆弱性はトレーニング中に学んだ機能と関連している。 本稿では,並列ネットワークアームを非相関アーキテクチャにトレーニングし,補完的な特徴を学習するためのアンサンブルデコリレーションとフーリエパーティショニングに基づく新しいアプローチを提案する。 我々は、我々のアプローチをECG分類においてテストし、最も強い敵の攻撃に対して、少なくとも1つの正しいネットワークアームが正常になる確率が77.2%であることを示す。 提案手法は, 対数サンプルによる高コストな最適化を必要としないため, 大きな問題にスケールできる。 これらの手法は、ネットワークロバスト性を改善するために他のタスクにも容易に適用できる。

Artificial intelligence has made great progresses in medical data analysis, but the lack of robustness and interpretability has kept these methods from being widely deployed. In particular, data-driven models are vulnerable to adversarial attacks, which are small, targeted perturbations that dramatically degrade model performance. As a recent example, while deep learning has shown impressive performance in electrocardiogram (ECG) classification, Han et al. crafted realistic perturbations that fooled the network 74% of the time [2020]. Current adversarial defense paradigms are computationally intensive and impractical for many high dimensional problems. Previous research indicates that a network vulnerability is related to the features learned during training. We propose a novel approach based on ensemble decorrelation and Fourier partitioning for training parallel network arms into a decorrelated architecture to learn complementary features, significantly reducing the chance of a perturbation fooling all arms of the deep learning model. We test our approach in ECG classification, demonstrating a much-improved 77.2% chance of at least one correct network arm on the strongest adversarial attack tested, in contrast to a 21.7% chance from a comparable ensemble. Our approach does not require expensive optimization with adversarial samples, and thus can be scaled to large problems. These methods can easily be applied to other tasks for improved network robustness.
翻訳日:2022-07-20 13:15:00 公開日:2022-07-19
# A-SFS:マルチタスク自己監督に基づく半教師付き特徴選択

A-SFS: Semi-supervised Feature Selection based on Multi-task Self-supervision ( http://arxiv.org/abs/2207.09061v1 )

ライセンス: Link先を確認
Zhifeng Qiu, Wanxin Zeng, Dahua Liao, Ning Gui(参考訳) 特徴選択は機械学習において重要なプロセスである。 予測対象に最も貢献する機能を選択することで、解釈可能で堅牢なモデルを構築する。 しかし、教師付きおよび半教師付きを含むほとんどの成熟した特徴選択アルゴリズムは、機能間の複雑な潜在構造を完全に活用することができない。 これらの構造は、特にラベルが欠如し、データが騒がしい場合に、機能選択プロセスにおいて非常に重要であると考えています。 そこで本研究では,バッチアテンションに基づく自己監督機能選択(A-SFS)という,ディープラーニングに基づく自己教師機構を革新的に導入する。 まず、マルチタスクの自己教師付きオートエンコーダは、2つのプリテキストタスクをサポートし、機能間の隠れた構造を明らかにするように設計されている。 マルチ教師付き学習モデルからの総合的な情報に導かれるバッチアテンション機構は、一握りのノイズデータによってもたらされる影響を軽減するために、バッチベースの特徴選択パターンに従って特徴重みを生成するように設計されている。 この方法は、LightGBMやXGBoostを含む14の強力なベンチマークと比較される。 実験の結果,ほとんどのデータセットにおいてA-SFSが最も精度が高いことがわかった。 さらに、この設計はラベルへの依存を著しく減らし、1/10のラベル付きデータだけで、アートベースラインと同じパフォーマンスを達成することができる。 その結果、A-SFSはノイズや欠落データに対して最も堅牢であることがわかった。

Feature selection is an important process in machine learning. It builds an interpretable and robust model by selecting the features that contribute the most to the prediction target. However, most mature feature selection algorithms, including supervised and semi-supervised, fail to fully exploit the complex potential structure between features. We believe that these structures are very important for the feature selection process, especially when labels are lacking and data is noisy. To this end, we innovatively introduce a deep learning-based self-supervised mechanism into feature selection problems, namely batch-Attention-based Self-supervision Feature Selection(A-SFS). Firstly, a multi-task self-supervised autoencoder is designed to uncover the hidden structure among features with the support of two pretext tasks. Guided by the integrated information from the multi-self-supervised learning model, a batch-attention mechanism is designed to generate feature weights according to batch-based feature selection patterns to alleviate the impacts introduced by a handful of noisy data. This method is compared to 14 major strong benchmarks, including LightGBM and XGBoost. Experimental results show that A-SFS achieves the highest accuracy in most datasets. Furthermore, this design significantly reduces the reliance on labels, with only 1/10 labeled data needed to achieve the same performance as those state of art baselines. Results show that A-SFS is also most robust to the noisy and missing data.
翻訳日:2022-07-20 13:14:35 公開日:2022-07-19
# スパースワードタスクにおけるメタ強化学習のための学習アクショントランスレータ

Learning Action Translator for Meta Reinforcement Learning on Sparse-Reward Tasks ( http://arxiv.org/abs/2207.09071v1 )

ライセンス: Link先を確認
Yijie Guo, Qiucheng Wu, Honglak Lee(参考訳) meta reinforcement learning(meta-rl)の目的は、一連のトレーニングタスクを同時に解決し、新しいタスクに迅速に適応するポリシーを学ぶことである。 タスク間で共有される共通構造を推測するために、トレーニングタスクから引き出される膨大なデータが必要です。 高度な報酬工学がなければ、長距離作業におけるスパース報酬はメタRLのサンプル効率の問題を悪化させる。 meta-rlのもう一つの課題は、タスク間の難易度の差であり、共有ポリシーの学習を一つの簡単なタスクが支配し、新しいタスクへのポリシー適応を妨げる可能性がある。 本研究は,訓練作業中の行動伝達子を学習する目的関数を導入する。 理論的には、転送されたポリシーとアクショントランスレータの値が、ソースポリシーの値に近づき、我々の目的関数(約)が値の差を表わす。 本稿では,アクショントランスレータとコンテキストベースのメタrlアルゴリズムを組み合わせたデータ収集と,メタトレーニング時の探索の効率化を提案する。 提案手法はスパース・リワードタスクにおけるメタRLアルゴリズムのサンプル効率と性能を実証的に改善する。

Meta reinforcement learning (meta-RL) aims to learn a policy solving a set of training tasks simultaneously and quickly adapting to new tasks. It requires massive amounts of data drawn from training tasks to infer the common structure shared among tasks. Without heavy reward engineering, the sparse rewards in long-horizon tasks exacerbate the problem of sample efficiency in meta-RL. Another challenge in meta-RL is the discrepancy of difficulty level among tasks, which might cause one easy task dominating learning of the shared policy and thus preclude policy adaptation to new tasks. This work introduces a novel objective function to learn an action translator among training tasks. We theoretically verify that the value of the transferred policy with the action translator can be close to the value of the source policy and our objective function (approximately) upper bounds the value difference. We propose to combine the action translator with context-based meta-RL algorithms for better data collection and more efficient exploration during meta-training. Our approach empirically improves the sample efficiency and performance of meta-RL algorithms on sparse-reward tasks.
翻訳日:2022-07-20 13:14:11 公開日:2022-07-19
# 因子解析潜在空間を有する多視点階層型変分オートエンコーダ

Multi-view hierarchical Variational AutoEncoders with Factor Analysis latent space ( http://arxiv.org/abs/2207.09185v1 )

ライセンス: Link先を確認
Alejandro Guerrero-L\'opez, Carlos Sevilla-Salcedo, Vanessa G\'omez-Verdejo, Pablo M. Olmos(参考訳) 実世界のデータベースは複雑で、通常、同一データの不均一性と複数の表現の間の冗長性と共有相関を示す。 したがって、ビュー間の共有情報の利用と無効化が重要である。 この目的のために、最近の研究はしばしばすべてのビューを共有非線形複素潜在空間に融合させるが、それらは解釈可能性を失う。 本稿では,複数の変分オートエンコーダ(VAE)アーキテクチャと因子解析潜時空間(FA-VAE)を組み合わせた新しい手法を提案する。 具体的には、vaeを用いて連続的潜在空間における各異種ビューのプライベート表現を学習する。 次に,すべてのプライベート変数を線形射影行列を用いて低次元の潜在空間に投影することにより,共有潜在空間をモデル化する。 これにより、プライベート情報と共有情報の間の階層的依存関係を解釈可能とする。 このようにして、新しいモデルは同時にできる。 (i)複数の異質な視点から学ぶ。 (ii)解釈可能な階層的共有空間を得る、及び、 (iii)生成モデル間の転送学習を行う。

Real-world databases are complex, they usually present redundancy and shared correlations between heterogeneous and multiple representations of the same data. Thus, exploiting and disentangling shared information between views is critical. For this purpose, recent studies often fuse all views into a shared nonlinear complex latent space but they lose the interpretability. To overcome this limitation, here we propose a novel method to combine multiple Variational AutoEncoders (VAE) architectures with a Factor Analysis latent space (FA-VAE). Concretely, we use a VAE to learn a private representation of each heterogeneous view in a continuous latent space. Then, we model the shared latent space by projecting every private variable to a low-dimensional latent space using a linear projection matrix. Thus, we create an interpretable hierarchical dependency between private and shared information. This way, the novel model is able to simultaneously: (i) learn from multiple heterogeneous views, (ii) obtain an interpretable hierarchical shared space, and, (iii) perform transfer learning between generative models.
翻訳日:2022-07-20 13:13:53 公開日:2022-07-19
# 階層的)マルチラベル分類のための半教師付き予測クラスタリングツリー

Semi-supervised Predictive Clustering Trees for (Hierarchical) Multi-label Classification ( http://arxiv.org/abs/2207.09237v1 )

ライセンス: Link先を確認
Jurica Levati\'c, Michelangelo Ceci, Dragi Kocev, Sa\v{s}o D\v{z}eroski(参考訳) 半教師付き学習(SSL)は、ラベル付き例だけでなくラベル付き例を用いて予測モデルを学習する一般的な手法である。 分類と回帰の単純なタスクに対するsslは研究コミュニティから多くの注目を集めているが、構造的に依存する変数を持つ複雑な予測タスクについては適切には研究されていない。 これはマルチラベル分類と階層的マルチラベル分類タスクの場合であり、複数のクラスラベルを同時に予測する難しい課題に直面するため、ラベルのない例で提供される記述空間の基盤となる分布から、追加情報を必要とする可能性がある。 本稿では,この側面を考察し,予測クラスタリング木の半教師付き学習に基づく(階層的な)マルチラベル分類手法を提案する。 また,この手法をアンサンブル学習に拡張し,ランダムな森林アプローチに基づく手法を提案する。 23個のデータセットに対して大規模な実験を行った結果,提案手法の有意な利点が示された。 さらに、この手法は解釈可能性を保持し、古典的ツリーベースモデルの時間的複雑さを低減する。

Semi-supervised learning (SSL) is a common approach to learning predictive models using not only labeled examples, but also unlabeled examples. While SSL for the simple tasks of classification and regression has received a lot of attention from the research community, this is not properly investigated for complex prediction tasks with structurally dependent variables. This is the case of multi-label classification and hierarchical multi-label classification tasks, which may require additional information, possibly coming from the underlying distribution in the descriptive space provided by unlabeled examples, to better face the challenging task of predicting simultaneously multiple class labels. In this paper, we investigate this aspect and propose a (hierarchical) multi-label classification method based on semi-supervised learning of predictive clustering trees. We also extend the method towards ensemble learning and propose a method based on the random forest approach. Extensive experimental evaluation conducted on 23 datasets shows significant advantages of the proposed method and its extension with respect to their supervised counterparts. Moreover, the method preserves interpretability and reduces the time complexity of classical tree-based models.
翻訳日:2022-07-20 13:13:36 公開日:2022-07-19
# ベイズ世代人口型トレーニング

Bayesian Generational Population-Based Training ( http://arxiv.org/abs/2207.09405v1 )

ライセンス: Link先を確認
Xingchen Wan, Cong Lu, Jack Parker-Holder, Philip J. Ball, Vu Nguyen, Binxin Ru, Michael A. Osborne(参考訳) 強化学習(rl)は、現実世界で自律的に対話できる一般的な有能なエージェントを訓練する機会を提供する。 しかし、1つの重要な制限は、コアハイパーパラメータとネットワークアーキテクチャの選択に対するRLアルゴリズムの脆さである。 さらに、トレーニングデータの進化やエージェントの複雑さの増加といった非定常性は、異なるハイパーパラメータとアーキテクチャが異なるトレーニングポイントで最適であることを意味する。 これはAutoRLという,これらの設計選択の自動化を目指すメソッドのクラスを動機付けている。 AutoRL メソッドの著名なクラスは Population-Based Training (PBT) である。 本稿では,pbt方式の2つの新技術を紹介する。 まず,信頼領域に基づくベイズ最適化を行い,高次元混合ハイパーパラメータ探索空間の完全カバレッジを実現する。 第二に、世代別アプローチを用いることで、1回のトレーニングでアーキテクチャとハイパーパラメータを同時に学習できることが示されます。 並列化可能な新しいBrax物理エンジンを利用することで、これらのイノベーションは大きなパフォーマンス向上をもたらし、チューニングされたベースラインを著しく上回りながら、設定全体を即時に学習することを示した。 コードはhttps://github.com/xingchenwan/bgpbtで入手できる。

Reinforcement learning (RL) offers the potential for training generally capable agents that can interact autonomously in the real world. However, one key limitation is the brittleness of RL algorithms to core hyperparameters and network architecture choice. Furthermore, non-stationarities such as evolving training data and increased agent complexity mean that different hyperparameters and architectures may be optimal at different points of training. This motivates AutoRL, a class of methods seeking to automate these design choices. One prominent class of AutoRL methods is Population-Based Training (PBT), which have led to impressive performance in several large scale settings. In this paper, we introduce two new innovations in PBT-style methods. First, we employ trust-region based Bayesian Optimization, enabling full coverage of the high-dimensional mixed hyperparameter search space. Second, we show that using a generational approach, we can also learn both architectures and hyperparameters jointly on-the-fly in a single training run. Leveraging the new highly parallelizable Brax physics engine, we show that these innovations lead to large performance gains, significantly outperforming the tuned baseline while learning entire configurations on the fly. Code is available at https://github.com/xingchenwan/bgpbt.
翻訳日:2022-07-20 13:13:20 公開日:2022-07-19
# 入力圧縮によるバウンディング一般化誤差:無限幅ネットワークを用いた実験的検討

Bounding generalization error with input compression: An empirical study with infinite-width networks ( http://arxiv.org/abs/2207.09408v1 )

ライセンス: Link先を確認
Angus Galloway, Anna Golubeva, Mahmoud Salem, Mihai Nica, Yani Ioannou, Graham W. Taylor(参考訳) Deep Neural Networks(DNN)のGE(Generalization Error)を推定することは、しばしばホールドアウトデータの可用性に依存する重要なタスクである。 単一のトレーニングセットに基づいてGEをより正確に予測する能力は、他のパフォーマンス評価の利点とともに、試行錯誤への依存を減らすために、DNN設計原則を階層化する可能性がある。 GEに関連する量を探索するために,入力層と最終層の間の相互情報(MI)を無限幅DNN制限を用いて検討する。 MIとGEをリンクするために、既存の入力圧縮ベースのGEバウンドが使用される。 私たちの知る限りでは、これはこの境界に関する最初の実証的研究である。 理論的境界を実証的にファルシフィケートしようとする試みでは、最良の性能モデルに対してしばしば厳密であることが分かる。 さらに、多くのケースでトレーニングラベルのランダム化を検出し、テスト時の摂動ロバスト性を反映し、わずかなトレーニングサンプルしか与えていない。 これらの結果は、MIを信頼して推定できるような入力圧縮が広く適用可能であることを前提としている。

Estimating the Generalization Error (GE) of Deep Neural Networks (DNNs) is an important task that often relies on availability of held-out data. The ability to better predict GE based on a single training set may yield overarching DNN design principles to reduce a reliance on trial-and-error, along with other performance assessment advantages. In search of a quantity relevant to GE, we investigate the Mutual Information (MI) between the input and final layer representations, using the infinite-width DNN limit to bound MI. An existing input compression-based GE bound is used to link MI and GE. To the best of our knowledge, this represents the first empirical study of this bound. In our attempt to empirically falsify the theoretical bound, we find that it is often tight for best-performing models. Furthermore, it detects randomization of training labels in many cases, reflects test-time perturbation robustness, and works well given only few training samples. These results are promising given that input compression is broadly applicable where MI can be estimated with confidence.
翻訳日:2022-07-20 13:13:02 公開日:2022-07-19
# MONet:生体画像における重複検出のためのマルチスケールオーバーラップネットワーク

MONet: Multi-scale Overlap Network for Duplication Detection in Biomedical Images ( http://arxiv.org/abs/2207.09107v1 )

ライセンス: Link先を確認
Ekraam Sabir, Soumyaroop Nandi, Wael AbdAlmageed, Prem Natarajan(参考訳) 実験結果の誤表現に対する生体画像の操作は,しばらくの間,バイオメディカルコミュニティを悩ませてきた。 この問題に対する近年の関心は、データセットのキュレーションと、生物医学的な法医学的手法の開発を促進するための関連するタスクにつながった。 これらのうち、最大の操作検出タスクは、画像間の重複領域の検出に焦点を当てている。 自然画像に基づいて訓練された伝統的なコンピュータビジョンに基づく法医学モデルは、生体画像がもたらす課題を克服するために設計されていない。 重複画像領域を検出するマルチスケール重なり検出モデルを提案する。 我々のモデルは、重複を階層的に見つけ、パッチ操作の数を減らすように構成されている。 総合的および複数の生物医学的画像カテゴリにおいて最先端のパフォーマンスを達成している。

Manipulation of biomedical images to misrepresent experimental results has plagued the biomedical community for a while. Recent interest in the problem led to the curation of a dataset and associated tasks to promote the development of biomedical forensic methods. Of these, the largest manipulation detection task focuses on the detection of duplicated regions between images. Traditional computer-vision based forensic models trained on natural images are not designed to overcome the challenges presented by biomedical images. We propose a multi-scale overlap detection model to detect duplicated image regions. Our model is structured to find duplication hierarchically, so as to reduce the number of patch operations. It achieves state-of-the-art performance overall and on multiple biomedical image categories.
翻訳日:2022-07-20 13:09:22 公開日:2022-07-19
# ParticleSfM:野生で動くカメラを位置決めするための高密度軌跡の爆発

ParticleSfM: Exploiting Dense Point Trajectories for Localizing Moving Cameras in the Wild ( http://arxiv.org/abs/2207.09137v1 )

ライセンス: Link先を確認
Wang Zhao, Shaohui Liu, Hengkai Guo, Wenping Wang, Yong-Jin Liu(参考訳) 動画像から移動カメラのポーズを推定することは、特に動的環境において移動物体が存在するため、特に問題であり、既存のカメラポーズ推定手法の性能は、幾何学的に一貫性のない画素に影響を受けやすい。 そこで本研究では, 対方向光流から初期化した密接な対応に基づく映像に対して, 頑健な間接構造から移動する手法を提案する。 我々のキーとなる考え方は、長距離ビデオ対応を高密度な点軌道として最適化し、それを用いて動きのセグメンテーションの堅牢な推定を学習することである。 不規則点軌道データを処理するニューラルネットワークアーキテクチャを提案する。 次にカメラポーズを推定し、静的に分類された長距離点軌道の一部に対してグローバルバンドル調整によって最適化する。 MPIシンテルデータセットを用いた実験により,既存の最先端手法と比較して,より正確なカメラトラジェクトリが得られた。 さらに,完全静的シーンにおけるカメラポーズの適度な精度を保ち,エンド・ツー・エンドのディープラーニングを用いた最先端の高密度対応ベース手法を一貫して上回り,光学的流れと点軌跡に基づく高密度間接手法の可能性を示す。 点軌跡表現が一般化するにつれて,動的物体の複雑な動きを伴う実機内単眼映像について,さらに結果と比較を行う。 コードはhttps://github.com/bytedance/particle-sfmで入手できる。

Estimating the pose of a moving camera from monocular video is a challenging problem, especially due to the presence of moving objects in dynamic environments, where the performance of existing camera pose estimation methods are susceptible to pixels that are not geometrically consistent. To tackle this challenge, we present a robust dense indirect structure-from-motion method for videos that is based on dense correspondence initialized from pairwise optical flow. Our key idea is to optimize long-range video correspondence as dense point trajectories and use it to learn robust estimation of motion segmentation. A novel neural network architecture is proposed for processing irregular point trajectory data. Camera poses are then estimated and optimized with global bundle adjustment over the portion of long-range point trajectories that are classified as static. Experiments on MPI Sintel dataset show that our system produces significantly more accurate camera trajectories compared to existing state-of-the-art methods. In addition, our method is able to retain reasonable accuracy of camera poses on fully static scenes, which consistently outperforms strong state-of-the-art dense correspondence based methods with end-to-end deep learning, demonstrating the potential of dense indirect methods based on optical flow and point trajectories. As the point trajectory representation is general, we further present results and comparisons on in-the-wild monocular videos with complex motion of dynamic objects. Code is available at https://github.com/bytedance/particle-sfm.
翻訳日:2022-07-20 13:09:13 公開日:2022-07-19
# NDF:動的人体モデリングのためのニューラル・デフォルマブル・フィールド

NDF: Neural Deformable Fields for Dynamic Human Modelling ( http://arxiv.org/abs/2207.09193v1 )

ライセンス: Link先を確認
Ruiqi Zhang and Jie Chen(参考訳) マルチビュー映像からの動的人間のデジタル化のための新しい表現であるニューラルデフォルマブルフィールド(NDF)を提案する。 変形場推定で観測空間にリンクする共有正準神経放射場を持つ動的人体を表現するための最近の研究が提案されている。 しかし、学習された標準表現は静的であり、変形場の現在の設計は大きな動きや詳細な幾何学的変化を表現できない。 本稿では、動的人間を表現するために、装着されたパラメトリックボディモデルに包まれた神経変形性フィールドを学習することを提案する。 NDFは、下層の基準面によって空間的に整列される。 ニューラルネットワークが学習され、NDFのダイナミックスにポーズをマッピングする。 提案したNDF表現は、デジタル化されたパフォーマーを、詳細で合理的なダイナミックな外観で、新しいビューと新しいポーズで合成することができる。 実験の結果,本手法は近年のヒト合成法よりも優れていた。

We propose Neural Deformable Fields (NDF), a new representation for dynamic human digitization from a multi-view video. Recent works proposed to represent a dynamic human body with shared canonical neural radiance fields which links to the observation space with deformation fields estimations. However, the learned canonical representation is static and the current design of the deformation fields is not able to represent large movements or detailed geometry changes. In this paper, we propose to learn a neural deformable field wrapped around a fitted parametric body model to represent the dynamic human. The NDF is spatially aligned by the underlying reference surface. A neural network is then learned to map pose to the dynamics of NDF. The proposed NDF representation can synthesize the digitized performer with novel views and novel poses with a detailed and reasonable dynamic appearance. Experiments show that our method significantly outperforms recent human synthesis methods.
翻訳日:2022-07-20 13:08:47 公開日:2022-07-19
# ShapeCrafter: 再帰的なテキスト記述型3D形状生成モデル

ShapeCrafter: A Recursive Text-Conditioned 3D Shape Generation Model ( http://arxiv.org/abs/2207.09446v1 )

ライセンス: Link先を確認
Rao Fu, Xiao Zhan, Yiwen Chen, Daniel Ritchie, Srinath Sridhar(参考訳) 本稿では,再帰的テキスト条件付き3次元形状生成のためのニューラルネットワークであるShapeCrafterを紹介する。 既存のテキスト条件付き3d形状を生成する方法は、テキストプロンプト全体を消費し、1ステップで3d形状を生成する。 しかし、人間は再帰的に形を記述しがちで、最初の記述から始め、徐々に中間の結果に基づいて詳細を追加する。 この再帰的過程を捉えるために,初期句に条件付き3次元形状分布を生成する手法を提案する。 既存のデータセットはこのアプローチのトレーニングに不十分であるため、再帰的な形状生成をサポートする369Kの形状テキストペアからなる大規模なデータセットであるText2Shape++を提案する。 形状記述を洗練するためによく用いられる局所的な詳細を捉えるために,ベクトル量子化深部暗黙関数の上に構築し,高品質な形状の分布を生成する。 その結果,本手法は文章記述と整合した形状を生成でき,フレーズが増えていくにつれて徐々に形状が進化することが示された。 本手法は形状編集や外挿をサポートし,創造的デザインのための人間と機械のコラボレーションに新たな応用を可能にする。

We present ShapeCrafter, a neural network for recursive text-conditioned 3D shape generation. Existing methods to generate text-conditioned 3D shapes consume an entire text prompt to generate a 3D shape in a single step. However, humans tend to describe shapes recursively-we may start with an initial description and progressively add details based on intermediate results. To capture this recursive process, we introduce a method to generate a 3D shape distribution, conditioned on an initial phrase, that gradually evolves as more phrases are added. Since existing datasets are insufficient for training this approach, we present Text2Shape++, a large dataset of 369K shape-text pairs that supports recursive shape generation. To capture local details that are often used to refine shape descriptions, we build on top of vector-quantized deep implicit functions that generate a distribution of high-quality shapes. Results show that our method can generate shapes consistent with text descriptions, and shapes evolve gradually as more phrases are added. Our method supports shape editing, extrapolation, and can enable new applications in human-machine collaboration for creative design.
翻訳日:2022-07-20 13:08:34 公開日:2022-07-19
# MoEC: エキスパートクラスタの混在

MoEC: Mixture of Expert Clusters ( http://arxiv.org/abs/2207.09094v1 )

ライセンス: Link先を確認
Yuan Xie, Shaohan Huang, Tianyu Chen, Furu Wei(参考訳) Sparsely Mixture of Experts (MoE)は、安価な計算オーバーヘッドを持つ有望なスケーリング能力のため、大きな関心を集めている。 MoEは密度の高い層をスパースの専門家に変換し、ゲートルーティングネットワークを使用して専門家を条件付きで活性化させる。 しかし、専門家の数が増えるにつれて、不条理なパラメータを持つmoeは過剰フィッティングとスパースなデータ割り当てに苦しむ。 このような問題は、限られたデータを持つタスクでは特に深刻であり、スケールアップによるパフォーマンス向上のためのMoEモデルの進歩を妨げる。 本稿では,ルーティングステージに分散ベースの制約を課すことで,エキスパート層がより多様で適切な知識を身につけるための一般的なアプローチである,エキスパートクラスタの混合を提案する。 我々はさらに,エキスパートクラスタ構造専用に設計されたクラスタレベルのエキスパートドロップアウト戦略を提案する。 実験の結果,MoECは機械翻訳や自然言語理解タスクの性能を向上し,限られたデータで専門家をスケールアップする上での上限を高くすることができることがわかった。 また,MoECがデータアロケーションの過度な調整やスパース化に肯定的な役割を担っていることも確認した。

Sparsely Mixture of Experts (MoE) has received great interest due to its promising scaling capability with affordable computational overhead. MoE converts dense layers into sparse experts, and utilizes a gated routing network to make experts conditionally activated. However, as the number of experts grows, MoE with outrageous parameters suffers from overfitting and sparse data allocation. Such problems are especially severe on tasks with limited data, thus hindering the progress for MoE models to improve performance by scaling up. In this work, we propose Mixture of Expert Clusters - a general approach to enable expert layers to learn more diverse and appropriate knowledge by imposing variance-based constraints on the routing stage. We further propose a cluster-level expert dropout strategy specifically designed for the expert cluster structure. Our experiments reveal that MoEC could improve performance on machine translation and natural language understanding tasks, and raise the performance upper bound for scaling up experts under limited data. We also verify that MoEC plays a positive role in mitigating overfitting and sparse data allocation.
翻訳日:2022-07-20 13:08:05 公開日:2022-07-19
# 言語モデルのためのバギング手法の解析

Analyzing Bagging Methods for Language Models ( http://arxiv.org/abs/2207.09099v1 )

ライセンス: Link先を確認
Pranab Islam, Shaan Khosla, Arthur Lok, Mudit Saxena(参考訳) 現代の言語モデルは、自然言語理解タスクのパフォーマンスを達成するためにますます多くのパラメータを活用している。 下流タスクの特定の設定にこれらのモデルを組み込むと、さらにパフォーマンスが向上する。 本稿では,バッジ言語モデルの解析を行い,単一言語モデルと最終モデルサイズとほぼ同等のタグ付きアンサンブルを比較した。 我々は,300mパラメーターから1.5bパラメーターまでの最終的なアンサンブルサイズを持つ自然言語理解タスクのためのモデルバッキング構成の配列を探索し,提案手法が少なくとも単一のlmベースラインとほぼ同等であることを示す。 分散低減やマイナーな性能改善といった実験の結果に従って,特定のシナリオにおける袋詰めや刈りによる他のポジティブな効果に留意する。

Modern language models leverage increasingly large numbers of parameters to achieve performance on natural language understanding tasks. Ensembling these models in specific configurations for downstream tasks show even further performance improvements. In this paper, we perform an analysis of bagging language models and compare single language models to bagged ensembles that are roughly equivalent in terms of final model size. We explore an array of model bagging configurations for natural language understanding tasks with final ensemble sizes ranging from 300M parameters to 1.5B parameters and determine that our ensembling methods are at best roughly equivalent to single LM baselines. We note other positive effects of bagging and pruning in specific scenarios according to findings in our experiments such as variance reduction and minor performance improvements.
翻訳日:2022-07-20 13:07:47 公開日:2022-07-19
# MattEr:ビデオトランスフォーマーの時間的自己監督

Time Is MattEr: Temporal Self-supervision for Video Transformers ( http://arxiv.org/abs/2207.09067v1 )

ライセンス: Link先を確認
Sukmin Yun, Jaehyung Kim, Dongyoon Han, Hwanjun Song, Jung-Woo Ha, Jinwoo Shin(参考訳) ビデオの時間的ダイナミクスを理解することは、より良いビデオ表現を学ぶための重要な側面である。 近年,入力シーケンスの長期依存性をキャプチャできるため,ビデオタスクのためのトランスフォーマーベースのアーキテクチャ設計が広く研究されている。 しかし,これらの映像トランスフォーマーは,時間変化よりも空間ダイナミクスを学習するために偏りが強いことがわかった。 観察に基づいて,映像モデルが時間的ダイナミクスをよりよく学習するために,単純かつ効果的な自己教師付きタスクをデザインする。 具体的には,映像フレームの時間順序を余分な自己スーパービジョンとして学習し,ランダムにシャッフルされたフレームを低信頼出力に強制する。 また,連続フレーム間のビデオトークンの時間的流れ方向を学習し,時間的ダイナミクスに対する相関性を高める。 様々なビデオ行動認識タスクにおいて,本手法の有効性と最先端のビデオ変換器との互換性を示す。

Understanding temporal dynamics of video is an essential aspect of learning better video representations. Recently, transformer-based architectural designs have been extensively explored for video tasks due to their capability to capture long-term dependency of input sequences. However, we found that these Video Transformers are still biased to learn spatial dynamics rather than temporal ones, and debiasing the spurious correlation is critical for their performance. Based on the observations, we design simple yet effective self-supervised tasks for video models to learn temporal dynamics better. Specifically, for debiasing the spatial bias, our method learns the temporal order of video frames as extra self-supervision and enforces the randomly shuffled frames to have low-confidence outputs. Also, our method learns the temporal flow direction of video tokens among consecutive frames for enhancing the correlation toward temporal dynamics. Under various video action recognition tasks, we demonstrate the effectiveness of our method and its compatibility with state-of-the-art Video Transformers.
翻訳日:2022-07-20 13:03:37 公開日:2022-07-19
# spherefed: 超球面連合学習

SphereFed: Hyperspherical Federated Learning ( http://arxiv.org/abs/2207.09413v1 )

ライセンス: Link先を確認
Xin Dong, Sai Qian Zhang, Ang Li, H.T. Kung(参考訳) Federated Learningは、プライベートなローカルデータを交換することなく、複数の分散デバイス(すなわちクライアント)からグローバルモデルをトレーニングすることを目的としている。 鍵となる課題は、複数のクライアントにまたがる非i.i.d.(独立に分散した)データを扱うことだ。 クライアントが共有するユニットハイパースフィア上のデータポイントの学習表現を制限することにより、非i.d.問題に対処するために、超球型フェデレートラーニング(SphereFed)フレームワークを導入する。 具体的には、すべてのクライアントは、単位超球面に重みがある固定分類器に対する損失を最小限に抑えて、局所表現を学習する。 グローバルモデルを改善するための連合訓練の後、平均二乗損失を最小化することにより、この分類器はさらに閉形式解を校正する。 ローカルデータに直接アクセスすることなく,キャリブレーションソリューションを効率的かつ分散的に計算できることを示す。 広範な実験により,既存の複数のフェデレーション学習アルゴリズムの精度を,データセットとモデルアーキテクチャをまたいだ計算と通信効率の向上により,かなりのマージン(チャレンジデータセットでは最大6%)で向上できることが示された。

Federated Learning aims at training a global model from multiple decentralized devices (i.e. clients) without exchanging their private local data. A key challenge is the handling of non-i.i.d. (independent identically distributed) data across multiple clients that may induce disparities of their local features. We introduce the Hyperspherical Federated Learning (SphereFed) framework to address the non-i.i.d. issue by constraining learned representations of data points to be on a unit hypersphere shared by clients. Specifically, all clients learn their local representations by minimizing the loss with respect to a fixed classifier whose weights span the unit hypersphere. After federated training in improving the global model, this classifier is further calibrated with a closed-form solution by minimizing a mean squared loss. We show that the calibration solution can be computed efficiently and distributedly without direct access of local data. Extensive experiments indicate that our SphereFed approach is able to improve the accuracy of multiple existing federated learning algorithms by a considerable margin (up to 6% on challenging datasets) with enhanced computation and communication efficiency across datasets and model architectures.
翻訳日:2022-07-20 13:03:21 公開日:2022-07-19
# 野生の人間からロボットへの模倣

Human-to-Robot Imitation in the Wild ( http://arxiv.org/abs/2207.09450v1 )

ライセンス: Link先を確認
Shikhar Bahl, Abhinav Gupta, Deepak Pathak(参考訳) 我々は野生の人間を見て学習する問題にアプローチする。 ImitationとReinforcement Learningの伝統的なアプローチは現実世界での学習には有望だが、サンプル非効率であるか、ラボの設定に制約されている。 一方、受動的で構造化されていない人間のデータを処理することには、多くの成功があります。 本研究では,3人称視点からの学習を中心に,効率的なワンショットロボット学習アルゴリズムを用いてこの問題に取り組むことを提案する。 We called our method WHIRL: In-the-Wild Human Imitating Robot Learning。 WHIRLは、エージェントのポリシーを初期化するために、人間のデモレーターの意図を優先的に抽出する。 我々は,対話の利用を改善する効率的な実世界の政策学習方式を提案する。 我々の重要な貢献は、単純なサンプリングベースのポリシー最適化アプローチ、人間とロボットのビデオの整列のための新しい客観的機能、サンプル効率を高めるための探索方法である。 実世界における20種類の操作タスクを含む,ワンショットの一般化と成功を示す。 ビデオと講演はhttps://human2robot.github.io

We approach the problem of learning by watching humans in the wild. While traditional approaches in Imitation and Reinforcement Learning are promising for learning in the real world, they are either sample inefficient or are constrained to lab settings. Meanwhile, there has been a lot of success in processing passive, unstructured human data. We propose tackling this problem via an efficient one-shot robot learning algorithm, centered around learning from a third-person perspective. We call our method WHIRL: In-the-Wild Human Imitating Robot Learning. WHIRL extracts a prior over the intent of the human demonstrator, using it to initialize our agent's policy. We introduce an efficient real-world policy learning scheme that improves using interactions. Our key contributions are a simple sampling-based policy optimization approach, a novel objective function for aligning human and robot videos as well as an exploration method to boost sample efficiency. We show one-shot generalization and success in real-world settings, including 20 different manipulation tasks in the wild. Videos and talk at https://human2robot.github.io
翻訳日:2022-07-20 13:02:18 公開日:2022-07-19
# PiC: フレーズ理解と意味検索のためのPhrase-in-Contextデータセット

PiC: A Phrase-in-Context Dataset for Phrase Understanding and Semantic Search ( http://arxiv.org/abs/2207.09068v1 )

ライセンス: Link先を確認
Thang M. Pham, Seunghyun Yoon, Trung Bui, Anh Nguyen(参考訳) BERT (Devlin et al., 2018)以来、文脈化された単語の埋め込みの学習はNLPのデファクトスタンダードとなっている。 しかし、文脈化されたフレーズ埋め込みの学習の進歩は、人間の注釈付きフレーズインコンテキストベンチマークの欠如によって妨げられている。 このギャップを埋めるために, 名詞句のデータセットであるPiCを提案し, 文脈的ウィキペディアページと, 句埋め込みの質を評価するのに難易度を増す3つのタスクからなる。 我々のデータセットのトレーニングは、ランキングモデルの精度を向上し、質問回答モデル(QA)を、クエリフレーズとパスが与えられたセマンティックサーチで95%の精度で、ほぼ人間に近い精度に格上げする。 興味深いことに、このような印象的なパフォーマンスは、QAモデルが、実際の文脈に関係なく、フレーズの共通の意味をよりよく捉えることを学習しているためである。 すなわち、私たちのPhrase Sense Disambiguation(PSD)タスクでは、SotAモデルの精度は実質的に(60% EM)低下し、2つの異なる文脈下で同じフレーズの2つの異なる感覚を区別することができない。 3タスクのPiCベンチマークのさらなる結果は、文脈化されたフレーズの埋め込みの学習が、興味深い、オープンな課題であることを示している。

Since BERT (Devlin et al., 2018), learning contextualized word embeddings has been a de-facto standard in NLP. However, the progress of learning contextualized phrase embeddings is hindered by the lack of a human-annotated, phrase-in-context benchmark. To fill this gap, we propose PiC - a dataset of ~28K of noun phrases accompanied by their contextual Wikipedia pages and a suite of three tasks of increasing difficulty for evaluating the quality of phrase embeddings. We find that training on our dataset improves ranking models' accuracy and remarkably pushes Question Answering (QA) models to near-human accuracy which is 95% Exact Match (EM) on semantic search given a query phrase and a passage. Interestingly, we find evidence that such impressive performance is because the QA models learn to better capture the common meaning of a phrase regardless of its actual context. That is, on our Phrase Sense Disambiguation (PSD) task, SotA model accuracy drops substantially (60% EM), failing to differentiate between two different senses of the same phrase under two different contexts. Further results on our 3-task PiC benchmark reveal that learning contextualized phrase embeddings remains an interesting, open challenge.
翻訳日:2022-07-20 13:01:52 公開日:2022-07-19
# ILASR:生産規模の自動音声認識のためのプライバシ保護インクリメンタルラーニング

ILASR: Privacy-Preserving Incremental Learning for AutomaticSpeech Recognition at Production Scale ( http://arxiv.org/abs/2207.09078v1 )

ライセンス: Link先を確認
Gopinath Chennupati, Milind Rao, Gurpreet Chadha, Aaron Eakin, Anirudh Raju, Gautam Tiwari, Anit Kumar Sahu, Ariya Rastrow, Jasha Droppo, Andy Oberlin, Buddha Nandanoor, Prahalad Venkataramanan, Zheng Wu, Pankaj Sitpure(参考訳) インクリメンタル学習は、ストリーミングデータで大規模にモデルの構築と更新を可能にするパラダイムのひとつだ。 エンドツーエンドの自動音声認識(ASR)タスクでは、人間のアノテートラベルの欠如と、モデル構築のためのプライバシ保護ポリシーの必要性が大きな課題となっている。 これらの課題に動機づけられて,本論文では,製品システムのためのクラウドベースのフレームワークを用いて,自動音声認識(ilasr)のためのインクリメンタル学習のプライバシ保護からの洞察を実証する。 プライバシー保護によって、人間に注釈が付けられていない短命データの利用が減る。 このシステムは、段階的/連続的な学習のためのプロダクションレベルのASRモデルにおいて、エンドツーエンドのASRのためのクラウド実験のためのほぼリアルタイムなテストベッドを提供すると同時に、プライバシ保護ポリシーに準拠している。 そこで,本システムでは,段階的な学習において,弱い監督レベルと大きなバッチサイズを持つ人間のアノテートラベルが存在しない場合でも,6ヶ月の新たな期間で生産モデルを大幅に改善できることを示す。 この改善は、新しい期間に新しい単語とフレーズを持つテストセットに対して20%である。 本稿では,ASRのプライバシー保護型インクリメンタルなモデル構築の有効性を実証するとともに,効果的な教師モデルと大規模バッチサイズの使用の有用性について検討する。

Incremental learning is one paradigm to enable model building and updating at scale with streaming data. For end-to-end automatic speech recognition (ASR) tasks, the absence of human annotated labels along with the need for privacy preserving policies for model building makes it a daunting challenge. Motivated by these challenges, in this paper we use a cloud based framework for production systems to demonstrate insights from privacy preserving incremental learning for automatic speech recognition (ILASR). By privacy preserving, we mean, usage of ephemeral data which are not human annotated. This system is a step forward for production levelASR models for incremental/continual learning that offers near real-time test-bed for experimentation in the cloud for end-to-end ASR, while adhering to privacy-preserving policies. We show that the proposed system can improve the production models significantly(3%) over a new time period of six months even in the absence of human annotated labels with varying levels of weak supervision and large batch sizes in incremental learning. This improvement is 20% over test sets with new words and phrases in the new time period. We demonstrate the effectiveness of model building in a privacy-preserving incremental fashion for ASR while further exploring the utility of having an effective teacher model and use of large batch sizes.
翻訳日:2022-07-20 13:01:29 公開日:2022-07-19
# フランス語質問応答タスクにおけるトランスフォーマーモデルの有用性について

On the Usability of Transformers-based models for a French Question-Answering task ( http://arxiv.org/abs/2207.09150v1 )

ライセンス: Link先を確認
Oralie Cattan, Christophe Servan and Sophie Rosset(参考訳) 多くのタスクにおいて、Transformerベースのアーキテクチャで最先端の成果が得られ、結果としてタスク固有のアーキテクチャの使用から、事前訓練された言語モデルの微調整へのパラダイムシフトがもたらされた。 現在進行中のトレンドは、大量のデータとパラメータを持つトレーニングモデルであり、かなりのリソースを必要とする。 これは、英語のみで評価されるアルゴリズムとハードウェアの改善に基づいて、リソース効率を改善するための強力な検索につながる。 これにより、小規模の学習問題に適用する際のユーザビリティに関する疑問が提起される。 適切な大きさのコーパスの欠如は、強い不安定なケースでデータ駆動および転送学習ベースのアプローチを適用する上で障害となる。 本稿では,トランスフォーマティブ・モデルのユーザビリティに関する取り組みの最先端を確立し,資源の少ないフランス語の質問応答性能について,これらの改善を評価することを提案する。 本稿では,データ拡張,ハイパーパラメータ最適化,言語間移動による各種トレーニング戦略の検証により,データ不足に関する不安定性に対処する。 また,フランスのfralbertの新しいコンパクトモデルを導入し,低リソース環境での競争力を証明した。

For many tasks, state-of-the-art results have been achieved with Transformer-based architectures, resulting in a paradigmatic shift in practices from the use of task-specific architectures to the fine-tuning of pre-trained language models. The ongoing trend consists in training models with an ever-increasing amount of data and parameters, which requires considerable resources. It leads to a strong search to improve resource efficiency based on algorithmic and hardware improvements evaluated only for English. This raises questions about their usability when applied to small-scale learning problems, for which a limited amount of training data is available, especially for under-resourced languages tasks. The lack of appropriately sized corpora is a hindrance to applying data-driven and transfer learning-based approaches with strong instability cases. In this paper, we establish a state-of-the-art of the efforts dedicated to the usability of Transformer-based models and propose to evaluate these improvements on the question-answering performances of French language which have few resources. We address the instability relating to data scarcity by investigating various training strategies with data augmentation, hyperparameters optimization and cross-lingual transfer. We also introduce a new compact model for French FrALBERT which proves to be competitive in low-resource settings.
翻訳日:2022-07-20 13:01:06 公開日:2022-07-19
# フランス語音声理解タスクにおけるベンチマークトランスフォーマティブに基づくモデル

Benchmarking Transformers-based models on French Spoken Language Understanding tasks ( http://arxiv.org/abs/2207.09152v1 )

ライセンス: Link先を確認
Oralie Cattan, Sahar Ghannay, Christophe Servan and Sophie Rosset(参考訳) 過去5年間で、自己注意型トランスフォーマーベースのアーキテクチャの台頭は、多くの自然言語タスクに対して最先端のパフォーマンスをもたらした。 これらのアプローチはますます普及しているが、大量のデータと計算資源を必要とする。 データscarceアプリケーション条件において、非ソース言語に上向きのベンチマーク手法がいまだに必要である。 ほとんどの事前学習された言語モデルは英語を用いて大規模に研究され、フランス語による評価はごくわずかであった。 本稿では,2つの有名なフランス語言語理解タスクにおけるモデル品質とその生態的影響を評価することを目的とした統一ベンチマークを提案する。 特に、フランス語で利用可能な2つの言語理解タスクであるMEDIAとATIS-FRについて、13のよく確立されたTransformerベースのモデルをベンチマークする。 このフレームワーク内では、コンパクトモデルがより大きなモデルに匹敵する結果に到達できるが、その生態的影響は極めて低い。 しかし、この仮定はニュアンスであり、考慮された圧縮方法に依存する。

In the last five years, the rise of the self-attentional Transformer-based architectures led to state-of-the-art performances over many natural language tasks. Although these approaches are increasingly popular, they require large amounts of data and computational resources. There is still a substantial need for benchmarking methodologies ever upwards on under-resourced languages in data-scarce application conditions. Most pre-trained language models were massively studied using the English language and only a few of them were evaluated on French. In this paper, we propose a unified benchmark, focused on evaluating models quality and their ecological impact on two well-known French spoken language understanding tasks. Especially we benchmark thirteen well-established Transformer-based models on the two available spoken language understanding tasks for French: MEDIA and ATIS-FR. Within this framework, we show that compact models can reach comparable results to bigger ones while their ecological impact is considerably lower. However, this assumption is nuanced and depends on the considered compression method.
翻訳日:2022-07-20 13:00:44 公開日:2022-07-19
# 変圧器の形式的アルゴリズム

Formal Algorithms for Transformers ( http://arxiv.org/abs/2207.09238v1 )

ライセンス: Link先を確認
Mary Phuong and Marcus Hutter(参考訳) この文書は、トランスフォーマーアーキテクチャとアルゴリズム(*not*の結果)の自己完結的で数学的に精密な概観を目指しています。 トランスフォーマーとは何か、どのようにトレーニングされているのか、何に使われているのか、重要なアーキテクチャコンポーネント、最も顕著なモデルのプレビューをカバーしている。 読者はMLの基本的な用語や、MLPのような単純なニューラルネットワークアーキテクチャに精通していると推測されている。

This document aims to be a self-contained, mathematically precise overview of transformer architectures and algorithms (*not* results). It covers what transformers are, how they are trained, what they are used for, their key architectural components, and a preview of the most prominent models. The reader is assumed to be familiar with basic ML terminology and simpler neural network architectures such as MLPs.
翻訳日:2022-07-20 12:57:39 公開日:2022-07-19
# コントラスト学習の不確実性:下流性能の予測可能性について

Uncertainty in Contrastive Learning: On the Predictability of Downstream Performance ( http://arxiv.org/abs/2207.09336v1 )

ライセンス: Link先を確認
Shervin Ardeshir and Navid Azizan(参考訳) 今日の最先端のディープラーニングモデルの優れたパフォーマンスは、大規模データセットに対する広範な(自己)教師付きコントラスト事前トレーニングにある程度依存している。 対照的な学習では、ネットワークは正(類似)と負(類似)のデータポイントのペアで示され、各データポイント、すなわち、様々な下流タスクに対してさらに微調整可能な表現に対する埋め込みベクトルを見つけるように訓練される。 これらのモデルを重要な意思決定システムに安全にデプロイするためには、その不確実性や信頼性を測ることが不可欠である。 しかし、対照的なモデルの訓練の性質と出力に絶対ラベルがないこと(抽象埋め込みベクトル)により、従来の不確実性推定手法をそのようなモデルに適用することは簡単ではない。 本研究では,そのような表現の不確かさを1つのデータポイントに対して有意義に定量化できるかどうかを考察する。 言い換えれば、与えられたデータポイントの下流のパフォーマンスが、事前訓練された埋め込みから直接予測可能であるかどうかを探索する。 この目的は、埋め込み空間におけるトレーニングデータの分布を直接推定し、表現の局所的な一貫性を考慮することで達成できることを示す。 実験の結果, 埋め込みベクトルに対する不確実性の概念は下流の精度と強く相関していることがわかった。

The superior performance of some of today's state-of-the-art deep learning models is to some extent owed to extensive (self-)supervised contrastive pretraining on large-scale datasets. In contrastive learning, the network is presented with pairs of positive (similar) and negative (dissimilar) datapoints and is trained to find an embedding vector for each datapoint, i.e., a representation, which can be further fine-tuned for various downstream tasks. In order to safely deploy these models in critical decision-making systems, it is crucial to equip them with a measure of their uncertainty or reliability. However, due to the pairwise nature of training a contrastive model, and the lack of absolute labels on the output (an abstract embedding vector), adapting conventional uncertainty estimation techniques to such models is non-trivial. In this work, we study whether the uncertainty of such a representation can be quantified for a single datapoint in a meaningful way. In other words, we explore if the downstream performance on a given datapoint is predictable, directly from its pre-trained embedding. We show that this goal can be achieved by directly estimating the distribution of the training data in the embedding space and accounting for the local consistency of the representations. Our experiments show that this notion of uncertainty for an embedding vector often strongly correlates with its downstream accuracy.
翻訳日:2022-07-20 12:57:20 公開日:2022-07-19
# AIは180度でも使えるか? $\unicode{x2013}$ A Case Study on Authorship Analysis of Texts by Arata Osada

Can You Fool AI by Doing a 180? $\unicode{x2013}$ A Case Study on Authorship Analysis of Texts by Arata Osada ( http://arxiv.org/abs/2207.09085v1 )

ライセンス: Link先を確認
Jagna Nieuwazny, Karol Nowakowski, Michal Ptaszynski, Fumito Masui(参考訳) 本稿は,倫理と著者分析の領域をカバーする2つの質問に回答する試みである。 まず,著者分析に用いた手法は,著者が作成した内容によって作者が認識できることを示唆するものであるため,著者識別システムが著者に正しく属性付けできるかどうかを,数年のうちに大きな心理的移行を経た場合には,著者の正当性を判断することに興味がある。 第二に、著者の倫理的価値の進化の観点から、著者の帰属システムが単独の著者を検知する困難に遭遇した場合、その意味を検証した。 そこで我々は,事前学習したトランスフォーマーモデルに基づくテキスト分類器と,従来の類似度尺度に依存するベースライン手法を用いて,二元的オーサシップ解析タスクを実行することで,これらの質問に答えることにした。 テストセットについては、日本の教育史の教育者・専門家である尾田荒太の作品を選び、その半分は第二次世界大戦前と1950年代前半に書かれた書物であり、その間に政治的意見の転換が行われた。 As a result, we were able to confirm that in the case of texts authored by Arata Osada in a time span of more than 10 years, while the classification accuracy drops by a large margin and is substantially lower than for texts by other non-fiction writers, confidence scores of the predictions remain at a similar level as in the case of a shorter time span, indicating that the classifier was in many instances tricked into deciding that texts written over a time span of multiple years were actually written by two different people, which in turn leads us to believe that such a change can affect authorship analysis, and that historical events have great impact on a person's ethical outlook as expressed in their writings.

This paper is our attempt at answering a twofold question covering the areas of ethics and authorship analysis. Firstly, since the methods used for performing authorship analysis imply that an author can be recognized by the content he or she creates, we were interested in finding out whether it would be possible for an author identification system to correctly attribute works to authors if in the course of years they have undergone a major psychological transition. Secondly, and from the point of view of the evolution of an author's ethical values, we checked what it would mean if the authorship attribution system encounters difficulties in detecting single authorship. We set out to answer those questions through performing a binary authorship analysis task using a text classifier based on a pre-trained transformer model and a baseline method relying on conventional similarity metrics. For the test set, we chose works of Arata Osada, a Japanese educator and specialist in the history of education, with half of them being books written before the World War II and another half in the 1950s, in between which he underwent a transformation in terms of political opinions. As a result, we were able to confirm that in the case of texts authored by Arata Osada in a time span of more than 10 years, while the classification accuracy drops by a large margin and is substantially lower than for texts by other non-fiction writers, confidence scores of the predictions remain at a similar level as in the case of a shorter time span, indicating that the classifier was in many instances tricked into deciding that texts written over a time span of multiple years were actually written by two different people, which in turn leads us to believe that such a change can affect authorship analysis, and that historical events have great impact on a person's ethical outlook as expressed in their writings.
翻訳日:2022-07-20 12:56:22 公開日:2022-07-19
# 事前学習および微調整表現の類似性

Similarity of Pre-trained and Fine-tuned Representations ( http://arxiv.org/abs/2207.09225v1 )

ライセンス: Link先を確認
Thomas Goerttler and Klaus Obermayer(参考訳) 転送学習では、ネットワークの最後の部分(いわゆるヘッド)のみが、しばしば微調整される。 表現類似性分析は、たとえ全ての重みが上昇しても、最も大きな変化は頭の中で起こることを示している。 しかし、最近の数ショット学習の結果、特にクロスドメイン適応の場合、初期層における表現の変化は、主に畳み込み型であり、有益であることが示されている。 本論文では,それが転校学習にも当てはまるかどうかを考察する。 さらに, 事前学習と微調整の両方において, 伝達学習における表現の変化を分析し, 事前学習された構造が利用できないかどうかを確かめる。

In transfer learning, only the last part of the networks - the so-called head - is often fine-tuned. Representation similarity analysis shows that the most significant change still occurs in the head even if all weights are updatable. However, recent results from few-shot learning have shown that representation change in the early layers, which are mostly convolutional, is beneficial, especially in the case of cross-domain adaption. In our paper, we find out whether that also holds true for transfer learning. In addition, we analyze the change of representation in transfer learning, both during pre-training and fine-tuning, and find out that pre-trained structure is unlearned if not usable.
翻訳日:2022-07-20 12:55:33 公開日:2022-07-19
# 多床スマート環境における複数ユーザのパーソナライズ型環境支援生活のための屋内定位

Indoor Localization for Personalized Ambient Assisted Living of Multiple Users in Multi-Floor Smart Environments ( http://arxiv.org/abs/2207.09025v1 )

ライセンス: Link先を確認
Nirmalya Thakur and Chia Y. Han(参考訳) 本稿では,スマートな生活環境の今後における多様な高齢化の異なるニーズに対処することを目的とした,パーソナライズされた環境支援生活の発展に4つの科学的貢献をする多機能学際的枠組みを提案する。 まず、確率論的推論に基づく数学的アプローチを用いて、そのような環境における複数のユーザのユーザ多様性から生じるあらゆる活動に対して、あらゆる可能なユーザインタラクションの形式をモデル化する。 第2に,このアプローチを機械学習を用いて個々のユーザプロファイルとユーザ固有のユーザインタラクションをモデル化し,個々のユーザの動的屋内位置を検出するシステムを提案する。 第3に、信頼性の向上、信頼度の向上、シームレスなユーザ受け入れを実現するための高精度な屋内ローカライゼーションシステムの開発の必要性に対処するため、このフレームワークでは、屋内ローカライゼーションを行うための決定木に基づく学習モデルに、グラディエント・ブースティングとAdaBoostアルゴリズムを統合して利用する新しい手法を導入している。 第4に、このフレームワークは、各ユーザのフロア固有の位置を検知し、複数のフロアベースの屋内環境において、特定のユーザが所定の空間領域内外にあるかどうかをトラッキングする、という2つの新しい機能を導入している。 提案フレームワークの新機能は,5フロアと254室内空間領域からなる3つの建物をナビゲートした18の異なるユーザから収集した局所化関連ビッグデータのデータセットを用いて検証した。 その結果,個人別AALの屋内局所化手法は,平均的ユーザをモデル化する従来の手法に比べて,常に高い精度を達成できることがわかった。

This paper presents a multifunctional interdisciplinary framework that makes four scientific contributions towards the development of personalized ambient assisted living, with a specific focus to address the different and dynamic needs of the diverse aging population in the future of smart living environments. First, it presents a probabilistic reasoning-based mathematical approach to model all possible forms of user interactions for any activity arising from the user diversity of multiple users in such environments. Second, it presents a system that uses this approach with a machine learning method to model individual user profiles and user-specific user interactions for detecting the dynamic indoor location of each specific user. Third, to address the need to develop highly accurate indoor localization systems for increased trust, reliance, and seamless user acceptance, the framework introduces a novel methodology where two boosting approaches Gradient Boosting and the AdaBoost algorithm are integrated and used on a decision tree-based learning model to perform indoor localization. Fourth, the framework introduces two novel functionalities to provide semantic context to indoor localization in terms of detecting each user's floor-specific location as well as tracking whether a specific user was located inside or outside a given spatial region in a multi-floor-based indoor setting. These novel functionalities of the proposed framework were tested on a dataset of localization-related Big Data collected from 18 different users who navigated in 3 buildings consisting of 5 floors and 254 indoor spatial regions. The results show that this approach of indoor localization for personalized AAL that models each specific user always achieves higher accuracy as compared to the traditional approach of modeling an average user.
翻訳日:2022-07-20 12:55:22 公開日:2022-07-19
# RepBNN: 繰り返しによる特徴マップの強化による正確なバイナリニューラルネットワークに向けて

RepBNN: towards a precise Binary Neural Network with Enhanced Feature Map via Repeating ( http://arxiv.org/abs/2207.09049v1 )

ライセンス: Link先を確認
Xulong Shi, Zhi Qi, Jiaxuan Cai, Keqi Fu, Yaru Zhao, Zan Li, Xuanyu Liu, Hao Liu(参考訳) バイナリニューラルネットワーク(BNN)は、畳み込みニューラルネットワーク(CNN)の極端な量子化バージョンで、すべての特徴と重みを1ビットにマッピングする。 BNNは、CNNをエッジやモバイルデバイスに適用するために多くのメモリと計算要求を節約するが、バイナライゼーション後の表現能力の低下によりネットワーク性能が低下する。 本稿では, パラメータ数や畳み込み計算に余分なコストを伴わずに, チャネル次元に沿って入力や出力を$\beta$倍に複製することで, 特徴マップを改良する, 交換可能で使いやすい畳み込みモジュールRepConvを提案する。 また、バイナリ畳み込み、完全連結層、バッチ正規化など、BNNモジュール全体でRepConvを使用するためのRepTranルールのセットを定義します。 実験により、RepTran変換の後、高度に引用されたBNNのセットが、元のBNNバージョンよりも普遍的に優れたパフォーマンスを達成していることが示された。 例えば、Rep-ReCU-ResNet-20のTop-1精度、すなわちRepBconv拡張ReCU-ResNet-20は、元のネットワークよりも1.47%高いCIFAR-10上で88.97%に達する。 そしてRep-AdamBNN-ReActNet-Aは、BNNの新たな最先端結果であるImageNetで71.342%のTop-1精度を達成した。 コードとモデルは、https://github.com/imfinethanks/rep_adambnnで入手できる。

Binary neural network (BNN) is an extreme quantization version of convolutional neural networks (CNNs) with all features and weights mapped to just 1-bit. Although BNN saves a lot of memory and computation demand to make CNN applicable on edge or mobile devices, BNN suffers the drop of network performance due to the reduced representation capability after binarization. In this paper, we propose a new replaceable and easy-to-use convolution module RepConv, which enhances feature maps through replicating input or output along channel dimension by $\beta$ times without extra cost on the number of parameters and convolutional computation. We also define a set of RepTran rules to use RepConv throughout BNN modules like binary convolution, fully connected layer and batch normalization. Experiments demonstrate that after the RepTran transformation, a set of highly cited BNNs have achieved universally better performance than the original BNN versions. For example, the Top-1 accuracy of Rep-ReCU-ResNet-20, i.e., a RepBconv enhanced ReCU-ResNet-20, reaches 88.97% on CIFAR-10, which is 1.47% higher than that of the original network. And Rep-AdamBNN-ReActNet-A achieves 71.342% Top-1 accuracy on ImageNet, a fresh state-of-the-art result of BNNs. Code and models are available at:https://github.com/imfinethanks/Rep_AdamBNN.
翻訳日:2022-07-20 12:54:51 公開日:2022-07-19
# RCRN:スケルトン抽出による実世界キャラクタ画像復元ネットワーク

RCRN: Real-world Character Image Restoration Network via Skeleton Extraction ( http://arxiv.org/abs/2207.07795v2 )

ライセンス: Link先を確認
Daqian Shi, Xiaolei Diao, Hao Tang, Xiaomin Li, Hao Xing, Hao Xu(参考訳) 実世界の画像はしばしば画像劣化によって影響を受けるため、高品質な文字画像データセットの構築は困難である。 現実の文字画像に現在の画像復元法を適用する場合、それ以来制限がある。 (i)文字画像におけるノイズのカテゴリは、一般画像のものとは異なる。 (ii)実世界の文字画像は通常、より複雑な画像劣化、例えば異なる雑音レベルの混合雑音を含む。 これらの問題に対処するために,文字スケルトン情報とスケールアンサンブル特徴抽出を利用して,劣化した文字画像を効果的に復元する実世界の文字復元ネットワーク(RCRN)を提案する。 提案手法は, 骨格抽出器 (SENet) と文字画像復元器 (CiRNet) から構成される。 SENetは文字の構造的一貫性を維持し、複雑なノイズを正規化する。 そして、CiRNetは劣化した文字画像とその骨格からクリーンなイメージを再構築する。 実世界の文字画像復元のためのベンチマークの欠如により,提案手法の有効性を評価するために,実世界の劣化を伴う1,606文字画像を含むデータセットを構築した。 実験の結果,RCRNは最先端の手法よりも定量的に,質的に優れていた。

Constructing high-quality character image datasets is challenging because real-world images are often affected by image degradation. There are limitations when applying current image restoration methods to such real-world character images, since (i) the categories of noise in character images are different from those in general images; (ii) real-world character images usually contain more complex image degradation, e.g., mixed noise at different noise levels. To address these problems, we propose a real-world character restoration network (RCRN) to effectively restore degraded character images, where character skeleton information and scale-ensemble feature extraction are utilized to obtain better restoration performance. The proposed method consists of a skeleton extractor (SENet) and a character image restorer (CiRNet). SENet aims to preserve the structural consistency of the character and normalize complex noise. Then, CiRNet reconstructs clean images from degraded character images and their skeletons. Due to the lack of benchmarks for real-world character image restoration, we constructed a dataset containing 1,606 character images with real-world degradation to evaluate the validity of the proposed method. The experimental results demonstrate that RCRN outperforms state-of-the-art methods quantitatively and qualitatively.
翻訳日:2022-07-20 11:19:31 公開日:2022-07-19
# charformer:高精度文字画像検出のためのglyph fusionベースの注意フレームワーク

CharFormer: A Glyph Fusion based Attentive Framework for High-precision Character Image Denoising ( http://arxiv.org/abs/2207.07798v2 )

ライセンス: Link先を確認
Daqian Shi, Xiaolei Diao, Lida Shi, Hao Tang, Yang Chi, Chuntao Li, Hao Xu(参考訳) 劣化画像は一般的に文字画像の一般的なソースに存在し、不満足な文字認識結果をもたらす。 既存の手法では、劣化した文字画像の復元に力を入れている。 しかし,これらの手法は文字認識性能の向上に寄与しないと考えられる。 これは主に、現在の手法がピクセルレベルの情報のみに焦点をあて、グリフのような文字の批判的な特徴を無視しているためである。 本稿では,グリフ融合とアテンション機構に基づく新しい汎用フレームワーク,すなわちCharFormerを導入し,固有のグリフを変更せずに文字イメージを正確に復元する。 既存のフレームワークとは異なり、CharFormerでは、追加情報をキャプチャしてバックボーンを飾るイメージに注入する並列ターゲットタスクを導入している。 さらに,注目に基づくネットワークをグローバルな特徴相互作用に活用し,視覚障害者の認知と聴覚障害者のパフォーマンス向上に役立てる。 CharFormerを複数のデータセット上の最先端のメソッドと比較する。 実験の結果,CharFormerの定量的および定性的優位性を示した。

Degraded images commonly exist in the general sources of character images, leading to unsatisfactory character recognition results. Existing methods have dedicated efforts to restoring degraded character images. However, the denoising results obtained by these methods do not appear to improve character recognition performance. This is mainly because current methods only focus on pixel-level information and ignore critical features of a character, such as its glyph, resulting in character-glyph damage during the denoising process. In this paper, we introduce a novel generic framework based on glyph fusion and attention mechanisms, i.e., CharFormer, for precisely recovering character images without changing their inherent glyphs. Unlike existing frameworks, CharFormer introduces a parallel target task for capturing additional information and injecting it into the image denoising backbone, which will maintain the consistency of character glyphs during character image denoising. Moreover, we utilize attention-based networks for global-local feature interaction, which will help to deal with blind denoising and enhance denoising performance. We compare CharFormer with state-of-the-art methods on multiple datasets. The experimental results show the superiority of CharFormer quantitatively and qualitatively.
翻訳日:2022-07-20 11:19:06 公開日:2022-07-19
# コントラストとクラスタリングによるオープンワールドセマンティックセマンティックセグメンテーション

Open-world Semantic Segmentation via Contrasting and Clustering Vision-Language Embedding ( http://arxiv.org/abs/2207.08455v2 )

ライセンス: Link先を確認
Quande Liu, Youpeng Wen, Jianhua Han, Chunjing Xu, Hang Xu, Xiaodan Liang(参考訳) 教師付きセマンティックセグメンテーションと、任意の新しい概念を認識するための1つのモデルを取得する実世界のアプリケーションとのギャップを埋めるために、最近のゼロショットセグメンテーションは、見当たらないオブジェクトのカテゴリ間の関係を探求することで、多くの注目を集めている。 本稿では,インターネット上に自然に存在する画像取得データを純粋に活用することにより,様々なオープンワールドカテゴリのセマンティクスオブジェクトを,密接なアノテーションを使わずにセグメント化することを初めて試みる,新しいオープンワールドセマンティクスセグメンテーションパイプラインを提案する。 視覚言語駆動セマンティックセマンティックセマンティックセマンティクス(ViL-Seg)は画像とテキストエンコーダを用いて、画像キャプチャーデータに対する視覚的およびテキストエンコーダを生成し、そのセマンティクス能力を実現する2つのコアコンポーネントを備える: まず、画像エンコーダは視覚ベースのコントラストとクロスモーダルコントラストで共同で訓練され、視覚埋め込みがセマンティクスに不可欠な細粒度セマンティクスと高レベルカテゴリ情報の両方を保存することを奨励する。 さらに、画像エンコーダ上にオンラインクラスタリングヘッドを設計し、視覚的な埋め込みを異なるセマンティックグループに動的に分割し、様々なテキスト埋め込みと比較してセグメント化パイプラインを完了させることで分類することができる。 提案手法は,高密度アノテーションを使用せずに任意のカテゴリのオブジェクトを直接分割し,3つのベンチマークデータセット上でデータのラベル付けを必要とするゼロショットセグメンテーション法より優れていることを示す。

To bridge the gap between supervised semantic segmentation and real-world applications that acquires one model to recognize arbitrary new concepts, recent zero-shot segmentation attracts a lot of attention by exploring the relationships between unseen and seen object categories, yet requiring large amounts of densely-annotated data with diverse base classes. In this paper, we propose a new open-world semantic segmentation pipeline that makes the first attempt to learn to segment semantic objects of various open-world categories without any efforts on dense annotations, by purely exploiting the image-caption data that naturally exist on the Internet. Our method, Vision-language-driven Semantic Segmentation (ViL-Seg), employs an image and a text encoder to generate visual and text embeddings for the image-caption data, with two core components that endow its segmentation ability: First, the image encoder is jointly trained with a vision-based contrasting and a cross-modal contrasting, which encourage the visual embeddings to preserve both fine-grained semantics and high-level category information that are crucial for the segmentation task. Furthermore, an online clustering head is devised over the image encoder, which allows to dynamically segment the visual embeddings into distinct semantic groups such that they can be classified by comparing with various text embeddings to complete our segmentation pipeline. Experiments show that without using any data with dense annotations, our method can directly segment objects of arbitrary categories, outperforming zero-shot segmentation methods that require data labeling on three benchmark datasets.
翻訳日:2022-07-20 11:18:47 公開日:2022-07-19
# 最小記述長制御

Minimum Description Length Control ( http://arxiv.org/abs/2207.08258v2 )

ライセンス: Link先を確認
Ted Moskovitz, Ta-Chu Kao, Maneesh Sahani, Matthew M. Botvinick(参考訳) 最小記述長(MDL)原理に基づくマルチタスク強化学習のための新しいフレームワークを提案する。 MDL制御(MDL-C)と呼ばれるこのアプローチでは、エージェントは、直面するタスク間の共通構造を学習し、それをより単純な表現に蒸留し、新しいタスクへのより早い収束と一般化を容易にする。 MDL-Cは各タスクへの適応とタスク分布に対する認識的不確実性とを自然にバランスさせる。 我々はMDL-Cの原理とベイジアン推論の形式的接続を通じて、MDL-Cを動機付け、理論的な性能保証を導き、MDL-Cの離散的および高次元連続制御タスクにおける経験的効果を示す。 このフレームワークは、離散的かつ高次元の連続制御問題において、既存のポリシー最適化アプローチの修正やマルチタスク性能の向上に利用されている。

We propose a novel framework for multitask reinforcement learning based on the minimum description length (MDL) principle. In this approach, which we term MDL-control (MDL-C), the agent learns the common structure among the tasks with which it is faced and then distills it into a simpler representation which facilitates faster convergence and generalization to new tasks. In doing so, MDL-C naturally balances adaptation to each task with epistemic uncertainty about the task distribution. We motivate MDL-C via formal connections between the MDL principle and Bayesian inference, derive theoretical performance guarantees, and demonstrate MDL-C's empirical effectiveness on both discrete and high-dimensional continuous control tasks. %Empirically, this framework is used to modify existing policy optimization approaches and improves their multitask performance in both discrete and high-dimensional continuous control problems.
翻訳日:2022-07-20 11:17:41 公開日:2022-07-19
# GATE: 語彙分類と回帰のためのGated Additive Tree Ensemble

GATE: Gated Additive Tree Ensemble for Tabular Classification and Regression ( http://arxiv.org/abs/2207.08548v2 )

ライセンス: Link先を確認
Manu Joseph, Harsh Raj(参考訳) 本稿では,グラフデータのための新しい高性能,パラメータ,計算効率の高いディープラーニングアーキテクチャ,Gated Additive Tree Ensemble(GATE)を提案する。 GATEはGRUにインスパイアされたゲーティングメカニズムを、内蔵された特徴選択機構を備えた特徴表現学習ユニットとして使用している。 これを微分可能で非線形な決定木のアンサンブルと組み合わせ、望ましいアウトプットを予測するために単純な自己拘束で再重み付けします。 GATEは、いくつかの公開データセット(分類と回帰の両方)の実験により、GBDT、NODE、FT変換器などのSOTAアプローチの競合代替手段であることを示した。 レビューが終わったら、コードはすぐにアップロードされる。

We propose a novel high-performance, parameter and computationally efficient deep learning architecture for tabular data, Gated Additive Tree Ensemble(GATE). GATE uses a gating mechanism, inspired from GRU, as a feature representation learning unit with an in-built feature selection mechanism. We combine it with an ensemble of differentiable, non-linear decision trees, re-weighted with simple self-attention to predict our desired output. We demonstrate that GATE is a competitive alternative to SOTA approaches like GBDTs, NODE, FT Transformers, etc. by experiments on several public datasets (both classification and regression). The code will be uploaded as soon as the paper comes out of review.
翻訳日:2022-07-20 11:17:25 公開日:2022-07-19
# データストリームのための軽量自動機能監視

Lightweight Automated Feature Monitoring for Data Streams ( http://arxiv.org/abs/2207.08640v2 )

ライセンス: Link先を確認
Jo\~ao Conde, Ricardo Moreira, Jo\~ao Torres, Pedro Cardoso, Hugo R.C. Ferreira, Marco O.P. Sampaio, Jo\~ao Tiago Ascens\~ao, Pedro Bizarro(参考訳) リアルタイムストリーム処理自動化システムの動作監視は,実世界のアプリケーションにおいて最も重要な問題の1つとなっている。 このようなシステムは高次元の入力データと機械学習(ML)アルゴリズムに大きく依存して複雑化している。 本稿では,このようなデータセットにおけるデータドリフトを検出し,メモリフットプリントが小さく,ストリーミングアプリケーションの計算コストも小さく,フレキシブルな機能監視システムであるFMを提案する。 この方法は多変量統計テストに基づいており、設計によって駆動されるデータである(全参照分布はデータから推定される)。 システムで使用されるすべての機能を監視し、アラームが発生するたびに解釈可能な機能をランク付けする(根本原因分析を支援する)。 システムの計算と記憶の軽さは指数的に動くヒストグラムを使用することによって生じる。 実験では, システムの挙動をパラメータで解析し, さらに重要な点として, 1つの特徴に直接関連しない問題を検出する例を示す。 これはfmが特定の種類の問題を検出するためにカスタム信号を追加する必要をなくし、利用可能な機能領域の監視が十分であることを示す。

Monitoring the behavior of automated real-time stream processing systems has become one of the most relevant problems in real world applications. Such systems have grown in complexity relying heavily on high dimensional input data, and data hungry Machine Learning (ML) algorithms. We propose a flexible system, Feature Monitoring (FM), that detects data drifts in such data sets, with a small and constant memory footprint and a small computational cost in streaming applications. The method is based on a multi-variate statistical test and is data driven by design (full reference distributions are estimated from the data). It monitors all features that are used by the system, while providing an interpretable features ranking whenever an alarm occurs (to aid in root cause analysis). The computational and memory lightness of the system results from the use of Exponential Moving Histograms. In our experimental study, we analyze the system's behavior with its parameters and, more importantly, show examples where it detects problems that are not directly related to a single feature. This illustrates how FM eliminates the need to add custom signals to detect specific types of problems and that monitoring the available space of features is often enough.
翻訳日:2022-07-20 11:17:15 公開日:2022-07-19
# ニュースレコメンデーションのための多目的ニュース系列のモデル化

Modeling Multi-interest News Sequence for News Recommendation ( http://arxiv.org/abs/2207.07331v2 )

ライセンス: Link先を確認
Rongyao Wang, Wenpeng Lu(参考訳) セッションベースのニュースレコメンダシステムは、セッション中の彼女/ヒムによってクリックされたニュースのシーケンスに埋め込まれた潜在的な興味をモデル化することにより、ユーザに次のニュースを推薦する。 一般に、ユーザの興味は多様であり、セッション内では、異なるトピックのニュースなど、さまざまなタイプのニュースに対応する複数の関心がある。 %のモデル化がニュースレコメンデーションに重要である。 しかし、既存の方法の多くはそのような重要な特徴を見落としており、それによってユーザーの潜在的な複数の関心を区別しモデル化できず、次のニュースの正確な推薦を妨げる。 そこで本稿では,ニュースレコメンデーションのための多目的ニュースシーケンス(MINS)モデルを提案する。 MINSでは、自己注意に基づくニュースエンコーダを、各ニュースに対する情報埋め込みを学習するために考案し、その後、次のニュースレコメンデーションに備えて、ニュースシーケンスに埋め込まれた潜在的な複数の興味を引き出すために、新しい並列関心ネットワークを考案する。 実世界のデータセットにおける実験結果は、我々のモデルが最先端比較モデルよりも優れた性能を達成できることを示しています。

A session-based news recommender system recommends the next news to a user by modeling the potential interests embedded in a sequence of news read/clicked by her/him in a session. Generally, a user's interests are diverse, namely there are multiple interests corresponding to different types of news, e.g., news of distinct topics, within a session. %Modeling such multiple interests is critical for precise news recommendation. However, most of existing methods typically overlook such important characteristic and thus fail to distinguish and model the potential multiple interests of a user, impeding accurate recommendation of the next piece of news. Therefore, this paper proposes multi-interest news sequence (MINS) model for news recommendation. In MINS, a news encoder based on self-attention is devised on learn an informative embedding for each piece of news, and then a novel parallel interest network is devised to extract the potential multiple interests embedded in the news sequence in preparation for the subsequent next-news recommendations. The experimental results on a real-world dataset demonstrate that our model can achieve better performance than the state-of-the-art compared models.
翻訳日:2022-07-20 11:16:57 公開日:2022-07-19
# 確率的市場ゲーム

Stochastic Market Games ( http://arxiv.org/abs/2207.07388v3 )

ライセンス: Link先を確認
Kyrill Schmid, Lenz Belzner, Robert M\"uller, Johannes Tochtermann, Claudia Linnhoff-Popien(参考訳) 自律運転やファクトリー・アズ・ア・サービスのようなマルチエージェントシステムの最も関連する将来の応用は、エージェントが相反する目標を持つ可能性がある混合動機的シナリオを示す。 これらの設定では、エージェントは、過剰な欲望行動のような独立した学習の下での協調の観点から望ましくない結果を学ぶ可能性が高い。 本研究は,現実社会に動機づけられ,エージェントが協力的になるためのインセンティブを提供するために,市場力を活用することを提案する。 囚人のジレンマの反復版で示されるように、提案された市場の定式化はゲームのダイナミクスを変え、一貫して協調政策を学ぶことができる。 さらに,各種エージェントの空間的および時間的拡張設定におけるアプローチの評価を行った。 我々は、市場の存在が、トレーディング活動を通じて、総合的な結果とエージェント個人のリターンの両方を改善できることを実証的に見出す。

Some of the most relevant future applications of multi-agent systems like autonomous driving or factories as a service display mixed-motive scenarios, where agents might have conflicting goals. In these settings agents are likely to learn undesirable outcomes in terms of cooperation under independent learning, such as overly greedy behavior. Motivated from real world societies, in this work we propose to utilize market forces to provide incentives for agents to become cooperative. As demonstrated in an iterated version of the Prisoner's Dilemma, the proposed market formulation can change the dynamics of the game to consistently learn cooperative policies. Further we evaluate our approach in spatially and temporally extended settings for varying numbers of agents. We empirically find that the presence of markets can improve both the overall result and agent individual returns via their trading activities.
翻訳日:2022-07-20 11:16:37 公開日:2022-07-19
# 低光画像強調のための構造優先生成逆変換器

Structural Prior Guided Generative Adversarial Transformers for Low-Light Image Enhancement ( http://arxiv.org/abs/2207.07828v2 )

ライセンス: Link先を確認
Cong Wang and Jinshan Pan and Xiao-Ming Wu(参考訳) 低照度画像強調を実現するために,SPGAT (Structure Prior Guided Generative Adversarial Transformer) を提案する。 SPGATは主に2つの判別器と構造的事前推定器(SPE)を備えるジェネレータを含む。 ジェネレータはu字型のトランスをベースとし、非局所的な情報を探索してより鮮明な画像復元を行う。 SPEは画像から有用な構造を探索し、より詳細な構造推定のためにジェネレータを誘導する。 より現実的な画像を生成するため,我々は,ジェネレータと識別器のスキップ接続を構築し,実特徴と偽特徴を識別しやすくすることで,新しい構造的事前学習手法を開発した。 最後に,高品質画像復元のために,異なる階層的特徴を集約する並列windowsベースのスウィントランスブロックを提案する。 実験結果から,SPGATは合成データセットと実世界のデータセットの両方において,最近の最先端手法に対して好適に動作することが示された。

We propose an effective Structural Prior guided Generative Adversarial Transformer (SPGAT) to solve low-light image enhancement. Our SPGAT mainly contains a generator with two discriminators and a structural prior estimator (SPE). The generator is based on a U-shaped Transformer which is used to explore non-local information for better clear image restoration. The SPE is used to explore useful structures from images to guide the generator for better structural detail estimation. To generate more realistic images, we develop a new structural prior guided adversarial learning method by building the skip connections between the generator and discriminators so that the discriminators can better discriminate between real and fake features. Finally, we propose a parallel windows-based Swin Transformer block to aggregate different level hierarchical features for high-quality image restoration. Experimental results demonstrate that the proposed SPGAT performs favorably against recent state-of-the-art methods on both synthetic and real-world datasets.
翻訳日:2022-07-20 11:16:21 公開日:2022-07-19
# 等方的3次元流体減衰反転磁気共鳴画像における白色物質超強度の偏差:ノルウェー国立画像データベースにおける深層学習ツールの比較

Segmenting white matter hyperintensities on isotropic three-dimensional Fluid Attenuated Inversion Recovery magnetic resonance images: A comparison of Deep learning tools on a Norwegian national imaging database ( http://arxiv.org/abs/2207.08467v2 )

ライセンス: Link先を確認
Martin Soria Roevang, Per Selnes, Bradley John MacIntosh, Inge Rasmus Groote, Lene Paalhaugen, Carole Sudre, Tormod Fladby, Atle Bjoernerud(参考訳) 磁気共鳴画像(MRI)の神経画像解析において,白質超強度の自動セグメンテーション(WMHs)は重要なステップである。 FLAIR-weighted(Fluid Attenuated Inversion Recovery)は、脳小血管疾患とアルツハイマー病(AD)の指標であるWMHの可視化と定量化に特に有用であるMRI造影剤である。 臨床MRIプロトコルは3次元のFLAIR強調取得に移行し、3つのボクセル次元の高空間分解能を実現する。 本研究は,全国広告撮像イニシアチブの一環として取得した3dフレア強調画像から,自動wmhセグメンテーションとキャラクタリゼーションを実現するための深層学習ツールの展開について詳述する。 DDIによる642人(男性283人、平均年齢:65.18歳/-9.33歳)のうち、国内5か所で2つのネットワークをトレーニングし、検証した。 3つのモデルが642人の参加者による内部データの保留サブセットと29人の国際協力者による外部データセットでテストされた。 これらのテストセットは独立して評価された。 5つの確立されたWMH性能測定値を用いて,実測値との比較を行った。 実験した3つのネットワークの結果、3D nnU-Netは平均サイコロ類似係数スコア0.78 +/- 0.10で最高の性能を示し、社内で開発された2.5DモデルとSOTAディープベイズネットワークよりも優れた性能を示した。 また,MRIプロトコルにおける3次元FLAIR強調画像の利用の増加に伴い,WMHセグメンテーションモデルが3次元データに基づいてトレーニングされ,T1強調画像系列を含まないまま,最先端技術に匹敵するWMHセグメンテーション性能が得られることが示唆された。

Automated segmentation of white matter hyperintensities (WMHs) is an essential step in neuroimaging analysis of Magnetic Resonance Imaging (MRI). Fluid Attenuated Inversion Recovery (FLAIR-weighted) is an MRI contrast that is particularly useful to visualize and quantify WMHs, a hallmark of cerebral small vessel disease and Alzheimer's disease (AD). Clinical MRI protocols migrate to a three-dimensional (3D) FLAIR-weighted acquisition to enable high spatial resolution in all three voxel dimensions. The current study details the deployment of deep learning tools to enable automated WMH segmentation and characterization from 3D FLAIR-weighted images acquired as part of a national AD imaging initiative. Among 642 participants (283 male, mean age: (65.18 +/- 9.33) years) from the DDI study, two in-house networks were trained and validated across five national collection sites. Three models were tested on a held-out subset of the internal data from the 642 participants and an external dataset with 29 cases from an international collaborator. These test sets were evaluated independently. Five established WMH performance metrics were used for comparison against ground truth human-in-the-loop segmentation. Results of the three networks tested, the 3D nnU-Net had the best performance with an average dice similarity coefficient score of 0.78 +/- 0.10, performing better than both the in-house developed 2.5D model and the SOTA Deep Bayesian network. With the increasing use of 3D FLAIR-weighted images in MRI protocols, our results suggest that WMH segmentation models can be trained on 3D data and yield WMH segmentation performance that is comparable to or better than state-of-the-art without the need for including T1-weighted image series.
翻訳日:2022-07-20 11:16:04 公開日:2022-07-19
# 低storageアクティベーションのための学習可能な混合精度と次元縮小共設計

Learnable Mixed-precision and Dimension Reduction Co-design for Low-storage Activation ( http://arxiv.org/abs/2207.07931v2 )

ライセンス: Link先を確認
Yu-Shan Tai, Cheng-Yang Chang, Chieh-Fang Teng, and AnYeu (Andy) Wu(参考訳) 近年、深層畳み込みニューラルネットワーク (CNN) は眼球運動の結果を多く達成している。 しかしながら、リソース制約のあるエッジデバイスへのcnnのデプロイは、推論、すなわちアクティベーション中に大きな中間データを送信するためのメモリ帯域幅の制限によって制限される。 既存の研究は、計算の複雑さを減らすために混合精度と次元の縮小を利用するが、アクティベーション圧縮への応用にはあまり注意を払わない。 活性化の冗長性をさらに活用するために,チャネルをグループに分け,その重要度に応じて特定の圧縮ポリシーを割り当てる学習可能な混合精度・次元縮小コデザインシステムを提案する。 さらに,提案手法は探索空間を拡大し,最適なビット幅割り当てを自動的に検出する。 実験の結果,提案手法の精度は3.54%/1.27%向上し,既存のResNet18とMobileNetv2の混合精度に比べて0.18/2.02ビットの削減が可能であった。

Recently, deep convolutional neural networks (CNNs) have achieved many eye-catching results. However, deploying CNNs on resource-constrained edge devices is constrained by limited memory bandwidth for transmitting large intermediated data during inference, i.e., activation. Existing research utilizes mixed-precision and dimension reduction to reduce computational complexity but pays less attention to its application for activation compression. To further exploit the redundancy in activation, we propose a learnable mixed-precision and dimension reduction co-design system, which separates channels into groups and allocates specific compression policies according to their importance. In addition, the proposed dynamic searching technique enlarges search space and finds out the optimal bit-width allocation automatically. Our experimental results show that the proposed methods improve 3.54%/1.27% in accuracy and save 0.18/2.02 bits per value over existing mixed-precision methods on ResNet18 and MobileNetv2, respectively.
翻訳日:2022-07-20 11:15:28 公開日:2022-07-19
# 分子データにおける点と不確かさの学習

Learning inducing points and uncertainty on molecular data ( http://arxiv.org/abs/2207.07654v2 )

ライセンス: Link先を確認
Mikhail Tsitsvero(参考訳) 不確実性制御と大規模データセットへのスケーラビリティは、ガウス過程モデルを自律材料と化学空間探査パイプラインに展開するための2つの主要な問題である。 これら2つの問題に対処する一つの方法は、潜在変数の導入と、限界ログライクな目的に対する正しい近似の選択である。 本稿では, 高次元分子ディスクリプタ空間における誘導点の変分学習が, サンプル分子動力学データセットによる試験構成の予測品質と不確実性評価の両方を著しく改善することを示す。 さらに,誘導点が誘導点の初期化集合には存在しない異なるタイプの分子の構成を表現できることを示した。 予測的ログ類似性はガウス過程モデルに匹敵する予測的品質と優れた不確実性制御をもたらすことを示した。 最後に,機械学習モデルが高次元ディスクリプタ空間における分子配置を補間することによって予測を行うかどうかについて述べる。 直観的かつ高密度にサンプリングされた分子動力学データセットでさえも、ほとんどの予測は外挿法で行われている。

Uncertainty control and scalability to large datasets are the two main issues for the deployment of Gaussian process models into the autonomous material and chemical space exploration pipelines. One way to address both of these issues is by introducing the latent inducing variables and choosing the right approximation for the marginal log-likelihood objective. Here, we show that variational learning of the inducing points in the high-dimensional molecular descriptor space significantly improves both the prediction quality and uncertainty estimates on test configurations from a sample molecular dynamics dataset. Additionally, we show that inducing points can learn to represent the configurations of the molecules of different types that were not present within the initialization set of inducing points. Among several evaluated approximate marginal log-likelihood objectives, we show that the predictive log-likelihood provides both the predictive quality comparable to the exact Gaussian process model and excellent uncertainty control. Finally, we comment on whether a machine learning model makes predictions by interpolating the molecular configurations in high-dimensional descriptor space. We show that despite our intuition, and even for densely sampled molecular dynamics datasets, most of the predictions are done in the extrapolation regime.
翻訳日:2022-07-20 11:15:10 公開日:2022-07-19
# MLGOPerf:パフォーマンスを最適化するMLガイドインライナー

MLGOPerf: An ML Guided Inliner to Optimize Performance ( http://arxiv.org/abs/2207.08389v2 )

ライセンス: Link先を確認
Amir H. Ashouri, Mostafa Elhoushi, Yuzhe Hua, Xiang Wang, Muhammad Asif Manzoor, Bryan Chan and Yaoqing Gao(参考訳) 過去25年間、我々はコンパイラ空間への機械学習の広範な応用、選択と位相順序付けの問題を見てきた。 しかし、制限された作業は最先端のコンパイラ、すなわちllvmにアップストリームされ、ユーザが容易にデプロイできるコンパイラの最適化パイプラインに前者をシームレスに統合している。 MLGOは最初のプロジェクトのひとつであり、Reinforcement Learningを使用したMLベースのInlinerを使ってバイナリのコードサイズを削減しようとしているだけだ。 本稿では,LLVM の ML-Inliner を用いて性能を最適化できる初のエンドツーエンドフレームワークである MLGOPerf について述べる。 MLGOのプライマリモデルとして使用されていた再ターゲット強化学習エージェントのトレーニングに使用する報酬を生成するために、セカンダリMLモデルを使用している。 分析中の関数のインライン後のスピードアップを予測し、そうでなければ実用的でないプライマリモデルのための高速なトレーニングフレームワークを可能にする。 実験の結果、MLGOPerfは、SPEC CPU2006とCbenchベンチマークのパフォーマンスのトレーニングにおいて、O3におけるLLVMの最適化に関して、最大1.8%と2.2%を得ることができた。 さらに、提案手法は、ベンチマークのコード領域を自動調整する機会を最大26%増加させ、さらに3.7%のスピードアップ値に変換します。

For the past 25 years, we have witnessed an extensive application of Machine Learning to the Compiler space; the selection and the phase-ordering problem. However, limited works have been upstreamed into the state-of-the-art compilers, i.e., LLVM, to seamlessly integrate the former into the optimization pipeline of a compiler to be readily deployed by the user. MLGO was among the first of such projects and it only strives to reduce the code size of a binary with an ML-based Inliner using Reinforcement Learning. This paper presents MLGOPerf; the first end-to-end framework capable of optimizing performance using LLVM's ML-Inliner. It employs a secondary ML model to generate rewards used for training a retargeted Reinforcement learning agent, previously used as the primary model by MLGO. It does so by predicting the post-inlining speedup of a function under analysis and it enables a fast training framework for the primary model which otherwise wouldn't be practical. The experimental results show MLGOPerf is able to gain up to 1.8% and 2.2% with respect to LLVM's optimization at O3 when trained for performance on SPEC CPU2006 and Cbench benchmarks, respectively. Furthermore, the proposed approach provides up to 26% increased opportunities to autotune code regions for our benchmarks which can be translated into an additional 3.7% speedup value.
翻訳日:2022-07-20 11:14:52 公開日:2022-07-19
# 線形モデル上では眠らない: 簡易かつ解釈可能な深層学習法

Do Not Sleep on Linear Models: Simple and Interpretable Techniques Outperform Deep Learning for Sleep Scoring ( http://arxiv.org/abs/2207.07753v2 )

ライセンス: Link先を確認
Jeroen Van Der Donckt, Jonas Van Der Donckt, Emiel Deprost, Nicolas Vandenbussche, Michael Rademaker, Gilles Vandewiele, Sofie Van Hoecke(参考訳) 過去数年間、自動睡眠スコアリングの研究は、より複雑なディープラーニングアーキテクチャの開発に重点を置いてきた。 しかし、最近これらのアプローチは限界的な改善しか達成せず、多くの場合、より多くのデータとより高価な訓練手順を必要とした。 これらの努力と十分な性能にもかかわらず、自動睡眠ステージングソリューションはまだ臨床環境では広く採用されていない。 睡眠スコアリングのためのディープラーニングソリューションのほとんどは、トレーニング、デプロイ、再現が難しいため、実際の適用性に制限がある、と私たちは主張する。 さらに、これらのソリューションには解釈可能性や透明性が欠如しています。 本研究では,従来の機械学習を用いた睡眠ステージ分類の問題を再考する。 その結果、前処理、特徴抽出、単純な機械学習モデルからなる従来の機械学習パイプラインによって、最先端のパフォーマンスを達成できることがわかった。 特に線形モデルと非線形(漸進的なブースティング)モデルの性能を解析する。 当社のアプローチは,Sleep-EDF SC-20 (MF1 0.810) とSleep-EDF ST (MF1 0.795) の2つの公開データセット上での最先端(同じデータを使用する)を越えつつ,Sleep-EDF SC-78 (MF1 0.775) とMASS SS3 (MF1 0.817) の競合結果を達成している。 睡眠ステージスコアリングタスクでは,設計された特徴ベクトルの表現性は,ディープラーニングモデルの内部学習表現と同等であることが示されている。 この観察は、典型的な機能ベクターとして、従来の機械学習モデルの解釈可能性と成功実績の両方を活用できるため、臨床採用への扉を開く。

Over the last few years, research in automatic sleep scoring has mainly focused on developing increasingly complex deep learning architectures. However, recently these approaches achieved only marginal improvements, often at the expense of requiring more data and more expensive training procedures. Despite all these efforts and their satisfactory performance, automatic sleep staging solutions are not widely adopted in a clinical context yet. We argue that most deep learning solutions for sleep scoring are limited in their real-world applicability as they are hard to train, deploy, and reproduce. Moreover, these solutions lack interpretability and transparency, which are often key to increase adoption rates. In this work, we revisit the problem of sleep stage classification using classical machine learning. Results show that state-of-the-art performance can be achieved with a conventional machine learning pipeline consisting of preprocessing, feature extraction, and a simple machine learning model. In particular, we analyze the performance of a linear model and a non-linear (gradient boosting) model. Our approach surpasses state-of-the-art (that uses the same data) on two public datasets: Sleep-EDF SC-20 (MF1 0.810) and Sleep-EDF ST (MF1 0.795), while achieving competitive results on Sleep-EDF SC-78 (MF1 0.775) and MASS SS3 (MF1 0.817). We show that, for the sleep stage scoring task, the expressiveness of an engineered feature vector is on par with the internally learned representations of deep learning models. This observation opens the door to clinical adoption, as a representative feature vector allows to leverage both the interpretability and successful track record of traditional machine learning models.
翻訳日:2022-07-20 11:12:07 公開日:2022-07-19
# 間欠的クライアントを用いた医用イメージングのための連合学習の性能とスケーラビリティに関する研究

Study of the performance and scalability of federated learning for medical imaging with intermittent clients ( http://arxiv.org/abs/2207.08581v2 )

ライセンス: Link先を確認
Judith S\'ainz-Pardo D\'iaz and \'Alvaro L\'opez Garc\'ia(参考訳) フェデレーション学習(federated learning)は、マシンラーニングやディープラーニングを安全な方法で実行するために使用される、データ分散プライバシ保存テクニックである。 本稿では,集約演算子の提示,異なる種類のフェデレーション学習,およびクライアントからのデータの分布に関して考慮すべき課題など,フェデレーション学習に関する理論的側面と,クライアント数が異なるユースケースの徹底的な解析について述べる。 具体的には,オープンデータリポジトリから得られた胸部x線画像を用いて,医用画像解析のユースケースを提案する。 プライバシに関するメリットに加えて,従来のケース(中央集権的アプローチ)に関して,予測(曲線の精度と面積)の改善と実行時間の短縮について検討する。 異なるクライアントはトレーニングデータからシミュレートされ、不均衡な方法で選択される。 3人か10人のクライアントを検討した結果が公開され、それらと集中型のケースとを比較します。 従うべき2つのアプローチは、断続的なクライアントの場合で分析され、実際のシナリオでは、一部のクライアントがトレーニングを離れ、いくつかの新しいクライアントがトレーニングに入る。 テストセットの精度、曲線下領域、実行時間の観点からの結果の進化は、元のデータを分割したクライアント数の増加として示される。 最後に,この分野の改善と今後の取り組みについて述べる。

Federated learning is a data decentralization privacy-preserving technique used to perform machine or deep learning in a secure way. In this paper we present theoretical aspects about federated learning, such as the presentation of an aggregation operator, different types of federated learning, and issues to be taken into account in relation to the distribution of data from the clients, together with the exhaustive analysis of a use case where the number of clients varies. Specifically, a use case of medical image analysis is proposed, using chest X-ray images obtained from an open data repository. In addition to the advantages related to privacy, improvements in predictions (in terms of accuracy and area under the curve) and reduction of execution times will be studied with respect to the classical case (the centralized approach). Different clients will be simulated from the training data, selected in an unbalanced manner, i.e., they do not all have the same number of data. The results of considering three or ten clients are exposed and compared between them and against the centralized case. Two approaches to follow will be analyzed in the case of intermittent clients, as in a real scenario some clients may leave the training, and some new ones may enter the training. The evolution of the results for the test set in terms of accuracy, area under the curve and execution time is shown as the number of clients into which the original data is divided increases. Finally, improvements and future work in the field are proposed.
翻訳日:2022-07-20 11:11:34 公開日:2022-07-19
# FakeCLR:データ効率のよいGANで遅延不連続を解決するためのコントラスト学習

FakeCLR: Exploring Contrastive Learning for Solving Latent Discontinuity in Data-Efficient GANs ( http://arxiv.org/abs/2207.08630v2 )

ライセンス: Link先を確認
Ziqiang Li, Chaoyue Wang, Heliang Zheng, Jing Zhang, Bin Li(参考訳) データ効率のよいGAN(DE-GAN)は、限られたトレーニングデータで生成モデルを学習することを目的としており、高品質なサンプルを生成する上でいくつかの課題に直面している。 データ強化戦略がトレーニング不安定を緩和しているため、DE-GANの生成性能をさらに向上する方法がホットスポットとなっている。 近年,D-GANの合成品質向上に大きな可能性を示しているが,関連する原理はよく研究されていない。 本稿では,de-gansにおける異なるコントラスト学習戦略を再検討し,比較し,同定する。 (i)現在、生成性能のボトルネックは、潜伏空間の不連続である。 (ii) 他の対照的な学習戦略と比較して, インスタンス摂動は潜在空間連続性に向けられ, デガンに大きな改善をもたらす。 これらの観察に基づいて,摂動した偽サンプルの対比学習のみを適用し,ノイズ関連潜在性拡張,多様性対応キュー,待ち行列の欠落要因という3つの関連するトレーニング手法を考案したfakeclrを提案する。 実験結果から,少数ショット生成と限定データ生成の両面でのアートの新たな状態が明らかとなった。 複数のデータセットで、FakeCLRは既存のDE-GANと比較して15%以上のFID改善を達成している。 コードはhttps://github.com/iceli1007/FakeCLRで入手できる。

Data-Efficient GANs (DE-GANs), which aim to learn generative models with a limited amount of training data, encounter several challenges for generating high-quality samples. Since data augmentation strategies have largely alleviated the training instability, how to further improve the generative performance of DE-GANs becomes a hotspot. Recently, contrastive learning has shown the great potential of increasing the synthesis quality of DE-GANs, yet related principles are not well explored. In this paper, we revisit and compare different contrastive learning strategies in DE-GANs, and identify (i) the current bottleneck of generative performance is the discontinuity of latent space; (ii) compared to other contrastive learning strategies, Instance-perturbation works towards latent space continuity, which brings the major improvement to DE-GANs. Based on these observations, we propose FakeCLR, which only applies contrastive learning on perturbed fake samples, and devises three related training techniques: Noise-related Latent Augmentation, Diversity-aware Queue, and Forgetting Factor of Queue. Our experimental results manifest the new state of the arts on both few-shot generation and limited-data generation. On multiple datasets, FakeCLR acquires more than 15% FID improvement compared to existing DE-GANs. Code is available at https://github.com/iceli1007/FakeCLR.
翻訳日:2022-07-20 11:11:10 公開日:2022-07-19
# グラフニューラルネットワークにおけるスパーストレーニングのための包括的グラフグラダルプルーニング

Comprehensive Graph Gradual Pruning for Sparse Training in Graph Neural Networks ( http://arxiv.org/abs/2207.08629v2 )

ライセンス: Link先を確認
Chuang Liu, Xueqi Ma, Yibing Zhan, Liang Ding, Dapeng Tao, Bo Du, Wenbin Hu, Danilo Mandic(参考訳) グラフニューラルネットワーク(GNN)は,グラフデータの指数的に増大するスケールとモデルパラメータの数によって,計算コストの増大に悩まされる傾向にある。 この目的のために、近年のいくつかの研究は、性能レベルを維持しながら推論コストを削減するため、宝くじの仮説(LTH)でGNNをスパース化することに焦点を当てている。 しかし、LTHベースの手法には2つの大きな欠点がある。 1)密集したモデルの徹底的で反復的なトレーニングが必要となり、非常に大きなトレーニング計算コストがかかる。 2) グラフ構造とモデルパラメータのみをトリムするが、大きな冗長性が存在するノードの特徴次元を無視する。 上記の制限を克服するため、我々はCGPと呼ばれるグラフ段階的プルーニングフレームワークを提案する。 これは、トレーニング中のグラフプルーニングパラダイムを1つのトレーニングプロセス内で動的に実行するために設計することで実現される。 LTHに基づく手法とは異なり、提案手法では再学習を必要とせず、計算コストを大幅に削減する。 さらに,グラフ構造,ノード特徴,モデルパラメータといった,GNNの3つのコア要素を包括的にトリムする分離戦略を設計する。 一方, 刈り込み作業の精錬を目的として, 刈り取られた重要なコネクションを再確立するために, CGPフレームワークに再成長プロセスを導入する。 提案するcgpは6つのgnnアーキテクチャにまたがるノード分類タスクを用いて評価されており、その中には、浅いモデル(gcnとgat)、浅いが深いモデル(sgcとappnp)、深層モデル(gcniiとresgcn)があり、挑戦的なopen graphベンチマークによる大規模グラフデータセットを含む、14の現実世界のグラフデータセットがある。 実験の結果,提案手法は既存の手法の精度に適合あるいは超越しながら,トレーニングと推論の効率を大幅に向上させることがわかった。

Graph Neural Networks (GNNs) tend to suffer from high computation costs due to the exponentially increasing scale of graph data and the number of model parameters, which restricts their utility in practical applications. To this end, some recent works focus on sparsifying GNNs with the lottery ticket hypothesis (LTH) to reduce inference costs while maintaining performance levels. However, the LTH-based methods suffer from two major drawbacks: 1) they require exhaustive and iterative training of dense models, resulting in an extremely large training computation cost, and 2) they only trim graph structures and model parameters but ignore the node feature dimension, where significant redundancy exists. To overcome the above limitations, we propose a comprehensive graph gradual pruning framework termed CGP. This is achieved by designing a during-training graph pruning paradigm to dynamically prune GNNs within one training process. Unlike LTH-based methods, the proposed CGP approach requires no re-training, which significantly reduces the computation costs. Furthermore, we design a co-sparsifying strategy to comprehensively trim all three core elements of GNNs: graph structures, node features, and model parameters. Meanwhile, aiming at refining the pruning operation, we introduce a regrowth process into our CGP framework, in order to re-establish the pruned but important connections. The proposed CGP is evaluated by using a node classification task across 6 GNN architectures, including shallow models (GCN and GAT), shallow-but-deep-propagation models (SGC and APPNP), and deep models (GCNII and ResGCN), on a total of 14 real-world graph datasets, including large-scale graph datasets from the challenging Open Graph Benchmark. Experiments reveal that our proposed strategy greatly improves both training and inference efficiency while matching or even exceeding the accuracy of existing methods.
翻訳日:2022-07-20 11:10:48 公開日:2022-07-19
# 周波数領域における学習可能なプライバシー予算を用いたプライバシー保全型顔認識

Privacy-Preserving Face Recognition with Learnable Privacy Budgets in Frequency Domain ( http://arxiv.org/abs/2207.07316v3 )

ライセンス: Link先を確認
Jiazhen Ji, Huan Wang, Yuge Huang, Jiaxiang Wu, Xingkun Xu, Shouhong Ding, ShengChuan Zhang, Liujuan Cao, Rongrong Ji(参考訳) 顔認識技術は、モバイルデバイスのアンロック、コミュニティアクセス制御システム、都市監視など、高い認識精度のために、多くの分野で使用されている。 現在の高い精度は、非常に深いネットワーク構造によって保証されているため、推論のために高い計算能力を持つサードパーティサーバーに顔画像を送信する必要がある。 しかし、顔画像はユーザーの身元情報を視覚的に明らかにする。 このプロセスでは、信頼できないサービスプロバイダと悪意のあるユーザの両方が、個人のプライバシー侵害のリスクを著しく増加させます。 顔認識に対する現在のプライバシー保護アプローチには、推論時間の大幅な増加や認識精度の低下など、多くの副作用が伴うことが多い。 本稿では,周波数領域における差分プライバシーを用いた顔認識手法を提案する。 差分プライバシーの利用により、理論上はプライバシーの保証を提供する。 一方、精度の低下はごくわずかである。 この方法はまず、元の画像を周波数領域に変換し、直流と呼ばれる直接成分を除去する。 そして、差分プライバシーフレームワーク内のバックエンド顔認識ネットワークの損失に基づいて、プライバシ予算割当方法を学習することができる。 最後に、周波数領域の特徴に対応するノイズを追加する。 提案手法は,複数の古典的顔認証テストセットにおいて,広範囲な実験により非常によく機能する。

Face recognition technology has been used in many fields due to its high recognition accuracy, including the face unlocking of mobile devices, community access control systems, and city surveillance. As the current high accuracy is guaranteed by very deep network structures, facial images often need to be transmitted to third-party servers with high computational power for inference. However, facial images visually reveal the user's identity information. In this process, both untrusted service providers and malicious users can significantly increase the risk of a personal privacy breach. Current privacy-preserving approaches to face recognition are often accompanied by many side effects, such as a significant increase in inference time or a noticeable decrease in recognition accuracy. This paper proposes a privacy-preserving face recognition method using differential privacy in the frequency domain. Due to the utilization of differential privacy, it offers a guarantee of privacy in theory. Meanwhile, the loss of accuracy is very slight. This method first converts the original image to the frequency domain and removes the direct component termed DC. Then a privacy budget allocation method can be learned based on the loss of the back-end face recognition network within the differential privacy framework. Finally, it adds the corresponding noise to the frequency domain features. Our method performs very well with several classical face recognition test sets according to the extensive experiments.
翻訳日:2022-07-20 11:10:11 公開日:2022-07-19
# アクティブ話者検出のための長期空間時間グラフの学習

Learning Long-Term Spatial-Temporal Graphs for Active Speaker Detection ( http://arxiv.org/abs/2207.07783v2 )

ライセンス: Link先を確認
Kyle Min, Sourya Roy, Subarna Tripathi, Tanaya Guha, Somdeb Majumdar(参考訳) 複数の話者を持つビデオにおけるアクティブ話者検出(ASD)は、長時間の時間的窓越しに効果的な聴覚的特徴と空間的相関を学習する必要があるため、難しい課題である。 本稿では,ASDのような複雑なタスクを解くことのできる空間時空間グラフ学習フレームワークであるSPELLを提案する。 この目的のために、まず、ビデオフレーム内の各人が、そのフレームのユニークなノードにエンコードされる。 フレームにまたがる1人の人に対応するノードが接続され、その時間的ダイナミクスをエンコードする。 フレーム内のノードは、対人関係をエンコードするためにも接続される。 これにより、ノード分類タスクにasdを還元する。 重要なことに、s spellは計算コストの高い完全連結グラフニューラルネットワークに頼ることなく、すべてのノードの長い時間的コンテキストを推論できる。 AVA-ActiveSpeakerデータセットの広範な実験を通じて、グラフに基づく表現の学習は、その空間的および時間的構造からアクティブな話者検出性能を著しく向上させることができることを示した。 SPELLは、メモリと計算資源を大幅に減らしながら、これまでの最先端のアプローチよりも優れている。 私たちのコードはhttps://github.com/SRA2/SPELLで公開されています。

Active speaker detection (ASD) in videos with multiple speakers is a challenging task as it requires learning effective audiovisual features and spatial-temporal correlations over long temporal windows. In this paper, we present SPELL, a novel spatial-temporal graph learning framework that can solve complex tasks such as ASD. To this end, each person in a video frame is first encoded in a unique node for that frame. Nodes corresponding to a single person across frames are connected to encode their temporal dynamics. Nodes within a frame are also connected to encode inter-person relationships. Thus, SPELL reduces ASD to a node classification task. Importantly, SPELL is able to reason over long temporal contexts for all nodes without relying on computationally expensive fully connected graph neural networks. Through extensive experiments on the AVA-ActiveSpeaker dataset, we demonstrate that learning graph-based representations can significantly improve the active speaker detection performance owing to its explicit spatial and temporal structure. SPELL outperforms all previous state-of-the-art approaches while requiring significantly lower memory and computational resources. Our code is publicly available at https://github.com/SRA2/SPELL
翻訳日:2022-07-20 11:09:54 公開日:2022-07-19
# Fast-MoCo: CombinatorのパッチによるMomentumベースのコントラスト学習

Fast-MoCo: Boost Momentum-based Contrastive Learning with Combinatorial Patches ( http://arxiv.org/abs/2207.08220v2 )

ライセンス: Link先を確認
Yuanzheng Ci, Chen Lin, Lei Bai, Wanli Ouyang(参考訳) コントラストに基づく自己指導型学習手法は近年大きな成功を収めている。 しかし、自己監督には非常に長い訓練エポック(例えばMoCo v3の800エポック)が必要であり、一般の学術コミュニティには受け入れられず、このトピックの開発を妨げている。 この研究は運動量に基づくコントラスト学習フレームワークを再考し、2つの拡張ビューが1つの正のペアだけを生成する非効率性を同定する。 本稿では、2つの拡張ビューから複数の正のペアを構成するために組合せパッチを利用する新しいフレームワークであるFast-MoCoを提案する。 100エポックでトレーニングされたFast-MoCoは、800エポックでトレーニングされたMoCo v3(ResNet-50バックボーン)と同様、73.5%の線形評価精度を達成する。 余剰訓練(200エポック)はさらに75.1%に改善し、これは最先端の手法と同等である。 いくつかの下流タスクにおける実験もfast-mocoの有効性を確認した。

Contrastive-based self-supervised learning methods achieved great success in recent years. However, self-supervision requires extremely long training epochs (e.g., 800 epochs for MoCo v3) to achieve promising results, which is unacceptable for the general academic community and hinders the development of this topic. This work revisits the momentum-based contrastive learning frameworks and identifies the inefficiency in which two augmented views generate only one positive pair. We propose Fast-MoCo - a novel framework that utilizes combinatorial patches to construct multiple positive pairs from two augmented views, which provides abundant supervision signals that bring significant acceleration with neglectable extra computational cost. Fast-MoCo trained with 100 epochs achieves 73.5% linear evaluation accuracy, similar to MoCo v3 (ResNet-50 backbone) trained with 800 epochs. Extra training (200 epochs) further improves the result to 75.1%, which is on par with state-of-the-art methods. Experiments on several downstream tasks also confirm the effectiveness of Fast-MoCo.
翻訳日:2022-07-20 11:09:39 公開日:2022-07-19
# コンテンツに基づくマルチヘッドアテンションによるユーザ特有のビデオハイライトの検出

Show Me What I Like: Detecting User-Specific Video Highlights Using Content-Based Multi-Head Attention ( http://arxiv.org/abs/2207.08352v2 )

ライセンス: Link先を確認
Uttaran Bhattacharya and Gang Wu and Stefano Petrangeli and Viswanathan Swaminathan and Dinesh Manocha(参考訳) そこで本研究では,視聴者が視聴したビデオの優先ハイライトクリップに基づいて,対象ビデオの個人別ハイライトを検出する手法を提案する。 本手法は,対象物と人的活動の事前学習機能を用いて,好むクリップの内容と対象ビデオの両方を明示的に活用する。 対象と人間の行動に基づくコンテンツに基づいて、好みのクリップを適応的に重み付けするマルチヘッドアテンション機構を設計し、これらの重み付けをユーザ毎に単一の特徴表現に融合する。 ユーザ毎の特徴表現と所望のターゲットビデオから計算されたフレーム毎の特徴の類似度を計算し、対象ビデオからユーザ固有のハイライトクリップを推定する。 本手法は,個々のユーザの注釈付きハイライトを含む大規模ハイライト検出データセット上でテストする。 現在の基準値と比較して,検出されたハイライトの平均精度は2~4%向上した。 また,各ユーザの好みのハイライトクリップ数や,オブジェクトやヒューマンアクティビティに基づく特徴表現について,広範なアブレーション実験を行い,本手法がコンテンツベースとユーザ固有の両方であることを検証した。

We propose a method to detect individualized highlights for users on given target videos based on their preferred highlight clips marked on previous videos they have watched. Our method explicitly leverages the contents of both the preferred clips and the target videos using pre-trained features for the objects and the human activities. We design a multi-head attention mechanism to adaptively weigh the preferred clips based on their object- and human-activity-based contents, and fuse them using these weights into a single feature representation for each user. We compute similarities between these per-user feature representations and the per-frame features computed from the desired target videos to estimate the user-specific highlight clips from the target videos. We test our method on a large-scale highlight detection dataset containing the annotated highlights of individual users. Compared to current baselines, we observe an absolute improvement of 2-4% in the mean average precision of the detected highlights. We also perform extensive ablation experiments on the number of preferred highlight clips associated with each user as well as on the object- and human-activity-based feature representations to validate that our method is indeed both content-based and user-specific.
翻訳日:2022-07-20 11:09:19 公開日:2022-07-19
# 教師なしビデオオブジェクトセグメンテーションのための階層的特徴アライメントネットワーク

Hierarchical Feature Alignment Network for Unsupervised Video Object Segmentation ( http://arxiv.org/abs/2207.08485v2 )

ライセンス: Link先を確認
Gensheng Pei, Fumin Shen, Yazhou Yao, Guo-Sen Xie, Zhenmin Tang, Jinhui Tang(参考訳) 光フローは、教師なしビデオオブジェクトセグメンテーション(UVOS)を進めるための、容易に考案され、貴重なキューである。 従来の手法のほとんどは、UVOS設定でターゲットオブジェクトをセグメント化するための動きと外観の機能を直接抽出して融合する。 しかし、光学フローは本質的に連続するフレーム間の全画素の瞬時速度であるため、運動特性は対応するフレーム内の一次オブジェクトとうまく一致しない。 上記の課題を解決するために,階層的特徴アライメントネットワーク(HFAN)と呼ばれる外観特徴アライメントのための簡潔で実用的で効率的なアーキテクチャを提案する。 具体的には、HFANの重要な利点は、連続的なFeature AlignMent (FAM) モジュールと、外観と動作の特徴を階層的に処理するために利用されるFeature AdaptaTion (FAT) モジュールである。 FAMは、外見と動きの特徴をそれぞれ主目的の意味表現と整合させることができる。 さらにfatは、外観と動きの特徴の適応的な融合のために明示的に設計され、クロスモーダル特徴間の望ましいトレードオフを達成する。 DAVIS-16で新たな最先端性能を達成し、88.7$\mathcal{J}\&\mathcal{F}$ Meanを達成した。

Optical flow is an easily conceived and precious cue for advancing unsupervised video object segmentation (UVOS). Most of the previous methods directly extract and fuse the motion and appearance features for segmenting target objects in the UVOS setting. However, optical flow is intrinsically an instantaneous velocity of all pixels among consecutive frames, thus making the motion features not aligned well with the primary objects among the corresponding frames. To solve the above challenge, we propose a concise, practical, and efficient architecture for appearance and motion feature alignment, dubbed hierarchical feature alignment network (HFAN). Specifically, the key merits in HFAN are the sequential Feature AlignMent (FAM) module and the Feature AdaptaTion (FAT) module, which are leveraged for processing the appearance and motion features hierarchically. FAM is capable of aligning both appearance and motion features with the primary object semantic representations, respectively. Further, FAT is explicitly designed for the adaptive fusion of appearance and motion features to achieve a desirable trade-off between cross-modal features. Extensive experiments demonstrate the effectiveness of the proposed HFAN, which reaches a new state-of-the-art performance on DAVIS-16, achieving 88.7 $\mathcal{J}\&\mathcal{F}$ Mean, i.e., a relative improvement of 3.5% over the best published result.
翻訳日:2022-07-20 11:09:02 公開日:2022-07-19
# エンティティセット拡張のためのコンテキストパターンの自動生成

Automatic Context Pattern Generation for Entity Set Expansion ( http://arxiv.org/abs/2207.08087v2 )

ライセンス: Link先を確認
Yinghui Li, Shulin Huang, Xinwei Zhang, Qingyu Zhou, Yangning Li, Ruiyang Liu, Yunbo Cao, Hai-Tao Zheng, Ying Shen(参考訳) Entity Set Expansion(ESE)は、与えられたシードエンティティによって記述されたターゲットセマンティッククラスのエンティティを見つけることを目的とした、貴重なタスクである。 様々なNLPおよびIRダウンストリームアプリケーションは、知識を発見する能力により、ESEの恩恵を受けている。 既存のブートストラップメソッドは大きな進歩を遂げているが、その多くは手動で定義したコンテキストパターンに依存している。 事前定義された文脈パターンの無視できない欠点は、それらがあらゆる種類の意味クラスに柔軟に一般化できないことである。 この問題に対処するために,自動回帰言語モデル(GPT-2)を利用したコンテキストパターン生成モジュールを考案し,エンティティの高品質なコンテキストパターンを自動的に生成する。 さらに,上述したジェネアテッド・パタンをターゲットエンティティの拡張に利用した新しいESEフレームワークであるGAPAを提案する。 広範に使用される3つのデータセットに関する広範な実験と詳細な分析により,本手法の有効性が証明された。 実験のすべてのコードは再現可能になります。

Entity Set Expansion (ESE) is a valuable task that aims to find entities of the target semantic class described by given seed entities. Various NLP and IR downstream applications have benefited from ESE due to its ability to discover knowledge. Although existing bootstrapping methods have achieved great progress, most of them still rely on manually pre-defined context patterns. A non-negligible shortcoming of the pre-defined context patterns is that they cannot be flexibly generalized to all kinds of semantic classes, and we call this phenomenon as "semantic sensitivity". To address this problem, we devise a context pattern generation module that utilizes autoregressive language models (e.g., GPT-2) to automatically generate high-quality context patterns for entities. In addition, we propose the GAPA, a novel ESE framework that leverages the aforementioned GenerAted PAtterns to expand target entities. Extensive experiments and detailed analyses on three widely used datasets demonstrate the effectiveness of our method. All the codes of our experiments will be available for reproducibility.
翻訳日:2022-07-20 11:08:36 公開日:2022-07-19