このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220612となっている論文です。

PDF登録状況(公開日: 20220612)

TitleAuthorsAbstract論文公表日・翻訳日
# 空間交叉光子対を用いた画素超解像

Pixel super-resolution using spatially-entangled photon pairs ( http://arxiv.org/abs/2105.10351v2 )

ライセンス: Link先を確認
Hugo Defienne, Patrick Cameron, Bienvenu Ndagano, Ashley Lyons, Matthew Reichert, Jiuxuan Zhao, Andrew R. Harvey, Edoardo Charbon, Jason W. Fleischer, Daniele Faccio(参考訳) ピクセル化は多くの撮像系で発生し、取得した画像の空間分解能を制限する。 この効果は相関光子を用いた量子イメージング実験において顕著であり、偶然を検出するために使用される画素の数はセンサー技術や取得速度によって制限されることが多い。 本稿では,空間共役光子の完全空間分解結合確率分布(JPD)の測定に基づく画素超解像法を提案する。 光学素子のシフトや先行情報を用いることなく、撮像システムの画素解像度を2倍に増やし、アンサンプリングにより失われた空間情報の検索を可能にする。 我々は、量子照明、絡み合い可能な量子ホログラフィー、N00N状態の量子ホログラフィーのフルフィールドバージョンなど、光子対を用いた様々な量子イメージングプロトコルでの使用を実証する。 jpdの超高解像度技術は、既に確立された全ての光子相関ベースの量子イメージングスキームを含む、センサー空間分解能に制限されたフルフィールドイメージングシステムに役立つため、これらの技術は現実世界の応用に近づいた。

Pixelation occurs in many imaging systems and limits the spatial resolution of the acquired images. This effect is notably present in quantum imaging experiments with correlated photons in which the number of pixels used to detect coincidences is often limited by the sensor technology or the acquisition speed. Here, we introduce a pixel super-resolution technique based on measuring the full spatially-resolved joint probability distribution (JPD) of spatially-entangled photons. Without shifting optical elements or using prior information, our technique increases the pixel resolution of the imaging system by a factor two and enables retrieval of spatial information lost due to undersampling. We demonstrate its use in various quantum imaging protocols using photon pairs, including quantum illumination, entanglement-enabled quantum holography, and in a full-field version of N00N-state quantum holography. The JPD pixel super-resolution technique can benefit any full-field imaging system limited by the sensor spatial resolution, including all already established and future photon-correlation-based quantum imaging schemes, bringing these techniques closer to real-world applications.
翻訳日:2023-03-30 05:15:57 公開日:2022-06-12
# 量子プロセッサ上の粗粒度分子間相互作用

Coarse grained intermolecular interactions on quantum processors ( http://arxiv.org/abs/2110.00968v2 )

ライセンス: Link先を確認
Lewis W. Anderson, Martin Kiffner, Panagiotis Kl. Barkoutsos, Ivano Tavernelli, Jason Crain, Dieter Jaksch(参考訳) 変分量子アルゴリズム(VQA)は、完全な分子軌道基底表現を用いた強結合(共有結合)系のシミュレーションにますます応用されている。 しかし、弱結合型分子間および非共有結合系への量子コンピュータの応用は、ほとんど未解明のままである。 本研究では、VQAを用いて弱い相互作用する分子の基底状態を決定するのに理想的な電子応答の粗い粒度の表現を開発する。 我々は、分子数に線形に成長し、必要な回路数と測定値のスケーリング挙動を導出する量子ビット数を必要とし、従来の変分量子固有ソルバ法と比較できる。 我々は,IBMの超伝導量子プロセッサ上で,分散エネルギーを一対の非極性分子の分離関数として解く能力を示し,量子コンピュータがゼロ点量子揺らぎから直接ファンデルワールス相互作用をモデル化できる手段を確立する。 この粗い粒度の近似の中で、現在の量子ハードウェアは、この弱い結合を持つにもかかわらず化学的にユビキタスで生物学的に重要な構造においてエネルギーを探索することができると結論づける。 最後に,3,4,5のシステムおよび無調和オンサイト結合ポテンシャルを持つ発振器について,シミュレーションおよび実量子コンピュータ実験を行い,その結果は古典計算法を用いて大規模システムでは見受けられないが,計算オーバーヘッドの低さで組み込むことができる。

Variational quantum algorithms (VQAs) are increasingly being applied in simulations of strongly-bound (covalently bonded) systems using full molecular orbital basis representations. The application of quantum computers to the weakly-bound intermolecular and non-covalently bonded regime however has remained largely unexplored. In this work, we develop a coarse-grained representation of the electronic response that is ideally suited for determining the ground state of weakly interacting molecules using a VQA. We require qubit numbers that grow linearly with the number of molecules and derive scaling behaviour for the number of circuits and measurements required, which compare favourably to traditional variational quantum eigensolver methods. We demonstrate our method on IBM superconducting quantum processors and show its capability to resolve the dispersion energy as a function of separation for a pair of non-polar molecules - thereby establishing a means by which quantum computers can model Van der Waals interactions directly from zero-point quantum fluctuations. Within this coarse-grained approximation, we conclude that current-generation quantum hardware is capable of probing energies in this weakly bound but nevertheless chemically ubiquitous and biologically important regime. Finally, we perform experiments on simulated and real quantum computers for systems of three, four and five oscillators as well as oscillators with anharmonic onsite binding potentials; the consequences of the latter are unexamined in large systems using classical computational methods but can be incorporated here with low computational overhead.
翻訳日:2023-03-12 16:15:30 公開日:2022-06-12
# 1次元準結晶と位相マーカー

1D quasicrystals and topological markers ( http://arxiv.org/abs/2201.09741v2 )

ライセンス: Link先を確認
Joseph Sykes and Ryan Barnett(参考訳) 局所的トポロジカルマーカーは、均一系および不均一系のトポロジ的特性を決定する効果的なツールである。 チャーンマーカー(英: Chern marker)は、2Dシステムのトポロジ的特性を効果的に明らかにする確立されたトポロジカルマーカーである。 初期の研究で、筆者らは1次元の時間依存系に適用可能なマーカーを開発し、障害の存在下でのチャージポンプのような位相的性質の探索に使用できる。 本稿では, 準周期系および非周期系に適用できるように, 1Dマーカーをどう変更するかを示す。 次に, 既往の研究で研究されているものや, ほとんど探索されていないトポロジカルな構造を持つものに対して, その有効性を検証した。 また,変化した1Dマーカーが,完全に周期的なシステムに生産的に適用可能であることを示す。

Local topological markers are effective tools for determining the topological properties of both homogeneous and inhomogeneous systems. The Chern marker is an established topological marker that has previously been shown to effectively reveal the topological properties of 2D systems. In an earlier work, the present authors have developed a marker that can be applied to 1D time-dependent systems which can be used to explore their topological properties, like charge pumping under the presence of disorder. In this paper, we show how to alter the 1D marker so that it can be applied to quasiperiodic and aperiodic systems. We then verify its effectiveness against different quasicrystal Hamiltonians, some which have been addressed in previous studies using existing methods, and others which possess topological structures that have been largely unexplored. We also demonstrate that the altered 1D marker can be productively applied to systems that are fully aperiodic.
翻訳日:2023-02-28 00:38:28 公開日:2022-06-12
# 量子再生の光学計算

Optical computing of quantum revivals ( http://arxiv.org/abs/2204.00915v2 )

ライセンス: Link先を確認
Mayanne R. Maia, Daniel Jonathan, Thiago R. Oliveira, Antonio Z. Khoury and Daniel S. Tasca(参考訳) 干渉は、波を最も魅力的なパターンに構造化するメカニズムである。 センシング、撮像、トラップ、あるいは基礎研究において、構造波は今日では重要な役割を担い、多くの興味深い研究の対象となっている。 我々は、コヒーレント光学場をプローブとして、波面の崩壊と再生構造を示す分布に光を構造する方法を示す。 これらの分布は、周期的回折構造の配列のフーリエスペクトルから得られる。 興味深いことに、結果として生じる干渉は回折ピークの準周期構造を、回折構造が周期的ではないにもかかわらず、多くの距離スケールで表している。 量子力学系の進化における再生現象との類似性を確立し,この計算を数値的,実験的に説明し,提案理論との良好な一致を得た。

Interference is the mechanism through which waves can be structured into the most fascinating patterns. While for sensing, imaging, trapping, or in fundamental investigations, structured waves play nowadays an important role and are becoming subject of many interesting studies. Using a coherent optical field as a probe, we show how to structure light into distributions presenting collapse and revival structures in its wavefront. These distributions are obtained from the Fourier spectrum of an arrangement of aperiodic diffracting structures. Interestingly, the resulting interference may present quasiperiodic structures of diffraction peaks on a number of distance scales, even though the diffracting structure is not periodic. We establish an analogy with revival phenomena in the evolution of quantum mechanical systems and illustrate this computation numerically and experimentally, obtaining excellent agreement with the proposed theory.
翻訳日:2023-02-20 00:43:43 公開日:2022-06-12
# 超伝導-トポロジカル絶縁体ジョセフソン接合のメソスコピック揺らぎ

Mesoscopic fluctuations in superconductor-topological insulator Josephson junctions ( http://arxiv.org/abs/2205.02272v2 )

ライセンス: Link先を確認
Marcus Marinho, Guilherme Vieira, Tobias Micklitz, Georg Schwiete, Alex Levchenko(参考訳) 従来の超伝導体間のトポロジカル絶縁体マイクロブリッジからなるジョセフソン接合部の超電流のメソスコピック変動について検討した。 このモデルでは、超伝導体が表面状態のスペクトルのギャップを誘導したときの強い近接効果と、デパイリングやギャップ充填を引き起こす接合領域を貫通する磁場を考慮に入れる。 ジョセフソン電流のゆらぎの全体の大きさと機能形態は解析的に決定され、表面状態、thoulessエネルギーおよび対破壊エネルギースケールへの結合強度に敏感に依存することが判明した。 また,走査プローブで測定できる状態密度についても検討した。 技術的には、トポロジカル領域における近接効果の平均場記述の上にあるメソスコピックな揺らぎは、拡張対称性分類のクラスDにおける複製非線形$\sigma$-モデルによって記述される。

We study mesoscopic fluctuations in the supercurrent of a Josephson junction consisting of a topological insulator microbridge between two conventional superconductors. In the model, we account for the strong proximity effect when superconductors induce a gap in the spectrum of surface states as well as a magnetic field piercing the junction area that causes depairing and gap filling. The overall magnitude and functional form of the Josephson current fluctuations are determined analytically, and found to sensitively depend on the coupling strength to surface states, Thouless energy, and pair-breaking energy scales in the problem. We also study the density of states that can be measured by scanning probes. Technically, mesoscopic fluctuations on top of the mean field description of the proximity effect in the topological region are described by a field theory approach, the replica nonlinear $\sigma$-model in the class-D of the extended symmetry classification.
翻訳日:2023-02-14 08:58:49 公開日:2022-06-12
# 量子および古典臨界点におけるハミルトンパラメータの遅いラウンドトリップ変動から生じる平衡外ダイナミクス

Out-of-equilibrium dynamics arising from slow round-trip variations of Hamiltonian parameters across quantum and classical critical points ( http://arxiv.org/abs/2205.08333v2 )

ライセンス: Link先を確認
Francesco Tarantelli and Ettore Vicari(参考訳) 我々は、量子および古典的(熱的)相転移にまたがる遅い時間依存ラウンドトリッププロトコルを対象とする多体系の平衡外ダイナミクスに対処する。 1つの関連するパラメータ w が臨界点 wc = 0 を越えてゆっくりと変化し、wi < 0 から wf > 0 への大きな時間スケール ts と時間的に線形に変化し、wi < 0 に戻るプロトコルを考える。 臨界点を越えた片方向のキブル・ズレックプロトコルと類似して、ラウンドトリッププロトコルは古典的および量子的遷移の両方において動的スケーリング挙動を発達させ、再正規化グループフレームワーク内で前進する。 スケーリングシナリオは、一次元量子イジングモデルやフェルミオンワイヤのような2次元のイジング普遍性クラスに属する量子的および古典的遷移を経るいくつかのパラダイムモデルと、2次元の古典的イジングモデル(純粋に緩和力学で補う)で解析される。 動的スケーリングフレームワークは古典的および量子的なシステムと似ているが、古典的システムでは純粋に緩和される(固定されたモデルパラメータの大規模限界における熱化)力学の性質の違いと、量子システムの場合のユニタリにより、実質的な違いが生じる。 特に、臨界点が2つのガッピング(短距離)位相を分離し、極値wf > 0がラウンドトリッププロトコルの大規模ts限界で固定されているとき、量子系は関連する量子状態の間に急速に振動する相対位相が存在するため、帰路に沿って十分にロバストなスケーリング限界を開発するわけではないが、古典系におけるヒステリシスのようなシナリオを観察する。

We address the out-of-equilibrium dynamics of many-body systems subject to slow time-dependent round-trip protocols across quantum and classical (thermal) phase transitions. We consider protocols where one relevant parameter w is slowly changed across its critical point wc = 0, linearly in time with a large time scale ts, from wi < 0 to wf > 0 and then back to wi < 0, thus entailing multiple passages through the critical point. Analogously to the one-way Kibble-Zurek protocols across a critical point, round-trip protocols develop dynamic scaling behaviors at both classical and quantum transitions, put forward within renormalization-group frameworks. The scaling scenario is analyzed within some paradigmatic models undergoing quantum and classical transitions belonging to the two-dimensional Ising universality class, such as one-dimensional quantum Ising models and fermionic wires, and two-dimensional classical Ising models (supplemented with a purely relaxational dynamics). While the dynamic scaling frameworks are similar for classical and quantum systems, substantial differences emerge due to the different nature of their dynamics, which is purely relaxational for classical systems (implying thermalization in the large-time limit at fixed model parameters), and unitary in the case of quantum systems. In particular, when the critical point separates two gapped (short-ranged) phases and the extreme value wf > 0 is kept fixed in the large-ts limit of the round-trip protocol, we observe hysteresis-like scenarios in classical systems, while quantum systems do not apparently develop a sufficiently robust scaling limit along the return way, due to the presence of rapidly oscillating relative phases among the relevant quantum states.
翻訳日:2023-02-12 21:18:02 公開日:2022-06-12
# 粒子波パケットによる光子のコヒーレント放射

Coherent radiation of photons by particle wave packets ( http://arxiv.org/abs/2205.14638v2 )

ライセンス: Link先を確認
P.O. Kazinski, T.V. Solovyev(参考訳) 電子による光子の放射は、結合定数 $e$ の2階までの量子電磁力学の枠組みで研究されている。 N$粒子、コヒーレントおよび熱初期状態が考慮され、電子波パケットの形状が考慮される。 光子を記録するための放射強度と包含確率の明示的な表現を得る。 この摂動理論では、電子波のパケットがコヒーレントに放射され、電子の最終状態、すなわち放射の包括的確率と強度を考慮しても荷電流体と見なすことができる。 これらの過程は電子による放射、粒子のビームからのコヒーレント放射、コンプトン過程における光子の放射によって刺激される。 放射強度の明示的な表現と、これらの過程の光子を記録する包括的確率を求める。 特に,鏡を横切る電子波パケットによって発生し,レーザ波によってバックライトされる遷移放射,電子波パケットによるコヒーレントな状態における光子の放射について考察する。 後者の場合、単一電子の波束は感受性テンソルで与えることができ、このテンソルは小さな反動限界における電子プラズマと同じ形状を持つと推定する。

The radiation of photons by electrons is investigated in the framework of quantum electrodynamics up to the second order in the coupling constant $e$. The $N$-particle, coherent, and thermal initial states are considered and the forms of the electron wave packets are taken into account. The explicit expressions for the intensity of radiation and the inclusive probability to record a photon are obtained. It is found that there are three processes in this order of perturbation theory where the electron wave packet radiates coherently and can be regarded as a charged fluid even on integrating over the final states of the electron, i.e., in considering the inclusive probabilities and intensity of radiation. These processes are stimulated radiation by an electron, coherent radiation from a beam of particles, and reradiation of a photon in the Compton process. We obtain the explicit expressions for the intensity of radiation and the inclusive probability to record a photon for these processes. As particular cases, we consider: stimulated transition radiation produced by an electron wave packet traversing a mirror and backlighted by a laser wave, reradiation of photons in a coherent state by an electron wave packet. In the latter case, we deduce that the wave packet of a single electron can be endowed with the susceptibility tensor and this tensor has the same form as for an electron plasma in the small recoil limit.
翻訳日:2023-02-11 09:01:15 公開日:2022-06-12
# USTCにおける量子テクスチュアリティの20年

Twenty years of quantum contextuality at USTC ( http://arxiv.org/abs/2205.15538v2 )

ライセンス: Link先を確認
Zheng-Hao Liu, Qiang Li, Bi-Heng Liu, Yun-Feng Huang, Jin-Shi Xu, Chuan-Feng Li, and Guang-Can Guo(参考訳) 量子文脈性は、量子力学の最も複雑で特異な特徴の1つである。 簡潔に言えば、量子力学における単一の測定結果が実際に行われるジョイント測定の集合に依存するという観測を指す。 文脈性の研究は、中国科学技術大学(ustc)において長い歴史を持つ。 ここでは,過去20年間にUSTCで達成されたこの方向の理論的および実験的進歩について概観する。 まず、状態に依存しない文脈性の最も単純な証明を導入する。 次に、光子を用いた量子対非コンテキスト理論の実験実験を行う。 最後に,一般量子情報科学における文脈性の役割とその量子計算への応用について考察する。

Quantum contextuality is one of the most perplexing and peculiar features of quantum mechanics. Concisely, it refers to the observation that the result of a single measurement in quantum mechanics depends on the set of joint measurements actually performed. The study of contextuality has a long history at University of Science and Technology of China (USTC). Here we review the theoretical and experimental advances in this direction achieved at USTC over the last 20 years. We start by introducing the renowned simplest proof of state-independent contextuality. We then present several experimental tests of quantum versus noncontextual theories with photons. Finally, we discuss the investigation on the role of contextuality in general quantum information science and its application in quantum computation.
翻訳日:2023-02-11 04:08:57 公開日:2022-06-12
# キャビティボース・アインシュタイン凝縮体中の光機械的schr\"{o}dinger cat状態

Optomechanical Schr\"{o}dinger cat states in a cavity Bose-Einstein condensate ( http://arxiv.org/abs/2206.01974v2 )

ライセンス: Link先を確認
Baijun Li, Wei Qin, Ya-Feng Jiao, Cui-Lu Zhai, Xun-Wei Xu, Le-Man Kuang, and Hui Jing(参考訳) schr\"{o}dinger cat statesは、巨視的に異なる状態の重ね合わせで構成され、量子情報処理において多くの量子技術の主要なリソースを提供する。 本稿では,bose-einstein condensate に基づくキャビティ光力学系の特異な性質を活かし,識別可能な重ね合わせ成分を有するメカニカルおよび光学式 schr\"{o}dinger cat 状態の生成と操作方法を提案する。 具体的には、固体と比べ、メカニカルなschr\"{o}dinger cat状態の大きさの3桁近い拡張が可能であり、2つの重ね合わせされたコヒーレント状態成分の重なりがはるかに小さいことが示されている。 この生成した猫の状態を利用して、メカニカルモードの四角いスクイーズを更に設計する方法を示す。 また,提案手法において,多成分光学schr\"{o}dinger cat状態を生成する効率的な方法を提案する。 我々の研究は、大規模オブジェクトの非古典的状態を達成する新しい方法を開き、フォールトトレラントな量子プロセッサとセンサーの開発を促進する。

Schr\"{o}dinger cat states, consisting of superpositions of macroscopically distinct states, provide key resources for a large number of emerging quantum technologies in quantum information processing. Here we propose how to generate and manipulate mechanical and optical Schr\"{o}dinger cat states with distinguishable superposition components by exploiting the unique properties of cavity optomechanical systems based on Bose-Einstein condensate. Specifically, we show that in comparison with its solid-state counterparts, almost a $3$ order of magnitude enhancement in the size of the mechanical Schr\"{o}dinger cat state could be achieved, characterizing a much smaller overlap between its two superposed coherent-state components. By exploiting this generated cat state, we further show how to engineer the quadrature squeezing of the mechanical mode. Besides, we also provide an efficient method to create multicomponent optical Schr\"{o}dinger cat states in our proposed scheme. Our work opens up a new way to achieve nonclassical states of massive objects, facilitating the development of fault-tolerant quantum processors and sensors.
翻訳日:2023-02-10 17:50:23 公開日:2022-06-12
# nmr量子プロセッサにおける相関テンソル再構成による多成分絡み合いの分類と測定

Classification and measurement of multipartite entanglement by reconstruction of correlation tensors on an NMR quantum processor ( http://arxiv.org/abs/2206.05755v1 )

ライセンス: Link先を確認
Vaishali Gulati and Arvind and Kavita Dorai(参考訳) 本稿では,3量子状態の異なる絡み合いクラスに分類し,NMR量子プロセッサ上で実装するプロトコルを提案する。 このプロトコルは、状態の分類のための実験が、状態に存在する絡み合いの量を測定することができるように設計されている。 この分類は、13の演算子を用いた相関行列の実験的再構成を必要とする。 相関行列のランクは、5つのクラスのうちの1つ、分離可能、二分離可能(3つのタイプの)および真に絡み合った(GHZとWの2つのタイプの)状態の分類基準を提供する。 絡み合いを定量化するために、同じ13の演算子を用いて、状態に存在する大域的絡み合いを測定する共起関数を定義する。 大域的絡み合いは分離可能状態と非ゼロ状態に対してゼロである。 本稿では,6つの非等価(確率的局所演算と古典的通信)クラスから選択された状態に対して,3つのキュービットに対してプロトコルの有効性を示す。 また, 3量子ビット純状態の状態空間からランダムに選択した状態に対してプロトコルを実装した。

We introduce a protocol to classify three-qubit pure states into different entanglement classes and implement it on an NMR quantum processor. The protocol is designed in such a way that the experiments performed to classify the states can also measure the amount of entanglement present in the state. The classification requires the experimental reconstruction of the correlation matrices using 13 operators. The rank of the correlation matrices provide the criteria to classify the state in one of the five classes, namely, separable, biseparable (of three types), and genuinely entangled (of two types, GHZ and W). To quantify the entanglement, a concurrence function is defined which measures the global entanglement present in the state, using the same 13 operators. Global entanglement is zero for separable states and non-zero otherwise. We demonstrate the efficacy of the protocol by implementing it on states chosen from each of the six inequivalent (under stochastic local operations and classical communication) classes for three qubits. We also implement the protocol on states picked at random from the state space of three-qubit pure states.
翻訳日:2023-02-09 18:26:24 公開日:2022-06-12
# 平衡内外におけるゆらぎ電磁力学

Fluctuational electrodynamics in and out of equilibrium ( http://arxiv.org/abs/2206.05734v1 )

ライセンス: Link先を確認
Iver Brevik, Boris Shapiro, and M\'ario Silveirinha(参考訳) 中性物質体間の分散力は、物体の分極のゆらぎによるものである。 平衡状態の体の場合、これらの力はしばしばカシミール・リフシッツ力と呼ばれる。 相対運動中の物体に対しては、カシミール・リフシッツ力に加えて、外側摩擦力(ゼロ温度限界における量子摩擦)が作用する。 ゆらぎ誘起力の広く受け入れられる理論は、マックスウェル方程式が媒体偏光のゆらぎに責任を持つランダムな電流源によって補われるときの「ゆらぎ電磁力学」に基づいている。 論文の第1部では、散逸のない極限や、リトフのアプローチと量子電磁力学の関係など、理論のいくつかの概念的な問題に触れている。 本論文では, 散逸のないプラズマモデル(非物理的二重極をゼロ周波数とする)の問題点を指摘する。 論文の第2部は広義の「量子摩擦」に特化しており、いくつかの新しい素材を含んでいる。 特に弱散逸系では摩擦力は定常過程ではない可能性が指摘されている。 適切な条件下では、運動エネルギー(身体間の相対運動により)がコヒーレント放射に変換され、指数関数的に強度が増大する(不安定は最終的に非線形効果によって制限される)ときに不安定が発生することが示されている。 また,両体が休んでいる時,一方の体に一定の電流が流れている場合の設定についても検討する。 2つの体が相対運動している場合とは異なり、一方の体の電子成分だけが他方の体に対して引きずられるということもある。 両者の間には明らかに摩擦力の違いがある。

Dispersion forces between neutral material bodies are due to fluctuations of the polarization of the bodies. For bodies in equilibrium these forces are often referred to as Casimir-Lifshitz forces. For bodies in relative motion, in addition to the Casimir-Lifshitz force, a lateral frictional force ("quantum friction", in the zero temperature limit) comes into play. The widely accepted theory of the fluctuation induced forces is based on the "fluctuational electrodynamics" , when the Maxwell equations are supplemented by random current sources responsible for the fluctuations of the medium polarization. The first part of our paper touches on some conceptual issues of the theory, such as the dissipation-less limit and the link between Rytov's approach and quantum electrodynamics. We point out the problems with the dissipation-less plasma model (with its unphysical double pole at zero frequency) which still appears in the literature. The second part of the paper is devoted to "quantum friction", in a broad sense, and it contains some novel material. In particular, it is pointed out that in weakly dissipative systems the friction force may not be a stationary process. It is shown, using an "exact" (nonpertubative) quantum treatment that under appropriate conditions, an instability can occur when the kinetic energy (due to the relative motion between the bodies) is transformed into coherent radiation, exponentially growing in intensity (the instability gets eventually limited by non-linear effects). We also discuss a setup when the two bodies are at rest but a constant electric current is flowing in one of the bodies. One may say that only the electron component of one body is dragged with respect to the other body, unlike the usual setup when the two bodies are in relative motion. Clearly there are differences in the frictional forces between the two setups.
翻訳日:2023-02-09 18:25:46 公開日:2022-06-12
# 平衡から遠く離れた強結合量子熱力学:非マルコフ過渡量子熱と仕事

Strong Coupling Quantum Thermodynamics far away from Equilibrium: Non-Markovian Transient Quantum Heat and Work ( http://arxiv.org/abs/2206.05722v1 )

ライセンス: Link先を確認
Wei-Ming Huang, Wei-Min Zhang(参考訳) 本稿では,平衡から遠く離れたハイブリッド量子系の強結合量子熱力学について検討する。 強結合ハイブリッドシステムは、実験的に実現された外部駆動下でダイヤモンド中のNV中心の空洞とスピンアンサンブルから構成される。 我々は最近開発した量子熱力学の再正規化理論を応用し、過渡的な量子熱の研究とハイブリッドシステムの研究を行った。 系の散逸と揺らぎのダイナミクスは、重要な非マルコフ効果を含む過渡的な量子熱電流を誘導することを発見した。 一方、エネルギー再正規化と外部駆動は量子ワークパワーを誘導する。 駆動誘起作業パワーは、スピンアンサンブルとの強い結合による空洞の非マルコフ力学のフィードバックによる非マルコフ効果も示している。

In this paper, we investigate the strong coupling quantum thermodynamics of the hybrid quantum system far away from equilibrium. The strong coupling hybrid system consists of a cavity and a spin ensemble of the NV centers in diamond under external driving that has been realized experimentally. We apply the renormalization theory of quantum thermodynamics we developed recently to study the transient quantum heat and work in this hybrid system. We find that the dissipation and fluctuation dynamics of the system induce the transient quantum heat current which involve the significant non-Markovian effects. On the other hand, the energy renormalization and the external driving induce the quantum work power. The driving-induced work power also manifests non-Markovian effects due to the feedback of non-Markovian dynamics of the cavity due to its strong coupling with the spin ensemble.
翻訳日:2023-02-09 18:25:16 公開日:2022-06-12
# 誤差指数の線形スケーリングによるランダム量子回路の確率推定における平均ケース硬さ

Average-case hardness of estimating probabilities of random quantum circuits with a linear scaling in the error exponent ( http://arxiv.org/abs/2206.05642v1 )

ライセンス: Link先を確認
Hari Krovi(参考訳) ランダム量子回路の確率を出力するための加算近似計算の難しさを考察する。 我々は、haar random, $p=1$ qaoa, random iqp circuitの3つのランダム回路を考察する。 結果は以下の通りである。 m$ゲートを持つハールランダム回路の場合、平均加法近似の$\mathsf{coC_=P}$硬さを2^{-Oの精度で示すことにより、先行結果を改善する。 (m)}$。 このような問題の効率的な古典的シミュレーションは多項式階層の崩壊を意味する。 一定深度回路の場合、すなわち$m=O (n)$、指数のこの線形スケーリングはサンプリングの硬さを示すのに必要なスケーリングの定数の範囲内である。 我々の研究に先立ち、この結果はBoson Smpling in Bouland et al (2021)でのみ示された。 多項式補間においても最近の結果を用いて、$\mathsf{coC_=P}$ hardness under $\mathsf{BPP}$ reductions than $\mathsf{BPP}^{\mathsf{NP}}$ reductions を示す。 これにより、誤りのスケーリングと還元のパワーの両方の観点から、haarランダム回路の事前処理の結果が改善される。 次に、ランダムな$p=1$ qaoa と iqp 回路について検討し、平均の場合、出力確率を2^{-o の加算誤差の範囲内で近似するのは$\mathsf{coc_=p}$ であることを示す。 (n)}$。 p=1$QAOA回路の場合、この研究はシェリントン・カークパトリックやエルド・"{o}s-Renyiグラフを含むランダムQAOA回路の出力確率を近似する問題に対する最初の平均ケース硬度結果を構成する。 IQP 回路の場合,Ising 分割関数を虚結合で近似し,加法誤差が 2^{-O となる結果が得られた。 (n)$ は平均の場合でさえ困難であり、乗法近似の最悪の場合のハードネスをイジング分割関数に先行研究に拡張する。

We consider the hardness of computing additive approximations to output probabilities of random quantum circuits. We consider three random circuit families, namely, Haar random, $p=1$ QAOA, and random IQP circuits. Our results are as follows. For Haar random circuits with $m$ gates, we improve on prior results by showing $\mathsf{coC_=P}$ hardness of average-case additive approximations to an imprecision of $2^{-O(m)}$. Efficient classical simulation of such problems would imply the collapse of the polynomial hierarchy. For constant depth circuits i.e., when $m=O(n)$, this linear scaling in the exponent is within a constant of the scaling required to show hardness of sampling. Prior to our work, such a result was shown only for Boson Sampling in Bouland et al (2021). We also use recent results in polynomial interpolation to show $\mathsf{coC_=P}$ hardness under $\mathsf{BPP}$ reductions rather than $\mathsf{BPP}^{\mathsf{NP}}$ reductions. This improves the results of prior work for Haar random circuits both in terms of the error scaling and the power of reductions. Next, we consider random $p=1$ QAOA and IQP circuits and show that in the average-case, it is $\mathsf{coC_=P}$ hard to approximate the output probability to within an additive error of $2^{-O(n)}$. For $p=1$ QAOA circuits, this work constitutes the first average-case hardness result for the problem of approximating output probabilities for random QAOA circuits, which include Sherrington-Kirkpatrick and Erd\"{o}s-Renyi graphs. For IQP circuits, a consequence of our results is that approximating the Ising partition function with imaginary couplings to an additive error of $2^{-O(n)}$ is hard even in the average-case, which extends prior work on worst-case hardness of multiplicative approximation to Ising partition functions.
翻訳日:2023-02-09 18:24:31 公開日:2022-06-12
# コヒーレント状態における調和系の絡み合い

Entanglement in harmonic systems at coherent states ( http://arxiv.org/abs/2206.05781v1 )

ライセンス: Link先を確認
Dimitrios Katsinis and Georgios Pastras(参考訳) 基底状態における場理論の絡み合いエントロピーは、領域法項によって支配され、ブラックホールのエントロピーと類似性を示すことがよく知られている。 重力力学が第1の絡み合い熱力学則から現れることを示すことによって、この類似性を拡張できるかどうかを調査することは興味深い。 この質問に答えるにはモジュラーハミルトニアンの仕様が必要である。 以上のことから、任意の古典的状態、すなわち任意のコヒーレント状態にある調和系のおもちゃ模型における絡み合いについて研究する。 我々は、還元密度行列とその時間発展、およびモジュラーハミルトニアンを明示的に指定する。 興味深いことに、時間進化はユニタリであり、それを生成する有効ハミルトニアンを特定する。 この結果は,(Phys Rev Lett 71:666, 1993)における離散化自由スカラー場理論における重力と絡み合いの類似性を調べるためのツールを提供する。

It is well-known that entanglement entropy in field theory at its ground state is dominated by an area law term, presenting a similarity to the entropy of black holes. It is interesting to investigate whether this similarity can be extended by showing that gravitational dynamics emerges from the first law of entanglement thermodynamics. Answering this question requires the specification of the modular Hamiltonian. Motivated by the above, we study entanglement in the toy model of harmonic systems lying at any classicalmost state, i.e. any coherent state. We specify explicitly the reduced density matrix and its time-evolution, as well as the modular Hamiltonian. Interestingly, the time evolution is unitary and we specify the effective Hamiltonian which generates it. Our results provide the tools to investigate the similarity between gravity and entanglement in discretized free scalar field theory in the framework of (Phys Rev Lett 71:666, 1993).
翻訳日:2023-02-09 18:16:19 公開日:2022-06-12
# 図式的セミオティックモードの導入

Introducing the diagrammatic semiotic mode ( http://arxiv.org/abs/2001.11224v2 )

ライセンス: Link先を確認
Tuomo Hiippala and John A. Bateman(参考訳) 多くの分野にわたるダイアグラムの使用と多様性が拡大するにつれ、これらの多様性がどのように文書化され説明されるかについて、ダイアグラム研究コミュニティの関心が高まっている。 本稿では, ダイアグラムの一般分類における信頼性, カバレッジ, 有用性を向上する一つの方法は, マルチモーダリティの分野において最近開発されたセミオティックな原理に基づくものである,と論じる。 この目的のために、仮に図形的セミオティックモードと呼ばれるものの内部の詳細をスケッチする。 これは、図式表現が自然言語、様々なグラフィック形態、矢印、線などの図式要素をコヒーレントな組織にどのように統合するかの自然な説明を提供する一方で、視覚組織の重要な図式的貢献を尊重している。 本稿では,最近の2つのダイアグラムコーパスを用いて提案手法を説明し,マルチモーダルアプローチが図表表現の実証的解析,特に図表的構成要素の同定とそれらの相互関係を図式型に一般化され,異なる種類の機能性を特徴付ける方法で記述する方法について示す。

As the use and diversity of diagrams across many disciplines grows, there is an increasing interest in the diagrams research community concerning how such diversity might be documented and explained. In this article, we argue that one way of achieving increased reliability, coverage, and utility for a general classification of diagrams is to draw on recently developed semiotic principles developed within the field of multimodality. To this end, we sketch out the internal details of what may tentatively be termed the diagrammatic semiotic mode. This provides a natural account of how diagrammatic representations may integrate natural language, various forms of graphics, diagrammatic elements such as arrows, lines and other expressive resources into coherent organisations, while still respecting the crucial diagrammatic contributions of visual organisation. We illustrate the proposed approach using two recent diagram corpora and show how a multimodal approach supports the empirical analysis of diagrammatic representations, especially in identifying diagrammatic constituents and describing their interrelations in a manner that may be generalised across diagram types and be used to characterise distinct kinds of functionality.
翻訳日:2023-01-05 11:37:09 公開日:2022-06-12
# インセンティブ化探索の価格:トンプソンサンプリングとサンプル複雑度による評価

The Price of Incentivizing Exploration: A Characterization via Thompson Sampling and Sample Complexity ( http://arxiv.org/abs/2002.00558v6 )

ライセンス: Link先を確認
Mark Sellke, Aleksandrs Slivkins(参考訳) 我々はインセンティブ付き探索 (incentivized exploration): 腕の選択が利己的なエージェントによって制御されるマルチアームのバンディットのバージョンであり、アルゴリズムは推奨事項のみを発行できる。 アルゴリズムは情報の流れを制御し、情報非対称性は探索するエージェントにインセンティブを与える。 先行研究は、ベイズ先行法により任意に大きくなる乗法的要因までの最適な後悔率を達成し、武器数で指数関数的にスケールする。 それぞれの腕をサンプリングするより基本的な問題は、同じ要因にぶつかる。 我々は、インセンティブの価格に焦点を合わせ、インセンティブに適合するため、広く解釈された、パフォーマンスの損失である。 標準バンディットアルゴリズムであるトンプソンサンプリングが十分多くのデータポイントで初期化されるとインセンティブ互換であることが証明される。 したがって、インセンティブによるパフォーマンス損失は、これらのデータポイントの収集時に初期ラウンドに制限される。 問題は、主にサンプルの複雑さに還元される: ラウンドがいくつ必要か? この問題に対処し、上と下の境界を一致させ、様々な行でインスタンス化する。 典型的には、最適なサンプル複雑性は、腕の数の多項式と「信念の強さ」の指数関数である。

We consider incentivized exploration: a version of multi-armed bandits where the choice of arms is controlled by self-interested agents, and the algorithm can only issue recommendations. The algorithm controls the flow of information, and the information asymmetry can incentivize the agents to explore. Prior work achieves optimal regret rates up to multiplicative factors that become arbitrarily large depending on the Bayesian priors, and scale exponentially in the number of arms. A more basic problem of sampling each arm once runs into similar factors. We focus on the price of incentives: the loss in performance, broadly construed, incurred for the sake of incentive-compatibility. We prove that Thompson Sampling, a standard bandit algorithm, is incentive-compatible if initialized with sufficiently many data points. The performance loss due to incentives is therefore limited to the initial rounds when these data points are collected. The problem is largely reduced to that of sample complexity: how many rounds are needed? We address this question, providing matching upper and lower bounds and instantiating them in various corollaries. Typically, the optimal sample complexity is polynomial in the number of arms and exponential in the "strength of beliefs".
翻訳日:2023-01-04 09:33:16 公開日:2022-06-12
# WordNetにおける意味的関係を保存するDense Embeddings

Dense Embeddings Preserving the Semantic Relationships in WordNet ( http://arxiv.org/abs/2004.10863v2 )

ライセンス: Link先を確認
Canlin Zhang and Xiuwen Liu(参考訳) 本稿では,WordNetにおける名詞と動詞の合成のための低次元ベクトル埋め込みを生成する新しい方法を提案する。 これをSense Spectrum(および埋め込みのためのSense Spectra)という。 感性スペクトルの学習に適したラベルを作成するために,WordNetにおける名詞と動詞の合成のための新しい類似度尺度を考案した。 この類似度測定は、2つのシンセット間の共通および一意的なハイパーネムを比較するため、HIS(Hypernym Intersection similarity)と呼ぶ。 実験によれば、simlex-999データセットの名詞と動詞のペアでは、wordnetの3つの類似度測定よりも優れていた。 さらに、私たちの知る限りでは、センススペクトルは、wordnetの意味的関係を保存する最初の密集したシンセプションの埋め込みを提供する。

In this paper, we provide a novel way to generate low dimensional vector embeddings for the noun and verb synsets in WordNet, where the hypernym-hyponym relationship is preserved in the embeddings. We call this embedding the Sense Spectrum (and Sense Spectra for embeddings). In order to create suitable labels for the training of sense spectra, we designed a new similarity measurement for noun and verb synsets in WordNet. We call this similarity measurement the Hypernym Intersection Similarity (HIS), since it compares the common and unique hypernyms between two synsets. Our experiments show that on the noun and verb pairs of the SimLex-999 dataset, HIS outperforms the three similarity measurements in WordNet. Moreover, to the best of our knowledge, the sense spectra provide the first dense synset embeddings that preserve the semantic relationships in WordNet.
翻訳日:2022-12-10 18:24:02 公開日:2022-06-12
# 認知に基づく侵入検知システム

A cognitive based Intrusion detection system ( http://arxiv.org/abs/2005.09436v2 )

ライセンス: Link先を確認
Siamak Parhizkari, Mohammad Bagher Menhaj, Atena Sajedin(参考訳) 侵入検知は、コンピュータネットワークのセキュリティを提供する重要なメカニズムの1つである。 攻撃の増加と医療、商業、エンジニアリングなど他の分野への依存の増加により、ネットワーク上でサービスを提供し、ネットワークセキュリティを維持することが大きな問題となっている。 侵入検知システム(IDS)の目的は、正常な通信と異常な通信を区別し、必要な行動をとることのできるモデルを開発することである。 この分野における様々な手法の中で、Artificial Neural Networks (ANN) が広く使われている。 しかし、ANNベースのIDSは、検出精度が低く、検出安定性が弱いという2つの問題に直面した。 本稿では,これらの問題を克服するために,ディープニューラルネットワークansサポートベクターマシン分類に基づく新しいアプローチを提案する。 提案手法は侵入検知の精度が良く類似した手法による攻撃を予測できる。 経験的研究では、KDD99データセットを利用していました。 実験結果から,新しいアプローチは95.4%の精度に向上することが示唆された。

Intrusion detection is one of the important mechanisms that provide computer networks security. Due to an increase in attacks and growing dependence upon other fields such as medicine, commerce, and engineering, offering services over a network and maintaining network security have become a significant issue. The purpose of Intrusion Detection Systems (IDS) is to develop models which are able to distinguish regular communications from abnormal ones, and take the necessary actions. Among different methods in this field, Artificial Neural Networks (ANNs) have been widely used. However, ANN-based IDS encountered two main problems: low detection precision and weak detection stability. To overcome these problems, this paper proposes a new approach based on Deep Neural Network ans Support vector machine classifier, which inspired by "divide and conquer" philosophy. The proposed model predicts the attacks with better accuracy for intrusion detection rather similar methods. For our empirical study, we were taking advantage of the KDD99 dataset. Our experimental results suggest that the new approach enhance to 95.4 percent classification accuracy.
翻訳日:2022-12-01 13:12:17 公開日:2022-06-12
# LAAT: 局所配向アント法による異なる密度の低次元の多重低次元構造の発見

LAAT: Locally Aligned Ant Technique for discovering multiple faint low dimensional structures of varying density ( http://arxiv.org/abs/2009.08326v2 )

ライセンス: Link先を確認
Abolfazl Taghribi, Kerstin Bunte, Rory Smith, Jihye Shin, Michele Mastropietro, Reynier F. Peletier and Peter Tino(参考訳) 次元の縮小とクラスタリングは、多くの複雑な機械学習タスクの予備ステップとしてしばしば使用される。 ノイズやアウトレーヤの存在は前処理の性能を低下させ、その後の解析を著しく損なう可能性がある。 多様体学習において、いくつかの研究は、密度が雑音によって示されるよりもかなり高い場合、構造に近い背景ノイズやノイズを除去するための解を示す。 しかし、天文学的なデータセットを含む多くの応用において、密度は雑音の多い背景に埋もれた多様体とともに変化する。 本稿では, antコロニー最適化の考え方に基づいて, 雑音の存在下での多様体抽出法を提案する。 既存のランダムウォーク解とは対照的に、本手法は多様体の主要方向と局所的に一致する点をキャプチャする。 さらに, 生物学的にインスパイアされたアントフェロモンの定式化は, この挙動を補強し, 極めて騒がしいデータ雲に埋め込まれた複数の多様体を復元できることを実証的に示した。 宇宙体積のn体シミュレーションを含む、いくつかの合成および実データセットにおいて、マニホールド検出およびクラスタリングにおけるノイズ低減のための最先端手法と比較したアルゴリズム性能を実証した。

Dimensionality reduction and clustering are often used as preliminary steps for many complex machine learning tasks. The presence of noise and outliers can deteriorate the performance of such preprocessing and therefore impair the subsequent analysis tremendously. In manifold learning, several studies indicate solutions for removing background noise or noise close to the structure when the density is substantially higher than that exhibited by the noise. However, in many applications, including astronomical datasets, the density varies alongside manifolds that are buried in a noisy background. We propose a novel method to extract manifolds in the presence of noise based on the idea of Ant colony optimization. In contrast to the existing random walk solutions, our technique captures points that are locally aligned with major directions of the manifold. Moreover, we empirically show that the biologically inspired formulation of ant pheromone reinforces this behavior enabling it to recover multiple manifolds embedded in extremely noisy data clouds. The algorithm performance in comparison to state-of-the-art approaches for noise reduction in manifold detection and clustering is demonstrated, on several synthetic and real datasets, including an N-body simulation of a cosmological volume.
翻訳日:2022-10-17 08:33:40 公開日:2022-06-12
# 深部3次元顔識別のための大規模3次元顔データセットの再構成

Reconstructing A Large Scale 3D Face Dataset for Deep 3D Face Identification ( http://arxiv.org/abs/2010.08391v2 )

ライセンス: Link先を確認
Cuican Yu, Zihui Zhang, Huibin Li(参考訳) 深層学習法はコンピュータビジョン、特に2次元顔認識において多くのブレークスルーをもたらした。 しかし、ディープラーニングに基づく3D顔認識のボトルネックは、産業であれ学業であれ、何百万もの3D顔を集めることは困難である。 このような状況から、深部3d顔認識モデルのトレーニングに用いられる3d顔データ拡張により、既存の3d顔からより多くの3d顔を生成する方法が数多く存在する。 しかし、我々の知る限りでは、深部3d顔認識モデルを訓練するための2d顔画像から3d顔を生成する方法がない。 本論文は, 3次元顔認証における3次元顔表面再構成の役割に焦点を当て, 2次元支援深部顔認証の枠組みを提案する。 特に,大規模2次元顔データベース(VGGFace2)から,深層学習に基づく3次元顔再構成手法(ExpNet)を用いて,数百万の3次元顔スキャンを再構築することを提案する。 第1フェーズでは、数百万の顔画像を用いて深部畳み込みニューラルネットワーク(DCNN)を事前訓練し、第2フェーズでは、再構成された3D顔スキャンの正常成分画像(NCI)を用いてDCNNを訓練する。 大規模な実験結果から,提案手法はFRGC v2.0, Bosphorus, BU-3DFEの3次元顔データベース上での3次元顔識別のランク1スコアを大幅に改善できることが示された。 最後に,提案手法はFRGC v2.0 (97.6%), Bosphorus (98.4%), BU-3DFE (98.8%) のデータベース上で,最先端のランク1スコアを達成する。 実験の結果,再建した3次元顔表面は有用であり,我々の2次元支援深部3次元顔識別フレームワークは3次元顔の不足に直面していることがわかった。

Deep learning methods have brought many breakthroughs to computer vision, especially in 2D face recognition. However, the bottleneck of deep learning based 3D face recognition is that it is difficult to collect millions of 3D faces, whether for industry or academia. In view of this situation, there are many methods to generate more 3D faces from existing 3D faces through 3D face data augmentation, which are used to train deep 3D face recognition models. However, to the best of our knowledge, there is no method to generate 3D faces from 2D face images for training deep 3D face recognition models. This letter focuses on the role of reconstructed 3D facial surfaces in 3D face identification and proposes a framework of 2D-aided deep 3D face identification. In particular, we propose to reconstruct millions of 3D face scans from a large scale 2D face database (i.e.VGGFace2), using a deep learning based 3D face reconstruction method (i.e.ExpNet). Then, we adopt a two-phase training approach: In the first phase, we use millions of face images to pre-train the deep convolutional neural network (DCNN), and in the second phase, we use normal component images (NCI) of reconstructed 3D face scans to train the DCNN. Extensive experimental results illustrate that the proposed approach can greatly improve the rank-1 score of 3D face identification on the FRGC v2.0, the Bosphorus, and the BU-3DFE 3D face databases, compared to the model trained by 2D face images. Finally, our proposed approach achieves state-of-the-art rank-1 scores on the FRGC v2.0 (97.6%), Bosphorus (98.4%), and BU-3DFE (98.8%) databases. The experimental results show that the reconstructed 3D facial surfaces are useful and our 2D-aided deep 3D face identification framework is meaningful, facing the scarcity of 3D faces.
翻訳日:2022-10-06 20:11:52 公開日:2022-06-12
# 接続依存性発見による理論的規則に基づく知識グラフ推論

Theoretical Rule-based Knowledge Graph Reasoning by Connectivity Dependency Discovery ( http://arxiv.org/abs/2011.06174v7 )

ライセンス: Link先を確認
Canlin Zhang, Chun-Nan Hsu, Yannis Katsis, Ho-Cheol Kim, Yoshiki Vazquez-Baeza(参考訳) 知識グラフから正確かつ解釈可能なルールを発見することは、多くの下流タスクのパフォーマンスを改善し、自然言語処理の研究トピックにアプローチするための新しい方法を提供する、重要な課題であると考えられている。 本稿では,ルールベースの知識グラフ推論の基本理論について述べる。 知識グラフでこれらのルールの型が考慮されるのは、これが初めてである。 これらの規則型に基づいて、我々の理論は未知の三重項に正確な解釈を与えることができる。 そして、ルールディクトモデルと呼ばれる方法で理論を実装します。 その結果,ルールディクトモデルは新しい三重項を解釈する正確なルールを提供するだけでなく,あるベンチマーク知識グラフ補完タスクにおける最先端のパフォーマンスも達成し,他のタスクと競合することを示す。

Discovering precise and interpretable rules from knowledge graphs is regarded as an essential challenge, which can improve the performances of many downstream tasks and even provide new ways to approach some Natural Language Processing research topics. In this paper, we present a fundamental theory for rule-based knowledge graph reasoning, based on which the connectivity dependencies in the graph are captured via multiple rule types. It is the first time for some of these rule types in a knowledge graph to be considered. Based on these rule types, our theory can provide precise interpretations to unknown triples. Then, we implement our theory by what we call the RuleDict model. Results show that our RuleDict model not only provides precise rules to interpret new triples, but also achieves state-of-the-art performances on one benchmark knowledge graph completion task, and is competitive on other tasks.
翻訳日:2022-09-26 06:58:51 公開日:2022-06-12
# (参考訳) COVID-19はFIFAの陰謀#curropt」だった 新型コロナウイルスの誤報のウイルス拡散に関する調査

"COVID-19 was a FIFA conspiracy #curropt": An Investigation into the Viral Spread of COVID-19 Misinformation ( http://arxiv.org/abs/2207.01483v1 )

ライセンス: CC BY 4.0
Alexander Wang, Jerry Sun, Kaitlyn Chen, Kevin Zhou, Edward Li Gu, Chenxin Fang(参考訳) 新型コロナウイルス感染症(COVID-19)の流行により、パンデミックは2つの波で公衆衛生を損なうことが判明した。 私たちの手と携帯電話には 道徳的な論争が 発生しています 現代のソーシャルメディアへの依存は、ワクチンクリニックや検査施設の場所へのアクセスを促進するだけでなく、「COVID-19はFIFAの陰謀だった」という複雑な説明にも、より頻繁にアクセスしている。 mitメディアラボは、偽ニュースが「あらゆる情報のカテゴリにおいて、真理よりもはるかに遠く、より速く、より深く、より広範に拡散する」ことを発見した。 問題は、誤情報の拡散が物理的な伝染病とどのように相互作用するかだ。 本稿では、自然言語処理モデルを用いて、誤報がCOVID-19パンデミックの進行にどの程度影響を与えたかを推定し、幅広い害をもたらす可能性のあるソーシャルメディア投稿と戦うための戦略を提供する。

The outbreak of the infectious and fatal disease COVID-19 has revealed that pandemics assail public health in two waves: first, from the contagion itself and second, from plagues of suspicion and stigma. Now, we have in our hands and on our phones an outbreak of moral controversy. Modern dependency on social medias has not only facilitated access to the locations of vaccine clinics and testing sites but also-and more frequently-to the convoluted explanations of how "COVID-19 was a FIFA conspiracy"[1]. The MIT Media Lab finds that false news "diffuses significantly farther, faster, deeper, and more broadly than truth, in all categories of information, and by an order of magnitude"[2]. The question is, how does the spread of misinformation interact with a physical epidemic disease? In this paper, we estimate the extent to which misinformation has influenced the course of the COVID-19 pandemic using natural language processing models and provide a strategy to combat social media posts that are likely to cause widespread harm.
翻訳日:2022-07-10 17:01:53 公開日:2022-06-12
# 測定データベースを用いたベイズ型NVHモデルによる室内騒音評価

Bayesian NVH metamodels to assess interior cabin noise using measurement databases ( http://arxiv.org/abs/2207.02120v1 )

ライセンス: Link先を確認
V. Prakash, O. Sauvage, J. Antoni, L. Gagliardini(参考訳) 近年では、乗客全体の快適性を表す車両の音響的シグネチャのエンジニアリングに重点が置かれている。 生産車の極めて不確実な挙動のため、確率的メタモデルやサロゲートは、NVHの分散を推定し、異なるNVHリスクを評価するのに有用である。 これらのメタモデルは物理的挙動に従い、NVH最適化をサポートする初期設計プロセスにおいて設計空間探索ツールとして役立つ。 測定データベースは、空気力学ノイズ(風-トンネル試験)、タイヤ-舗装相互作用ノイズ(ローリングノイズ)、電動機によるノイズ(遮音)などの異なるノイズパスを構成する。 本研究は,複雑な物理機構に関する事前知識を考慮に入れたベイズフレームワークを利用した空力やローリングノイズなどのブロードバンドノイズに対するグローバルなNVHメタモデリング手法を提案する。 多項式とガウス基底関数を持つ一般化加法モデル(GAM)を用いて、予測変数に対する音圧レベル(SPL)の依存性をモデル化する。 さらに、点推定を用いたデータ生成機構に基づくパラメトリックブートストラップアルゴリズムを用いて未知パラメータの分散を推定する。 No-U-Turn sampler (NUTS) を用いたオープンソースのライブラリ PyMC3 を用いて確率論的モデリングを行い, クロスバリデーション手法を用いて検証を行った。

In recent years, a great emphasis has been put on engineering the acoustic signature of vehicles that represents the overall comfort level for passengers. Due to highly uncertain behavior of production cars, probabilistic metamodels or surrogates can be useful to estimate the NVH dispersion and assess different NVH risks. These metamodels follow physical behaviors and shall aid as a design space exploration tool during the early stage design process to support the NVH optimization. The measurement databases constitute different noise paths such as aerodynamic noise (wind-tunnel test), tire-pavement interaction noise (rolling noise), and noise due to electric motors (whining noise). This research work proposes a global NVH metamodeling technique for broadband noises such as aerodynamic and rolling noises exploiting the Bayesian framework that takes into account the prior (domain-expert) knowledge about complex physical mechanisms. Generalized additive models (GAMs) with polynomials and Gaussian basis functions are used to model the dependency of sound pressure level (SPL) on predictor variables. Moreover, parametric bootstrap algorithm based on data-generating mechanism using the point estimates is used to estimate the dispersion in unknown parameters. Probabilistic modelling is carried out using an open-source library PyMC3 that utilizes No-U-Turn sampler (NUTS) and the developed models are validated using Cross-Validation technique.
翻訳日:2022-07-10 11:57:22 公開日:2022-06-12
# Webアプリケーションファイアウォール上での進化的マルチタスクインジェクションテスト

Evolutionary Multi-Task Injection Testing on Web Application Firewalls ( http://arxiv.org/abs/2206.05743v1 )

ライセンス: Link先を確認
Ke Li, Heng Yang, Willem Visser(参考訳) Webアプリケーションファイアウォール(WAF)は、現在、SQLインジェクション、XMLインジェクション、PHPインジェクションといった様々な悪意のあるインジェクション攻撃からWebアプリケーションを保護するために重要な役割を果たす。 しかしながら、インジェクション攻撃の高度化とwafのチューニングの複雑さの増加を考えると、wafが正当なメッセージに悪影響を与えずにすべての悪意あるインジェクション攻撃をブロックするようなインジェクションの脆弱性がないことを保証するのは困難である。 したがって、WAFの自動テストは、タイムリーで重要なタスクである。 本稿では,WAFに対する複数種類のインジェクション攻撃に対して,同時にテスト入力を生成する自動インジェクションテストツールDaNuoYiを提案する。 我々の基本的な考え方は自然言語処理領域における言語間翻訳に由来する。 特に、異なる種類のインジェクション攻撃に対するテスト入力は構文的に異なるが、意味的に似ている可能性がある。 複数のプログラミング言語でセマンティック知識を共有することで、より洗練されたテストインプットの生成と、それ以外では見つけるのが難しいwafのインジェクション脆弱性の発見が促進される。 この目的のために、DaNuoYiでは、複数のインジェクション変換モデルをマルチタスク学習を用いて訓練し、任意のインジェクションアタック間のテスト入力を変換する。 このモデルは、新しいマルチタスク進化アルゴリズムによって、異なる種類のインジェクション攻撃に対するテスト入力を共有結合プールと各世代におけるドメイン固有の突然変異演算子によって促進するために使用される。 実世界の3つのオープンソースWAFと6種類のインジェクション攻撃実験を行い、DaNuoYiは最先端の単一タスクと文脈自由文法ベースのインジェクション構築よりも3.8倍および5.78倍有効なテストインプット(WAFをバイパスする)を生成することを示した。

Web application firewall (WAF) plays an integral role nowadays to protect web applications from various malicious injection attacks such as SQL injection, XML injection, and PHP injection, to name a few. However, given the evolving sophistication of injection attacks and the increasing complexity of tuning a WAF, it is challenging to ensure that the WAF is free of injection vulnerabilities such that it will block all malicious injection attacks without wrongly affecting the legitimate message. Automatically testing the WAF is, therefore, a timely and essential task. In this paper, we propose DaNuoYi, an automatic injection testing tool that simultaneously generates test inputs for multiple types of injection attacks on a WAF. Our basic idea derives from the cross-lingual translation in the natural language processing domain. In particular, test inputs for different types of injection attacks are syntactically different but may be semantically similar. Sharing semantic knowledge across multiple programming languages can thus stimulate the generation of more sophisticated test inputs and discovering injection vulnerabilities of the WAF that are otherwise difficult to find. To this end, in DaNuoYi, we train several injection translation models by using multi-task learning that translates the test inputs between any pair of injection attacks. The model is then used by a novel multi-task evolutionary algorithm to co-evolve test inputs for different types of injection attacks facilitated by a shared mating pool and domain-specific mutation operators at each generation. We conduct experiments on three real-world open-source WAFs and six types of injection attacks, the results reveal that DaNuoYi generates up to 3.8x and 5.78x more valid test inputs (i.e., bypassing the underlying WAF) than its state-of-the-art single-task counterparts and the context-free grammar-based injection construction.
翻訳日:2022-06-26 14:47:52 公開日:2022-06-12
# 神経毒 : フェデレート学習における持続的なバックドア

Neurotoxin: Durable Backdoors in Federated Learning ( http://arxiv.org/abs/2206.10341v1 )

ライセンス: Link先を確認
Zhengming Zhang, Ashwinee Panda, Linyue Song, Yaoqing Yang, Michael W. Mahoney, Joseph E. Gonzalez, Kannan Ramchandran, Prateek Mittal(参考訳) 分散した性質のため、フェデレーション学習(fl)システムは、敵のバックドア攻撃に対するトレーニング中に固有の脆弱性を持つ。 この種の攻撃では、攻撃者の目標は、いわゆるバックドアを学習モデルに埋め込むために毒殺アップデートを使用することであり、テスト時にモデルの出力を特定の入力に対して所定のターゲットに固定することができる。 (単純なおもちゃの例として、もしユーザーが「ニューヨーク出身の人」を、バックドア付き次の単語予測モデルを使用するモバイルキーボードアプリに入力すれば、このモデルは「ニューヨーク出身の人は失礼な人」に自動補完することができる)。 以前の研究では、バックドアはflモデルに挿入可能であることが示されているが、これらのバックドアは耐久性がないことが多い。 したがって、通常、訓練は運用中のflシステムで徐々に続けられるので、挿入されたバックドアは展開まで存続しない。 本稿では,既存のバックドア攻撃に対する単純なワンライン修正であるニューロトキシンを提案する。 自然言語処理とコンピュータビジョンのタスクを10タスクにわたって徹底的に評価し,アートバックドアの耐久性を2倍にできることを確認した。

Due to their decentralized nature, federated learning (FL) systems have an inherent vulnerability during their training to adversarial backdoor attacks. In this type of attack, the goal of the attacker is to use poisoned updates to implant so-called backdoors into the learned model such that, at test time, the model's outputs can be fixed to a given target for certain inputs. (As a simple toy example, if a user types "people from New York" into a mobile keyboard app that uses a backdoored next word prediction model, then the model could autocomplete the sentence to "people from New York are rude"). Prior work has shown that backdoors can be inserted into FL models, but these backdoors are often not durable, i.e., they do not remain in the model after the attacker stops uploading poisoned updates. Thus, since training typically continues progressively in production FL systems, an inserted backdoor may not survive until deployment. Here, we propose Neurotoxin, a simple one-line modification to existing backdoor attacks that acts by attacking parameters that are changed less in magnitude during training. We conduct an exhaustive evaluation across ten natural language processing and computer vision tasks, and we find that we can double the durability of state of the art backdoors.
翻訳日:2022-06-26 12:16:32 公開日:2022-06-12
# (参考訳) 骨年齢評価のための教師なし深層学習法

An Unsupervised Deep-Learning Method for Bone Age Assessment ( http://arxiv.org/abs/2206.05641v1 )

ライセンス: CC BY 4.0
Hao Zhu, Wan-Jing Nie, Yue-Jie Hou, Qi-Meng Du, Si-Jing Li, and Chi-Chun Zhou(参考訳) 骨の発達の程度を反映した骨年齢は、成人の高さを予測し、子供の内分泌疾患を検出するために用いられる。 放射線技師の診察とオペレーターの多様性は骨年齢評価に大きな影響を及ぼす。 人間の介入を減らすために、自動的に骨年齢を評価するために機械学習アルゴリズムが使用される。 しかし、従来の教師付きディープラーニング手法では、事前ラベル付きデータが必要である。 本稿では,指紋の分類における教師なし深層学習モデルである制約付き畳み込みオートエンコーダ(CCAE)に基づいて,骨年齢の分類とBA-CCAEの洗礼を行うモデルを提案する。 提案したBA-CCAEモデルでは, 骨年齢の生X線画像のキー領域を符号化し, 潜伏ベクトルを生成する。 k平均クラスタリングアルゴリズムは、骨画像の潜在ベクトルをグループ化して最終分類を得るために用いられる。 北米放射線学会(Radiological Society of North America pediatric bone age dataset, RSNA)は、48ヶ月間隔での分類の精度が76.15%であることを示した。 BA-CCAEの精度は既存の多くの教師付きモデルよりも低いが,提案したBA-CCAEモデルは,事前にラベル付けされたデータなしで骨年齢の分類を確立でき,我々の知る限り,提案したBA-CCAEは,教師なし深層学習法を用いて骨年齢評価を行う数少ない道の1つである。

The bone age, reflecting the degree of development of the bones, can be used to predict the adult height and detect endocrine diseases of children. Both examinations of radiologists and variability of operators have a significant impact on bone age assessment. To decrease human intervention , machine learning algorithms are used to assess the bone age automatically. However, conventional supervised deep-learning methods need pre-labeled data. In this paper, based on the convolutional auto-encoder with constraints (CCAE), an unsupervised deep-learning model proposed in the classification of the fingerprint, we propose this model for the classification of the bone age and baptize it BA-CCAE. In the proposed BA-CCAE model, the key regions of the raw X-ray images of the bone age are encoded, yielding the latent vectors. The K-means clustering algorithm is used to obtain the final classifications by grouping the latent vectors of the bone images. A set of experiments on the Radiological Society of North America pediatric bone age dataset (RSNA) show that the accuracy of classifications at 48-month intervals is 76.15%. Although the accuracy now is lower than most of the existing supervised models, the proposed BA-CCAE model can establish the classification of bone age without any pre-labeled data, and to the best of our knowledge, the proposed BA-CCAE is one of the few trails using the unsupervised deep-learning method for the bone age assessment.
翻訳日:2022-06-16 11:32:44 公開日:2022-06-12
# (参考訳) 速く研究し、物事を壊す」べきではない:計算社会科学の倫理について

Don't "research fast and break things": On the ethics of Computational Social Science ( http://arxiv.org/abs/2206.06370v1 )

ライセンス: CC BY 4.0
David Leslie(参考訳) この記事では、cssの研究活動と環境に実用的なガードレールを設置することに関するものです。 CSSの研究者や、CSSメソッドを適用する政策立案者や利害関係者に、彼らのプラクティスが倫理的で信頼性があり、責任があることを保証するために必要となる、批判的で建設的な手段を提供することを目指している。 これはCSSの分野の研究者が直面する倫理的課題の分類を提供することから始まる。 これらの課題は,(1)研究対象者の治療,(2)影響を受けた個人・コミュニティに対するcss研究の影響,(3)css研究の質とその認識論的地位,(4)研究の完全性,(5)研究の公平性に関するものである。 これらの課題を文化変革のモチベーションとして捉えて、責任ある研究と革新(RRI)の習慣をCSSプラクティスにエンドツーエンドに組み入れ、文脈的考察、予測反射、影響評価、公的なエンゲージメント、そして正当かつ文書化された行動が研究ライフサイクル全体にわたって果たすべき役割に焦点を当てた。 CSS実践にRRIの習慣を取り入れることを提案する中で、この章は倫理的、信頼できる、責任あるCSS研究活動に必要ないくつかの実践的なステップを概説している。 これには、ステークホルダーの関与プロセス、研究影響評価、データライフサイクルのドキュメント、バイアス自己評価、透明な研究報告プロトコルが含まれる。

This article is concerned with setting up practical guardrails within the research activities and environments of CSS. It aims to provide CSS scholars, as well as policymakers and other stakeholders who apply CSS methods, with the critical and constructive means needed to ensure that their practices are ethical, trustworthy, and responsible. It begins by providing a taxonomy of the ethical challenges faced by researchers in the field of CSS. These are challenges related to (1) the treatment of research subjects, (2) the impacts of CSS research on affected individuals and communities, (3) the quality of CSS research and to its epistemological status, (4) research integrity, and (5) research equity. Taking these challenges as a motivation for cultural transformation, it then argues for the end-to-end incorporation of habits of responsible research and innovation (RRI) into CSS practices, focusing on the role that contextual considerations, anticipatory reflection, impact assessment, public engagement, and justifiable and well-documented action should play across the research lifecycle. In proposing the inclusion of habits of RRI in CSS practices, the chapter lays out several practical steps needed for ethical, trustworthy, and responsible CSS research activities. These include stakeholder engagement processes, research impact assessments, data lifecycle documentation, bias self-assessments, and transparent research reporting protocols.
翻訳日:2022-06-16 11:25:35 公開日:2022-06-12
# (参考訳) ダークネットトラフィックの分類と敵攻撃

Darknet Traffic Classification and Adversarial Attacks ( http://arxiv.org/abs/2206.06371v1 )

ライセンス: CC BY 4.0
Nhien Rust-Nguyen and Mark Stamp(参考訳) ダークネットの匿名性は、一般的に違法な活動のために利用される。 これまでの研究では、これらの犯罪行為をブロックするために、機械学習とディープラーニング技術を使用してダークネットトラフィックの検出を自動化する。 本研究の目的は,SVM(Support Vector Machines),RF(Random Forest),CNN(Convolutional Neural Networks),AC-GAN(Auxiliary-Classifier Generative Adversarial Networks)を用いて,そのようなトラフィックと基盤となるアプリケーションタイプを分類することで,ダークネットトラフィックの検出を改善することである。 我々のRFモデルは,CIC-Darknet2020データセットを用いた先行研究で使用されている最先端の機械学習技術より優れていることがわかった。 RF分類器のロバスト性を評価するため,現実的な敵攻撃シナリオをシミュレートするために,選択したアプリケーションタイプのクラスを難読化する。 我々は,このような攻撃に打ち勝つことができることを示すとともに,このような攻撃に対処する方法を検討する。

The anonymous nature of darknets is commonly exploited for illegal activities. Previous research has employed machine learning and deep learning techniques to automate the detection of darknet traffic in an attempt to block these criminal activities. This research aims to improve darknet traffic detection by assessing Support Vector Machines (SVM), Random Forest (RF), Convolutional Neural Networks (CNN), and Auxiliary-Classifier Generative Adversarial Networks (AC-GAN) for classification of such traffic and the underlying application types. We find that our RF model outperforms the state-of-the-art machine learning techniques used in prior work with the CIC-Darknet2020 dataset. To evaluate the robustness of our RF classifier, we obfuscate select application type classes to simulate realistic adversarial attack scenarios. We demonstrate that our best-performing classifier can be defeated by such attacks, and we consider ways to deal with such adversarial attacks.
翻訳日:2022-06-16 11:24:25 公開日:2022-06-12
# deepemotex:deep transfer learningを用いたテキストメッセージの感情分類

DeepEmotex: Classifying Emotion in Text Messages using Deep Transfer Learning ( http://arxiv.org/abs/2206.06775v1 )

ライセンス: Link先を確認
Maryam Hasan, Elke Rundensteiner, Emmanuel Agu(参考訳) トランスファーラーニングは、トランスフォーマーからの双方向エンコーダ表現やユニバーサルセンテンスエンコーダのような、事前訓練された言語モデルを通じて自然言語処理に広く用いられている。 大きな成功にもかかわらず、小さなデータセットに適用すると言語モデルは過度に適合し、分類器で微調整すると忘れがちである。 事前学習された言語モデルをあるドメインから別のドメインに移す際に忘れてしまうこの問題を解決するため、既存の取り組みは、忘れないように微調整する方法を探求している。 テキスト中の感情を検出するために,deepemotexは効果的なシーケンシャル転送学習手法を提案する。 忘れられる問題を避けるために、微調整ステップは、twitterから収集された大量の感情ラベルデータによって計測される。 我々はtwitterデータセットとベンチマークデータセットの両方を用いて実験研究を行っている。 deepemotexモデルは、テストデータセットにおけるマルチクラス感情分類の91%以上の精度を達成している。 EmoIntおよびStimulusベンチマークデータセットの感情分類における微調整DeepEmotexモデルの性能を評価する。 モデルは、ベンチマークデータセットのインスタンスの73%で感情を正しく分類する。 提案したDeepEmotex-BERTモデルは、ベンチマークデータセットのBi-LSTM結果よりも23%優れています。 また,細調整データセットのサイズがモデルの精度に及ぼす影響についても検討した。 評価の結果,大量の感情ラベル付きデータを用いた微調整により,目標タスクモデルの堅牢性と有効性が向上することがわかった。

Transfer learning has been widely used in natural language processing through deep pretrained language models, such as Bidirectional Encoder Representations from Transformers and Universal Sentence Encoder. Despite the great success, language models get overfitted when applied to small datasets and are prone to forgetting when fine-tuned with a classifier. To remedy this problem of forgetting in transferring deep pretrained language models from one domain to another domain, existing efforts explore fine-tuning methods to forget less. We propose DeepEmotex an effective sequential transfer learning method to detect emotion in text. To avoid forgetting problem, the fine-tuning step is instrumented by a large amount of emotion-labeled data collected from Twitter. We conduct an experimental study using both curated Twitter data sets and benchmark data sets. DeepEmotex models achieve over 91% accuracy for multi-class emotion classification on test dataset. We evaluate the performance of the fine-tuned DeepEmotex models in classifying emotion in EmoInt and Stimulus benchmark datasets. The models correctly classify emotion in 73% of the instances in the benchmark datasets. The proposed DeepEmotex-BERT model outperforms Bi-LSTM result on the benchmark datasets by 23%. We also study the effect of the size of the fine-tuning dataset on the accuracy of our models. Our evaluation results show that fine-tuning with a large set of emotion-labeled data improves both the robustness and effectiveness of the resulting target task model.
翻訳日:2022-06-15 15:34:11 公開日:2022-06-12
# (参考訳) ベイズ型ディープノイズニューラルネットワークを用いた密度回帰と不確実性定量化

Density Regression and Uncertainty Quantification with Bayesian Deep Noise Neural Networks ( http://arxiv.org/abs/2206.05643v1 )

ライセンス: CC BY 4.0
Daiwei Zhang, Tianci Liu, Jian Kang(参考訳) ディープニューラルネットワーク(DNN)モデルは、幅広い教師付き学習アプリケーションにおいて最先端の予測精度を達成した。 しかし、DNN予測の不確かさを正確に定量化することは難しい課題である。 連続結果変数の場合、さらに難しい問題は予測密度関数を推定することであり、予測の不確かさを自然に定量化するだけでなく、結果のランダムな変動を完全に捉えることができる。 本研究では,ベイジアンディープノイズニューラルネットワーク (B-DeepNoise) を提案する。これはベイジアンDNNを出力層からすべての隠れ層にランダムノイズ変数を拡張することによって一般化する。 潜在性ランダムノイズは、非常に複雑な予測分布を近似し、予測の不確かさを正確に定量化する柔軟性を持つ。 後続計算では、B-DeepNoiseのユニークな構造は、計算集約的なメトロポリス・ハスティング法を回避し、モデルパラメータの後方完全条件分布から反復的にシミュレートする閉形式ギブスサンプリングアルゴリズムに導かれる。 B-DeepNoiseの理論解析は、予測分布の再帰的表現を確立し、潜在パラメータに関する予測的分散を分解する。 ベンチマーク回帰データセットにおける既存の手法に対するb-deepnoiseの評価を行い、予測精度、不確実性定量化精度、不確実性定量化効率の点で、その優れた性能を示す。 我々は,B-DeepNoiseを用いて,青年期脳認知発達(ABCD)プロジェクトにおける神経画像の特徴から一般知能を予測する。

Deep neural network (DNN) models have achieved state-of-the-art predictive accuracy in a wide range of supervised learning applications. However, accurately quantifying the uncertainty in DNN predictions remains a challenging task. For continuous outcome variables, an even more difficult problem is to estimate the predictive density function, which not only provides a natural quantification of the predictive uncertainty, but also fully captures the random variation in the outcome. In this work, we propose the Bayesian Deep Noise Neural Network (B-DeepNoise), which generalizes standard Bayesian DNNs by extending the random noise variable from the output layer to all hidden layers. The latent random noise equips B-DeepNoise with the flexibility to approximate highly complex predictive distributions and accurately quantify predictive uncertainty. For posterior computation, the unique structure of B-DeepNoise leads to a closed-form Gibbs sampling algorithm that iteratively simulates from the posterior full conditional distributions of the model parameters, circumventing computationally intensive Metropolis-Hastings methods. A theoretical analysis of B-DeepNoise establishes a recursive representation of the predictive distribution and decomposes the predictive variance with respect to the latent parameters. We evaluate B-DeepNoise against existing methods on benchmark regression datasets, demonstrating its superior performance in terms of prediction accuracy, uncertainty quantification accuracy, and uncertainty quantification efficiency. To illustrate our method's usefulness in scientific studies, we apply B-DeepNoise to predict general intelligence from neuroimaging features in the Adolescent Brain Cognitive Development (ABCD) project.
翻訳日:2022-06-15 13:19:01 公開日:2022-06-12
# (参考訳) ディエンスシーンにおける群集カウントの間接的インスタントアテンション最適化

Indirect-Instant Attention Optimization for Crowd Counting in Dense Scenes ( http://arxiv.org/abs/2206.05648v1 )

ライセンス: CC BY 4.0
Suyu Han, Guodong Wang, Donghua Liu(参考訳) 特徴マップのような学習可能なパラメータ最適化を導くための魅力的なアプローチの1つは、ネットワークインテリジェンスをわずかなコストで啓蒙するグローバルアテンションである。 しかし、その損失計算プロセスは、1)手続きにかかわる人工的な閾値が堅牢ではないため、注意のために1次元の「pseudoラベル」しか作成できない、2) 損失計算を待つ注意は必ずしも高次元であり、畳み込みによってそれを減らすことは必然的に学習可能なパラメータをもたらし、損失の原因を混乱させる。 そこで我々は,高次元アテンションマップを1次元の特徴マップに変換してネットワーク中における損失計算を行い,特徴ピラミッドモジュールに適応的なマルチスケール融合を自動で提供する,シンプルで効率的な間接インスタントアテンション最適化(IIAO)モジュールを考案した。 この特殊変換は, 比較的粗い特徴を生じ, もともとは, 群集密度分布によって予測的誤認性が異なるため, 連続的なエラー発生領域とスムーズな空間情報を取得するために, 地域相関損失(RCLoss)を補正する。 大規模な実験により、多くのベンチマークデータセットにおいて、我々のアプローチが従来のSOTAメソッドを超えることが証明された。

One of appealing approaches to guiding learnable parameter optimization, such as feature maps, is global attention, which enlightens network intelligence at a fraction of the cost. However, its loss calculation process still falls short: 1)We can only produce one-dimensional 'pseudo labels' for attention, since the artificial threshold involved in the procedure is not robust; 2) The attention awaiting loss calculation is necessarily high-dimensional, and decreasing it by convolution will inevitably introduce additional learnable parameters, thus confusing the source of the loss. To this end, we devise a simple but efficient Indirect-Instant Attention Optimization (IIAO) module based on SoftMax-Attention , which transforms high-dimensional attention map into a one-dimensional feature map in the mathematical sense for loss calculation midway through the network, while automatically providing adaptive multi-scale fusion to feature pyramid module. The special transformation yields relatively coarse features and, originally, the predictive fallibility of regions varies by crowd density distribution, so we tailor the Regional Correlation Loss (RCLoss) to retrieve continuous error-prone regions and smooth spatial information . Extensive experiments have proven that our approach surpasses previous SOTA methods in many benchmark datasets.
翻訳日:2022-06-15 11:40:27 公開日:2022-06-12
# (参考訳) 雑音安定規則化を伴う微調整事前学習言語モデル

Fine-tuning Pre-trained Language Models with Noise Stability Regularization ( http://arxiv.org/abs/2206.05658v1 )

ライセンス: CC BY 4.0
Hang Hua, Xingjian Li, Dejing Dou, Cheng-Zhong Xu, Jiebo Luo(参考訳) 大規模事前学習型言語モデルの出現は、近年の自然言語処理の進歩に大きく貢献している。 多くの最先端言語モデルは、まず大きなテキストコーパスでトレーニングされ、その後下流タスクで微調整される。 近年の成功と広く採用されているにもかかわらず、事前学習された言語モデルの微調整は、しばしば過剰な適合に苦しめられ、モデルの非常に高い複雑さと下流タスクからの限られたトレーニングサンプルのため、一般化しづらい。 この問題に対処するため、我々はLayerwise Noise Stability Regularization (LNSR) という新しい効果的な微調整フレームワークを提案する。 具体的には,標準ガウス雑音やマニフォールド雑音を注入し,微調整モデルの隠れ表現を正則化する。 まず,本手法の有効性を裏付ける理論的解析を行う。 次に,L2-SP,Mixout,SMARTなどの最先端アルゴリズムに対して提案手法の利点を示す。 これらの先行研究は,比較的単純なテキスト分類タスクにおいて,その手法の有効性を検証するだけでなく,質問応答タスクにおける提案手法の有効性を検証した。 さらに,提案アルゴリズムは,言語モデルのドメイン内性能を向上するだけでなく,ドメイン外データに対するドメイン一般化性能を向上させることができることを示す。

The advent of large-scale pre-trained language models has contributed greatly to the recent progress in natural language processing. Many state-of-the-art language models are first trained on a large text corpus and then fine-tuned on downstream tasks. Despite its recent success and wide adoption, fine-tuning a pre-trained language model often suffers from overfitting, which leads to poor generalizability due to the extremely high complexity of the model and the limited training samples from downstream tasks. To address this problem, we propose a novel and effective fine-tuning framework, named Layerwise Noise Stability Regularization (LNSR). Specifically, we propose to inject the standard Gaussian noise or In-manifold noise and regularize hidden representations of the fine-tuned model. We first provide theoretical analyses to support the efficacy of our method. We then demonstrate the advantages of the proposed method over other state-of-the-art algorithms including L2-SP, Mixout and SMART. While these previous works only verify the effectiveness of their methods on relatively simple text classification tasks, we also verify the effectiveness of our method on question answering tasks, where the target problem is much more difficult and more training examples are available. Furthermore, extensive experimental results indicate that the proposed algorithm can not only enhance the in-domain performance of the language models but also improve the domain generalization performance on out-of-domain data.
翻訳日:2022-06-15 11:10:23 公開日:2022-06-12
# (参考訳) 不確実性推論と意思決定の定量化に関する調査--信条理論と深層学習

A Survey on Uncertainty Reasoning and Quantification for Decision Making: Belief Theory Meets Deep Learning ( http://arxiv.org/abs/2206.05675v1 )

ライセンス: CC0 1.0
Zhen Guo, Zelin Wan, Qisheng Zhang, Xujiang Zhao, Feng Chen, Jin-Hee Cho, Qi Zhang, Lance M. Kaplan, Dong H. Jeong, Audun J{\o}sang(参考訳) 不確実性に関する深い理解は、不確実性の下で効果的な決定を行うための第一歩です。 深層/機械学習(ML/DL)は高次元データ処理に関わる複雑な問題を解決するために大いに活用されている。 しかし、効果的な意思決定を実現するための様々な不確実性の推論と定量化は、ML/DLにおいて他の人工知能(AI)ドメインよりもはるかに少ない。 特に、信念/明確性理論は、意思決定の有効性を高めるために不確実性を推論し測定するために1960年代からkrrで研究されてきた。 ML/DLにおける信念・エビデンス理論の成熟した不確実性研究を利用して、異なるタイプの不確実性の下で複雑な問題に取り組む研究はごくわずかであることがわかった。 本稿では,いくつかの一般的な信念理論と,不確実性の原因やタイプを扱う基本概念について論じ,それらを定量化し,ml/dlの適用可能性について議論する。 さらに,深層ニューラルネットワーク(dnn)における信念理論を活用する3つの主要なアプローチについて,その不確実性の原因,タイプ,定量化方法,および様々な問題領域における適用可能性について論じる。 本研究は,本研究から得られた知見,教訓,現状のブリッジング信念理論とml/dlの限界,そして最後には今後の研究方向性について述べる。

An in-depth understanding of uncertainty is the first step to making effective decisions under uncertainty. Deep/machine learning (ML/DL) has been hugely leveraged to solve complex problems involved with processing high-dimensional data. However, reasoning and quantifying different types of uncertainties to achieve effective decision-making have been much less explored in ML/DL than in other Artificial Intelligence (AI) domains. In particular, belief/evidence theories have been studied in KRR since the 1960s to reason and measure uncertainties to enhance decision-making effectiveness. We found that only a few studies have leveraged the mature uncertainty research in belief/evidence theories in ML/DL to tackle complex problems under different types of uncertainty. In this survey paper, we discuss several popular belief theories and their core ideas dealing with uncertainty causes and types and quantifying them, along with the discussions of their applicability in ML/DL. In addition, we discuss three main approaches that leverage belief theories in Deep Neural Networks (DNNs), including Evidential DNNs, Fuzzy DNNs, and Rough DNNs, in terms of their uncertainty causes, types, and quantification methods along with their applicability in diverse problem domains. Based on our in-depth survey, we discuss insights, lessons learned, limitations of the current state-of-the-art bridging belief theories and ML/DL, and finally, future research directions.
翻訳日:2022-06-15 10:39:21 公開日:2022-06-12
# (参考訳) アクティブ弱監視学習のためのバランスバイアスと変数

Balancing Bias and Variance for Active Weakly Supervised Learning ( http://arxiv.org/abs/2206.05682v1 )

ライセンス: CC BY 4.0
Hitesh Sapkota, Qi Yu(参考訳) 弱教師付き学習方式として広く使われている現代マルチインスタンス学習(MIL)モデルは、バッグレベルでの競争性能を達成する。 しかし、多くの重要なアプリケーションに不可欠なインスタンスレベルの予測は、ほとんど満足できないままである。 そこで本研究では,インフォメーションインスタンスのごく一部をサンプルとして,インスタンスレベルの予測を著しく高めることを目的とした,新しいアクティブ深層複数インスタンス学習手法を提案する。 分散正規化損失関数は、インスタンスレベルの予測のバイアスと分散を適切にバランスさせ、ミルの高度不均衡なインスタンス分布とその他の根本的な課題を効果的に解決することを目的として設計されている。 非凸である分散正則化損失を直接最小化する代わりに、分布的に堅牢なバッグレベル確率を凸代理として最適化する。 頑丈な袋の確率は、強い理論的保証とともに分散に基づくMIL損失の良好な近似を与える。 また、バイアスと分散を自動的にバランスさせ、アクティブサンプリングをサポートする潜在的にポジティブなインスタンスを特定するのが効果的である。 ロバストなバッグ確率は、負の袋ペアのミニバッチを使用して深層モデルのトレーニングをサポートするために、ディープアーキテクチャと自然に統合することができる。 最後に,ロバストなバッグ確率を最適化し,確率ベクトルと予測インスタンススコアを組み合わせた新しいp-fサンプリング関数を開発した。 キーとなるMIL仮定を利用することで、サンプリング関数は最も困難なバッグを探索し、アノテーションに対する肯定的なインスタンスを効果的に検出し、インスタンスレベルの予測を大幅に改善する。 複数の実世界のデータセット上で実施された実験は、提案モデルによって達成された最先端のインスタンスレベルの予測をはっきりと示している。

As a widely used weakly supervised learning scheme, modern multiple instance learning (MIL) models achieve competitive performance at the bag level. However, instance-level prediction, which is essential for many important applications, remains largely unsatisfactory. We propose to conduct novel active deep multiple instance learning that samples a small subset of informative instances for annotation, aiming to significantly boost the instance-level prediction. A variance regularized loss function is designed to properly balance the bias and variance of instance-level predictions, aiming to effectively accommodate the highly imbalanced instance distribution in MIL and other fundamental challenges. Instead of directly minimizing the variance regularized loss that is non-convex, we optimize a distributionally robust bag level likelihood as its convex surrogate. The robust bag likelihood provides a good approximation of the variance based MIL loss with a strong theoretical guarantee. It also automatically balances bias and variance, making it effective to identify the potentially positive instances to support active sampling. The robust bag likelihood can be naturally integrated with a deep architecture to support deep model training using mini-batches of positive-negative bag pairs. Finally, a novel P-F sampling function is developed that combines a probability vector and predicted instance scores, obtained by optimizing the robust bag likelihood. By leveraging the key MIL assumption, the sampling function can explore the most challenging bags and effectively detect their positive instances for annotation, which significantly improves the instance-level prediction. Experiments conducted over multiple real-world datasets clearly demonstrate the state-of-the-art instance-level prediction achieved by the proposed model.
翻訳日:2022-06-15 10:38:09 公開日:2022-06-12
# (参考訳) DRNet:リモート生理計測のための分解・再構成ネットワーク

DRNet: Decomposition and Reconstruction Network for Remote Physiological Measurement ( http://arxiv.org/abs/2206.05687v1 )

ライセンス: CC BY 4.0
Yuhang Dong, Gongping Yang, Yilong Yin(参考訳) リモート光胸腺撮影(rPPG)に基づく生理学的測定は、特にCOVID-19パンデミックにおいて重要視されている、情緒的コンピューティング、非接触型健康モニタリング、遠隔医療モニタリングなどにおいて、大きな価値を持つ。 既存の方法は一般に2つのグループに分けられる。 1つ目は、顔ビデオから微妙な血液量パルス(bvp)信号をマイニングすることにフォーカスしているが、顔ビデオコンテンツを支配するノイズを明示的にモデル化することはほとんどない。 ノイズの影響を受けやすく、目に見えないシナリオでは一般化能力に乏しい。 2つめはノイズデータを直接モデル化することにフォーカスし、結果として、これらの厳しいランダムノイズの規則性の欠如による副最適性能をもたらす。 本稿では,ノイズデータではなく生理的特徴のモデル化に着目した分解・再構成ネットワーク(DRNet)を提案する。 生理情報の周期性を抑制するために, 新たなサイクル損失を提案する。 また,空間的位置情報とともに特徴を高めるために,プラグアンドプレイ型空間注意ブロック (SAB) を提案する。 さらに,ノイズや特徴の異なる拡張サンプルを合成するために,効率的なパッチクロッピング (pc) 強化戦略を提案する。 さまざまな公開データセットとクロスデータベーステストに関する大規模な実験は、我々のアプローチの有効性を示しています。

Remote photoplethysmography (rPPG) based physiological measurement has great application values in affective computing, non-contact health monitoring, telehealth monitoring, etc, which has become increasingly important especially during the COVID-19 pandemic. Existing methods are generally divided into two groups. The first focuses on mining the subtle blood volume pulse (BVP) signals from face videos, but seldom explicitly models the noises that dominate face video content. They are susceptible to the noises and may suffer from poor generalization ability in unseen scenarios. The second focuses on modeling noisy data directly, resulting in suboptimal performance due to the lack of regularity of these severe random noises. In this paper, we propose a Decomposition and Reconstruction Network (DRNet) focusing on the modeling of physiological features rather than noisy data. A novel cycle loss is proposed to constrain the periodicity of physiological information. Besides, a plug-and-play Spatial Attention Block (SAB) is proposed to enhance features along with the spatial location information. Furthermore, an efficient Patch Cropping (PC) augmentation strategy is proposed to synthesize augmented samples with different noise and features. Extensive experiments on different public datasets as well as the cross-database testing demonstrate the effectiveness of our approach.
翻訳日:2022-06-15 10:14:34 公開日:2022-06-12
# (参考訳) ソーシャルメディアにおける接地: チットチャット対話モデル構築へのアプローチ

Grounding in social media: An approach to building a chit-chat dialogue model ( http://arxiv.org/abs/2206.05696v1 )

ライセンス: CC BY 4.0
Ritvik Choudhary, Daisuke Kawahara(参考訳) 豊かな人間のような会話能力を持つオープンドメイン対話システムを構築することは、言語生成における根本的な課題の1つである。 しかし、この分野における最近の進歩にもかかわらず、既存のオープンドメイン生成モデルは外部の知識を捉えて利用することができず、目に見えない発話に対する反復的あるいは総称的な応答に繋がる。 知識に基づく対話生成に関する現在の研究は、主にウィキペディアのような事実に基づく構造化知識ソースを法人化または検索することに焦点を当てている。 本手法は,ソーシャルメディア上のカジュアルなインタラクションを通じて,人間の反応行動を模倣することで,システムの生会話能力を向上させることを目的とした,より広範かつシンプルなアプローチである。 統合レトリバー-ジェネレータ設定を利用して、モデルはredditから大量のフィルタされたコメントデータをクエリし、seq2seqジェネレータの追加コンテキストとして機能する。 オープンドメイン対話データセットの自動評価と人的評価は,我々のアプローチの有効性を示す。

Building open-domain dialogue systems capable of rich human-like conversational ability is one of the fundamental challenges in language generation. However, even with recent advancements in the field, existing open-domain generative models fail to capture and utilize external knowledge, leading to repetitive or generic responses to unseen utterances. Current work on knowledge-grounded dialogue generation primarily focuses on persona incorporation or searching a fact-based structured knowledge source such as Wikipedia. Our method takes a broader and simpler approach, which aims to improve the raw conversation ability of the system by mimicking the human response behavior through casual interactions found on social media. Utilizing a joint retriever-generator setup, the model queries a large set of filtered comment data from Reddit to act as additional context for the seq2seq generator. Automatic and human evaluations on open-domain dialogue datasets demonstrate the effectiveness of our approach.
翻訳日:2022-06-15 10:01:25 公開日:2022-06-12
# (参考訳) モデル解釈における機能的情報視点

A Functional Information Perspective on Model Interpretation ( http://arxiv.org/abs/2206.05700v1 )

ライセンス: CC BY 4.0
Itai Gat, Nitay Calderon, Roi Reichart, Tamir Hazan(参考訳) 入力要素間の多数の複雑な関係を利用するため、現代の予測モデルは解釈が難しい。 本研究は,入力に関するネットワークの機能的エントロピーに対する関連する特徴の寄与を測定することによって,モデル解釈可能性の理論的枠組みを提案する。 我々は、データの共分散に関して機能的フィッシャー情報によって機能的エントロピーを束縛する対数ソボレフの不等式に依存する。 これは、機能の一部が決定関数に寄与する情報量を測定するための原則的な方法を提供する。 本研究では,画像,テキスト,音声などの様々なデータ信号に対して,既存の可読性サンプリング手法を超越した手法を提案する。

Contemporary predictive models are hard to interpret as their deep nets exploit numerous complex relations between input elements. This work suggests a theoretical framework for model interpretability by measuring the contribution of relevant features to the functional entropy of the network with respect to the input. We rely on the log-Sobolev inequality that bounds the functional entropy by the functional Fisher information with respect to the covariance of the data. This provides a principled way to measure the amount of information contribution of a subset of features to the decision function. Through extensive experiments, we show that our method surpasses existing interpretability sampling-based methods on various data signals such as image, text, and audio.
翻訳日:2022-06-15 09:52:26 公開日:2022-06-12
# (参考訳) DPCN++:Versatile Pose Registrationのための微分位相相関ネットワーク

DPCN++: Differentiable Phase Correlation Network for Versatile Pose Registration ( http://arxiv.org/abs/2206.05707v1 )

ライセンス: CC BY 4.0
Zexi Chen, Yiyi Liao, Haozhe Du, Haodong Zhang, Xuecheng Xu, Haojian Lu, Rong Xiong, Yue Wang(参考訳) ポーズ登録は視覚とロボット工学において重要である。 本稿では,同種および異種測定における7DoFまでの初期化自由ポーズ登録の課題に焦点を当てた。 近年の学習ベース手法では, 可微分解法を用いた有望性を示すが, ヒューリスティックに定義された対応に依存するか, 局所最小化に傾向がある。 本稿では,世界規模で収束し,対応しない微分位相相関法を提案する。 単純な特徴抽出ネットワークと組み合わせることで、汎用フレームワークDPCN++は任意の初期化による多目的ポーズ登録を可能にする。 具体的には、特徴抽出ネットワークは、まず、一対の均質/ヘテロゲネス測定から高密度特徴格子を学習する。 これらの特徴格子は、フーリエ変換と球状半径アグリゲーションに基づく変換およびスケール不変スペクトル表現に変換され、変換とスケールは回転から切り離される。 次に、DPCソルバを用いてスペクトル毎に、回転、スケール、翻訳を独立に、かつ効率的に推定する。 パイプライン全体が微分可能で、エンドツーエンドでトレーニングされる。 2d鳥の目視画像,3dオブジェクトとシーンの計測,医療画像など,さまざまな入力モダリティを持つ幅広い登録タスクでdcpn++を評価した。 実験により, DCPN++は古典的, 学習的ベースライン, 特に部分的に観察された, 不均一な測定において, 高い性能を示した。

Pose registration is critical in vision and robotics. This paper focuses on the challenging task of initialization-free pose registration up to 7DoF for homogeneous and heterogeneous measurements. While recent learning-based methods show promise using differentiable solvers, they either rely on heuristically defined correspondences or are prone to local minima. We present a differentiable phase correlation (DPC) solver that is globally convergent and correspondence-free. When combined with simple feature extraction networks, our general framework DPCN++ allows for versatile pose registration with arbitrary initialization. Specifically, the feature extraction networks first learn dense feature grids from a pair of homogeneous/heterogeneous measurements. These feature grids are then transformed into a translation and scale invariant spectrum representation based on Fourier transform and spherical radial aggregation, decoupling translation and scale from rotation. Next, the rotation, scale, and translation are independently and efficiently estimated in the spectrum step-by-step using the DPC solver. The entire pipeline is differentiable and trained end-to-end. We evaluate DCPN++ on a wide range of registration tasks taking different input modalities, including 2D bird's-eye view images, 3D object and scene measurements, and medical images. Experimental results demonstrate that DCPN++ outperforms both classical and learning-based baselines, especially on partially observed and heterogeneous measurements.
翻訳日:2022-06-15 09:35:30 公開日:2022-06-12
# (参考訳) ガウス混合スコープ知識とスコープ教師の集団局在

Crowd Localization from Gaussian Mixture Scoped Knowledge and Scoped Teacher ( http://arxiv.org/abs/2206.05717v1 )

ライセンス: CC BY 4.0
Juncheng Wang, Junyu Gao, Yuan Yuan, Qi Wang(参考訳) 群衆のローカライゼーションは、群衆シナリオにおける各インスタンスの先頭位置を予測することである。 カメラへのインスタンスの距離は様々であるため、画像内のインスタンスのスケールの間には大きなギャップがあり、これは本質的なスケールシフトと呼ばれる。 内在的なスケールシフトが、群衆のローカライゼーションにおいて最も重要な問題の1つである理由は、群衆のシーンに広く行き渡っており、スケールの分布がカオスになるからである。 この目的のために本論文では,本質的なスケールシフトによって生じるスケール分布のカオスに取り組むことに集中する。 カオススケール分布を正規化するためのガウス混合スコープ(GMS)を提案する。 具体的には、GMSはガウス混合分布を用いて分布を拡大し、混合モデルをサブ正規分布に分解し、サブ分布内のカオスを正規化する。 そして、サブディストリビューション間のカオスを規則化するアライメントを導入する。 しかし、gmsがデータ分布の規則化に有効であるにもかかわらず、トレーニングセット内のハードサンプルの廃棄は過剰に適合する。 我々は、GMSが活用する潜伏知識をデータからモデルに転送するブロックが原因であると断言する。 そこで,知識変換におけるブリッジの役割を担っているスコープ教師を提案する。 さらに、知識変換を実装するために一貫性の規則化も導入されている。 この効果により、教師と生徒の終端を構成する特徴を導出するために、スコープ教師にさらなる制約を課すことができる。 クラウドローカライゼーションの5つのメインストリームデータセットにgmの提案とスコープ付き教師が実装されたことにより,本研究の優越性が実証された。 さらに,既存のクラウドロケータと比較して,F1-meansureを総合的に5つのデータセット上で実現した。

Crowd localization is to predict each instance head position in crowd scenarios. Since the distance of instances being to the camera are variant, there exists tremendous gaps among scales of instances within an image, which is called the intrinsic scale shift. The core reason of intrinsic scale shift being one of the most essential issues in crowd localization is that it is ubiquitous in crowd scenes and makes scale distribution chaotic. To this end, the paper concentrates on access to tackle the chaos of the scale distribution incurred by intrinsic scale shift. We propose Gaussian Mixture Scope (GMS) to regularize the chaotic scale distribution. Concretely, the GMS utilizes a Gaussian mixture distribution to adapt to scale distribution and decouples the mixture model into sub-normal distributions to regularize the chaos within the sub-distributions. Then, an alignment is introduced to regularize the chaos among sub-distributions. However, despite that GMS is effective in regularizing the data distribution, it amounts to dislodging the hard samples in training set, which incurs overfitting. We assert that it is blamed on the block of transferring the latent knowledge exploited by GMS from data to model. Therefore, a Scoped Teacher playing a role of bridge in knowledge transform is proposed. What' s more, the consistency regularization is also introduced to implement knowledge transform. To that effect, the further constraints are deployed on Scoped Teacher to derive feature consistence between teacher and student end. With proposed GMS and Scoped Teacher implemented on five mainstream datasets of crowd localization, the extensive experiments demonstrate the superiority of our work. Moreover, comparing with existing crowd locators, our work achieves state-of-the-art via F1-meansure comprehensively on five datasets.
翻訳日:2022-06-15 08:57:36 公開日:2022-06-12
# (参考訳) 因果・空間制約型マルチタスクネットワークを用いた人体移動予測

Human Mobility Prediction with Causal and Spatial-constrained Multi-task Network ( http://arxiv.org/abs/2206.05731v1 )

ライセンス: CC BY 4.0
Zongyuan Huang, Shengyuan Xu, Menghan Wang, Hansi Wu, Yanyan Xu, Yaohui Jin(参考訳) ヒトのモビリティのモデリングは、人々がどのようにリソースにアクセスし、都市で物理的に接触しているかを理解するのに役立ち、都市計画、疫病対策、位置ベースの広告など様々な応用に寄与する。 次の位置予測は、個人の移動モデルにおいて決定的なタスクであり、通常、マルコフやRNNベースの方法で解決されたシーケンスモデリングと見なされる。 しかし、既存のモデルは個々の旅行決定の論理と集団行動の再現性にはほとんど注意を払わなかった。 そこで本研究では,CSLSL(Causal and Space-Constrained Long and Short-term Learner)を提案する。 CSLSLはマルチタスク学習に基づく因果構造を用いて「when$\rightarrow$what$\rightarrow$where」、すなわち「time$\rightarrow$ Activity$\rightarrow$location」決定論理を明示的にモデル化する。 次に,目的地の予測と実際の空間分布の整合性を確保するため,補助タスクとして空間制約付き損失関数を提案する。 さらに、CSLSLはLong and Short-term Capturer (LSC)という名前のモジュールを採用し、異なる時間間隔で遷移規則性を学ぶ。 3つの実世界のデータセットに対する大規模な実験は、ベースラインよりも33.4%の性能向上を示し、因果性と一貫性の制約を導入する効果を確認している。 実装はhttps://github.com/urbanmobility/CSLSLで公開されている。

Modeling human mobility helps to understand how people are accessing resources and physically contacting with each other in cities, and thus contributes to various applications such as urban planning, epidemic control, and location-based advertisement. Next location prediction is one decisive task in individual human mobility modeling and is usually viewed as sequence modeling, solved with Markov or RNN-based methods. However, the existing models paid little attention to the logic of individual travel decisions and the reproducibility of the collective behavior of population. To this end, we propose a Causal and Spatial-constrained Long and Short-term Learner (CSLSL) for next location prediction. CSLSL utilizes a causal structure based on multi-task learning to explicitly model the "when$\rightarrow$what$\rightarrow$where", a.k.a. "time$\rightarrow$activity$\rightarrow$location" decision logic. We next propose a spatial-constrained loss function as an auxiliary task, to ensure the consistency between the predicted and actual spatial distribution of travelers' destinations. Moreover, CSLSL adopts modules named Long and Short-term Capturer (LSC) to learn the transition regularities across different time spans. Extensive experiments on three real-world datasets show a 33.4% performance improvement of CSLSL over baselines and confirm the effectiveness of introducing the causality and consistency constraints. The implementation is available at https://github.com/urbanmobility/CSLSL.
翻訳日:2022-06-15 08:28:11 公開日:2022-06-12
# (参考訳) 完全分散型シングルタイムスケールアクタ臨界の有限時間解析

Finite-Time Analysis of Fully Decentralized Single-Timescale Actor-Critic ( http://arxiv.org/abs/2206.05733v1 )

ライセンス: CC BY 4.0
Qijun Luo, Xiao Li(参考訳) 分散Actor-Critic (AC) アルゴリズムはマルチエージェント強化学習 (MARL) に広く利用されており、大きな成功を収めている。 実験的な成功とは別に、分散化ACアルゴリズムの理論的収束性はほとんど未解明である。 既存の有限時間収束結果は、実実装では採用されない二重ループ更新または2時間ステップサイズルールに基づいて導出される。 本稿では,アクタ,批評家,グローバル報酬推定器を,ステップサイズを同じ順序で交互に更新する,完全に分散化されたACアルゴリズムを提案する。 理論的には、値と報酬の推定に線形近似を用いると、このアルゴリズムはマルコビアンサンプリングの下でのサンプル複雑性が$\tilde{\mathcal{O}}(\epsilon^{-2})$であることを示し、これは二重ループ実装の最適複雑性と一致する(ここでは$\tilde{\mathcal{O}}$がログ項を隠す)。 サンプルの複雑さは、i.i.d.サンプリングスキームの下で${\mathcal{o}}(\epsilon^{-2})$に改善できる。 複雑性結果の確立の中心は、我々が明らかにした最適批評家変数の隠された滑らかさである。 また、我々のアルゴリズムのローカルアクションプライバシ保護バージョンとその分析も提供する。 最後に,既存の分散交流アルゴリズムよりもアルゴリズムの優越性を示す実験を行った。

Decentralized Actor-Critic (AC) algorithms have been widely utilized for multi-agent reinforcement learning (MARL) and have achieved remarkable success. Apart from its empirical success, the theoretical convergence property of decentralized AC algorithms is largely unexplored. The existing finite-time convergence results are derived based on either double-loop update or two-timescale step sizes rule, which is not often adopted in real implementation. In this work, we introduce a fully decentralized AC algorithm, where actor, critic, and global reward estimator are updated in an alternating manner with step sizes being of the same order, namely, we adopt the \emph{single-timescale} update. Theoretically, using linear approximation for value and reward estimation, we show that our algorithm has sample complexity of $\tilde{\mathcal{O}}(\epsilon^{-2})$ under Markovian sampling, which matches the optimal complexity with double-loop implementation (here, $\tilde{\mathcal{O}}$ hides a log term). The sample complexity can be improved to ${\mathcal{O}}(\epsilon^{-2})$ under the i.i.d. sampling scheme. The central to establishing our complexity results is \emph{the hidden smoothness of the optimal critic variable} we revealed. We also provide a local action privacy-preserving version of our algorithm and its analysis. Finally, we conduct experiments to show the superiority of our algorithm over the existing decentralized AC algorithms.
翻訳日:2022-06-15 08:07:50 公開日:2022-06-12
# (参考訳) SparseNeuS:スパースビューによる高速一般化可能なニューラルサーフェス再構成

SparseNeuS: Fast Generalizable Neural Surface Reconstruction from Sparse views ( http://arxiv.org/abs/2206.05737v1 )

ライセンス: CC BY 4.0
Xiaoxiao Long, Cheng Lin, Peng Wang, Taku Komura, Wenping Wang(参考訳) 本稿では,多視点画像から表面再構成を行うための新しいニューラルレンダリング手法であるsparseneusを提案する。 このタスクは、既存のニューラル再構成アプローチが通常不完全または歪んだ結果を生成するシナリオである、スパース画像のみを入力として提供すると、さらに困難になる。 さらに、新しいシーンを認識できないように一般化できないことは、実際に彼らの応用を妨げる。 対照的に、SparseNeuSは新しいシーンに一般化し、スパースイメージ(わずか2、3まで)でうまく機能する。 SparseNeuSは、表面表現として符号付き距離関数(SDF)を採用し、一般的な表面予測のための幾何学的エンコーディングボリュームを導入して、画像特徴から一般化可能な先行情報を学習する。 また、質の高い再建にスパースビューを効果的に活用するための戦略もいくつか導入されている。 1) 粗面から細部までの表面を復元する多レベル幾何推論フレームワーク 2) より信頼性の高い色予測のための多色ブレンド方式 3)閉塞や騒音による不整合領域を制御するための整合性を考慮した微調整方式。 広範な実験によって、我々のアプローチは最先端の手法よりも優れているだけでなく、優れた効率性、汎用性、柔軟性も示しています。

We introduce SparseNeuS, a novel neural rendering based method for the task of surface reconstruction from multi-view images. This task becomes more difficult when only sparse images are provided as input, a scenario where existing neural reconstruction approaches usually produce incomplete or distorted results. Moreover, their inability of generalizing to unseen new scenes impedes their application in practice. Contrarily, SparseNeuS can generalize to new scenes and work well with sparse images (as few as 2 or 3). SparseNeuS adopts signed distance function (SDF) as the surface representation, and learns generalizable priors from image features by introducing geometry encoding volumes for generic surface prediction. Moreover, several strategies are introduced to effectively leverage sparse views for high-quality reconstruction, including 1) a multi-level geometry reasoning framework to recover the surfaces in a coarse-to-fine manner; 2) a multi-scale color blending scheme for more reliable color prediction; 3) a consistency-aware fine-tuning scheme to control the inconsistent regions caused by occlusion and noise. Extensive experiments demonstrate that our approach not only outperforms the state-of-the-art methods, but also exhibits good efficiency, generalizability, and flexibility.
翻訳日:2022-06-15 08:06:21 公開日:2022-06-12
# (参考訳) 適応的一様表現集約を用いたマルチモーダルフェイクニュース検出

Multimodal Fake News Detection with Adaptive Unimodal Representation Aggregation ( http://arxiv.org/abs/2206.05741v1 )

ライセンス: CC BY 4.0
Qichao Ying, Yangming Zhou, Zhenxing Qian, Dan Zeng and Shiming Ge(参考訳) インターネット技術の発展は、噂や偽ニュースの拡散と破壊力を継続的に強化してきた。 マルチメディアフェイクニュース検出に関するこれまでの研究には、画像とテキスト間の機能アライメントを実現するための複雑な特徴抽出と融合ネットワークが含まれている。 しかし、マルチモーダルな機能が何で、異なるモダリティの機能が意思決定プロセスにどのように影響するかは、まだ疑問の余地がある。 本稿では,適応ユニモーダル表現集約を用いたマルチモーダルフェイクニュース検出ネットワークAURAを提案する。 まず、画像パターン、画像意味論、テキストからそれぞれ表現を抽出し、その意味表現と言語表現をエキスパートネットワークに送信してマルチモーダル表現を生成する。 そして,その一様および多様表現に従って,粗いレベルの偽ニュース検出とクロスモーダルな共存学習を行う。 分類と一貫性のスコアは、特徴を整理するモダリティ対応の注意スコアにマップされる。 最後に,修正された偽ニュース検出のための重み付け機能を集約し,分類する。 weiboとgossipcopに関する包括的な実験により、auraは最先端のfndスキームを打ち負かすことができ、全体的な予測精度と偽ニュースのリコールが着実に改善されている。

The development of Internet technology has continuously intensified the spread and destructive power of rumors and fake news. Previous researches on multimedia fake news detection include a series of complex feature extraction and fusion networks to achieve feature alignment between images and texts. However, what the multimodal features are composed of and how features from different modalities affect the decision-making process are still open questions. We present AURA, a multimodal fake news detection network with Adaptive Unimodal Representation Aggregation. We first extract representations respectively from image pattern, image semantics and text, and multimodal representations are generated by sending the semantic and linguistic representations into an expert network. Then, we perform coarse-level fake news detection and cross-modal cosistency learning according to the unimodal and multimodal representations. The classification and consistency scores are mapped into modality-aware attention scores that readjust the features. Finally, we aggregation and classify the weighted features for refined fake news detection. Comprehensive experiments on Weibo and Gossipcop prove that AURA can successfully beat several state-of-the-art FND schemes, where the overall prediction accuracy and the recall of fake news is steadily improved.
翻訳日:2022-06-15 07:51:39 公開日:2022-06-12
# (参考訳) 絶え間ないアラームレートで検出する学習

Learning to Detect with Constant False Alarm Rate ( http://arxiv.org/abs/2206.05747v1 )

ライセンス: CC BY 4.0
Tzvi Diskin, Uri Okun, Ami Wiesel(参考訳) 我々は、ターゲット検出に重点を置いた仮説テストにおける機械学習の利用を検討する。 古典的なモデルベースのソリューションは、可能性の比較に依存する。 これらは不完全なモデルに敏感であり、しばしば計算コストがかかる。 対照的に、データ駆動機械学習は、しばしばより堅牢であり、固定された計算複雑性を持つ分類器をもたらす。 学習された検出器は通常、低い複雑さで高い精度を提供するが、多くのアプリケーションで必要とされる一定の誤報率(CFAR)を持たない。 このギャップを閉じるために、任意のヌル仮説のシナリオで検出器の類似分布を促進する損失関数に項を追加することを提案する。 実験により,提案手法は競合と同等の精度でCFAR検出器に近づいた。

We consider the use of machine learning for hypothesis testing with an emphasis on target detection. Classical model-based solutions rely on comparing likelihoods. These are sensitive to imperfect models and are often computationally expensive. In contrast, data-driven machine learning is often more robust and yields classifiers with fixed computational complexity. Learned detectors usually provide high accuracy with low complexity but do not have a constant false alarm rate (CFAR) as required in many applications. To close this gap, we propose to add a term to the loss function that promotes similar distributions of the detector under any null hypothesis scenario. Experiments show that our approach leads to near CFAR detectors with similar accuracy as their competitors.
翻訳日:2022-06-15 07:38:22 公開日:2022-06-12
# (参考訳) Option-Indexed Hierarchical Reinforcement Learning を用いたタスクのマッチングオプション

Matching options to tasks using Option-Indexed Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2206.05750v1 )

ライセンス: CC BY 4.0
Kushal Chauhan, Soumya Chatterjee, Akash Reddy, Balaraman Ravindran, Pradeep Shenoy(参考訳) Hierarchical Reinforcement Learningのオプションフレームワークは、全体的な目標をオプションや単純なタスクと関連するポリシーの組み合わせに分解し、アクション空間の抽象化を可能にします。 理想的には、これらのオプションは異なる高レベルな目標にまたがって再利用することができる。実際、このような再利用は、その事前の経験を効果的に活用できる連続学習エージェントのビジョンを実現するために必要である。 以前のアプローチでは、事前設定されたオプションを新しいタスク設定に移行する限定的な形式しか提案していない。 提案手法は階層型学習(OI-HRL)において,オプションと環境に存在する項目間の親和性関数を学習する手法である。 これにより、タスクに関連する選択肢のみにゴール指向学習を制限することで、事前訓練済みオプションの大規模なライブラリを、テスト時のゼロショット一般化で効果的に再利用することが可能になります。 我々は,検索した選択肢の高次目標との関連性に関するフィードバックを取り入れ,一連のHRL問題に対して選択肢と環境の表現を学習するメタ学習ループを開発する。 我々は、OI-HRLをCraftWorldとAI2THOR環境という2つのシミュレートされた設定で評価し、オラクルのベースラインと競合するパフォーマンスを実現し、階層的なポリシーを学ぶためのオプションプール全体を利用できるベースラインよりも大幅に向上したことを示す。

The options framework in Hierarchical Reinforcement Learning breaks down overall goals into a combination of options or simpler tasks and associated policies, allowing for abstraction in the action space. Ideally, these options can be reused across different higher-level goals; indeed, such reuse is necessary to realize the vision of a continual learning agent that can effectively leverage its prior experience. Previous approaches have only proposed limited forms of transfer of prelearned options to new task settings. We propose a novel option indexing approach to hierarchical learning (OI-HRL), where we learn an affinity function between options and the items present in the environment. This allows us to effectively reuse a large library of pretrained options, in zero-shot generalization at test time, by restricting goal-directed learning to only those options relevant to the task at hand. We develop a meta-training loop that learns the representations of options and environments over a series of HRL problems, by incorporating feedback about the relevance of retrieved options to the higher-level goal. We evaluate OI-HRL in two simulated settings - the CraftWorld and AI2THOR environments - and show that we achieve performance competitive with oracular baselines, and substantial gains over a baseline that has the entire option pool available for learning the hierarchical policy.
翻訳日:2022-06-15 07:29:55 公開日:2022-06-12
# (参考訳) SeATrans: Transformeを用いたセグメンテーション支援診断モデル

SeATrans: Learning Segmentation-Assisted diagnosis model via Transforme ( http://arxiv.org/abs/2206.05763v1 )

ライセンス: CC BY 4.0
Junde Wu, Huihui Fang, Fangxin Shang, Dalu Yang, Zhaowei Wang, Jing Gao, Yehui Yang, Yanwu Xu(参考訳) 臨床的に,病変の正確な注釈は,疾患診断を著しく促進する可能性がある。 例えば、眼底画像における視神経円板/カップ(od/oc)の分割は緑内障の診断、皮膚内視鏡画像上の皮膚病変の分割はメラノーマ診断などに有用である。 深層学習技術の進歩により, 病変の分類・分類が自動診断モデルに役立つことが, 幅広い手法で証明された。 しかし,既存の手法は画像中の静的な地域相関しか捉えないという意味で制限されている。 本稿では,視覚トランスフォーマのグローバルかつダイナミックな性質に着想を得て,セグメンテーション支援診断トランスフォーマ(seatrans)を提案し,セグメンテーション知識を疾患診断ネットワークに伝達する。 具体的には,まず,単一の低レベル診断特徴とマルチスケールセグメンテーション特徴を関連付ける非対称なマルチスケールインタラクション戦略を提案する。 次に,SeAブロックと呼ばれる有効戦略を採用し,相関セグメンテーション機能を用いて診断機能を活性化する。 セグメンテーション-診断相互作用をモデル化するために、SeAブロックはまず、エンコーダを介してセグメンテーション情報に基づいて診断特徴を埋め込み、デコーダによりその埋め込みを診断特徴空間に戻す。 実験の結果,SeATransはいくつかの疾患診断タスクにおいて,SOTA(State-of-the-art)セグメンテーション支援診断法を超越していることがわかった。

Clinically, the accurate annotation of lesions/tissues can significantly facilitate the disease diagnosis. For example, the segmentation of optic disc/cup (OD/OC) on fundus image would facilitate the glaucoma diagnosis, the segmentation of skin lesions on dermoscopic images is helpful to the melanoma diagnosis, etc. With the advancement of deep learning techniques, a wide range of methods proved the lesions/tissues segmentation can also facilitate the automated disease diagnosis models. However, existing methods are limited in the sense that they can only capture static regional correlations in the images. Inspired by the global and dynamic nature of Vision Transformer, in this paper, we propose Segmentation-Assisted diagnosis Transformer (SeATrans) to transfer the segmentation knowledge to the disease diagnosis network. Specifically, we first propose an asymmetric multi-scale interaction strategy to correlate each single low-level diagnosis feature with multi-scale segmentation features. Then, an effective strategy called SeA-block is adopted to vitalize diagnosis feature via correlated segmentation features. To model the segmentation-diagnosis interaction, SeA-block first embeds the diagnosis feature based on the segmentation information via the encoder, and then transfers the embedding back to the diagnosis feature space by a decoder. Experimental results demonstrate that SeATrans surpasses a wide range of state-of-the-art (SOTA) segmentation-assisted diagnosis methods on several disease diagnosis tasks.
翻訳日:2022-06-15 07:14:52 公開日:2022-06-12
# (参考訳) 正極性ラベルからのマルチラベルサンプルのマイニング

Mining Multi-Label Samples from Single Positive Labels ( http://arxiv.org/abs/2206.05764v1 )

ライセンス: CC BY 4.0
Youngin Cho, Daejin Kim, Mohammad Azam Khan(参考訳) cgans (conditional generative adversarial networks) はクラス条件生成タスクにおいて優れた結果を示している。 複数の条件を同時に制御するために、cGANは複数のラベルのトレーニングデータセットを必要とし、各データインスタンスに複数のラベルを割り当てることができる。 それでも、膨大なアノテーションコストは、実世界のシナリオにおけるマルチラベルデータセットのアクセシビリティを制限する。 したがって、各データインスタンスは、明示的な負のラベルを持たない1つのポジティブラベルのみによってアノテートされるという、単一のポジティブセッティングと呼ばれる実践的な設定を探求する。 単一正の設定でマルチラベルデータを生成するために,マルコフ連鎖モンテカルロ法に基づいて,シングル・トゥ・マルチラベル(s2m)サンプリングと呼ばれる新しいサンプリング手法を提案する。 提案したS2Mサンプリングにより,既存の無条件および条件付きGANを用いて,最小限のアノテーションコストで高品質なマルチラベルデータを描画することができる。 実画像データセットに対する大規模な実験は、完全に注釈付きデータセットで訓練されたモデルと比較しても、我々の手法の有効性と正確性を検証する。

Conditional generative adversarial networks (cGANs) have shown superior results in class-conditional generation tasks. In order to simultaneously control multiple conditions, cGANs require multi-label training datasets, where multiple labels can be assigned to each data instance. Nevertheless, the tremendous annotation cost limits the accessibility of multi-label datasets in the real-world scenarios. Hence, we explore the practical setting called single positive setting, where each data instance is annotated by only one positive label with no explicit negative labels. To generate multi-label data in the single positive setting, we propose a novel sampling approach called single-to-multi-label (S2M) sampling, based on the Markov chain Monte Carlo method. As a widely applicable "add-on" method, our proposed S2M sampling enables existing unconditional and conditional GANs to draw high-quality multi-label data with a minimal annotation cost. Extensive experiments on real image datasets verify the effectiveness and correctness of our method, even when compared to a model trained with fully annotated datasets.
翻訳日:2022-06-15 07:03:28 公開日:2022-06-12
# (参考訳) マルチアーマッドバンドにおける分散微分プライバシー

Distributed Differential Privacy in Multi-Armed Bandits ( http://arxiv.org/abs/2206.05772v1 )

ライセンス: CC BY 4.0
Sayak Ray Chowdhury, Xingyu Zhou(参考訳) 我々は、分散信頼モデルである差分プライバシ(DP)の下で、標準の$K$武器の盗聴問題を考慮し、信頼できるサーバを使わずにプライバシを保証する。 この信頼モデルの下では、以前の作業はシャッフルプロトコルによるプライバシの達成に重点を置いており、ユーザデータのバッチは中央サーバに送信する前にランダムに置換される。 このプロトコルは、追加の$O\!を犠牲にして($\epsilon,\delta$)または近似DP保証を達成する。 \left(\! \frac{K\log T\sqrt{\log(1/\delta)}}{\epsilon}\! 右! $$T$-step 累積的後悔。 対照的に、より強力な(\epsilon,0$)あるいは純粋なDP保証を達成するための最適なプライバシーコストは、広く使用されている中央信頼モデルでのみ$\Theta\! \left(\! \frac{K\log T}{\epsilon}\! 右! ただし、信頼されたサーバーが必要である。 本研究では,分散信頼モデルに基づく純DP保証を実現するとともに,中央信頼モデルによる完全DP保証を犠牲にすることを目的とする。 我々は、連続したアームの除去に基づく一般的なバンディットアルゴリズムを設計し、セキュアな計算プロトコルによって保証された等価な離散Laplaceノイズで報酬を損なうことによりプライバシーを保証する。 また、我々のアルゴリズムは、スケラムノイズとセキュアなプロトコルでインスタンス化されると、プライバシーコストが$O\!という分散信頼モデルの下で、ほぼDPよりも強力な概念である 'emph{R\'{e}nyi differential privacy} を保証します。 \left(\! 英語) \frac{K\sqrt{\log T}}{\epsilon}\! 右! $.

We consider the standard $K$-armed bandit problem under a distributed trust model of differential privacy (DP), which enables to guarantee privacy without a trustworthy server. Under this trust model, previous work largely focus on achieving privacy using a shuffle protocol, where a batch of users data are randomly permuted before sending to a central server. This protocol achieves ($\epsilon,\delta$) or approximate-DP guarantee by sacrificing an additional additive $O\!\left(\!\frac{K\log T\sqrt{\log(1/\delta)}}{\epsilon}\!\right)\!$ cost in $T$-step cumulative regret. In contrast, the optimal privacy cost for achieving a stronger ($\epsilon,0$) or pure-DP guarantee under the widely used central trust model is only $\Theta\!\left(\!\frac{K\log T}{\epsilon}\!\right)\!$, where, however, a trusted server is required. In this work, we aim to obtain a pure-DP guarantee under distributed trust model while sacrificing no more regret than that under central trust model. We achieve this by designing a generic bandit algorithm based on successive arm elimination, where privacy is guaranteed by corrupting rewards with an equivalent discrete Laplace noise ensured by a secure computation protocol. We also show that our algorithm, when instantiated with Skellam noise and the secure protocol, ensures \emph{R\'{e}nyi differential privacy} -- a stronger notion than approximate DP -- under distributed trust model with a privacy cost of $O\!\left(\!\frac{K\sqrt{\log T}}{\epsilon}\!\right)\!$.
翻訳日:2022-06-15 06:33:59 公開日:2022-06-12
# (参考訳) 意図分類のためのデータ拡張

Data Augmentation for Intent Classification ( http://arxiv.org/abs/2206.05790v1 )

ライセンス: CC BY 4.0
Derek Chen, Claire Yin(参考訳) 正確な意図分類器の訓練にはラベル付きデータが必要である。 データ拡張手法はこの問題を改善するかもしれないが、生成されたデータの品質は技術によって大きく異なる。 本研究では, 混合法を含む多種多様なデータ拡張手法を用いて, 種小の擬似ラベルデータを系統的に生成する方法について検討した。 定性的および定量的な性能を劇的に改善する手法はあるが、他の手法は最小あるいは負の影響も与えている。 また、本運用におけるデータ拡張手法の実装における重要な考察についても分析する。

Training accurate intent classifiers requires labeled data, which can be costly to obtain. Data augmentation methods may ameliorate this issue, but the quality of the generated data varies significantly across techniques. We study the process of systematically producing pseudo-labeled data given a small seed set using a wide variety of data augmentation techniques, including mixing methods together. We find that while certain methods dramatically improve qualitative and quantitative performance, other methods have minimal or even negative impact. We also analyze key considerations when implementing data augmentation methods in production.
翻訳日:2022-06-15 06:32:44 公開日:2022-06-12
# (参考訳) ディープニューラルネットワークにおけるSGDノイズと暗示低域バイアス

SGD Noise and Implicit Low-Rank Bias in Deep Neural Networks ( http://arxiv.org/abs/2206.05794v1 )

ライセンス: CC BY 4.0
Tomer Galanti, Tomaso Poggio(参考訳) ミニバッチ確率勾配降下(sgd)と重み崩壊で学習した深層reluニューラルネットワークの解析を行った。 我々はSGDノイズの源について検討し、重量減衰を伴うトレーニングを行うとき、収束時のSGDの解はゼロ関数であることを示す。 さらに,理論上,実験上,重みの減衰とバッチサイズの小さいsgdを用いたニューラルネットワークのトレーニングでは,重み行列のランクが小さいことが期待される。 我々の分析は最小限の仮定に依存しており、ニューラルネットワークは任意に幅や深さがあり、残余接続やバッチ正規化層を含む可能性がある。

We analyze deep ReLU neural networks trained with mini-batch Stochastic Gradient Descent (SGD) and weight decay. We study the source of SGD noise and prove that when training with weight decay, the only solutions of SGD at convergence are zero functions. Furthermore, we show, both theoretically and empirically, that when training a neural network using SGD with weight decay and small batch size, the resulting weight matrices are expected to be of small rank. Our analysis relies on a minimal set of assumptions and the neural networks may be arbitrarily wide or deep, and may include residual connections, as well as batch normalization layers.
翻訳日:2022-06-15 06:22:51 公開日:2022-06-12
# (参考訳) ヒト評価者支援のための自己評定モデル

Self-critiquing models for assisting human evaluators ( http://arxiv.org/abs/2206.05802v1 )

ライセンス: CC BY 4.0
William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, Jan Leike(参考訳) 我々は、行動クローンを用いて自然言語批判(自然言語批判コメント)を書くために、大きな言語モデルを微調整する。 トピックベースの要約タスクでは、モデルによって書かれた批判は、人間が見逃したであろう要約の欠陥を見つけるのに役立つ。 私たちのモデルは、モデルと人間の記述したサマリーの両方に自然に発生する欠陥を見つけるのに役立ちます。 本研究では,トピックベース要約と合成タスクの両面で,品質評価のスケーリング特性について検討する。 より大きなモデルはより有用な批評を書くことができ、ほとんどのタスクでは、批判しにくいアウトプットにもかかわらず、自己批判の方が優れている。 より大規模なモデルでは、自身の自己批判をフィードバックとして統合して、自身の要約をより良いものにすることもできる。 最後に,評価能力と生成能力,識別能力を比較する枠組みを動機付け,導入する。 我々の測定は、たとえ大きなモデルであっても、批判として表現できない、あるいは表現できない、関連する知識を持っているかもしれないことを示唆している。 これらの結果は、AIによる人間のフィードバックを用いて機械学習システムの監視を、人間が直接評価することが難しいタスクに拡張する、という概念実証である。 トレーニングデータセットと、批判支援実験のサンプルをリリースしています。

We fine-tune large language models to write natural language critiques (natural language critical comments) using behavioral cloning. On a topic-based summarization task, critiques written by our models help humans find flaws in summaries that they would have otherwise missed. Our models help find naturally occurring flaws in both model and human written summaries, and intentional flaws in summaries written by humans to be deliberately misleading. We study scaling properties of critiquing with both topic-based summarization and synthetic tasks. Larger models write more helpful critiques, and on most tasks, are better at self-critiquing, despite having harder-to-critique outputs. Larger models can also integrate their own self-critiques as feedback, refining their own summaries into better ones. Finally, we motivate and introduce a framework for comparing critiquing ability to generation and discrimination ability. Our measurements suggest that even large models may still have relevant knowledge they cannot or do not articulate as critiques. These results are a proof of concept for using AI-assisted human feedback to scale the supervision of machine learning systems to tasks that are difficult for humans to evaluate directly. We release our training datasets, as well as samples from our critique assistance experiments.
翻訳日:2022-06-15 05:30:13 公開日:2022-06-12
# (参考訳) オーバージェネレーションは逆戻りできない:同時音声翻訳のための長適応平均ラギング

Over-Generation Cannot Be Rewarded: Length-Adaptive Average Lagging for Simultaneous Speech Translation ( http://arxiv.org/abs/2206.05807v1 )

ライセンス: CC BY-SA 4.0
Sara Papi, Marco Gaido, Matteo Negri, Marco Turchi(参考訳) 同時音声翻訳(simulst)システムは、最小のレイテンシで出力を生成することを目的としており、これは通常平均ラグ(al)で計算される。 本稿では,alが広く普及しているにもかかわらず,対応する参照よりも長い予測を生成するシステムに対して,alは過小評価されたスコアを提供していることを強調する。 また,最近のSimulSTシステムでは過剰発生傾向にあるため,この問題は実際的関連性があることも示している。 そこで本研究では,過渡現象を考慮し,過渡/過発生両システムの偏りのない評価を可能にする指標の修正版であるlaal(long-adaptive average lagging)を提案する。

Simultaneous speech translation (SimulST) systems aim at generating their output with the lowest possible latency, which is normally computed in terms of Average Lagging (AL). In this paper we highlight that, despite its widespread adoption, AL provides underestimated scores for systems that generate longer predictions compared to the corresponding references. We also show that this problem has practical relevance, as recent SimulST systems have indeed a tendency to over-generate. As a solution, we propose LAAL (Length-Adaptive Average Lagging), a modified version of the metric that takes into account the over-generation phenomenon and allows for unbiased evaluation of both under-/over-generating systems.
翻訳日:2022-06-15 05:29:06 公開日:2022-06-12
# (参考訳) マルコフ決定過程の幾何学的政策反復

Geometric Policy Iteration for Markov Decision Processes ( http://arxiv.org/abs/2206.05809v1 )

ライセンス: CC BY 4.0
Yue Wu and Jes\'us A. De Loera(参考訳) 近年,有限状態作用割引マルコフ決定過程(mdp)における値関数の多面体構造が,強化学習の成功に光を当てている。 我々は,ポリトープの値関数を詳細に検討し,超平面配置を用いてポリトープ境界を特徴付ける。 さらに、値空間は、同じ超平面配置の有限個のセルの和であり、MDPの古典線形計画法(英語版)のポリトープと関係していることを示す。 これらの幾何学的性質に触発されて、割引されたMDPを解決するために、新しいアルゴリズム \emph{Geometric Policy Iteration} (GPI) を提案する。 GPIは、値関数ポリトープの境界にマッピングされたアクションに切り替えて単一の状態のポリシーを更新し、その後、値関数の即時更新を行う。 この新しい更新ルールは、計算効率を損なうことなく、より高速な価値改善を目指している。 さらに,提案アルゴリズムは,状態集合が大きい場合の従来のポリシーの繰り返しよりも柔軟で有利な状態値の非同期更新を可能にする。 GPIの複雑さは、最もよく知られた有界な$\bigO{\frac{|\actions|}{1 - \gamma}\log \frac{1}{1-\gamma}}$のポリシー反復を実現し、様々な大きさのMDP上のGPIの強さを実証的に示す。

Recently discovered polyhedral structures of the value function for finite state-action discounted Markov decision processes (MDP) shed light on understanding the success of reinforcement learning. We investigate the value function polytope in greater detail and characterize the polytope boundary using a hyperplane arrangement. We further show that the value space is a union of finitely many cells of the same hyperplane arrangement and relate it to the polytope of the classical linear programming formulation for MDPs. Inspired by these geometric properties, we propose a new algorithm, \emph{Geometric Policy Iteration} (GPI), to solve discounted MDPs. GPI updates the policy of a single state by switching to an action that is mapped to the boundary of the value function polytope, followed by an immediate update of the value function. This new update rule aims at a faster value improvement without compromising computational efficiency. Moreover, our algorithm allows asynchronous updates of state values which is more flexible and advantageous compared to traditional policy iteration when the state set is large. We prove that the complexity of GPI achieves the best known bound $\bigO{\frac{|\actions|}{1 - \gamma}\log \frac{1}{1-\gamma}}$ of policy iteration and empirically demonstrate the strength of GPI on MDPs of various sizes.
翻訳日:2022-06-15 05:20:21 公開日:2022-06-12
# (参考訳) 分枝の特殊化解析と画像分解への応用

Analysis of Branch Specialization and its Application in Image Decomposition ( http://arxiv.org/abs/2206.05810v1 )

ライセンス: CC BY 4.0
Jonathan Brokman, Guy Gilboa(参考訳) 分岐ニューラルネットワークは様々なタスクに広く使われている。 ブランチは独立した処理を行い、その後集約するモデルのサブパートである。 この設定はブランチスペシャライゼーションと呼ばれる現象を引き起こし、異なるブランチが異なるサブタスクの専門家となることが知られている。 そのような観察は自然に定性的だった。 本稿では,分枝専門化の方法論分析について述べる。 この現象における勾配降下の役割を説明する。 分岐生成ネットワークは自然に動物像を毛皮、ウイスキー、スポットの有意義なチャネルに分解し、顔画像は異なる照明成分や顔部分などのチャネルに分解する。

Branched neural networks have been used extensively for a variety of tasks. Branches are sub-parts of the model that perform independent processing followed by aggregation. It is known that this setting induces a phenomenon called Branch Specialization, where different branches become experts in different sub-tasks. Such observations were qualitative by nature. In this work, we present a methodological analysis of Branch Specialization. We explain the role of gradient descent in this phenomenon. We show that branched generative networks naturally decompose animal images to meaningful channels of fur, whiskers and spots and face images to channels such as different illumination components and face parts.
翻訳日:2022-06-15 05:02:30 公開日:2022-06-12
# (参考訳) 機械学習による科学:ポストストーム熱圏冷却の定量化

Science through Machine Learning: Quantification of Poststorm Thermospheric Cooling ( http://arxiv.org/abs/2206.05824v1 )

ライセンス: CC BY 4.0
Richard J. Licata, Piyush M. Mehta, Daniel R. Weimer, Douglas P. Drob, W. Kent Tobiska, Jean Yoshii(参考訳) 機械学習(ML)はしばしば、科学的知見を十分に提供できないブラックボックス回帰技術と見なされる。 MLモデルは普遍関数近似器であり、正しく使用すれば、フィッティングに使用される地上真実のデータセットに関する科学的情報を提供することができる。 パラメトリックモデルよりもmlの利点は、モデル化できる現象を制限する事前定義された基底関数がないことである。 本研究では,宇宙環境技術 (set) の高精度衛星ドラッグモデル (hasdm) 密度データベース,jacchia-bowman 2008 実験熱球密度モデル (jb2008) からの出力の時空間マッチングデータセット,challing minisatellite payload (champ) からの加速度計による密度データセットの3つのデータセットを用いたmlモデルを開発した。 これらのMLモデルと海軍研究所の質量分析計と Incoherent Scatter radar (NRLMSIS 2.0) モデルを比較して、中温圏におけるポストストーム冷却の有無を調べた。 その結果,nrlmsis 2.0 と jb2008-ml は,強大な地磁気嵐(例えば2003年ハロウィン嵐)の後に発生する温度低下を考慮しないことがわかった。 逆に、HASDM-MLとCHAMP-MLは暴風後の冷却の証拠を示し、この現象が元のデータセットに存在することを示している。 その結果,嵐の場所や強度によって,最大40%の密度低下が1~3日後に起こりうることがわかった。

Machine learning (ML) is often viewed as a black-box regression technique that is unable to provide considerable scientific insight. ML models are universal function approximators and - if used correctly - can provide scientific information related to the ground-truth dataset used for fitting. A benefit to ML over parametric models is that there are no predefined basis functions limiting the phenomena that can be modeled. In this work, we develop ML models on three datasets: the Space Environment Technologies (SET) High Accuracy Satellite Drag Model (HASDM) density database, a spatiotemporally matched dataset of outputs from the Jacchia-Bowman 2008 Empirical Thermospheric Density Model (JB2008), and an accelerometer-derived density dataset from CHAllenging Minisatellite Payload (CHAMP). These ML models are compared to the Naval Research Laboratory Mass Spectrometer and Incoherent Scatter radar (NRLMSIS 2.0) model to study the presence of post-storm cooling in the middle-thermosphere. We find that both NRLMSIS 2.0 and JB2008-ML do not account for post-storm cooling and consequently perform poorly in periods following strong geomagnetic storms (e.g. the 2003 Halloween storms). Conversely, HASDM-ML and CHAMP-ML do show evidence of post-storm cooling indicating that this phenomenon is present in the original datasets. Results show that density reductions up to 40% can occur 1--3 days post-storm depending on location and the strength of the storm.
翻訳日:2022-06-15 04:50:32 公開日:2022-06-12
# (参考訳) 時間的コヒーレンスを用いたケースベース逆強化学習

Case-Based Inverse Reinforcement Learning Using Temporal Coherence ( http://arxiv.org/abs/2206.05827v1 )

ライセンス: CC BY 4.0
Jonas N\"u{\ss}lein, Steffen Illium, Robert M\"uller, Thomas Gabor, Claudia Linnhoff-Popien(参考訳) イミテーションラーニングの文脈で専門家の軌跡を提供することは、しばしば高価で時間を要する。 したがって、目的は可能な限り専門的なデータを必要とするアルゴリズムを作ることである。 本稿では,専門家の行動レベルを模倣するだけでなく,専門家の高度な戦略を模倣するアルゴリズムを提案する。 事前として,高レベルの戦略は未知の目標状態領域に到達することであり,強化学習における多くの領域において有効な事前条件であると仮定する。 対象の状態領域は不明だが、専門家が到達方法を示したため、エージェントは専門家と同じような状態に到達しようと試みる。 時間的コヒーレンス(Temporal Coherence)のアイデアに基づいて、我々のアルゴリズムはニューラルネットワークをトレーニングし、2つの状態が類似しているかどうかを予測する。 推論中、エージェントは現在の状態と、類似性のケースベースからのエキスパート状態を比較する。 その結果,行動レベルで専門家を模倣しようとするアルゴリズムがもはや実現できないような,ごくわずかな専門家データで,我々のアプローチは依然として最適に近いポリシーを学習できることがわかった。

Providing expert trajectories in the context of Imitation Learning is often expensive and time-consuming. The goal must therefore be to create algorithms which require as little expert data as possible. In this paper we present an algorithm that imitates the higher-level strategy of the expert rather than just imitating the expert on action level, which we hypothesize requires less expert data and makes training more stable. As a prior, we assume that the higher-level strategy is to reach an unknown target state area, which we hypothesize is a valid prior for many domains in Reinforcement Learning. The target state area is unknown, but since the expert has demonstrated how to reach it, the agent tries to reach states similar to the expert. Building on the idea of Temporal Coherence, our algorithm trains a neural network to predict whether two states are similar, in the sense that they may occur close in time. During inference, the agent compares its current state with expert states from a Case Base for similarity. The results show that our approach can still learn a near-optimal policy in settings with very little expert data, where algorithms that try to imitate the expert at the action level can no longer do so.
翻訳日:2022-06-15 04:33:36 公開日:2022-06-12
# (参考訳) フルデータシャッフルのない確率的勾配降下

Stochastic Gradient Descent without Full Data Shuffle ( http://arxiv.org/abs/2206.05830v1 )

ライセンス: CC BY 4.0
Lijie Xu, Shuang Qiu, Binhang Yuan, Jiawei Jiang, Cedric Renggli, Shaoduo Gan, Kaan Kara, Guoliang Li, Ji Liu, Wentao Wu, Jieping Ye, Ce Zhang(参考訳) 確率勾配降下(SGD)は、現代の機械学習(ML)システムの基盤である。 その計算効率にもかかわらず、SGDは、HDDやSSDのようなブロック対応の二次ストレージに依存するシステム、例えばTensorFlow/PyTorchや大容量ファイル上のイン-DB MLシステムに実装する場合、本質的に非効率なランダムデータアクセスを必要とする。 このインピーダンスミスマッチに対処するため、SGDの収束率(ランダム性を好む)とI/O性能(シーケンシャルアクセスを好む)のバランスをとるための様々なデータシャッフル戦略が提案されている。 本稿では,まず,既存のデータシャッフル戦略に関する系統的実証研究を行い,既存の戦略はすべて改善の余地があることを明らかにした。 このことを念頭に、我々は単純だが新しい階層型データシャッフル戦略であるCorgiPileを提案する。 既存の戦略と比較して、CorgiPileは完全なデータシャッフルを回避すると同時に、完全なシャッフルが実行されたかのようにSGDのコンバージェンスレートを同等に維持する。 コージパイルの収束挙動に関する非自明な理論的解析を提供する。 我々は、新しいCorgiPileDataSet API内で、新しい並列分散シャッフル演算子を設計することで、CorgiPileをPyTorchに統合する。 CorgiPileをPostgreSQLに統合して,最適化を備えた3つの物理演算子を導入しています。 実験結果から,CorgiPileは深層学習モデルと一般化線形モデルの両方において,全シャッフルベースSGDと同等の収束率が得られることが示された。 ImageNetデータセットのディープラーニングモデルでは、CorgiPileは完全なデータシャッフルを備えたPyTorchよりも1.5倍高速である。 線形モデルを持つin-DB MLでは、CorgiPileはHDDとSSDの両方で2つの最先端のIn-DB MLシステムであるApache MADlibとBismarckよりも1.6X-12.8倍高速である。

Stochastic gradient descent (SGD) is the cornerstone of modern machine learning (ML) systems. Despite its computational efficiency, SGD requires random data access that is inherently inefficient when implemented in systems that rely on block-addressable secondary storage such as HDD and SSD, e.g., TensorFlow/PyTorch and in-DB ML systems over large files. To address this impedance mismatch, various data shuffling strategies have been proposed to balance the convergence rate of SGD (which favors randomness) and its I/O performance (which favors sequential access). In this paper, we first conduct a systematic empirical study on existing data shuffling strategies, which reveals that all existing strategies have room for improvement -- they all suffer in terms of I/O performance or convergence rate. With this in mind, we propose a simple but novel hierarchical data shuffling strategy, CorgiPile. Compared with existing strategies, CorgiPile avoids a full data shuffle while maintaining comparable convergence rate of SGD as if a full shuffle were performed. We provide a non-trivial theoretical analysis of CorgiPile on its convergence behavior. We further integrate CorgiPile into PyTorch by designing new parallel/distributed shuffle operators inside a new CorgiPileDataSet API. We also integrate CorgiPile into PostgreSQL by introducing three new physical operators with optimizations. Our experimental results show that CorgiPile can achieve comparable convergence rate with the full shuffle based SGD for both deep learning and generalized linear models. For deep learning models on ImageNet dataset, CorgiPile is 1.5X faster than PyTorch with full data shuffle. For in-DB ML with linear models, CorgiPile is 1.6X-12.8X faster than two state-of-the-art in-DB ML systems, Apache MADlib and Bismarck, on both HDD and SSD.
翻訳日:2022-06-15 04:21:34 公開日:2022-06-12
# (参考訳) COLD Fusion:不確かさを意識したマルチモーダル感情認識のための校正および正規潜在分布融合

COLD Fusion: Calibrated and Ordinal Latent Distribution Fusion for Uncertainty-Aware Multimodal Emotion Recognition ( http://arxiv.org/abs/2206.05833v1 )

ライセンス: CC BY-SA 4.0
Mani Kumar Tellamekala, Shahin Amiriparian, Bj\"orn W. Schuller, Elisabeth Andr\'e, Timo Giesbrecht, Michel Valstar(参考訳) 入力データや機械学習フレームワークで使用されるラベルなど、さまざまな不確実性の原因が原因で、顔や声から感情を自動的に認識することは難しい。 本稿では,感情予測に対する不確かさを定量化する不確実性認識音声視覚融合手法を提案する。 そこで本稿では,視覚的時間的文脈ベクトル上での潜時分布を個別に学習し,各モータリティが感情認識に与える情報量を表すために,一様潜時分布の分散ベクトルを制約する,新たな融合フレームワークを提案する。 特に,視聴覚的潜在分布の分散ベクトルにキャリブレーションと順序ランキングの制約を課す。 よく校正されたモダリティに関する不確実性スコアは、それらの対応する予測が基底の真理ラベルとどの程度異なるかを示す。 よくランク付けされた不確実性スコアは、モダリティをまたいだ異なるフレームの順序付けを可能にする。 これらの制約を両立させるために,ソフトマックス分布整合損失を提案する。 分類と回帰設定の両方において,不確実性を考慮した核融合モデルと標準モデル非依存核融合ベースラインを比較した。 avec 2019 cesとiemocapの2つの感情認識コーパスの評価結果から,視聴覚的感情認識は,高度に調整された潜在性不確実性尺度の恩恵を受ける可能性が示唆された。

Automatically recognising apparent emotions from face and voice is hard, in part because of various sources of uncertainty, including in the input data and the labels used in a machine learning framework. This paper introduces an uncertainty-aware audiovisual fusion approach that quantifies modality-wise uncertainty towards emotion prediction. To this end, we propose a novel fusion framework in which we first learn latent distributions over audiovisual temporal context vectors separately, and then constrain the variance vectors of unimodal latent distributions so that they represent the amount of information each modality provides w.r.t. emotion recognition. In particular, we impose Calibration and Ordinal Ranking constraints on the variance vectors of audiovisual latent distributions. When well-calibrated, modality-wise uncertainty scores indicate how much their corresponding predictions may differ from the ground truth labels. Well-ranked uncertainty scores allow the ordinal ranking of different frames across the modalities. To jointly impose both these constraints, we propose a softmax distributional matching loss. In both classification and regression settings, we compare our uncertainty-aware fusion model with standard model-agnostic fusion baselines. Our evaluation on two emotion recognition corpora, AVEC 2019 CES and IEMOCAP, shows that audiovisual emotion recognition can considerably benefit from well-calibrated and well-ranked latent uncertainty measures.
翻訳日:2022-06-15 04:19:45 公開日:2022-06-12
# (参考訳) 不均一プロファイルにおける最適投資・貯蓄戦略選択のための深層強化学習:退職を目指す知的エージェント

Deep Reinforcement Learning for Optimal Investment and Saving Strategy Selection in Heterogeneous Profiles: Intelligent Agents working towards retirement ( http://arxiv.org/abs/2206.05835v1 )

ライセンス: CC BY 4.0
Fatih Ozhamaratli (1) and Paolo Barucca (1) ((1) University College London)(参考訳) 定義された利益から決定された寄付年金計画への移行は、貯蓄責任を政府や機関から個人へとシフトさせる。 個人に対する最適貯蓄・投資戦略の決定は、安定した金融姿勢や、労働生活や退職中の貧困を避ける上で最重要であり、異なる職業集団が経験する雇用形態や収入の軌跡が高度に多様化する世界では、特に困難な課題である。 本稿では,エージェントが不均質なプロファイルに適した最適ポートフォリオ割り当てと貯蓄戦略を学習するモデルを提案する。 私たちはエージェントの訓練に深層強化学習を使用します。 環境は職業と年齢依存の所得進化のダイナミクスで調整されている。 本研究は,エージェントプロファイルに依存する異質な所得軌道に着目し,エージェントの行動パラメータ化を取り入れている。 このモデルは、様々なシナリオで異種プロファイルの寿命消費と投資選択を見積もる柔軟な方法論を提供する。

The transition from defined benefit to defined contribution pension plans shifts the responsibility for saving toward retirement from governments and institutions to the individuals. Determining optimal saving and investment strategy for individuals is paramount for stable financial stance and for avoiding poverty during work-life and retirement, and it is a particularly challenging task in a world where form of employment and income trajectory experienced by different occupation groups are highly diversified. We introduce a model in which agents learn optimal portfolio allocation and saving strategies that are suitable for their heterogeneous profiles. We use deep reinforcement learning to train agents. The environment is calibrated with occupation and age dependent income evolution dynamics. The research focuses on heterogeneous income trajectories dependent on agent profiles and incorporates the behavioural parameterisation of agents. The model provides a flexible methodology to estimate lifetime consumption and investment choices for heterogeneous profiles under varying scenarios.
翻訳日:2022-06-15 03:42:43 公開日:2022-06-12
# (参考訳) NeuralODF:3次元形状表現のための一方向距離場学習

NeuralODF: Learning Omnidirectional Distance Fields for 3D Shape Representation ( http://arxiv.org/abs/2206.05837v1 )

ライセンス: CC BY 4.0
Trevor Houchens, Cheng-You Lu, Shivam Duggal, Rao Fu, Srinath Sridhar(参考訳) ビジュアルコンピューティングでは、3d幾何学はメッシュ、点雲、ボクセルグリッド、レベルセット、深度画像など様々な形で表現される。 各表現は異なるタスクに適しており、ある表現を別の(前方マップ)への変換を重要かつ共通の問題とする。 物体表面の深度を任意の3次元方向の位置から保存することにより、形状を符号化する新しい3次元形状表現であるOmnidirectional Distance Fields (ODFs)を提案する。 レイはODFの基本単位であるため、メッシュやポイントクラウドといった一般的な3D表現への変換が容易である。 閉曲面の表現に制限されるレベル集合法とは異なり、odfは無符号で開曲面(例えば衣服)をモデル化することができる。 我々は,オクルージョン境界における固有不連続性にもかかわらず,ニューラルネットワーク(NeuralODF)を用いてODFを効果的に学習できることを実証した。 また,odfを共通の3次元表現に変換する効率的なフォワードマッピングアルゴリズムも導入する。 具体的には,ODFからメッシュを生成するための効率的なJumping Cubesアルゴリズムを提案する。 実験により、NeuralODFは1つのオブジェクトにオーバーフィットすることで高品質な形状を捉えることを学び、また共通の形状のカテゴリを一般化することを学ぶことができる。

In visual computing, 3D geometry is represented in many different forms including meshes, point clouds, voxel grids, level sets, and depth images. Each representation is suited for different tasks thus making the transformation of one representation into another (forward map) an important and common problem. We propose Omnidirectional Distance Fields (ODFs), a new 3D shape representation that encodes geometry by storing the depth to the object's surface from any 3D position in any viewing direction. Since rays are the fundamental unit of an ODF, it can be used to easily transform to and from common 3D representations like meshes or point clouds. Different from level set methods that are limited to representing closed surfaces, ODFs are unsigned and can thus model open surfaces (e.g., garments). We demonstrate that ODFs can be effectively learned with a neural network (NeuralODF) despite the inherent discontinuities at occlusion boundaries. We also introduce efficient forward mapping algorithms for transforming ODFs to and from common 3D representations. Specifically, we introduce an efficient Jumping Cubes algorithm for generating meshes from ODFs. Experiments demonstrate that NeuralODF can learn to capture high-quality shape by overfitting to a single object, and also learn to generalize on common shape categories.
翻訳日:2022-06-15 03:41:46 公開日:2022-06-12
# (参考訳) GANに基づくクラス不均衡解消のためのデータ強化

GAN based Data Augmentation to Resolve Class Imbalance ( http://arxiv.org/abs/2206.05840v1 )

ライセンス: CC BY 4.0
Sairamvinay Vijayaraghavan, Terry Guan, Jason (Jinxiao) Song(参考訳) テクノロジーが成長し、人々が利用できるようになるにつれて、クレジットカード詐欺の数は増えている。 そのため、このような不正を検知する堅牢で効果的な方法を実現することが重要である。 機械学習アルゴリズムは予測の精度を最大化しようとするため、これらのタスクに適しており、従って信頼することができる。 しかし、機械学習モデルでは、サンプルセット内のクラス分散間の不均衡が存在するため、うまく機能しない可能性のある、差し迫った欠陥がある。 そのため、多くの関連するタスクにおいて、データセットには観測された不正事件が極めて少ない(場合によっては1%のポジティブな不正事件が見つかる)。 したがって、この不均衡の存在は、すべてのラベルを多数派クラスとして予測することで、学習モデルの振る舞いに影響を与える可能性がある。 我々はGAN(Generative Adversarial Network)を訓練し、トレーニングセット内のクラス不均衡を緩和し、データの学習をより効果的に一般化するために使用できるマイノリティクラスの多数の説得力のある(かつ信頼性の高い)合成例を生成した。

The number of credit card fraud has been growing as technology grows and people can take advantage of it. Therefore, it is very important to implement a robust and effective method to detect such frauds. The machine learning algorithms are appropriate for these tasks since they try to maximize the accuracy of predictions and hence can be relied upon. However, there is an impending flaw where in machine learning models may not perform well due to the presence of an imbalance across classes distribution within the sample set. So, in many related tasks, the datasets have a very small number of observed fraud cases (sometimes around 1 percent positive fraud instances found). Therefore, this imbalance presence may impact any learning model's behavior by predicting all labels as the majority class, hence allowing no scope for generalization in the predictions made by the model. We trained Generative Adversarial Network(GAN) to generate a large number of convincing (and reliable) synthetic examples of the minority class that can be used to alleviate the class imbalance within the training set and hence generalize the learning of the data more effectively.
翻訳日:2022-06-15 03:22:28 公開日:2022-06-12
# (参考訳) リアルタイム画像検出と認識のためのai分類アルゴリズムの効率比較

Efficiency Comparison of AI classification algorithms for Image Detection and Recognition in Real-time ( http://arxiv.org/abs/2206.05842v1 )

ライセンス: CC BY 4.0
Musarrat Saberin Nipun, Rejwan Bin Sulaiman, and Amer Kareem(参考訳) 顔の検出と識別は、人工知能システムにおいて最も困難でよく使われるタスクである。 本研究の目的は,システムで使用されている複数の顔検出および認識アルゴリズムの結果を提示・比較することである。 このシステムはまず人間の訓練画像から始まり、その後テスト画像に続き、顔を特定し、訓練された顔と比較し、最後にOpenCV分類器を使って分類する。 本研究は,Python,OpenCV,Matplotlibを用いて実装されたシステムでもっとも効果的かつ成功した戦術について論じる。 公共スペース、ショッピングモール、ATMブースなど、CCTVのある場所でも使用できる。

Face detection and identification is the most difficult and often used task in Artificial Intelligence systems. The goal of this study is to present and compare the results of several face detection and recognition algorithms used in the system. This system begins with a training image of a human, then continues on to the test image, identifying the face, comparing it to the trained face, and finally classifying it using OpenCV classifiers. This research will discuss the most effective and successful tactics used in the system, which are implemented using Python, OpenCV, and Matplotlib. It may also be used in locations with CCTV, such as public spaces, shopping malls, and ATM booths.
翻訳日:2022-06-15 03:15:56 公開日:2022-06-12
# (参考訳) ChordMixer: 長さの異なるシーケンスに対するスケーラブルなニューラルアテンションモデル

ChordMixer: A Scalable Neural Attention Model for Sequences with Different Lengths ( http://arxiv.org/abs/2206.05852v1 )

ライセンス: CC BY 4.0
Ruslan Khalitov, Tong Yu, Lei Cheng, Zhirong Yang(参考訳) 順序データは自然に多くの領域で異なる長さを持ち、非常に長い配列を持つ。 重要なモデリングツールとして、神経の注意はそのようなシーケンスで長距離の相互作用を捉えるべきである。 しかし、既存の神経注意モデルは短いシーケンスしか認めていないか、一定の入力長を強制するためにチャンクまたはパディングを用いる必要がある。 本稿では,可変長長列に対する注意をモデル化できるchordmixerと呼ばれる単純なニューラルネットワーク構築ブロックを提案する。 各コードミキサーブロックは、学習可能なパラメータのない位置方向回転層と、要素方向mlp層とからなる。 このようなブロックを繰り返し適用することは、入力信号を学習対象に向かって混合する効果的なネットワークバックボーンを形成する。 我々は、合成付加問題、長い文書分類、DNA配列に基づく分類について、ChordMixerを試験した。 実験の結果,本手法は他の神経注意モデルよりも有意に優れていた。

Sequential data naturally have different lengths in many domains, with some very long sequences. As an important modeling tool, neural attention should capture long-range interaction in such sequences. However, most existing neural attention models admit only short sequences, or they have to employ chunking or padding to enforce a constant input length. Here we propose a simple neural network building block called ChordMixer which can model the attention for long sequences with variable lengths. Each ChordMixer block consists of a position-wise rotation layer without learnable parameters and an element-wise MLP layer. Repeatedly applying such blocks forms an effective network backbone that mixes the input signals towards the learning targets. We have tested ChordMixer on the synthetic adding problem, long document classification, and DNA sequence-based taxonomy classification. The experiment results show that our method substantially outperforms other neural attention models.
翻訳日:2022-06-15 03:15:04 公開日:2022-06-12
# (参考訳) 汎用スペシャリストによる高品質なスナップショットアンサンブルの訓練

Modeling Generalized Specialist Approach To Train Quality Resilient Snapshot Ensemble ( http://arxiv.org/abs/2206.05853v1 )

ライセンス: CC BY 4.0
Ghalib Ahmed Tahir, Chu Kiong Loo, Zongying Liu(参考訳) 畳み込みニューラルネットワーク(cnns)は、識別可能な視覚特徴を学習できるため、食品画像認識に好適である。 それでも、歪んだ画像を認識することは、既存のCNNにとって難しい。 したがって、この研究は品質回復性アンサンブルを訓練するための一般化された専門的なアプローチをモデル化した。 この手法により、アンサンブルフレームワークのモデルでは、クリーンな画像を認識する一般的なスキルと、特定の歪みに関する深い専門領域を持つノイズの多い画像を分類する浅いスキルが維持される。 その後、新しいデータ拡張ランダム品質ミックスアップ(RQMixUp)とスナップショットアンサンブルを組み合わせてG-スペシャリストを訓練する。 G-スペシャリストのトレーニングサイクル毎に、RQMixupによって生成された合成画像に基づいてモデルを微調整し、ランダムに選択された特定の歪みの画像と歪んだ画像を混在させる。 その結果、アンサンブルの各スナップショットは、他の品質歪みの浅いスキルとともに、いくつかの歪みレベルで専門知識を得た。 次に、さまざまな専門家によるフィルタ出力が高い精度で融合された。 学習プロセスには、専門家を訓練するための単一のトレーニングプロセスによる追加コストがなく、転送学習のための幅広い教師付きcnnと互換性がある。 最後に,3つの実世界の食品とマレーシアの食品データベースの実験的分析により,プリスタン食品画像に対する競合的分類性能を有する歪み画像に対して有意な改善が認められた。

Convolutional neural networks (CNNs) apply well with food image recognition due to the ability to learn discriminative visual features. Nevertheless, recognizing distorted images is challenging for existing CNNs. Hence, the study modelled a generalized specialist approach to train a quality resilient ensemble. The approach aids the models in the ensemble framework retain general skills of recognizing clean images and shallow skills of classifying noisy images with one deep expertise area on a particular distortion. Subsequently, a novel data augmentation random quality mixup (RQMixUp) is combined with snapshot ensembling to train G-Specialist. During each training cycle of G-Specialist, a model is fine-tuned on the synthetic images generated by RQMixup, intermixing clean and distorted images of a particular distortion at a randomly chosen level. Resultantly, each snapshot in the ensemble gained expertise on several distortion levels, with shallow skills on other quality distortions. Next, the filter outputs from diverse experts were fused for higher accuracy. The learning process has no additional cost due to a single training process to train experts, compatible with a wide range of supervised CNNs for transfer learning. Finally, the experimental analysis on three real-world food and a Malaysian food database showed significant improvement for distorted images with competitive classification performance on pristine food images.
翻訳日:2022-06-15 02:54:57 公開日:2022-06-12
# 重み付きポリシーによる連続制御ロボティクスにおけるスパース報酬の扱い

Dealing with Sparse Rewards in Continuous Control Robotics via Heavy-Tailed Policies ( http://arxiv.org/abs/2206.05652v1 )

ライセンス: Link先を確認
Souradip Chakraborty, Amrit Singh Bedi, Alec Koppel, Pratap Tokekar, and Dinesh Manocha(参考訳) 本稿では,連続制御問題におけるスパース報酬の課題に対処するために,新しい重み付き確率的政策勾配(ht-psg)アルゴリズムを提案する。 スパース報酬は、操作やナビゲーションなどの連続制御ロボティクスタスクにおいて一般的であり、状態空間上の価値関数の非自明な推定のため、学習問題を難しくする。 この要求は、わずかな報酬環境に対して報酬を形作るか、専門家のデモンストレーションを要求する。 しかし、高品質なデモを得るのは非常に高価であり、時には不可能である。 本稿では,HT-SPGと併用した重み付きポリシーパラメータ化手法を提案し,アルゴリズムの安定な探索動作を導出する。 提案アルゴリズムは、専門家によるデモンストレーションへのアクセスを必要としない。 1D Mario, Pathological Mountain Car, Sparse Pendulum in OpenAI Gym, Sparse MuJoCo Environment (Hopper-v2) など, まばらな報酬を伴う連続制御のベンチマークタスクにおけるHT-SPGの性能を検証した。 高平均累積報酬の観点から,全タスクに一貫したパフォーマンス向上を示す。 HT-SPGは最小サンプルで収束速度を向上し,提案アルゴリズムのサンプル効率を強調した。

In this paper, we present a novel Heavy-Tailed Stochastic Policy Gradient (HT-PSG) algorithm to deal with the challenges of sparse rewards in continuous control problems. Sparse reward is common in continuous control robotics tasks such as manipulation and navigation, and makes the learning problem hard due to non-trivial estimation of value functions over the state space. This demands either reward shaping or expert demonstrations for the sparse reward environment. However, obtaining high-quality demonstrations is quite expensive and sometimes even impossible. We propose a heavy-tailed policy parametrization along with a modified momentum-based policy gradient tracking scheme (HT-SPG) to induce a stable exploratory behavior to the algorithm. The proposed algorithm does not require access to expert demonstrations. We test the performance of HT-SPG on various benchmark tasks of continuous control with sparse rewards such as 1D Mario, Pathological Mountain Car, Sparse Pendulum in OpenAI Gym, and Sparse MuJoCo environments (Hopper-v2). We show consistent performance improvement across all tasks in terms of high average cumulative reward. HT-SPG also demonstrates improved convergence speed with minimum samples, thereby emphasizing the sample efficiency of our proposed algorithm.
翻訳日:2022-06-14 18:24:38 公開日:2022-06-12
# 数値データの粗いトポロジー

The Rough Topology for Numerical Data ( http://arxiv.org/abs/2206.05776v1 )

ライセンス: Link先を確認
U\u{g}ur Yi\u{g}it(参考訳) 本稿では,属性値を用いてオブジェクトを分類することにより,粗いトポロジーとコアを数値データに一般化する。 数値データのコアを見つけるための新しい手法について論じる。 次に、属性がコアにあるかどうかを判断する測定を行う。 この新しいコアを見つける方法は属性の削減に使用される。 機械学習アルゴリズムを用いてテストされ、比較される。 最後に、データを関連するデータに変換し、コアを見つけるためのアルゴリズムとコードも提供する。

In this paper, we give a generalization of the rough topology and the core to numerical data by classifying objects in terms of the attribute values. New approach to find the core for numerical data is discussed. Then a measurement to find whether an attribute is in the core or not is given. This new method for finding the core is used for attribute reduction. It is tested and compared by using machine learning algorithms. Finally, the algorithms and codes to convert a data to pertinent data and to find core is also provided.
翻訳日:2022-06-14 18:24:15 公開日:2022-06-12
# RL-EA:電磁検出衛星スケジューリング問題のための強化学習に基づく進化的アルゴリズムフレームワーク

RL-EA: A Reinforcement Learning-Based Evolutionary Algorithm Framework for Electromagnetic Detection Satellite Scheduling Problem ( http://arxiv.org/abs/2206.05694v1 )

ライセンス: Link先を確認
Yanjie Song, Luona Wei, Qing Yang, Jian Wu, Lining Xing, Yingwu Chen(参考訳) 電磁検出衛星スケジューリング問題(EDSSP)の研究は、多数の目標に対する検出要求により注目されている。 本稿では、EDSSP問題に対する混合整数プログラミングモデルと強化学習(RL-EA)に基づく進化的アルゴリズムフレームワークを提案する。 電磁検出に影響を与える多くの要因は、検出モード、帯域幅、その他の要因など、モデルで考慮されている。 強化学習に基づく進化的アルゴリズムフレームワークは,Q-ラーニングフレームワークを用いており,各個体はエージェントとみなされる。 提案手法に基づいてQ-learning-based genetic algorithm(QGA)を設計する。 Q-learningは、変動演算子を選択することで集団探索プロセスのガイドに使用される。 アルゴリズムでは、q値を更新するための報酬関数を設計する。 問題特性により,<state, action>の新たな組み合わせが提案されている。 QGAはまた、検索性能を改善するためにエリート個人の保持戦略を使用している。 その後,個体群進化の性能を評価するため,タスクタイムウィンドウ選択アルゴリズムが提案されている。 提案アルゴリズムの計画効果を検討するために,様々なスケール実験を行った。 複数のインスタンスの実験的検証を通じて、qgaはedssp問題を効果的に解くことができることが分かる。 最先端のアルゴリズムと比較すると、QGAアルゴリズムはいくつかの面で優れている。

The study of electromagnetic detection satellite scheduling problem (EDSSP) has attracted attention due to the detection requirements for a large number of targets. This paper proposes a mixed-integer programming model for the EDSSP problem and an evolutionary algorithm framework based on reinforcement learning (RL-EA). Numerous factors that affect electromagnetic detection are considered in the model, such as detection mode, bandwidth, and other factors. The evolutionary algorithm framework based on reinforcement learning uses the Q-learning framework, and each individual in the population is regarded as an agent. Based on the proposed framework, a Q-learning-based genetic algorithm(QGA) is designed. Q-learning is used to guide the population search process by choosing variation operators. In the algorithm, we design a reward function to update the Q value. According to the problem characteristics, a new combination of <state, action> is proposed. The QGA also uses an elite individual retention strategy to improve search performance. After that, a task time window selection algorithm is proposed To evaluate the performance of population evolution. Various scales experiments are used to examine the planning effect of the proposed algorithm. Through the experimental verification of multiple instances, it can be seen that the QGA can solve the EDSSP problem effectively. Compared with the state-of-the-art algorithms, the QGA algorithm performs better in several aspects.
翻訳日:2022-06-14 18:03:57 公開日:2022-06-12
# 近傍格子による条件付き独立性の非図形的表現

A non-graphical representation of conditional independence via the neighbourhood lattice ( http://arxiv.org/abs/2206.05829v1 )

ライセンス: Link先を確認
Arash A. Amini, Bryon Aragam, Qing Zhou(参考訳) 本稿では,忠実な図形表現が存在しない場合に有効な条件独立性のコンパクトで非図形表現である分布の近傍格子分解を紹介し,研究する。 この考え方は、変数の近傍の集合を部分集合束として見、この格子を凸部分格子に分割し、それぞれが条件付き独立関係のコレクションを直接エンコードする。 この分解は任意の合成グラファイドに存在し,高次元で効率的に,一貫して計算できることを示す。 特に、これは構成公理を満たす分布によって暗示されるすべての独立関係をエンコードする方法を与えるが、これは一般的にグラフィカルなアプローチによって仮定される忠実性仮定よりも厳密に弱い。 また、図式モデルや投影格子など、直感的な解釈を持つ様々な特殊なケースについても論じる。 その過程で、この問題は、図形モデルや構造方程式の文脈で広く研究されている近傍回帰とどのように密接に関連しているかが分かる。

We introduce and study the neighbourhood lattice decomposition of a distribution, which is a compact, non-graphical representation of conditional independence that is valid in the absence of a faithful graphical representation. The idea is to view the set of neighbourhoods of a variable as a subset lattice, and partition this lattice into convex sublattices, each of which directly encodes a collection of conditional independence relations. We show that this decomposition exists in any compositional graphoid and can be computed efficiently and consistently in high-dimensions. {In particular, this gives a way to encode all of independence relations implied by a distribution that satisfies the composition axiom, which is strictly weaker than the faithfulness assumption that is typically assumed by graphical approaches.} We also discuss various special cases such as graphical models and projection lattices, each of which has intuitive interpretations. Along the way, we see how this problem is closely related to neighbourhood regression, which has been extensively studied in the context of graphical models and structural equations.
翻訳日:2022-06-14 18:01:19 公開日:2022-06-12
# 無知の結実としての知識--我々の考え方のグローバル自由エネルギー原理

Knowledge as Fruits of Ignorance: A global Free Energy Principle of our way of thinking ( http://arxiv.org/abs/2206.05684v1 )

ライセンス: Link先を確認
Cailleteau Thomas(参考訳) 本稿では,「Jaynes & Shannon's Constrained Ignorance and Surprise」で定義された「Ignorance and Surprise」の簡単な使い方を示す。 人の旅の例を示すことで、私たちは、どのように考え、学び、記憶するかに関する、単純で明白だが数学的にエンコードされた哲学的意味を示すと信じています。 この基本的なモデルでは、無知から学ぶ方法と、ベイズ公式を使って世界を予測する方法を区別します。 実際、この研究を完了した後で見たように、人を構成するシステムに無視性を適用することは、ニューロンや細胞などの複雑な確率的システムに対する局所的なアプローチのグローバルなアプローチとなり、より複雑で詳細なアプローチである自由エネルギー原理を用いて記述された。 したがって、この記事の目的は、人から見て、シャノンのエントロピーが制約されたことを表す自由エネルギー原理の適用の別の側面を示し、ベイズの形式に導くことである。 一つの量として無知のみを使用し、その最小化を主要なプロセスとして、数学的に記述することで、彼の理解、主張、疑念、世界をどのように知覚するかについての仮定を考慮に入れることができることを示す。

In this second article, we show a simple use of the Ignorance as defined in "Jaynes & Shannon's Constrained Ignorance and Surprise". By giving an example about the journey of a person, we believe to show some simple, obvious but mathematically encoded philosophical implications about how we could think, learn and memorize. In this basic model we will separate how we learn from Ignorance, and how we anticipate the world using Bayes formula, both should however be more entangled to best reflect reality. In fact, as we have seen after achieving this work, applying Ignorance on the system constituting a person finally turns out to be the global approach of its local counterpart on systems like neurons, cells and other complex probabilistic systems, described using the free energy principle, a much more complex and detailed approach. The aim of this article is therefore to show, as seen from a person, another aspect of the application of the free energy principle which represents the constrained Shannon's entropy, and leads to Bayes'formula. We show that, using only ignorance as a single quantity, and its minimization as the main process, we can take into account his understandings, assertions, doubts and assumptions about how he perceives the world, by describing them mathematically.
翻訳日:2022-06-14 18:01:04 公開日:2022-06-12
# 非線形支持ベクトルマシンに対するサンプル対向摂動の効率的解法

An Efficient Method for Sample Adversarial Perturbations against Nonlinear Support Vector Machines ( http://arxiv.org/abs/2206.05664v1 )

ライセンス: Link先を確認
Wen Su, Qingna Li(参考訳) 敵対的摂動は様々な機械学習モデルで大きな注目を集めている。 本稿では,非線形支持ベクトルマシン(SVM)の逆摂動のサンプルについて検討する。 データを特徴空間にマッピングする非線形関数の暗黙的形式のため、逆摂動の明示的な形式を得ることは困難である。 非線形SVMの特殊特性を探索することにより、非線形SVMを攻撃する最適化問題を非線形KKTシステムに変換する。 このようなシステムは様々な数値手法で解くことができる。 数値計算の結果,本手法は対向摂動の計算に有効であることがわかった。

Adversarial perturbations have drawn great attentions in various machine learning models. In this paper, we investigate the sample adversarial perturbations for nonlinear support vector machines (SVMs). Due to the implicit form of the nonlinear functions mapping data to the feature space, it is difficult to obtain the explicit form of the adversarial perturbations. By exploring the special property of nonlinear SVMs, we transform the optimization problem of attacking nonlinear SVMs into a nonlinear KKT system. Such a system can be solved by various numerical methods. Numerical results show that our method is efficient in computing adversarial perturbations.
翻訳日:2022-06-14 17:58:45 公開日:2022-06-12
# リーマン多様体上のフェデレート学習

Federated Learning on Riemannian Manifolds ( http://arxiv.org/abs/2206.05668v1 )

ライセンス: Link先を確認
Jiaxiang Li and Shiqian Ma(参考訳) フェデレートラーニング(FL)は、スマートフォン-appベースの機械学習アプリケーションに多くの重要な応用を見出した。 FLには多くのアルゴリズムが研究されているが、我々の知る限り、非凸制約を持つFLのアルゴリズムは研究されていない。 本稿では, リーマン多様体上のFLについて検討し, フェデレートPCAやフェデレーションkPCAなどの重要な応用を見出す。 リーマン多様体上のフェデレーション最適化を解くために、リーマン連合SVRG(RFedSVRG)法を提案する。 我々はその収束速度を異なるシナリオで分析する。 rfedsvrg を fedavg と fedprox のリーマン系と比較する数値実験を行った。 数値実験の結果,RFedSVRGの利点は有意であることがわかった。

Federated learning (FL) has found many important applications in smart-phone-APP based machine learning applications. Although many algorithms have been studied for FL, to the best of our knowledge, algorithms for FL with nonconvex constraints have not been studied. This paper studies FL over Riemannian manifolds, which finds important applications such as federated PCA and federated kPCA. We propose a Riemannian federated SVRG (RFedSVRG) method to solve federated optimization over Riemannian manifolds. We analyze its convergence rate under different scenarios. Numerical experiments are conducted to compare RFedSVRG with the Riemannian counterparts of FedAvg and FedProx. We observed from the numerical experiments that the advantages of RFedSVRG are significant.
翻訳日:2022-06-14 17:58:38 公開日:2022-06-12
# 学習に基づくデータストレージ [ビジョン] (技術報告)

Learning-Based Data Storage [Vision] (Technical Report) ( http://arxiv.org/abs/2206.05778v1 )

ライセンス: Link先を確認
Xiang Lian, Xiaofei Zhang(参考訳) deep neural network(dnn)とその変種は、画像分類、顔/音声認識、不正検出など、さまざまな実応用に広く使用されている。 多くの重要な機械学習タスクに加えて、DNNは、脳細胞の役割をエミュレートする人工ネットワークのように、入力データと出力データの間の非線形関係を保存する能力を示す。 我々は、データストレージの新しいパラダイムであるDNN-as-a-Databaseを構想し、よく訓練された機械学習モデルでデータをエンコードする。 生のフォーマットでデータを直接記録する従来のデータストレージと比べ、学習ベースの構造(例えばDNN)は、入力と出力のデータペアを暗黙的にエンコードし、入力データが提供される場合にのみ、異なる解像度の実際の出力データを計算/物質化する。 この新たなパラダイムは、さまざまなレベルで柔軟なデータプライバシ設定を可能にし、新しいハードウェア(Diffractive Neural NetworkやAIチップなど)のアクセラレーションによる低空間消費と高速な計算を実現し、分散DNNベースのストレージ/コンピューティングに一般化することで、データセキュリティを大幅に強化することができる。 本稿では,lmu(learning-based memory unit)と呼ばれる学習構造を用いてデータの保存,整理,検索を行う,学習ベースのデータストレージという新しい概念を提案する。 ケーススタディでは、DNNをLMUのエンジンとして使用し、DNNベースのデータストレージのデータ容量と精度について検討する。 予備実験の結果,dnnストレージの高精度(100%)化により,学習に基づくデータストレージの実現可能性を示した。 我々は、dnnベースのデータストレージを利用してリレーショナルテーブルの管理とクエリを行う効果的なソリューションを探索し設計する。 本稿では,分散DNNストレージ/計算など,他のデータ型(グラフなど)や環境へのソリューションの一般化について論じる。

Deep neural network (DNN) and its variants have been extensively used for a wide spectrum of real applications such as image classification, face/speech recognition, fraud detection, and so on. In addition to many important machine learning tasks, as artificial networks emulating the way brain cells function, DNNs also show the capability of storing non-linear relationships between input and output data, which exhibits the potential of storing data via DNNs. We envision a new paradigm of data storage, "DNN-as-a-Database", where data are encoded in well-trained machine learning models. Compared with conventional data storage that directly records data in raw formats, learning-based structures (e.g., DNN) can implicitly encode data pairs of inputs and outputs and compute/materialize actual output data of different resolutions only if input data are provided. This new paradigm can greatly enhance the data security by allowing flexible data privacy settings on different levels, achieve low space consumption and fast computation with the acceleration of new hardware (e.g., Diffractive Neural Network and AI chips), and can be generalized to distributed DNN-based storage/computing. In this paper, we propose this novel concept of learning-based data storage, which utilizes a learning structure called learning-based memory unit (LMU), to store, organize, and retrieve data. As a case study, we use DNNs as the engine in the LMU, and study the data capacity and accuracy of the DNN-based data storage. Our preliminary experimental results show the feasibility of the learning-based data storage by achieving high (100%) accuracy of the DNN storage. We explore and design effective solutions to utilize the DNN-based data storage to manage and query relational tables. We discuss how to generalize our solutions to other data types (e.g., graphs) and environments such as distributed DNN storage/computing.
翻訳日:2022-06-14 17:58:26 公開日:2022-06-12
# 産業4.0:非侵襲型センサデータを用いた機械学習による鉄鋼量産のリアルタイム品質管理

An Industry 4.0 example: real-time quality control for steel-based mass production using Machine Learning on non-invasive sensor data ( http://arxiv.org/abs/2206.05818v1 )

ライセンス: Link先を確認
Michiel Straat, Kevin Koster, Nick Goet, Kerstin Bunte(参考訳) 大量生産における鋼質の不足は、工具、生産停止時間、品質の低い製品に非常にコストがかかる。 品質管理, リスク軽減, および断層予測のための重要な材料特性を推定するための, 自動的, 迅速かつ安価な戦略が極めて望ましい。 本研究では,鋼製製品の高スループット生産ラインを分析した。 現在、材料品質は手動による破壊試験で確認されており、これは遅い、無駄で、わずかしか材料をカバーしていない。 完全なテストカバレッジを達成するために、我々の産業協力者は接触なく非侵襲的な電磁センサを開発し、生産中のすべての物質をリアルタイムで測定した。 私たちの貢献は3倍です。 1) 制御実験では, 故意に変形した特性で鋼を識別できることを示した。 2)48本の鋼コイルを非侵襲的に完全に測定し, 試料の破壊試験を行った。 線形モデルは、通常破壊試験によって得られる2つの重要な材料特性(降伏強度と引張強度)から、非侵襲的な測定から予測する。 残留コイルアウトクロスバリデーションで性能を評価する。 3) 得られたモデルを用いて, 非侵襲センサを用いて測定した加工材料約108kmの実生産データから, 材料特性とログ製品故障との関係を解析した。 モデルは、引張強度の仕様が切れた材料を予測する優れた性能(F3スコア0.95)を達成する。 モデル予測とログ製品故障の組み合わせは、推定利回りストレス値のかなりの割合が仕様外である場合、製品故障のリスクが高いことを示している。 本分析は, リアルタイム品質管理, リスクモニタリング, 故障検出のための有望な方向を示す。

Insufficient steel quality in mass production can cause extremely costly damage to tooling, production downtimes and low quality products. Automatic, fast and cheap strategies to estimate essential material properties for quality control, risk mitigation and the prediction of faults are highly desirable. In this work we analyse a high throughput production line of steel-based products. Currently, the material quality is checked using manual destructive testing, which is slow, wasteful and covers only a tiny fraction of the material. To achieve complete testing coverage our industrial collaborator developed a contactless, non-invasive, electromagnetic sensor to measure all material during production in real-time. Our contribution is three-fold: 1) We show in a controlled experiment that the sensor can distinguish steel with deliberately altered properties. 2) 48 steel coils were fully measured non-invasively and additional destructive tests were conducted on samples to serve as ground truth. A linear model is fitted to predict from the non-invasive measurements two key material properties (yield strength and tensile strength) that normally are obtained by destructive tests. The performance is evaluated in leave-one-coil-out cross-validation. 3) The resulting model is used to analyse the material properties and the relationship with logged product faults on real production data of ~108 km of processed material measured with the non-invasive sensor. The model achieves an excellent performance (F3-score of 0.95) predicting material running out of specifications for the tensile strength. The combination of model predictions and logged product faults shows that if a significant percentage of estimated yield stress values is out of specification, the risk of product faults is high. Our analysis demonstrates promising directions for real-time quality control, risk monitoring and fault detection.
翻訳日:2022-06-14 17:57:53 公開日:2022-06-12
# sparsity と deep image priors を用いた符号化開口スペクトルイメージングのための高速交互最小化アルゴリズム

A Fast Alternating Minimization Algorithm for Coded Aperture Snapshot Spectral Imaging Based on Sparsity and Deep Image Priors ( http://arxiv.org/abs/2206.05647v1 )

ライセンス: Link先を確認
Qile Zhao, Xianhong Zhao, Xu Ma, Xudong Chen, Gonzalo R. Arce(参考訳) Coded Aperture snapshot Spectrum Imaging (CASSI)は、1つまたは複数の2次元投影計測から3次元ハイパースペクトル画像(HSI)を再構成する技術である。 しかし、プロジェクションの測定やスペクトルチャネルの増大は、厳密な不適切な問題につながり、正則化法を適用する必要がある。 そこで本研究では,自然画像の鮮度と深部画像の差分(Fama-SDIP)に基づく高速変動最小化アルゴリズムを提案する。 深部画像事前(DIP)を圧縮センシング(CS)再構成の原理に統合することにより、提案アルゴリズムはトレーニングデータセットを使わずに最先端の結果を得ることができる。 大規模な実験により,Fama-SDIP法はシミュレーションや実HSIデータセットにおいて先行する手法よりも優れていた。

Coded aperture snapshot spectral imaging (CASSI) is a technique used to reconstruct three-dimensional hyperspectral images (HSIs) from one or several two-dimensional projection measurements. However, fewer projection measurements or more spectral channels leads to a severly ill-posed problem, in which case regularization methods have to be applied. In order to significantly improve the accuracy of reconstruction, this paper proposes a fast alternating minimization algorithm based on the sparsity and deep image priors (Fama-SDIP) of natural images. By integrating deep image prior (DIP) into the principle of compressive sensing (CS) reconstruction, the proposed algorithm can achieve state-of-the-art results without any training dataset. Extensive experiments show that Fama-SDIP method significantly outperforms prevailing leading methods on simulation and real HSI datasets.
翻訳日:2022-06-14 17:51:44 公開日:2022-06-12
# TileGen: テイルブルで制御可能な材料生成とキャプチャ

TileGen: Tileable, Controllable Material Generation and Capture ( http://arxiv.org/abs/2206.05649v1 )

ライセンス: Link先を確認
Xilong Zhou, Milo\v{s} Ha\v{s}an, Valentin Deschaintre, Paul Guerrero, Kalyan Sunkavalli and Nima Kalantari(参考訳) 最近の方法(例:materialgan)では、無条件ganを使用してピクセル毎の材料マップを生成するか、あるいは入力された写真から材料を再構築する前の方法である。 これらのモデルは、様々なランダムな素材の外観を生成することができるが、生成した物質を特定のカテゴリに制限したり、レンガの壁の正確なレンガ配置のような生成された物質の粗い構造を制御するメカニズムを持たない。 さらに、単一の入力写真から再構成された材料は、一般的にアーティファクトを持ち、タイル状ではないため、実用的なコンテンツ生成パイプラインでの使用が制限される。 本稿では,svbrdfsの生成モデルであるtilegenを提案する。tilegenは材料カテゴリに特有で,常にタイル化可能で,入力構造パターン上で任意に条件付けされる。 TileGenはStyleGANの亜種であり、アーキテクチャは常にタイル状(周期的な)マテリアルマップを生成するように変更されている。 標準の"スタイル"潜在コードに加えて、tilegenはオプションで条件画像を取得でき、ユーザーが素材の支配的な空間的(そして任意の色の)特徴を直接制御できる。 例えば、レンガ材料では、レンガのレイアウトとレンガの色、革材料ではしわや折りたたみの場所を指定することができる。 我々の逆レンダリング手法は、単一のターゲット写真に最適に一致する素材を見つけることができる。 このリコンストラクションは、ユーザが提供するパターンでも条件付けできる。 得られた材料はタイル状であり、対象画像よりも大きくなり、条件を変更して編集可能である。

Recent methods (e.g. MaterialGAN) have used unconditional GANs to generate per-pixel material maps, or as a prior to reconstruct materials from input photographs. These models can generate varied random material appearance, but do not have any mechanism to constrain the generated material to a specific category or to control the coarse structure of the generated material, such as the exact brick layout on a brick wall. Furthermore, materials reconstructed from a single input photo commonly have artifacts and are generally not tileable, which limits their use in practical content creation pipelines. We propose TileGen, a generative model for SVBRDFs that is specific to a material category, always tileable, and optionally conditional on a provided input structure pattern. TileGen is a variant of StyleGAN whose architecture is modified to always produce tileable (periodic) material maps. In addition to the standard "style" latent code, TileGen can optionally take a condition image, giving a user direct control over the dominant spatial (and optionally color) features of the material. For example, in brick materials, the user can specify a brick layout and the brick color, or in leather materials, the locations of wrinkles and folds. Our inverse rendering approach can find a material perceptually matching a single target photograph by optimization. This reconstruction can also be conditional on a user-provided pattern. The resulting materials are tileable, can be larger than the target image, and are editable by varying the condition.
翻訳日:2022-06-14 17:00:07 公開日:2022-06-12
# マシンビジョンのための前処理強調画像圧縮

Preprocessing Enhanced Image Compression for Machine Vision ( http://arxiv.org/abs/2206.05650v1 )

ライセンス: Link先を確認
Guo Lu, Xingtong Ge, Tianxiong Zhong, Jing Geng, Qiang Hu(参考訳) 近年、多くの画像が圧縮され、人間によって監視されるのではなく、マシン分析タスク~(\textit{e,} object detection)用のバックエンドデバイスに送られるようになっている。 しかし、従来の画像コーデックの多くは、マシンビジョンシステムからの需要の増加を考慮せずに、人間の視覚システムの歪みを最小限に抑えるように設計されている。 本稿では,この課題に対処するために,機械ビジョンタスクのための前処理強化画像圧縮手法を提案する。 エンドツーエンド最適化のために学習したイメージコーデックに頼る代わりに、このフレームワークは従来の非微分コーデック上に構築されています。 具体的には、エンコーダの前のニューラルプリプロセッシングモジュールを提案し、下流のタスクに有用なセマンティック情報を保持し、ビットレート保存の無関係な情報を抑制する。 さらに, 神経前処理モジュールは量子化適応であり, 異なる圧縮比で使用できる。 さらに、前処理モジュールと下流マシンビジョンタスクを協調的に最適化するために、バックプロパゲーション段階で従来の非微分コーデックのためのプロキシネットワークを導入する。 異なるバックボーンネットワークを持つ2つの下流タスクの圧縮法を評価することで、広範囲な実験を行う。 実験の結果,約20%のビットレートを節約することで,符号化ビットレートと下流マシンビジョンタスクの性能とのトレードオフが向上した。

Recently, more and more images are compressed and sent to the back-end devices for the machine analysis tasks~(\textit{e.g.,} object detection) instead of being purely watched by humans. However, most traditional or learned image codecs are designed to minimize the distortion of the human visual system without considering the increased demand from machine vision systems. In this work, we propose a preprocessing enhanced image compression method for machine vision tasks to address this challenge. Instead of relying on the learned image codecs for end-to-end optimization, our framework is built upon the traditional non-differential codecs, which means it is standard compatible and can be easily deployed in practical applications. Specifically, we propose a neural preprocessing module before the encoder to maintain the useful semantic information for the downstream tasks and suppress the irrelevant information for bitrate saving. Furthermore, our neural preprocessing module is quantization adaptive and can be used in different compression ratios. More importantly, to jointly optimize the preprocessing module with the downstream machine vision tasks, we introduce the proxy network for the traditional non-differential codecs in the back-propagation stage. We provide extensive experiments by evaluating our compression method for two representative downstream tasks with different backbone networks. Experimental results show our method achieves a better trade-off between the coding bitrate and the performance of the downstream machine vision tasks by saving about 20% bitrate.
翻訳日:2022-06-14 16:59:41 公開日:2022-06-12
# std-net:階層的テンソル分解による画像ステガナリシス型ディープラーニングアーキテクチャの探索

STD-NET: Search of Image Steganalytic Deep-learning Architecture via Hierarchical Tensor Decomposition ( http://arxiv.org/abs/2206.05651v1 )

ライセンス: Link先を確認
Shunquan Tan and Qiushi Li and Laiyuan Li and Bin Li and Jiwu Huang(参考訳) 最近の研究では、既存の深部ステガナリシスモデルの大部分は大量の冗長性を有しており、ストレージやコンピューティングリソースの膨大な無駄につながることが示されている。 既存のモデル圧縮方法は、残留ショートカットブロックの畳み込み層を柔軟に圧縮することができず、良好な縮小率を得ることができない。 本稿では,画像ステガナリシスのための階層的テンソル分解による教師なしディープラーニングアーキテクチャ探索手法STD-NETを提案する。 提案手法は,畳み込みブロックの入力チャネル数や出力チャネル数を変化させないため,残差接続では制限されない。 提案手法は,STD-NETを効率よく,かつ教師なしの方法で対象ネットワークを圧縮するための基本モデルの各畳み込み層の感度を評価するための正規化歪み閾値であり,計算コストが低く,性能が類似する2つの異なる形状のネットワーク構造が得られる。 広範な実験により,ネットワークアーキテクチャの適応性が高いため,様々なステガナリシスシナリオにおいて,モデルが同等あるいはさらに優れた検出性能を達成できることが確認された。 一方,提案手法は従来のステガナリシスネットワーク圧縮法に比べて効率が良く冗長性が向上することを示す実験結果が得られた。

Recent studies shows that the majority of existing deep steganalysis models have a large amount of redundancy, which leads to a huge waste of storage and computing resources. The existing model compression method cannot flexibly compress the convolutional layer in residual shortcut block so that a satisfactory shrinking rate cannot be obtained. In this paper, we propose STD-NET, an unsupervised deep-learning architecture search approach via hierarchical tensor decomposition for image steganalysis. Our proposed strategy will not be restricted by various residual connections, since this strategy does not change the number of input and output channels of the convolution block. We propose a normalized distortion threshold to evaluate the sensitivity of each involved convolutional layer of the base model to guide STD-NET to compress target network in an efficient and unsupervised approach, and obtain two network structures of different shapes with low computation cost and similar performance compared with the original one. Extensive experiments have confirmed that, on one hand, our model can achieve comparable or even better detection performance in various steganalytic scenarios due to the great adaptivity of the obtained network architecture. On the other hand, the experimental results also demonstrate that our proposed strategy is more efficient and can remove more redundancy compared with previous steganalytic network compression methods.
翻訳日:2022-06-14 16:59:17 公開日:2022-06-12
# fisheyeex:魚眼レンズの焦点を延ばすための極外塗装

FisheyeEX: Polar Outpainting for Extending the FoV of Fisheye Lens ( http://arxiv.org/abs/2206.05844v1 )

ライセンス: Link先を確認
Kang Liao, Chunyu Lin, Yunchao Wei, Yao Zhao(参考訳) 魚眼レンズは広い視野(fov)のため、計算写真や補助運転の応用が増えている。 しかし、魚眼画像は一般的にその画像モデルによって引き起こされる無効な黒領域を含む。 本稿では,魚眼レンズのfovを不正領域を上回って拡張し,撮影シーンの完全性を向上させるfisheyeex法を提案する。 長方形や歪みのない画像と比較すると、不規則な絵画領域と歪み合成の2つの課題がある。 魚眼画像の放射対称性を観察し,まず中心から外側領域へのコヒーレントなセマンティクスを外挿する極性露光戦略を提案する。 このような画期的な手法は、半径歪みの分布パターンと円界を考慮し、より合理的な完成方向を推し進める。 歪み合成のために,魚眼画像以前の歪みと学習経路が整合した渦巻き歪み認識モジュールを提案する。 その後、シーンリビジョンモジュールは、生成された画素を推定歪みで並べ替えて魚眼画像にマッチさせ、FoVを延ばす。 実験では,都市景観,BDD100k,KITTI,現実世界の魚眼画像データセットの3つを用いて,提案した魚眼EXを評価した。 その結果,本手法は最先端手法を著しく上回り,魚眼画像の約27%以上のコンテンツを得ることができた。

Fisheye lens gains increasing applications in computational photography and assisted driving because of its wide field of view (FoV). However, the fisheye image generally contains invalid black regions induced by its imaging model. In this paper, we present a FisheyeEX method that extends the FoV of the fisheye lens by outpainting the invalid regions, improving the integrity of captured scenes. Compared with the rectangle and undistorted image, there are two challenges for fisheye image outpainting: irregular painting regions and distortion synthesis. Observing the radial symmetry of the fisheye image, we first propose a polar outpainting strategy to extrapolate the coherent semantics from the center to the outside region. Such an outpainting manner considers the distribution pattern of radial distortion and the circle boundary, boosting a more reasonable completion direction. For the distortion synthesis, we propose a spiral distortion-aware perception module, in which the learning path keeps consistent with the distortion prior of the fisheye image. Subsequently, a scene revision module rearranges the generated pixels with the estimated distortion to match the fisheye image, thus extending the FoV. In the experiment, we evaluate the proposed FisheyeEX on three popular outdoor datasets: Cityscapes, BDD100k, and KITTI, and one real-world fisheye image dataset. The results demonstrate that our approach significantly outperforms the state-of-the-art methods, gaining around 27% more content beyond the original fisheye image.
翻訳日:2022-06-14 16:58:55 公開日:2022-06-12
# tBDFS: DFSを活用した時間グラフニューラルネットワーク

tBDFS: Temporal Graph Neural Network Leveraging DFS ( http://arxiv.org/abs/2206.05692v1 )

ライセンス: Link先を確認
Uriel Singer, Haggai Roitman, Ido Guy, Kira Radinsky(参考訳) 時間グラフニューラルネットワーク(テンポラリGNN)は広く研究されており、複数の予測タスクで最先端の結果に到達している。 ほとんどの以前の研究でよく使われるアプローチは、ノードの歴史的な隣人からの情報を集約するレイヤを適用することである。 本研究では,異なる研究方向を採りながら,新たな時間的GNNアーキテクチャであるtBDFSを提案する。 tBDFSは、グラフ内の所定の(ターゲット)ノードへの時間的パスから情報を効率的に集約する層を適用します。 与えられたノードごとに、アグリゲーションが2つの段階に適用される:(1)そのノードで終わる各時間パスに対して単一の表現が学習され、(2)すべてのパス表現が最終ノード表現に集約される。 全体的な目標は、ノードに新しい情報を追加するのではなく、新しい視点で同じ正確な情報を観察することにあります。 これにより、モデルが近隣指向ではなくパス指向のパターンを直接観察することが可能になります。 これは時間グラフを横断する深さ優先探索(dfs)であり、以前の研究で適用される一般的な呼吸優先探索(bfs)と比較することができる。 複数のリンク予測タスクに対してtBDFSを評価し,最先端のベースラインと比較して良好な性能を示す。 我々の知る限りでは、我々は初めて時相DFSニューラルネットワークを適用している。

Temporal graph neural networks (temporal GNNs) have been widely researched, reaching state-of-the-art results on multiple prediction tasks. A common approach employed by most previous works is to apply a layer that aggregates information from the historical neighbors of a node. Taking a different research direction, in this work, we propose tBDFS -- a novel temporal GNN architecture. tBDFS applies a layer that efficiently aggregates information from temporal paths to a given (target) node in the graph. For each given node, the aggregation is applied in two stages: (1) A single representation is learned for each temporal path ending in that node, and (2) all path representations are aggregated into a final node representation. Overall, our goal is not to add new information to a node, but rather observe the same exact information in a new perspective. This allows our model to directly observe patterns that are path-oriented rather than neighborhood-oriented. This can be thought as a Depth-First Search (DFS) traversal over the temporal graph, compared to the popular Breath-First Search (BFS) traversal that is applied in previous works. We evaluate tBDFS over multiple link prediction tasks and show its favorable performance compared to state-of-the-art baselines. To the best of our knowledge, we are the first to apply a temporal-DFS neural network.
翻訳日:2022-06-14 16:32:08 公開日:2022-06-12
# OoDアルゴリズムにおけるデータ品質変動に対する正規化ペナルティ最適化

Regularization Penalty Optimization for Addressing Data Quality Variance in OoD Algorithms ( http://arxiv.org/abs/2206.05749v1 )

ライセンス: Link先を確認
Runpeng Yu, Hong Zhu, Kaican Li, Lanqing Hong, Rui Zhang, Nanyang Ye, Shao-Lun Huang, Xiuqiang He(参考訳) 分散シフト時の従来の経験的リスク最小化(ERM)の一般化性能が低かったため,OoD(Out-of-Distribution)一般化アルゴリズムに注目が集まるようになった。 しかし、ood一般化アルゴリズムはトレーニングデータの品質に大きなばらつきを見落としており、これらの方法の精度を著しく損なう。 本稿では,トレーニングデータ品質とアルゴリズム性能の関係を理論的に明らかにし,リプシッツ正則化不変リスク最小化の最適正則化スキームを解析した。 サンプルレベルとドメインレベルの両方における低品質データの影響を緩和する理論的な結果に基づいて,新しいアルゴリズムを提案する。 回帰と分類のベンチマーク実験は,統計的に有意な手法の有効性を検証した。

Due to the poor generalization performance of traditional empirical risk minimization (ERM) in the case of distributional shift, Out-of-Distribution (OoD) generalization algorithms receive increasing attention. However, OoD generalization algorithms overlook the great variance in the quality of training data, which significantly compromises the accuracy of these methods. In this paper, we theoretically reveal the relationship between training data quality and algorithm performance and analyze the optimal regularization scheme for Lipschitz regularized invariant risk minimization. A novel algorithm is proposed based on the theoretical results to alleviate the influence of low-quality data at both the sample level and the domain level. The experiments on both the regression and classification benchmarks validate the effectiveness of our method with statistical significance.
翻訳日:2022-06-14 16:31:45 公開日:2022-06-12
# IWSLT 2022オフライン共有タスクのためのYiTransエンドツーエンド音声翻訳システム

The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline Shared Task ( http://arxiv.org/abs/2206.05777v1 )

ライセンス: Link先を確認
Ziqiang Zhang, Junyi Ao, Shujie Liu, Furu Wei, Jinyu Li(参考訳) 本稿では、英語音声からドイツ語、中国語、日本語への翻訳を行うIWSLT 2022オフラインタスクに対して、エンドツーエンドのYiTrans音声翻訳システムの提出について述べる。 YiTransシステムは、大規模な訓練済みエンコーダデコーダモデルに基づいている。 より具体的には、ラベル付きおよびラベルなしの大量のデータを持つマルチモダリティモデルを構築するために、まず、マルチステージ事前学習戦略を設計する。 次に、下流音声翻訳タスクに対応するモデルのコンポーネントを微調整する。 さらに,データフィルタリングやデータ拡張,音声セグメンテーション,モデルアンサンブルなど,パフォーマンス向上のための様々な取り組みを行う。 実験の結果,YiTransシステムは3つの翻訳方向の強いベースラインよりも大幅に改善され,tst2021英語-ドイツ語における昨年の最適エンドツーエンドシステムに比べて,+5.2BLEUの改善が達成された。 最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンドツーエンドシステムにランク付けする。 コードとモデルを公開しています。

This paper describes the submission of our end-to-end YiTrans speech translation system for the IWSLT 2022 offline task, which translates from English audio to German, Chinese, and Japanese. The YiTrans system is built on large-scale pre-trained encoder-decoder models. More specifically, we first design a multi-stage pre-training strategy to build a multi-modality model with a large amount of labeled and unlabeled data. We then fine-tune the corresponding components of the model for the downstream speech translation tasks. Moreover, we make various efforts to improve performance, such as data filtering, data augmentation, speech segmentation, model ensemble, and so on. Experimental results show that our YiTrans system obtains a significant improvement than the strong baseline on three translation directions, and it achieves +5.2 BLEU improvements over last year's optimal end-to-end system on tst2021 English-German. Our final submissions rank first on English-German and English-Chinese end-to-end systems in terms of the automatic evaluation metric. We make our code and models publicly available.
翻訳日:2022-06-14 15:56:05 公開日:2022-06-12
# CoSe-Co:テキスト条件付き生成コモンセンスコンテクストアライザ

CoSe-Co: Text Conditioned Generative CommonSense Contextualizer ( http://arxiv.org/abs/2206.05706v1 )

ライセンス: Link先を確認
Rachit Bansal, Milan Aggarwal, Sumit Bhatia, Jivat Neet Kaur and Balaji Krishnamurthy(参考訳) 事前訓練された言語モデル(PTLM)は、自然言語のタスクでうまく機能することが示されている。 多くの先行研究は、PTLMを支援するために知識グラフ(KG)のラベル付き関係を通してリンクされたエンティティの形で存在する構造化コモンセンスを活用している。 検索アプローチではKGを独立した静的モジュールとして使用し、KGは有限知識を含むためカバレッジを制限する。 生成法は知識が得られるスケールを改善するためにkgトリプルでptlmを訓練する。 しかしながら、シンボリックkgエンティティのトレーニングは、全体的なコンテキストを無視する自然言語テキストを含むタスクの適用性を制限する。 そこで本研究では,入力文として文を条件としたコモンセンス・コンテクストライザ (cose-co) を提案する。 CoSe-Coを訓練するために,文とコモンセンス知識ペアからなる新しいデータセットを提案する。 CoSe-Coによって推測される知識は多様であり、基礎となるKGには存在しない新しい実体を含んでいる。 我々は、CSQA、ARC、QASC、OBQAデータセットの現在のベストメソッドの改善につながるマルチコースQAおよびオープンエンドCommonSense Reasoningタスクで生成された知識を増強する。 また,パラフレーズ生成タスクのベースラインモデルの性能向上にも有効であることを示す。

Pre-trained Language Models (PTLMs) have been shown to perform well on natural language tasks. Many prior works have leveraged structured commonsense present in the form of entities linked through labeled relations in Knowledge Graphs (KGs) to assist PTLMs. Retrieval approaches use KG as a separate static module which limits coverage since KGs contain finite knowledge. Generative methods train PTLMs on KG triples to improve the scale at which knowledge can be obtained. However, training on symbolic KG entities limits their applicability in tasks involving natural language text where they ignore overall context. To mitigate this, we propose a CommonSense Contextualizer (CoSe-Co) conditioned on sentences as input to make it generically usable in tasks for generating knowledge relevant to the overall context of input text. To train CoSe-Co, we propose a novel dataset comprising of sentence and commonsense knowledge pairs. The knowledge inferred by CoSe-Co is diverse and contain novel entities not present in the underlying KG. We augment generated knowledge in Multi-Choice QA and Open-ended CommonSense Reasoning tasks leading to improvements over current best methods on CSQA, ARC, QASC and OBQA datasets. We also demonstrate its applicability in improving performance of a baseline model for paraphrase generation task.
翻訳日:2022-06-14 15:37:41 公開日:2022-06-12
# APT-36K:動物行動推定と追跡のための大規模ベンチマーク

APT-36K: A Large-scale Benchmark for Animal Pose Estimation and Tracking ( http://arxiv.org/abs/2206.05683v1 )

ライセンス: Link先を確認
Yuxiang Yang, Junjie Yang, Yufei Xu, Jing Zhang, Long Lan, Dacheng Tao(参考訳) 動物のポーズ推定と追跡(APT)は、一連のビデオフレームから動物のキーポイントを検出し、追跡するための基本的なタスクである。 従来の動物関連データセットは、動物追跡と単一フレーム動物のポーズ推定に重点を置いており、どちらの面も対象としていない。 aptデータセットの欠如は、ビデオベースの動物のポーズ推定と追跡手法の開発と評価を阻害し、野生動物保護における動物行動の理解など、現実世界の応用を制限する。 このギャップを埋めるため,動物ポーズ推定と追跡のための最初の大規模ベンチマークであるAPT-36Kを提案する。 具体的には、apt-36kは30種の動物から収集された2400本のビデオクリップからなり、それぞれ15フレームの動画が撮影され、合計で36,000フレームとなる。 手動のアノテーションと注意深いダブルチェックの後、すべての動物インスタンスに対して高品質なキーポイントとトラッキングアノテーションが提供される。 APT-36Kをベースとして,(1)ドメイン内およびドメイン間移動学習環境下での単一フレームでの動物ポーズ推定,(2)未確認動物に対する種間ドメイン一般化テスト,(3)動物追跡による動物ポーズ推定,の3つのトラックで代表的なモデルをベンチマークした。 実験の結果から,APT-36Kは動物のポーズ推定・追跡ベンチマークとして有用であり,今後の研究に新たな課題と機会を提供することを示す。 コードとデータセットはhttps://github.com/pandorgan/APT-36Kで公開される。

Animal pose estimation and tracking (APT) is a fundamental task for detecting and tracking animal keypoints from a sequence of video frames. Previous animal-related datasets focus either on animal tracking or single-frame animal pose estimation, and never on both aspects. The lack of APT datasets hinders the development and evaluation of video-based animal pose estimation and tracking methods, limiting real-world applications, e.g., understanding animal behavior in wildlife conservation. To fill this gap, we make the first step and propose APT-36K, i.e., the first large-scale benchmark for animal pose estimation and tracking. Specifically, APT-36K consists of 2,400 video clips collected and filtered from 30 animal species with 15 frames for each video, resulting in 36,000 frames in total. After manual annotation and careful double-check, high-quality keypoint and tracking annotations are provided for all the animal instances. Based on APT-36K, we benchmark several representative models on the following three tracks: (1) supervised animal pose estimation on a single frame under intra- and inter-domain transfer learning settings, (2) inter-species domain generalization test for unseen animals, and (3) animal pose estimation with animal tracking. Based on the experimental results, we gain some empirical insights and show that APT-36K provides a valuable animal pose estimation and tracking benchmark, offering new challenges and opportunities for future research. The code and dataset will be made publicly available at https://github.com/pandorgan/APT-36K.
翻訳日:2022-06-14 15:30:08 公開日:2022-06-12
# ギャップを狭める - ノイズの多いロケーションアノテーションによる検出トレーニングの改善

Narrowing the Gap: Improved Detector Training with Noisy Location Annotations ( http://arxiv.org/abs/2206.05708v1 )

ライセンス: Link先を確認
Shaoru Wang, Jin Gao, Bing Li, Weiming Hu(参考訳) ディープラーニング手法はパラメータを最適化するために大量の注釈付きデータを必要とする。 例えば、正確なバウンディングボックスアノテーションが付属するデータセットは、現代のオブジェクト検出タスクに不可欠である。 しかし,このような画素精度のラベル付けは手間がかかり,時間を要するため,注記レビューや受入テストなど,人工雑音の低減には精巧なラベル付け手順が不可欠である。 本稿では,物体検出手法の性能に及ぼすノイズの多い位置アノテーションの影響に着目し,ユーザ側ではノイズの悪影響を低減することを目的とする。 第1に、バウンディングボックスアノテーションにノイズが導入されたとき、1段と2段の両方で顕著な性能劣化を実験的に観察する。 例えば、我々の合成ノイズは、COCO試験におけるFCOS検出器では38.9%のAPから33.6%のAPに、高速R-CNNでは37.8%のAPから33.7%のAPに性能が低下する。 第二に,教師-学生学習パラダイムに基づくノイズの多い位置アノテーションをよりよく活用するために,ベイズフィルタによる予測アンサンブルに基づく自己補正手法を提案する。 合成シナリオと実世界のシナリオの両方に対する実験は一貫して、fcos検出器の性能を33.6%から35.6%に向上させる手法の有効性を実証している。

Deep learning methods require massive of annotated data for optimizing parameters. For example, datasets attached with accurate bounding box annotations are essential for modern object detection tasks. However, labeling with such pixel-wise accuracy is laborious and time-consuming, and elaborate labeling procedures are indispensable for reducing man-made noise, involving annotation review and acceptance testing. In this paper, we focus on the impact of noisy location annotations on the performance of object detection approaches and aim to, on the user side, reduce the adverse effect of the noise. First, noticeable performance degradation is experimentally observed for both one-stage and two-stage detectors when noise is introduced to the bounding box annotations. For instance, our synthesized noise results in performance decrease from 38.9% AP to 33.6% AP for FCOS detector on COCO test split, and 37.8%AP to 33.7%AP for Faster R-CNN. Second, a self-correction technique based on a Bayesian filter for prediction ensemble is proposed to better exploit the noisy location annotations following a Teacher-Student learning paradigm. Experiments for both synthesized and real-world scenarios consistently demonstrate the effectiveness of our approach, e.g., our method increases the degraded performance of the FCOS detector from 33.6% AP to 35.6% AP on COCO.
翻訳日:2022-06-14 15:29:40 公開日:2022-06-12
# 多未来歩行者軌跡予測のためのメモリリプレイ付きグラフ型空間トランス

Graph-based Spatial Transformer with Memory Replay for Multi-future Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2206.05712v1 )

ライセンス: Link先を確認
Lihuan Li, Maurice Pagnucco, Yang Song(参考訳) 歩行者の軌道予測は、自律運転やロボットの動き計画など、様々な現実の応用に不可欠な課題である。 一つの将来の経路を生成することに加えて、軌道予測に関する最近の研究で、複数の可算な将来の経路を予測することが人気になっている。 しかし、既存の方法は歩行者と周辺地域の空間的相互作用を強調するが、予測の滑らかさや時間的一貫性を無視する。 本モデルでは,複数スケールグラフに基づく空間トランスフォーマーと,"メモリリプレイ"という軌跡平滑化アルゴリズムを組み合わせたメモリグラフを用いて,過去の軌跡に基づいて複数の経路を予測することを目的としている。 本手法は,空間情報を包括的に活用し,時間的に一貫性のない軌道(シャープターンなど)を補正する。 また,多様なマルチフューチャー予測の包括性を評価するために,'Percentage of Trajectory Usage'という新たな評価指標も提案する。 提案手法は, 複数未来予測における最先端性能と, 単一未来予測のための競合結果を実現する。 https://github.com/Jacobieee/ST-MRでリリースされた。

Pedestrian trajectory prediction is an essential and challenging task for a variety of real-life applications such as autonomous driving and robotic motion planning. Besides generating a single future path, predicting multiple plausible future paths is becoming popular in some recent work on trajectory prediction. However, existing methods typically emphasize spatial interactions between pedestrians and surrounding areas but ignore the smoothness and temporal consistency of predictions. Our model aims to forecast multiple paths based on a historical trajectory by modeling multi-scale graph-based spatial transformers combined with a trajectory smoothing algorithm named ``Memory Replay'' utilizing a memory graph. Our method can comprehensively exploit the spatial information as well as correct the temporally inconsistent trajectories (e.g., sharp turns). We also propose a new evaluation metric named ``Percentage of Trajectory Usage'' to evaluate the comprehensiveness of diverse multi-future predictions. Our extensive experiments show that the proposed model achieves state-of-the-art performance on multi-future prediction and competitive results for single-future prediction. Code released at https://github.com/Jacobieee/ST-MR.
翻訳日:2022-06-14 15:28:22 公開日:2022-06-12
# 対象検出に新たなカテゴリを追加するオブジェクト排除

Object Occlusion Of Adding New Category In Objection Detection ( http://arxiv.org/abs/2206.05730v1 )

ライセンス: Link先を確認
Boyang Deng, Meiyan Lin, and Shoulun Long(参考訳) データ効率が高く、まれなオブジェクトカテゴリを処理可能なインスタンス検出モデルの構築は、コンピュータビジョンの重要な課題である。 しかし、データ収集手法とメトリクスは、ニューラルネットワークを使った実際のシナリオアプリケーションに対する研究の欠如である。 そこで我々は,対象シナリオにおけるオブジェクト閉塞関係を模倣するオブジェクト閉塞データ収集と拡張手法の体系的研究を行った。 しかし、オブジェクトの閉塞の単純なメカニズムは十分十分であり、新しいカテゴリを追加する実際のシナリオで許容できる精度を提供することができる。 私たちは、50万のトレーニングデータセットに15のカテゴリのイメージを追加するだけで、このカテゴリの何千ものイメージを含む未発見のテストデータセットにおいて、95%の精度をこのカテゴリに与えることができると結論付けている。

Building instance detection models that are data efficient and can handle rare object categories is an important challenge in computer vision. But data collection methods and metrics are lack of research towards real scenarios application using neural network. Here, we perform a systematic study of the Object Occlusion data collection and augmentation methods where we imitate object occlusion relationship in target scenarios. However, we find that the simple mechanism of object occlusion is good enough and can provide acceptable accuracy in real scenarios adding new category. We illustate that only adding 15 images of new category in a half million training dataset with hundreds categories, can give this new category 95% accuracy in unseen test dataset including thousands of images of this category.
翻訳日:2022-06-14 15:28:02 公開日:2022-06-12
# 強化学習, 量子応答平衡, 2プレイヤーゼロサムゲームへの統一的アプローチ

A Unified Approach to Reinforcement Learning, Quantal Response Equilibria, and Two-Player Zero-Sum Games ( http://arxiv.org/abs/2206.05825v1 )

ライセンス: Link先を確認
Samuel Sokota, Ryan D'Orazio, J. Zico Kolter, Nicolas Loizou, Marc Lanctot, Ioannis Mitliagkas, Noam Brown, Christian Kroer(参考訳) シングルエージェント強化学習(RL)用に設計されたアルゴリズムは、一般に2プレイヤーゼロサム(2p0s)ゲームにおいて平衡に収束しない。 逆に、2p0sゲームにおけるナッシュと量子応答平衡(QRE)を近似するゲーム理論アルゴリズムは、通常RLと競合せず、スケールが難しい。 結果として、これらの2つのケースのアルゴリズムは一般に個別に開発・評価される。 本研究では,磁気ミラー降下 (mmd) と呼ばれる近位正規化を持つミラー降下の単純な拡張である単一アルゴリズムが,その基本的な違いにもかかわらず,両方の設定において強い結果をもたらすことを示す。 理論的観点からは、mmd が拡張形式のゲームにおいて qre に線形収束することを証明する。 さらに,表型ナッシュ均衡解法として自己遊びを通じて適用することで,mmdが通常のゲームと広範囲のゲームの両方においてcfrと競合し,完全なフィードバック(これは標準のrlアルゴリズムが初めて行ったことであり,経験的にブラックボックスのフィードバック設定に収束することを示す。 さらに,シングルエージェントディープRLでは,アタリゲームやムジョコゲームなどの小さなコレクションにおいて,MDDがPPOと競合する結果が得られることを示す。 最後に,マルチエージェント深部RLの場合,MDDは3x3のAbrupt Dark HexにおいてNFSPより優れることを示す。

Algorithms designed for single-agent reinforcement learning (RL) generally fail to converge to equilibria in two-player zero-sum (2p0s) games. Conversely, game-theoretic algorithms for approximating Nash and quantal response equilibria (QREs) in 2p0s games are not typically competitive for RL and can be difficult to scale. As a result, algorithms for these two cases are generally developed and evaluated separately. In this work, we show that a single algorithm -- a simple extension to mirror descent with proximal regularization that we call magnetic mirror descent (MMD) -- can produce strong results in both settings, despite their fundamental differences. From a theoretical standpoint, we prove that MMD converges linearly to QREs in extensive-form games -- this is the first time linear convergence has been proven for a first order solver. Moreover, applied as a tabular Nash equilibrium solver via self-play, we show empirically that MMD produces results competitive with CFR in both normal-form and extensive-form games with full feedback (this is the first time that a standard RL algorithm has done so) and also that MMD empirically converges in black-box feedback settings. Furthermore, for single-agent deep RL, on a small collection of Atari and Mujoco games, we show that MMD can produce results competitive with those of PPO. Lastly, for multi-agent deep RL, we show MMD can outperform NFSP in 3x3 Abrupt Dark Hex.
翻訳日:2022-06-14 15:05:39 公開日:2022-06-12
# 保守的自然政策グラディエント原始双対アルゴリズムによる拘束強化学習のためのゼロ拘束換気の実現

Achieving Zero Constraint Violation for Constrained Reinforcement Learning via Conservative Natural Policy Gradient Primal-Dual Algorithm ( http://arxiv.org/abs/2206.05850v1 )

ライセンス: Link先を確認
Qinbo Bai and Amrit Singh Bedi and Vaneet Aggarwal(参考訳) 制約条件を満たす累積報酬の最大化を目標とする連続状態行動空間における制約付きマルコフ決定プロセス(CMDP)の問題点を考察する。 目的値関数の収束結果の状態を達成しつつ制約違反をゼロにするための,新しい保存的自然政策勾配基本双対アルゴリズム(c-npg-pd)を提案する。 一般政策パラメトリゼーションでは、制約されたポリシークラスによる近似誤差まで、値関数のグローバル最適値への収束が証明される。 既存の制約付きNPG-PDアルゴリズムのサンプル複雑性も$\mathcal{O}(1/\epsilon^6)$から$\mathcal{O}(1/\epsilon^4)$へと改善する。 我々の知る限りでは、無限の地平線割引CMDPに対する自然ポリシー勾配型アルゴリズムによる制約違反をゼロにする最初の試みである。 提案アルゴリズムの利点を実験的評価により実証する。

We consider the problem of constrained Markov decision process (CMDP) in continuous state-actions spaces where the goal is to maximize the expected cumulative reward subject to some constraints. We propose a novel Conservative Natural Policy Gradient Primal-Dual Algorithm (C-NPG-PD) to achieve zero constraint violation while achieving state of the art convergence results for the objective value function. For general policy parametrization, we prove convergence of value function to global optimal upto an approximation error due to restricted policy class. We even improve the sample complexity of existing constrained NPG-PD algorithm \cite{Ding2020} from $\mathcal{O}(1/\epsilon^6)$ to $\mathcal{O}(1/\epsilon^4)$. To the best of our knowledge, this is the first work to establish zero constraint violation with Natural policy gradient style algorithms for infinite horizon discounted CMDPs. We demonstrate the merits of proposed algorithm via experimental evaluations.
翻訳日:2022-06-14 15:05:12 公開日:2022-06-12
# コンシスタントアタック: 身体視ナビゲーションにおける普遍的対人摂動

Consistent Attack: Universal Adversarial Perturbation on Embodied Vision Navigation ( http://arxiv.org/abs/2206.05751v1 )

ライセンス: Link先を確認
You Qiaoben, Chengyang Ying, Xinning Zhou, Hang Su, Jun Zhu, Bo Zhang(参考訳) 深層ニューラルネットワークと組み合わされた視覚ナビゲーションの具体化エージェントが注目を集めている。 しかし、ディープニューラルネットワークは悪意のある敵のノイズに弱いため、身体視覚ナビゲーションの破滅的な障害を引き起こす可能性がある。 これらの対向ノイズの中で、ユニバーサル対向摂動(UAP)、すなわちエージェントが受信した各フレームに適用される画像非依存の摂動は、攻撃中は計算効率が高く、応用実践的であるため、身体的視覚ナビゲーションにとってより重要となる。 しかし、既存のUAP手法では、エンボダイド・ビジョン・ナビゲーションのシステム力学を考慮していない。 逐次決定設定でUAPを拡張するためには、乱れた環境を$\delta$-disturbed Markov Decision Process($\delta$-MDP)としてユニバーサルノイズ$\delta$で定式化する。 この定式化に基づき,$\delta$-mdpの特性を解析し,乱れq関数と乱れ分布を推定し,まずmdpのダイナミックを考慮し,具体化剤を攻撃するための2つの新しい一貫した攻撃法を提案する。 被害モデルにもかかわらず、我々のコンスタントアタックは生息地におけるゴールポイントタスクのパフォーマンスを著しく低下させる可能性がある。 広範な実験結果から,実世界に具体的視覚ナビゲーション手法を適用するリスクが存在する可能性が示唆された。

Embodied agents in vision navigation coupled with deep neural networks have attracted increasing attention. However, deep neural networks are vulnerable to malicious adversarial noises, which may potentially cause catastrophic failures in Embodied Vision Navigation. Among these adversarial noises, universal adversarial perturbations (UAP), i.e., the image-agnostic perturbation applied on each frame received by the agent, are more critical for Embodied Vision Navigation since they are computation-efficient and application-practical during the attack. However, existing UAP methods do not consider the system dynamics of Embodied Vision Navigation. For extending UAP in the sequential decision setting, we formulate the disturbed environment under the universal noise $\delta$, as a $\delta$-disturbed Markov Decision Process ($\delta$-MDP). Based on the formulation, we analyze the properties of $\delta$-MDP and propose two novel Consistent Attack methods for attacking Embodied agents, which first consider the dynamic of the MDP by estimating the disturbed Q function and the disturbed distribution. In spite of victim models, our Consistent Attack can cause a significant drop in the performance for the Goalpoint task in habitat. Extensive experimental results indicate that there exist potential risks for applying Embodied Vision Navigation methods to the real world.
翻訳日:2022-06-14 14:58:42 公開日:2022-06-12
# デュアルストリームネットワークによるがん予後診断のための全スライディング画像ピラミッドの再検討

Revisiting Whole-Slide Image Pyramids for Cancer Prognosis via Dual-Stream Networks ( http://arxiv.org/abs/2206.05782v1 )

ライセンス: Link先を確認
Pei Liu, Bo Fu, Feng Ye, Rui Yang, Bin Xu, and Luping Ji(参考訳) ギガピクセル全スライド画像(WSI)のガン予後は、常に困難な課題である。 既存のアプローチのほとんどは、シングルレゾリューションイメージのみに焦点を当てている。 画像ピラミッドを利用してWSIの視覚表現を強化するマルチ解像度方式は、まだ十分に注目されていない。 本稿では,がんの予後を精度良くするためのマルチレゾリューションソリューションを検討するために,画像ピラミッド戦略を用いてwsisをモデル化するデュアルストリームアーキテクチャを提案する。 このアーキテクチャは2つのサブストリームで構成されており、1つは低解像度のwsis用、もう1つは特に高解像度のwsis用である。 他のアプローチと比較して、我々のスキームには3つのハイライトがある。 (i) ストリームと解像度の間には一対一の関係がある。 (ii)2つの解像度ストリームからのパッチを整列するために正方形プーリング層を追加し、計算コストを大幅に削減し、自然なストリーム特徴融合を可能にする。 (iii) 低分解能パッチの誘導下で空間的に高分解能パッチをプールするクロスアテンションベース手法を提案する。 患者1,911人のうち3,101人のWSIを公開データセットで検証した。 その結果,(1)階層的二重ストリーム表現は,癌予後において単一ストリームよりも有効であり,1つの低分解能・高分解能ストリームにおいて平均5.0%,1.8%のc-index上昇が得られること,(2)このデュアルストリームスキームは,c-indexの平均5.1%の改善によって,現在の最先端ストリームを上回ることができること,(3)可観測生存率の差があるがん疾患は,モデルの複雑さに対して異なる好みを持つ可能性があること,などが検証された。 提案手法は,wsiの予後研究をさらに促進するための代替ツールとして有用であると考えられる。

The cancer prognosis on gigapixel Whole-Slide Images (WSIs) has always been a challenging task. Most existing approaches focus solely on single-resolution images. The multi-resolution schemes, utilizing image pyramids to enhance WSI visual representations, have not yet been paid enough attention to. In order to explore a multi-resolution solution for improving cancer prognosis accuracy, this paper proposes a dual-stream architecture to model WSIs by an image pyramid strategy. This architecture consists of two sub-streams: one is for low-resolution WSIs, and the other is especially for high-resolution ones. Compared to other approaches, our scheme has three highlights: (i) there exists a one-to-one relation between stream and resolution; (ii) a square pooling layer is added to align the patches from two resolution streams, largely reducing computation cost and enabling a natural stream feature fusion; (iii) a cross-attention-based method is proposed to pool high-resolution patches spatially under the guidance of low-resolution ones. We validate our scheme on three publicly-available datasets, a total number of 3,101 WSIs from 1,911 patients. Experimental results verify that (1) hierarchical dual-stream representation is more effective than single-stream ones for cancer prognosis, gaining an average C-Index rise of 5.0% and 1.8% on a single low-resolution and high-resolution stream, respectively; (2) our dual-stream scheme could outperform current state-of-the-art ones, by a 5.1% average improvement of C-Index; (3) the cancer diseases with observable survival differences could have different preferences for model complexity. Our scheme could serve as an alternative tool for further facilitating WSI prognosis research.
翻訳日:2022-06-14 14:58:16 公開日:2022-06-12
# ニューラルネットワークのスパース化と圧縮のための有向進化法 : オブジェクト識別とセグメンテーションへの応用と小ビット数を用いた最適量子化の検討

A Directed-Evolution Method for Sparsification and Compression of Neural Networks with Application to Object Identification and Segmentation and considerations of optimal quantization using small number of bits ( http://arxiv.org/abs/2206.05859v1 )

ライセンス: Link先を確認
Luiz M Franca-Neto(参考訳) 本研究は,ネットワークの精度に対するパラメータの関連性を直接評価し,仮にゼロになった場合の精度に最も影響を及ぼさないパラメータを実際にゼロにする,ニューラルネットワークのスパーシフィケーションのための有向進化法(de法)を提案する。 DE法は、自然界の進化を模倣して、大きなネットワークでゼロになる可能性のある全てのパラメータの候補集合の組合せ爆発を避ける。 DEは蒸留コンテキスト[5]を使用する。 この文脈では、元のネットワークは教師であり、DECは教師と生徒の最小分散を維持しながら、学生ニューラルネットワークをスパーシフィケーション目標に進化させる。 DEによりネットワークの各層に所望のスパシフィケーションレベルに達した後、生き残ったパラメータに対して様々な量子化代替手段を使用して、許容される精度の損失で表現の最低ビット数を求める。 各スパシファイド層における量子化レベルの最適分布を求める方法を示す。 残余量子化パラメータの適切なロスレス符号化は、最終パラメータ表現に使用される。 DEは、MNIST、FashionMNIST、および進歩的な大規模ネットワークを持つCOCOデータセットを用いて、代表的ニューラルネットワークのサンプルとして使用された。 COCOデータセットでトレーニングされた6000万以上のパラメータを持つ80クラスのYOLOv3は、90%のスパーシフィケーションに達し、4ビットのパラメータ量子化を使用して80%以上の信頼性を持つ元のネットワークで特定されたすべてのオブジェクトを正しく識別し、セグメント化する。 40倍から80倍の圧縮。 異なるメソッドのテクニックをネストできることは、著者らから逃れられていない。 DEのサイクルでスパーシフィケーションのための最良のパラメータセットが特定されると、パラメータ等級とヘッセン近似のような基準の組み合わせを用いて、それらのパラメータのサブセットのみをゼロにする決定を行うことができる。

This work introduces Directed-Evolution (DE) method for sparsification of neural networks, where the relevance of parameters to the network accuracy is directly assessed and the parameters that produce the least effect on accuracy when tentatively zeroed are indeed zeroed. DE method avoids a potentially combinatorial explosion of all possible candidate sets of parameters to be zeroed in large networks by mimicking evolution in the natural world. DE uses a distillation context [5]. In this context, the original network is the teacher and DE evolves the student neural network to the sparsification goal while maintaining minimal divergence between teacher and student. After the desired sparsification level is reached in each layer of the network by DE, a variety of quantization alternatives are used on the surviving parameters to find the lowest number of bits for their representation with acceptable loss of accuracy. A procedure to find optimal distribution of quantization levels in each sparsified layer is presented. Suitable final lossless encoding of the surviving quantized parameters is used for the final parameter representation. DE was used in sample of representative neural networks using MNIST, FashionMNIST and COCO data sets with progressive larger networks. An 80 classes YOLOv3 with more than 60 million parameters network trained on COCO dataset reached 90% sparsification and correctly identifies and segments all objects identified by the original network with more than 80% confidence using 4bit parameter quantization. Compression between 40x and 80x. It has not escaped the authors that techniques from different methods can be nested. Once the best parameter set for sparsification is identified in a cycle of DE, a decision on zeroing only a sub-set of those parameters can be made using a combination of criteria like parameter magnitude and Hessian approximations.
翻訳日:2022-06-14 14:57:44 公開日:2022-06-12
# ランダム重み付きエコー状態ネットワークの普遍性と近似境界

Universality and approximation bounds for echo state networks with random weights ( http://arxiv.org/abs/2206.05669v1 )

ライセンス: Link先を確認
Zhen Li, Yunfei Yang(参考訳) 内部重みをランダムに生成したエコー状態ネットワークの均一近似について検討した。 これらのモデルは、トレーニング中に読み出し重量だけを最適化するものであり、動的システムを学ぶ上で経験的な成功を収めた。 弱条件下での普遍性を示すことによって、これらのモデルの表現能力に対処する。 本研究の主な結果は、活性化関数と内部重みのサンプリング手順について十分な条件を与え、エコー状態ネットワークは、高い確率で任意の連続的なカジュアル時間不変作用素を近似できる。 特に、ReLUアクティベーションにおいて、十分な正規演算子に対するエコー状態ネットワークの近似誤差を定量化する。

We study the uniform approximation of echo state networks with randomly generated internal weights. These models, in which only the readout weights are optimized during training, have made empirical success in learning dynamical systems. We address the representational capacity of these models by showing that they are universal under weak conditions. Our main result gives a sufficient condition for the activation function and a sampling procedure for the internal weights so that echo state networks can approximate any continuous casual time-invariant operators with high probability. In particular, for ReLU activation, we quantify the approximation error of echo state networks for sufficiently regular operators.
翻訳日:2022-06-14 14:54:58 公開日:2022-06-12
# マージナルフェアネスによる節間フェアネスの境界と近似

Bounding and Approximating Intersectional Fairness through Marginal Fairness ( http://arxiv.org/abs/2206.05828v1 )

ライセンス: Link先を確認
Mathieu Molina, Patrick Loiseau(参考訳) マシンラーニングにおける差別は、多くの場合、複数の次元(すなわち保護された属性)に沿って発生する。 独立にすべての次元に対する \emph{marginal fairness} の保証は一般には不十分であることが知られている。 しかし、指数関数的な部分群の数のため、データからの交叉フェアネスを直接測定することは不可能である。 本稿では,辺縁と交叉フェアネスの関係を統計解析によって詳細に理解することを目的とする。 まず、正確な関係が得られる十分条件のセットを同定する。 すると、一般の場合の交叉フェアネスに高い確率で有界(端値等有意な統計量により容易に計算できる)を証明できる。 それらの記述値の他に、これらの理論的境界は、交叉部分群を記述する保護属性を選択することで、交叉フェアネスの近似と有界性を改善するヒューリスティックを導出するために活用できることを示す。 最後に,実データと合成データセットの近似と境界の性能を検証した。

Discrimination in machine learning often arises along multiple dimensions (a.k.a. protected attributes); it is then desirable to ensure \emph{intersectional fairness} -- i.e., that no subgroup is discriminated against. It is known that ensuring \emph{marginal fairness} for every dimension independently is not sufficient in general. Due to the exponential number of subgroups, however, directly measuring intersectional fairness from data is impossible. In this paper, our primary goal is to understand in detail the relationship between marginal and intersectional fairness through statistical analysis. We first identify a set of sufficient conditions under which an exact relationship can be obtained. Then, we prove bounds (easily computable through marginal fairness and other meaningful statistical quantities) in high-probability on intersectional fairness in the general case. Beyond their descriptive value, we show that these theoretical bounds can be leveraged to derive a heuristic improving the approximation and bounds of intersectional fairness by choosing, in a relevant manner, protected attributes for which we describe intersectional subgroups. Finally, we test the performance of our approximations and bounds on real and synthetic data-sets.
翻訳日:2022-06-14 14:28:20 公開日:2022-06-12
# PD-DWI : 生理学的に解離した拡散強調MRI機械学習モデルを用いた浸潤乳癌に対する新補助化学療法の効果予測

PD-DWI: Predicting response to neoadjuvant chemotherapy in invasive breast cancer with Physiologically-Decomposed Diffusion-Weighted MRI machine-learning model ( http://arxiv.org/abs/2206.05695v1 )

ライセンス: Link先を確認
Maya Gilad and Moti Freiman(参考訳) 乳癌に対するneoadjuvant chemotherapy(nac)後の病理完全反応(pcr)の早期予測は,手術計画と治療戦略の最適化において重要な役割を担っている。 近年, ダイナミックコントラスト強調MRIと拡散強調MRI(DWI)を併用したマルチパラメトリックMRI(mp-MRI)データから, 早期pCR予測のための機械学習法とディープラーニング法が提案されている。 DWIと臨床データからpCRを予測するための生理学的に分解されたDWI機械学習モデルPD-DWIを紹介する。 まずDWI信号に影響を及ぼす様々な生理的手がかりに生のDWIデータを分解し,臨床変数に加えて分解したデータをXGBoostモデルの入力特性として利用する。 NAC応答(BMMR2)課題の予測にBreast Multi-parametric MRIを用いたmp-MRIデータからのpCR予測に対する従来の機械学習手法と比較して,PD-DWIモデルの付加価値を実証した。 本モデルでは,挑戦テストセットのリーダーボード (0.8849 vs. 0.8397) における現在の最良の結果と比較して,曲線下面積(AUC)を大幅に改善する。 PD-DWIは、乳がんに対するNAC後のpCRの予測を改善し、全体的なmp-MRI取得時間を短縮し、造影剤注入の必要性をなくす可能性がある。

Early prediction of pathological complete response (pCR) following neoadjuvant chemotherapy (NAC) for breast cancer plays a critical role in surgical planning and optimizing treatment strategies. Recently, machine and deep-learning based methods were suggested for early pCR prediction from multi-parametric MRI (mp-MRI) data including dynamic contrast-enhanced MRI and diffusion-weighted MRI (DWI) with moderate success. We introduce PD-DWI, a physiologically decomposed DWI machine-learning model to predict pCR from DWI and clinical data. Our model first decomposes the raw DWI data into the various physiological cues that are influencing the DWI signal and then uses the decomposed data, in addition to clinical variables, as the input features of a radiomics-based XGBoost model. We demonstrated the added-value of our PD-DWI model over conventional machine-learning approaches for pCR prediction from mp-MRI data using the publicly available Breast Multi-parametric MRI for prediction of NAC Response (BMMR2) challenge. Our model substantially improves the area under the curve (AUC), compared to the current best result on the leaderboard (0.8849 vs. 0.8397) for the challenge test set. PD-DWI has the potential to improve prediction of pCR following NAC for breast cancer, reduce overall mp-MRI acquisition times and eliminate the need for contrast-agent injection.
翻訳日:2022-06-14 14:21:28 公開日:2022-06-12
# 変分ベイズディープ演算子ネットワーク:パラメトリック微分方程式に対するデータ駆動ベイズ解法

Variational Bayes Deep Operator Network: A data-driven Bayesian solver for parametric differential equations ( http://arxiv.org/abs/2206.05655v1 )

ライセンス: Link先を確認
Shailesh Garg and Souvik Chakraborty(参考訳) ニューラルネットワークベースのデータ駆動演算子学習スキームは、計算力学において大きな可能性を示している。 deeponetはそのようなニューラルネットワークアーキテクチャの1つで、優れた予測能力によって広く評価されている。 決定論的なフレームワークに設定されていると、過度に適合するリスク、一般化の貧弱なリスク、そしてその不変な形式によって、その予測に関連する不確実性が定量化できない、ということになる。 本稿では,演算子学習のための変分ベイズDeepONet(VB-DeepONet)を提案する。 ベイジアンフレームワークで設定されたニューラルネットワークの背景にある重要な考え方は、ニューラルネットワークの重みとバイアスが点推定ではなく確率分布として扱われ、ベイジアン推論が以前の分布を更新するために使用されることである。 さて、後方分布を近似する計算コストを管理するために、提案されているvb-deeponetは \textit{variational inference} を用いる。 マルコフ連鎖モンテカルロスキームとは異なり、変分推論は計算コストを低く保ちながら高次元の後方分布を考慮に入れることができる。 拡散反応, 重力振子, 対流拡散などの力学問題に関して, 提案したVB-DeepONetの性能を示す様々な例が示されており, 決定論的な枠組みによるDeepONet集合との比較も行われている。

Neural network based data-driven operator learning schemes have shown tremendous potential in computational mechanics. DeepONet is one such neural network architecture which has gained widespread appreciation owing to its excellent prediction capabilities. Having said that, being set in a deterministic framework exposes DeepONet architecture to the risk of overfitting, poor generalization and in its unaltered form, it is incapable of quantifying the uncertainties associated with its predictions. We propose in this paper, a Variational Bayes DeepONet (VB-DeepONet) for operator learning, which can alleviate these limitations of DeepONet architecture to a great extent and give user additional information regarding the associated uncertainty at the prediction stage. The key idea behind neural networks set in Bayesian framework is that, the weights and bias of the neural network are treated as probability distributions instead of point estimates and, Bayesian inference is used to update their prior distribution. Now, to manage the computational cost associated with approximating the posterior distribution, the proposed VB-DeepONet uses \textit{variational inference}. Unlike Markov Chain Monte Carlo schemes, variational inference has the capacity to take into account high dimensional posterior distributions while keeping the associated computational cost low. Different examples covering mechanics problems like diffusion reaction, gravity pendulum, advection diffusion have been shown to illustrate the performance of the proposed VB-DeepONet and comparisons have also been drawn against DeepONet set in deterministic framework.
翻訳日:2022-06-14 13:52:53 公開日:2022-06-12
# 動的負荷を受ける非線形土木構造物のSVDによる機械学習に基づく代理モデルの構築

Machine learning based surrogate modeling with SVD enabled training for nonlinear civil structures subject to dynamic loading ( http://arxiv.org/abs/2206.05720v1 )

ライセンス: Link先を確認
Siddharth S. Parida, Supratik Bose, Megan Butcher, Georgios Apostolakis, Prashant Shekhar(参考訳) 地震・パラメータの不確実性を考慮した有限要素モデルによる工学的要求パラメータ(EDP)の推定は,性能ベース地震工学フレームワークの使用を制限する。 FEモデルを代理モデルに置き換える試みがなされているが、これらのモデルのほとんどはパラメータのみを構築する関数である。 これはかつてサロゲートで見られなかった地震の再訓練を必要とする。 本稿では,これらの不確実性を考慮した機械学習に基づく代理モデルフレームワークを提案する。 したがって、地震は、代表的地動スイートのSVDを用いて計算された正則なベースで予測されることで特徴付けられる。 これにより、これらの重みをランダムにサンプリングし、基礎を乗じることで、多種多様な地震を発生させることができる。 重みと構成パラメータは、EDPを所望の出力とする機械学習モデルの入力として機能する。 4つの競合する機械学習モデルがテストされ、ディープニューラルネットワーク(DNN)が最も正確な予測を行った。 この枠組みは, 遠方運動の観測対象である棒モデルを用いて, 1階建てと3階建ての建物のピーク応答の予測に有効であることを示す。

The computationally expensive estimation of engineering demand parameters (EDPs) via finite element (FE) models, while considering earthquake and parameter uncertainty limits the use of the Performance Based Earthquake Engineering framework. Attempts have been made to substitute FE models with surrogate models, however, most of these models are a function of building parameters only. This necessitates re-training for earthquakes not previously seen by the surrogate. In this paper, the authors propose a machine learning based surrogate model framework, which considers both these uncertainties in order to predict for unseen earthquakes. Accordingly,earthquakes are characterized by their projections on an orthonormal basis, computed using SVD of a representative ground motion suite. This enables one to generate large varieties of earthquakes by randomly sampling these weights and multiplying them with the basis. The weights along with the constitutive parameters serve as inputs to a machine learning model with EDPs as the desired output. Four competing machine learning models were tested and it was observed that a deep neural network (DNN) gave the most accurate prediction. The framework is validated by using it to successfully predict the peak response of one-story and three-story buildings represented using stick models, subjected to unseen far-field ground motions.
翻訳日:2022-06-14 13:52:24 公開日:2022-06-12
# InBiaseD:インダクティブバイアス蒸留による形状認識による一般化とロバスト性の向上

InBiaseD: Inductive Bias Distillation to Improve Generalization and Robustness through Shape-awareness ( http://arxiv.org/abs/2206.05846v1 )

ライセンス: Link先を確認
Shruthi Gowda, Bahram Zonooz, Elahe Arani(参考訳) 人間は、より一般化と堅牢性をもたらすディープニューラルネットワークに比べて、スプリケートな相関やテクスチャのような自明な手がかりに頼らない。 これは、事前の知識や、脳に存在する高いレベルの認知誘発バイアスに起因する可能性がある。 したがって、ニューラルネットワークに有意義な帰納バイアスを導入することで、より汎用的でハイレベルな表現を学び、いくつかの欠点を軽減することができる。 本稿では,インダクティブバイアスを蒸留し,ニューラルネットワークに形状認識性をもたらすInBiaseDを提案する。 提案手法は,データ中の意図しない手がかりに弱いより汎用的な表現をネットワークに学習させることにより,一般化性能を向上させるバイアスアライメント目的を含む。 InBiaseDはショートカット学習の影響を受けにくく、テクスチャバイアスも低い。 より優れた表現は、敵攻撃に対するロバスト性の改善にも役立ち、従って既存の敵訓練スキームにInBiaseDをシームレスにプラグインし、一般化とロバスト性の間のトレードオフをより良く示す。

Humans rely less on spurious correlations and trivial cues, such as texture, compared to deep neural networks which lead to better generalization and robustness. It can be attributed to the prior knowledge or the high-level cognitive inductive bias present in the brain. Therefore, introducing meaningful inductive bias to neural networks can help learn more generic and high-level representations and alleviate some of the shortcomings. We propose InBiaseD to distill inductive bias and bring shape-awareness to the neural networks. Our method includes a bias alignment objective that enforces the networks to learn more generic representations that are less vulnerable to unintended cues in the data which results in improved generalization performance. InBiaseD is less susceptible to shortcut learning and also exhibits lower texture bias. The better representations also aid in improving robustness to adversarial attacks and we hence plugin InBiaseD seamlessly into the existing adversarial training schemes to show a better trade-off between generalization and robustness.
翻訳日:2022-06-14 13:36:54 公開日:2022-06-12
# PAC-Net:インダクティブトランスファー学習のためのモデルプランニングアプローチ

PAC-Net: A Model Pruning Approach to Inductive Transfer Learning ( http://arxiv.org/abs/2206.05703v1 )

ライセンス: Link先を確認
Sanghoon Myung, In Huh, Wonik Jang, Jae Myung Choe, Jisu Ryu, Dae Sin Kim, Kee-Eung Kim, Changwook Jeong(参考訳) インダクティブ転送学習は、ソースタスクから事前学習されたモデルを利用して、ターゲットタスクの少量のトレーニングデータから学習することを目的としている。 大規模ディープラーニングモデルを含む戦略のほとんどは、事前訓練されたモデルによる初期化と、目標タスクの微調整を採用する。 しかし、過パラメータ化モデルを使用する場合、ソースタスクの精度を犠牲にすることなく、しばしばモデルを実行することができる。 これにより、ディープラーニングモデルによるトランスファーラーニングにモデルプルーニングを採用するモチベーションが生まれます。 本稿では,プルーニングに基づく伝達学習のための簡易かつ効果的な手法であるPAC-Netを提案する。 PAC-NetはPrune、Allocate、Calibrate(PAC)の3つのステップで構成される。 これらのステップの背後にある主なアイデアは、ソースタスクの本質的な重みを識別し、本質的な重みを更新してソースタスクを微調整し、残りの冗長重みを更新してターゲットタスクを校正することである。 様々な多種多様な帰納的伝達学習実験において,本手法は最先端の性能を高いマージンで達成することを示す。

Inductive transfer learning aims to learn from a small amount of training data for the target task by utilizing a pre-trained model from the source task. Most strategies that involve large-scale deep learning models adopt initialization with the pre-trained model and fine-tuning for the target task. However, when using over-parameterized models, we can often prune the model without sacrificing the accuracy of the source task. This motivates us to adopt model pruning for transfer learning with deep learning models. In this paper, we propose PAC-Net, a simple yet effective approach for transfer learning based on pruning. PAC-Net consists of three steps: Prune, Allocate, and Calibrate (PAC). The main idea behind these steps is to identify essential weights for the source task, fine-tune on the source task by updating the essential weights, and then calibrate on the target task by updating the remaining redundant weights. Under the various and extensive set of inductive transfer learning experiments, we show that our method achieves state-of-the-art performance by a large margin.
翻訳日:2022-06-14 13:36:00 公開日:2022-06-12
# 混合型分布量に基づく意味整合性特徴配向オブジェクト検出モデル

A Semantic Consistency Feature Alignment Object Detection Model Based on Mixed-Class Distribution Metrics ( http://arxiv.org/abs/2206.05765v1 )

ライセンス: Link先を確認
Lijun Gou and Jinrong Yang and Hangcheng Yu and Pan Wang and Xiaoping Li and Chao Deng(参考訳) 教師なしドメイン適応は、オブジェクト検出、インスタンスのセグメンテーションなど、様々なコンピュータビジョンタスクにおいて重要である。 ドメインバイアスによるパフォーマンス低下を低減しつつ、モデルの適用速度も向上させようとしている。 ドメイン適応オブジェクト検出は、画像レベルとインスタンスレベルのシフトを調整して、最終的にドメインの差を最小化しようとするが、オブジェクト検出タスクの各イメージが複数のクラスとオブジェクトである可能性があるため、画像レベルのドメイン適応において、単一クラスの特徴を混合クラスの特徴に合わせることができる。 単一クラスアライメントと混合クラスアライメントを併用した単一クラスを実現するため、特徴の混合クラスを新しいクラスとして扱い、オブジェクト検出のための混合クラス$H-divergence$を提案し、同種特徴アライメントを実現し、負の移動を低減する。 次に、混合クラス$H-divergence$に基づくセマンティック一貫性特徴アライメントモデル(SCFAM)も提示した。 単一クラスと混合クラスの意味情報を改善し、意味分離を達成するために、scfamモデルは意味予測モデル(spm)と意味ブリッジコンポーネント(sbc)を提案する。 そして、SPM結果に基づいて画素ドメイン判別器損失の重みを変更し、サンプル不均衡を低減する。 広範な教師なしのドメイン適応実験 広く使用されるデータセットは、ドメインバイアス設定における提案手法のロバストなオブジェクト検出を示します。

Unsupervised domain adaptation is critical in various computer vision tasks, such as object detection, instance segmentation, etc. They attempt to reduce domain bias-induced performance degradation while also promoting model application speed. Previous works in domain adaptation object detection attempt to align image-level and instance-level shifts to eventually minimize the domain discrepancy, but they may align single-class features to mixed-class features in image-level domain adaptation because each image in the object detection task may be more than one class and object. In order to achieve single-class with single-class alignment and mixed-class with mixed-class alignment, we treat the mixed-class of the feature as a new class and propose a mixed-classes $H-divergence$ for object detection to achieve homogenous feature alignment and reduce negative transfer. Then, a Semantic Consistency Feature Alignment Model (SCFAM) based on mixed-classes $H-divergence$ was also presented. To improve single-class and mixed-class semantic information and accomplish semantic separation, the SCFAM model proposes Semantic Prediction Models (SPM) and Semantic Bridging Components (SBC). And the weight of the pix domain discriminator loss is then changed based on the SPM result to reduce sample imbalance. Extensive unsupervised domain adaption experiments on widely used datasets illustrate our proposed approach's robust object detection in domain bias settings.
翻訳日:2022-06-14 13:33:13 公開日:2022-06-12
# GLIPv2: ローカライゼーションと視覚言語理解の統合

GLIPv2: Unifying Localization and Vision-Language Understanding ( http://arxiv.org/abs/2206.05836v1 )

ライセンス: Link先を確認
Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao(参考訳) 本稿では,VL理解モデルであるGLIPv2を提案する。ローカライゼーションタスク(オブジェクト検出,インスタンスセグメンテーションなど)とビジョンランゲージ(VL)理解タスク(VQA,画像キャプションなど)の両方を提供する。 glipv2はローカライゼーション事前学習と視覚言語事前学習(vlp)を3つの事前学習タスクでエレガントに統合する: 検出タスクのvl改革としてのフレーズグラウンド、新しい領域語レベルのコントラスト学習タスクとしての領域語コントラスト学習、マスク付き言語モデリング。 この統合は、従来のマルチステージVLP手順を単純化するだけでなく、ローカライゼーションと理解タスクの相互利益も達成する。 実験の結果,1つのglipv2モデル(全モデル重みが共有される)が様々な局所化および理解タスクにおいてほぼsota性能を達成することがわかった。 また,(1)オープンボキャブラリオブジェクト検出タスクにおける強ゼロショットと少ショット適応性能,(2)VL理解タスクにおける優れたグラウンド化能力を示す。 コードはhttps://github.com/microsoft/GLIPでリリースされる。

We present GLIPv2, a grounded VL understanding model, that serves both localization tasks (e.g., object detection, instance segmentation) and Vision-Language (VL) understanding tasks (e.g., VQA, image captioning). GLIPv2 elegantly unifies localization pre-training and Vision-Language Pre-training (VLP) with three pre-training tasks: phrase grounding as a VL reformulation of the detection task, region-word contrastive learning as a novel region-word level contrastive learning task, and the masked language modeling. This unification not only simplifies the previous multi-stage VLP procedure but also achieves mutual benefits between localization and understanding tasks. Experimental results show that a single GLIPv2 model (all model weights are shared) achieves near SoTA performance on various localization and understanding tasks. The model also shows (1) strong zero-shot and few-shot adaption performance on open-vocabulary object detection tasks and (2) superior grounding capability on VL understanding tasks. Code will be released at https://github.com/microsoft/GLIP.
翻訳日:2022-06-14 13:04:03 公開日:2022-06-12
# TwiBot-22: グラフベースのTwitterボット検出を目指す

TwiBot-22: Towards Graph-Based Twitter Bot Detection ( http://arxiv.org/abs/2206.04564v2 )

ライセンス: Link先を確認
Shangbin Feng, Zhaoxuan Tan, Herun Wan, Ningnan Wang, Zilong Chen, Binchi Zhang, Qinghua Zheng, Wenqian Zhang, Zhenyu Lei, Shujie Yang, Xinshun Feng, Qingyue Zhang, Hongrui Wang, Yuhan Liu, Yuyang Bai, Heng Wang, Zijian Cai, Yanbo Wang, Lijing Zheng, Zihan Ma, Jundong Li, Minnan Luo(参考訳) Twitterのボット検出は、誤情報に対処し、ソーシャルメディアのモデレーションを促進し、オンライン会話の完全性を維持するためにますます重要になっている。 最先端のボット検出手法は、一般的にtwitterネットワークのグラフ構造を利用しており、従来の方法では検出できない新しいtwitterボットに直面すると有望な性能を発揮する。 しかし、既存のtwitterボット検出データセットのほとんどがグラフベースであり、これらのグラフベースデータセットでさえも、データセットスケールの制限、不完全なグラフ構造、アノテーション品質の低下に悩まされている。 実際、これらの問題に対処する大規模なグラフベースのtwitterボット検出ベンチマークの欠如は、グラフベースの新しいボット検出アプローチの開発と評価を深刻な障害にしている。 本稿では,グラフベースのTwitterボット検出ベンチマークであるTwiBot-22を提案する。このベンチマークは,これまでで最大のデータセットを示し,Twitterネットワーク上で多様なエンティティと関係を提供し,既存のデータセットよりもはるかに優れたアノテーション品質を有する。 さらに、35の代表的なtwitterボット検出ベースラインを再実装し、twibot-22を含む9つのデータセットで評価し、モデル性能と研究進捗の全体的理解を公平に比較した。 さらなる研究を容易にするために、実装されたすべてのコードとデータセットをtwibot-22評価フレームワークに統合し、研究者が新しいモデルとデータセットを一貫して評価できるようにしました。 twibot-22 twitter bot detection benchmark and evaluation frameworkはhttps://twibot22.github.io/で公開されている。

Twitter bot detection has become an increasingly important task to combat misinformation, facilitate social media moderation, and preserve the integrity of the online discourse. State-of-the-art bot detection methods generally leverage the graph structure of the Twitter network, and they exhibit promising performance when confronting novel Twitter bots that traditional methods fail to detect. However, very few of the existing Twitter bot detection datasets are graph-based, and even these few graph-based datasets suffer from limited dataset scale, incomplete graph structure, as well as low annotation quality. In fact, the lack of a large-scale graph-based Twitter bot detection benchmark that addresses these issues has seriously hindered the development and evaluation of novel graph-based bot detection approaches. In this paper, we propose TwiBot-22, a comprehensive graph-based Twitter bot detection benchmark that presents the largest dataset to date, provides diversified entities and relations on the Twitter network, and has considerably better annotation quality than existing datasets. In addition, we re-implement 35 representative Twitter bot detection baselines and evaluate them on 9 datasets, including TwiBot-22, to promote a fair comparison of model performance and a holistic understanding of research progress. To facilitate further research, we consolidate all implemented codes and datasets into the TwiBot-22 evaluation framework, where researchers could consistently evaluate new models and datasets. The TwiBot-22 Twitter bot detection benchmark and evaluation framework are publicly available at https://twibot22.github.io/
翻訳日:2022-06-14 11:19:18 公開日:2022-06-12