このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220721となっている論文です。

PDF登録状況(公開日: 20220721)

TitleAuthorsAbstract論文公表日・翻訳日
# 高次元系の絡み合い保護

Entanglement protection in higher-dimensional systems ( http://arxiv.org/abs/2001.07604v2 )

ライセンス: Link先を確認
Ashutosh Singh and Urbasi Sinha(参考訳) エンタングル量子系とその環境の必然的な散逸相互作用は、系に存在する量子相関の劣化を引き起こす。 これは、エンタングルメントの有限時間消失につながる可能性があり、これはエンタングルメント突然死(英語版)(esd)として知られている。 本稿では,初期絡み合ったqubit-qutritシステムと,ESDにつながる消音ノイズを考察し,このデコヒーレンスプロセス中にqubit,qutrit,あるいは両方のサブシステムに適用した場合,その適用時間に応じてESDを急速,遅延,あるいは完全に回避する局所的ユニタリ演算セットを提案する。 これらの局所ユニタリの物理的実装は、原子系の文脈で議論される。 このようなesd操作のシミュレーション結果は、初期エンタングル量子トライト系の2つの異なるクラスに対して提示される。 このスキームを qutrit-qutrit system に一般化するための処方が与えられる。 ノイズ環境下での絡み合い防止技術は、弱い測定逆転や動的疎結合といった他の関連技術と比較される。

The inevitable dissipative interaction of an entangled quantum system with its environment causes degradation in quantum correlations present in the system. This can lead to a finite-time disappearance of entanglement, which is known as entanglement sudden death (ESD). Here, we consider an initially entangled qubit-qutrit system and a dissipative noise which leads to ESD, and propose a set of local unitary operations, which when applied on the qubit, qutrit, or both subsystems during the decoherence process, cause ESD to be hastened, delayed, or avoided altogether, depending on its time of application. The physical implementation of these local unitaries is discussed in the context of an atomic system. The simulation results of such ESD manipulations are presented for two different classes of initially entangled qubit-qutrit systems. A prescription for generalization of this scheme to a qutrit-qutrit system is given. This technique for entanglement protection in the noisy environment is compared with other related techniques such as weak measurement reversal and dynamic decoupling.
翻訳日:2023-06-06 09:11:15 公開日:2022-07-21
# 高速かつ簡便な1ウェイ高次元量子鍵分布

Fast and Simple One-Way High-Dimensional Quantum Key Distribution ( http://arxiv.org/abs/2105.04733v3 )

ライセンス: Link先を確認
Kfir Sulimany, Rom Dudkiewicz, Simcha Korenblit, Hagai S. Eisenberg, Yaron Bromberg, Michael Ben-Or(参考訳) 高次元量子鍵分布(qkd)は、バイナリエンコーディングでqkdプロトコルでは取得できないセキュアな鍵レートで究極のセキュアな通信を提供する。 しかし、提案されたプロトコルには追加の実験資源が必要であり、実用的な高次元システムのコストが上がり、使用が制限された。 ここでは、二値時間ビン符号化のための最も一般的な商用ハードウェアに基づいて、ファイバベース任意次元QKDの新しいスキームを解析、実証する。 量子状態伝達は、標準の単一モードファイバーの40kmチャネル長で試験され、ハードウェアの変更を導入することなく、バイナリコヒーレント・ワンウェイ(COW)プロトコルと比較して秘密鍵レートを2倍に向上させる。 この作業は、ソフトウェアアップデートだけでインストール済みのqkdシステムの性能を向上させる大きな可能性を秘めている。

High-dimensional quantum key distribution (QKD) provides ultimate secure communication with secure key rates that cannot be obtained by QKD protocols with binary encoding. However, so far the proposed protocols required additional experimental resources, thus raising the cost of practical high-dimensional systems and limiting their use. Here, we analyze and demonstrate a novel scheme for fiber-based arbitrary-dimensional QKD, based on the most popular commercial hardware for binary time bins encoding. Quantum state transmission is tested over 40 km channel length of standard single-mode fiber, exhibiting a two-fold enhancement of the secret key rate in comparison to the binary Coherent One Way (COW) protocol, without introducing any hardware modifications. This work holds a great potential to enhance the performance of already installed QKD systems by software update alone.
翻訳日:2023-03-31 21:12:46 公開日:2022-07-21
# 超チャネルと半コーサルチャネルの量子および古典力学半群

Quantum and classical dynamical semigroups of superchannels and semicausal channels ( http://arxiv.org/abs/2109.03847v2 )

ライセンス: Link先を確認
Markus Hasen\"ohrl, Matthias C. Caro(参考訳) 量子デバイスは自然崩壊の対象となる。 我々は、これらの崩壊過程を量子チャネルのマルコフ発展として研究し、スーパーチャネルの動的半群へと導くことを提案する。 スーパーチャネル(superchannel)は、量子チャネルを量子チャネルにマッピングし、適切な一貫性関係を満足する線形写像である。 入力と出力の量子チャネルが同じ空間で作用するならば、スーパーチャネルの動的半群を考えることができる。 そのような半群の生成体の有用な構成的特徴付けは知られていない。 まず、与えられた写像が超チャネルの動的半群を生成するかどうかを効率的にチェック可能な基準を与える。 第2に、量子チャネルの場合のGKLS形式に類似した、量子超チャネルの半群の生成元に対する正規形式を同定する。 正規形式を導出するために、超チャネルと半因果完全正写像の関係を利用して、半因果完全正写像の半群の生成元に対する正規形式を見つける問題を減らす。 無限次元システムにも適用可能な新しい手法を用いて,これらのジェネレータの正規化を導出する。 我々の研究は、超チャネルの半群を徹底的に調査する道のりを拓いている: 数値的な研究は、許容可能なジェネレータを明示的に生成し、チェックできるので、実現可能になった。 そして、対応する進化方程式の解析的性質は、我々の正規形式を通じてアクセス可能である。

Quantum devices are subject to natural decay. We propose to study these decay processes as the Markovian evolution of quantum channels, which leads us to dynamical semigroups of superchannels. A superchannel is a linear map that maps quantum channels to quantum channels, while satisfying suitable consistency relations. If the input and output quantum channels act on the same space, then we can consider dynamical semigroups of superchannels. No useful constructive characterization of the generators of such semigroups is known. We characterize these generators in two ways: First, we give an efficiently checkable criterion for whether a given map generates a dynamical semigroup of superchannels. Second, we identify a normal form for the generators of semigroups of quantum superchannels, analogous to the GKLS form in the case of quantum channels. To derive the normal form, we exploit the relation between superchannels and semicausal completely positive maps, reducing the problem to finding a normal form for the generators of semigroups of semicausal completely positive maps. We derive a normal for these generators using a novel technique, which applies also to infinite-dimensional systems. Our work paves the way to a thorough investigation of semigroups of superchannels: Numerical studies become feasible because admissible generators can now be explicitly generated and checked. And analytic properties of the corresponding evolution equations are now accessible via our normal form.
翻訳日:2023-03-15 20:26:21 公開日:2022-07-21
# 秩序格子におけるディック超放射-次元問題

Dicke superradiance in ordered lattices: dimensionality matters ( http://arxiv.org/abs/2110.08380v4 )

ライセンス: Link先を確認
Eric Sierra, Stuart J. Masson and Ana Asenjo-Garcia(参考訳) 秩序原子配列におけるディック超放射能は、原子同期が光子放出のバーストを引き起こす現象である。 この超ラジカルバーストは、わずか数個の支配的な崩壊チャネルが存在する場合にのみ起こる。 固定原子数の場合、これは臨界原子間距離以下でのみ起こる。 ここでは、配列次元が超輝度を駆動する決定因子であることを示す。 2dと3dの配列では、原子数で強く成長する構成的干渉によってスーパーレイディアンスが発生する。 これにより、亜対数的に2dの原子数と3dの力の法則とにスケールする臨界距離が導かれる。 1Dアレイでは、破壊的な干渉によって特定の崩壊チャネルを効果的に切り離し、原子番号で飽和する臨界距離が生じる。 以上の結果から,最先端の実験装置における多体崩壊の探索のガイドとなる。

Dicke superradiance in ordered atomic arrays is a phenomenon where atomic synchronization gives rise to a burst in photon emission. This superradiant burst only occurs if there is one -- or just a few -- dominant decay channels. For a fixed atom number, this happens only below a critical interatomic distance. Here we show that array dimensionality is the determinant factor that drives superradiance. In 2D and 3D arrays, superradiance occurs due to constructive interference, which grows stronger with atom number. This leads to a critical distance that scales sublogarithmically with atom number in 2D, and as a power law in 3D. In 1D arrays, superradiance occurs due to destructive interference that effectively switches off certain decay channels, yielding a critical distance that saturates with atom number. Our results provide a guide to explore many-body decay in state-of-the art experimental setups.
翻訳日:2023-03-11 09:52:22 公開日:2022-07-21
# 無限一次元翻訳不変局所ハミルトンの文脈性:強みと極限

Contextuality in infinite one-dimensional translation-invariant local Hamiltonians: strengths and limits ( http://arxiv.org/abs/2112.11646v2 )

ライセンス: Link先を確認
Kaiyan Yang, Xiao Zeng, Yujing Luo, Guowu Yang, Lan Shu, Miguel Navascu\'es and Zizhu Wang(参考訳) 近年では、多体系をベルのシナリオとして扱うことへの関心が高まり、格子の場所が遠方の当事者の役割を担い、近距離の統計のみにアクセス可能である。 本研究では, 無限に変化する1次元モデルにおけるベルの3つのシナリオから生じる文脈性について検討する。1箇所に2つの2次元可観測点を持つ最も近いneighbor, 1箇所に2つの2次元可観測点を持つnear-to-nearest近傍、そして1箇所に3つの2次元可観測点を持つnear-neighborである。 最初のシナリオでは、量子力学以外の物理理論においてさえ、文脈性を示すことができないという強い証拠を与える。 第二に、究極の量子限界に達するいくつかの低次元モデルを特定し、量子多体系の自己テスト基底状態への道を開く。 ハイゼンベルクモデルを一般化した最後のシナリオでは、文脈性を示すためには、局所量子系の次元は少なくとも3である必要があるという強い証拠を与える。

In recent years there has been a growing interest in treating many-body systems as Bell scenarios, where lattice sites play the role of distant parties and only near-neighbor statistics are accessible. We investigate contextuality arising from three Bell scenarios in infinite, translation-invariant 1D models: nearest-neighbor with two dichotomic observables per site; nearest- and next-to-nearest neighbor with two dichotomic observables per site and nearest-neighbor with three dichotomic observables per site. For the first scenario, we give strong evidence that it cannot exhibit contextuality, not even in non-signaling physical theories beyond quantum mechanics. For the second one, we identify several low-dimensional models that reach the ultimate quantum limits, paving the way for self-testing ground states of quantum many-body systems. For the last scenario, which generalizes the Heisenberg model, we give strong evidence that, in order to exhibit contextuality, the dimension of the local quantum system must be at least 3.
翻訳日:2023-03-03 20:32:59 公開日:2022-07-21
# 量子コンピュータ上のbethe状態:成功確率と相関関数

Bethe states on a quantum computer: success probability and correlation functions ( http://arxiv.org/abs/2201.03021v3 )

ライセンス: Link先を確認
Wen Li, Mert Okyay and Rafael I. Nepomechie(参考訳) 量子コンピュータ上でスピン1/2ハイゼンベルクスピン鎖の固有状態を作成する確率論的アルゴリズムが最近発見されている。 ガウディン行列式を用いて,このアルゴリズムの成功確率の正確な式を導出し,その長大極限について検討する。 短鎖系に対する反強磁性基底スピン相関関数の実現可能性を示す。 しかし、成功確率はチェーン長とともに指数関数的に減少し、適度な長さのチェーンに対する相関関数の計算が妨げられる。 ガウディン行列式の推定に関するいくつかの予想は付録に記される。

A probabilistic algorithm for preparing Bethe eigenstates of the spin-1/2 Heisenberg spin chain on a quantum computer has recently been found. We derive an exact formula for the success probability of this algorithm in terms of the Gaudin determinant, and we study its large-length limit. We demonstrate the feasibility of computing antiferromagnetic ground-state spin-spin correlation functions for short chains. However, the success probability decreases exponentially with the chain length, which precludes the computation of these correlation functions for chains of moderate length. Some conjectures for estimates of the Gaudin determinant are noted in an appendix.
翻訳日:2023-03-01 21:50:22 公開日:2022-07-21
# 電磁誘導歩行

Electromagnetically induced walking ( http://arxiv.org/abs/2202.04813v6 )

ライセンス: Link先を確認
Wenxi Lai(参考訳) 原子装置では、中性原子の光制御と検出は、原子波パケットの運動量の不確かさによるドップラー拡大を伴う。 ここでは,単一原子の位置空間におけるコヒーレント周期運動を示し,原子と進行光との強い結合によりドップラー拡大を除去した。 単色移動光の下では、中性原子は内部の状態によって誘引力や反発力に影響されうるが、これは負の荷電粒子や正の荷電粒子に作用する電気力に類似している。 これらの結果は、原子トロニクス回路の構築に潜在的に応用できる可能性がある。

In atomic devices, optical control and detection of neutral atoms involves Doppler broadening due to the momentum uncertainty in atom wave packets. Here, we show coherent periodic motion of single atoms in position space removing the Doppler broadening with strong coupling between the atom and a traveling light. Under the monochromatic traveling light, neutral atoms could be affected by attractive or repulsive forces depending on their internal state, which is analogous to the electric force acting on negatively or positively charged particles. These results may have potential applications for the construction of atomtronic circuits.
翻訳日:2023-02-26 05:02:02 公開日:2022-07-21
# 超対称焼成における非平衡多体ダイナミクス

Nonequilibrium many-body dynamics in supersymmetric quenching ( http://arxiv.org/abs/2203.03130v2 )

ライセンス: Link先を確認
Christopher Campbell, Thom\'as Fogarty, Thomas Busch(参考訳) 2つの超対称ハミルトニアンの間で超低温量子多体系を焼成することによって引き起こされるダイナミクスを研究する。 このようなクエンチは、外部トラップ電位を慎重に変更して作成することができ、クエンチ前後の固有スペクトルがほぼ同一である状況につながる。 このことから生じる力学は初期状態についてのみ知識を用いて便利に記述でき、この知見を最初は無限の箱ポテンシャルに閉じ込められたフェルミオンガスの特定の例に適用できることを示す。 異なる高次超対称パートナーポテンシャルに焼成することにより、生存確率における多体リバイバルの出現を観察し、これらのいくつかは有限温度で堅牢であることを示す。 これはよく知られたタルボット効果とは対照的であり、二次スペクトルを持つ系にクエンチする標準的な例である。

We study the dynamics induced by quenching an ultracold quantum many-body system between two supersymmetric Hamiltonians. Such a quench can be created by carefully changing the external trapping potential and leads to a situation where the eigenspectra before and after the quench are nearly identical. We show that the dynamics originating from this can be conveniently described using knowledge about the initial state only and apply this insight to the specific example of a fermionic gas that is initially trapped in an infinite box potential. Quenching to different, higher order supersymmetric partners potentials we observe the appearance of many-body revivals in the survival probability and show that some of these are robust at finite temperatures. This is in contrast to the well known Talbot effect, which is the standard example for quenching into a system with a quadratic spectrum.
翻訳日:2023-02-22 22:12:00 公開日:2022-07-21
# time-multiplexed optical tweezers を用いた超低温原子センブルアレイの作製

Preparation of ultra-cold atomic-ensemble arrays using time-multiplexed optical tweezers ( http://arxiv.org/abs/2203.11617v2 )

ライセンス: Link先を確認
Katja Gosar, Vesna Pirc Jev\v{s}enak, Tadej Me\v{z}nar\v{s}i\v{c}, Du\v{s}an Babi\v{c}, Igor Poberaj, Erik Zupani\v{c}, Peter Jegli\v{c}(参考訳) 超低温セシウム原子を原子アンサンブルの1次元配列でトラップするために、時間多重光偏向器に基づく光ツイーザを用いる。 2.5$\mu$Kから50nKの温度では、単一トラップ内の原子数を保持する光ツイーザーパルス間の最大時間を調べる。 この時間は、時間多重光tweezersの配列における位置の最大数の推定を提供する。 最大25個の光ツイーザートラップの配列における原子の蒸発冷却と,ボックス電位における原子の調製を実証した。 さらに,超低温の原子雲からの移動による原子アンサンブルアレイ作成のための3つの異なるプロトコルを実証した。 これらの結果、平均で$\sim$100原子からなる74個の原子アンサンブルの配列が作られる。

We use optical tweezers based on time-multiplexed acousto-optic deflectors to trap ultra-cold cesium atoms in one-dimensional arrays of atomic ensembles. For temperatures between 2.5 $\mu$K and 50 nK we study the maximal time between optical tweezer pulses that retains the number of atoms in a single trap. This time provides an estimate on the maximal number of sites in an array of time-multiplexed optical tweezers. We demonstrate evaporative cooling of atoms in arrays of up to 25 optical tweezer traps and the preparation of atoms in a box potential. Additionally, we demonstrate three different protocols for the preparation of atomic-ensemble arrays by transfer from an expanding ultra-cold atomic cloud. These result in the preparation of arrays of up to 74 atomic ensembles consisting of $\sim$100 atoms on average.
翻訳日:2023-02-21 02:58:42 公開日:2022-07-21
# The Cavendish Computors:The Women working in scientific computing for Radio Astronomy

The Cavendish Computors: The women working in scientific computing for Radio Astronomy ( http://arxiv.org/abs/2205.07267v2 )

ライセンス: Link先を確認
Verity Allan(参考訳) 第二次世界大戦後の数十年間、ケンブリッジ大学カヴェンディッシュ研究所における電波天文学のための科学計算の歴史に関する議論。 これは、電波天文学のための開口合成技術の発展と、大学の数学研究所が開発した新しい計算技術(EDSAC、EDSAC 2、TITAN コンピュータ)の使用方法に関するものである。 電波天文学グループが行った科学的進歩、特に定常状態仮説と矛盾する証拠の組み立てに目を向ける。 高速フーリエ変換(FFT、Fast Fourier Transform)とデグリディングアルゴリズム(degridding algorithm)という、より大きな望遠鏡を構築できるソフトウェアの進歩についても検討している。 全体として、女性の貢献は、科学出版のために描いた図から、プログラミングと操作コンピュータを通して、科学論文を書くことまで明らかにされる。

A discussion of the history of scientific computing for Radio Astronomy in the Cavendish Laboratory of the University of Cambridge in the decades after the Second World War. This covers the development of the aperture synthesis technique for Radio Astronomy and how that required using the new computing technology developed by the University's Mathematical Laboratory: the EDSAC, EDSAC 2 and TITAN computers. It looks at the scientific advances made by the Radio Astronomy group, particularly the assembling of evidence which contradicted the Steady State Hypothesis. It also examines the software advances that allowed bigger telescopes to be built: the Fast Fourier Transform (FFT) and the degridding algorithm. Throughout, the contribution of women is uncovered, from the diagrams they drew for scientific publications, through programming and operating computers, to writing scientific papers.
翻訳日:2023-02-19 16:52:51 公開日:2022-07-21
# バルク量子力学を用いたホログラフィック平坦時空からのド・ジッター時空

De Sitter Spacetime from Holographic Flat Spacetime with Inexact Bulk Quantum Mechanics ( http://arxiv.org/abs/2204.06770v4 )

ライセンス: Link先を確認
Eiji Konishi(参考訳) 我々は、不正確な量子力学を持つ平時空は、その中の正確な量子力学を持つデ・シッター時空と双対であり、このデ・シッター時空の正の宇宙定数は、平坦な時空におけるバルク量子力学の破れの次数であると主張している。 平坦時空はホログラフィックであり、双対の時間収縮境界共形場理論を持ち、2つの再定義された中心電荷は無限遠点である。 観測された正の宇宙定数の消失小ささは、平時におけるバルク量子力学の異常な正確さを示唆している。

We argue that the flat spacetime with inexact quantum mechanics in it is dual to the de Sitter spacetime with exact quantum mechanics in it, and the positive cosmological constant of this de Sitter spacetime is in the second order of the degree of the violation of the bulk quantum mechanics in the flat spacetime. The flat spacetime is holographic and has a dual time-contracted boundary conformal field theory with two redefined central charges at null infinity. The vanishing smallness of the observed positive cosmological constant suggests the extraordinary exactness of the bulk quantum mechanics in the flat spacetime.
翻訳日:2023-02-17 00:24:06 公開日:2022-07-21
# ジョセフソン接合配列における弱エルゴード性破壊

Weak ergodicity breaking in Josephson-junction arrays ( http://arxiv.org/abs/2204.08047v2 )

ライセンス: Link先を確認
Angelo Russomanno, Michele Fava, and Rosario Fazio(参考訳) ジョセフソン接合配列の量子力学について検討する。 低絡み合いの固有状態の孤立群は、ジョセフソン相互作用が多重項のスペクトルの組織を破壊するのに十分強いときでも持続し、摂動的記述はもはや不可能である。 これらの固有状態は弱いエルゴード性破壊をもたらし、量子的傷跡を連想させる。 これらの固有状態が存在し、電荷密度波状態が初期化されるため、システムは熱化せず、電荷密度波秩序は長時間持続する。 大域的エルゴディディティプローブを考慮すると、系はシステムサイズを増やすためによりエルゴディディティに向かう傾向があることが分かる: 固有状態の大部分が非エルゴディティ縮小に見えるパラメータ範囲は、システムサイズを増やすために非エルゴディティ縮小である。 1次元チェーンと2脚ラダーの2つのジオメトリについて検討した。 後者の場合、磁束を付加すると、システムはよりエルゴード的になる。

We study the quantum dynamics of Josephson junction arrays. We find isolated groups of low-entanglement eigenstates, that persist even when the Josephson interaction is strong enough to destroy the organization of the spectrum in multiplets, and a perturbative description is no longer possible. These eigenstates provide a weak ergodicity breaking, and are reminiscent of the quantum scars. Due to the presence of these eigenstates, initializing with a charge-density-wave state, the system does not thermalize and the charge-density-wave order persists for long times. Considering global ergodicity probes, we find that the system tends towards more ergodicity for increasing system size: The parameter range where the bulk of the eigenstates look nonergodic shrinks for increasing system size. We study two geometries, a one-dimensional chain and a two-leg ladder. In the latter case, adding a magnetic flux makes the system more ergodic.
翻訳日:2023-02-16 16:55:52 公開日:2022-07-21
# Unruh-DeWitt検出器における量子化質量エネルギー効果

Quantized mass-energy effects in an Unruh-DeWitt detector ( http://arxiv.org/abs/2205.02394v2 )

ライセンス: Link先を確認
Carolyn E. Wood, Magdalena Zych(参考訳) 単純だが強力な粒子検出器モデルは、検出された粒子が場励起であるフィールドに結合された2レベルシステムからなる。 これはunruh-dewitt検出器として知られている。 このモデルを用いた研究は、検出器の外部自由度に関する完全に古典的な記述や、検出器自体を場として記述したフルフィールド理論的な処理にしばしば焦点が当てられている。 最近、検出器の質量中心の量子的側面に多くの関心が寄せられ、半古典的軌道に沿った重ね合わせで動くか、非相対論的ハミルトニアンの下で動的に進化していると説明されている。 しかし、磁場粒子の吸収または放出の過程は、必ず吸収または放出された場の量子のエネルギーの量によって検出器の静止質量を変化させる。 いずれのモデルもそのような効果を捉えることはできない。 ここでは、検出器の質量エネルギーの量子化をUnruh-DeWittモデルに組み込む。 放射や吸収による内部エネルギーの変化は, 最低限のエネルギー限界においても関係していることを示す。 具体的には、検出器の質量変化による遷移率の補正は、質量力学の中心全体が無視されない限り無視できない。 その結果、質量エネルギー同値を含まずに、unruh-dewitt検出器を質量粒子として一貫したモデルを持つことは不可能であることが示唆された。

A simple but powerful particle detector model consists of a two-level system coupled to a field, where the detected particles are the field excitations. This is known as the Unruh-DeWitt detector. Research using this model has often focused on either a completely classical description of the external degrees of freedom of the detector, or a full field-theoretic treatment, where the detector itself is described as a field. Recently there has been much interest in quantum aspects of the detector's center of mass -- either described as moving in superposition along semiclassical trajectories, or dynamically evolving under a non-relativistic Hamiltonian. However, the processes of interest -- the absorption or emission of field particles -- necessarily change the detector's rest mass by the amount of energy of the absorbed or emitted field quanta. Neither of the above models can capture such effects. Here we incorporate the quantization of the detector's mass-energy into the Unruh-DeWitt model. We show that internal energy changes due to emission or absorption are relevant even in the lowest energy limit. Specifically, corrections to transition rates due to the detector's mass changing cannot be ignored unless the entire center of mass dynamics is also ignored. Our results imply that one cannot have a consistent model of the Unruh-DeWitt detector as a massive particle without including the mass-energy equivalence.
翻訳日:2023-02-14 06:37:21 公開日:2022-07-21
# BTZブラックホール時空からの相互情報のハーベスティング

Harvesting mutual information from BTZ black hole spacetime ( http://arxiv.org/abs/2205.07891v2 )

ライセンス: Link先を確認
Kendra Bueley, Luosi Huang, Kensuke Gallock-Yoshimura, Robert B. Mann(参考訳) 静的BTZブラックホール時空における2つのUnruh-DeWitt検出器間の相互情報の相関収集プロトコルについて検討した。 ここでは、検知器の適切な分離における通信や変化による影響を無視し、ブラックホールのみが抽出された相互情報に影響を与えるように設定する。 エンタングルメント収穫シナリオとは異なり、検出者が事象の地平線に達するときのみ、相互情報の収集はゼロであり、ホーキング効果と重力赤方偏移は相互情報の抽出に影響を与えるが、検出者が収穫を妨げているのは極端なホーキング放射である。

We investigate the correlation harvesting protocol for mutual information between two Unruh-DeWitt detectors in a static BTZ black hole spacetime. Here, the effects coming from communication and change in proper separation of the detectors are set to be negligible so that only a black hole affects the extracted mutual information. We find that, unlike the entanglement harvesting scenario, harvested mutual information is zero only when a detector reaches an event horizon, and that although the Hawking effect and gravitational redshift both affect the extraction of mutual information, it is extreme Hawking radiation that inhibits the detectors from harvesting.
翻訳日:2023-02-12 23:42:38 公開日:2022-07-21
# コンテキスト応用のための最適測定構造

Optimal Measurement Structures for Contextuality Applications ( http://arxiv.org/abs/2206.13139v2 )

ライセンス: Link先を確認
Yuan Liu, Ravishankar Ramanathan, Karol Horodecki, Monika Rosicka, and Pawe{\l} Horodecki(参考訳) 基礎的なKochen-Specker(KS)定理の応用は、最近多くの関心を集めている。 ここでは、KS証明対象ガジェットにおける測定構造が、文脈性を含む最適ツールボックスを提供することを示す。 (i)ゼロエラー通信における絡み合い支援の利点を示す古典的チャネルの構築 (ii)文脈性に基づく半デバイス非依存ランダムネス生成のための最適なテストを見つけること、及び (三)量子論と二項一般化確率論の大きな分離を同定すること。 最後に,一般の ks 証明の中に存在することを示すガジェットの高次一般化を導入し,それを用いて ks 定理の新しい証明を構築する。

Applications of the foundational Kochen-Specker (KS) theorem have attracted much interest recently. Here, we show that measurement structures within KS proofs termed gadgets provide an optimal toolbox for contextuality applications including (i) constructing classical channels exhibiting entanglement-assisted advantage in zero-error communication, (ii) finding optimal tests for contextuality-based semi-device-independent randomness generation, and (iii) identifying large separations between quantum theory and binary generalised probabilistic theories. Finally, we introduce a higher-order generalisation of gadgets that we show exist within general KS proofs, and use them to construct novel proofs of the KS theorem.
翻訳日:2023-02-07 21:26:14 公開日:2022-07-21
# 量子力学? 誰かが$i$を失うまで、すべて楽しいしゲームです

Quantum mechanics? It's all fun and games until someone loses an $i$ ( http://arxiv.org/abs/2206.15343v2 )

ライセンス: Link先を確認
Christopher A. Fuchs, Maxim Olshanii, and Matthew B. Weiss(参考訳) qbismは量子力学を確率論への付加と見なす。 この追加は、実験的文脈にまたがってギャンブルに関連する意思決定エージェントに対して追加の規範的ルールを提供する。 これはqbistの観点から生まれた規則の意味を定めている。 さらに,基本的議論のためのボルンルールを定式化する最善の方法は,情報的に完全な参照装置に関するものであることを示唆している。 最近の研究(DeBrota, Fuchs, and Stacey, Phys. Rev. Res. 2, 013074 (2020))は、対称的に完全なPOVM(またはSIC)を用いる参照デバイスが最小限の量子性を達成することを示した。 本稿では,実ベクトル空間量子論の類似問題に答えようとする。 標準的な量子力学では、すべての有限次元にSICが存在するように見えるが、実数上の量子論の場合、ほとんどの次元にSICは存在しないことが知られている。 したがって、量子力学における複素数の本質的役割をよりよく理解するために、sic(すなわち$d=4$)を使わずに最初の実次元で最適な参照デバイスを特定することを試みる。 それらの複雑な表現とは対照的に、実ベクトル空間量子論のQBist理解をもたらす表現は驚くほど複雑である。

QBism regards quantum mechanics as an addition to probability theory. The addition provides an extra normative rule for decision-making agents concerned with gambling across experimental contexts, somewhat in analogy to the double-slit experiment. This establishes the meaning of the Born Rule from a QBist perspective. Moreover it suggests that the best way to formulate the Born Rule for foundational discussions is with respect to an informationally complete reference device. Recent work [DeBrota, Fuchs, and Stacey, Phys. Rev. Res. 2, 013074 (2020)] has demonstrated that reference devices employing symmetric informationally complete POVMs (or SICs) achieve a minimal quantumness: They witness the irreducible difference between classical and quantum. In this paper, we attempt to answer the analogous question for real-vector-space quantum theory. While standard quantum mechanics seems to allow SICs to exist in all finite dimensions, in the case of quantum theory over the real numbers it is known that SICs do not exist in most dimensions. We therefore attempt to identify the optimal reference device in the first real dimension without a SIC (i.e., $d=4$) in hopes of better understanding the essential role of complex numbers in quantum mechanics. In contrast to their complex counterparts, the expressions that result in a QBist understanding of real-vector-space quantum theory are surprisingly complex.
翻訳日:2023-02-07 04:32:18 公開日:2022-07-21
# cu$_2$oの量子力学的反復スペクトルにおける励起子軌道のシグネチャ

Signatures of exciton orbits in quantum mechanical recurrence spectra of Cu$_2$O ( http://arxiv.org/abs/2207.07378v2 )

ライセンス: Link先を確認
Jan Ertl, Michael Marquardt, Moritz Schumacher, Patric Rommel, J\"org Main, Manfred Bayer(参考訳) T. Kazimierczukらによる独創的な作品。 [514, 343 (2014)]は、対応原理が適用され量子力学が古典力学に変化する体制において、励起子状態が高度に励起されることを示したが、励起子への古典的アプローチに基づく励起子スペクトルの解釈はいまだに欠けている。 ここでは, 量子力学的および半古典的再帰スペクトルの計算と比較を行い, このギャップを解消する。 量子力学的再帰スペクトルはピークを示し、半古典的理論とスケーリング変換の適用により、古典的周期的励起子軌道と直接関係があることを示した。 半古典理論の励起子物理学への応用は、水素のようなケプラー軌道から強く逸脱する3次元軌道を含む古典励起子力学の詳細な解析を必要とする。 本研究は,励起子の量子力学的バンド構造分割とそれに対応する古典励起子ダイナミクスを直接関連付けることで,半導体中の励起子の重要な側面を照らしている。

The seminal work by T. Kazimierczuk et al. [Nature 514, 343 (2014)] has shown the existence of highly excited exciton states in a regime, where the correspondence principle is applicable and quantum mechanics turns into classical mechanics, however, any interpretation of exciton spectra based on a classical approach to excitons is still missing. Here, we close this gap by computing and comparing quantum mechanical and semiclassical recurrence spectra of cuprous oxide. We show that the quantum mechanical recurrence spectra exhibit peaks, which, by application of semiclassical theories and a scaling transformation, can be directly related to classical periodic exciton orbits. The application of semiclassical theories to exciton physics requires the detailed analysis of the classical exciton dynamics, including three-dimensional orbits, which strongly deviate from hydrogenlike Keplerian orbits. Our findings illuminate important aspects of excitons in semiconductors by directly relating the quantum mechanical band-structure splittings of excitons to the corresponding classical exciton dynamics.
翻訳日:2023-02-04 22:59:04 公開日:2022-07-21
# 異方性双極子-双極子相互作用と等方性ファンデルワールス相互作用に対するschr\"{o}dinger方程式の解

Solutions of the Schr\"{o}dinger equation for anisotropic dipole-dipole interaction plus isotropic van der Waals interaction ( http://arxiv.org/abs/2207.09377v3 )

ライセンス: Link先を確認
Ruijie Du, Ran Qi, Peng Zhang(参考訳) By generalizing Bo Gao's approach [Phys. Rev. A 58, 1728 (1998)] for solving the Schr\"{o}dinger equation for an isotropic van der Waals (vdW) potential to the systems with a multi-scale anisotropic long-range interaction, we derive the solutions for the Schr\"{o}dinger equation for an anisotropic dipole-dipole interaction plus an isotropic attractive vdW potential, i.e., ${C_d(1-3\cos^2\theta)}/{r^3}-{C_6}/{r^6}$, which is projected to the subspace with angular momentum $l\leq l_{\rm cut}$, with $l_{\rm cut}$ being an arbitrary angular-momentum cutoff. ここで、$\theta$ は座標 $\boldsymbol{r}$ と $r=|\boldsymbol{r}|$ の極角である。 r\rightarrow 0$ および $r\rightarrow \infty$ に対するこれらの解の漸近的挙動を求める。 これらの結果は、静電場における超低温極性分子間の衝突や化学反応の研究に利用できる。 一般の長距離ポテンシャル $\sum_{\lambda= 2}^{\lambda_{\rm max}} {V_\lambda(\theta,\varphi)}/{r^\lambda}$, $\varphi$ は $\boldsymbol{r}$ の方位角であり、分子-分子相互作用の様々な問題に利用できる。

By generalizing Bo Gao's approach [Phys. Rev. A 58, 1728 (1998)] for solving the Schr\"{o}dinger equation for an isotropic van der Waals (vdW) potential to the systems with a multi-scale anisotropic long-range interaction, we derive the solutions for the Schr\"{o}dinger equation for an anisotropic dipole-dipole interaction plus an isotropic attractive vdW potential, i.e., ${C_d(1-3\cos^2\theta)}/{r^3}-{C_6}/{r^6}$, which is projected to the subspace with angular momentum $l\leq l_{\rm cut}$, with $l_{\rm cut}$ being an arbitrary angular-momentum cutoff. Here $\theta$ is the polar angle of the coordinate $\boldsymbol{r}$ and $r=|\boldsymbol{r}|$. The asymptotic behaviors of these solutions for $r\rightarrow 0$ and $r\rightarrow \infty$ are obtained. These results can be used in the research of collisions and chemical reactions between ultra-cold polar molecules in a static electric field. Our approach to derive the solutions can be applied to the systems with a general long-range potential $\sum_{\lambda= 2}^{\lambda_{\rm max}} {V_\lambda(\theta,\varphi)}/{r^\lambda}$, with $\varphi$ being the azimuthal angle of $\boldsymbol{r}$, and thus can be used in various problems on molecule-molecule interaction.
翻訳日:2023-02-04 13:01:01 公開日:2022-07-21
# satのための断熱的アルゴリズム:包括的アルゴリズム記述

Adiabatic based Algorithm for SAT: a comprehensive algorithmic description ( http://arxiv.org/abs/2207.09984v2 )

ライセンス: Link先を確認
Eric Bourreau, G\'erard Fleury, Philippe Lacomme(参考訳) 本稿では、量子ヒューリスティックが量子コンピューティングの領域を拡張し、多くの有名な古典的アルゴリズムにおいて有望な方法を定義することに関する。 量子近似ヒューリスティックスは、解決すべき問題を定義するハミルトニアンと混合ハミルトニアンとの交互性を利用する。 量子物理学で最初に定義された断熱定理はシュリンガー方程式の解を計算することができるが、この方法の基礎は物理学と数学の強いスキルを必要とする。 本論文の主な目的は、まず、アディアベート最適化のアルゴリズムに基づくプレゼンテーション(オペレーショナルリサーチ実践における古典的コンピュータサイエンスコミュニティの可能な限り近い)を提供し、次に、よく知られたSAT問題を包括的に解決することである。 これにより、新しい効率的な運用研究トレンドを定義するための断熱能力の簡潔だが明示的な分析を提供する機会が得られる。 実験では,シミュレータおよびIBMが提供する実量子コンピュータ上での数値評価を行った。 QiskitとMyQLMの両方でシミュレータの数値実験が行われた。

This paper concerns quantum heuristics able to extend the domain of quantum computing, defining a promising way in the large number of well-known classical algorithms. Quantum approximate heuristics take advantage of alternation between a Hamiltonian defining the problem to solve and a mixing Hamiltonian. The adiabatic theorem initially defined in quantum physic allows to compute a solution for the Schr\"odinger equation, but the foundation of this methods requires strong skill in physics and mathematics. Our main objectives in this paper are at first to provide an algorithm-based presentation (as close as possible of the classical computer science community in operational research practice) of the adiabatic optimization and secondly to give a comprehensive resolution of the well-known SAT problem. This gives opportunities to provide a concise but explicit analysis of the adiabatic capability to define a new efficient operational research trend. Our experiments encompass numerical evaluations on both simulator and on real quantum computer provided by IBM. Numerical experiments on simulator have been achieved on both Qiskit and MyQLM.
翻訳日:2023-02-04 08:08:44 公開日:2022-07-21
# 強いイオンキャビティカップリングのための繊維キャビティのホイールトラップへの一体化

Integrating a fiber cavity into a wheel trap for strong ion-cavity coupling ( http://arxiv.org/abs/2207.10500v1 )

ライセンス: Link先を確認
Markus Teller, Viktor Messerer, Klemens Sch\"uppert, Yueyang Zou, Dario A. Fioretto, Maria Galli, Philip C. Holz, Jakob Reichel, Tracy E. Northup(参考訳) 単一イオンと光子レベルでの強いカップリングのために設計された繊維キャビティを組み込んだイオントラップを提案する。 キャビティは、ミニチュアリニアポールトラップの軸に整列し、キャビティフィールドへの複数のイオンの同時結合を可能にする。 ファイバミラーの電荷がトラップ電位に与える影響をシミュレートし、これらの予測をキャビティに閉じ込められたイオンで検証する。 さらに, 設置時のマイクロモーションと加熱速度を測定した。

We present an ion trap with an integrated fiber cavity, designed for strong coupling at the level of single ions and photons. The cavity is aligned to the axis of a miniature linear Paul trap, enabling simultaneous coupling of multiple ions to the cavity field. We simulate how charges on the fiber mirrors affect the trap potential, and we test these predictions with an ion trapped in the cavity. Furthermore, we measure micromotion and heating rates in the setup.
翻訳日:2023-02-04 05:34:16 公開日:2022-07-21
# グラフの漸近スペクトルにおけるパラメータの非可換拡張

Noncommutative extensions of parameters in the asymptotic spectrum of graphs ( http://arxiv.org/abs/2207.10483v1 )

ライセンス: Link先を確認
P\'eter Vrana(参考訳) 古典的チャネルのゼロエラー容量は、その可溶性グラフのパラメータであり、可換和の下で加法的なグラフパラメータの値の最小値に等しい、強い積の下で乗法的、補集合間の準同型の下で単調的、正規化である。 そのような関数は、同様の性質を持つ非可換グラフへの無数の拡張を持つか、あるいはそのような拡張を全く持たないことを示す。 より正確には、任意の拡大は恒等量子チャネルの可積分グラフ上でその値を特徴づける指数を持ち、許容指数の集合は非有界な$[1,\infty)$か空である。 特に、lov\'asz数、射影ランク、複素数上に束縛された分数ヘマーに対する許容指数の集合は最大であるが、分数クランク被覆数は拡張を持たない。

The zero-error capacity of a classical channel is a parameter of its confusability graph, and is equal to the minimum of the values of graph parameters that are additive under the disjoint union, multiplicative under the strong product, monotone under homomorphisms between the complements, and normalized. We show that any such function either has uncountably many extensions to noncommutative graphs with similar properties, or no such extensions at all. More precisely, we find that every extension has an exponent that characterizes its values on the confusability graphs of identity quantum channels, and the set of admissible exponents is either an unbounded subinterval of $[1,\infty)$ or empty. In particular, the set of admissible exponents for the Lov\'asz number, the projective rank, and the fractional Haemers bound over the complex numbers are maximal, while the fractional clique cover number does not have any extensions.
翻訳日:2023-02-04 05:34:08 公開日:2022-07-21
# 多光子付加増幅コヒーレント状態

Multi-photon-addition amplified coherent state ( http://arxiv.org/abs/2207.10452v1 )

ライセンス: Link先を確認
Xue-feng Zhan, Qiang Ke, Min-xiang Li, and Xue-xiang Xu(参考訳) 状態 $g^{\hat{n}}\hat{a}^{\dag m}\left\vert \alpha \right\rangle $ and state $\hat{a}^{\dag m}g^{\hat{n}}\left\vert \alpha \right\rangle $ is the same to state $\hat{a}^{\dag m}\left\vert g\alpha \right\rangle $は、我々によってmulti-photon-addition amplified coherent state (mpaacs) と呼ばれる。 ここで、$\hat{n}$, $\hat{a}^{\dag }$, $\left\vert \alpha \right\rangle $, $g$ ($\geq 1$), $m$は、それぞれ光子数演算子、生成演算子、コヒーレント状態、ゲインファコー、およびインターガーである。 本稿では, 正規化, 光子成分分析, ウィグナー関数, 有効利得, 二次スキューズ, 等価入力雑音など, これらのMPAACSの数学的および物理的特性について検討する。 実際、MPAACSはより非古典的であるが、Agrwal と Tara (Phys. Rev. A 43, 492 (1991)) によって導入された光子付加コヒーレント状態 (PACS) の増幅版である。 本研究は光電場増幅器の実装に関する理論的基準を提供する。

State $g^{\hat{n}}\hat{a}^{\dag m}\left\vert \alpha \right\rangle $ and state $\hat{a}^{\dag m}g^{\hat{n}}\left\vert \alpha \right\rangle $ are same to state $\hat{a}^{\dag m}\left\vert g\alpha \right\rangle $, which is called as multi-photon-addition amplified coherent state (MPAACS) by us. Here, $\hat{n}$, $\hat{a}^{\dag }$, $\left\vert \alpha \right\rangle $, $g$ ( $\geq 1$), and $m$ are photon number operator, creation operator, coherent state, gain facor, and an interger, respectively. We study mathematical and physical properties for these MPAACSs, including normalization, photon component analysis, Wigner function, effective gain, quadrature squeezing, and equivalent input noise. Actually, the MPAACS, which contains more nonclassicality, is an amplified version of photon-added coherent state (PACS) introduced by Agrwal and Tara [Phys. Rev. A 43, 492 (1991)]. Our work provides theoretical references for implementing amplifiers for light fields.
翻訳日:2023-02-04 05:33:49 公開日:2022-07-21
# 連続可変量子鍵分布に対する機械学習による余剰雑音抑制

Machine Learning assisted excess noise suppression for continuous-variable quantum key distribution ( http://arxiv.org/abs/2207.10444v1 )

ライセンス: Link先を確認
Kexin Liang, Geng Chai, Zhengwen Cao, Qing Wang, Lei Wang and Jinye Peng(参考訳) 過剰ノイズは、チャネル不安定に起因する量子信号の振幅減衰と位相変動から主に導かれる高性能連続可変量子鍵分布(CVQKD)の大きな障害である。 ここでは,等化に基づく余剰雑音抑制手法を提案する。 この方式では、ニューラルネットワークとパイロットトーンによる等化によって歪んだ信号を補正し、後処理への圧力を軽減し、ハードウェアコストを削減できる。 より強いゆらぎを持つ自由空間チャネルに対しては、受信した変数を分類するために分類アルゴリズムを追加し、異なるクラスに対する識別等化補正を行う。 実験結果から, 余剰雑音を低レベルに抑えることが可能であり, 性能が著しく向上していることがわかった。 さらに、このスキームにより、システムは強い乱流に対処できる。 長距離量子通信のボトルネックを突破し、CVQKDの大規模応用の基礎を築いた。

Excess noise is a major obstacle to high-performance continuous-variable quantum key distribution (CVQKD), which is mainly derived from the amplitude attenuation and phase fluctuation of quantum signals caused by channel instability. Here, an excess noise suppression scheme based on equalization is proposed. In this scheme, the distorted signals can be corrected through equalization assisted by a neural network and pilot tone, relieving the pressure on the post-processing and eliminating the hardware cost. For a free-space channel with more intense fluctuation, a classification algorithm is added to classify the received variables, and then the distinctive equalization correction for different classes is carried out. The experimental results show that the scheme can suppress the excess noise to a lower level, and has a significant performance improvement. Moreover, the scheme also enables the system to cope with strong turbulence. It breaks the bottleneck of long-distance quantum communication and lays a foundation for the large-scale application of CVQKD.
翻訳日:2023-02-04 05:33:12 公開日:2022-07-21
# 量子重力誘起最小長量子力学におけるベル非局所性

Bell nonlocality in quantum-gravity induced minimal-length quantum mechanics ( http://arxiv.org/abs/2207.10418v1 )

ライセンス: Link先を確認
Pasquale Bosso, Luciano Petruzziello, Fabian Wagner, Fabrizio Illuminati(参考訳) 量子重力に対する異なるアプローチは、最小長スケールの存在を予測する際に収束する。 これは空間分解能に本質的な限界が内部自由度に関連する量子力学的観測性にどのように影響するかという根本的な疑問を提起する。 スピン作用素が最小長の量子力学における運動量依存的な寄与を得ることを示すことで、この質問に答える。 この修正は、通常の量子力学で生じるものよりも強い量子非局所性の形式を誘導する。 特に、ベルの不等式違反は運動量作用素の正乗算関数によって通常の量子力学で許容される最大値を超えることが示される。

Different approaches to quantum gravity converge in predicting the existence of a minimal scale of length. This raises the fundamental question as to whether and how an intrinsic limit to spatial resolution can affect quantum mechanical observables associated to internal degrees of freedom. We answer this question in general terms by showing that the spin operator acquires a momentum-dependent contribution in quantum mechanics equipped with a minimal length. Among other consequences, this modification induces a form of quantum nonlocality stronger than the one arising in ordinary quantum mechanics. In particular, we show that violations of the Bell inequality can exceed the maximum value allowed in ordinary quantum mechanics by a positive multiplicative function of the momentum operator.
翻訳日:2023-02-04 05:32:38 公開日:2022-07-21
# 自由空間における非平衡超ラジアント相転移の観察

Observation of a non-equilibrium superradiant phase transition in free space ( http://arxiv.org/abs/2207.10361v1 )

ライセンス: Link先を確認
Giovanni Ferioli, Antoine Glicenstein, Igor Ferrier-Barbut, and Antoine Browaeys(参考訳) 我々は、最大$N\approx 2000$のレーザー冷却原子からなる鉛筆状雲からなる駆動散逸量子系における非平衡相転移を観察し、その主軸に沿って光学的に励起する。 我々のデータは、有効原子数を用いて、サブ波長サンプル体積を仮定する Driven Dicke モデルによってよく再現されている。 超放射能モードで放出される原子と光の励起状態の集団を測定することで、系の力学と定常状態の性質を特徴づける。 特に、スーパーラジアント相における光子放出速度の特徴的な$N^2$スケーリングを観察し、自由空間における定常超放射率を示す。 最後に、位相遷移を横切る際に超ラジアント光の統計の修正を観察する。

We observe a non-equilibrium phase transition in a driven dissipative quantum system consisting of an pencil-shape cloud of up to $N\approx 2000$ laser-cooled atoms in free space, optically excited along its main axis. We find that our data are well reproduced by the Driven Dicke model, which assumes a sub-wavelength sample volume, by simply using an effective atom number. By measuring the excited state population of the atoms and the light emitted in the superradiant mode, we characterize the dynamics of the system and its steady-state properties. In particular, we observe the characteristic $N^2$ scaling of the photon emission rate in the superradiant phase, thus demonstrating steady-state superradiance in free space. Finally, we observe a modification of the statistics of the superradiant light as we cross the phase transition.
翻訳日:2023-02-04 05:32:27 公開日:2022-07-21
# 不均一磁気レンズにおける加速帯電渦粒子の進化

Evolution of the accelerated charged vortex particle in an inhomogeneous magnetic lens ( http://arxiv.org/abs/2207.10352v1 )

ライセンス: Link先を確認
S.S. Baturin, D.V. Grosman, G.K. Sizykh and D.V. Karlovets(参考訳) 本稿では、非相対論的帯電渦粒子(電子、陽電子、陽子など)の軸対称電磁レンズの場における軌道角運動量による捕捉と加速の詳細な解析について述べる。 我々は加速と、実生活の不完全性から生じるかもしれない電場と磁場の不均一性についても説明する。 我々は、光パケットを捕捉し、レンズを通してうまく搬送できる条件を確立する。 遷移過程を記述し、自由なラゲール・ガウスのパケットを、その構造を常に保存するレンズのランダウ状態にどのように捕捉するかを説明する。 いくつかの代表的な例が、発達した形式主義を説明するために提供されている。

We present a detailed analysis of the capture and acceleration of a non-relativistic charged vortex particle (electron, positron, proton, etc.) with an orbital angular momentum in a field of an axisymmetric electromagnetic lens, typical for a linear accelerator. We account for the acceleration as well as for the inhomogeneity of both electric and magnetic fields that may arise from some real-life imperfections. We establish conditions when the wave packet can be captured and successfully transported through the lens. We describe the transition process and explain how a free Laguerre-Gaussian packet could be captured into the Landau state of the lens preserving its structure for all moments in time. Several representative examples are provided to illustrate developed formalism.
翻訳日:2023-02-04 05:32:13 公開日:2022-07-21
# 量子検出器トモグラフィーにおける正則化と最適化について

On the regularization and optimization in quantum detector tomography ( http://arxiv.org/abs/2207.10327v1 )

ライセンス: Link先を確認
Shuixin Xiao, Yuanlong Wang, Jun Zhang, Daoyi Dong, Shota Yokoyama, Ian R. Petersen, Hidehiro Yonezawa(参考訳) 量子検出器トモグラフィ(QDT)は、量子デバイスを校正し、量子工学タスクを実行するための基礎技術である。 本稿では,プローブ状態が情報的完全あるいは情報的不完全である場合に,正規化を利用してQDT精度を向上させる。 情報完全シナリオでは、正規化を伴わずに半定値プログラミング問題に変換することでリソース(状態)分布を最適化する。 そして、情報完全と情報完全の両シナリオにおいて、異なる正規化形式について議論し、平均二乗誤差が$ o(\frac{1}{n}) $または静的仮定の下で$n $状態コピーを持つ定数になることを示す。 また, 同定可能なパラメータに対する最適最良正規化を特徴とし, 情報的完全化と情報的不完全化の両方を考慮した。 数値例は異なる正則化形式の有効性を示し、量子光学実験では適切な正則化形式が平均二乗誤差を低減できることを示した。

Quantum detector tomography (QDT) is a fundamental technique for calibrating quantum devices and performing quantum engineering tasks. In this paper, we utilize regularization to improve the QDT accuracy whenever the probe states are informationally complete or informationally incomplete. In the informationally complete scenario, without regularization, we optimize the resource (probe state) distribution by converting it to a semidefinite programming problem. Then in both the informationally complete and informationally incomplete scenarios, we discuss different regularization forms and prove the mean squared error scales as $ O(\frac{1}{N}) $ or tends to a constant with $ N $ state copies under the static assumption. We also characterize the ideal best regularization for the identifiable parameters, accounting for both the informationally complete and informationally incomplete scenarios. Numerical examples demonstrate the effectiveness of different regularization forms and a quantum optical experiment test shows that a suitable regularization form can reach a reduced mean squared error.
翻訳日:2023-02-04 05:32:01 公開日:2022-07-21
# 非ガラスアイシングモデルによるフラストレーション量子系の基底状態標識構造

Unveiling ground state sign structures of frustrated quantum systems via non-glassy Ising models ( http://arxiv.org/abs/2207.10675v1 )

ライセンス: Link先を確認
Tom Westerhout, Mikhail I. Katsnelson, Andrey A. Bagrov(参考訳) 多体量子状態における位相の同定は、計算量子物理学の最も重要かつ困難な問題の一つである。 幾何学的にフラストレーションや有限密度電子系の非自明な位相構造は、多くの重要な場合において量子モンテカルロ、変分法および機械学習法の適用性を著しく制限する主要な障害である。 本稿では,いくつかのフラストレーション量子スピン系の実数値符号基底波関数の研究に着目する。 波動関数の振幅と符号を求めるタスクを分離できるという仮定の下で, 組合せ最適化により, 波動関数の符号をほぼ完全な精度で容易に再構成できることを示す。 この目的のために、ヒルベルト空間基底上で定義される補助古典イジングモデルに波動関数符号構造を求める問題を写像する。 親量子系は非常にフラストレーションが高いかもしれないが、Isingモデルは大きなフラストレーションを示さず、Simulated Annealingのような標準的な最適化アルゴリズムで解けることを示す。 特に、基底状態振幅を考慮し、十分に連結されたランダムハイゼンベルクモデルと反強磁性ハイゼンベルクモデルのカゴメ格子上の波動関数の符号を再構成し、多体符号構造の未発見の単純さを明らかにする。

Identification of phases in many-body quantum states is arguably among the most important and challenging problems of computational quantum physics. The non-trivial phase structure of geometrically frustrated or finite-density electron systems is the main obstacle that severely limits the applicability of the quantum Monte Carlo, variational, and machine learning methods in many important cases. In this paper, we focus on studying real-valued signful ground-state wave functions of several frustrated quantum spins systems. Under the assumption that the tasks of finding wave function amplitudes and signs can be separated, we show that the signs of the wave functions are easily reconstructed with almost perfect accuracy by means of combinatorial optimization. To this end, we map the problem of finding the wave function sign structure onto an auxiliary classical Ising model which is defined on the Hilbert space basis. Although the parental quantum system might be highly frustrated, we demonstrate that the Ising model does not exhibit significant frustrations and is solvable with standard optimization algorithms such as Simulated Annealing. In particular, given the ground state amplitudes, we reconstruct the signs of the wave functions of a fully-connected random Heisenberg model and the antiferromagnetic Heisenberg model on the Kagome lattice, thereby revealing the unelaborated hidden simplicity of many-body sign structures.
翻訳日:2023-02-04 05:24:19 公開日:2022-07-21
# 量子近似最適化アルゴリズムにおける相関誤差の影響

Effects of correlated errors on the Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2207.10622v1 )

ライセンス: Link先を確認
Joris Kattem\"olle and Guido Burkard(参考訳) 量子近似最適化アルゴリズム(QAOA)は、ノイズ中間スケール量子(NISQ)デバイスに有用な量子優位性を提供する可能性がある。 qaoaのような変分量子アルゴリズムに対する非相関ノイズの影響は集中的に研究されている。 しかし,最近の実験結果から,NISQデバイスに影響を及ぼす誤差は有意に相関していることがわかった。 古典的環境変動器に基づく空間的および時間的(非マルコフ的)相関誤差のモデルを提案する。 このモデルでは、余分化時空局所誤差率と相関強度の独立変動が可能である。 本モデルを用いて, 相関確率雑音がQAOAに及ぼす影響について検討した。 雑音の相関時間や相関長が一定の局所誤差率で増加するにつれて,QAOAの性能が向上することを示す。 これは、ノイズ相関自体がqaoaのようなnisqアルゴリズムに有害である必要はないことを示している。

The Quantum Approximate Optimization Algorithm (QAOA) has the potential of providing a useful quantum advantage on Noisy Intermediate-Scale Quantum (NISQ) devices. The effects of uncorrelated noise on variational quantum algorithms such as QAOA has been studied intensively. Recent experimental results, however, show that the errors impacting NISQ devices are significantly correlated. We introduce a model for both spatially and temporally (non-Markovian) correlated errors based on classical environmental fluctuators. The model allows for the independent variation of the marginalized spacetime-local error rates and the correlation strength. Using this model, we study the effects of correlated stochastic noise on QAOA. We find evidence that the performance of QAOA improves as the correlation time or correlation length of the noise is increased at fixed local error rates. This shows that noise correlations in itself need not be detrimental for NISQ algorithms such as QAOA.
翻訳日:2023-02-04 05:23:41 公開日:2022-07-21
# 量子分割源の場の量子状態

Quantum States of Fields for Quantum Split Sources ( http://arxiv.org/abs/2207.10592v1 )

ライセンス: Link先を確認
Lin-Qing Chen, Flaminia Giacomini, Carlo Rovelli(参考訳) 場を媒介する絡み合い実験は、巨視的に異なる磁場配置の量子重ね合わせを調べる。 この現象は、電磁気と重力の電場基底における透明な量子場理論的定式化を用いて説明できることを示す。 このような記述の強みは、その場の巨視的に異なる状態の重ね合わせを明示的に表示することである。 線形化された)量子一般相対性理論の場合、この定式化は、その効果をもたらす幾何学の量子重ね合わせを示す。

Field mediated entanglement experiments probe the quantum superposition of macroscopically distinct field configurations. We show that this phenomenon can be described by using a transparent quantum field theoretical formulation of electromagnetism and gravity in the field basis. The strength of such a description is that it explicitly displays the superposition of macroscopically distinct states of the field. In the case of (linearised) quantum general relativity, this formulation exhibits the quantum superposition of geometries giving rise to the effect.
翻訳日:2023-02-04 05:23:30 公開日:2022-07-21
# 単原子キャビティ設定を用いた原子内周波数コムベースフォトニック量子メモリ

Intra-atomic frequency comb based photonic quantum memory using single-atom-cavity setup ( http://arxiv.org/abs/2207.10585v1 )

ライセンス: Link先を確認
Chanchal, G. P. Teja, and Sandeep K. Goyal(参考訳) オンデマンドかつ効率的な光子の貯蔵は、量子情報処理と長距離量子通信において重要な要素である。 ほとんどの量子メモリプロトコルは光子を保存するためにバルクシステムを必要とする。 しかし、量子情報処理のための集積フォトニックチッププラットフォームが出現し、オンチップの量子メモリが注目されている。 本稿では,単一原子空洞構成のみを用いたマルチモードフォトニック量子メモリのプロトコルを提案する。 光共振器に結合した周波数コムを含む単一原子が光子を効率的に保存できることを示す。 さらに、このスキームは光の偏光状態を保存するためにも使用できる。 例えば、ルビジウム原子とセシウム原子がナノフォトニック導波管の空洞と結合し、このスキームを実現するための有望な候補となることを示す。 これにより、集積フォトニックチップで使用される堅牢で効率的なオンチップ量子メモリが実現される。

On-demand and efficient storage of photons is an essential element in quantum information processing and long-distance quantum communication. Most of the quantum memory protocols require bulk systems in order to store photons. However, with the advent of integrated photonic chip platforms for quantum information processing, on-chip quantum memories are highly sought after. In this paper, we propose a protocol for multi-mode photonic quantum memory using only single-atom-cavity setup. We show that a single atom containing a frequency comb coupled to an optical cavity can store photons efficiently. Further, this scheme can also be used to store polarization states of light. As examples, we show that the Rubidium and Cesium atoms coupled to nanophotonic waveguide cavities can serve as promising candidates to realize our scheme. This provides a possibility of a robust and efficient on-chip quantum memory to be used in integrated photonic chips.
翻訳日:2023-02-04 05:23:23 公開日:2022-07-21
# 実世界のファイバグリッド上での処理ノード量子リピータの要求

Requirements for a processing-node quantum repeater on a real-world fiber grid ( http://arxiv.org/abs/2207.10579v1 )

ライセンス: Link先を確認
Guus Avis, Francisco Ferreira da Silva, Tim Coopmans, Axel Dahlberg, Hana Jirovsk\'a, David Maier, Julian Rabbie, Ariana Torres-Knoop, Stephanie Wehner(参考訳) 我々は,オランダのデルフト市とアイントホーフェン市の間の絡み合いの分布を,処理ノード量子リピータで解析し,グループIV色中心とトラップイオンを用いたブラインド量子計算の最小限のハードウェア要件を決定する。 実世界のファイバグリッドが課す制約を考慮し,ハードウェア固有の詳細なモデルを用いて実験を行った。 理想的な設定で得られた結果と比較することにより、単純化がハードウェア要求、特にメモリコヒーレンスと光子収集の歪んだ図形に繋がることを示す。 量子ネットワーク用離散イベントシミュレータNetSquidを用いて任意の処理ノードリピータチェーンの研究に適した汎用機械を開発する。 これにより、時間依存ノイズモデルを含め、古典的な制御通信を含むカットオフを伴うリピータプロトコルをシミュレートできる。 高性能クラスタ上で遺伝的アルゴリズムを用いて最適化問題を解くことにより,最小限のハードウェア要件を求める。 我々の研究は、さらなる実験的進歩のガイダンスを提供し、理想化された状況における量子リピータ要件の研究の限界を示す。

We numerically study the distribution of entanglement between the Dutch cities of Delft and Eindhoven realized with a processing-node quantum repeater and determine minimal hardware requirements for verified blind quantum computation using group-IV color centers and trapped ions. Our results are obtained considering restrictions imposed by a real-world fiber grid and using detailed hardware-specific models. By comparing our results to those we would obtain in idealized settings we show that simplifications lead to a distorted picture of hardware demands, particularly on memory coherence and photon collection. We develop general machinery suitable for studying arbitrary processing-node repeater chains using NetSquid, a discrete-event simulator for quantum networks. This enables us to include time-dependent noise models and simulate repeater protocols with cut-offs, including the required classical control communication. We find minimal hardware requirements by solving an optimization problem using genetic algorithms on a high-performance-computing cluster. Our work provides guidance for further experimental progress, and showcases limitations of studying quantum-repeater requirements in idealized situations.
翻訳日:2023-02-04 05:22:54 公開日:2022-07-21
# 量子密度ピーククラスタリング

Quantum density peak clustering ( http://arxiv.org/abs/2207.10559v1 )

ライセンス: Link先を確認
Duarte Magano, Lorenzo Buffoni, Yasser Omar(参考訳) クラスタリングアルゴリズムは、大規模な非構造化データセットに対処し、科学研究から医用画像、マーケティング分析に至るまで、新たなパターンや相関を見つけ出す上で、極めて重要である。 本研究では,最小値探索のための量子ルーチン上に構築された密度ピーククラスタリングアルゴリズムの量子バージョンを紹介する。 我々は,データセットの構造に応じて,密度ピーククラスタリングの決定版に対する量子スピードアップを証明した。 具体的には、スピードアップは、最も近い要素の誘導されたグラフの木の高さ、すなわち、密度の高い最も近い要素との接続のグラフに依存する。 本稿では,本アルゴリズムが高次元データセットに特に適していることを示す。 最後に、我々の提案を実際の量子デバイス上でのおもちゃの問題でベンチマークする。

Clustering algorithms are of fundamental importance when dealing with large unstructured datasets and discovering new patterns and correlations therein, with applications ranging from scientific research to medical imaging and marketing analysis. In this work, we introduce a quantum version of the density peak clustering algorithm, built upon a quantum routine for minimum finding. We prove a quantum speedup for a decision version of density peak clustering depending on the structure of the dataset. Specifically, the speedup is dependent on the heights of the trees of the induced graph of nearest-highers, i.e., the graph of connections to the nearest elements with higher density. We discuss this condition, showing that our algorithm is particularly suitable for high-dimensional datasets. Finally, we benchmark our proposal with a toy problem on a real quantum device.
翻訳日:2023-02-04 05:22:34 公開日:2022-07-21
# QAOAによるポートフォリオ最適化のパフォーマンスベンチマーク

Benchmarking the performance of portfolio optimization with QAOA ( http://arxiv.org/abs/2207.10555v1 )

ライセンス: Link先を確認
Sebastian Brandhofer, Daniel Braun, Vanessa Dehn, Gerhard Hellstern, Matthias H\"uls, Yanjun Ji, Ilia Polian, Amandeep Singh Bhatia, and Thomas Wellens(参考訳) 本稿では,量子近似最適化アルゴリズム(qaoa)の異なるバージョンを用いたポートフォリオ最適化に関する詳細な研究を行う。 ある資産のリストについて、ポートフォリオ最適化問題は、ポートフォリオに含まれる資産の数に制限された二次二元最適化として定式化される。 QAOAは、十分な数の資産を抱える場合、古典的コンピュータよりも効率的にこの問題を解決するための候補として提案されている(および類似の組合せ最適化問題)。 しかし,本アルゴリズムの実用的実装には,いくつかの技術的課題を慎重に検討する必要がある。 本稿では,このギャップを埋めることを目的として,ポートフォリオ最適化問題(および類似問題)にqaoaを適用するための有用なガイドを読者に提供する。 特に、変動形式と、対応する最適化パラメータを見つけるための異なる古典アルゴリズムのいくつかの選択肢について論じる。 また,QAOAを誤差発生型NISQハードウェアに適用することにより,統計的サンプリング誤差(有限ショット数による)とゲートおよびリードアウト誤差(不完全量子ハードウェアによる)の影響を解析する。 最後に、ポートフォリオ最適化問題の "easy" と "hard" のインスタンスを区別するための基準を定義する。

We present a detailed study of portfolio optimization using different versions of the quantum approximate optimization algorithm (QAOA). For a given list of assets, the portfolio optimization problem is formulated as quadratic binary optimization constrained on the number of assets contained in the portfolio. QAOA has been suggested as a possible candidate for solving this problem (and similar combinatorial optimization problems) more efficiently than classical computers in the case of a sufficiently large number of assets. However, the practical implementation of this algorithm requires a careful consideration of several technical issues, not all of which are discussed in the present literature. The present article intends to fill this gap and thereby provide the reader with a useful guide for applying QAOA to the portfolio optimization problem (and similar problems). In particular, we will discuss several possible choices of the variational form and of different classical algorithms for finding the corresponding optimized parameters. Viewing at the application of QAOA on error-prone NISQ hardware, we also analyze the influence of statistical sampling errors (due to a finite number of shots) and gate and readout errors (due to imperfect quantum hardware). Finally, we define a criterion for distinguishing between "easy" and "hard" instances of the portfolio optimization problem
翻訳日:2023-02-04 05:22:23 公開日:2022-07-21
# トラップイオンによるプログラム可能なN体相互作用

Programmable N-body interactions with trapped ions ( http://arxiv.org/abs/2207.10550v1 )

ライセンス: Link先を確認
Or Katz, Marko Cetina, Christopher Monroe(参考訳) 閉じ込められた原子イオン量子ビットまたは効果的なスピンは量子計算とシミュレーションのための強力な量子プラットフォームであり、スピン間の密結合と効率的にプログラム可能な相互作用を特徴とする。 トラップされたイオンスピン間のネイティブ相互作用は、典型的にはペアワイズであるが、多くの量子アルゴリズムと量子スピンモデルは自然に三重項、四重項、より高い順序のスピン間のカップリングを特徴としている。 ここでは、標準の m\o{}lmer-s\o{}rensen をペアワイズエンタングリングゲートに拡張し、n$ の捕捉イオンのスピン間の制御可能かつプログラマブルな結合を生成する機構を定式化し、解析する。 スピン依存の光学力は2倍の運動周波数で作用し、スピン作用素の非線形変位力として位相空間における集団イオン運動の座標変換を生成する。 我々は,高次スピンハミルトニアンとゲートの体系的かつ忠実な構築を可能にするシンプルな枠組みを定式化し,複数の動作モードの効果を考慮し,現実的な条件下での性能を特徴付ける。

Trapped atomic ion qubits or effective spins are a powerful quantum platform for quantum computation and simulation, featuring densely connected and efficiently programmable interactions between the spins. While native interactions between trapped ion spins are typically pairwise, many quantum algorithms and quantum spin models naturally feature couplings between triplets, quartets or higher orders of spins. Here we formulate and analyze a mechanism that extends the standard M\o{}lmer-S\o{}rensen pairwise entangling gate and generates a controllable and programmable coupling between $N$ spins of trapped ions. We show that spin-dependent optical forces applied at twice the motional frequency generate a coordinate-transformation of the collective ion motion in phase-space, rendering displacement forces that are nonlinear in the spin operators. We formulate a simple framework that enables a systematic and faithful construction of high-order spin Hamiltonians and gates, including the effect of multiple modes of motion, and characterize the performance of such operations under realistic conditions.
翻訳日:2023-02-04 05:22:05 公開日:2022-07-21
# 絡み合ったクビットペアの相互耐久効果

Mutual Intolerance Effect in Entangled Qubit Pairs ( http://arxiv.org/abs/2207.11131v1 )

ライセンス: Link先を確認
Moses Fayngold(参考訳) 最近提案されたパス絡み合う光子対の思考実験の解析は、ここでスピン絡み電子対に拡張される。 両症例の詳細な比較では,モニタリングにおける相違点と類似点が認められた。 一般的な結果は、単純なシステムの密接な連結特性は、変化する条件の下で同時に変化しなければならないという並行性規則とは矛盾する。 解析の結果,グローバルスケールでの絡み合い強度とともに連続的に変化するが,局所レベルではゼロであることがわかった。 この効果は、双光子と双フェルミオンに共通しており、局所的および大域的コヒーレンス間の完全な相互不寛容とすることができる。 したがって、物理的性質に関わらず、すべての絡み合った量子ビットに対する一般効果として相互不耐を予測できる。 キーワード:bi photon, bi fermion, entanglement, correlations, coherence transfer

Analysis of the recently proposed thought experiment with the path entangled photon pairs is extended here to spin entangled electron pairs. The detailed comparison of the two cases showed the range of distinctions and similarities in their monitoring. The general results contradict the Concurrency Rule stating that intimately linked characteristics of a simple system must change concurrently under changing conditions. Instead, the analysis showed that the systems coherence, while changing continuously with entanglement strength on the global scale, remains zero on the local level. This effect, common for bi photons and bi fermions, can be named total mutual intolerance between local and global coherence. We can thus predict mutual intolerance as a general effect for all pairs of entangled qubits regardless of their physical nature. Key words: Bi photon, bi fermion, entanglement, correlations, coherence transfer
翻訳日:2023-02-04 05:14:49 公開日:2022-07-21
# 事前知識を持つ集合における量子探索

Quantum search in sets with prior knowledge ( http://arxiv.org/abs/2207.10770v1 )

ライセンス: Link先を確認
Umut \c{C}al{\i}ky{\i}lmaz, Sadi Turgut(参考訳) 量子検索アルゴリズムは、$o(\sqrt{n})$ステップのみを使用して、$n$要素を持つ集合の探索問題を解決できることで大きな影響を与えた。 残念ながら、この問題の複雑さの順序を減らすことは不可能であるが、一定の係数で改善することは可能である。 本稿では,既知の確率分布を持つ集合における探索問題に対するそのような改善を追求する。 量子探索アルゴリズムの修正版を用いることで、そのような集合に対して期待されるイテレーション数を削減できることが示されている。

Quantum Search Algorithm made a big impact by being able to solve the search problem for a set with $N$ elements using only $O(\sqrt{N})$ steps. Unfortunately, it is impossible to reduce the order of the complexity of this problem, however, it is possible to make improvements by a constant factor. In this paper we pursued such improvements for search problem in sets with known probability distributions. We have shown that by using a modified version of quantum search algorithm, it is possible to decrease the expected number of iterations for such sets.
翻訳日:2023-02-04 05:14:38 公開日:2022-07-21
# 非平衡ガウス量子温度測定における非古典性の操作的意義

Operational significance of nonclassicality in nonequilibrium Gaussian quantum thermometry ( http://arxiv.org/abs/2207.10742v1 )

ライセンス: Link先を確認
Safoura S. Mirkhalaf, Mohammad Mehboudi, Saleh Rahimi-Keshari(参考訳) ガウス力学とガウス状態の探索によるボゾン浴の非平衡温度推定における非古典性の新しい操作的重要性を提供する。 古典的なプローブ状態を用いた熱測定性能のバウンドを求める。 そして、非古典的なプローブ状態、単一モードおよび2モードの真空状態を用いることで、古典的極限を大幅に改善できることを示す。 興味深いことに、この改善はガウス計測を用いても達成できる。 そこで本研究では,量子光学プラットフォームで簡単に実現および使用可能な拡張熱量測定のための完全ガウスプロトコルを提案する。

We provide a new operational significance of nonclassicality in nonequilibrium temperature estimation of bosonic baths with Gaussian dynamics and probing with Gaussian states. We find a bound on the thermometry performance using classical probe states. Then we show that by using nonclassical probe states, single-mode and two-mode squeezed vacuum states, one can profoundly improve the classical limit. Interestingly, we observe that this improvement can also be achieved by using Gaussian measurements. Hence, we propose a fully Gaussian protocol for enhanced thermometry, which can simply be realized and used in quantum optics platform.
翻訳日:2023-02-04 05:14:28 公開日:2022-07-21
# 非漸近的非対称状態判別のための解析的境界

Analytical bounds for non-asymptotic asymmetric state discrimination ( http://arxiv.org/abs/2207.10699v1 )

ライセンス: Link先を確認
Jason L. Pereira, Leonardo Banchi, Stefano Pirandola(参考訳) 2つのタイプの誤りは、量子状態のペアを識別するときに発生する。 非対称な状態判別は、一方の種類のエラーの確率を最小化し、他方の制約を受ける。 我々は、トレースノルム、忠実度、量子チャーノフ境界を用いて、達成可能な誤差の集合を有界に表現する。 上界は漸近的に狭く、下界は純粋な状態に対して正確である。 漸近境界とは異なり、我々の境界は指数の代わりに誤差値を与えるので、有限コピー状態識別問題に適用するとより正確な結果が得られる。

Two types of errors can occur when discriminating pairs of quantum states. Asymmetric state discrimination involves minimising the probability of one type of error, subject to a constraint on the other. We give explicit expressions bounding the set of achievable errors, using the trace norm, the fidelity, and the quantum Chernoff bound. The upper bound is asymptotically tight and the lower bound is exact for pure states. Unlike asymptotic bounds, our bounds give error values instead of exponents, so can give more precise results when applied to finite-copy state discrimination problems.
翻訳日:2023-02-04 05:14:19 公開日:2022-07-21
# 実材料における多体局在工学への道

A route towards engineering many-body localization in real materials ( http://arxiv.org/abs/2207.10696v1 )

ライセンス: Link先を確認
A. Nietner, A. Kshetrimayum, J. Eisert, B. Lake(参考訳) 量子多体系における相互作用と障害の相互作用は、多体局在(MBL)の発散現象を引き起こす可能性がある。 合成量子多体系において精密に制御された条件下で観測されているが、実際の量子材料で検出することは困難である。 本研究では, 実験室内で異なる種類の物質を混合することにより, 多数の身体局在を示す実材料を合成する方法を提案する。 提案手法の有効性を示すため, 詳細なテンソルネットワークに基づく数値解析を行い, 構成材料のドーピング比の影響について検討する。 さらに,実験の指導を行うため,実際の候補素材の異なる選択について検討する。 加熱下での安定性を実現するための課題に対処するため,電子-フォノンカップリングの効果について検討し,1次元,2次元,3次元の格子に埋め込まれた1次元材料に効果的に焦点をあてた。 この結合がMBLに与える影響を解析し、電子自由度と格子振動との相互作用の直感的な微視的記述を提供する。 本研究は,mblのシグネチャを示す実量子材料を実験的に合成するための道路地図として,成分材料の特性に必要な条件のガイドラインを提供する。

The interplay of interactions and disorder in a quantum many body system may lead to the elusive phenomenon of many body localization (MBL). It has been observed under precisely controlled conditions in synthetic quantum many-body systems, but to detect it in actual quantum materials seems challenging. In this work, we present a path to synthesize real materials that show signatures of many body localization by mixing different species of materials in the laboratory. To provide evidence for the functioning of our approach, we perform a detailed tensor-network based numerical analysis to study the effects of various doping ratios of the constituting materials. Moreover, in order to provide guidance to experiments, we investigate different choices of actual candidate materials. To address the challenge of how to achieve stability under heating, we study the effect of the electron-phonon coupling, focusing on effectively one dimensional materials embedded in one, two and three dimensional lattices. We analyze how this coupling affects the MBL and provide an intuitive microscopic description of the interplay between the electronic degrees of freedom and the lattice vibrations. Our work provides a guideline for the necessary conditions on the properties of the ingredient materials and, as such, serves as a road map to experimentally synthesizing real quantum materials exhibiting signatures of MBL.
翻訳日:2023-02-04 05:14:08 公開日:2022-07-21
# 単一量子ビットセンサを用いた2次元双極子スピンアンサンブルの探索ダイナミクス

Probing dynamics of a two-dimensional dipolar spin ensemble using single qubit sensor ( http://arxiv.org/abs/2207.10688v1 )

ライセンス: Link先を確認
Kristine Rezai, Soonwon Choi, Mikhail D. Lukin, Alexander O. Sushkov(参考訳) 量子多体系の微視的熱化ダイナミクスを理解することは、現代の統計物理学の中心的な課題の一つである。 ここでは,ダイヤモンド結晶表面上の電子スピンの2次元アンサンブルにおける個々のスピンダイナミクスを実験的に検討する。 表面近傍nv中心をナノスケール磁気センサとして、双極子相互作用面スピンアンサンブルにおける個々のスピンの相関ダイナミクスを調べる。 各スピンの緩和速度は, 近傍の磁場変動の時間スケールと強く相関し, 自在に推定された双極子相互作用強度に基づいて, ネイブ期待よりも著しく遅いことが観察された。 この不規則に緩やかな緩和速度は、強い動的障害の存在によるものであり、動的共鳴計数に基づく定量的な説明を示す。 最後に、共振スピンロック駆動を用いて局所磁場の有効強度を制御し、異なる状態における動的障害の役割を明らかにする。 我々の研究は、強く相互作用する無秩序なスピンアンサンブルにおける量子熱化の微視的研究と制御への道を開いた。

Understanding the thermalization dynamics of quantum many-body systems at the microscopic level is among the central challenges of modern statistical physics. Here we experimentally investigate individual spin dynamics in a two-dimensional ensemble of electron spins on the surface of a diamond crystal. We use a near-surface NV center as a nanoscale magnetic sensor to probe correlation dynamics of individual spins in a dipolar interacting surface spin ensemble. We observe that the relaxation rate for each spin is significantly slower than the naive expectation based on independently estimated dipolar interaction strengths with nearest neighbors and is strongly correlated with the timescale of the local magnetic field fluctuation. We show that this anomalously slow relaxation rate is due to the presence of strong dynamical disorder and present a quantitative explanation based on dynamic resonance counting. Finally, we use resonant spin-lock driving to control the effective strength of the local magnetic fields and reveal the role of the dynamical disorder in different regimes. Our work paves the way towards microscopic study and control of quantum thermalization in strongly interacting disordered spin ensembles.
翻訳日:2023-02-04 05:13:37 公開日:2022-07-21
# 量子ホール・超導体ハイブリッドにおける渦対応アンドレエフ過程

Vortex-enabled Andreev processes in quantum Hall-superconductor hybrids ( http://arxiv.org/abs/2207.10687v1 )

ライセンス: Link先を確認
Yuchen Tang, Christina Knapp and Jason Alicea(参考訳) 量子ホール超導体ヘテロ構造は、本質的にフォールトトレラントな量子コンピューティングのプラットフォームを提供する。 これらの位相をうまく統合した最近のいくつかの実験に動機づけられ、近似整数量子ホールを通した輸送の研究を行い、超伝導体における渦の影響に特に注意を払っている。 下流のコンダクタンスを調べることで、サブギャップ渦レベルが渦フリーな設定で凍結されるアンドレフ過程を媒介するレジームを同定する。 さらに, 有限温度において, 多数の渦の極限において, 下流のコンダクタンスの平均はゼロとなり, 超伝導体は通常の接触のように効果的に振る舞うことを示す。 量子ホール・スーパーコンダクタハイブリッドにおける超伝導相関の研究に輸送測定を用いた場合の渦について考察することの重要性を強調する。

Quantum Hall-superconductor heterostructures provide possible platforms for intrinsically fault-tolerant quantum computing. Motivated by several recent experiments that successfully integrated these phases, we investigate transport through a proximitized integer quantum Hall edge--paying particular attention to the impact of vortices in the superconductor. By examining the downstream conductance, we identify regimes in which sub-gap vortex levels mediate Andreev processes that would otherwise be frozen out in a vortex-free setup. Moreover, we show that at finite temperature, and in the limit of a large number of vortices, the downstream conductance can average to zero, indicating that the superconductor effectively behaves like a normal contact. Our results highlight the importance of considering vortices when using transport measurements to study superconducting correlations in quantum Hall-superconductor hybrids.
翻訳日:2023-02-04 05:13:19 公開日:2022-07-21
# 位相感度増幅によるマルチスパンリンクの容量の量子限界

Quantum Limits on the Capacity of Multispan Links with Phase-sensitive Amplification ( http://arxiv.org/abs/2207.10685v1 )

ライセンス: Link先を確認
Karol {\L}ukanowski, Konrad Banaszek, Marcin Jarzyna(参考訳) 長距離ファイバー通信は現代の技術の基礎となっている。 信号レベルが検出可能性閾値以下になるのを防ぐ基本原理の1つは、光増幅である。 特に、位相感応増幅器は、余分な付加ノイズを生じないという理想から、有望な解決策を提供する。 このような装置は原理的に量子ノイズレベルで動作するため、信号変調と検出スキームのより広範な範囲を提供するため、量子力学の原理を用いて増幅リンクの容量をさらに向上できるかどうかという自然な疑問がある。 位相感度増幅によるマルチスパンリンクの容量に関する量子力学の法則によって決定される究極の極限を導出する。 光学的二次検出に基づく標準手法に対する量子的優位性は小さく、長いリンクに対して消滅することを示す。

Long-distance fiber communication stands as a cornerstone of modern technology. One of the underlying principles, preventing signal levels from diminishing below the detectability threshold, is optical amplification. In particular, phase-sensitive amplifiers offer a promising solution as ideally they do not introduce any excess additive noise. Since such devices in principle operate at the quantum noise level, a natural question is whether one can further improve the capacity of amplified links using principles of quantum mechanics as it offers a much broader scope of signal modulations and detection schemes. We derive ultimate limits determined by the laws of quantum mechanics on the capacity of multispan links with phase sensitive amplification. We show that the quantum advantage over the standard approach based on optical quadrature detection is small and vanishes for long links.
翻訳日:2023-02-04 05:13:04 公開日:2022-07-21
# 生成逆ネットワークの分布近似と統計的推定保証

Distribution Approximation and Statistical Estimation Guarantees of Generative Adversarial Networks ( http://arxiv.org/abs/2002.03938v3 )

ライセンス: Link先を確認
Minshuo Chen, Wenjing Liao, Hongyuan Zha, Tuo Zhao(参考訳) generative adversarial networks (gans) は教師なし学習で大きな成功を収めている。 その顕著な経験的性能にもかかわらず、GANの統計的性質に関する限られた理論的研究がある。 本稿では,H\"{o}lder 空間に密度を持つデータ分布を推定するための GAN の近似と統計的保証を提供する。 我々の主な結果は、ジェネレータと判別器のネットワークアーキテクチャが適切に選択された場合、ganはwasserstein-1距離のような強い不一致のメトリクスの下でデータ分布の一貫した推定子であることを示している。 さらに,データ分布が低次元構造を示す場合,GANは未知の低次元構造を抽出し,周囲次元の呪いのない高速な統計的収束を享受できることを示す。 我々の低次元データの解析は、リプシッツ連続性を保証するニューラルネットワークの普遍近似理論に基づいている。

Generative Adversarial Networks (GANs) have achieved a great success in unsupervised learning. Despite its remarkable empirical performance, there are limited theoretical studies on the statistical properties of GANs. This paper provides approximation and statistical guarantees of GANs for the estimation of data distributions that have densities in a H\"{o}lder space. Our main result shows that, if the generator and discriminator network architectures are properly chosen, GANs are consistent estimators of data distributions under strong discrepancy metrics, such as the Wasserstein-1 distance. Furthermore, when the data distribution exhibits low-dimensional structures, we show that GANs are capable of capturing the unknown low-dimensional structures in data and enjoy a fast statistical convergence, which is free of curse of the ambient dimensionality. Our analysis for low-dimensional data builds upon a universal approximation theory of neural networks with Lipschitz continuity guarantees, which may be of independent interest.
翻訳日:2023-01-02 08:00:32 公開日:2022-07-21
# 運転シミュレーションにおけるフォトリアリズム:生成的逆画像合成とレンダリングの融合

Photorealism in Driving Simulations: Blending Generative Adversarial Image Synthesis with Rendering ( http://arxiv.org/abs/2007.15820v2 )

ライセンス: Link先を確認
Ekim Yurtsever, Dongfang Yang, Ibrahim Mert Koc, Keith A. Redmill(参考訳) 運転シミュレータは、新しいインテリジェントな車両システムの開発とテストにおいて大きな役割を果たす。 シミュレーションの視覚的忠実性は、視覚ベースのアルゴリズムを構築し、人間のドライバー実験を行うために重要である。 低視力は、人間のループ運転実験の没入性を損なう。 従来のコンピュータグラフィックスパイプラインでは、詳細な3Dモデル、メッシュ、テクスチャ、レンダリングエンジンを使用して、3Dシーンから2D画像を生成する。 これらのプロセスは労働集約的であり、フォトリアリスティックなイメージを生成しない。 本稿では、運転シミュレーションの視覚的忠実度を改善するためのハイブリッド生成ニューラルネットワークパイプラインを提案する。 3dシーンが与えられると、車両などの重要なオブジェクトのみを部分的にレンダリングし、生成的な敵プロセスを使用して画像の背景と残りを合成します。 そこで本研究では,テクスチャのない単純な物体モデルからなる3次元景観から2次元意味画像を生成する新しい画像形成手法を提案する。 これらのセマンティックイメージは、現実の運転シーンで訓練された最先端のジェネレーティブ・アドバイサル・ネットワーク(GAN)を用いて、フォトリアリスティックなRGBイメージに変換される。 これは繰り返し性をランダムに生成するがフォトリアリスティックな曲面に置き換える。 最後に、部分的にレンダリングされたGAN合成画像と混合されたGANとを混合する。 提案手法で生成した画像のフォトリアリズムは,従来の手法よりも都市景観やkittiのような実世界の運転データセットに近い。 この比較は意味的保持分析とFrechet Inception Distance(FID)測定を用いて行われる。

Driving simulators play a large role in developing and testing new intelligent vehicle systems. The visual fidelity of the simulation is critical for building vision-based algorithms and conducting human driver experiments. Low visual fidelity breaks immersion for human-in-the-loop driving experiments. Conventional computer graphics pipelines use detailed 3D models, meshes, textures, and rendering engines to generate 2D images from 3D scenes. These processes are labor-intensive, and they do not generate photorealistic imagery. Here we introduce a hybrid generative neural graphics pipeline for improving the visual fidelity of driving simulations. Given a 3D scene, we partially render only important objects of interest, such as vehicles, and use generative adversarial processes to synthesize the background and the rest of the image. To this end, we propose a novel image formation strategy to form 2D semantic images from 3D scenery consisting of simple object models without textures. These semantic images are then converted into photorealistic RGB images with a state-of-the-art Generative Adversarial Network (GAN) trained on real-world driving scenes. This replaces repetitiveness with randomly generated but photorealistic surfaces. Finally, the partially-rendered and GAN synthesized images are blended with a blending GAN. We show that the photorealism of images generated with the proposed method is more similar to real-world driving datasets such as Cityscapes and KITTI than conventional approaches. This comparison is made using semantic retention analysis and Frechet Inception Distance (FID) measurements.
翻訳日:2022-11-04 07:06:36 公開日:2022-07-21
# インテリジェント反射面のためのディープラーニングアーキテクチャに関する研究

A Survey of Deep Learning Architectures for Intelligent Reflecting Surfaces ( http://arxiv.org/abs/2009.02540v5 )

ライセンス: Link先を確認
Ahmet M. Elbir and Kumar Vijay Mishra(参考訳) インテリジェント反射面(IRS)は、従来の大型アレイのハードウェアの複雑さ、物理的サイズ、重量、コストを低減できるため、無線通信において注目されている。 しかし、IRSの展開には基地局(BS)とユーザの間の複数のチャンネルリンクを扱う必要がある。 さらに、BSとIRSのビームフォーマは共同設計が必要であり、IRSの要素は迅速に再構成されなければならない。 ディープラーニング(DL)のようなデータ駆動技術は、これらの課題に対処するために重要である。 DLの計算時間とモデルフリー性は、データ不完全性と環境変化に対して堅牢である。 物理層におけるDLは、教師なし、教師なし、強化学習などのアーキテクチャを用いたIRS信号の検出、チャネル推定、アクティブ/パッシブビームフォーミングに有効であることが示されている。 本稿では,dlベースirs支援無線システムの設計手法の概要を紹介する。

Intelligent reflecting surfaces (IRSs) have recently received significant attention for wireless communications because it reduces the hardware complexity, physical size, weight, and cost of conventional large arrays. However, deployment of IRS entails dealing with multiple channel links between the base station (BS) and the users. Further, the BS and IRS beamformers require a joint design, wherein the IRS elements must be rapidly reconfigured. Data-driven techniques, such as deep learning (DL), are critical in addressing these challenges. The lower computation time and model-free nature of DL makes it robust against the data imperfections and environmental changes. At the physical layer, DL has been shown to be effective for IRS signal detection, channel estimation and active/passive beamforming using architectures such as supervised, unsupervised and reinforcement learning. This article provides a synopsis of these techniques for designing DL-based IRS-assisted wireless systems.
翻訳日:2022-10-21 21:14:11 公開日:2022-07-21
# 生成変換器を用いたコントラストトリプル抽出

Contrastive Triple Extraction with Generative Transformer ( http://arxiv.org/abs/2009.06207v8 )

ライセンス: Link先を確認
Hongbin Ye, Ningyu Zhang, Shumin Deng, Mosha Chen, Chuanqi Tan, Fei Huang, Huajun Chen(参考訳) 三重抽出は自然言語処理と知識グラフ構築のための情報抽出に欠かせない課題である。 本稿では、シーケンス生成のためのエンドツーエンドのトリプル抽出タスクを再検討する。 生成的三重抽出は, 長期的依存を捕捉し, 不誠実な三重生成に苦慮する可能性があるため, 生成的変換器を用いた新規な三重抽出モデルを導入する。 具体的には,エンコーダデコーダをベースとした1つの共有トランスフォーマモジュールを提案する。 忠実な結果を生成するために,新しい三重項コントラスト学習対象を提案する。 さらに,モデル性能をさらに向上させる2つのメカニズム(バッチワイズ動的注意マッキングとトリプルワイズキャリブレーション)を導入する。 3つのデータセット(NYT,WebNLG,MIE)に対する実験結果から,本手法がベースラインよりも優れた性能を実現することが示された。

Triple extraction is an essential task in information extraction for natural language processing and knowledge graph construction. In this paper, we revisit the end-to-end triple extraction task for sequence generation. Since generative triple extraction may struggle to capture long-term dependencies and generate unfaithful triples, we introduce a novel model, contrastive triple extraction with a generative transformer. Specifically, we introduce a single shared transformer module for encoder-decoder-based generation. To generate faithful results, we propose a novel triplet contrastive training object. Moreover, we introduce two mechanisms to further improve model performance (i.e., batch-wise dynamic attention-masking and triple-wise calibration). Experimental results on three datasets (i.e., NYT, WebNLG, and MIE) show that our approach achieves better performance than that of baselines.
翻訳日:2022-10-18 12:17:02 公開日:2022-07-21
# 対話における抑うつ検出のためのマルチタスク学習

Multi-Task Learning for Depression Detection in Dialogs ( http://arxiv.org/abs/2208.10250v1 )

ライセンス: Link先を確認
Chuyuan Li (SEMAGRAMME, LORIA), Chlo\'e Braud (IRIT), Maxime Amblard (SEMAGRAMME, LORIA)(参考訳) うつ病は深刻な精神疾患であり、人々のコミュニケーション、特に感情を通じて、他人との対話の仕方に影響を与える。 本研究は、データのスパーシティに苦しむ、あまり研究されていないダイアログにおける抑うつ信号を調べる。 抑うつと感情が相互に情報を伝達できると仮定し,トピックと対話行動の予測を通じて対話構造の影響を検討する。 上述のタスクをダイアログ調整階層モデルと併用して学習するマルチタスク学習(MTL)手法について検討する。 daicとdailydialogのコーパスはどちらも英語のダイアログを含んでおり、うつ病検出の最先端技術(最大70.6%f1)よりも重要な改善を示し、うつ病と感情と対話の組織、異なる情報源の情報を活用するmtlの力の相関を示す。

Depression is a serious mental illness that impacts the way people communicate, especially through their emotions, and, allegedly, the way they interact with others. This work examines depression signals in dialogs, a less studied setting that suffers from data sparsity. We hypothesize that depression and emotion can inform each other, and we propose to explore the influence of dialog structure through topic and dialog act prediction. We investigate a Multi-Task Learning (MTL) approach, where all tasks mentioned above are learned jointly with dialog-tailored hierarchical modeling. We experiment on the DAIC and DailyDialog corpora-both contain dialogs in English-and show important improvements over state-ofthe-art on depression detection (at best 70.6% F 1), which demonstrates the correlation of depression with emotion and dialog organization and the power of MTL to leverage information from different sources.
翻訳日:2022-08-28 22:34:32 公開日:2022-07-21
# 事前学習型言語モデルにおけるテキスト・アドバイザラル・ディフェンスの再考

Rethinking Textual Adversarial Defense for Pre-trained Language Models ( http://arxiv.org/abs/2208.10251v1 )

ライセンス: Link先を確認
Jiayi Wang, Rongzhou Bao, Zhuosheng Zhang, Hai Zhao(参考訳) プレトレーニング言語モデル(PrLM)は大きな成功を収めているが、最近の研究では、PrLMは敵の攻撃に弱いことが示されている。 異なるレベル(文/単語/文字)でわずかな摂動を持つ敵の例を生成することで、敵の攻撃はPrLMを騙して誤った予測を生成し、PrLMの堅牢性に疑問を投げかける。 しかし、既存のテキストの逆数例のほとんどは不自然なものであり、人間と機械の両方で容易に区別できる。 一般的な異常検知器をベースとして,現在の敵攻撃アプローチがより自然で知覚不能な敵の例を生成するための制約として,新しい指標(異常度)を提案する。 この新たな制約の下では、既存の攻撃の成功率は劇的に減少し、PrLMsの堅牢性は、彼らが主張するほど脆弱ではないことが明らかになった。 さらに, 4種類のランダム化は, テキスト対逆例の大部分を無効化できることがわかった。 異常検出とランダム化に基づいて,本手法は,特定の攻撃を知らずにテキスト対角防御を初めて行うユニバーサル・ディフェンス・フレームワークを設計する。 経験的な結果から,我々のユニバーサルディフェンスフレームワークは,他の特定のディフェンスと同等あるいはそれ以上のアフターアタック精度を達成でき,同時に元の精度も維持できることがわかった。 Our work discloses the essence of textual adversarial attacks, and indicates that (1) further works of adversarial attacks should focus more on how to overcome the detection and resist the randomization, otherwise their adversarial examples would be easily detected and invalidated; and (2) compared with the unnatural and perceptible adversarial examples, it is those undetectable adversarial examples that pose real risks for PrLMs and require more attention for future robustness-enhancing strategies.

Although pre-trained language models (PrLMs) have achieved significant success, recent studies demonstrate that PrLMs are vulnerable to adversarial attacks. By generating adversarial examples with slight perturbations on different levels (sentence / word / character), adversarial attacks can fool PrLMs to generate incorrect predictions, which questions the robustness of PrLMs. However, we find that most existing textual adversarial examples are unnatural, which can be easily distinguished by both human and machine. Based on a general anomaly detector, we propose a novel metric (Degree of Anomaly) as a constraint to enable current adversarial attack approaches to generate more natural and imperceptible adversarial examples. Under this new constraint, the success rate of existing attacks drastically decreases, which reveals that the robustness of PrLMs is not as fragile as they claimed. In addition, we find that four types of randomization can invalidate a large portion of textual adversarial examples. Based on anomaly detector and randomization, we design a universal defense framework, which is among the first to perform textual adversarial defense without knowing the specific attack. Empirical results show that our universal defense framework achieves comparable or even higher after-attack accuracy with other specific defenses, while preserving higher original accuracy at the same time. Our work discloses the essence of textual adversarial attacks, and indicates that (1) further works of adversarial attacks should focus more on how to overcome the detection and resist the randomization, otherwise their adversarial examples would be easily detected and invalidated; and (2) compared with the unnatural and perceptible adversarial examples, it is those undetectable adversarial examples that pose real risks for PrLMs and require more attention for future robustness-enhancing strategies.
翻訳日:2022-08-28 22:34:15 公開日:2022-07-21
# マルチモーダル強化学習によるロバストオンランプマージに向けて

Towards Robust On-Ramp Merging via Augmented Multimodal Reinforcement Learning ( http://arxiv.org/abs/2208.07307v1 )

ライセンス: Link先を確認
Gaurav Bagwe, Jian Li, Xiaoyong Yuan, Lan Zhang(参考訳) AI対応のオンボード認識の成功にもかかわらず、オンランプ統合は自動運転の主要な課題の1つとなっている。 搭載センサの感知範囲が限られているため、マージ車両は主要道路状況の観察やマージが困難である。 接続された車両と自動走行車(cav)の間の無線通信を活用することで、マージキャビブは近隣の車両の意図を積極的に得ることができる。 しかし、CAVは、ノイズの多い基本安全メッセージ(BSM)や品質の悪い監視画像など、不正確な観察をしがちである。 本稿では,RAMRLによって命名されたAugmentedおよびMulti-modal Reinforcement Learningを介して,CAVのロバストオンランプマージを行う新しい手法を提案する。 具体的には,運転安全,快適運転行動,交通効率を考慮して,オンランプ合併問題をマルコフ決定プロセス(mdp)として定式化する。 信頼性の高いマージ操作を実現するために,bsmと監視画像を同時に活用して,近位政策最適化(ppo)による政策モデル学習を行うマルチモーダル観測を行う。 さらに,データ効率の向上と一般化性能の向上を目的として,拡張データ(ノイズbsmやノイズ監視画像など)を用いてポリシモデルをトレーニングする。 都市モビリティ(sumo)プラットフォームを2つの典型的なマージシナリオでシミュレーションし,広範な実験を行った。 実験結果は,ロバストなオンランプマージ設計の有効性と効率を示す。

Despite the success of AI-enabled onboard perception, on-ramp merging has been one of the main challenges for autonomous driving. Due to limited sensing range of onboard sensors, a merging vehicle can hardly observe main road conditions and merge properly. By leveraging the wireless communications between connected and automated vehicles (CAVs), a merging CAV has potential to proactively obtain the intentions of nearby vehicles. However, CAVs can be prone to inaccurate observations, such as the noisy basic safety messages (BSM) and poor quality surveillance images. In this paper, we present a novel approach for Robust on-ramp merge of CAVs via Augmented and Multi-modal Reinforcement Learning, named by RAMRL. Specifically, we formulate the on-ramp merging problem as a Markov decision process (MDP) by taking driving safety, comfort driving behavior, and traffic efficiency into account. To provide reliable merging maneuvers, we simultaneously leverage BSM and surveillance images for multi-modal observation, which is used to learn a policy model through proximal policy optimization (PPO). Moreover, to improve data efficiency and provide better generalization performance, we train the policy model with augmented data (e.g., noisy BSM and noisy surveillance images). Extensive experiments are conducted with Simulation of Urban MObility (SUMO) platform under two typical merging scenarios. Experimental results demonstrate the effectiveness and efficiency of our robust on-ramp merging design.
翻訳日:2022-08-28 22:33:20 公開日:2022-07-21
# 強化学習による最適停止問題の解法:金融オプション演習への適用

Solving the optimal stopping problem with reinforcement learning: an application in financial option exercise ( http://arxiv.org/abs/2208.00765v1 )

ライセンス: Link先を確認
Leonardo Kanashiro Felizardo and Elia Matsumoto and Emilio Del-Moral-Hernandez(参考訳) 最適停止問題は、特定の制約のある構成を持つ決定問題のカテゴリである。 財務や管理など、現実世界のさまざまなアプリケーションと関係がある。 最適停止問題を解決するために、最小二乗モンテカルロ(LSMC)のような動的プログラミングにおける最先端のアルゴリズムを用いる。 この種のアルゴリズムは、基礎となる資産の最後の価格のみを状態表現として使用するパスシミュレーションに依存している。 またLSMCは、リスクニュートラル確率を不確実性を考慮したオプション評価も検討していた。 しかし、一般的な最適停止問題ゴールは、自己相関価格を示すLSMCの要件に適合しないかもしれない。 本研究では,モンテカルロシミュレーションを用いてニューラルネットワーク(ann)の学習とテストを行い,最適停止問題を解くデータ駆動手法を提案する。 ANNを使って意思決定の問題を解決することは、まったく新しいことではない。 我々は、畳み込みニューラルネットワーク(CNN)を用いて価格の歴史全体をマルコフ状態に変換する際に生じる次元問題に対処する別のアーキテクチャを提案する。 提案するアーキテクチャが,特定のシミュレーション時系列関数セットにおいて,先行実装よりも結果が向上することを示す実験を行う。 最後に,提案手法を用いて,金融オプション問題の最適エクササイズとLSMCアルゴリズムを比較した。 実験の結果,LSMCと比較して,より正確な運動機会を得られることがわかった。 実世界のリターンデータベースをサンプル外(テスト)データで使用したモンテカルロシミュレーションでは,これらのエクササイズポリシの成果(974\%以上の改善)が期待できるほど高くなりました。

The optimal stopping problem is a category of decision problems with a specific constrained configuration. It is relevant to various real-world applications such as finance and management. To solve the optimal stopping problem, state-of-the-art algorithms in dynamic programming, such as the least-squares Monte Carlo (LSMC), are employed. This type of algorithm relies on path simulations using only the last price of the underlying asset as a state representation. Also, the LSMC was thinking for option valuation where risk-neutral probabilities can be employed to account for uncertainty. However, the general optimal stopping problem goals may not fit the requirements of the LSMC showing auto-correlated prices. We employ a data-driven method that uses Monte Carlo simulation to train and test artificial neural networks (ANN) to solve the optimal stopping problem. Using ANN to solve decision problems is not entirely new. We propose a different architecture that uses convolutional neural networks (CNN) to deal with the dimensionality problem that arises when we transform the whole history of prices into a Markovian state. We present experiments that indicate that our proposed architecture improves results over the previous implementations under specific simulated time series function sets. Lastly, we employ our proposed method to compare the optimal exercise of the financial options problem with the LSMC algorithm. Our experiments show that our method can capture more accurate exercise opportunities when compared to the LSMC. We have outstandingly higher (above 974\% improvement) expected payoff from these exercise policies under the many Monte Carlo simulations that used the real-world return database on the out-of-sample (test) data.
翻訳日:2022-08-07 14:27:17 公開日:2022-07-21
# pirounet: semi-supervised conditional recurrent variational autoencoderによる意図的なダンスの作成

PirouNet: Creating Intentional Dance with Semi-Supervised Conditional Recurrent Variational Autoencoders ( http://arxiv.org/abs/2207.12126v1 )

ライセンス: Link先を確認
Mathilde Papillon, Mariel Pettee, Nina Miolane(参考訳) 人工知能(AI)を用いてダンス振付を作成することは、まだ初期段階にある。 ダンス・シーケンスを条件付きで生成する手法は、しばしば外部のプロンプトや教師付き学習に依存して、コレオグラフィー固有の創造的意図に従う能力に制限されている。 同じ流れで、完全に注釈付きダンスデータセットはまれで、労働集約的です。 このギャップを埋め、深層学習をコレオグラフィーにとって意味のあるツールとして活用するために、半教師付き条件付きリカレント変分自動エンコーダであるPirouNetとダンスラベリングWebアプリケーションを提案する。 pirounetは、ダンスのプロが自分の主観的なクリエイティブなラベルでデータを注釈付けし、その美的基準に基づいて新しいコレオグラフィーを生成できるようにする。 提案された半教師付きアプローチのおかげで、PirouNetはデータセットのごく一部だけをラベル付けする必要がある。 動きの時間ダイナミクスの意図を記述する確立されたダンス概念である「ラバン・タイム・ワーク」に基づいて独自の振り付けを生成するピルーネットの能力を示す。 我々はPirouNetのダンス生成を定性的かつ定量的に評価し、振付家のためのツールとしての有効性を検証した。

Using Artificial Intelligence (AI) to create dance choreography with intention is still at an early stage. Methods that conditionally generate dance sequences remain limited in their ability to follow choreographer-specific creative intentions, often relying on external prompts or supervised learning. In the same vein, fully annotated dance datasets are rare and labor intensive. To fill this gap and help leverage deep learning as a meaningful tool for choreographers, we propose "PirouNet", a semi-supervised conditional recurrent variational autoencoder together with a dance labeling web application. PirouNet allows dance professionals to annotate data with their own subjective creative labels and subsequently generate new bouts of choreography based on their aesthetic criteria. Thanks to the proposed semi-supervised approach, PirouNet only requires a small portion of the dataset to be labeled, typically on the order of 1%. We demonstrate PirouNet's capabilities as it generates original choreography based on the "Laban Time Effort", an established dance notion describing intention for a movement's time dynamics. We extensively evaluate PirouNet's dance creations through a series of qualitative and quantitative metrics, validating its applicability as a tool for choreographers.
翻訳日:2022-07-26 15:16:54 公開日:2022-07-21
# 時間的スパースデータによる制御ネットワークの推定

Inference of Regulatory Networks Through Temporally Sparse Data ( http://arxiv.org/abs/2207.12124v1 )

ライセンス: Link先を確認
Mohammad Alali and Mahdi Imani(参考訳) ゲノム学の大きな目標は、遺伝子制御ネットワーク(GRN)の複雑な動的挙動を適切に捉えることである。 これには、疾患の診断や予後、がんなどの慢性疾患の効果的な治療法の発見など、幅広いゲノム解析に使用できる遺伝子間の複雑な相互作用を推測することが含まれる。 ブールネットワークは、GRNの振る舞いを捉えるためのモデルとして成功している。 ほとんどの実践的な環境では、GRNの推測は、限られた時間的にスパースなゲノムデータによって達成されるべきである。 GRNの多くの遺伝子は大きなトポロジー候補空間をもたらすが、計算資源の制限のために徹底的に探索することはできない。 本稿では,ベイズ最適化とカーネルベースの手法を用いて,GRNのスケーラブルかつ効率的なトポロジ推定法を開発した。 提案手法は,可能なトポロジを網羅的に探索するのではなく,トポロジに着想を得たカーネル関数を持つガウス過程(GP)を構築し,確率関数の相関性を考慮した。 そして, gpモデルの後方分布を用いて, ベイズ最適化は探索と搾取のバランスを最適に保ち, 高い確率値のトポロジーを効率的に探索する。 提案手法の性能は,よく知られた哺乳動物細胞サイクルネットワークを用いた総合的な数値実験により実証された。

A major goal in genomics is to properly capture the complex dynamical behaviors of gene regulatory networks (GRNs). This includes inferring the complex interactions between genes, which can be used for a wide range of genomics analyses, including diagnosis or prognosis of diseases and finding effective treatments for chronic diseases such as cancer. Boolean networks have emerged as a successful class of models for capturing the behavior of GRNs. In most practical settings, inference of GRNs should be achieved through limited and temporally sparse genomics data. A large number of genes in GRNs leads to a large possible topology candidate space, which often cannot be exhaustively searched due to the limitation in computational resources. This paper develops a scalable and efficient topology inference for GRNs using Bayesian optimization and kernel-based methods. Rather than an exhaustive search over possible topologies, the proposed method constructs a Gaussian Process (GP) with a topology-inspired kernel function to account for correlation in the likelihood function. Then, using the posterior distribution of the GP model, the Bayesian optimization efficiently searches for the topology with the highest likelihood value by optimally balancing between exploration and exploitation. The performance of the proposed method is demonstrated through comprehensive numerical experiments using a well-known mammalian cell-cycle network.
翻訳日:2022-07-26 13:53:34 公開日:2022-07-21
# 列車時間モデル評価のためのグラフフレンドリーCOCOメトリック計算の効率化

Efficient Graph-Friendly COCO Metric Computation for Train-Time Model Evaluation ( http://arxiv.org/abs/2207.12120v1 )

ライセンス: Link先を確認
Luke Wood, Francois Chollet(参考訳) 現代のディープラーニングフレームワークの静的計算グラフの一部として、COCO平均平均精度(MaP)とCOCOリコールメトリクスを評価することは、ユニークな課題である。 これらの課題には、平均精度を計算するために動的サイズの状態を維持すること、メトリクスを計算するためにグローバルデータセットレベルの統計に依存すること、バッチ内の画像間で異なる数のバウンディングボックスを管理することが含まれる。 結果として、研究者や実践者がCOCOメトリクスをポストトレーニング評価ステップとして評価することが一般的である。 coco平均平均精度とリコールを計算するグラフフレンドリーなアルゴリズムによって、これらのメトリクスはトレーニング時に評価され、トレーニング曲線プロットによるメトリクスの進化の可視性が向上し、新しいモデルバージョンのプロトタイピング時のイテレーション時間が短縮される。 提案手法は,平均平均精度の正確な近似アルゴリズム,coco平均精度とcocoリコールのオープンソース実装,実装の精度を検証するための広範な数値ベンチマーク,平均精度とリコールのトレインタイム評価を含むオープンソースのトレーニングループなどを含む。

Evaluating the COCO mean average precision (MaP) and COCO recall metrics as part of the static computation graph of modern deep learning frameworks poses a unique set of challenges. These challenges include the need for maintaining a dynamic-sized state to compute mean average precision, reliance on global dataset-level statistics to compute the metrics, and managing differing numbers of bounding boxes between images in a batch. As a consequence, it is common practice for researchers and practitioners to evaluate COCO metrics as a post training evaluation step. With a graph-friendly algorithm to compute COCO Mean Average Precision and recall, these metrics could be evaluated at training time, improving visibility into the evolution of the metrics through training curve plots, and decreasing iteration time when prototyping new model versions. Our contributions include an accurate approximation algorithm for Mean Average Precision, an open source implementation of both COCO mean average precision and COCO recall, extensive numerical benchmarks to verify the accuracy of our implementations, and an open-source training loop that include train-time evaluation of mean average precision and recall.
翻訳日:2022-07-26 13:50:04 公開日:2022-07-21
# 予測符号化ネットワークにおける推論と学習の理論的枠組み

A Theoretical Framework for Inference and Learning in Predictive Coding Networks ( http://arxiv.org/abs/2207.12316v1 )

ライセンス: Link先を確認
Beren Millidge, Yuhang Song, Tommaso Salvatori, Thomas Lukasiewicz, Rafal Bogacz(参考訳) 予測符号化 (predictive coding, pc) は計算神経科学において影響力のある理論であり、予測誤差最小化の階層的プロセスを実装することによって皮質は教師なしの世界モデルを形成すると主張する。 PCネットワーク(PCN)は2つのフェーズで訓練される。 まず、外部刺激に対するネットワークの反応を最適化するために神経活動が更新される。 第二に、シナプス重みが更新され、このアクティビティの変化が強化される -- \emph{prospective configuration} と呼ばれるアルゴリズム。 過去の研究では、PCNがバックプロパゲーション(BP)を近似する方法が示されているが、最近の研究は、BPを近似しないこの標準体制で動作しているPCNが、BP訓練ネットワークに対する競争訓練や一般化性能を得られる一方で、オンライン、少数ショット、継続学習などのタスクでは優れており、脳が興奮することが知られている。 この有望な実証的性能にもかかわらず、この体制におけるpcnの性質とダイナミクスについて理論的にはほとんど理解されていない。 本稿では,予測構成で訓練されたPCNの特性に関する包括的理論的解析を行う。 本研究はまず,PCNの推論平衡とターゲット伝搬(TP)との密接な関係について解析的な結果を得る。 次に,一般化期待最大化の変種としてpcnsにおける学習の理論的解析を行い,bp損失関数の臨界点へのpcnの収束を証明し,理論上はbpと同一の一般化性能を達成できることを示した。

Predictive coding (PC) is an influential theory in computational neuroscience, which argues that the cortex forms unsupervised world models by implementing a hierarchical process of prediction error minimization. PC networks (PCNs) are trained in two phases. First, neural activities are updated to optimize the network's response to external stimuli. Second, synaptic weights are updated to consolidate this change in activity -- an algorithm called \emph{prospective configuration}. While previous work has shown how in various limits, PCNs can be found to approximate backpropagation (BP), recent work has demonstrated that PCNs operating in this standard regime, which does not approximate BP, nevertheless obtain competitive training and generalization performance to BP-trained networks while outperforming them on tasks such as online, few-shot, and continual learning, where brains are known to excel. Despite this promising empirical performance, little is understood theoretically about the properties and dynamics of PCNs in this regime. In this paper, we provide a comprehensive theoretical analysis of the properties of PCNs trained with prospective configuration. We first derive analytical results concerning the inference equilibrium for PCNs and a previously unknown close connection relationship to target propagation (TP). Secondly, we provide a theoretical analysis of learning in PCNs as a variant of generalized expectation-maximization and use that to prove the convergence of PCNs to critical points of the BP loss function, thus showing that deep PCNs can, in theory, achieve the same generalization performance as BP, while maintaining their unique advantages.
翻訳日:2022-07-26 13:07:31 公開日:2022-07-21
# 初期仮想スクリーニングのための分子特性の確率分布の低コスト予測

Low cost prediction of probability distributions of molecular properties for early virtual screening ( http://arxiv.org/abs/2207.11174v1 )

ライセンス: Link先を確認
Jarek Duda, Sabina Podlewska(参考訳) 一般に値の予測に焦点が当てられているが、数学的にはより適切なのは確率分布の予測である。 コンピュータ支援薬物設計の分野では, 階層的相関再構築手法を適用し, 人口統計, 財務, 天文学的データの解析に応用した。 値を予測するための単一の線形回帰の代わりに、複数の線形回帰を用いて独立に複数のモーメントを予測し、最終的にそれらを組み合わせて予測確率分布へと予測する。 開示された応用例は、仮想スクリーニング中に予測または選択された範囲にあることがほぼ確実な性質を持つ分子の割合の安価な選択である。 このようなアプローチは、高い不確実性率で特徴づけられる予測が自動的に検出されるので、結果の解釈を容易にすることができる。 また, それぞれの予測問題に対して, 化合物を特定の特性に最適化する際に考慮すべき重要な構造的特徴を検出した。 本研究で開発された全手法は, 所望の物理化学的・アドメット特性の最小ポテンシャルを有する化合物の迅速な拒絶を可能とし, 化合物最適化プロセスを導くため, 医薬化学者にとって大きな支援となる。

While there is a general focus on predictions of values, mathematically more appropriate is prediction of probability distributions: with additional possibilities like prediction of uncertainty, higher moments and quantiles. For the purpose of the computer-aided drug design field, this article applies Hierarchical Correlation Reconstruction approach, previously applied in the analysis of demographic, financial and astronomical data. Instead of a single linear regression to predict values, it uses multiple linear regressions to independently predict multiple moments, finally combining them into predicted probability distribution, here of several ADMET properties based on substructural fingerprint developed by Klekota\&Roth. Discussed application example is inexpensive selection of a percentage of molecules with properties nearly certain to be in a predicted or chosen range during virtual screening. Such an approach can facilitate the interpretation of the results as the predictions characterized by high rate of uncertainty are automatically detected. In addition, for each of the investigated predictive problems, we detected crucial structural features, which should be carefully considered when optimizing compounds towards particular property. The whole methodology developed in the study constitutes therefore a great support for medicinal chemists, as it enable fast rejection of compounds with the lowest potential of desired physicochemical/ADMET characteristic and guides the compound optimization process.
翻訳日:2022-07-25 13:53:40 公開日:2022-07-21
# 音声概念の教師なし階層学習

Learning Unsupervised Hierarchies of Audio Concepts ( http://arxiv.org/abs/2207.11231v1 )

ライセンス: Link先を確認
Darius Afchar, Romain Hennequin and Vincent Guigue(参考訳) 音楽信号は低レベルの特徴から解釈することは困難であり、例えば、スペクトログラムや画像のハイライトは、人間と真に関係のある高レベルのアイデアを伝えるのに不十分である。 コンピュータビジョンでは、適切な抽象化レベル(例えば、放射線写真から臨床概念を検出する)に説明を調整するために概念学習が提案された。 これらの手法はまだMIRには使われていない。 本稿では,概念学習を音楽の領域に適応させ,その特質について述べる。 例えば、音楽の概念は典型的には非独立的で混合性(ジャンル、楽器、ムードなど)であり、非絡み合いの概念を仮定した以前の作品とは異なる。 音声から多数の音楽概念を学習し,それらを階層化し,相互関係を明らかにする手法を提案する。 音楽ストリーミングサービスのプレイリストのデータセットについて実験を行い、様々なコンセプトの注釈付き例をいくつか提供する。 評価の結果、採掘された階層は、利用可能な場合、概念の基盤となる階層と、一般的な場合における概念の類似性のプロキシソースの両方に一致していることが示されている。

Music signals are difficult to interpret from their low-level features, perhaps even more than images: e.g. highlighting part of a spectrogram or an image is often insufficient to convey high-level ideas that are genuinely relevant to humans. In computer vision, concept learning was therein proposed to adjust explanations to the right abstraction level (e.g. detect clinical concepts from radiographs). These methods have yet to be used for MIR. In this paper, we adapt concept learning to the realm of music, with its particularities. For instance, music concepts are typically non-independent and of mixed nature (e.g. genre, instruments, mood), unlike previous work that assumed disentangled concepts. We propose a method to learn numerous music concepts from audio and then automatically hierarchise them to expose their mutual relationships. We conduct experiments on datasets of playlists from a music streaming service, serving as a few annotated examples for diverse concepts. Evaluations show that the mined hierarchies are aligned with both ground-truth hierarchies of concepts -- when available -- and with proxy sources of concept similarity in the general case.
翻訳日:2022-07-25 13:53:15 公開日:2022-07-21
# 国際LOFAR望遠鏡を用いた重力レンズ識別のための機械学習手法

A machine learning based approach to gravitational lens identification with the International LOFAR Telescope ( http://arxiv.org/abs/2207.10698v1 )

ライセンス: Link先を確認
S.Rezaei, J. P. McKean, M. Biehl, W. de Roo1 and A. Lafontaine(参考訳) 本稿では、干渉データから銀河スケールの重力レンズを検出するための新しい機械学習アプローチ、特に、150mhzの周波数、350masの角分解能、90ujyビーム-1 (1シグマ)の感度を観測する国際ロファー望遠鏡(ilt)で撮影したものについて述べる。 いくつかの畳み込みニューラルネットワークを開発し、レンズ付きまたは非レンズ型事象に分類されるサンプルの確率と不確実性を決定する。 リアルなレンズと非レンズの電波源を含むシミュレーション干渉画像データセットのトレーニングとテストにより、レンズのサンプルの95.3パーセント(真の陽性率)を、非レンズのサンプル(偽陽性率)からわずか0.008パーセントの汚染で回収することが可能であることが判明した。 期待レンズの確率を考慮に入れると、92.2%のレンズイベントのサンプル純度が予測される。 レンズ画像間の最大画像分離が合成ビームサイズの3倍以上である場合,ネットワーク構造が最も堅牢であること,および少なくとも20個の点源検出に等しい全フラックス密度を有することが確認された。 ILT の場合、これは Einstein radii が0.5 arcsec より大きいレンズサンプルと、150MHz のフラックス密度を持つ電波源の密度が 2 mJy 以上であるレンズサンプルに対応する。 これらの基準とレンズ検出アルゴリズムを適用することで、lofar two metre sky surveyに含まれる銀河スケールの重力レンズシステムの大部分を発見できると期待しています。

We present a novel machine learning based approach for detecting galaxy-scale gravitational lenses from interferometric data, specifically those taken with the International LOFAR Telescope (ILT), which is observing the northern radio sky at a frequency of 150 MHz, an angular resolution of 350 mas and a sensitivity of 90 uJy beam-1 (1 sigma). We develop and test several Convolutional Neural Networks to determine the probability and uncertainty of a given sample being classified as a lensed or non-lensed event. By training and testing on a simulated interferometric imaging data set that includes realistic lensed and non-lensed radio sources, we find that it is possible to recover 95.3 per cent of the lensed samples (true positive rate), with a contamination of just 0.008 per cent from non-lensed samples (false positive rate). Taking the expected lensing probability into account results in a predicted sample purity for lensed events of 92.2 per cent. We find that the network structure is most robust when the maximum image separation between the lensed images is greater than 3 times the synthesized beam size, and the lensed images have a total flux density that is equivalent to at least a 20 sigma (point-source) detection. For the ILT, this corresponds to a lens sample with Einstein radii greater than 0.5 arcsec and a radio source population with 150 MHz flux densities more than 2 mJy. By applying these criteria and our lens detection algorithm we expect to discover the vast majority of galaxy-scale gravitational lens systems contained within the LOFAR Two Metre Sky Survey.
翻訳日:2022-07-25 13:50:39 公開日:2022-07-21
# 機械から物理を学ぶ:Majorana Demonstratorのための解釈可能な昇降木解析

Learning Physics from the Machine: An Interpretable Boosted Decision Tree Analysis for the Majorana Demonstrator ( http://arxiv.org/abs/2207.10710v1 )

ライセンス: Link先を確認
I.J. Arnquist, F.T. Avignone III, A.S. Barabash, C.J. Barton, K.H. Bhimani, E. Blalock, B. Bos, M. Busch, M. Buuck, T.S. Caldwell, Y-D. Chan, C.D. Christofferson, P.-H. Chu, M.L. Clark, C. Cuesta, J.A. Detwiler, Yu. Efremenko, S.R. Elliott, G.K. Giovanetti, M.P. Green, J. Gruszko, I.S. Guinn, V.E. Guiseppe, C.R. Haufe, R. Henning, D. Hervas Aguilar, E.W. Hoppe, A. Hostiuc, M.F. Kidd, I. Kim, R.T. Kouzes, T.E. Lannen V, A. Li, J.M. Lopez-Castano, E.L. Martin, R.D. Martin, R. Massarczyk, S.J. Meijer, T.K. Oli, G. Othman, L.S. Paudel, W. Pettus, A.W.P. Poon, D.C. Radford, A.L. Reine, K. Rielage, N.W. Ruof, D.C. Schaper, D. Tedeschi, R.L. Varner, S. Vasilyev, J.F. Wilkerson, C. Wiseman, W. Xu, C.-H. Yu(参考訳) majorana demonstratorは、高純度ゲルマニウム検出器(hpge)を用いて、ニュートリノのない二重ベータ崩壊を探索する主要な実験である。 機械学習は、これらの検出器が提供する情報量を最大化する新しい方法を提供するが、データ駆動型の性質は従来の分析に比べて解釈しにくくする。 解釈可能性に関する研究では、マシンの意思決定ロジックを明らかにし、マシンから学習して従来の分析にフィードバックすることができる。 本研究では,マヨルダナデモンストラクタから得られたデータについて,最初の機械学習解析を行った。また,ゲルマニウム検出器実験の解釈可能な機械学習解析も初めてである。 データから学習するために2つの勾配ブースト決定木モデルを訓練し、分類力の起源を理解するためにゲーム理論に基づくモデル解釈可能性の研究を行う。 データから学習することにより、再構成パラメータ間の相関を認識し、背景拒絶性能をさらに高める。 マシンから学習することで、標準的なMajorana分析を相互に活用するために、新しい背景カテゴリの重要性が明らかになる。 このモデルは、多数の検出器で同時に訓練できるため、レジェンドのような次世代ゲルマニウム検出器実験と高い互換性がある。

The Majorana Demonstrator is a leading experiment searching for neutrinoless double-beta decay with high purity germanium detectors (HPGe). Machine learning provides a new way to maximize the amount of information provided by these detectors, but the data-driven nature makes it less interpretable compared to traditional analysis. An interpretability study reveals the machine's decision-making logic, allowing us to learn from the machine to feedback to the traditional analysis. In this work, we have presented the first machine learning analysis of the data from the Majorana Demonstrator; this is also the first interpretable machine learning analysis of any germanium detector experiment. Two gradient boosted decision tree models are trained to learn from the data, and a game-theory-based model interpretability study is conducted to understand the origin of the classification power. By learning from data, this analysis recognizes the correlations among reconstruction parameters to further enhance the background rejection performance. By learning from the machine, this analysis reveals the importance of new background categories to reciprocally benefit the standard Majorana analysis. This model is highly compatible with next-generation germanium detector experiments like LEGEND since it can be simultaneously trained on a large number of detectors.
翻訳日:2022-07-25 13:50:15 公開日:2022-07-21
# 化学発見における最適密度関数近似の選択のための伝達可能なレコメンダアプローチ

A Transferable Recommender Approach for Selecting the Best Density Functional Approximations in Chemical Discovery ( http://arxiv.org/abs/2207.10747v1 )

ライセンス: Link先を確認
Chenru Duan, Aditya Nandy, Ralf Meyer, Naveen Arunachalam, and Heather J. Kulik(参考訳) 近似密度汎関数理論(DFT)は、より計算的に要求されるが正確な相関波動関数理論と比較して、そのコスト-精度トレードオフのため、不可欠である。 しかし, 単一密度汎関数近似 (DFA) の普遍的精度は確認されていないため, DFTから生成されたデータの品質は不確実である。 電子密度の嵌合と移動学習により,金標準に対して最も低い期待誤差でDFAを選択するDFAレコメンデータをシステム固有の方法で構築する。 遷移金属錯体の垂直スピン分離エネルギー評価における提案手法について述べる。 提案手法は, DFAの最高性能を予測し, 化学的発見に優れた精度(約2kcal/mol)が得られる。 そこで我々は, DFAレコメンデータの異なる化学組成の化合物への転写性を示す。

Approximate density functional theory (DFT) has become indispensable owing to its cost-accuracy trade-off in comparison to more computationally demanding but accurate correlated wavefunction theory. To date, however, no single density functional approximation (DFA) with universal accuracy has been identified, leading to uncertainty in the quality of data generated from DFT. With electron density fitting and transfer learning, we build a DFA recommender that selects the DFA with the lowest expected error with respect to gold standard but cost-prohibitive coupled cluster theory in a system-specific manner. We demonstrate this recommender approach on vertical spin-splitting energy evaluation for challenging transition metal complexes. Our recommender predicts top-performing DFAs and yields excellent accuracy (ca. 2 kcal/mol) for chemical discovery, outperforming both individual transfer learning models and the single best functional in a set of 48 DFAs. We demonstrate the transferability of the DFA recommender to experimentally synthesized compounds with distinct chemistry.
翻訳日:2022-07-25 13:49:55 公開日:2022-07-21
# スパム検出のためのインタラクションネットワークによるユーザ行動のモデル化

Modeling User Behavior With Interaction Networks for Spam Detection ( http://arxiv.org/abs/2207.10767v1 )

ライセンス: Link先を確認
Prabhat Agarwal, Manisha Srivastava, Vishwakarma Singh, Charles Rosenberg(参考訳) Spamは、ユーザのコンテンツ作成と配布を容易にするWebスケールのデジタルプラットフォームを悩ませる深刻な問題である。 プラットフォームの整合性、レコメンデーションや検索などのサービスのパフォーマンス、ビジネス全体のパフォーマンスを損なう。 スパマーは、非スパマーと異なる様々な虐待的および回避的行動に関与する。 ユーザの複雑な振る舞いは、ノード属性とエッジ属性が豊富な異種グラフによってうまく表現できる。 webスケールプラットフォームのためのそのようなグラフでスパマーを識別する学習は、その構造的複雑さとサイズのために難しい。 本稿では,新しいグラフフレームワーク上でのスパム検出モデルであるSEINE(Spam Detection using Interaction NEtworks)を提案する。 我々のグラフは、リッチユーザの詳細と振る舞いを同時にキャプチャし、数十億規模のグラフで学習することができる。 我々のモデルは、エッジタイプや属性とともに近隣を考慮し、幅広いスパマーを捕捉することができる。 数千万のノードと数十億のエッジの実際のデータセットに基づいてトレーニングされたSEINEは、80%のリコールと1%の偽陽性率のハイパフォーマンスを実現する。 SEINEは、大規模なプロダクションシステムでの使用が現実的でありながら、パブリックデータセットの最先端技術に匹敵するパフォーマンスを実現している。

Spam is a serious problem plaguing web-scale digital platforms which facilitate user content creation and distribution. It compromises platform's integrity, performance of services like recommendation and search, and overall business. Spammers engage in a variety of abusive and evasive behavior which are distinct from non-spammers. Users' complex behavior can be well represented by a heterogeneous graph rich with node and edge attributes. Learning to identify spammers in such a graph for a web-scale platform is challenging because of its structural complexity and size. In this paper, we propose SEINE (Spam DEtection using Interaction NEtworks), a spam detection model over a novel graph framework. Our graph simultaneously captures rich users' details and behavior and enables learning on a billion-scale graph. Our model considers neighborhood along with edge types and attributes, allowing it to capture a wide range of spammers. SEINE, trained on a real dataset of tens of millions of nodes and billions of edges, achieves a high performance of 80% recall with 1% false positive rate. SEINE achieves comparable performance to the state-of-the-art techniques on a public dataset while being pragmatic to be used in a large-scale production system.
翻訳日:2022-07-25 13:49:35 公開日:2022-07-21
# 拡張クラッシュ予測のためのヘテロジニアスアンサンブル学習 - 頻繁かつ機械学習ベースのスタックフレームワーク

Heterogeneous Ensemble Learning for Enhanced Crash Forecasts -- A Frequentest and Machine Learning based Stacking Framework ( http://arxiv.org/abs/2207.10721v1 )

ライセンス: Link先を確認
Numan Ahmad, Behram Wali, Asad J. Khattak(参考訳) 様々な統計的および機械学習手法を用いて、特定の道路の衝突頻度を予測精度の高い機械学習手法でモデル化する。 近年、スタック化を含む異種アンサンブル法(HEM)は、より正確で堅牢なインテリジェントな手法として登場し、より信頼性が高く正確な予測を提供することで、パターン認識の問題を解決するためにしばしば用いられる。 本研究では,都市および郊外の5車線未分割セグメント(5T)の衝突頻度をモデル化するために,重要なHEM手法の1つ,スタックリングを適用した。 Stackingの予測性能は、パラメトリック統計モデル(Poissonと負二項法)と、機械学習技術の3つの状態(決定木、ランダム森林、勾配促進)を比較し、それぞれをベースラーナーと呼ぶ。 個々のベース学習者を積み重ねによって結合する最適重みスキームを用いることにより、仕様や予測精度の相違による個々のベース学習者におけるバイアス付き予測の問題を回避する。 事故、交通、道路の在庫を含むデータは2013年から2017年にかけて収集、統合された。 データはトレーニング、検証、テストデータセットに分割される。 統計モデルの推定結果は、他の要因に加えて、衝突は異なる種類のドライブウェイの密度(1マイルあたりの数)とともに増加することを示している。 様々なモデルのサンプル外予測の比較により、検討した代替手法よりもスタックの優位性が確認される。 実用的な見地からすると、スタック化は予測精度を高めることができる(特定の仕様を持つ1つのベース学習者のみを使用することと比較できる)。 体系的に適用される場合、スタックはより適切な対策を特定するのに役立つ。

A variety of statistical and machine learning methods are used to model crash frequency on specific roadways with machine learning methods generally having a higher prediction accuracy. Recently, heterogeneous ensemble methods (HEM), including stacking, have emerged as more accurate and robust intelligent techniques and are often used to solve pattern recognition problems by providing more reliable and accurate predictions. In this study, we apply one of the key HEM methods, Stacking, to model crash frequency on five lane undivided segments (5T) of urban and suburban arterials. The prediction performance of Stacking is compared with parametric statistical models (Poisson and negative binomial) and three state of the art machine learning techniques (Decision tree, random forest, and gradient boosting), each of which is termed as the base learner. By employing an optimal weight scheme to combine individual base learners through stacking, the problem of biased predictions in individual base-learners due to differences in specifications and prediction accuracies is avoided. Data including crash, traffic, and roadway inventory were collected and integrated from 2013 to 2017. The data are split into training, validation, and testing datasets. Estimation results of statistical models reveal that besides other factors, crashes increase with density (number per mile) of different types of driveways. Comparison of out-of-sample predictions of various models confirms the superiority of Stacking over the alternative methods considered. From a practical standpoint, stacking can enhance prediction accuracy (compared to using only one base learner with a particular specification). When applied systemically, stacking can help identify more appropriate countermeasures.
翻訳日:2022-07-25 13:45:09 公開日:2022-07-21
# 大型レコメンデーションモデルにおけるモデルサイズのトレードオフ : 10000$\times$ compressed Criteo-tb DLRM model (100 GB parameters to mere 10MB)

The trade-offs of model size in large recommendation models : A 10000 $\times$ compressed criteo-tb DLRM model (100 GB parameters to mere 10MB) ( http://arxiv.org/abs/2207.10731v1 )

ライセンス: Link先を確認
Aditya Desai, Anshumali Shrivastava(参考訳) 埋め込みテーブルは、最大テラバイトのメモリを使用する産業規模のレコメンデーションモデルサイズを支配している。 推奨データに関する機械学習MLPerfベンチマークは、テラバイトのクリックスルーデータに基づいてトレーニングされたDeep Learning Recommendation Model(DLRM)である。 100GBの埋め込みメモリ(25以上のBillionパラメータ)を含んでいる。 DLRMは、そのサイズと関連するデータ量のため、トレーニングの困難、推論のためのデプロイ、大きな埋め込みテーブルによるメモリボトルネックに直面します。 本稿では,dlrmモデル圧縮のための汎用パラメータ共有設定(pss)を分析し,広範囲に評価する。 埋め込みテーブルに$(1 \pm \epsilon)$近似を達成するための学習可能なメモリ要件に関する理論的上限を示す。 我々の限界は、精度の良いパラメータが指数関数的に少ないことを示している。 この目的のために,PSS DLRMが10000$\times$圧縮に達することをCriteo-tbで実証した。 しかし、このような圧縮には注意が必要だ。 同じ飽和品質に達するには4.5$\times$以上のイテレーションが必要です。 論文は、このトレードオフにはさらなる調査が必要であると主張している。 圧縮モデルの小さなサイズを活用すると、トレーニングレイテンシが4.3$\times$向上し、トレーニング時間全体が同じになる。 したがって、小さなDLRMモデルと遅い収束率のシステムの利点のトレードオフにおいて、スケールはより小さいDLRMモデルに向けられ、より高速な推論、より簡単なデプロイメント、同様のトレーニング時間をもたらすことが示される。

Embedding tables dominate industrial-scale recommendation model sizes, using up to terabytes of memory. A popular and the largest publicly available machine learning MLPerf benchmark on recommendation data is a Deep Learning Recommendation Model (DLRM) trained on a terabyte of click-through data. It contains 100GB of embedding memory (25+Billion parameters). DLRMs, due to their sheer size and the associated volume of data, face difficulty in training, deploying for inference, and memory bottlenecks due to large embedding tables. This paper analyzes and extensively evaluates a generic parameter sharing setup (PSS) for compressing DLRM models. We show theoretical upper bounds on the learnable memory requirements for achieving $(1 \pm \epsilon)$ approximations to the embedding table. Our bounds indicate exponentially fewer parameters suffice for good accuracy. To this end, we demonstrate a PSS DLRM reaching 10000$\times$ compression on criteo-tb without losing quality. Such a compression, however, comes with a caveat. It requires 4.5 $\times$ more iterations to reach the same saturation quality. The paper argues that this tradeoff needs more investigations as it might be significantly favorable. Leveraging the small size of the compressed model, we show a 4.3$\times$ improvement in training latency leading to similar overall training times. Thus, in the tradeoff between system advantage of a small DLRM model vs. slower convergence, we show that scales are tipped towards having a smaller DLRM model, leading to faster inference, easier deployment, and similar training times.
翻訳日:2022-07-25 13:44:42 公開日:2022-07-21
# 振動データに基づく故障検出のための説明可能なAIアルゴリズム:事例適応手法と評価

Explainable AI Algorithms for Vibration Data-based Fault Detection: Use Case-adadpted Methods and Critical Evaluation ( http://arxiv.org/abs/2207.10732v1 )

ライセンス: Link先を確認
Oliver Mey and Deniz Neufeld(参考訳) ディープニューラルネットワークアルゴリズムを用いた振動データの解析は、回転機械の早期損傷を検出する効果的な方法である。 しかし、これらの方法のブラックボックスアプローチは、分類の原因が人間には理解できないため、満足のいく解決策を提供しないことが多い。 そこで本研究では,畳み込みニューラルネットワークに対する説明可能なai(xai)アルゴリズムの適用について検討する。 このため、フーリエ変換に基づく分類や振動信号の順序解析に様々なXAIアルゴリズムを適用した。 結果は、周波数-RPMマップと順序-RPMマップの形状において、毎分革命(RPM)の関数として可視化される。 これにより、回転速度に依存する特徴と周波数が一定な特徴に与えられる塩分を評価することができる。 XAI法の説明力を比較するために,まず,クラス固有の特徴を持つ合成データセットを用いて検討を行った。 次に、幅広い回転速度で走行する電動機上の振動に基づく不均衡分類のための実世界データセットを用いる。 データの可変周期性の一貫性を特に重視し、実世界の機械の回転速度を変化させる。 本研究は,新しい摂動戦略を用いたGradCAM, LRP, LIMEの手法の長所と短所を示すことを目的としている。

Analyzing vibration data using deep neural network algorithms is an effective way to detect damages in rotating machinery at an early stage. However, the black-box approach of these methods often does not provide a satisfactory solution because the cause of classifications is not comprehensible to humans. Therefore, this work investigates the application of explainable AI (XAI) algorithms to convolutional neural networks for vibration-based condition monitoring. For this, various XAI algorithms are applied to classifications based on the Fourier transform as well as the order analysis of the vibration signal. The results are visualized as a function of the revolutions per minute (RPM), in the shape of frequency-RPM maps and order-RPM maps. This allows to assess the saliency given to features which depend on the rotation speed and those with constant frequency. To compare the explanatory power of the XAI methods, investigations are first carried out with a synthetic data set with known class-specific characteristics. Then a real-world data set for vibration-based imbalance classification on an electric motor, which runs at a broad range of rotation speeds, is used. A special focus is put on the consistency for variable periodicity of the data, which translates to a varying rotation speed of a real-world machine. This work aims to show the different strengths and weaknesses of the methods for this use case: GradCAM, LRP and LIME with a new perturbation strategy.
翻訳日:2022-07-25 13:44:16 公開日:2022-07-21
# GreenDB -- 消費者商品のサステナビリティ情報抽出のためのデータセットとベンチマーク

GreenDB -- A Dataset and Benchmark for Extraction of Sustainability Information of Consumer Goods ( http://arxiv.org/abs/2207.10733v1 )

ライセンス: Link先を確認
Alexander Flick, Sebastian Jaeger, Jessica Adriana Sanchez Garcia, Kaspar von den Driesch, Karl Brendel, Felix Biessmann(参考訳) 消費財の生産、出荷、利用、廃棄は温室効果ガスの排出と資源の枯渇に大きな影響を与える。 機械学習(ML)は、製品検索における持続可能性面や現代の小売プラットフォームの推奨を考慮し、持続可能な消費パターンを育むのに役立つ。 しかし、信頼性の高いサステナビリティ情報を備えた高品質の製品データがないことは、我々のサステナビリティ目標を達成するのに役立つML技術の開発を妨げる。 ここでは、ヨーロッパのオンラインショップから製品を毎週収集するデータベースであるGreenDBを紹介する。 製品の持続可能性の代理人として、専門家によって評価される持続可能性ラベルに依存する。 GreenDBスキーマはよく知られたschema.org製品定義を拡張し、既存の製品カタログに簡単に統合できる。 まず,データを用いてトレーニングしたMLモデル(F1スコア96%)が製品のサステナビリティラベルを確実に予測できることを示す。 これらの貢献は、既存のeコマース体験を補完し、最終的に、より持続可能な消費パターンをユーザに促すのに役立つ。

The production, shipping, usage, and disposal of consumer goods have a substantial impact on greenhouse gas emissions and the depletion of resources. Machine Learning (ML) can help to foster sustainable consumption patterns by accounting for sustainability aspects in product search or recommendations of modern retail platforms. However, the lack of large high quality publicly available product data with trustworthy sustainability information impedes the development of ML technology that can help to reach our sustainability goals. Here we present GreenDB, a database that collects products from European online shops on a weekly basis. As proxy for the products' sustainability, it relies on sustainability labels, which are evaluated by experts. The GreenDB schema extends the well-known schema.org Product definition and can be readily integrated into existing product catalogs. We present initial results demonstrating that ML models trained with our data can reliably (F1 score 96%) predict the sustainability label of products. These contributions can help to complement existing e-commerce experiences and ultimately encourage users to more sustainable consumption patterns.
翻訳日:2022-07-25 13:43:56 公開日:2022-07-21
# BigIssue: 現実的なバグローカライゼーションベンチマーク

BigIssue: A Realistic Bug Localization Benchmark ( http://arxiv.org/abs/2207.10739v1 )

ライセンス: Link先を確認
Paul Kassianik, Erik Nijkamp, Bo Pang, Yingbo Zhou, Caiming Xiong(参考訳) 機械学習がより良いコードを書くのにどのように役立つのか? GPT-3やBertといったモデルによる自然言語処理の進歩により、自然言語処理技術のコードへの応用が検討され始めている。 研究の大半は自動プログラム修復(APR)に焦点を当てており、合成または高度にフィルタリングされたデータセットの結果は有望であるが、そのようなモデルはバグのローカライゼーションが不十分なために現実のシナリオに適用することは困難である。 現実的なバグローカライゼーションのためのベンチマークであるBigIssueを提案する。 ベンチマークの目標は2倍です。 1) 実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークと,(2) 完全なリポジトリコンテキストに注目してモデルのバグローカライズ機能を改善するモチベーションを提供する。 BigIssueの導入によって、バグローカライゼーションの最先端化が進み、APRのパフォーマンスを改善し、モダンな開発サイクルへの適用性を高めたいと考えています。

As machine learning tools progress, the inevitable question arises: How can machine learning help us write better code? With significant progress being achieved in natural language processing with models like GPT-3 and Bert, the applications of natural language processing techniques to code are starting to be explored. Most of the research has been focused on automatic program repair (APR), and while the results on synthetic or highly filtered datasets are promising, such models are hard to apply in real-world scenarios because of inadequate bug localization. We propose BigIssue: a benchmark for realistic bug localization. The goal of the benchmark is two-fold. We provide (1) a general benchmark with a diversity of real and synthetic Java bugs and (2) a motivation to improve bug localization capabilities of models through attention to the full repository context. With the introduction of BigIssue, we hope to advance the state of the art in bug localization, in turn improving APR performance and increasing its applicability to the modern development cycle.
翻訳日:2022-07-25 13:43:39 公開日:2022-07-21
# フォリー音響合成チャレンジの提案

A Proposal for Foley Sound Synthesis Challenge ( http://arxiv.org/abs/2207.10760v1 )

ライセンス: Link先を確認
Keunwoo Choi, Sangshin Oh, Minsung Kang, Brian McFee(参考訳) フォーリー(Foley)とは、ポストプロダクション中にマルチメディアに付加される音響効果で、例えば、足音、環境音、スクリーン上の可視物などの音をシミュレートすることで、知覚された音響特性を高めること。 フォリーは伝統的にフォリーアーティストによって生産されるが、近年の音声合成と生成モデルの発展により、自動または機械支援技術への関心が高まっている。 そこで本研究では, 研究領域へのさらなる参加を促進するため, 自動フォリー合成への挑戦を提案する。 音声と機械学習における先行課題の事例研究を通じて,提案課題のゴールを定式化し,異なるフォリー合成システムの厳密で統一的,効率的な評価を行い,研究コミュニティからの積極的な参加を目標とした。 本稿では,タスク定義,データセット要件,評価基準など,フォリー音声合成課題の詳細と設計について概説する。

"Foley" refers to sound effects that are added to multimedia during post-production to enhance its perceived acoustic properties, e.g., by simulating the sounds of footsteps, ambient environmental sounds, or visible objects on the screen. While foley is traditionally produced by foley artists, there is increasing interest in automatic or machine-assisted techniques building upon recent advances in sound synthesis and generative models. To foster more participation in this growing research area, we propose a challenge for automatic foley synthesis. Through case studies on successful previous challenges in audio and machine learning, we set the goals of the proposed challenge: rigorous, unified, and efficient evaluation of different foley synthesis systems, with an overarching goal of drawing active participation from the research community. We outline the details and design considerations of a foley sound synthesis challenge, including task definition, dataset requirements, and evaluation criteria.
翻訳日:2022-07-25 13:37:01 公開日:2022-07-21
# 不完全対比較行列に対するヒューリスティック評価法

Heuristic Rating Estimation Method for the incomplete pairwise comparisons matrices ( http://arxiv.org/abs/2207.10783v1 )

ライセンス: Link先を確認
Konrad Ku{\l}akowski and Anna K\k{e}dzior(参考訳) ヒューリスティックレーティング推定法により、意思決定者は既存のランキングデータと専門家の比較に基づいて決定できる。 このアプローチでは、選択された代替品のランキング値は事前に知られており、残りのものについてはこれらの値を計算する必要がある。 これらの計算は加法または乗法を用いて行うことができる。 どちらの方法も計算にかかわる対比較集合は完備であると仮定した。 本稿では,これらのアルゴリズムを,専門家が任意の選択肢をペアで比較する必要がなくなるように拡張する方法を示す。 提案手法は,専門家の作業の短縮により,意思決定手順のコストを削減し,意思決定データの収集を促進・短縮する。

The Heuristic Rating Estimation Method enables decision-makers to decide based on existing ranking data and expert comparisons. In this approach, the ranking values of selected alternatives are known in advance, while these values have to be calculated for the remaining ones. Their calculation can be performed using either an additive or a multiplicative method. Both methods assumed that the pairwise comparison sets involved in the computation were complete. In this paper, we show how these algorithms can be extended so that the experts do not need to compare all alternatives pairwise. Thanks to the shortening of the work of experts, the presented, improved methods will reduce the costs of the decision-making procedure and facilitate and shorten the stage of collecting decision-making data.
翻訳日:2022-07-25 13:33:05 公開日:2022-07-21
# RDFとデータ交換フォーマット間の変換のためのジェネリックマッピング言語を目指して

Toward a Generic Mapping Language for Transformations between RDF and Data Interchange Formats ( http://arxiv.org/abs/2207.11205v1 )

ライセンス: Link先を確認
Aljosha K\"ocher, Artan Markaj, Alexander Fay(参考訳) セマンティックモデルを使って異種データを統合するアプローチは存在するが、そのようなセマンティックモデルは既存のソフトウェアツールでは利用できない。 多くのソフトウェアツールは、特にエンジニアリングにおいて、XMLやJSONのようなより確立したデータ交換フォーマットでデータをインポートしエクスポートするオプションしか持っていません。 したがって、そのようなソフトウェアツールで意味モデルに含まれる情報を使用する必要がある場合、意味情報を交換形式にマッピングするための自動アプローチが必要となる。 我々は,ユーザによって定義可能な任意の構造を持つデータ交換形式に意味情報の変換を作成できる汎用マッピング手法を開発することを目指している。 このマッピングアプローチは現在詳しく説明されています。 本稿ではRDFからXMLへの変換を目的とした最初のステップについて報告する。 最初は、オントロジーからXMLへの自動マッピングを定義するマッピング言語が導入された。 さらに、この言語で定義されたマッピングを実行することができるマッピングアルゴリズムを示す。 評価は、3dモデリングツールでエンジニアリング情報を使用する必要のあるユースケースを用いて行われる。

While there exist approaches to integrate heterogeneous data using semantic models, such semantic models can typically not be used by existing software tools. Many software tools - especially in engineering - only have options to import and export data in more established data interchange formats such as XML or JSON. Thus, if an information which is included in a semantic model needs to be used in a such a software tool, automatic approaches for mapping semantic information into an interchange format are needed. We aim to develop a generic mapping approach that allows users to create transformations of semantic information into a data interchange format with an arbitrary structure which can be defined by a user. This mapping approach is currently being elaborated. In this contribution, we report our initial steps targeted to transformations from RDF into XML. At first, a mapping language is introduced which allows to define automated mappings from ontologies to XML. Furthermore, a mapping algorithm capable of executing mappings defined in this language is presented. An evaluation is done with a use case in which engineering information needs to be used in a 3D modeling tool.
翻訳日:2022-07-25 13:31:09 公開日:2022-07-21
# 二レベル最適化による適応重み付けノードのフェデレーション学習

Federated Learning on Adaptively Weighted Nodes by Bilevel Optimization ( http://arxiv.org/abs/2207.10751v1 )

ライセンス: Link先を確認
Yankun Huang, Qihang Lin, Nick Street, Stephen Baek(参考訳) そこで本研究では,重み付けノードを用いた重み付け学習法を提案する。 内問題は重み付きノードによるフェデレート学習問題であり、外問題は内問題から返されるモデルの検証性能に基づいて重み付けを最適化することに集中する二段階最適化として定式化される。 この2レベル最適化問題を解決するために,通信効率のよいフェデレーション最適化アルゴリズムが設計されている。 誤差バウンドの仮定では、出力モデルの一般化性能を分析し、理論上、モデルを局所的にトレーニングし、静的で均等に分散した重み付けでフェデレーション学習するよりも優れた場合のシナリオを特定する。

We propose a federated learning method with weighted nodes in which the weights can be modified to optimize the model's performance on a separate validation set. The problem is formulated as a bilevel optimization where the inner problem is a federated learning problem with weighted nodes and the outer problem focuses on optimizing the weights based on the validation performance of the model returned from the inner problem. A communication-efficient federated optimization algorithm is designed to solve this bilevel optimization problem. Under an error-bound assumption, we analyze the generalization performance of the output model and identify scenarios when our method is in theory superior to training a model only locally and to federated learning with static and evenly distributed weights.
翻訳日:2022-07-25 13:27:48 公開日:2022-07-21
# ランダム操作アクセス特定タイル(ROAST)ハッシュを用いた効率的なモデル圧縮

Efficient model compression with Random Operation Access Specific Tile (ROAST) hashing ( http://arxiv.org/abs/2207.10702v1 )

ライセンス: Link先を確認
Aditya Desai, Keren Zhou, Anshumali Shrivastava(参考訳) ディープラーニングの進歩は、しばしばモデルサイズの増加に関連している。 モデルのサイズは、ディープモデルのデプロイメントコストとレイテンシに劇的に影響します。 例えば、bertのようなモデルは、そのサイズのため、エッジデバイスやモバイルにデプロイできない。 その結果、ディープラーニングのほとんどの進歩は、まだ限界に達していない。 モデル圧縮は、自然言語処理、ビジョン、レコメンデーションドメインにわたる文学において、大いに注目されている。 本稿では,Random Operation Access Specific Tile(ROAST)ハッシュ法を提案する。 ROASTは、軽量マッピングを通じてパラメータをクラブすることで、パラメータを分解します。 特に、これらのパラメータをクラブ化しながら、ROASTはメモリアクセスパターンとパラメータアクセスパターンを整列することでキャッシュ階層を利用する。 ROASTはトレーニングが高速な$\sim 25 \timesと、人気のあるパラメータ共有メソッドであるHashedNetよりも高速な$\sim 50 \timesである。 さらに、ROASTは、HashNetの局所的な重量共有よりも経験的かつ理論的に優れているグローバルな重量共有を導入し、それ自体に独立した関心を持つことができる。 ROASTでは、最初の圧縮BERT(100\times - 1000\times$)を提示するが、品質劣化は生じない。 トランスフォーマーのようなユニバーサルアーキテクチャ上のこれらの圧縮レベルは、モバイルやエッジデバイスのようなリソース制約のあるデバイスへのSOTAモデル展開の将来を約束している。

Advancements in deep learning are often associated with increasing model sizes. The model size dramatically affects the deployment cost and latency of deep models. For instance, models like BERT cannot be deployed on edge devices and mobiles due to their sheer size. As a result, most advances in Deep Learning are yet to reach the edge. Model compression has sought much-deserved attention in literature across natural language processing, vision, and recommendation domains. This paper proposes a model-agnostic, cache-friendly model compression approach: Random Operation Access Specific Tile (ROAST) hashing. ROAST collapses the parameters by clubbing them through a lightweight mapping. Notably, while clubbing these parameters, ROAST utilizes cache hierarchies by aligning the memory access pattern with the parameter access pattern. ROAST is up to $\sim 25 \times$ faster to train and $\sim 50 \times$ faster to infer than the popular parameter sharing method HashedNet. Additionally, ROAST introduces global weight sharing, which is empirically and theoretically superior to local weight sharing in HashedNet, and can be of independent interest in itself. With ROAST, we present the first compressed BERT, which is $100\times - 1000\times$ smaller but does not result in quality degradation. These compression levels on universal architecture like transformers are promising for the future of SOTA model deployment on resource-constrained devices like mobile and edge devices
翻訳日:2022-07-25 13:19:02 公開日:2022-07-21
# 知識伝達による半監督ドメイン適応

Federated Semi-Supervised Domain Adaptation via Knowledge Transfer ( http://arxiv.org/abs/2207.10727v1 )

ライセンス: Link先を確認
Madhureeta Das, Xianhao Chen, Xiaoyong Yuan, Lan Zhang(参考訳) 急速に変化する機械学習環境と高価なデータラベリングを考えると、ソースドメインからのラベル付きデータがターゲットドメインからの部分的にラベル付けされたデータと統計的に異なる場合、半教師付きドメイン適応(SSDA)が必須となる。 ほとんどの以前のSSDA研究は、ソースデータとターゲットデータの両方にアクセスする必要がある。 しかし、現在では分散エンドデバイスによって多くの分野のデータが生成される。 プライバシー上の懸念から、データはローカルに保存されて共有できない可能性があるため、既存のSSDA研究では効果がない。 本稿では,Federated Semi-Supervised Domain Adaptation (FSSDA) という,複数の分散および機密データセット上でSSDAを実現するための革新的なアプローチを提案する。 FSSDAは、SSDAと戦略的に設計された知識蒸留技術に基づく連合学習を統合し、ソースとターゲットの訓練を並行して行うことで効率を向上する。 さらに、FSSDAは、鍵パラメータ、すなわち模倣パラメータを適切に選択することにより、ドメイン間で転送される知識量を制御する。 さらに、提案したFSSDAは、マルチソースドメイン適応シナリオに効果的に一般化することができる。 FSSDA設計の有効性と効率を実証するために大規模な実験を行った。

Given the rapidly changing machine learning environments and expensive data labeling, semi-supervised domain adaptation (SSDA) is imperative when the labeled data from the source domain is statistically different from the partially labeled data from the target domain. Most prior SSDA research is centrally performed, requiring access to both source and target data. However, data in many fields nowadays is generated by distributed end devices. Due to privacy concerns, the data might be locally stored and cannot be shared, resulting in the ineffectiveness of existing SSDA research. This paper proposes an innovative approach to achieve SSDA over multiple distributed and confidential datasets, named by Federated Semi-Supervised Domain Adaptation (FSSDA). FSSDA integrates SSDA with federated learning based on strategically designed knowledge distillation techniques, whose efficiency is improved by performing source and target training in parallel. Moreover, FSSDA controls the amount of knowledge transferred across domains by properly selecting a key parameter, i.e., the imitation parameter. Further, the proposed FSSDA can be effectively generalized to multi-source domain adaptation scenarios. Extensive experiments are conducted to demonstrate the effectiveness and efficiency of FSSDA design.
翻訳日:2022-07-25 13:18:43 公開日:2022-07-21
# より効率的なコンピュータビジョンのためのテーマを見つけ出し、排除するスマホ

Irrelevant Pixels are Everywhere: Find and Exclude Them for More Efficient Computer Vision ( http://arxiv.org/abs/2207.10741v1 )

ライセンス: Link先を確認
Caleb Tung, Abhinav Goel, Xiao Hu, Nicholas Eliopoulos, Emmanuel Amobi, George K. Thiruvathukal, Vipin Chaudhary and Yung-Hsiang Lu(参考訳) コンピュータビジョンは畳み込みニューラルネットワーク(CNN)を用いて行われることが多い。 CNNは計算集約的で、モバイルやIoT(Internet-of-Things)デバイスのような、電力制約のあるシステムにデプロイするのは難しい。 CNNは、入力画像のすべてのピクセル上の多くの特徴を区別なく計算するため、計算集約的である。 コンピュータビジョンタスクの場合、画像にはそのタスクとは無関係なピクセルがしばしば含まれている。 例えば、タスクが車を探している場合、空のピクセルはあまり役に立たない。 そこで本研究では,CNNを関連するピクセルのみで動作するように修正し,計算とエネルギーを節約することを提案する。 本研究では,3つの一般的なコンピュータビジョンデータセットを調査し,48%の画素が無関係であることを示す。 また,cnnの畳み込み層を変更し,無関係とマークされた画素を拒絶する集中畳み込みを提案する。 組込み装置では精度の低下は見られず, 推論遅延, エネルギー消費, 乗算加算数はすべて約45%削減される。

Computer vision is often performed using Convolutional Neural Networks (CNNs). CNNs are compute-intensive and challenging to deploy on power-contrained systems such as mobile and Internet-of-Things (IoT) devices. CNNs are compute-intensive because they indiscriminately compute many features on all pixels of the input image. We observe that, given a computer vision task, images often contain pixels that are irrelevant to the task. For example, if the task is looking for cars, pixels in the sky are not very useful. Therefore, we propose that a CNN be modified to only operate on relevant pixels to save computation and energy. We propose a method to study three popular computer vision datasets, finding that 48% of pixels are irrelevant. We also propose the focused convolution to modify a CNN's convolutional layers to reject the pixels that are marked irrelevant. On an embedded device, we observe no loss in accuracy, while inference latency, energy consumption, and multiply-add count are all reduced by about 45%.
翻訳日:2022-07-25 12:57:30 公開日:2022-07-21
# TIDEE: Visuo-Semantic Commonsense を用いた新しい部屋のタイピング

TIDEE: Tidying Up Novel Rooms using Visuo-Semantic Commonsense Priors ( http://arxiv.org/abs/2207.10761v1 )

ライセンス: Link先を確認
Gabriel Sarch, Zhaoyuan Fang, Adam W. Harley, Paul Schydlo, Michael J. Tarr, Saurabh Gupta, and Katerina Fragkiadaki(参考訳) 我々は,学習されたコモンセンスオブジェクト配置と部屋配置に基づいて,乱れたシーンを調合するエンボディエージェントであるTIDEEを紹介する。 tideeはホーム環境を探索し、自然の場所から外れたオブジェクトを検出し、そのオブジェクトのコンテキストを推測し、現在のシーンでそのようなコンテキストをローカライズし、オブジェクトを再配置する。 commonsenseのプリエントは3つのモジュールにエンコードされる。 一 場所外物体を検知するヴィスー・セマンティクス検出器 二 オブジェクトの関連性のある神経グラフ記憶及びオブジェクトの配置のための可算なセマンティックレセプタクル及び表面を提案する空間関係 三 エージェントの探索を指導し、現在のシーンにおける関心の受容を効率的に局所化し、対象を再配置するためのビジュアル検索ネットワーク。 我々は,AI2THORシミュレーション環境における非編成シーンのタイピングについてTIDEEを検証した。 tideeは、同じ部屋を事前に観察することなく、pixelやrawの奥行き入力から直接タスクを実行し、別のトレーニングハウスから学んだ事前情報のみに依存する。 結果として得られた部屋の再編成に関する人間による評価は、TIDEEがコモンセンスの1つ以上の事前使用しないモデルのアブレーションバージョンより優れていることを示している。 エージェントが再配置の前にゴール状態を見ることのできる関連するルーム再配置ベンチマークでは、モデルの単純化版がトップパフォーマンスメソッドを大幅に上回っています。 コードとデータはプロジェクトのwebサイト(https://tidee-agent.github.io/)で入手できる。

We introduce TIDEE, an embodied agent that tidies up a disordered scene based on learned commonsense object placement and room arrangement priors. TIDEE explores a home environment, detects objects that are out of their natural place, infers plausible object contexts for them, localizes such contexts in the current scene, and repositions the objects. Commonsense priors are encoded in three modules: i) visuo-semantic detectors that detect out-of-place objects, ii) an associative neural graph memory of objects and spatial relations that proposes plausible semantic receptacles and surfaces for object repositions, and iii) a visual search network that guides the agent's exploration for efficiently localizing the receptacle-of-interest in the current scene to reposition the object. We test TIDEE on tidying up disorganized scenes in the AI2THOR simulation environment. TIDEE carries out the task directly from pixel and raw depth input without ever having observed the same room beforehand, relying only on priors learned from a separate set of training houses. Human evaluations on the resulting room reorganizations show TIDEE outperforms ablative versions of the model that do not use one or more of the commonsense priors. On a related room rearrangement benchmark that allows the agent to view the goal state prior to rearrangement, a simplified version of our model significantly outperforms a top-performing method by a large margin. Code and data are available at the project website: https://tidee-agent.github.io/.
翻訳日:2022-07-25 12:57:12 公開日:2022-07-21
# MeshLoc: メッシュベースのビジュアルローカライゼーション

MeshLoc: Mesh-Based Visual Localization ( http://arxiv.org/abs/2207.10762v1 )

ライセンス: Link先を確認
Vojtech Panek, Zuzana Kukelova and Torsten Sattler(参考訳) 視覚の定位、すなわちカメラのポーズ推定の問題は、自律ロボットや拡張現実システムといったアプリケーションの中心的なコンポーネントである。 文学における支配的なアプローチは、画像から抽出された局所的な特徴に基づいて、大きなシーンにスケールし、複雑な照明と季節変化を扱うことである。 シーン表現は、特定のローカル機能に結びついているスパースなStructure-from-Motionポイントクラウドである。 別の機能タイプに切り替えるには、ポイントクラウドを構築するために使用されるデータベースイメージ間の、高価な機能マッチングステップが必要になる。 そこで本研究では,シーン表現を構築するためにデータベース画像間の特徴マッチングを必要とせず,より柔軟な3dメッシュを探索する。 このアプローチが最先端の成果を達成できることを示します。 さらに,ニューラルネットワークのレンダリングステージを必要とせずに,メッシュのレンダリング上で特徴を抽出する場合や,色彩やテクスチャを伴わない生のシーンジオメトリをレンダリングする場合においても,驚くほど競争力のある結果が得られることを示した。 以上より,高密度な3dモデルに基づく表現は,既存の表現に代わる有望な選択肢であり,今後の研究に向けた興味深く挑戦的な方向性を示す。

Visual localization, i.e., the problem of camera pose estimation, is a central component of applications such as autonomous robots and augmented reality systems. A dominant approach in the literature, shown to scale to large scenes and to handle complex illumination and seasonal changes, is based on local features extracted from images. The scene representation is a sparse Structure-from-Motion point cloud that is tied to a specific local feature. Switching to another feature type requires an expensive feature matching step between the database images used to construct the point cloud. In this work, we thus explore a more flexible alternative based on dense 3D meshes that does not require features matching between database images to build the scene representation. We show that this approach can achieve state-of-the-art results. We further show that surprisingly competitive results can be obtained when extracting features on renderings of these meshes, without any neural rendering stage, and even when rendering raw scene geometry without color or texture. Our results show that dense 3D model-based representations are a promising alternative to existing representations and point to interesting and challenging directions for future research.
翻訳日:2022-07-25 12:56:44 公開日:2022-07-21
# 交互最適化による映像の超解像化に向けて

Towards Interpretable Video Super-Resolution via Alternating Optimization ( http://arxiv.org/abs/2207.10765v1 )

ライセンス: Link先を確認
Jiezhang Cao, Jingyun Liang, Kai Zhang, Wenguan Wang, Qin Wang, Yulun Zhang, Hao Tang, Luc Van Gool(参考訳) 本稿では,低フレーム低解像度のぼやけた映像から高フレーム高精細な映像を生成することを目的とした,stvsr(s space-time video super- resolution)問題について検討する。 このような問題は、低フレームで低解像度のカメラで高速なダイナミックイベントを録画する場合にしばしば起こり、キャプチャされたビデオは3つの典型的な問題に悩まされる。 一 露光時における物体又はカメラの運動による動きのぼけ 二 時相周波数が時相サンプリングのニキスト限界を超えるときは、運動エイリアシングは避けられない。 三 空間サンプリング率が低いため、高周波の詳細が失われる。 これらの問題は、ビデオ分割、フレーム補間、超解像を含む3つの別々のサブタスクのカスケードによって緩和できるが、ビデオシーケンス間の空間的および時間的相関を捕捉できない。 そこで本研究では,モデルベースと学習ベースの両方の手法を用いて,解釈可能なSTVSRフレームワークを提案する。 具体的には、STVSRを共同ビデオデブロアリング、フレーム補間、超分解能問題として定式化し、2つのサブプロブレムを代替的に解決する。 最初のsub-problemでは、解釈可能な分析ソリューションを導出し、フーリエデータ変換層として使用します。 次に,第2サブプロブレムの繰り返し映像強調層を提案し,さらに高周波の詳細を復元する。 定量的指標と視覚的品質の観点から,本手法の優越性を示す広範な実験を行った。

In this paper, we study a practical space-time video super-resolution (STVSR) problem which aims at generating a high-framerate high-resolution sharp video from a low-framerate low-resolution blurry video. Such problem often occurs when recording a fast dynamic event with a low-framerate and low-resolution camera, and the captured video would suffer from three typical issues: i) motion blur occurs due to object/camera motions during exposure time; ii) motion aliasing is unavoidable when the event temporal frequency exceeds the Nyquist limit of temporal sampling; iii) high-frequency details are lost because of the low spatial sampling rate. These issues can be alleviated by a cascade of three separate sub-tasks, including video deblurring, frame interpolation, and super-resolution, which, however, would fail to capture the spatial and temporal correlations among video sequences. To address this, we propose an interpretable STVSR framework by leveraging both model-based and learning-based methods. Specifically, we formulate STVSR as a joint video deblurring, frame interpolation, and super-resolution problem, and solve it as two sub-problems in an alternate way. For the first sub-problem, we derive an interpretable analytical solution and use it as a Fourier data transform layer. Then, we propose a recurrent video enhancement layer for the second sub-problem to further recover high-frequency details. Extensive experiments demonstrate the superiority of our method in terms of quantitative metrics and visual quality.
翻訳日:2022-07-25 12:56:25 公開日:2022-07-21
# 統合量子化による自己回帰画像合成

Auto-regressive Image Synthesis with Integrated Quantization ( http://arxiv.org/abs/2207.10776v1 )

ライセンス: Link先を確認
Fangneng Zhan, Yingchen Yu, Rongliang Wu, Jiahui Zhang, Kaiwen Cui, Changgong Zhang, Shijian Lu(参考訳) 深層生成モデルは多彩な条件入力による現実的な画像合成において顕著な進歩を遂げているが、多様で高忠実な画像を生成することは条件付き画像生成における大きな課題である。 本稿では、CNNの帰納バイアスと、自然に多様な画像を生成する自動回帰の強力なシーケンスモデリングを組み込んだ条件付き画像生成のための多目的フレームワークを提案する。 先行研究のように、複数のドメインの特徴を独立に定量化する代わりに、複数のドメインで特徴の離散化を混合する変分正規化器を備えた統合量子化スキームを設計し、自動回帰モデリング性能を著しく向上させる。 特に、変分正規化器は、分布の領域内変動をペナルティ化することにより、比較不能な潜在空間における特徴分布を正則化することができる。 さらに,自動回帰訓練手法に分布不確実性を組み込むGumbelサンプリング戦略を設計する。 ガムベルサンプリングは、トレーニングと推論段階のミスアライメントをしばしば生じさせる露光バイアスを著しく軽減し、推論性能を著しく損なう。 複数の条件付き画像生成タスクに関する広範囲な実験により,本手法は最先端と比較して質的かつ定量的に優れた画像生成性能が得られることを示した。

Deep generative models have achieved conspicuous progress in realistic image synthesis with multifarious conditional inputs, while generating diverse yet high-fidelity images remains a grand challenge in conditional image generation. This paper presents a versatile framework for conditional image generation which incorporates the inductive bias of CNNs and powerful sequence modeling of auto-regression that naturally leads to diverse image generation. Instead of independently quantizing the features of multiple domains as in prior research, we design an integrated quantization scheme with a variational regularizer that mingles the feature discretization in multiple domains, and markedly boosts the auto-regressive modeling performance. Notably, the variational regularizer enables to regularize feature distributions in incomparable latent spaces by penalizing the intra-domain variations of distributions. In addition, we design a Gumbel sampling strategy that allows to incorporate distribution uncertainty into the auto-regressive training procedure. The Gumbel sampling substantially mitigates the exposure bias that often incurs misalignment between the training and inference stages and severely impairs the inference performance. Extensive experiments over multiple conditional image generation tasks show that our method achieves superior diverse image generation performance qualitatively and quantitatively as compared with the state-of-the-art.
翻訳日:2022-07-25 12:56:02 公開日:2022-07-21
# インダクティブ・トランスダクティブ・マイノショットビデオの外観と時間的アライメントによる分類

Inductive and Transductive Few-Shot Video Classification via Appearance and Temporal Alignments ( http://arxiv.org/abs/2207.10785v1 )

ライセンス: Link先を確認
Khoi D. Nguyen, Quoc-Huy Tran, Khoi Nguyen, Binh-Son Hua, Rang Nguyen(参考訳) 本稿では,出現と時間的アライメントを行う数ショット映像分類の新しい手法を提案する。 特に,一対のクエリとサポートビデオに対して,フレームレベルの特徴マッチングによる外観アライメントを行い,映像間の外観類似度スコアを達成するとともに,映像間の時間的類似度スコアを得るための時間的順序保存先行値を利用する。 さらに,複数のステップ,すなわち,プロトタイプベースのトレーニングとテスト,インダクティブおよびトランスダクティブなプロトタイプ改良といった,上記の外観と時間的類似度を生かした数ショットビデオ分類フレームワークを導入する。 我々の知る限りでは、我々の研究は初めて、トランスダクティブな数ショットビデオ分類を探求する。 KineticsとSomething V2データセットの大規模な実験により、Something V2のような時間的順序感受性を持つデータセットには、外観と時間的アライメントの両方が不可欠であることが示されている。 提案手法は, 従来手法と類似した, あるいは良好な結果が得られる。 私たちのコードはhttps://github.com/VinAIResearch/fsvc-ataで利用可能です。

We present a novel method for few-shot video classification, which performs appearance and temporal alignments. In particular, given a pair of query and support videos, we conduct appearance alignment via frame-level feature matching to achieve the appearance similarity score between the videos, while utilizing temporal order-preserving priors for obtaining the temporal similarity score between the videos. Moreover, we introduce a few-shot video classification framework that leverages the above appearance and temporal similarity scores across multiple steps, namely prototype-based training and testing as well as inductive and transductive prototype refinement. To the best of our knowledge, our work is the first to explore transductive few-shot video classification. Extensive experiments on both Kinetics and Something-Something V2 datasets show that both appearance and temporal alignments are crucial for datasets with temporal order sensitivity such as Something-Something V2. Our approach achieves similar or better results than previous methods on both datasets. Our code is available at https://github.com/VinAIResearch/fsvc-ata.
翻訳日:2022-07-25 12:55:40 公開日:2022-07-21
# スパースインシシデントプロセスによるモデルバイアスの補正

Correcting Model Bias with Sparse Implicit Processes ( http://arxiv.org/abs/2207.10673v1 )

ライセンス: Link先を確認
Sim\'on Rodr\'iguez Santana, Luis A. Ortega Andr\'es, Daniel Hern\'andez-Lobato, Bryan Zald\'ivar(参考訳) 機械学習(ML)におけるモデル選択はベイズ学習の重要な部分である。 モデル選択は結果の予測に強いバイアスを課し、ベイズニューラルネットワークやニューラルサンプリングのような手法のパフォーマンスを阻害する可能性がある。 一方、新たに提案されたベイズMLのアプローチは、暗黙の確率過程(ガウス過程の一般化)を持つ函数空間における近似推論の特徴を利用する。 SIP(Sparse Implicit Processes)のアプローチはこの点において特に成功している。 本稿では,データ生成機構がモデルに含意するものと強く異なる場合,sipがモデルのバイアスを補正できることを示すために,元の実験を拡張した。 合成データセットを用いて、SIPは、初期推定モデルの正確な予測よりもデータをよりよく反映する予測分布を提供することができることを示す。

Model selection in machine learning (ML) is a crucial part of the Bayesian learning procedure. Model choice may impose strong biases on the resulting predictions, which can hinder the performance of methods such as Bayesian neural networks and neural samplers. On the other hand, newly proposed approaches for Bayesian ML exploit features of approximate inference in function space with implicit stochastic processes (a generalization of Gaussian processes). The approach of Sparse Implicit Processes (SIP) is particularly successful in this regard, since it is fully trainable and achieves flexible predictions. Here, we expand on the original experiments to show that SIP is capable of correcting model bias when the data generating mechanism differs strongly from the one implied by the model. We use synthetic datasets to show that SIP is capable of providing predictive distributions that reflect the data better than the exact predictions of the initial, but wrongly assumed model.
翻訳日:2022-07-25 12:52:33 公開日:2022-07-21
# ガウス過程を用いたデータ駆動確率AC-OPF

Data-Driven Stochastic AC-OPF using Gaussian Processes ( http://arxiv.org/abs/2207.10781v1 )

ライセンス: Link先を確認
Mile Mitrovic, Aleksandr Lukashevich, Petr Vorobev, Vladimir Terzija, Semen Budenny, Yury Maximov, Deepjoyti Deka(参考訳) 近年、米国の温室効果ガス排出量の4分の1以上は発電が担っている。 電力網に大量の再生可能エネルギーを統合することは、電力網からの二酸化炭素排出量を削減し、気候変動を遅らせる最も使いやすい方法だろう。 残念ながら、風力や太陽のような最もアクセスしやすい再生可能エネルギー源は、非常に変動しており、電力グリッドの運用に多くの不確実性をもたらし、既存の最適化と制御ポリシーに挑戦している。 交流交換電流(AC)最適電力フロー(OPF)フレームワークは、所定の確率で電力グリッド操作をセキュリティ限界内に維持する最小コスト生成ディスパッチを求める。 残念ながら、AC-OPF問題のチャンス制約付き拡張は非凸であり、計算的に困難であり、システムパラメータの知識と再生可能分布の振る舞いに関する追加の仮定を必要とする。 上記の問題に対する線形および凸近似は、トラクタブルではあるが、運用には保守的すぎるため、システムパラメータの不確実性は考慮されていない。 本稿では,このギャップを埋めるために,ガウス過程(GP)回帰に基づく代替データ駆動手法を提案する。 GPアプローチは、不確実な入力を組み込むことのできる交流電力流方程式に対する単純な非凸データ駆動近似を学習する。 後者は、入力とパラメータの不確実性の両方を考慮して、CC-OPFの解を効率的に決定するために使用される。 GP不確実性伝播の異なる近似を用いた提案手法の実用的効率は, IEEEテストケースで実証された。

In recent years, electricity generation has been responsible for more than a quarter of the greenhouse gas emissions in the US. Integrating a significant amount of renewables into a power grid is probably the most accessible way to reduce carbon emissions from power grids and slow down climate change. Unfortunately, the most accessible renewable power sources, such as wind and solar, are highly fluctuating and thus bring a lot of uncertainty to power grid operations and challenge existing optimization and control policies. The chance-constrained alternating current (AC) optimal power flow (OPF) framework finds the minimum cost generation dispatch maintaining the power grid operations within security limits with a prescribed probability. Unfortunately, the AC-OPF problem's chance-constrained extension is non-convex, computationally challenging, and requires knowledge of system parameters and additional assumptions on the behavior of renewable distribution. Known linear and convex approximations to the above problems, though tractable, are too conservative for operational practice and do not consider uncertainty in system parameters. This paper presents an alternative data-driven approach based on Gaussian process (GP) regression to close this gap. The GP approach learns a simple yet non-convex data-driven approximation to the AC power flow equations that can incorporate uncertainty inputs. The latter is then used to determine the solution of CC-OPF efficiently, by accounting for both input and parameter uncertainty. The practical efficiency of the proposed approach using different approximations for GP-uncertainty propagation is illustrated over numerous IEEE test cases.
翻訳日:2022-07-25 12:52:19 公開日:2022-07-21
# 前立腺生検におけるテンプレートガイド下針配置法

Strategising template-guided needle placement for MR-targeted prostate biopsy ( http://arxiv.org/abs/2207.10784v1 )

ライセンス: Link先を確認
Iani JMB Gayo, Shaheer U. Saeed, Dean C. Barratt, Matthew J. Clarkson, Yipeng Hu(参考訳) 臨床的に有意な前立腺癌は、術前mri画像で発見された疑わしい病変が標的として使用される場合、超音波誘導生検で検体される可能性がより高い。 しかし, バイオプシーの診断精度は, 超音波プローブをナビゲートし, 複数のターゲットに対して一連のサンプリング針を配置する逐次的意思決定プロセスである, 対象をサンプリングする操作者に依存した技術と経験によって制限される。 本研究の目的は,2次元超音波像と生検針の連続的な位置決め動作をガイドテンプレートに対して最適化し,MRターゲットを効率的に十分にサンプリングできる強化学習(RL)政策を学習することである。 まず,この課題をマルコフ決定プロセス (MDP) として定式化し,MR画像から得られた解剖や病変に基づいて,患者個人に対して効果的に標的行動を行う環境を構築する。 したがって、MDP環境における正のサンプリングに報いることにより、各生検前に患者固有のポリシーを最適化することができる。 前立腺がん患者50人の実験結果から、提案したRL学習ポリシーは平均ヒット率93%、平均がんコア長11mmであり、ヒトが設計した2つの代替ベースライン戦略に好適に比較でき、これらの臨床関連指標を直接最大化する手技的な報酬は得られなかった。 さらに興味深いのは、RL剤が病変の大きさに適応する戦略を学習し、針の拡散がより小さな病変に優先されることである。 このような戦略は、これまで報告されてはいないが、直感的に設計された戦略と比較して総合的に優れたターゲティングパフォーマンスをもたらす。

Clinically significant prostate cancer has a better chance to be sampled during ultrasound-guided biopsy procedures, if suspected lesions found in pre-operative magnetic resonance (MR) images are used as targets. However, the diagnostic accuracy of the biopsy procedure is limited by the operator-dependent skills and experience in sampling the targets, a sequential decision making process that involves navigating an ultrasound probe and placing a series of sampling needles for potentially multiple targets. This work aims to learn a reinforcement learning (RL) policy that optimises the actions of continuous positioning of 2D ultrasound views and biopsy needles with respect to a guiding template, such that the MR targets can be sampled efficiently and sufficiently. We first formulate the task as a Markov decision process (MDP) and construct an environment that allows the targeting actions to be performed virtually for individual patients, based on their anatomy and lesions derived from MR images. A patient-specific policy can thus be optimised, before each biopsy procedure, by rewarding positive sampling in the MDP environment. Experiment results from fifty four prostate cancer patients show that the proposed RL-learned policies obtained a mean hit rate of 93% and an average cancer core length of 11 mm, which compared favourably to two alternative baseline strategies designed by humans, without hand-engineered rewards that directly maximise these clinically relevant metrics. Perhaps more interestingly, it is found that the RL agents learned strategies that were adaptive to the lesion size, where spread of the needles was prioritised for smaller lesions. Such a strategy has not been previously reported or commonly adopted in clinical practice, but led to an overall superior targeting performance when compared with intuitively designed strategies.
翻訳日:2022-07-25 12:51:21 公開日:2022-07-21
# 確率的階層的因子確率を用いた目標同定とベイズモデル

Target Identification and Bayesian Model Averaging with Probabilistic Hierarchical Factor Probabilities ( http://arxiv.org/abs/2207.11212v1 )

ライセンス: Link先を確認
William Basener(参考訳) ハイパースペクトル画像におけるターゲット検出(英: Target detection)とは、通常、所望のターゲット物質に対して1つ以上のスペクトルを画像中の各ピクセルと比較することにより、ターゲットを含む可能性のある画像から画素を探索する過程である。 ターゲット識別(Target Identification)は、高い検出で得られた各ピクセルに存在する物質をより具体的に識別する追加のプロセスを含むターゲット検出のプロセスである。 検出は、一般的にターゲット対バックグラウンドの2クラス問題であり、識別は、ターゲット、バックグラウンド、追加の知識材料を含む多くのクラス問題である。 我々が提示する識別プロセスは確率的かつ階層的であり、プロセスに透明性を提供し、信頼できるアウトプットを生み出す。 本稿では, ターゲット同定が検出単独よりもはるかに低い誤報率を持つことを示すとともに, 特定の化学成分の物理的カテゴリとは異なるユーザに依存する材料の曖昧な分類を扱う確率的階層分類を用いたロバスト識別手法の詳細な説明を提供する。 同定は、ターゲットスペクトルを含む物質の混合物と、ターゲットスペクトルを含まない物質の混合物を、おそらく他のステップと比較することによって行われる。 (バンドの組み合わせ、特徴チェック、背景削除など) 標準線形回帰は、回帰器の数(識別スペクトル)が特徴変数の数(バンド)よりも大きく、複数の相関スペクトルが存在するため、これらの問題をうまく処理しない。 提案手法は,これらの課題を効率的に処理し,ベイズモデル平均化から計算した階層的確率の形で重要な実用的な情報を提供する。

Target detection in hyperspectral imagery is the process of locating pixels from an image which are likely to contain target, typically done by comparing one or more spectra for the desired target material to each pixel in the image. Target identification is the process of target detection incorporating an additional process to identify more specifically the material that is present in each pixel that scored high in detection. Detection is generally a 2-class problem of target vs. background, and identification is a many class problem including target, background, and additional know materials. The identification process we present is probabilistic and hierarchical which provides transparency to the process and produces trustworthy output. In this paper we show that target identification has a much lower false alarm rate than detection alone, and provide a detailed explanation of a robust identification method using probabilistic hierarchical classification that handles the vague categories of materials that depend on users which are different than the specific physical categories of chemical constituents. Identification is often done by comparing mixtures of materials including the target spectra to mixtures of materials that do not include the target spectra, possibly with other steps. (band combinations, feature checking, background removal, etc.) Standard linear regression does not handle these problems well because the number of regressors (identification spectra) is greater than the number of feature variables (bands), and there are multiple correlated spectra. Our proposed method handles these challenges efficiently and provides additional important practical information in the form of hierarchical probabilities computed from Bayesian model averaging.
翻訳日:2022-07-25 12:49:41 公開日:2022-07-21
# DeVIANT:モノクロ3次元物体検出のための深度EquiVarIAntネトワーク

DEVIANT: Depth EquiVarIAnt NeTwork for Monocular 3D Object Detection ( http://arxiv.org/abs/2207.10758v1 )

ライセンス: Link先を確認
Abhinav Kumar, Garrick Brazil, Enrique Corona, Armin Parchami, Xiaoming Liu(参考訳) 現代のニューラルネットワークでは、任意の2d変換に同値な畳み込みなどのビルディングブロックを使用する。 しかし、これらのバニラブロックは射影多様体の任意の3次元変換に同値ではない。 それでも、すべての単眼の3d検出器はバニラブロックを使用して3d座標を得る。 本稿では、射影多様体内の任意の3d変換に同変する畳み込みへの第一歩を取り上げる。 単分子検出における深度は最も推定が難しいため, 既設のスケール同変ステアブルブロックを用いたDepth EquiVarant NeTwork (DEVIANT)を提案する。 その結果、DEVIANT は射影多様体の深さ変換に同値であるが、バニラネットワークはそうではない。 追加の深度均等性により、DeVIANTは一貫した深度推定を学習せざるを得なくなるため、DVIANTは画像のみのカテゴリにおいて、KITTIおよびWaymoデータセットの最先端のモノクル3D検出結果を達成し、余分な情報を用いた手法と競合する。 さらに、DEVIANTはデータ間の評価においてバニラネットワークよりも優れている。 https://github.com/abhi1kumar/DEVIANTのコードとモデル

Modern neural networks use building blocks such as convolutions that are equivariant to arbitrary 2D translations. However, these vanilla blocks are not equivariant to arbitrary 3D translations in the projective manifold. Even then, all monocular 3D detectors use vanilla blocks to obtain the 3D coordinates, a task for which the vanilla blocks are not designed for. This paper takes the first step towards convolutions equivariant to arbitrary 3D translations in the projective manifold. Since the depth is the hardest to estimate for monocular detection, this paper proposes Depth EquiVarIAnt NeTwork (DEVIANT) built with existing scale equivariant steerable blocks. As a result, DEVIANT is equivariant to the depth translations in the projective manifold whereas vanilla networks are not. The additional depth equivariance forces the DEVIANT to learn consistent depth estimates, and therefore, DEVIANT achieves state-of-the-art monocular 3D detection results on KITTI and Waymo datasets in the image-only category and performs competitively to methods using extra information. Moreover, DEVIANT works better than vanilla networks in cross-dataset evaluation. Code and models at https://github.com/abhi1kumar/DEVIANT
翻訳日:2022-07-25 12:45:31 公開日:2022-07-21
# ME-GAN: 心疾患にともなう多視点心電図合成のための心電図の学習

ME-GAN: Learning Panoptic Electrocardio Representations for Multi-view ECG Synthesis Conditioned on Heart Diseases ( http://arxiv.org/abs/2207.10670v1 )

ライセンス: Link先を確認
Jintai Chen, Kuanlun Liao, Kun Wei, Haochao Ying, Danny Z. Chen, Jian Wu(参考訳) 心電図(ECG)は、心臓疾患の非侵襲的診断ツールとして広く用いられている。 診断を助けるために多くの研究がECG分析モデル(例えば分類器)を考案した。 上流のタスクとして、ECGデータを合成するための生成モデルを構築し、トレーニングサンプル、プライバシ保護、アノテーションの削減を提供するのに有用である。 しかし、従来の心電図生成法では、多視点データを合成することも、心疾患の状況に対処することもなかった。 本稿では,心疾患を指標とした汎視的心電図表現を実現するme-ganと呼ばれる多視点心電図合成のための新しい疾患対応生成逆ネットワークを提案し,その表現を複数の標準ビューに投影してecg信号を生成する。 心臓疾患の心電図は特定の波形に局所化されることが多いため,適切な場所に病情報を正確に注入する「ミックスアップ正規化」を提案する。 さらに、乱れたECGビューを事前決定順序に戻すためのビュー判別器を提案し、生成器を監督して正しいビュー特性を表すECGを得る。 さらに、合成ECG信号の品質を評価するために、新しい計量rFIDが提示される。 総合的な実験により,ME-GANは多視点ECG信号合成において信頼性の高いモルビッド表現を用いて良好に機能することが確認された。

Electrocardiogram (ECG) is a widely used non-invasive diagnostic tool for heart diseases. Many studies have devised ECG analysis models (e.g., classifiers) to assist diagnosis. As an upstream task, researches have built generative models to synthesize ECG data, which are beneficial to providing training samples, privacy protection, and annotation reduction. However, previous generative methods for ECG often neither synthesized multi-view data, nor dealt with heart disease conditions. In this paper, we propose a novel disease-aware generative adversarial network for multi-view ECG synthesis called ME-GAN, which attains panoptic electrocardio representations conditioned on heart diseases and projects the representations onto multiple standard views to yield ECG signals. Since ECG manifestations of heart diseases are often localized in specific waveforms, we propose a new "mixup normalization" to inject disease information precisely into suitable locations. In addition, we propose a view discriminator to revert disordered ECG views into a pre-determined order, supervising the generator to obtain ECG representing correct view characteristics. Besides, a new metric, rFID, is presented to assess the quality of the synthesized ECG signals. Comprehensive experiments verify that our ME-GAN performs well on multi-view ECG signal synthesis with trusty morbid manifestations.
翻訳日:2022-07-25 12:43:14 公開日:2022-07-21
# JAWS: 共変量シフトによる予測推論

JAWS: Predictive Inference Under Covariate Shift ( http://arxiv.org/abs/2207.10716v1 )

ライセンス: Link先を確認
Drew Prinster, Anqi Liu, Suchi Saria(参考訳) 共変量シフト下での分布自由不確実性定量化タスクの一連のラッパー手法である \textbf{JAWS} を提案し,その中核となる方法である \textbf{JA}ckknife+ \textbf{W} を重み付けした。 JAWSはまた、高次影響関数を用いたJAWの計算効率の良い \textbf{A}pproximationsも含んでいる。 理論的には、JAWはジャックニフェ+のデータ交換可能性の仮定を緩和し、共変量シフト下であっても同じ有限サンプルカバレッジを保証することを示す。 JAWAはさらに、サンプルサイズまたは影響関数順序の制限を軽度な仮定の下でJAW保証にアプローチする。 また,分布のない不確実性定量化手法を再利用するための一般的な手法を提案し,リスク評価の課題である,真のラベルがユーザ指定間隔内にあるという推定確率を生成するタスクを提案する。 次に,提案手法の再活用版として, \textbf{JAW-R} と \textbf{JAWA-R} を提案する。 実際、JAWSは、インターバルジェネレーションとリスク評価監査の両方のタスクにおいて、さまざまなバイアスのある実世界のデータセットにおいて、最先端の予測推論ベースラインを上回っている。

We propose \textbf{JAWS}, a series of wrapper methods for distribution-free uncertainty quantification tasks under covariate shift, centered on our core method \textbf{JAW}, the \textbf{JA}ckknife+ \textbf{W}eighted with likelihood-ratio weights. JAWS also includes computationally efficient \textbf{A}pproximations of JAW using higher-order influence functions: \textbf{JAWA}. Theoretically, we show that JAW relaxes the jackknife+'s assumption of data exchangeability to achieve the same finite-sample coverage guarantee even under covariate shift. JAWA further approaches the JAW guarantee in the limit of either the sample size or the influence function order under mild assumptions. Moreover, we propose a general approach to repurposing any distribution-free uncertainty quantification method and its guarantees to the task of risk assessment: a task that generates the estimated probability that the true label lies within a user-specified interval. We then propose \textbf{JAW-R} and \textbf{JAWA-R} as the repurposed versions of proposed methods for \textbf{R}isk assessment. Practically, JAWS outperform the state-of-the-art predictive inference baselines in a variety of biased real world data sets for both interval-generation and risk-assessment auditing tasks.
翻訳日:2022-07-25 12:38:27 公開日:2022-07-21
# 相互情報による深層表現学習

Deep Sufficient Representation Learning via Mutual Information ( http://arxiv.org/abs/2207.10772v1 )

ライセンス: Link先を確認
Siming Zheng, Yuanyuan Lin and Jian Huang(参考訳) 本稿では,相互情報の変分定式化と深層ニューラルネットワークの近似力を利用した相互情報に基づく十分表現学習(MSRL)手法を提案する。 MSRLは、応答とユーザ選択分布との最大相互情報で十分な表現を学習する。 多次元連続またはカテゴリー応答変数を容易に扱うことができる。 msrlは、学習された表現が与えられた応答変数の条件付き確率密度関数が、与えられた応答変数の条件付き確率密度関数に収束するという意味で一貫している。 MSRLの非漸近誤差境界も適切な条件下で確立される。 誤差境界を確立するために、深層ニューラルネットワークによってインデックス付けされた順序2 U-プロセスに対するダドリーの不等式を一般化した。 基礎となるデータ分布の固有次元を決定する方法について論じる。 さらに,MSRLの性能は,大規模な数値実験と実データ解析により評価し,既存の非線形十分次元削減法よりも優れていることを示した。

We propose a mutual information-based sufficient representation learning (MSRL) approach, which uses the variational formulation of the mutual information and leverages the approximation power of deep neural networks. MSRL learns a sufficient representation with the maximum mutual information with the response and a user-selected distribution. It can easily handle multi-dimensional continuous or categorical response variables. MSRL is shown to be consistent in the sense that the conditional probability density function of the response variable given the learned representation converges to the conditional probability density function of the response variable given the predictor. Non-asymptotic error bounds for MSRL are also established under suitable conditions. To establish the error bounds, we derive a generalized Dudley's inequality for an order-two U-process indexed by deep neural networks, which may be of independent interest. We discuss how to determine the intrinsic dimension of the underlying data distribution. Moreover, we evaluate the performance of MSRL via extensive numerical experiments and real data analysis and demonstrate that MSRL outperforms some existing nonlinear sufficient dimension reduction methods.
翻訳日:2022-07-25 12:38:03 公開日:2022-07-21
# 一般化線形バンディットの再訪における遅延フィードバック

Delayed Feedback in Generalised Linear Bandits Revisited ( http://arxiv.org/abs/2207.10786v1 )

ライセンス: Link先を確認
Benjamin Howson, Ciara Pike-Burke, Sarah Filippi(参考訳) 確率的一般化線形帯域は、逐次決定問題に対するよく理解されたモデルであり、多くのアルゴリズムは即時フィードバックの下でほぼ最適の後悔を保証する。 しかし、現実世界の多くの場面では、即座に報奨を受けるという要件は適用されない。 この設定では、標準アルゴリズムはもはや理論的に理解されていない。 本研究は,行動の選択と報酬の受信の遅延を理論的に導入することにより,報酬の遅れ現象を理論的に検討する。 提案手法では,遅延分布の事前知識を排除し,決定セットと遅延に関する仮定を緩和することにより,楽観的な原理に基づくアルゴリズムが既存のアプローチを改善することを示す。 これはまた、$ \widetilde o(\sqrt{dt}\sqrt{d + \mathbb{e}[\tau]})$ to $ \widetilde o(d\sqrt{t} + d^{3/2}\mathbb{e}[\tau])$ ここで$\mathbb{e}[\tau]$は期待の遅延を表し、$d$は時間軸の次元であり、$t$は時間軸である。 シミュレーションデータを用いた実験により理論的結果を検証する。

The stochastic generalised linear bandit is a well-understood model for sequential decision-making problems, with many algorithms achieving near-optimal regret guarantees under immediate feedback. However, in many real world settings, the requirement that the reward is observed immediately is not applicable. In this setting, standard algorithms are no longer theoretically understood. We study the phenomenon of delayed rewards in a theoretical manner by introducing a delay between selecting an action and receiving the reward. Subsequently, we show that an algorithm based on the optimistic principle improves on existing approaches for this setting by eliminating the need for prior knowledge of the delay distribution and relaxing assumptions on the decision set and the delays. This also leads to improving the regret guarantees from $ \widetilde O(\sqrt{dT}\sqrt{d + \mathbb{E}[\tau]})$ to $ \widetilde O(d\sqrt{T} + d^{3/2}\mathbb{E}[\tau])$, where $\mathbb{E}[\tau]$ denotes the expected delay, $d$ is the dimension and $T$ the time horizon and we have suppressed logarithmic terms. We verify our theoretical results through experiments on simulated data.
翻訳日:2022-07-25 12:37:49 公開日:2022-07-21
# エッジ応用のための高速光流れの融合フレームとイベントビジョン

Fusing Frame and Event Vision for High-speed Optical Flow for Edge Application ( http://arxiv.org/abs/2207.10720v1 )

ライセンス: Link先を確認
Ashwin Sanjay Lele, Arijit Raychowdhury(参考訳) フレームベースのカメラによる光フロー計算は精度が高いが、速度はアルゴリズムのモデルサイズやカメラのフレームレートによって制限される。 これにより、高速アプリケーションには適さない。 イベントカメラはフレームレート制限を克服する連続的な非同期イベントストリームを提供する。 しかし、データを処理するアルゴリズムは、速度制限のような設定フレームを借りるか、より低い精度で苦しむ。 フレームとイベントベースパイプラインの相補的精度と速度の利点を融合させ,低エラー率を維持しながら高速な光フローを実現する。 我々のバイオミメティックネットワークはMVSECデータセットで検証され、4倍の速度で19%のエラー劣化を示した。 そして、高速のイベントカメラが、光学カメラがドローンが追跡やセグメンテーションのようなアプリケーションに適しているのを見る前に、フローを計算する高速ドローン飛行シナリオでシステムをデモする。 この研究は、フレームベースの処理における基本的なトレードオフが、他のモダリティからデータを取り出すことによって克服できることを示している。

Optical flow computation with frame-based cameras provides high accuracy but the speed is limited either by the model size of the algorithm or by the frame rate of the camera. This makes it inadequate for high-speed applications. Event cameras provide continuous asynchronous event streams overcoming the frame-rate limitation. However, the algorithms for processing the data either borrow frame like setup limiting the speed or suffer from lower accuracy. We fuse the complementary accuracy and speed advantages of the frame and event-based pipelines to provide high-speed optical flow while maintaining a low error rate. Our bio-mimetic network is validated with the MVSEC dataset showing 19% error degradation at 4x speed up. We then demonstrate the system with a high-speed drone flight scenario where a high-speed event camera computes the flow even before the optical camera sees the drone making it suited for applications like tracking and segmentation. This work shows the fundamental trade-offs in frame-based processing may be overcome by fusing data from other modalities.
翻訳日:2022-07-25 12:34:04 公開日:2022-07-21
# R2P: mmWave RadarからPoint Cloudへのディープラーニングモデル

R2P: A Deep Learning Model from mmWave Radar to Point Cloud ( http://arxiv.org/abs/2207.10690v1 )

ライセンス: Link先を確認
Yue Sun, Honggang Zhang, Zhuoming Huang, and Benyuan Liu(参考訳) 近年の研究では、低視認性環境におけるオブジェクト検出におけるmmWaveレーダセンシングの有効性が示されており、自律ナビゲーションシステムにおいて理想的な手法である。 本稿では,mmwaveレーダから得られた不正確な点を持つ粗さと疎さに基づく,微細な幾何学的詳細を持つ3次元物体の滑らかで高密度,高精度な点雲表現を生成するディープラーニングモデルであるradar to point cloud (r2p)について紹介する。 これらの入力点雲は、生のmm波レーダセンサデータから生成された2次元深度画像から変換され、不整合と向きと形状誤差が特徴である。 R2Pは、2つのシーケンシャルディープラーニングエンコーダ・デコーダブロックのアーキテクチャを用いて、複数の視点から観測されたオブジェクトのレーダベースの入力点雲の本質的な特徴を抽出し、生成された出力点雲の内部の一貫性と、その正確かつ詳細な元のオブジェクトの形状再構成を保証する。 我々は最近提案した3DRIMR(3D Restruction and Imaging via mmWave Radar)システムのステージ2を置き換えるためにR2Pを実装した。 本実験は,PointNetやPCN,オリジナル3DRIMRといった既存の手法に比べて,R2Pの大幅な性能向上を示すものである。

Recent research has shown the effectiveness of mmWave radar sensing for object detection in low visibility environments, which makes it an ideal technique in autonomous navigation systems. In this paper, we introduce Radar to Point Cloud (R2P), a deep learning model that generates smooth, dense, and highly accurate point cloud representation of a 3D object with fine geometry details, based on rough and sparse point clouds with incorrect points obtained from mmWave radar. These input point clouds are converted from the 2D depth images that are generated from raw mmWave radar sensor data, characterized by inconsistency, and orientation and shape errors. R2P utilizes an architecture of two sequential deep learning encoder-decoder blocks to extract the essential features of those radar-based input point clouds of an object when observed from multiple viewpoints, and to ensure the internal consistency of a generated output point cloud and its accurate and detailed shape reconstruction of the original object. We implement R2P to replace Stage 2 of our recently proposed 3DRIMR (3D Reconstruction and Imaging via mmWave Radar) system. Our experiments demonstrate the significant performance improvement of R2P over the popular existing methods such as PointNet, PCN, and the original 3DRIMR design.
翻訳日:2022-07-25 12:33:48 公開日:2022-07-21
# トランスフォーマーによる3次元解剖学的検出を可能にするフォーカスドデコード

Focused Decoding Enables 3D Anatomical Detection by Transformers ( http://arxiv.org/abs/2207.10774v1 )

ライセンス: Link先を確認
Bastian Wittmann, Fernando Navarro, Suprosanna Shit, Bjoern Menze(参考訳) 検出トランスフォーマーはTransformerエンコーダデコーダアーキテクチャに基づくエンドツーエンドのオブジェクト検出アプローチを表現し,グローバルリレーショナルモデリングにおけるアテンション機構を活用する。 Detection Transformerは、高度に最適化されたCNNベースの2Dナチュラルイメージに匹敵する結果を提供するが、その成功は大量のトレーニングデータへのアクセスと密接に結びついている。 しかし、このことは、注釈付きデータへのアクセスが典型的には制限されるため、医療領域で検出トランスフォーマーを使用する可能性を制限する。 この問題に取り組み, 医療用検出トランスの出現を容易にするため, 集束デコーダと呼ばれる3次元解剖学的構造検出のための新しい検出トランスを提案する。 集中型デコーダは、解剖学的領域アトラスからの情報を活用して、クエリアンカーを同時に展開し、関心のある領域へのクロスアテンションの視野を制限し、関連する解剖学的構造に正確に焦点を合わせることができる。 提案手法を2つの公開ctデータセット上で評価し,集中型デコーダが強い検出結果を提供するだけでなく,大量の注釈付きデータの必要性を緩和すると同時に,注意重みによる結果の極めて直感的な説明可能性を示すことを示した。 Focused Decoderのコードは、医療用Vision Transformerライブラリgithub.com/bwittmann/transoarで利用可能です。

Detection Transformers represent end-to-end object detection approaches based on a Transformer encoder-decoder architecture, exploiting the attention mechanism for global relation modeling. Although Detection Transformers deliver results on par with or even superior to their highly optimized CNN-based counterparts operating on 2D natural images, their success is closely coupled to access to a vast amount of training data. This, however, restricts the feasibility of employing Detection Transformers in the medical domain, as access to annotated data is typically limited. To tackle this issue and facilitate the advent of medical Detection Transformers, we propose a novel Detection Transformer for 3D anatomical structure detection, dubbed Focused Decoder. Focused Decoder leverages information from an anatomical region atlas to simultaneously deploy query anchors and restrict the cross-attention's field of view to regions of interest, which allows for a precise focus on relevant anatomical structures. We evaluate our proposed approach on two publicly available CT datasets and demonstrate that Focused Decoder not only provides strong detection results and thus alleviates the need for a vast amount of annotated data but also exhibits exceptional and highly intuitive explainability of results via attention weights. Code for Focused Decoder is available in our medical Vision Transformer library github.com/bwittmann/transoar.
翻訳日:2022-07-25 12:33:24 公開日:2022-07-21
# 車両ナンバープレートの検出と認識のための半教師付き正規化フローとヨーロ(YoloNF)の高度な組み合わせ

An advanced combination of semi-supervised Normalizing Flow & Yolo (YoloNF) to detect and recognize vehicle license plates ( http://arxiv.org/abs/2207.10777v1 )

ライセンス: Link先を確認
Khalid Oublal and Xinyi Dai(参考訳) 完全自動ライセンスプレート認識(alpr)は、いくつかの実用的な応用のために頻繁に研究されている。 しかし、現在のソリューションの多くは、多くの場合多くの制約に依存するが、実際の状況では十分に堅牢ではない。 本稿では、最先端のYOLOオブジェクト検出器と正規化フローに基づく、堅牢で効率的なALPRシステムを提案する。 モデルは2つの新しい戦略を使用する。 まず、YOLOを用いた2段階ネットワークと正規化フローベースモデルを用いて、ライセンスプレート(LP)を検出し、数字とアラビア文字でLPを認識する。 第二に, 背景雑音を含むヨロクロッピングlp検出問題に対する解法として, マルチスケール画像変換を実装した。 さらに,現実的なシナリオを持つデータセットを大規模に実験し,モロッコプレートから収集したより大規模な公開アノテーション付きデータセットを導入する。 提案モデルでは,1文字または複数文字を含まない少数のサンプルで学習できることを実証する。 データセットも公開され、プレートの検出と認識に関するさらなる研究と研究が奨励される。

Fully Automatic License Plate Recognition (ALPR) has been a frequent research topic due to several practical applications. However, many of the current solutions are still not robust enough in real situations, commonly depending on many constraints. This paper presents a robust and efficient ALPR system based on the state-of-the-art YOLO object detector and Normalizing flows. The model uses two new strategies. Firstly, a two-stage network using YOLO and a normalization flow-based model for normalization to detect Licenses Plates (LP) and recognize the LP with numbers and Arabic characters. Secondly, Multi-scale image transformations are implemented to provide a solution to the problem of the YOLO cropped LP detection including significant background noise. Furthermore, extensive experiments are led on a new dataset with realistic scenarios, we introduce a larger public annotated dataset collected from Moroccan plates. We demonstrate that our proposed model can learn on a small number of samples free of single or multiple characters. The dataset will also be made publicly available to encourage further studies and research on plate detection and recognition.
翻訳日:2022-07-25 12:32:59 公開日:2022-07-21
# ガウスベイズモデルとニューラルネットを用いたnasaハイパースペクトル衛星画像からのghisaconus usgsデータに基づく作物分類

Classifying Crop Types using Gaussian Bayesian Models and Neural Networks on GHISACONUS USGS data from NASA Hyperspectral Satellite Imagery ( http://arxiv.org/abs/2207.11228v1 )

ライセンス: Link先を確認
Bill Basener(参考訳) ハイパースペクトルイマジネーション(hyperspectral imagining)は、各ピクセルが数百の波長の光を含むデジタルイメージングの一種で、ピクセルに存在する物質に関する分光情報を提供する。 本稿では,nasaハイペリオン衛星が収集した5つの主要農作物(小麦,米,トウモロコシ,大豆,綿)から約7,000ピクセルのスペクトルを含むusgs ghisaconusデータにおける作物種別を分類し,そのスペクトル,位置情報,作物種および各画素の成長段階を含む分類法を提案する。 我々は、標準のLDAとQDA、および、作物の種類とステージの結合確率を計算し、その後、作物タイプの限界確率を計算し、非ベイズ法より優れているベイズカスタムバージョンを適用した。 また,データのドロップアウトを伴う単一層ニューラルネットワークもテストし,ldaやqdaに匹敵する性能を示したが,ベイズ法には及ばなかった。

Hyperspectral Imagining is a type of digital imaging in which each pixel contains typically hundreds of wavelengths of light providing spectroscopic information about the materials present in the pixel. In this paper we provide classification methods for determining crop type in the USGS GHISACONUS data, which contains around 7,000 pixel spectra from the five major U.S. agricultural crops (winter wheat, rice, corn, soybeans, and cotton) collected by the NASA Hyperion satellite, and includes the spectrum, geolocation, crop type, and stage of growth for each pixel. We apply standard LDA and QDA as well as Bayesian custom versions that compute the joint probability of crop type and stage, and then the marginal probability for crop type, outperforming the non-Bayesian methods. We also test a single layer neural network with dropout on the data, which performs comparable to LDA and QDA but not as well as the Bayesian methods.
翻訳日:2022-07-25 12:28:01 公開日:2022-07-21
# 逆機械学習研究のための合成データセット生成

Synthetic Dataset Generation for Adversarial Machine Learning Research ( http://arxiv.org/abs/2207.10719v1 )

ライセンス: Link先を確認
Xiruo Liu, Shibani Singh, Cory Cornelius, Colin Busho, Mike Tan, Anindya Paul, Jason Martin(参考訳) 既存の逆例研究は、既存の自然画像データセットの上にデジタル挿入された摂動に焦点を当てている。 この敵対的な例の構築は、攻撃者がセンシングや環境の影響によって現実世界にそのような攻撃を展開することは困難、あるいは不可能である可能性があるため、現実的ではない。 サイバー物理システムに対する敵対的事例をよりよく理解するために,シミュレーションによる実世界の近似を提案する。 本稿では,このような合成データセットのスケーラブルな収集を可能にする合成データセット生成ツールについて述べる。 このようなデータセットをcarlaシミュレータを用いて収集し,実世界画像と同じ環境変化と処理を行うシミュレーション攻撃を実演する。 我々のツールは、敵の例の有効性を評価するためにデータセットの収集に使われており、https://github.com/carla-simulator/carla/pull/4992で見ることができる。

Existing adversarial example research focuses on digitally inserted perturbations on top of existing natural image datasets. This construction of adversarial examples is not realistic because it may be difficult, or even impossible, for an attacker to deploy such an attack in the real-world due to sensing and environmental effects. To better understand adversarial examples against cyber-physical systems, we propose approximating the real-world through simulation. In this paper we describe our synthetic dataset generation tool that enables scalable collection of such a synthetic dataset with realistic adversarial examples. We use the CARLA simulator to collect such a dataset and demonstrate simulated attacks that undergo the same environmental transforms and processing as real-world images. Our tools have been used to collect datasets to help evaluate the efficacy of adversarial examples, and can be found at https://github.com/carla-simulator/carla/pull/4992.
翻訳日:2022-07-25 12:27:42 公開日:2022-07-21
# 適応的特徴融合による活動認識のためのドメイン一般化

Domain Generalization for Activity Recognition via Adaptive Feature Fusion ( http://arxiv.org/abs/2207.11221v1 )

ライセンス: Link先を確認
Xin Qin, Jindong Wang, Yiqiang Chen, Wang Lu, Xinlong Jiang(参考訳) ヒューマンアクティビティ認識では、トレーニングデータセットを使用した一般化されたモデルの構築と、テストデータセットのパフォーマンス向上が求められている。 しかし、実際のアプリケーションでは、トレーニングデータセットとテストデータセットは、ボディ形状、演技スタイル、習慣などの様々な理由により、完全に異なる分布を持ち、モデルの一般化性能を損なう可能性がある。 このような分散ギャップは、既存のドメイン適応アプローチによって低減できるが、通常は、テストデータがトレーニング段階でアクセス可能であると仮定するが、現実的ではない。 本稿では、テストデータセット \emph{cannot} がトレーニング中にアクセスされるドメイン一般化アクティビティ認識(dgar)という、より実用的で困難なシナリオを検討する。 そこで本研究では,ドメイン不変およびドメイン固有表現を融合して一般化性能を向上させるドメイン一般化アプローチである,アクティビティ認識のためのemph{Adaptive Feature Fusion for Activity Recognition~(AFFAR)}を提案する。 AFFARはドメイン不変表現がドメイン間の転送可能性を高め、ドメイン固有の表現が各ドメインからのモデル識別能力を活用する、両方の世界の長所を取ります。 3つの公開HARデータセットに対する大規模な実験は、その有効性を示している。 さらに、AFFARを実際の応用、すなわち、子どもの注意欠陥過活動障害(ADHD)の診断に適用し、このアプローチの優位性を示す。

Human activity recognition requires the efforts to build a generalizable model using the training datasets with the hope to achieve good performance in test datasets. However, in real applications, the training and testing datasets may have totally different distributions due to various reasons such as different body shapes, acting styles, and habits, damaging the model's generalization performance. While such a distribution gap can be reduced by existing domain adaptation approaches, they typically assume that the test data can be accessed in the training stage, which is not realistic. In this paper, we consider a more practical and challenging scenario: domain-generalized activity recognition (DGAR) where the test dataset \emph{cannot} be accessed during training. To this end, we propose \emph{Adaptive Feature Fusion for Activity Recognition~(AFFAR)}, a domain generalization approach that learns to fuse the domain-invariant and domain-specific representations to improve the model's generalization performance. AFFAR takes the best of both worlds where domain-invariant representations enhance the transferability across domains and domain-specific representations leverage the model discrimination power from each domain. Extensive experiments on three public HAR datasets show its effectiveness. Furthermore, we apply AFFAR to a real application, i.e., the diagnosis of Children's Attention Deficit Hyperactivity Disorder~(ADHD), which also demonstrates the superiority of our approach.
翻訳日:2022-07-25 12:26:15 公開日:2022-07-21
# メトロポリスモンテカルロサンプリング:収束、局在化遷移および最適性

Metropolis Monte Carlo sampling: convergence, localization transition and optimality ( http://arxiv.org/abs/2207.10488v1 )

ライセンス: Link先を確認
Alexei D. Chepelianskii, Satya N. Majumdar, Hendrik Schawe and Emmanuel Trizac(参考訳) ランダムサンプリング法のうち、マルコフ・チェイン・モンテカルロアルゴリズムが最も多い。 解析的および数値的アプローチの組み合わせを用いて、ランダムウォークメトロポリススキームにおいて、それらの収束特性を定常状態に向けて研究する。 目標定常状態分布からの偏差は、ランダムウォークを定義するジャンプの特徴的な長さの関数として局所化遷移が特徴的であることを示す。 この遷移は不完全収束によってもたらされる誤差を大きく変化させ、緩和機構が拡散と拒絶によってそれぞれ制限される2つのレジームを判別する。

Among random sampling methods, Markov Chain Monte Carlo algorithms are foremost. Using a combination of analytical and numerical approaches, we study their convergence properties towards the steady state, within a random walk Metropolis scheme. We show that the deviations from the target steady-state distribution feature a localization transition as a function of the characteristic length of the attempted jumps defining the random walk. This transition changes drastically the error which is introduced by incomplete convergence, and discriminates two regimes where the relaxation mechanism is limited respectively by diffusion and by rejection.
翻訳日:2022-07-22 13:52:36 公開日:2022-07-21
# オートエンコーダによる放射性大気移動の深層学習

Deep Learning of Radiative Atmospheric Transfer with an Autoencoder ( http://arxiv.org/abs/2207.10650v1 )

ライセンス: Link先を確認
Abigail Basener, Bill Basener(参考訳) 太陽からの電気光学エネルギーは大気中を伝播するので、吸収、放出、散乱などの放射伝達効果に影響される。 これらの影響のモデル化は、地球と大気のリモートセンシングに不可欠である。 例えば、ハイパースペクトル画像(hyperspectral images)は、ピクセル内の多くの、しばしば数百の光の波長で収集されるデジタル画像の一形態である。 センサーで測定された光の量は、放射された日光、大気の放射移動、地上の物質からの反射によるものであり、これらは全て、複数の物理的現象によって生じる波長ごとに変化する。 そのため、地上スペクトルまたは大気成分の測定は、波長ごとにこれらの異なる寄与を分離する必要がある。 本稿では,大気の影響を「ノイズ」,地上反射をスペクトル当たりの真理として扱う自動エンコーダと同様のオートエンコーダを作成する。 実験室の測定から無作為なスペクトルのサンプルを採取し,MODTRAN (http://modtran.spectral.com/modtran\_home) を用いた物理モデルを用いて大気の影響を付加することにより,数十万のトレーニングサンプルを生成する。 このプロセスは、超スペクトル画像における大気効果と地上反射を分離するオートエンコーダを作成するのが理想的であり、これは、ヒューリスティック近似、物理量の推定、物理モデリングの組合せを必要とする、難易度と時間を要する大気補償と呼ばれるプロセスである。 本手法の精度はこの分野の他の手法ほど良くないが,ハイパースペクトル画像とリモートセンシングにおいて,物理原理の深層学習の分野を大気補償に適用する上で重要な第一歩となる。

As electro-optical energy from the sun propagates through the atmosphere it is affected by radiative transfer effects including absorption, emission, and scattering. Modeling these affects is essential for scientific remote sensing measurements of the earth and atmosphere. For example, hyperspectral imagery is a form of digital imagery collected with many, often hundreds, of wavelengths of light in pixel. The amount of light measured at the sensor is the result of emitted sunlight, atmospheric radiative transfer, and the reflectance off the materials on the ground, all of which vary per wavelength resulting from multiple physical phenomena. Therefore measurements of the ground spectra or atmospheric constituents requires separating these different contributions per wavelength. In this paper, we create an autoencoder similar to denoising autoencoders treating the atmospheric affects as 'noise' and ground reflectance as truth per spectrum. We generate hundreds of thousands of training samples by taking random samples of spectra from laboratory measurements and adding atmospheric affects using physics-based modelling via MODTRAN (http://modtran.spectral.com/modtran\_home) by varying atmospheric inputs. This process ideally could create an autoencoder that would separate atmospheric effects and ground reflectance in hyperspectral imagery, a process called atmospheric compensation which is difficult and time-consuming requiring a combination of heuristic approximations, estimates of physical quantities, and physical modelling. While the accuracy of our method is not as good as other methods in the field, this an important first step in applying the growing field of deep learning of physical principles to atmospheric compensation in hyperspectral imagery and remote sensing.
翻訳日:2022-07-22 13:52:27 公開日:2022-07-21
# 物理インフォームドニューラルネットワークの非適応型および残留型適応サンプリングに関する総合的研究

A comprehensive study of non-adaptive and residual-based adaptive sampling for physics-informed neural networks ( http://arxiv.org/abs/2207.10289v1 )

ライセンス: Link先を確認
Chenxi Wu, Min Zhu, Qinyang Tan, Yadhu Kartha, Lu Lu(参考訳) 物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)の前方および逆問題の解法として有効であることが示されている。 PINNはPDEをニューラルネットワークの損失に埋め込んでおり、このPDE損失は散在する残差点のセットで評価される。 これらの点の分布はピンのパフォーマンスにとって非常に重要である。 しかし,既存のピンの研究では,簡易な残差点サンプリング法がほとんど用いられていない。 本稿では,非適応型一様サンプリングと適応型一様サンプリングの2つのカテゴリを総合的に検討する。 我々は,(1)等間隔一様格子,(2)一様ランダムサンプリング,(3)ラテンハイパーキューブサンプリング,(4)ハルトン配列,(5)ハマーズリー配列,(6)ソボ配列を含む6つの一様サンプリングを検討した。 また,一様サンプリングのための再サンプリング戦略も検討する。 PINNのサンプリング効率と精度を向上させるために,残差ベース適応分布(RAD)と残差ベース適応分布(RAR-D)の2つの新しい適応サンプリング手法を提案し,PDE残差に基づく残差点分布を動的に改善する。 その結果,6つの非適応型一様サンプリング,一様サンプリング,2つの適応型サンプリング,および既存の適応型サンプリングを含む,合計10種類のサンプリング手法を検討した。 4つの前方問題と2つの逆問題に対して,これらのサンプリング手法の性能を多用した。 本研究で得られた数値結果は, 6000以上のPINNシミュレーションから要約した。 RADとRAR-Dの適応サンプリング手法は,残点が少ないPINNの精度を著しく向上することを示した。 本研究で得られた結果は,サンプリング法を選択するための実践的ガイドラインとしても利用できる。

Physics-informed neural networks (PINNs) have shown to be an effective tool for solving forward and inverse problems of partial differential equations (PDEs). PINNs embed the PDEs into the loss of the neural network, and this PDE loss is evaluated at a set of scattered residual points. The distribution of these points are highly important to the performance of PINNs. However, in the existing studies on PINNs, only a few simple residual point sampling methods have mainly been used. Here, we present a comprehensive study of two categories of sampling: non-adaptive uniform sampling and adaptive nonuniform sampling. We consider six uniform sampling, including (1) equispaced uniform grid, (2) uniformly random sampling, (3) Latin hypercube sampling, (4) Halton sequence, (5) Hammersley sequence, and (6) Sobol sequence. We also consider a resampling strategy for uniform sampling. To improve the sampling efficiency and the accuracy of PINNs, we propose two new residual-based adaptive sampling methods: residual-based adaptive distribution (RAD) and residual-based adaptive refinement with distribution (RAR-D), which dynamically improve the distribution of residual points based on the PDE residuals during training. Hence, we have considered a total of 10 different sampling methods, including six non-adaptive uniform sampling, uniform sampling with resampling, two proposed adaptive sampling, and an existing adaptive sampling. We extensively tested the performance of these sampling methods for four forward problems and two inverse problems in many setups. Our numerical results presented in this study are summarized from more than 6000 simulations of PINNs. We show that the proposed adaptive sampling methods of RAD and RAR-D significantly improve the accuracy of PINNs with fewer residual points. The results obtained in this study can also be used as a practical guideline in choosing sampling methods.
翻訳日:2022-07-22 13:50:50 公開日:2022-07-21
# O-RANにおける強化学習に基づく容量共有アルゴリズムの実装について

On the Implementation of a Reinforcement Learning-based Capacity Sharing Algorithm in O-RAN ( http://arxiv.org/abs/2207.10390v1 )

ライセンス: Link先を確認
Irene Vil\`a, Oriol Sallent, Jordi P\'erez-Romero(参考訳) 無線アクセスネットワーク(RAN)スライシングにおけるキャパシティ共有問題は、様々なRANスライス内のRANノードで利用可能なキャパシティの分布に対処し、そのトラフィック要求を満たし、無線リソースを効率的に利用する。 いくつかのキャパシティ共有アルゴリズムが文献で提案されているが、その実用的な実装はいまだにギャップとして残されている。 本稿では,o-ranアーキテクチャ上の強化学習に基づくキャパシティ共有アルゴリズムの実装について検討し,関連するインタフェースの動作とソリューションのコンテナ化に関する洞察を提供する。 さらに、ソリューションを検証するために実装されたテストベッドの記述を含み、いくつかのパフォーマンスと検証結果を示す。

The capacity sharing problem in Radio Access Network (RAN) slicing deals with the distribution of the capacity available in each RAN node among various RAN slices to satisfy their traffic demands and efficiently use the radio resources. While several capacity sharing algorithmic solutions have been proposed in the literature, their practical implementation still remains as a gap. In this paper, the implementation of a Reinforcement Learning-based capacity sharing algorithm over the O-RAN architecture is discussed, providing insights into the operation of the involved interfaces and the containerization of the solution. Moreover, the description of the testbed implemented to validate the solution is included and some performance and validation results are presented.
翻訳日:2022-07-22 13:50:22 公開日:2022-07-21
# 安全ブラックボックス最適化のためのログバリアと安全強化学習への応用

Log Barriers for Safe Black-box Optimization with Application to Safe Reinforcement Learning ( http://arxiv.org/abs/2207.10415v1 )

ライセンス: Link先を確認
Ilnura Usmanova, Yarden As, Maryam Kamgarpour, and Andreas Krause(参考訳) オンラインでノイズの多い機能を最適化する場合、その目的を評価するには、製造、ロボット工学、その他多くの分野において重要な課題となる。 多くの場合、安全な入力に対する制約は事前に不明であり、ノイズの多い情報しか得られず、制約に違反するほど近いことを示す。 しかし、安全はアルゴリズムの最終出力だけでなく、常に保証されなければならない。 本稿では,学習中の安全性維持が不可欠である高次元非線形確率最適化問題において,定常点を求める一般的なアプローチを提案する。 LB-SGDと呼ばれる手法は、確率勾配勾配勾配(SGD)を慎重に選択したステップサイズで元の問題の対数障壁近似に適用することに基づいている。 非凸、凸、強凸のスムーズな制約問題に対する完全収束解析を1次および0次フィードバックで提供する。 我々のアプローチは、既存のアプローチと比較して、効率的な更新と寸法によるスケールをもたらす。 サンプルの複雑さと計算コストを,既存の安全な学習手法と経験的に比較した。 安全強化学習(RL)における政策探索タスクにおける制約違反を最小限に抑えるためのアプローチの有効性を示す。

Optimizing noisy functions online, when evaluating the objective requires experiments on a deployed system, is a crucial task arising in manufacturing, robotics and many others. Often, constraints on safe inputs are unknown ahead of time, and we only obtain noisy information, indicating how close we are to violating the constraints. Yet, safety must be guaranteed at all times, not only for the final output of the algorithm. We introduce a general approach for seeking a stationary point in high dimensional non-linear stochastic optimization problems in which maintaining safety during learning is crucial. Our approach called LB-SGD is based on applying stochastic gradient descent (SGD) with a carefully chosen adaptive step size to a logarithmic barrier approximation of the original problem. We provide a complete convergence analysis of non-convex, convex, and strongly-convex smooth constrained problems, with first-order and zeroth-order feedback. Our approach yields efficient updates and scales better with dimensionality compared to existing approaches. We empirically compare the sample complexity and the computational cost of our method with existing safe learning approaches. Beyond synthetic benchmarks, we demonstrate the effectiveness of our approach on minimizing constraint violation in policy search tasks in safe reinforcement learning (RL).
翻訳日:2022-07-22 13:50:09 公開日:2022-07-21
# DNNスーパービジョンテストにおける忘れられた危険:真の曖昧さの生成と検出

A Forgotten Danger in DNN Supervision Testing: Generating and Detecting True Ambiguity ( http://arxiv.org/abs/2207.10495v1 )

ライセンス: Link先を確認
Michael Weiss, Andr\'e Garc\'ia G\'omez, Paolo Tonella(参考訳) ディープニューラルネットワーク(dnn)は、現代のソフトウェアシステムにおいて重要なコンポーネントになりつつあるが、トレーニング中に観測されたものとは異なる状況や、真にあいまいな入力、すなわち、基底真理ラベルに非ゼロ確率の複数のクラスを許容する入力で失敗しがちである。 近年のDNNスーパーバイザーは、誤分類が起こる前に不確実な入力を検出することを提案する。 DNNスーパーバイザーの能力をテストし比較するために、研究者はテスト生成技術を提案し、スーパーバイザーが異常と認識すべき高不確実性インプットに焦点を当てた。 しかし、既存のテストジェネレータは、分散入力のみを生成できる。 既存のモデルとスーパーバイザー非依存のテクニックは、真の曖昧なテストインプットの生成をサポートしていません。 本稿では,dnnスーパーバイザをテストするために,曖昧な入力を生成する新しい手法を提案し,既存のスーパーバイザ手法を経験的に比較する。 特に,画像分類問題に対するあいまいなサンプルを生成するためにAmbiGuessを提案する。 AmbiGuessは正規化対向オートエンコーダの潜在空間における勾配誘導サンプリングに基づいている。 さらに,我々は,dnn監督者の最も広範な比較調査を行い,真にあいまいな入力を含む4つの異なるタイプの高精度入力を検知する能力について検討した。

Deep Neural Networks (DNNs) are becoming a crucial component of modern software systems, but they are prone to fail under conditions that are different from the ones observed during training (out-of-distribution inputs) or on inputs that are truly ambiguous, i.e., inputs that admit multiple classes with nonzero probability in their ground truth labels. Recent work proposed DNN supervisors to detect high-uncertainty inputs before their possible misclassification leads to any harm. To test and compare the capabilities of DNN supervisors, researchers proposed test generation techniques, to focus the testing effort on high-uncertainty inputs that should be recognized as anomalous by supervisors. However, existing test generators can only produce out-of-distribution inputs. No existing model- and supervisor-independent technique supports the generation of truly ambiguous test inputs. In this paper, we propose a novel way to generate ambiguous inputs to test DNN supervisors and used it to empirically compare several existing supervisor techniques. In particular, we propose AmbiGuess to generate ambiguous samples for image classification problems. AmbiGuess is based on gradient-guided sampling in the latent space of a regularized adversarial autoencoder. Moreover, we conducted what is - to the best of our knowledge - the most extensive comparative study of DNN supervisors, considering their capabilities to detect 4 distinct types of high-uncertainty inputs, including truly ambiguous ones.
翻訳日:2022-07-22 13:49:50 公開日:2022-07-21
# 注意すべきこと:敵対的な訓練を受けたモデルの抽出について

Careful What You Wish For: on the Extraction of Adversarially Trained Models ( http://arxiv.org/abs/2207.10561v1 )

ライセンス: Link先を確認
Kacem Khaled, Gabriela Nicolescu and Felipe Gohring de Magalh\~aes(参考訳) 機械学習(ml)モデルに対する最近の攻撃、例えば、敵の例による回避攻撃や抽出攻撃による盗むモデルは、いくつかのセキュリティとプライバシの脅威を引き起こす。 先行研究は、モデルの分類を回避し、その性能を低下させる敵の例からモデルを保護するために、敵のトレーニングを使用することを提案する。 しかし、この保護技法はモデルの決定境界とその予測確率に影響するため、モデルのプライバシーリスクが高まる可能性がある。 実際、モデルの予測出力に対するクエリアクセスのみを使用する悪意のあるユーザは、それを抽出し、高精度で忠実な代理モデルを得ることができる。 より多く抽出するために、これらの攻撃は被害者モデルの予測可能性を活用する。 実際、これまでのすべての攻撃の抽出作業は、セキュリティ目的のトレーニングプロセスの変更を考慮していない。 本稿では,視覚データセットを用いた逆学習モデルの抽出攻撃を評価する枠組みを提案する。 私たちの知る限りでは、このような評価を最初に行うのは私たちの仕事です。 本研究は, 自然学習環境下で得られたモデルよりも, 敵対的に訓練されたモデルの方が抽出攻撃に対して脆弱であることを示す。 最大で$\times1.2$の精度と、クエリの$\times0.75$より短いコンセンサスを達成できる。 さらに,ロバストモデルから抽出した深層ニューラルネットワーク(dnn)は,自然に訓練された(標準)モデルから抽出されたdnnと比較して,逆方向の例に対して精度が向上することを示した。

Recent attacks on Machine Learning (ML) models such as evasion attacks with adversarial examples and models stealing through extraction attacks pose several security and privacy threats. Prior work proposes to use adversarial training to secure models from adversarial examples that can evade the classification of a model and deteriorate its performance. However, this protection technique affects the model's decision boundary and its prediction probabilities, hence it might raise model privacy risks. In fact, a malicious user using only a query access to the prediction output of a model can extract it and obtain a high-accuracy and high-fidelity surrogate model. To have a greater extraction, these attacks leverage the prediction probabilities of the victim model. Indeed, all previous work on extraction attacks do not take into consideration the changes in the training process for security purposes. In this paper, we propose a framework to assess extraction attacks on adversarially trained models with vision datasets. To the best of our knowledge, our work is the first to perform such evaluation. Through an extensive empirical study, we demonstrate that adversarially trained models are more vulnerable to extraction attacks than models obtained under natural training circumstances. They can achieve up to $\times1.2$ higher accuracy and agreement with a fraction lower than $\times0.75$ of the queries. We additionally find that the adversarial robustness capability is transferable through extraction attacks, i.e., extracted Deep Neural Networks (DNNs) from robust models show an enhanced accuracy to adversarial examples compared to extracted DNNs from naturally trained (i.e. standard) models.
翻訳日:2022-07-22 13:49:25 公開日:2022-07-21
# リフォーカスイベント融合によるマルチイベントカメラ深度推定と異常拒否

Multi-Event-Camera Depth Estimation and Outlier Rejection by Refocused Events Fusion ( http://arxiv.org/abs/2207.10494v1 )

ライセンス: Link先を確認
Suman Ghosh and Guillermo Gallego(参考訳) イベントカメラはバイオインスパイアされたセンサーで、従来のカメラよりも有利だ。 それらは非同期に動作し、マイクロ秒の解像度でシーンをサンプリングし、明るさ変化のストリームを生成する。 この非日常的な出力は、カメラの可能性を解き明かす新しいコンピュータビジョン手法を生み出した。 SLAMにおけるイベントベースステレオ3D再構成の問題に取り組む。 ほとんどのイベントベースのステレオ手法は、カメラ間の高時間分解能とイベント同時性を利用して一致を確立し、深さを推定する。 対照的に,効率の良い単眼法を起源とする不一致空間画像(dsis)を用いて,明示的なデータ結合を伴わずに深さを推定する方法を検討する。 我々は、融合理論を開発し、これを最新結果を生成するマルチカメラ3次元再構成アルゴリズムの設計に適用し、4つのベースライン法と比較し、利用可能な様々なデータセット上でテストすることで確認する。

Event cameras are bio-inspired sensors that offer advantages over traditional cameras. They work asynchronously, sampling the scene with microsecond resolution and producing a stream of brightness changes. This unconventional output has sparked novel computer vision methods to unlock the camera's potential. We tackle the problem of event-based stereo 3D reconstruction for SLAM. Most event-based stereo methods try to exploit the camera's high temporal resolution and event simultaneity across cameras to establish matches and estimate depth. By contrast, we investigate how to estimate depth without explicit data association by fusing Disparity Space Images (DSIs) originated in efficient monocular methods. We develop fusion theory and apply it to design multi-camera 3D reconstruction algorithms that produce state-of-the-art results, as we confirm by comparing against four baseline methods and testing on a variety of available datasets.
翻訳日:2022-07-22 13:48:32 公開日:2022-07-21
# 先行したディープオーディオ波形

Deep Audio Waveform Prior ( http://arxiv.org/abs/2207.10441v1 )

ライセンス: Link先を確認
Arnon Turetzky, Tzvi Michelson, Yossi Adi, Shmuel Peleg(参考訳) 畳み込みニューラルネットワークは、自然な画像を生成するための強い先行情報を含む[1]。 これらの事前設定により、画像のデノイジング、超解像度、および教師なしのインペインティングが可能となる。 オーディオに類似したアイデア、すなわちディープオーディオプリエントを実証する以前の試み。 (i)調和畳み込みなどの手で選んだ建築を用いる。 (ii)スペクトログラム入力でのみ動作し、 (iii)主にガウス雑音([2])の除去に用いられている。 本稿では,音源分離のための既存のsotaアーキテクチャが,生波形を扱う場合においても深い先行情報を含むことを示す。 ディーププリアーは、入力としてホワイトノイズが与えられると、ニューラルネットワークを訓練して1つの破損した信号を生成することで発見できる。 関連する深みのあるネットワークは、破損した信号に収束する前に、信号のよりクリーンなバージョンを生成する可能性が高い。 背景雑音,残響,信号のギャップ(音響インパインティング)など,いくつかの汚職を伴って,この修復効果を示す。

Convolutional neural networks contain strong priors for generating natural looking images [1]. These priors enable image denoising, super resolution, and inpainting in an unsupervised manner. Previous attempts to demonstrate similar ideas in audio, namely deep audio priors, (i) use hand picked architectures such as harmonic convolutions, (ii) only work with spectrogram input, and (iii) have been used mostly for eliminating Gaussian noise [2]. In this work we show that existing SOTA architectures for audio source separation contain deep priors even when working with the raw waveform. Deep priors can be discovered by training a neural network to generate a single corrupted signal when given white noise as input. A network with relevant deep priors is likely to generate a cleaner version of the signal before converging on the corrupted signal. We demonstrate this restoration effect with several corruptions: background noise, reverberations, and a gap in the signal (audio inpainting).
翻訳日:2022-07-22 13:47:27 公開日:2022-07-21
# CheckINN: Imandraにおける広域ニューラルネットワーク検証

CheckINN: Wide Range Neural Network Verification in Imandra ( http://arxiv.org/abs/2207.10562v1 )

ライセンス: Link先を確認
Remi Desmartin, Grant Passmore, Ekaterina Komendantskaya, Matthew Daggitt(参考訳) ニューラルネットワークは、自動運転車のような複雑な安全クリティカルシステムのコンポーネントとしてますます信頼されている。 より大規模な検証サイクルにニューラルネットワーク検証を組み込むツールや方法の需要が高い。 しかし、関心の幅広い検証特性のため、ニューラルネットワークの検証は困難である。 本稿では,金融インフラの検証,検証,シミュレーションのために当初設計された関数型プログラミング言語と定理証明器であるimandraが,ニューラルネットワーク検証のための全体的インフラストラクチャを提供する方法について述べる。 我々は,imandraのニューラルネットワークを形式化する新しいライブラリチェックインを開発し,ニューラルネットワーク検証の重要な側面を網羅する。

Neural networks are increasingly relied upon as components of complex safety-critical systems such as autonomous vehicles. There is high demand for tools and methods that embed neural network verification in a larger verification cycle. However, neural network verification is difficult due to a wide range of verification properties of interest, each typically only amenable to verification in specialised solvers. In this paper, we show how Imandra, a functional programming language and a theorem prover originally designed for verification, validation and simulation of financial infrastructure can offer a holistic infrastructure for neural network verification. We develop a novel library CheckINN that formalises neural networks in Imandra, and covers different important facets of neural network verification.
翻訳日:2022-07-22 13:44:46 公開日:2022-07-21
# リスク値の推定:lstm対garch

Estimating value at risk: LSTM vs. GARCH ( http://arxiv.org/abs/2207.10539v1 )

ライセンス: Link先を確認
Weronika Ormaniec, Marcin Pitera, Sajad Safarveisi, Thorsten Schmidt(参考訳) ヘテロシドスティックなダイナミクスを伴う時系列データにおけるリスク値の推定は、非常に難しい課題である。 典型的には、高次非線形性と組み合わさって小さなデータ問題に直面し、古典的および機械的学習推定アルゴリズムに困難をもたらす。 本稿では,Long Short-term memory (LSTM) ニューラルネットワークを用いた新しいリスクリスク推定器を提案し,その性能をベンチマークGARCH推定器と比較する。 その結果,比較的短い時系列であっても,LSTMはリスク推定プロセスを洗練・監視し,非パラメトリックな手法でその基盤となるリスクダイナミクスを正しく同定することができることがわかった。 シミュレーションデータと市場データの両方において,lstmがシミュレーションデータにおいてgarch推定値と同等の性能を示すのに対し,実市場データではボラティリティの増大あるいは減少に敏感であり,例外率と平均量子化スコアの点で,既存のバリュー・アット・リスクの推定値よりも優れていた。

Estimating value-at-risk on time series data with possibly heteroscedastic dynamics is a highly challenging task. Typically, we face a small data problem in combination with a high degree of non-linearity, causing difficulties for both classical and machine-learning estimation algorithms. In this paper, we propose a novel value-at-risk estimator using a long short-term memory (LSTM) neural network and compare its performance to benchmark GARCH estimators. Our results indicate that even for a relatively short time series, the LSTM could be used to refine or monitor risk estimation processes and correctly identify the underlying risk dynamics in a non-parametric fashion. We evaluate the estimator on both simulated and market data with a focus on heteroscedasticity, finding that LSTM exhibits a similar performance to GARCH estimators on simulated data, whereas on real market data it is more sensitive towards increasing or decreasing volatility and outperforms all existing estimators of value-at-risk in terms of exception rate and mean quantile score.
翻訳日:2022-07-22 13:44:08 公開日:2022-07-21
# FOCUS:異種データのフェデレーション学習のためのエージェント認識によるフェアネス

FOCUS: Fairness via Agent-Awareness for Federated Learning on Heterogeneous Data ( http://arxiv.org/abs/2207.10265v1 )

ライセンス: Link先を確認
Wenda Chu, Chulin Xie, Boxin Wang, Linyi Li, Lang Yin, Han Zhao, Bo Li(参考訳) フェデレートラーニング(FL)は、プライバシ保護を備えた分散データ上で機械学習モデルをトレーニングするための効果的なパラダイムを提供する。 しかし、近年の研究では、flは潜在的に悪質で異質なローカルエージェントによる様々なセキュリティ、プライバシー、公正な脅威にさらされていることが示されている。 例えば、高品質なデータのみを提供するローカルの敵エージェントに対して脆弱であり、高品質なデータを持つ人のパフォーマンスを損なうことを目標としている。 このような攻撃は、主にパフォーマンスの同等性の特定の概念に焦点を当てたFLにおける既存の公正の定義を破る。 本研究では,この制限に対処し,ローカルエージェントの不均一なデータ提供を考慮に入れたFL(FAA)のエージェント認識によるフェアネスの形式的定義を提案する。 さらに,エージェントクラスタリング(FOCUS)に基づく公正なFLトレーニングアルゴリズムを提案し,FAAを実現する。 理論的には、線形モデルと一般凸損失関数に対する穏やかな条件下での FOCUS の収束と最適性を証明する。 また、FOCUSは、線形モデルと一般凸損失関数の両方の下で、標準のFedAvgプロトコルと比較して常に高い公正性を達成していることを示す。 実験では,異なる設定下での合成データ,画像,テキストを含む4つのデータセットのフォーカスを評価し,fedavgと同等あるいはそれ以上の予測精度を維持しつつ,faaに基づくフォーカスの公平性が著しく向上することを示す。

Federated learning (FL) provides an effective paradigm to train machine learning models over distributed data with privacy protection. However, recent studies show that FL is subject to various security, privacy, and fairness threats due to the potentially malicious and heterogeneous local agents. For instance, it is vulnerable to local adversarial agents who only contribute low-quality data, with the goal of harming the performance of those with high-quality data. This kind of attack hence breaks existing definitions of fairness in FL that mainly focus on a certain notion of performance parity. In this work, we aim to address this limitation and propose a formal definition of fairness via agent-awareness for FL (FAA), which takes the heterogeneous data contributions of local agents into account. In addition, we propose a fair FL training algorithm based on agent clustering (FOCUS) to achieve FAA. Theoretically, we prove the convergence and optimality of FOCUS under mild conditions for linear models and general convex loss functions with bounded smoothness. We also prove that FOCUS always achieves higher fairness measured by FAA compared with standard FedAvg protocol under both linear models and general convex loss functions. Empirically, we evaluate FOCUS on four datasets, including synthetic data, images, and texts under different settings, and we show that FOCUS achieves significantly higher fairness based on FAA while maintaining similar or even higher prediction accuracy compared with FedAvg.
翻訳日:2022-07-22 13:41:43 公開日:2022-07-21
# 画像編集・復元のための事前学習型汎用ネットワークの活用に関する調査

A Survey on Leveraging Pre-trained Generative Adversarial Networks for Image Editing and Restoration ( http://arxiv.org/abs/2207.10309v1 )

ライセンス: Link先を確認
Ming Liu, Yuxiang Wei, Xiaohe Wu, Wangmeng Zuo, Lei Zhang(参考訳) generative adversarial networks (gans) は、単純で効果的なトレーニング機構と優れた画像生成品質のため、多大な注目を集めている。 フォトリアリスティック高解像度画像(例:1024\times1024$)を生成する能力により、最近のGANモデルは生成された画像と実際の画像とのギャップを大幅に狭めた。 したがって、近年の多くの研究は、学習されたGAN先行空間と不整合空間を利用して、事前学習されたGANモデルを活用することへの関心が高まっている。 本稿では,3つの側面から事前学習した大規模ganモデルを活用した最近の進歩を概観する。 1)大規模生成型adversarial networkの訓練 2)事前訓練されたGANモデルの探索と理解 3)画像復元や編集といった後続のタスクにこれらのモデルを活用する。 関連するメソッドやリポジトリに関する詳細は、https://github.com/csmliu/pretrained-GANsで確認できる。

Generative adversarial networks (GANs) have drawn enormous attention due to the simple yet effective training mechanism and superior image generation quality. With the ability to generate photo-realistic high-resolution (e.g., $1024\times1024$) images, recent GAN models have greatly narrowed the gaps between the generated images and the real ones. Therefore, many recent works show emerging interest to take advantage of pre-trained GAN models by exploiting the well-disentangled latent space and the learned GAN priors. In this paper, we briefly review recent progress on leveraging pre-trained large-scale GAN models from three aspects, i.e., 1) the training of large-scale generative adversarial networks, 2) exploring and understanding the pre-trained GAN models, and 3) leveraging these models for subsequent tasks like image restoration and editing. More information about relevant methods and repositories can be found at https://github.com/csmliu/pretrained-GANs.
翻訳日:2022-07-22 13:38:55 公開日:2022-07-21
# adanerf: 神経放射野のリアルタイムレンダリングのための適応サンプリング

AdaNeRF: Adaptive Sampling for Real-time Rendering of Neural Radiance Fields ( http://arxiv.org/abs/2207.10312v1 )

ライセンス: Link先を確認
Andreas Kurz, Thomas Neff, Zhaoyang Lv, Michael Zollh\"ofer, Markus Steinberger(参考訳) ニューラル・ビュー合成は最近、スパース観測から直接神経放射場を学習することで革新されている。 しかし、ボリュームレンダリング方程式の正確な二次性が各光線に対して大量のサンプルを必要とするため、この新しいパラダイムによる画像のレンダリングは遅くなる。 従来の研究は主に、例えば、空間的データ構造にラディアンス値をキャッシュすることで、サンプル点ごとに関連付けられたネットワーク評価の高速化に重点を置いてきたが、これはモデルコンパクト性を犠牲にしている。 本稿では,必要なサンプル点数を最適に削減する方法を学習することにより,直交方向を指向する新しいデュアルネットワークアーキテクチャを提案する。 この目的のために、我々はネットワークをサンプリングおよびシェーディングネットワークに分割し、共同でトレーニングを行った。 実験では,各光線に固定的なサンプル位置を配置し,低サンプル数でも高い品質を達成するためにトレーニングを通してスパーシティを漸増的に導入する。 対象サンプル数を微調整した後、結果として得られるコンパクトなニューラルネットワーク表現をリアルタイムにレンダリングすることができる。 実験により,本手法は,高効率なハイブリッド表現に匹敵する品質とフレームレートで,並列的なコンパクトなニューラル表現よりも優れることを示した。 コードと補足資料はhttps://thomasneff.github.io/adanerf.comで入手できる。

Novel view synthesis has recently been revolutionized by learning neural radiance fields directly from sparse observations. However, rendering images with this new paradigm is slow due to the fact that an accurate quadrature of the volume rendering equation requires a large number of samples for each ray. Previous work has mainly focused on speeding up the network evaluations that are associated with each sample point, e.g., via caching of radiance values into explicit spatial data structures, but this comes at the expense of model compactness. In this paper, we propose a novel dual-network architecture that takes an orthogonal direction by learning how to best reduce the number of required sample points. To this end, we split our network into a sampling and shading network that are jointly trained. Our training scheme employs fixed sample positions along each ray, and incrementally introduces sparsity throughout training to achieve high quality even at low sample counts. After fine-tuning with the target number of samples, the resulting compact neural representation can be rendered in real-time. Our experiments demonstrate that our approach outperforms concurrent compact neural representations in terms of quality and frame rate and performs on par with highly efficient hybrid representations. Code and supplementary material is available at https://thomasneff.github.io/adanerf.
翻訳日:2022-07-22 13:38:40 公開日:2022-07-21
# CADyQ:画像超解像のためのコンテンツ対応動的量子化

CADyQ: Content-Aware Dynamic Quantization for Image Super-Resolution ( http://arxiv.org/abs/2207.10345v1 )

ライセンス: Link先を確認
Cheeun Hong, Sungyong Baik, Heewon Kim, Seungjun Nah, Kyoung Mu Lee(参考訳) 畳み込みニューラルネットワーク(CNN)による画像超解像(SR)の進歩にもかかわらず、SRネットワークの計算量が多いため、SRはまだユビキタスな応用を享受していない。 量子化はこの問題を解決するための有望なアプローチの1つである。 しかし、既存の手法ではビット幅が8ビット未満のsrモデルを量子化することはできず、固定ビット幅量子化により精度が著しく低下する。 本研究では,入力画像の局所的内容に基づいて,局所領域や層に最適なビットを割り当てる,SRネットワーク用コンテンツ認識動的量子化(CADyQ)手法を提案する。 これにより、トレーニング可能なビットセレクタモジュールを導入し、各レイヤの適切なビット幅および量子化レベルと所定のローカルイメージパッチを決定する。 このモジュールは、パッチの画像勾配の平均大きさと、レイヤの入力特徴の標準偏差の両方を用いて、推定される量子化感度によって制御される。 提案した量子化パイプラインは様々なSRネットワーク上でテストされ、いくつかの標準ベンチマークで広く評価されている。 計算複雑性の大幅な低減と復元精度の向上は,提案するcadyqフレームワークの有効性を明確に示している。 コードはhttps://github.com/cheeun/cadyqで入手できる。

Despite breakthrough advances in image super-resolution (SR) with convolutional neural networks (CNNs), SR has yet to enjoy ubiquitous applications due to the high computational complexity of SR networks. Quantization is one of the promising approaches to solve this problem. However, existing methods fail to quantize SR models with a bit-width lower than 8 bits, suffering from severe accuracy loss due to fixed bit-width quantization applied everywhere. In this work, to achieve high average bit-reduction with less accuracy loss, we propose a novel Content-Aware Dynamic Quantization (CADyQ) method for SR networks that allocates optimal bits to local regions and layers adaptively based on the local contents of an input image. To this end, a trainable bit selector module is introduced to determine the proper bit-width and quantization level for each layer and a given local image patch. This module is governed by the quantization sensitivity that is estimated by using both the average magnitude of image gradient of the patch and the standard deviation of the input feature of the layer. The proposed quantization pipeline has been tested on various SR networks and evaluated on several standard benchmarks extensively. Significant reduction in computational complexity and the elevated restoration accuracy clearly demonstrate the effectiveness of the proposed CADyQ framework for SR. Codes are available at https://github.com/Cheeun/CADyQ.
翻訳日:2022-07-22 13:38:18 公開日:2022-07-21
# cobra:cpuのみの腹部臓器セグメンテーション

COBRA: Cpu-Only aBdominal oRgan segmentAtion ( http://arxiv.org/abs/2207.10446v1 )

ライセンス: Link先を確認
Edward G. A. Henderson, D\'onal M. McSweeney, Andrew F. Green(参考訳) 腹部臓器のセグメンテーションは困難で時間のかかる作業である。 臨床専門家の負担を軽減するため,完全自動化法が望ましい。 現在のアプローチは畳み込みニューラルネットワーク(convolutional neural networks, cnns)が支配しているが、計算要件と大規模データセットの必要性は、実際の応用を制限する。 我々の手法は、訓練されたモデルをコンパイルし、計算グラフを最適化することで、高い精度のセグメンテーションを生成する(Dice similarity Coefficient (%): Liver: 97.3$\pm$1.3, Kidneys: 94.8$\pm$3.6, Spleen: 96.4$\pm$3.0, Pancreas: 80.9$\pm$10.1)。 重要なことは、CPUのみにセグメンテーション推論を実行し(GPUを必要としない)、専門のハードウェアを使わずに、モデルの簡単かつ広範なデプロイを容易にすることができる。

Abdominal organ segmentation is a difficult and time-consuming task. To reduce the burden on clinical experts, fully-automated methods are highly desirable. Current approaches are dominated by Convolutional Neural Networks (CNNs) however the computational requirements and the need for large data sets limit their application in practice. By implementing a small and efficient custom 3D CNN, compiling the trained model and optimizing the computational graph: our approach produces high accuracy segmentations (Dice Similarity Coefficient (%): Liver: 97.3$\pm$1.3, Kidneys: 94.8$\pm$3.6, Spleen: 96.4$\pm$3.0, Pancreas: 80.9$\pm$10.1) at a rate of 1.6 seconds per image. Crucially, we are able to perform segmentation inference solely on CPU (no GPU required), thereby facilitating easy and widespread deployment of the model without specialist hardware.
翻訳日:2022-07-22 13:37:55 公開日:2022-07-21
# 高分解能マイクロ超音波による前立腺癌の診断

Towards Confident Detection of Prostate Cancer using High Resolution Micro-ultrasound ( http://arxiv.org/abs/2207.10485v1 )

ライセンス: Link先を確認
Mahdi Gilany, Paul Wilson, Amoon Jamzad, Fahimeh Fooladgar, Minh Nguyen Nhat To, Brian Wodlinger, Purang Abolmaesumi, Parvin Mousavi(参考訳) 動機:経直腸超音波ガイド生検による前立腺癌の検出が困難である。 非常に異質ながんの出現、超音波アーチファクトの存在、ノイズがこれらの困難に寄与する。 マイクロ超音波による高周波超音波イメージングの最近の進歩は、高分解能で組織イメージングの能力を劇的に高めている。 本研究の目的は, マイクロ超音波ガイド下前立腺癌生検のための堅牢な深層学習モデルの開発である。 モデルが臨床的に採用されるためには、弱いラベルを導入した生検サンプルの粗い病理組織学的測定から学びながら、癌を確実に識別できるソリューションを設計することが必要である。 方法: 前立腺生検を行った194例のマイクロ超音波画像のデータセットを用いた。 ラベルのノイズを扱うためのコティーチングパラダイムを用いた深層モデルと,不確実性推定のための明白な深層学習法を訓練する。 本モデルの性能を臨床的に関連のある指標と信頼性を用いて評価する。 結果: このモデルでは, 88$\%の曲線の下で, 予測の不確かさを正確に推定する。 組み合わせによるコティーチングと明らかな深層学習の併用は、単独よりもはるかに優れた不確実性推定をもたらす。 また,不確実性推定における最新技術との比較を行った。

MOTIVATION: Detection of prostate cancer during transrectal ultrasound-guided biopsy is challenging. The highly heterogeneous appearance of cancer, presence of ultrasound artefacts, and noise all contribute to these difficulties. Recent advancements in high-frequency ultrasound imaging - micro-ultrasound - have drastically increased the capability of tissue imaging at high resolution. Our aim is to investigate the development of a robust deep learning model specifically for micro-ultrasound-guided prostate cancer biopsy. For the model to be clinically adopted, a key challenge is to design a solution that can confidently identify the cancer, while learning from coarse histopathology measurements of biopsy samples that introduce weak labels. METHODS: We use a dataset of micro-ultrasound images acquired from 194 patients, who underwent prostate biopsy. We train a deep model using a co-teaching paradigm to handle noise in labels, together with an evidential deep learning method for uncertainty estimation. We evaluate the performance of our model using the clinically relevant metric of accuracy vs. confidence. RESULTS: Our model achieves a well-calibrated estimation of predictive uncertainty with area under the curve of 88$\%$. The use of co-teaching and evidential deep learning in combination yields significantly better uncertainty estimation than either alone. We also provide a detailed comparison against state-of-the-art in uncertainty estimation.
翻訳日:2022-07-22 13:37:28 公開日:2022-07-21
# ロボット探査における3次元視覚フィードバックのためのオンライン局所化とカラーメッシュ再構成アーキテクチャ

Online Localisation and Colored Mesh Reconstruction Architecture for 3D Visual Feedback in Robotic Exploration Missions ( http://arxiv.org/abs/2207.10489v1 )

ライセンス: Link先を確認
Quentin Serdel, Christophe Grand, Julien Marzat and Julien Moras(参考訳) 本稿では、未知環境におけるロバストな局所化・マッピング(SLAM)の実現を目的とした地上探査ロボットのためのオンライン局所化・色付きメッシュ再構成(OLCMR)ROS認識アーキテクチャを導入し、リアルタイムに色付き3Dメッシュ表現を提供する。 遠隔の人間のオペレーターが、ミッション中やその後にマッピングされた環境を簡単に可視化したり、探査ロボティクスの分野でさらなる研究を行うための開発基地として使うことを意図している。 このアーキテクチャは主に、LiDARベースのSLAMアルゴリズムを慎重に選択したオープンソースのROS実装と、ポイントクラウドとRGBカメライメージを3D空間に投影したカラー表面再構成手順で構成されている。 新しい大学ハンドヘルドlidar-visionリファレンスデータセットと、都市と田舎の屋外環境の代表的な車輪型ロボットのボードに集められた2つの実験軌道を用いて、全体的なパフォーマンスを評価した。 インデックス用語:フィールドロボット、マッピング、SLAM、色付き表面再構成

This paper introduces an Online Localisation and Colored Mesh Reconstruction (OLCMR) ROS perception architecture for ground exploration robots aiming to perform robust Simultaneous Localisation And Mapping (SLAM) in challenging unknown environments and provide an associated colored 3D mesh representation in real time. It is intended to be used by a remote human operator to easily visualise the mapped environment during or after the mission or as a development base for further researches in the field of exploration robotics. The architecture is mainly composed of carefully-selected open-source ROS implementations of a LiDAR-based SLAM algorithm alongside a colored surface reconstruction procedure using a point cloud and RGB camera images projected into the 3D space. The overall performances are evaluated on the Newer College handheld LiDAR-Vision reference dataset and on two experimental trajectories gathered on board of representative wheeled robots in respectively urban and countryside outdoor environments. Index Terms: Field Robots, Mapping, SLAM, Colored Surface Reconstruction
翻訳日:2022-07-22 13:37:09 公開日:2022-07-21
# ニューラルピクセル合成:マルチビューからの3d-4dビュー合成

Neural Pixel Composition: 3D-4D View Synthesis from Multi-Views ( http://arxiv.org/abs/2207.10663v1 )

ライセンス: Link先を確認
Aayush Bansal and Michael Zollhoefer(参考訳) 本稿では,連続3D-4Dビュー合成のための新しいアプローチであるニューラル・ピクセル・コンポジション(NPC)について述べる。 既存の最先端のアプローチでは、密集した多視点の監視と広範な計算予算が必要である。 提案する定式化はスパースおよびワイドベースマルチビュー画像に対して確実に動作し,ハイレゾ (12mp) コンテンツに対して数秒から10分以内,すなわち既存の手法よりも200~400倍高速にコンバージェンスを行うことができる。 私たちのアプローチに不可欠なのは2つのコアノベルティです。 1) 視線に沿った特定の位置及び時刻の多視点から蓄積された色及び深度情報を含む画素の表示 2)画素位置用のリッチな情報を合成して最終色出力を得ることができる多層パーセプトロン(MLP)を提供する。 様々なマルチビューシーケンスを実験し、既存のアプローチと比較し、多様で挑戦的な設定でより良い結果を得る。 最後に,最先端の3次元再構成アプローチであるcolmapが苦闘する,疎多視点からの高密度3次元再構成を可能にする。

We present Neural Pixel Composition (NPC), a novel approach for continuous 3D-4D view synthesis given only a discrete set of multi-view observations as input. Existing state-of-the-art approaches require dense multi-view supervision and an extensive computational budget. The proposed formulation reliably operates on sparse and wide-baseline multi-view imagery and can be trained efficiently within a few seconds to 10 minutes for hi-res (12MP) content, i.e., 200-400X faster convergence than existing methods. Crucial to our approach are two core novelties: 1) a representation of a pixel that contains color and depth information accumulated from multi-views for a particular location and time along a line of sight, and 2) a multi-layer perceptron (MLP) that enables the composition of this rich information provided for a pixel location to obtain the final color output. We experiment with a large variety of multi-view sequences, compare to existing approaches, and achieve better results in diverse and challenging settings. Finally, our approach enables dense 3D reconstruction from sparse multi-views, where COLMAP, a state-of-the-art 3D reconstruction approach, struggles.
翻訳日:2022-07-22 13:36:52 公開日:2022-07-21
# 差動的にプライベートな部分集合被覆と施設配置への応用

Differentially Private Partial Set Cover with Applications to Facility Location ( http://arxiv.org/abs/2207.10240v1 )

ライセンス: Link先を確認
George Z. Li and Dung Nguyen and Anil Vullikanti(参考訳) \citet{gupta2009differentially} において、集合被覆問題は微分プライバシー下で強い不可能性を持つことが観測された。 我々の研究では、これらの硬度結果は部分集合被覆問題に目を向けると解消され、そこでは、ある$\rho\in(0,1)$に対して、宇宙の要素の$\rho$-fractionをカバーしなければならない。 入力集合系上のゆるい条件下では、非自明な近似保証を持つ明示的な集合被覆を出力する微分プライベートアルゴリズムを与える。 特に、これは明示的な集合被覆を出力する最初の微分プライベートアルゴリズムである。 部分集合被覆のアルゴリズムをサブルーチンとして使用し,施設位置問題に対して微分プライベート(bicriteria)近似アルゴリズムを与え,異常値付き$k$-center/$k$-supplierを一般化する。 セットカバー問題と同様に、高い感度と不合理性の結果により、$k$-center/$k$-supplier型施設配置問題に対して非自明な保証を与えるアルゴリズムは存在しない。 我々のアルゴリズムは、人口の$\rho$-fractionを$$\rho\in(0,1)$とすることで、カバー要件を緩和することで、固有の硬さを回避することができることを示している。 全体として、我々の研究は、プライベートな組合せ最適化の結果を扱い、理解するための重要なステップである。

It was observed in \citet{gupta2009differentially} that the Set Cover problem has strong impossibility results under differential privacy. In our work, we observe that these hardness results dissolve when we turn to the Partial Set Cover problem, where we only need to cover a $\rho$-fraction of the elements in the universe, for some $\rho\in(0,1)$. We show that this relaxation enables us to avoid the impossibility results: under loose conditions on the input set system, we give differentially private algorithms which output an explicit set cover with non-trivial approximation guarantees. In particular, this is the first differentially private algorithm which outputs an explicit set cover. Using our algorithm for Partial Set Cover as a subroutine, we give a differentially private (bicriteria) approximation algorithm for a facility location problem which generalizes $k$-center/$k$-supplier with outliers. Like with the Set Cover problem, no algorithm has been able to give non-trivial guarantees for $k$-center/$k$-supplier-type facility location problems due to the high sensitivity and impossibility results. Our algorithm shows that relaxing the covering requirement to serving only a $\rho$-fraction of the population, for $\rho\in(0,1)$, enables us to circumvent the inherent hardness. Overall, our work is an important step in tackling and understanding impossibility results in private combinatorial optimization.
翻訳日:2022-07-22 13:36:34 公開日:2022-07-21
# ファジィ信頼評価と異常検出を用いた無線センサネットワークのための進化型ゲームベースのセキュアクラスタリングプロトコル

An Evolutionary Game based Secure Clustering Protocol with Fuzzy Trust Evaluation and Outlier Detection for Wireless Sensor Networks ( http://arxiv.org/abs/2207.10282v1 )

ライセンス: Link先を確認
Liu Yang, Yinzhi Lu, Simon X. Yang, Yuanchang Zhong, Tan Guo, Zhifang Liang(参考訳) 信頼できるデータ配信は、ユニークな特性と制約のため、無線センサネットワーク(WSN)において困難なタスクである。 本稿では,セキュアなデータ配信とセキュリティとエネルギーの衝突に対処するために,ファジィ信頼評価とwsnsの異常検出を備えた進化型ゲームベースのセキュアクラスタリングプロトコルを提案する。 まず、信頼不確実性を効果的に軽減しつつ、送信証拠を信頼値に変換するファジィ信頼評価方法を提案する。 そして, ファジィ信頼評価や信頼推薦によって得られた信頼値をさらに分析するために, k平均に基づく異常検出手法を提案する。 センサノード間の共通点や相違点を検出できると同時に、異常検出の精度も向上する。 最後に,クラスタヘッドの選択時にセンサノードのセキュリティ保証と省エネのトレードオフを実現するための,進化型ゲームベースのセキュアクラスタリングプロトコルを提案する。 クラスタヘッドではないセンサノードは、疑わしいノードを分離することにより、自身のヘッドを確実に選択することができる。 シミュレーションの結果、セキュアクラスタリングプロトコルは、内部の利己的あるいは妥協されたノードからの攻撃に対して、ネットワークを効果的に防御できることを確認した。 これにより、タイムリーなデータ転送レートを大幅に改善することができる。

Trustworthy and reliable data delivery is a challenging task in Wireless Sensor Networks (WSNs) due to unique characteristics and constraints. To acquire secured data delivery and address the conflict between security and energy, in this paper we present an evolutionary game based secure clustering protocol with fuzzy trust evaluation and outlier detection for WSNs. Firstly, a fuzzy trust evaluation method is presented to transform the transmission evidences into trust values while effectively alleviating the trust uncertainty. And then, a K-Means based outlier detection scheme is proposed to further analyze plenty of trust values obtained via fuzzy trust evaluation or trust recommendation. It can discover the commonalities and differences among sensor nodes while improving the accuracy of outlier detection. Finally, we present an evolutionary game based secure clustering protocol to achieve a trade-off between security assurance and energy saving for sensor nodes when electing for the cluster heads. A sensor node which failed to be the cluster head can securely choose its own head by isolating the suspicious nodes. Simulation results verify that our secure clustering protocol can effectively defend the network against the attacks from internal selfish or compromised nodes. Correspondingly, the timely data transfer rate can be improved significantly.
翻訳日:2022-07-22 13:36:06 公開日:2022-07-21
# 費用対効果のある眼球運動トラッカーを用いた麻痺者のためのホイールチェア制御アルゴリズム

A cost effective eye movement tracker based wheel chair control algorithm for people with paraplegia ( http://arxiv.org/abs/2207.10511v1 )

ライセンス: Link先を確認
Skanda Upadhyaya, Shravan Bhat, Siddhanth P. Rao, V Ashwin, Krishnan Chemmangat(参考訳) 脊髄損傷は、運動を制限した患者の四肢麻痺を引き起こすことがある。 車椅子は患者にとって良い提案かもしれませんが、ほとんどの人は手動かジョイスティックで動く電動モーターで操作します。 しかし、これは手を使う必要があり、四肢麻痺の患者には適さない。 一方、眼球運動の制御は、脳の損傷を受けた人でも維持される。 目の動きを監視することは、車椅子の制御信号を生成するのに役立つ。 本稿では,車いすを模倣するロボットを制御し,目から得られた信号を有意義な信号に変換する手法を提案する。 システム全体のコスト効率は高く、単純な画像処理とパターン認識を使ってボットを制御する。 実際のシナリオにおいて、より洗練された車椅子制御のために患者の援助によって使用できるandroidアプリケーションを開発した。

Spinal cord injuries can often lead to quadriplegia in patients limiting their mobility. Wheelchairs could be a good proposition for patients, but most of them operate either manually or with the help of electric motors operated with a joystick. This, however, requires the use of hands, making it unsuitable for quadriplegic patients. Controlling eye movement, on the other hand, is retained even by people who undergo brain injury. Monitoring the movements in the eye can be a helpful tool in generating control signals for the wheelchair. This paper is an approach to converting obtained signals from the eye into meaningful signals by trying to control a bot that imitates a wheelchair. The overall system is cost-effective and uses simple image processing and pattern recognition to control the bot. An android application is developed, which could be used by the patients' aid for more refined control of the wheelchair in the actual scenario.
翻訳日:2022-07-22 13:35:46 公開日:2022-07-21
# 問合せ付き部分グラフマッチングニューラルネットワークと二レベル木探索による部分グラフマッチング

Subgraph Matching via Query-Conditioned Subgraph Matching Neural Networks and Bi-Level Tree Search ( http://arxiv.org/abs/2207.10305v1 )

ライセンス: Link先を確認
Yunsheng Bai, Derek Xu, Yizhou Sun, Wei Wang(参考訳) 近年の進歩は、トラベリングセールスマン最適化やグラフ編集距離計算など、NPハードなグラフ関連課題を解決するために強化学習と検索が成功していることを示している。 しかし, グラフデータベース検索, バイオメディカル分析, ソーシャルグループ検索などのコア操作である, 大規模ターゲットグラフにおける小クエリグラフの発生を, 効率よく, 正確に検出する方法については, いまだに不明である。 このタスクはサブグラフマッチングと呼ばれ、クエリグラフと大きなターゲットグラフの間のサブグラフ同型チェックを実行する。 この古典的な問題の1つの有望なアプローチは「学習と探索」のパラダイムであり、強化学習(RL)エージェントは学習ポリシーで設計され、探索アルゴリズムを誘導し、解決されたインスタンスを監督せずに迅速に解を見つける。 しかし、サブグラフマッチングの特定のタスクでは、通常、クエリグラフはユーザが入力として与える割合は小さいが、ターゲットグラフは、しばしば桁違いに大きい。 ニューラルネットワーク設計に課題を提起し、ソリューションと報酬の分散につながる可能性がある。 本稿では,(1)クエリと対象グラフ間のマッチング情報を動的に計算する新しいエンコーダ・デコーダニューラルネットワークアーキテクチャ,(2)ポリシーと価値ネットワークをトレーニングするための2段階検索フレームワークを改良したモンテカルロ木探索を提案する。 5つの大きな実世界のターゲットグラフの実験により、N-BLSはサブグラフマッチング性能を大幅に改善できることが示された。

Recent advances have shown the success of using reinforcement learning and search to solve NP-hard graph-related tasks, such as Traveling Salesman Optimization, Graph Edit Distance computation, etc. However, it remains unclear how one can efficiently and accurately detect the occurrences of a small query graph in a large target graph, which is a core operation in graph database search, biomedical analysis, social group finding, etc. This task is called Subgraph Matching which essentially performs subgraph isomorphism check between a query graph and a large target graph. One promising approach to this classical problem is the "learning-to-search" paradigm, where a reinforcement learning (RL) agent is designed with a learned policy to guide a search algorithm to quickly find the solution without any solved instances for supervision. However, for the specific task of Subgraph Matching, though the query graph is usually small given by the user as input, the target graph is often orders-of-magnitude larger. It poses challenges to the neural network design and can lead to solution and reward sparsity. In this paper, we propose N-BLS with two innovations to tackle the challenges: (1) A novel encoder-decoder neural network architecture to dynamically compute the matching information between the query and the target graphs at each search state; (2) A Monte Carlo Tree Search enhanced bi-level search framework for training the policy and value networks. Experiments on five large real-world target graphs show that N-BLS can significantly improve the subgraph matching performance.
翻訳日:2022-07-22 13:33:25 公開日:2022-07-21
# unifed: フェデレーション学習フレームワークのためのベンチマーク

UniFed: A Benchmark for Federated Learning Frameworks ( http://arxiv.org/abs/2207.10308v1 )

ライセンス: Link先を確認
Xiaoyuan Liu, Tianneng Shi, Chulin Xie, Qinbin Li, Kangping Hu, Haoyu Kim, Xiaojun Xu, Bo Li, Dawn Song(参考訳) フェデレートラーニング(FL)は、機械学習の実践的で一般的なパラダイムとなっている。 しかし、現在様々なユースケースをカバーする体系的なソリューションは存在しない。 実践者は、ユースケースに対して一致するFLフレームワークをどのように選択するかという課題に直面します。 本稿では、既存のオープンソースFLフレームワークの標準化評価のための最初の統一ベンチマークUniFedを紹介する。 15 つの評価シナリオにおいて,機能,ユーザビリティ,システムパフォーマンスの観点から,既存の9 つのオープンソース FL フレームワークの質的および定量的評価結果を示す。 また、ベンチマーク結果に基づいてフレームワークの選択に関する提案を行い、今後の改善の方向性を指摘する。

Federated Learning (FL) has become a practical and popular paradigm in machine learning. However, currently, there is no systematic solution that covers diverse use cases. Practitioners often face the challenge of how to select a matching FL framework for their use case. In this work, we present UniFed, the first unified benchmark for standardized evaluation of the existing open-source FL frameworks. With 15 evaluation scenarios, we present both qualitative and quantitative evaluation results of nine existing popular open-sourced FL frameworks, from the perspectives of functionality, usability, and system performance. We also provide suggestions on framework selection based on the benchmark conclusions and point out future improvement directions.
翻訳日:2022-07-22 13:32:54 公開日:2022-07-21
# ショートカットテスト(ShorT)を用いた公正医療AIのためのショートカット学習の検出と防止

Detecting and Preventing Shortcut Learning for Fair Medical AI using Shortcut Testing (ShorT) ( http://arxiv.org/abs/2207.10384v1 )

ライセンス: Link先を確認
Alexander Brown, Nenad Tomasev, Jan Freyberg, Yuan Liu, Alan Karthikesalingam, Jessica Schrouff(参考訳) 機械学習(ML)は、医療を改善するための大きな約束を持っていますが、その使用が健康格差を伝播または増幅しないことを保証することは重要です。 重要なステップは、MLモデルの(不)公正性を特徴づけることである。 アルゴリズムの不公平性の潜在的な要因の1つ、ショートカット学習は、トレーニングデータの不適切な相関に基づいてMLモデルが予測を行うときに発生する。 しかし、特に感度特性が疾患と因果関係にある場合、この現象の診断は困難である。 マルチタスク学習を用いて, 近道学習を臨床mlシステムの公平性評価の一部として評価・緩和する最初の方法を提案し, 放射線学および皮膚科における臨床課題への応用を実証する。 最後に,近道が不公平な行為に責任を負わない場合の事例を明らかにし,医療aiにおける公平さ緩和への総合的なアプローチの必要性を強調した。

Machine learning (ML) holds great promise for improving healthcare, but it is critical to ensure that its use will not propagate or amplify health disparities. An important step is to characterize the (un)fairness of ML models - their tendency to perform differently across subgroups of the population - and to understand its underlying mechanisms. One potential driver of algorithmic unfairness, shortcut learning, arises when ML models base predictions on improper correlations in the training data. However, diagnosing this phenomenon is difficult, especially when sensitive attributes are causally linked with disease. Using multi-task learning, we propose the first method to assess and mitigate shortcut learning as a part of the fairness assessment of clinical ML systems, and demonstrate its application to clinical tasks in radiology and dermatology. Finally, our approach reveals instances when shortcutting is not responsible for unfairness, highlighting the need for a holistic approach to fairness mitigation in medical AI.
翻訳日:2022-07-22 13:32:44 公開日:2022-07-21
# 患者集団グラフにおけるグラフトランスの教師なし事前学習

Unsupervised pre-training of graph transformers on patient population graphs ( http://arxiv.org/abs/2207.10603v1 )

ライセンス: Link先を確認
Chantal Pellegrini, Nassir Navab, Anees Kazi(参考訳) 事前トレーニングは、コンピュータビジョン、自然言語処理(nlp)、医療画像など、さまざまな分野の機械学習で成功を収めている。 しかし, 臨床データ解析では十分に研究されていない。 膨大な量の臨床記録が記録されているが、小さな病院で収集されたデータや稀な疾患を扱うデータやラベルは少ない。 このようなシナリオでは、より大規模な臨床データの事前トレーニングにより、パフォーマンスが向上する可能性がある。 本稿では,集団グラフ上でのグラフ深層学習を生かして,マスク言語モデリング(MLM)に触発された患者結果予測のための,異種多モード臨床データを対象とした教師なし事前学習手法を提案する。 そこで本研究では,異種臨床データを扱うグラフトランスフォーマベースのネットワークを提案する。 マスキングベースプリトレーニングとトランスベースネットワークを組み合わせることで,マスキングベースのプリトレーニングが他の領域での成功を,異種臨床データに翻訳する。 3つの医学データセットであるTADPOLE, MIMIC-III, セプシス予測データセットを用いて, 自己教師型および移動学習環境における事前学習手法の利点を示す。 提案手法は,患者および人口レベルでのデータをモデル化し,すべてのデータセットにおける異なる微調整タスクの性能を向上させるのに役立つ。

Pre-training has shown success in different areas of machine learning, such as Computer Vision, Natural Language Processing (NLP), and medical imaging. However, it has not been fully explored for clinical data analysis. An immense amount of clinical records are recorded, but still, data and labels can be scarce for data collected in small hospitals or dealing with rare diseases. In such scenarios, pre-training on a larger set of unlabelled clinical data could improve performance. In this paper, we propose novel unsupervised pre-training techniques designed for heterogeneous, multi-modal clinical data for patient outcome prediction inspired by masked language modeling (MLM), by leveraging graph deep learning over population graphs. To this end, we further propose a graph-transformer-based network, designed to handle heterogeneous clinical data. By combining masking-based pre-training with a transformer-based network, we translate the success of masking-based pre-training in other domains to heterogeneous clinical data. We show the benefit of our pre-training method in a self-supervised and a transfer learning setting, utilizing three medical datasets TADPOLE, MIMIC-III, and a Sepsis Prediction Dataset. We find that our proposed pre-training methods help in modeling the data at a patient and population level and improve performance in different fine-tuning tasks on all datasets.
翻訳日:2022-07-22 13:32:24 公開日:2022-07-21
# Wer is schuld, wenn Algorithmen irren? 組織・組織・組織

Wer ist schuld, wenn Algorithmen irren? Entscheidungsautomatisierung, Organisationen und Verantwortung ( http://arxiv.org/abs/2207.10479v1 )

ライセンス: Link先を確認
Angelika Adensamer and Rita Gsenger and Lukas Daniel Klausner(参考訳) アルゴリズム決定支援(ADS)は、社会の様々な領域における様々な状況や構造において、多くの人々の生活に影響を与える。 その使用は、説明責任、透明性、責任に関する疑問を提起する。 この記事では、組織的コンテキストにおける広告、責任、意思決定に関連する中心的な問題の概要と、オープン質問と研究ギャップの特定を目的としています。 さらに,ADSを組織的コンテキストに導入する際に,実践者の責任マッピングを支援するためのガイドラインと補完的デジタルツールについて述べる。 -Algorithmenunterst\"utzte Entscheidungsfindung (algorithmic decision support, ADS) kommt in verschieden Kontexten und Strukturen vermehrt zum Einsatz und beeinflusst in variousn gesellschaftlichen Bereichen das Leben vieler Menschen。 Ihr Einsatz wirft einige Fragen auf, unter anderem zu den Themen Rechenschaft, Transparenz und Verantwortung folgenden m\"ochten wir einen \"uberblick \"uber die wichtigsten fragestellungen rund um ads, verantwortung und entscheidungsfindung in organisationalen kontexten geben und einige offene fragen und forschungsl\"ucken aufzeigen 英語: Weiters beschreiben wir als konkrete Hilfestellung f\"ur die Praxis einen von uns entwickelten Leitfaden samt erg\"anzendem digitalem Tool, welches Anwender:innen insbesondere bei der Verortung und Zuordnung von Verantwortung bei der Nutzung von ADS in organisationalen Kontexten helfen soll。

Algorithmic decision support (ADS) is increasingly used in a whole array of different contexts and structures in various areas of society, influencing many people's lives. Its use raises questions, among others, about accountability, transparency and responsibility. Our article aims to give a brief overview of the central issues connected to ADS, responsibility and decision-making in organisational contexts and identify open questions and research gaps. Furthermore, we describe a set of guidelines and a complementary digital tool to assist practitioners in mapping responsibility when introducing ADS within their organisational context. -- Algorithmenunterst\"utzte Entscheidungsfindung (algorithmic decision support, ADS) kommt in verschiedenen Kontexten und Strukturen vermehrt zum Einsatz und beeinflusst in diversen gesellschaftlichen Bereichen das Leben vieler Menschen. Ihr Einsatz wirft einige Fragen auf, unter anderem zu den Themen Rechenschaft, Transparenz und Verantwortung. Im Folgenden m\"ochten wir einen \"Uberblick \"uber die wichtigsten Fragestellungen rund um ADS, Verantwortung und Entscheidungsfindung in organisationalen Kontexten geben und einige offene Fragen und Forschungsl\"ucken aufzeigen. Weiters beschreiben wir als konkrete Hilfestellung f\"ur die Praxis einen von uns entwickelten Leitfaden samt erg\"anzendem digitalem Tool, welches Anwender:innen insbesondere bei der Verortung und Zuordnung von Verantwortung bei der Nutzung von ADS in organisationalen Kontexten helfen soll.
翻訳日:2022-07-22 13:31:32 公開日:2022-07-21
# 編集可能な画像合成のための制御可能なNeRF-GANの3次元知覚をStyleGANに注入する

Injecting 3D Perception of Controllable NeRF-GAN into StyleGAN for Editable Portrait Image Synthesis ( http://arxiv.org/abs/2207.10257v1 )

ライセンス: Link先を確認
Jeong-gi Kwak, Yuanming Li, Dongsik Yoon, Donghyeon Kim, David Han, Hanseok Ko(参考訳) 長年にわたって、2d ganはフォトリアリスティックなポートレート生成で大きな成功を収めてきた。 しかし、生成プロセスの3d理解が欠けているため、マルチビューの不整合問題に苦しむ。 この問題を緩和するために、多くの3D対応のGANが提案され、顕著な結果が示されているが、3D GANはセマンティック属性の編集に苦労している。 3次元ganの制御性や解釈性はあまり研究されていない。 本研究では,2次元GANと3次元GANの弱点を克服する2つの方法を提案する。 まず、訓練中に意味的属性を発見し、教師なしで制御できる新しい3D認識型GAN、SURF-GANを紹介する。 その後、SURF-GANの前駆体をStyleGANに注入し、高忠実度3D制御可能なジェネレータを得る。 暗黙のポーズ制御が可能な既存の潜在型手法とは異なり、提案した3D制御可能なStyleGANは、ポートレート生成に対する明示的なポーズ制御を可能にする。 この蒸留により、3D制御と多くのStyleGANベースの技術(インバージョンやスタイリングなど)の直接的な互換性が得られ、計算資源の面でも有利である。 私たちのコードはhttps://github.com/jgkwak95/SURF-GAN.comで公開されています。

Over the years, 2D GANs have achieved great successes in photorealistic portrait generation. However, they lack 3D understanding in the generation process, thus they suffer from multi-view inconsistency problem. To alleviate the issue, many 3D-aware GANs have been proposed and shown notable results, but 3D GANs struggle with editing semantic attributes. The controllability and interpretability of 3D GANs have not been much explored. In this work, we propose two solutions to overcome these weaknesses of 2D GANs and 3D-aware GANs. We first introduce a novel 3D-aware GAN, SURF-GAN, which is capable of discovering semantic attributes during training and controlling them in an unsupervised manner. After that, we inject the prior of SURF-GAN into StyleGAN to obtain a high-fidelity 3D-controllable generator. Unlike existing latent-based methods allowing implicit pose control, the proposed 3D-controllable StyleGAN enables explicit pose control over portrait generation. This distillation allows direct compatibility between 3D control and many StyleGAN-based techniques (e.g., inversion and stylization), and also brings an advantage in terms of computational resources. Our codes are available at https://github.com/jgkwak95/SURF-GAN.
翻訳日:2022-07-22 13:30:07 公開日:2022-07-21
# 一様性をもつ勾配に基づく点雲

Gradient-based Point Cloud Denoising with Uniformity ( http://arxiv.org/abs/2207.10279v1 )

ライセンス: Link先を確認
Tian-Xing Xu, Yuan-Chen Guo, Yong-Liang Yang and Song-Hai Zhang(参考訳) 深度センサーが捉えた点雲はしばしばノイズによって汚染され、さらなる分析や応用を妨げる。 本稿では,下流タスクにおける点分布の均一性の重要性を強調する。 我々は,既存の勾配式デノイザが生成する点雲が,有望な定量的結果を得たにもかかわらず均一性を欠いていることを示した。 そこで我々は,UniNetという超軽量ネットワークを備えた勾配型デノイザGPCD++を提案する。 従来の最先端手法と比較して,提案手法は競争力やより優れた偏微分結果を生成するだけでなく,表面再構成などの応用に大きく貢献する均一性を著しく向上する。

Point clouds captured by depth sensors are often contaminated by noises, obstructing further analysis and applications. In this paper, we emphasize the importance of point distribution uniformity to downstream tasks. We demonstrate that point clouds produced by existing gradient-based denoisers lack uniformity despite having achieved promising quantitative results. To this end, we propose GPCD++, a gradient-based denoiser with an ultra-lightweight network named UniNet to address uniformity. Compared with previous state-of-the-art methods, our approach not only generates competitive or even better denoising results, but also significantly improves uniformity which largely benefits applications such as surface reconstruction.
翻訳日:2022-07-22 13:29:44 公開日:2022-07-21
# ビデオインスタンスセグメンテーションのためのオンラインモデルの防衛

In Defense of Online Models for Video Instance Segmentation ( http://arxiv.org/abs/2207.10661v1 )

ライセンス: Link先を確認
Junfeng Wu, Qihao Liu, Yi Jiang, Song Bai, Alan Yuille, Xiang Bai(参考訳) 近年、ビデオインスタンスセグメンテーション (VIS) はオフラインモデルによって大きく進歩しているが、オンラインモデルは性能が劣っているため、徐々に注目が薄れつつある。 しかし、オンライン手法は、長いビデオシーケンスや進行中のビデオを扱う上で本質的に有利であるが、オフラインモデルは計算資源の限界のために失敗する。 したがって、オンラインモデルがオフラインモデルと同等あるいはそれ以上のパフォーマンスを達成できれば、非常に望ましい。 現状のオンラインモデルとオフラインモデルとを分離することにより,特徴空間の異なるインスタンス間の類似の出現に起因するフレーム間の誤りが性能ギャップの主な原因であることを示す。 そこで本稿では, より識別的な事例埋め込みを学習し, 履歴情報の安定性を十分に活用できる, コントラスト学習に基づくオンラインフレームワークを提案する。 その単純さにもかかわらず、3つのベンチマークですべてのオンラインメソッドとオフラインメソッドを上回っています。 具体的には、YouTube-VIS 2019で49.5 APを達成し、以前のオンラインアートとオフラインアートに対して13.2 APと2.1 APを大きく改善した。 さらに、OVISで30.2 APを達成した。これはより難しいデータセットで、大きな群集と閉塞があり、以前の技術よりも14.8 APを上回っている。 提案手法は,第4回大規模映像オブジェクトセグメンテーションチャレンジ(cvpr2022)のビデオインスタンスセグメンテーショントラックにおいて,第1位を獲得した。 我々の方法の単純さと有効性、そして現在の方法に対する洞察が、VISモデルの探索に光を当ててくれることを願っている。

In recent years, video instance segmentation (VIS) has been largely advanced by offline models, while online models gradually attracted less attention possibly due to their inferior performance. However, online methods have their inherent advantage in handling long video sequences and ongoing videos while offline models fail due to the limit of computational resources. Therefore, it would be highly desirable if online models can achieve comparable or even better performance than offline models. By dissecting current online models and offline models, we demonstrate that the main cause of the performance gap is the error-prone association between frames caused by the similar appearance among different instances in the feature space. Observing this, we propose an online framework based on contrastive learning that is able to learn more discriminative instance embeddings for association and fully exploit history information for stability. Despite its simplicity, our method outperforms all online and offline methods on three benchmarks. Specifically, we achieve 49.5 AP on YouTube-VIS 2019, a significant improvement of 13.2 AP and 2.1 AP over the prior online and offline art, respectively. Moreover, we achieve 30.2 AP on OVIS, a more challenging dataset with significant crowding and occlusions, surpassing the prior art by 14.8 AP. The proposed method won first place in the video instance segmentation track of the 4th Large-scale Video Object Segmentation Challenge (CVPR2022). We hope the simplicity and effectiveness of our method, as well as our insight into current methods, could shed light on the exploration of VIS models.
翻訳日:2022-07-22 13:27:12 公開日:2022-07-21
# 一般化可能なパッチベースニューラルレンダリング

Generalizable Patch-Based Neural Rendering ( http://arxiv.org/abs/2207.10662v1 )

ライセンス: Link先を確認
Mohammed Suhail, Carlos Esteves, Leonid Sigal, Ameesh Makadia(参考訳) ニューラルレンダリングはNeural Radiance Fields (NeRF) の出現以来大きな注目を集めており、ノベルビューの合成に最先端を推し進めてきた。 最近の焦点は、1つのシーンに過度に適合するモデルであり、目に見えないシーンの新しいビューを合成できるモデルを学習しようとする試みは、主にNeRFのようなモデルと深い畳み込みの特徴を組み合わせたものである。 我々は、深い特徴やNeRFのようなボリュームレンダリングを必要としない異なるパラダイムを提案する。 本手法は,シーンから採取したパッチの集合からのみ,新規シーンにおける対象光線の色を直接予測することができる。 まずエピポーラ幾何学を利用して各参照ビューのエピポーラ線に沿ってパッチを抽出する。 各パッチは1D特徴ベクトルに線形に投影され、トランスフォーマーのシーケンスがコレクションを処理する。 位置符号化では、光場表現のように光線をパラメータ化し、対象光に対して座標が正準化されているという重要な違いを生かして、この手法を基準フレームとは独立にし、一般化を改善する。 先行研究よりも少ないデータで訓練しても,このアプローチは未発見のシーンの新たな視点合成の最先端を上回っていることを示す。

Neural rendering has received tremendous attention since the advent of Neural Radiance Fields (NeRF), and has pushed the state-of-the-art on novel-view synthesis considerably. The recent focus has been on models that overfit to a single scene, and the few attempts to learn models that can synthesize novel views of unseen scenes mostly consist of combining deep convolutional features with a NeRF-like model. We propose a different paradigm, where no deep features and no NeRF-like volume rendering are needed. Our method is capable of predicting the color of a target ray in a novel scene directly, just from a collection of patches sampled from the scene. We first leverage epipolar geometry to extract patches along the epipolar lines of each reference view. Each patch is linearly projected into a 1D feature vector and a sequence of transformers process the collection. For positional encoding, we parameterize rays as in a light field representation, with the crucial difference that the coordinates are canonicalized with respect to the target ray, which makes our method independent of the reference frame and improves generalization. We show that our approach outperforms the state-of-the-art on novel view synthesis of unseen scenes even when being trained with considerably less data than prior work.
翻訳日:2022-07-22 13:26:47 公開日:2022-07-21
# tinyvit: 小さな視覚トランスフォーマーのための高速予習蒸留

TinyViT: Fast Pretraining Distillation for Small Vision Transformers ( http://arxiv.org/abs/2207.10666v1 )

ライセンス: Link先を確認
Kan Wu, Jinnian Zhang, Houwen Peng, Mengchen Liu, Bin Xiao, Jianlong Fu, Lu Yuan(参考訳) ビジョントランス (ViT) は近年,その卓越したモデル能力のためにコンピュータビジョンに大きな注目を集めている。 しかし、ほとんどのViTモデルは膨大な数のパラメータに悩まされており、限られたリソースを持つデバイスに適用性を制限する。 この問題を軽減するために,提案する高速蒸留フレームワークを用いて,大規模データセットで事前学習した小型で効率的な小型視覚変換器のファミリーであるTinyViTを提案する。 中心となるアイデアは、大きな事前訓練されたモデルから小さなモデルへの知識の転送と、小さなモデルが大量の事前訓練データの配当を得ることだ。 より具体的には、知識伝達の事前訓練中に蒸留を適用する。 大規模な教師モデルのロジットは、メモリコストと計算オーバーヘッドを節約するために、予めディスクに格納される。 小さな学生変換器は、計算とパラメータ制約のある大きな事前学習モデルから自動的にスケールダウンされる。 総合的な実験はTinyViTの有効性を示す。 ImageNet-1kで84.8%、ImageNet-21kで事前訓練されたSwin-Bに匹敵するパラメータはわずか21Mである。 さらに、画像解像度の増大により、TinyViTの精度は86.5%に達し、Swin-Lよりわずかに良いが、パラメータはわずか11%である。 最後に、さまざまなダウンストリームタスクにおけるtinyvitの優れた転送能力を示す。 コードとモデルはhttps://github.com/microsoft/Cream/tree/main/TinyViT.comで入手できる。

Vision transformer (ViT) recently has drawn great attention in computer vision due to its remarkable model capability. However, most prevailing ViT models suffer from huge number of parameters, restricting their applicability on devices with limited resources. To alleviate this issue, we propose TinyViT, a new family of tiny and efficient small vision transformers pretrained on large-scale datasets with our proposed fast distillation framework. The central idea is to transfer knowledge from large pretrained models to small ones, while enabling small models to get the dividends of massive pretraining data. More specifically, we apply distillation during pretraining for knowledge transfer. The logits of large teacher models are sparsified and stored in disk in advance to save the memory cost and computation overheads. The tiny student transformers are automatically scaled down from a large pretrained model with computation and parameter constraints. Comprehensive experiments demonstrate the efficacy of TinyViT. It achieves a top-1 accuracy of 84.8% on ImageNet-1k with only 21M parameters, being comparable to Swin-B pretrained on ImageNet-21k while using 4.2 times fewer parameters. Moreover, increasing image resolutions, TinyViT can reach 86.5% accuracy, being slightly better than Swin-L while using only 11% parameters. Last but not the least, we demonstrate a good transfer ability of TinyViT on various downstream tasks. Code and models are available at https://github.com/microsoft/Cream/tree/main/TinyViT.
翻訳日:2022-07-22 13:26:23 公開日:2022-07-21
# エバーハング条件におけるセマンティックセグメンテーションのためのオンラインドメイン適応

Online Domain Adaptation for Semantic Segmentation in Ever-Changing Conditions ( http://arxiv.org/abs/2207.10667v1 )

ライセンス: Link先を確認
Theodoros Panagiotakopoulos, Pier Luigi Dovesi, Linus H\"arenstam-Nielsen, Matteo Poggi(参考訳) Unsupervised Domain Adaptation (UDA)は、トレーニングとテストデータのドメインギャップを減らすことを目的としており、多くの場合、オフラインで実行される。 しかし、ドメインの変更は、デプロイ中に継続的に予測不能に起こる(例えば、突然の天候変化)。 このような状況下では、ディープニューラルネットワークは精度が劇的に低下し、オフライン適応ではそれと対比するには不十分である。 本稿では,セマンティックセグメンテーションのためのオンラインドメイン適応(OnDA)に取り組む。 私たちは、徐々に、あるいは突然に、継続的なドメインシフトに対して堅牢なパイプラインを設計し、雨と霧のシナリオでそれを評価します。 実験では,前回のドメインの壊滅的な忘れることなく,デプロイ時に新たなドメインに効果的に対応できることを示す。

Unsupervised Domain Adaptation (UDA) aims at reducing the domain gap between training and testing data and is, in most cases, carried out in offline manner. However, domain changes may occur continuously and unpredictably during deployment (e.g. sudden weather changes). In such conditions, deep neural networks witness dramatic drops in accuracy and offline adaptation may not be enough to contrast it. In this paper, we tackle Online Domain Adaptation (OnDA) for semantic segmentation. We design a pipeline that is robust to continuous domain shifts, either gradual or sudden, and we evaluate it in the case of rainy and foggy scenarios. Our experiments show that our framework can effectively adapt to new domains during deployment, while not being affected by catastrophic forgetting of the previous domains.
翻訳日:2022-07-22 13:25:57 公開日:2022-07-21
# 剛性偏微分方程式に対する教師なしガレルキンニューラルネットワーク

Unsupervised Legendre-Galerkin Neural Network for Stiff Partial Differential Equations ( http://arxiv.org/abs/2207.10241v1 )

ライセンス: Link先を確認
Junho Choi, Namjung Kim and Youngjoon Hong(参考訳) 近年、微分方程式や力学系の解法として機械学習が用いられている。 これらのアプローチは、深層ニューラルネットワークや統計的学習といった手法を応用数学の古典問題に適用する科学機械学習として知られる新しい研究分野へと発展してきた。 ニューラルネットワークは近似能力を提供するため、機械学習と最適化手法による計算パラメータ化は、様々な偏微分方程式(PDE)を解く際に顕著な性能を達成する。 本稿では,機械学習と人工知能を組み込んだ新しい数値アルゴリズムを開発し,PDEの解法を提案する。 特に,Regendre-Galerkinニューラルネットワークに基づく教師なし機械学習アルゴリズムを提案し,異なるタイプのPDEの解に対する正確な近似を求める。 提案したニューラルネットワークは、境界層挙動を有する特異摂動PDEと同様に、一般的な1Dおよび2DPDEに適用される。

Machine learning methods have been lately used to solve differential equations and dynamical systems. These approaches have been developed into a novel research field known as scientific machine learning in which techniques such as deep neural networks and statistical learning are applied to classical problems of applied mathematics. Because neural networks provide an approximation capability, computational parameterization through machine learning and optimization methods achieve noticeable performance when solving various partial differential equations (PDEs). In this paper, we develop a novel numerical algorithm that incorporates machine learning and artificial intelligence to solve PDEs. In particular, we propose an unsupervised machine learning algorithm based on the Legendre-Galerkin neural network to find an accurate approximation to the solution of different types of PDEs. The proposed neural network is applied to the general 1D and 2D PDEs as well as singularly perturbed PDEs that possess boundary layer behavior.
翻訳日:2022-07-22 13:24:41 公開日:2022-07-21
# promix: クリーンサンプルユーティリティの最大化によるラベルノイズ対策

ProMix: Combating Label Noise via Maximizing Clean Sample Utility ( http://arxiv.org/abs/2207.10276v1 )

ライセンス: Link先を確認
Haobo Wang, Ruixuan Xiao, Yiwen Dong, Lei Feng, Junbo Zhao(参考訳) ラベルノイズ下でディープニューラルネットワークをトレーニングする能力は、不完全な注釈付きデータが比較的安価に取得できるため、魅力的である。 最先端のアプローチは、半教師付き学習(SSL)に基づいており、小さな損失例をクリーンに選択し、パフォーマンス向上のためにSSL技術を適用する。 しかし、選択ステップは、主に中規模でまともなクリーンなサブセットを提供し、豊富なクリーンなサンプルセットを見渡せる。 そこで本研究では,クリーンサンプルの有用性を最大化するために,新しい雑音ラベル学習フレームワークProMixを提案する。 提案手法では,信頼度の高いサンプルを抽出し,与えられたラベルと一致した予測を行う高信頼度選択手法を提案する。 CIFAR-10Nデータセット上のクリーンサンプルの検出において, 99.27の精度と98.22のリコールを実現することができる。 このような大量のクリーンなデータに基づいて、ProMixはCIFAR-10Nで+2.67%、CIFAR-100Nデータセットで+1.61%改善している。 コードとデータはhttps://github.com/justherozen/promixで入手できる。

The ability to train deep neural networks under label noise is appealing, as imperfectly annotated data are relatively cheaper to obtain. State-of-the-art approaches are based on semi-supervised learning(SSL), which selects small loss examples as clean and then applies SSL techniques for boosted performance. However, the selection step mostly provides a medium-sized and decent-enough clean subset, which overlooks a rich set of clean samples. In this work, we propose a novel noisy label learning framework ProMix that attempts to maximize the utility of clean samples for boosted performance. Key to our method, we propose a matched high-confidence selection technique that selects those examples having high confidence and matched prediction with its given labels. Combining with the small-loss selection, our method is able to achieve a precision of 99.27 and a recall of 98.22 in detecting clean samples on the CIFAR-10N dataset. Based on such a large set of clean data, ProMix improves the best baseline method by +2.67% on CIFAR-10N and +1.61% on CIFAR-100N datasets. The code and data are available at https://github.com/Justherozen/ProMix
翻訳日:2022-07-22 13:24:28 公開日:2022-07-21
# Action2Score: Score Player Actionへの埋め込みアプローチ

Action2Score: An Embedding Approach To Score Player Action ( http://arxiv.org/abs/2207.10297v1 )

ライセンス: Link先を確認
Junho Jang, Ji Young Woo, Huy Kang Kim(参考訳) マルチプレイヤーオンラインバトルアリーナ(MOBA)は最も成功したゲームジャンルの一つである。 リーグ・オブ・レジェンドのようなMOBAゲームは、プレイヤーがランクを競う競争環境がある。 ほとんどのMOBAゲームでは、プレイヤーのランクは試合結果(勝敗)によって決定される。 チームプレイの性質上、自然なように思えるが、ある意味では、多くの努力をした選手が負けた場合にランクを失い、勝利した場合はチームメイトの努力に自由参加する選手さえいるため、不公平である。 チームベースのランキングシステムの副作用を低減し、プレイヤーのパフォーマンスを公平に評価するために、プレイヤーのアクションをチームの勝利に対する各アクションの貢献に基づいて定量的スコアに変換する新しい埋め込みモデルを提案する。 我々のモデルは、チームマッチで動く新しい損失関数を持つシーケンスベースのディープラーニングモデルを用いて構築されている。 シークエンスベースのディープラーニングモデルは、前ステップと現在の入力とから隠れ状態を取るGRUユニットを用いて、チームプレイ中のプレーヤの開始から終了までのアクションシーケンスを選択的に処理する。 損失関数は、最終スコアとチームの成功を反映するアクションスコアを支援するように設計されている。 本モデルでは,選手の個人的パフォーマンスを公平に評価し,各選手の行動の貢献度を解析できることを示した。

Multiplayer Online Battle Arena (MOBA) is one of the most successful game genres. MOBA games such as League of Legends have competitive environments where players race for their rank. In most MOBA games, a player's rank is determined by the match result (win or lose). It seems natural because of the nature of team play, but in some sense, it is unfair because the players who put a lot of effort lose their rank just in case of loss and some players even get free-ride on teammates' efforts in case of a win. To reduce the side-effects of the team-based ranking system and evaluate a player's performance impartially, we propose a novel embedding model that converts a player's actions into quantitative scores based on the actions' respective contribution to the team's victory. Our model is built using a sequence-based deep learning model with a novel loss function working on the team match. The sequence-based deep learning model process the action sequence from the game start to the end of a player in a team play using a GRU unit that takes a hidden state from the previous step and the current input selectively. The loss function is designed to help the action score to reflect the final score and the success of the team. We showed that our model can evaluate a player's individual performance fairly and analyze the contributions of the player's respective actions.
翻訳日:2022-07-22 13:24:06 公開日:2022-07-21
# 視覚トランスフォーマーの効率的な対向訓練に向けて

Towards Efficient Adversarial Training on Vision Transformers ( http://arxiv.org/abs/2207.10498v1 )

ライセンス: Link先を確認
Boxi Wu, Jindong Gu, Zhifeng Li, Deng Cai, Xiaofei He, Wei Liu(参考訳) 畳み込みニューラルネットワーク(CNN)の強力な代替手段としてViT(Vision Transformer)が注目されている。 最近の研究によると、ViTはCNNのような敵の例にも弱い。 堅牢なViTを構築するには、より直感的な方法は、堅牢なCNNを実現するための最も効果的な方法の1つとして、敵のトレーニングを適用することである。 しかし、逆行訓練の大きな制限は計算コストが大きいことである。 ViTsの自己保持機構は、入力パッチの数に比例して費用が2倍に増加する計算的に激しい演算であり、ViTs上での敵の訓練にさらに時間がかかる。 本研究では,まず,様々な視覚トランスフォーマーの高速対向訓練を包括的に研究し,その効率とロバスト性の関係を明らかにした。 そこで本研究では,ViTに対する対人訓練を行うために,効果的な注意誘導対人訓練機構を提案する。 具体的には、自己注意の専門性に依存して、敵の訓練中に注意誘導下降戦略で各層のパッチ埋め込みを積極的に除去する。 スリムな自己注意モジュールは、ViTに対する敵の訓練を著しく加速する。 高速な敵のトレーニング時間の65\%しか持たず、挑戦的なimagenetベンチマークで最先端の結果と一致しています。

Vision Transformer (ViT), as a powerful alternative to Convolutional Neural Network (CNN), has received much attention. Recent work showed that ViTs are also vulnerable to adversarial examples like CNNs. To build robust ViTs, an intuitive way is to apply adversarial training since it has been shown as one of the most effective ways to accomplish robust CNNs. However, one major limitation of adversarial training is its heavy computational cost. The self-attention mechanism adopted by ViTs is a computationally intense operation whose expense increases quadratically with the number of input patches, making adversarial training on ViTs even more time-consuming. In this work, we first comprehensively study fast adversarial training on a variety of vision transformers and illustrate the relationship between the efficiency and robustness. Then, to expediate adversarial training on ViTs, we propose an efficient Attention Guided Adversarial Training mechanism. Specifically, relying on the specialty of self-attention, we actively remove certain patch embeddings of each layer with an attention-guided dropping strategy during adversarial training. The slimmed self-attention modules accelerate the adversarial training on ViTs significantly. With only 65\% of the fast adversarial training time, we match the state-of-the-art results on the challenging ImageNet benchmark.
翻訳日:2022-07-22 13:21:36 公開日:2022-07-21
# Keypoint-based Vessel Structure Aligning Network を用いたマルチモーダル網膜画像登録

Multi-modal Retinal Image Registration Using a Keypoint-Based Vessel Structure Aligning Network ( http://arxiv.org/abs/2207.10506v1 )

ライセンス: Link先を確認
Aline Sindel, Bettina Hohberger, Andreas Maier, Vincent Christlein(参考訳) 眼科画像では、色眼、赤外線、フルオレセイン血管造影、光コヒーレンス断層撮影(OCT)、OCT血管造影などの複数の画像システムが網膜疾患の診断にしばしば関与する。 マルチモーダル網膜登録技術は、異なるモダリティまたは取得時間の画像における整列血管構造の画素ベース比較を提供することで、眼科医を支援することができる。 そこで本研究では,マルチモーダル網膜画像登録のためのエンドツーエンドトレーニング可能なディープラーニング手法を提案する。 本手法は,キーポイント検出と記述のための血管構造から畳み込み特徴を抽出し,特徴マッチングにグラフニューラルネットワークを用いる。 キーポイント検出・記述ネットワークとグラフニューラルネットワークは、合成マルチモーダル画像ペアを用いて自己教師ありで訓練され、合成サンプリングされた基底真理ホモグラフにより誘導される。 本手法は,合成網膜データセットと競合する手法として高い登録精度を示し,実際のマキュラデータセットと公開資金データセットに対してよく一般化する。

In ophthalmological imaging, multiple imaging systems, such as color fundus, infrared, fluorescein angiography, optical coherence tomography (OCT) or OCT angiography, are often involved to make a diagnosis of retinal disease. Multi-modal retinal registration techniques can assist ophthalmologists by providing a pixel-based comparison of aligned vessel structures in images from different modalities or acquisition times. To this end, we propose an end-to-end trainable deep learning method for multi-modal retinal image registration. Our method extracts convolutional features from the vessel structure for keypoint detection and description and uses a graph neural network for feature matching. The keypoint detection and description network and graph neural network are jointly trained in a self-supervised manner using synthetic multi-modal image pairs and are guided by synthetically sampled ground truth homographies. Our method demonstrates higher registration accuracy as competing methods for our synthetic retinal dataset and generalizes well for our real macula dataset and a public fundus dataset.
翻訳日:2022-07-22 13:21:14 公開日:2022-07-21
# 軽量人間行動認識による高齢者安全の実時間モニタリング

Real-Time Elderly Monitoring for Senior Safety by Lightweight Human Action Recognition ( http://arxiv.org/abs/2207.10519v1 )

ライセンス: Link先を確認
Han Sun, Yu Chen(参考訳) 独居高齢者の増加に伴い、長距離介護は特に安全のために魅力的なニーズとなっている。 リアルタイム監視と行動認識は、異常な行動や異常な活動が発生した場合に警告をタイムリに起こすために不可欠である。 ウェアラブルセンサーは有望なソリューションとして広く認識されているが、ユーザの能力や意欲によっては効率が低下する。 対照的に、非接触光学カメラで収集されたビデオストリームは、より豊富な情報を提供し、高齢者の負担を解放する。 本稿では,自発的ニューラルネットワーク(indrnn)を活用して,軽量な人間行動認識(har)技術に基づく高齢者安全(rems)のリアルタイムモニタリング手法を提案する。 キャプチャされたスケルトン画像を使用して、REMSスキームは異常な動作や動作を認識し、ユーザのプライバシを保存することができる。 高い精度を達成するため、HARモジュールは訓練され、複数のデータベースを使用して微調整される。 remsシステムは動作認識を正確かつタイムリーに行うことが実証された。 REMSは、プライバシーを保護している高齢者の安全監視システムとして設計目標を満たし、様々なスマートモニタリングシステムに採用される可能性を持っている。

With an increasing number of elders living alone, care-giving from a distance becomes a compelling need, particularly for safety. Real-time monitoring and action recognition are essential to raise an alert timely when abnormal behaviors or unusual activities occur. While wearable sensors are widely recognized as a promising solution, highly depending on user's ability and willingness makes them inefficient. In contrast, video streams collected through non-contact optical cameras provide richer information and release the burden on elders. In this paper, leveraging the Independently-Recurrent neural Network (IndRNN) we propose a novel Real-time Elderly Monitoring for senior Safety (REMS) based on lightweight human action recognition (HAR) technology. Using captured skeleton images, the REMS scheme is able to recognize abnormal behaviors or actions and preserve the user's privacy. To achieve high accuracy, the HAR module is trained and fine-tuned using multiple databases. An extensive experimental study verified that REMS system performs action recognition accurately and timely. REMS meets the design goals as a privacy-preserving elderly safety monitoring system and possesses the potential to be adopted in various smart monitoring systems.
翻訳日:2022-07-22 13:20:55 公開日:2022-07-21
# 教師なし夜画像強調:層分解が光効果抑制を満たすとき

Unsupervised Night Image Enhancement: When Layer Decomposition Meets Light-Effects Suppression ( http://arxiv.org/abs/2207.10564v1 )

ライセンス: Link先を確認
Yeying Jin, Wenhan Yang and Robby T. Tan(参考訳) 夜景は低光度だけでなく、不均一な光の分布によっても苦しむ。 既存の夜間視認性向上手法のほとんどは、主に低照度領域の強化に焦点を当てている。 これは必然的に、光の影響(グレア、フラッディングライトなど)の影響を受けるような明るい領域の過度な拡張と飽和をもたらす。 この問題に対処するためには、明るい領域における光の影響を抑制すると同時に、暗い領域の強度を高める必要がある。 この考え方を念頭に置いて,層分解ネットワークと光効果抑制ネットワークを統合した教師なし手法を提案する。 我々の分解ネットワークは,1つの夜像を入力として,教師なし層固有の先行損失によって導かれるシェーディング層,反射層,光影響層を分解することを学ぶ。 我々の光効果抑制ネットワークは、光効果をさらに抑制し、同時に暗黒領域の照明を強化する。 この光影響抑制ネットワークは、推定光影響層を光影響領域にフォーカスするためのガイダンスとして活用する。 背景情報を復元し,幻覚/幻覚成果物を減らすために,構造と高周波一貫性損失を提案する。 実画像上での定量的・定性的評価は,夜光効果の抑制や暗黒領域の強度向上において最先端の手法を上回っていることを示している。

Night images suffer not only from low light, but also from uneven distributions of light. Most existing night visibility enhancement methods focus mainly on enhancing low-light regions. This inevitably leads to over enhancement and saturation in bright regions, such as those regions affected by light effects (glare, floodlight, etc). To address this problem, we need to suppress the light effects in bright regions while, at the same time, boosting the intensity of dark regions. With this idea in mind, we introduce an unsupervised method that integrates a layer decomposition network and a light-effects suppression network. Given a single night image as input, our decomposition network learns to decompose shading, reflectance and light-effects layers, guided by unsupervised layer-specific prior losses. Our light-effects suppression network further suppresses the light effects and, at the same time, enhances the illumination in dark regions. This light-effects suppression network exploits the estimated light-effects layer as the guidance to focus on the light-effects regions. To recover the background details and reduce hallucination/artefacts, we propose structure and high-frequency consistency losses. Our quantitative and qualitative evaluations on real images show that our method outperforms state-of-the-art methods in suppressing night light effects and boosting the intensity of dark regions.
翻訳日:2022-07-22 13:20:36 公開日:2022-07-21
# 深部画像照明のための照明認識ネットワークの設計

Designing An Illumination-Aware Network for Deep Image Relighting ( http://arxiv.org/abs/2207.10582v1 )

ライセンス: Link先を確認
Zuo-Liang Zhu, Zhen Li, Rui-Xun Zhang, Chun-Le Guo, Ming-Ming Cheng(参考訳) 照明は、写真のスタイル、感情の表現、さらには画質に影響を及ぼす決定的な要素である。 実際には、照明条件の作成や発見は手間がかかり、時間を要するため、後処理として画像中の照明を操作する技術を開発することは極めて有用である。 以前の作品では、画像のリライトのための物理的視点に基づく技法を探求してきたが、合理的な画像を生成するには広範な監督と事前知識が必要であり、これらの作品の一般化能力は制限されている。 対照的に,画像から画像への翻訳の視点を取り,従来の物理的視点のアイデアを暗黙的にマージする。 本稿では,階層的サンプリングの指導に従い,高効率で1つの画像からシーンを段階的にリライトする照明認識ネットワーク (ian) を提案する。 さらに、イルミネーション対応残留ブロック(IARB)は、物理レンダリング過程を近似し、さらなる操作のために光源の正確な記述子を抽出するように設計されている。 また、深度情報が得られると、貴重な幾何および構造関連表現を取得するための深度誘導幾何エンコーダも導入する。 実験の結果,提案手法は従来の最先端手法よりも定量的で質的な再現性が向上することがわかった。 コードとモデルはhttps://github.com/NK-CS-ZZL/IANで公開されている。

Lighting is a determining factor in photography that affects the style, expression of emotion, and even quality of images. Creating or finding satisfying lighting conditions, in reality, is laborious and time-consuming, so it is of great value to develop a technology to manipulate illumination in an image as post-processing. Although previous works have explored techniques based on the physical viewpoint for relighting images, extensive supervisions and prior knowledge are necessary to generate reasonable images, restricting the generalization ability of these works. In contrast, we take the viewpoint of image-to-image translation and implicitly merge ideas of the conventional physical viewpoint. In this paper, we present an Illumination-Aware Network (IAN) which follows the guidance from hierarchical sampling to progressively relight a scene from a single image with high efficiency. In addition, an Illumination-Aware Residual Block (IARB) is designed to approximate the physical rendering process and to extract precise descriptors of light sources for further manipulations. We also introduce a depth-guided geometry encoder for acquiring valuable geometry- and structure-related representations once the depth information is available. Experimental results show that our proposed method produces better quantitative and qualitative relighting results than previous state-of-the-art methods. The code and models are publicly available on https://github.com/NK-CS-ZZL/IAN.
翻訳日:2022-07-22 13:20:12 公開日:2022-07-21
# 物体融合による3次元物体検出の促進

Boosting 3D Object Detection via Object-Focused Image Fusion ( http://arxiv.org/abs/2207.10589v1 )

ライセンス: Link先を確認
Hao Yang, Chen Shi, Yihong Chen, Liwei Wang(参考訳) 3dオブジェクト検出は、ポイントクラウドを唯一の入力として、驚くべき進歩を遂げた。 しかし、点雲は不完全な幾何学構造と意味情報の欠如に悩まされ、検出対象の正確な分類が困難になる。 本研究では,画像からのオブジェクトレベルの情報を効果的に活用し,ポイントベース3D検出器の性能を高める方法について検討する。 本稿では,画像情報をポイント特徴に融合する,シンプルで効果的なDeMFを提案する。 点特徴と画像特徴マップのセットが与えられたとき、3Dポイントの投影された2D位置を基準として、DeMFは画像特徴を適応的に集約する。 本手法は,SUN RGB-Dデータセットにおいて,高いマージン(+2.1 mAP@0.25および+2.3 mAP@0.5)で最先端の成果を向上する。 コードはhttps://github.com/haoy945/DeMFで入手できる。

3D object detection has achieved remarkable progress by taking point clouds as the only input. However, point clouds often suffer from incomplete geometric structures and the lack of semantic information, which makes detectors hard to accurately classify detected objects. In this work, we focus on how to effectively utilize object-level information from images to boost the performance of point-based 3D detector. We present DeMF, a simple yet effective method to fuse image information into point features. Given a set of point features and image feature maps, DeMF adaptively aggregates image features by taking the projected 2D location of the 3D point as reference. We evaluate our method on the challenging SUN RGB-D dataset, improving state-of-the-art results by a large margin (+2.1 mAP@0.25 and +2.3mAP@0.5). Code is available at https://github.com/haoy945/DeMF.
翻訳日:2022-07-22 13:19:51 公開日:2022-07-21
# 心筋分節の深部統計学的形状モデル

Deep Statistic Shape Model for Myocardium Segmentation ( http://arxiv.org/abs/2207.10607v1 )

ライセンス: Link先を確認
Xiaoling Hu, Xiao Chen, Yikang Liu, Eric Z. Chen, Terrence Chen, Shanhui Sun(参考訳) 臨床領域における心筋の正確な分節化と運動推定は常に重要であり, 基本的に下流診断に寄与している。 しかし、既存の方法は常に心筋セグメンテーションの形状整合性を保証することはできない。 さらに、運動推定には異なるフレームにわたる心筋領域の点対応が必要である。 本稿では,形状整合性と境界対応性の両方を保った心筋セグメンテーションに着目した,エンドツーエンドの深部統計形状モデルを提案する。 特に、心筋の形状は、主成分分析(PCA)によって抽出される一定数の点で表される。 ディープニューラルネットワークは変換パラメータ(アフィンと変形の両方)を予測するために使用され、平均点雲を画像領域にワープするために使用される。 さらに、より正確なポイントクラウドを学ぶために、マスク監視をフレームワークに組み込むために、差別化可能なレンダリング層が導入されている。 このようにして,提案手法はポスト処理をすることなく,解剖学的に妥当なセグメンテーションマスクを一貫して生成することができる。 さらに、予測された点雲は、心筋の運動推定などの下流課題に寄与する逐次画像の境界対応を保証する。 ベンチマークデータセット上で提案手法の有効性を示すため,いくつかの実験を行った。

Accurate segmentation and motion estimation of myocardium have always been important in clinic field, which essentially contribute to the downstream diagnosis. However, existing methods cannot always guarantee the shape integrity for myocardium segmentation. In addition, motion estimation requires point correspondence on the myocardium region across different frames. In this paper, we propose a novel end-to-end deep statistic shape model to focus on myocardium segmentation with both shape integrity and boundary correspondence preserving. Specifically, myocardium shapes are represented by a fixed number of points, whose variations are extracted by Principal Component Analysis (PCA). Deep neural network is used to predict the transformation parameters (both affine and deformation), which are then used to warp the mean point cloud to the image domain. Furthermore, a differentiable rendering layer is introduced to incorporate mask supervision into the framework to learn more accurate point clouds. In this way, the proposed method is able to consistently produce anatomically reasonable segmentation mask without post processing. Additionally, the predicted point cloud guarantees boundary correspondence for sequential images, which contributes to the downstream tasks, such as the motion estimation of myocardium. We conduct several experiments to demonstrate the effectiveness of the proposed method on several benchmark datasets.
翻訳日:2022-07-22 13:19:34 公開日:2022-07-21
# 屋内・屋外シーン解析のための高密度材料セグメンテーションデータセット

A Dense Material Segmentation Dataset for Indoor and Outdoor Scene Parsing ( http://arxiv.org/abs/2207.10614v1 )

ライセンス: Link先を確認
Paul Upchurch and Ransen Niu(参考訳) 世界を理解するための鍵となるアルゴリズムは、各ピクセルにラベル(金属、ガラスなど)を割り当てるマテリアルセグメンテーションである。 既存のデータに基づいてトレーニングされたモデルが,既存のデータよりも23倍多い44,560個の屋内および屋外画像上の320万の密集セグメントの大規模データセットで対処することを提案する。 私たちのデータには、より多様なシーン、オブジェクト、視点、材料が含まれており、皮膚の種類をより公平に分布しています。 我々は、データに基づいてトレーニングされたモデルが、データセットと視点をまたいだ最先端のモデルより優れていることを示す。 そこで本研究では,大規模シーン解析ベンチマークとベースラインの画素毎の精度0.729,平均クラス精度0.585,平均IoU0.420を提案する。

A key algorithm for understanding the world is material segmentation, which assigns a label (metal, glass, etc.) to each pixel. We find that a model trained on existing data underperforms in some settings and propose to address this with a large-scale dataset of 3.2 million dense segments on 44,560 indoor and outdoor images, which is 23x more segments than existing data. Our data covers a more diverse set of scenes, objects, viewpoints and materials, and contains a more fair distribution of skin types. We show that a model trained on our data outperforms a state-of-the-art model across datasets and viewpoints. We propose a large-scale scene parsing benchmark and baseline of 0.729 per-pixel accuracy, 0.585 mean class accuracy and 0.420 mean IoU across 46 materials.
翻訳日:2022-07-22 13:19:12 公開日:2022-07-21
# MetaComp: オンライン奥行き補完に適応するための学習

MetaComp: Learning to Adapt for Online Depth Completion ( http://arxiv.org/abs/2207.10623v1 )

ライセンス: Link先を確認
Yang Chen, Shanshan Zhao, Wei Ji, Mingming Gong, Liping Xie(参考訳) 近年, 深層学習や自己教師型学習を基礎として, ペア画像とスパース深度データからの深度補完手法が注目されている。 しかし、オンライン上でテストデータが発生し、RGB画像の内容と深度空間のトレーニングデータとは異なる新しい環境に直面すると、トレーニングされたモデルは厳しい性能低下を被る可能性がある。 このような環境では、トレーニングされたモデルがうまく機能するように促すため、新しい環境に継続的に効果的に適応できることを期待します。 そこで我々はMetaCompを提案する。 メタラーニング技術を用いて、トレーニングフェーズ中の適応ポリシーをシミュレートし、テストにおいて自己管理的な方法で新しい環境にモデルを適応させる。 入力がマルチモーダルデータであることを考えると、2つのモーダルデータの構造と形式が大きく異なるため、2つのモーダルデータのバリエーションに同時にモデルを適用することは困難である。 そこで本研究では,基礎的メタラーニングトレーニングにおける適応手順を,深度空間に焦点をあてた第1ステップと,画像コンテンツに参画する第2ステップの2ステップに分割することを提案する。 テストでは、オンラインのモデルを新しいマルチモーダルデータに適用する同じ戦略を採用しています。 実験結果と包括的アブレーションにより,我々のメタコンプットは,異なるモードの変化に効果的かつ頑健な新しい環境において,深さ完了に適応できることを示した。

Relying on deep supervised or self-supervised learning, previous methods for depth completion from paired single image and sparse depth data have achieved impressive performance in recent years. However, facing a new environment where the test data occurs online and differs from the training data in the RGB image content and depth sparsity, the trained model might suffer severe performance drop. To encourage the trained model to work well in such conditions, we expect it to be capable of adapting to the new environment continuously and effectively. To achieve this, we propose MetaComp. It utilizes the meta-learning technique to simulate adaptation policies during the training phase, and then adapts the model to new environments in a self-supervised manner in testing. Considering that the input is multi-modal data, it would be challenging to adapt a model to variations in two modalities simultaneously, due to significant differences in structure and form of the two modal data. Therefore, we further propose to disentangle the adaptation procedure in the basic meta-learning training into two steps, the first one focusing on the depth sparsity while the second attending to the image content. During testing, we take the same strategy to adapt the model online to new multi-modal data. Experimental results and comprehensive ablations show that our MetaComp is capable of adapting to the depth completion in a new environment effectively and robust to changes in different modalities.
翻訳日:2022-07-22 13:18:56 公開日:2022-07-21
# omni3d:野生の3dオブジェクト検出のための大規模ベンチマークとモデル

Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild ( http://arxiv.org/abs/2207.10660v1 )

ライセンス: Link先を確認
Garrick Brazil, Julian Straub, Nikhila Ravi, Justin Johnson, Georgia Gkioxari(参考訳) 単一の画像から3Dのシーンやオブジェクトを認識することは、ロボット工学やAR/VRにおけるコンピュータビジョンの長年の目標である。 2D認識では、大規模なデータセットとスケーラブルなソリューションが前例のない進歩をもたらした。 3Dでは、既存のベンチマークは小さく、オブジェクトのカテゴリや特定のドメイン(例えば都市運転シーン)に特化している。 2次元認識の成功に動機づけられて,omni3dと呼ばれる大規模ベンチマークを導入することで,3次元物体検出の課題を再検討した。 Omni3Dは既存のデータセットを再利用し、300万以上のインスタンスと97のカテゴリで注釈付けされた234kイメージを生成する。 本稿では,カメラとシーンタイプを統一したアプローチで一般化するCube R-CNNというモデルを提案する。 cube r-cnnは、より大きなomni3dと既存のベンチマークで以前よりも優れています。 最後に、omni3dは3dオブジェクト認識のための強力なデータセットであることを証明し、シングルデータセットのパフォーマンスを改善し、事前トレーニングを通じて新しい小さなデータセットの学習を加速できることを示した。

Recognizing scenes and objects in 3D from a single image is a longstanding goal of computer vision with applications in robotics and AR/VR. For 2D recognition, large datasets and scalable solutions have led to unprecedented advances. In 3D, existing benchmarks are small in size and approaches specialize in few object categories and specific domains, e.g. urban driving scenes. Motivated by the success of 2D recognition, we revisit the task of 3D object detection by introducing a large benchmark, called Omni3D. Omni3D re-purposes and combines existing datasets resulting in 234k images annotated with more than 3 million instances and 97 categories.3D detection at such scale is challenging due to variations in camera intrinsics and the rich diversity of scene and object types. We propose a model, called Cube R-CNN, designed to generalize across camera and scene types with a unified approach. We show that Cube R-CNN outperforms prior works on the larger Omni3D and existing benchmarks. Finally, we prove that Omni3D is a powerful dataset for 3D object recognition, show that it improves single-dataset performance and can accelerate learning on new smaller datasets via pre-training.
翻訳日:2022-07-22 13:18:20 公開日:2022-07-21
# 視覚的質問応答のためのセマンティックアウェアモジュールカプセルルーティング

Semantic-aware Modular Capsule Routing for Visual Question Answering ( http://arxiv.org/abs/2207.10404v1 )

ライセンス: Link先を確認
Yudong Han, Jianhua Yin, Jianlong Wu, Yinwei Wei, Liqiang Nie(参考訳) VQA(Visual Question Answering)は、本質的には構成的であり、モジュール化されたサブプロブレムに分解するだけで答えられる。 先日提案されたNeural Module Network(NMN)では、この戦略を使って回答を問う一方で、データから学習するのではなく、ネットワークアーキテクチャ設計に関する既製のレイアウトパーサや追加のエキスパートポリシーに大きく依存している。 これらの戦略は、入力の意味的に補完されたばらつきに対して不十分な適応性をもたらし、モデルの表現能力と一般化性を阻害する。 この問題に対処するため,我々はsuperと呼ばれるモジュール型カプセルルーティングフレームワークを提案し,インスタンス固有の視覚・認識特性をよりよく把握し,予測のための識別表現を洗練する。 特に、SUPERネットワークの各層に5つの強力な専用モジュールと動的ルータを調整し、様々なカスタマイズ可能なルートを十分に活用し、視覚・セマンティックな表現を明示的に調整できるように、コンパクトなルーティング空間を構築する。 我々は,提案するスーパースキームの有効性と一般化を5つのベンチマークデータセットとパラメトリック効率の利点に比較して正当化する。 この研究は、VQAにおける最先端の結果を追求するものではないことを強調する価値がある。 代わりに、私たちのモデルは、VQAのアーキテクチャ学習と表現キャリブレーションに対する新しい視点を提供する責任があると考えています。

Visual Question Answering (VQA) is fundamentally compositional in nature, and many questions are simply answered by decomposing them into modular sub-problems. The recent proposed Neural Module Network (NMN) employ this strategy to question answering, whereas heavily rest with off-the-shelf layout parser or additional expert policy regarding the network architecture design instead of learning from the data. These strategies result in the unsatisfactory adaptability to the semantically-complicated variance of the inputs, thereby hindering the representational capacity and generalizability of the model. To tackle this problem, we propose a Semantic-aware modUlar caPsulE Routing framework, termed as SUPER, to better capture the instance-specific vision-semantic characteristics and refine the discriminative representations for prediction. Particularly, five powerful specialized modules as well as dynamic routers are tailored in each layer of the SUPER network, and the compact routing spaces are constructed such that a variety of customizable routes can be sufficiently exploited and the vision-semantic representations can be explicitly calibrated. We comparatively justify the effectiveness and generalization ability of our proposed SUPER scheme over five benchmark datasets, as well as the parametric-efficient advantage. It is worth emphasizing that this work is not to pursue the state-of-the-art results in VQA. Instead, we expect that our model is responsible to provide a novel perspective towards architecture learning and representation calibration for VQA.
翻訳日:2022-07-22 13:16:08 公開日:2022-07-21
# KD-MVS:知識蒸留に基づくMVSのための自己教師型学習

KD-MVS: Knowledge Distillation Based Self-supervised Learning for MVS ( http://arxiv.org/abs/2207.10425v1 )

ライセンス: Link先を確認
Yikang Ding, Qingtian Zhu, Xiangyue Liu, Wentao Yuan, Haotian Zhang and CHi Zhang(参考訳) supervised multi-view stereo (mvs) 法は復元品質において著しい進歩を遂げてきたが、大規模な地下深度の収集に苦しむ。 本稿では,教師養成と留学生養成を主とする,知識蒸留に基づくmvsの自己教師訓練パイプラインである \textit{kd-mvs} を提案する。 具体的には、教師モデルは、フォトメトリックと特徴メトリックの整合性の両方を用いて、自己指導型で訓練される。 次に,教師モデルの知識を,確率的知識伝達を通じて生徒モデルに蒸留する。 検証された知識の監督により、生徒モデルは教師を大きな利益率で上回ることができる。 複数のデータセットで行った広範囲な実験によって、この手法は教師ありメソッドよりも優れています。

Supervised multi-view stereo (MVS) methods have achieved remarkable progress in terms of reconstruction quality, but suffer from the challenge of collecting large-scale ground-truth depth. In this paper, we propose a novel self-supervised training pipeline for MVS based on knowledge distillation, termed \textit{KD-MVS}, which mainly consists of self-supervised teacher training and distillation-based student training. Specifically, the teacher model is trained in a self-supervised fashion using both photometric and featuremetric consistency. Then we distill the knowledge of the teacher model to the student model through probabilistic knowledge transferring. With the supervision of validated knowledge, the student model is able to outperform its teacher by a large margin. Extensive experiments performed on multiple datasets show our method can even outperform supervised methods.
翻訳日:2022-07-22 13:15:40 公開日:2022-07-21
# StreamYOLO: ストリーム知覚のためのリアルタイムオブジェクト検出

StreamYOLO: Real-time Object Detection for Streaming Perception ( http://arxiv.org/abs/2207.10433v1 )

ライセンス: Link先を確認
Jinrong Yang, Songtao Liu, Zeming Li, Xiaoping Li, Jian Sun(参考訳) 自律運転の知覚モデルは、安全のために低レイテンシ内で高速な推論を必要とする。 既存の作業は処理後の環境変化を無視するが、ストリーミング知覚は遅延と精度をビデオオンライン認識のための単一の指標に共同で評価し、以前の作業は精度と速度のトレードオフを探索する。 本稿では,このメトリックを用いた実時間モデルの性能を考察し,モデルに未来を予測する能力を与え,ストリーミング知覚の結果を大幅に改善する。 具体的には、2つの効果的なモジュールを持つシンプルなフレームワークを構築します。 1つはDual Flow Perception Module (DFP)である。 移動傾向と基本検出特徴をそれぞれ捉えるために,動的流れと静的流れを並列に行う。 Trend Aware Loss (TAL) は、移動速度で各オブジェクトの損失重量を適応的に生成するモジュールである。 現実的には,複数の速度を駆動するシーンを検討し,vsap(velocity-awared streaming ap)を提案する。 この現実的な環境では、検出器が速度を認識するための効率的な混合速度訓練戦略を設計する。 提案手法は,Argoverse-HDデータセットの最先端性能を実現し,SAPとVsAPをそれぞれ4.7%,VsAPを8.2%改善し,その有効性を検証した。

The perceptive models of autonomous driving require fast inference within a low latency for safety. While existing works ignore the inevitable environmental changes after processing, streaming perception jointly evaluates the latency and accuracy into a single metric for video online perception, guiding the previous works to search trade-offs between accuracy and speed. In this paper, we explore the performance of real time models on this metric and endow the models with the capacity of predicting the future, significantly improving the results for streaming perception. Specifically, we build a simple framework with two effective modules. One is a Dual Flow Perception module (DFP). It consists of dynamic flow and static flow in parallel to capture moving tendency and basic detection feature, respectively. Trend Aware Loss (TAL) is the other module which adaptively generates loss weight for each object with its moving speed. Realistically, we consider multiple velocities driving scene and further propose Velocity-awared streaming AP (VsAP) to jointly evaluate the accuracy. In this realistic setting, we design a efficient mix-velocity training strategy to guide detector perceive any velocities. Our simple method achieves the state-of-the-art performance on Argoverse-HD dataset and improves the sAP and VsAP by 4.7% and 8.2% respectively compared to the strong baseline, validating its effectiveness.
翻訳日:2022-07-22 13:15:27 公開日:2022-07-21
# DC-ShadowNet: Unsupervised Domain-Classifier Guided Network を用いたシングルイメージハードとソフトシャドウ除去

DC-ShadowNet: Single-Image Hard and Soft Shadow Removal Using Unsupervised Domain-Classifier Guided Network ( http://arxiv.org/abs/2207.10434v1 )

ライセンス: Link先を確認
Yeying Jin, Aashish Sharma, and Robby T. Tan(参考訳) 単一の画像からのシャドー除去は、一般的には未解決の問題である。 既存の学習ベース手法の多くは教師あり学習を用いており、訓練には多数のペア画像(陰影と対応する非陰影画像)を必要とする。 最近の教師なし手法であるMask-ShadowGANはこの制限に対処する。 しかし、影領域を表すために二項マスクが必要であるため、柔らかい影には適用できない。 そこで本研究では,非教師付きドメイン分類器誘導影除去ネットワークdc-shadownetを提案する。 具体的には、shadow/shadow-freeドメイン分類器をジェネレータとその判別器に統合し、シャドウ領域に集中できるようにする。 ネットワークをトレーニングするために,物理系シャドウフリー色度,シャドウロバスト知覚特徴,境界平滑性に基づく新たな損失を導入する。 さらに,教師なしのネットワークをテスト時のトレーニングに利用することで,さらに結果が向上することを示す。 実験により,これらの新成分はすべてソフトシャドウを処理できるとともに,従来のシャドウ除去法よりも定量的かつ定性的にハードシャドウを処理できることを示した。

Shadow removal from a single image is generally still an open problem. Most existing learning-based methods use supervised learning and require a large number of paired images (shadow and corresponding non-shadow images) for training. A recent unsupervised method, Mask-ShadowGAN, addresses this limitation. However, it requires a binary mask to represent shadow regions, making it inapplicable to soft shadows. To address the problem, in this paper, we propose an unsupervised domain-classifier guided shadow removal network, DC-ShadowNet. Specifically, we propose to integrate a shadow/shadow-free domain classifier into a generator and its discriminator, enabling them to focus on shadow regions. To train our network, we introduce novel losses based on physics-based shadow-free chromaticity, shadow-robust perceptual features, and boundary smoothness. Moreover, we show that our unsupervised network can be used for test-time training that further improves the results. Our experiments show that all these novel components allow our method to handle soft shadows, and also to perform better on hard shadows both quantitatively and qualitatively than the existing state-of-the-art shadow removal methods.
翻訳日:2022-07-22 13:15:05 公開日:2022-07-21
# 神経社会物理による人軌道予測

Human Trajectory Prediction via Neural Social Physics ( http://arxiv.org/abs/2207.10435v1 )

ライセンス: Link先を確認
Jiangbei Yue, Dinesh Manocha and He Wang(参考訳) 軌道予測は多くの分野で広く研究され、多くのモデルベースおよびモデルフリー手法が研究されている。 前者はルールベース、幾何モデル、最適化モデルを含み、後者は主にディープラーニングアプローチで構成されている。 本稿では,ニューラル微分方程式モデルに基づく2つの手法を組み合わせた新しい手法を提案する。 新しいモデル(neural social physicsまたはnsp)は、学習可能なパラメータを持つ明示的な物理モデルを使用するディープニューラルネットワークである。 明示的物理モデルは歩行者行動のモデル化において強い帰納的バイアスとなり、ネットワークの他の部分はシステムのパラメータ推定と動的確率モデリングの観点から強いデータフィッティング能力を提供する。 NSPを6つのデータセット上の15のディープラーニング手法と比較し、最先端のパフォーマンスを5.56%-70%改善した。 また, nspは, 実験データの2~5倍の密度を持つ場合において, 推定可能な軌跡の予測に優れた一般化性を示す。 最後に,NSPの物理モデルは,ブラックボックスの深層学習とは対照的に,歩行者行動のもっともらしい説明を提供することができることを示す。 コードはhttps://github.com/realcrane/human-trajectory-prediction-via-neural-social-physics。

Trajectory prediction has been widely pursued in many fields, and many model-based and model-free methods have been explored. The former include rule-based, geometric or optimization-based models, and the latter are mainly comprised of deep learning approaches. In this paper, we propose a new method combining both methodologies based on a new Neural Differential Equation model. Our new model (Neural Social Physics or NSP) is a deep neural network within which we use an explicit physics model with learnable parameters. The explicit physics model serves as a strong inductive bias in modeling pedestrian behaviors, while the rest of the network provides a strong data-fitting capability in terms of system parameter estimation and dynamics stochasticity modeling. We compare NSP with 15 recent deep learning methods on 6 datasets and improve the state-of-the-art performance by 5.56%-70%. Besides, we show that NSP has better generalizability in predicting plausible trajectories in drastically different scenarios where the density is 2-5 times as high as the testing data. Finally, we show that the physics model in NSP can provide plausible explanations for pedestrian behaviors, as opposed to black-box deep learning. Code is available: https://github.com/realcrane/Human-Trajectory-Prediction-via-Neural-Social-Physics.
翻訳日:2022-07-22 13:14:43 公開日:2022-07-21
# ビデオ意味セグメンテーションのためのクロスフレームアフィニティ間のマイニング関係

Mining Relations among Cross-Frame Affinities for Video Semantic Segmentation ( http://arxiv.org/abs/2207.10436v1 )

ライセンス: Link先を確認
Guolei Sun, Yun Liu, Hao Tang, Ajad Chhatkuli, Le Zhang, Luc Van Gool(参考訳) ビデオセマンティックセグメンテーション(VSS)の本質は、時間的情報を予測に活用する方法である。 従来の取り組みは主に、光学フローや注意などのフレーム間の親和性を計算する新しい手法の開発に費やされていた。 そこで,本論文は,時間的情報集約を向上する上で,クロスフレーム親和性間のマイニング関係によって異なる角度から寄与する。 関連性間の関係を, 単一スケールの内在的相関と多スケールの関係という2つの側面で検討する。 従来の特徴処理にヒントを得て,SAR(Single-scale Affinity Refinement)とMAA(Multi-scale Affinity Aggregation)を提案する。 そこで本研究では,maaの実施を可能にするために,アフィニティを計算する際に異なるスケールで一貫性のある参照トークンのサブセットを選択する選択的トークンマスキング(stm)戦略を提案する。 最終的に、SARおよびMAAにより強化されたクロスフレーム親和性を用いて、時間情報を適応的に集約する。 実験により,提案手法は最先端のVSS法に対して好適に動作することを示した。 コードはhttps://github.com/GuoleiSun/VSS-MRCFAで公開されている。

The essence of video semantic segmentation (VSS) is how to leverage temporal information for prediction. Previous efforts are mainly devoted to developing new techniques to calculate the cross-frame affinities such as optical flow and attention. Instead, this paper contributes from a different angle by mining relations among cross-frame affinities, upon which better temporal information aggregation could be achieved. We explore relations among affinities in two aspects: single-scale intrinsic correlations and multi-scale relations. Inspired by traditional feature processing, we propose Single-scale Affinity Refinement (SAR) and Multi-scale Affinity Aggregation (MAA). To make it feasible to execute MAA, we propose a Selective Token Masking (STM) strategy to select a subset of consistent reference tokens for different scales when calculating affinities, which also improves the efficiency of our method. At last, the cross-frame affinities strengthened by SAR and MAA are adopted for adaptively aggregating temporal information. Our experiments demonstrate that the proposed method performs favorably against state-of-the-art VSS methods. The code is publicly available at https://github.com/GuoleiSun/VSS-MRCFA
翻訳日:2022-07-22 13:14:22 公開日:2022-07-21
# 空間校正を伴わない変圧器による物体位置推定

Weakly Supervised Object Localization via Transformer with Implicit Spatial Calibration ( http://arxiv.org/abs/2207.10447v1 )

ライセンス: Link先を確認
Haotian Bai and Ruimao Zhang and Jiong Wang and Xiang Wan(参考訳) 画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としたweakly supervised object localization(wsol)が,アノテーションコストの低さから注目を集めている。 近年の研究では、従来のクラスアクティベーションマッピング(CAM)における部分的アクティベーションを回避することを目的として、視覚変換器の長期依存性に対する自己注意の利点を活用している。 しかし、変圧器の長距離モデリングは、対象の固有の空間的コヒーレンスを無視し、通常、対象の境界から遠く離れた意味認識領域を拡散させ、局在化の結果を著しく大きくまたははるかに小さくする。 このような問題に対処するために、パッチトークンとそれらの空間関係のセマンティックな類似性を統合拡散モデルに組み込んだ、シンプルで効果的な空間校正モジュール(SCM)を導入する。 具体的には,効果的な情報伝達のための意味的相関と空間的文脈強度を動的に調整する学習可能なパラメータを提案する。 実際には、SCMはTransformerの外部モジュールとして設計されており、推論中に除去して計算コストを削減することができる。 トレーニングフェーズの最適化により、オブジェクトに敏感なローカライゼーション能力がトランスコーダに暗黙的に埋め込まれる。 これにより、生成されたアテンションマップは、よりシャープなオブジェクト境界をキャプチャし、オブジェクトに関係のない背景領域をフィルタリングできる。 CUB-200 と ImageNet-1K のベンチマークにおいて,TS-CAM を著しく上回り,提案手法の有効性を実証した。 コードはhttps://github.com/164140757/SCMで入手できる。

Weakly Supervised Object Localization (WSOL), which aims to localize objects by only using image-level labels, has attracted much attention because of its low annotation cost in real applications. Recent studies leverage the advantage of self-attention in visual Transformer for long-range dependency to re-active semantic regions, aiming to avoid partial activation in traditional class activation mapping (CAM). However, the long-range modeling in Transformer neglects the inherent spatial coherence of the object, and it usually diffuses the semantic-aware regions far from the object boundary, making localization results significantly larger or far smaller. To address such an issue, we introduce a simple yet effective Spatial Calibration Module (SCM) for accurate WSOL, incorporating semantic similarities of patch tokens and their spatial relationships into a unified diffusion model. Specifically, we introduce a learnable parameter to dynamically adjust the semantic correlations and spatial context intensities for effective information propagation. In practice, SCM is designed as an external module of Transformer, and can be removed during inference to reduce the computation cost. The object-sensitive localization ability is implicitly embedded into the Transformer encoder through optimization in the training phase. It enables the generated attention maps to capture the sharper object boundaries and filter the object-irrelevant background area. Extensive experimental results demonstrate the effectiveness of the proposed method, which significantly outperforms its counterpart TS-CAM on both CUB-200 and ImageNet-1K benchmarks. The code is available at https://github.com/164140757/SCM.
翻訳日:2022-07-22 13:14:03 公開日:2022-07-21
# 行動検出のための高効率時空間ピラミッド変圧器

An Efficient Spatio-Temporal Pyramid Transformer for Action Detection ( http://arxiv.org/abs/2207.10448v1 )

ライセンス: Link先を確認
Yuetian Weng, Zizheng Pan, Mingfei Han, Xiaojun Chang, Bohan Zhuang(参考訳) アクション検出のタスクは、アクションインスタンス毎のアクションカテゴリと開始時と終了時の両方を、長い未トリミングビデオで推定することを目的としている。 視覚トランスフォーマーはビデオ理解の最近の進歩を駆り立ててきたが、長いビデオクリップの連続に対して、非常に高価なセルフアテンションのため、アクション検出のための効率的なアーキテクチャを設計するのは自明ではない。 そこで本研究では,初期自己着床層が局所的なパターンに注目しているという事実に基づいて,行動検出のための効率的な階層的時空間ピラミッドトランスフォーマ(stpt)を提案する。 具体的には,早期に局所的な時空間表現を符号化し,後期の長期的空間依存を捉えるためにグローバルアテンションモジュールを適用することを提案する。 こうすることで、STPTは局所性と依存性の両方を大幅な冗長性でエンコードすることができ、精度と効率のトレードオフを期待できる。 例えば、RGB入力のみを用いて提案されたSTPTは、THUMOS14上で53.6%のmAPを達成し、I3D+AFSD RGBモデルを10%以上上回り、GFLOPを31%削減した新たなフロー機能を使用する最先端AFSDに対して好適に機能する。

The task of action detection aims at deducing both the action category and localization of the start and end moment for each action instance in a long, untrimmed video. While vision Transformers have driven the recent advances in video understanding, it is non-trivial to design an efficient architecture for action detection due to the prohibitively expensive self-attentions over a long sequence of video clips. To this end, we present an efficient hierarchical Spatio-Temporal Pyramid Transformer (STPT) for action detection, building upon the fact that the early self-attention layers in Transformers still focus on local patterns. Specifically, we propose to use local window attention to encode rich local spatio-temporal representations in the early stages while applying global attention modules to capture long-term space-time dependencies in the later stages. In this way, our STPT can encode both locality and dependency with largely reduced redundancy, delivering a promising trade-off between accuracy and efficiency. For example, with only RGB input, the proposed STPT achieves 53.6% mAP on THUMOS14, surpassing I3D+AFSD RGB model by over 10% and performing favorably against state-of-the-art AFSD that uses additional flow features with 31% fewer GFLOPs, which serves as an effective and efficient end-to-end Transformer-based framework for action detection.
翻訳日:2022-07-22 13:13:35 公開日:2022-07-21
# Magic ELF:アソシエーション学習とトランスフォーマーとの出会い

Magic ELF: Image Deraining Meets Association Learning and Transformer ( http://arxiv.org/abs/2207.10455v1 )

ライセンス: Link先を確認
Kui Jiang, Zhongyuan Wang, Chen Chen, Zheng Wang, Laizhong Cui, Chia-Wen Lin(参考訳) 畳み込みニューラルネットワーク(CNN)とTransformerは、マルチメディアアプリケーションで大きな成功を収めた。 しかし,これら2つのアーキテクチャを効果的かつ効率的に調和させ,画像のデレーニングを満足させる努力はほとんど行われていない。 本稿では,これら2つのアーキテクチャを一体化し,イメージレーダリングの学習メリットを生かすことを目的としている。 特に、CNNの局所接続性と翻訳の等価性と、トランスフォーマーにおける自己注意(SA)のグローバルアグリゲーション能力は、特定のローカルコンテキストとグローバル構造表現に対して完全に活用される。 降雨分布が劣化位置と度合いを明らかにするという観測に基づいて, 背景の回復に先立って劣化を導入し, そして, 本手法を提示する。 雨の摂動除去と背景回復を関連づける新しいマルチインプット・アテンション・モジュール (MAM) を提案する。 さらに,本モデルに効果的な奥行き分離可能な畳み込みを適用し,特徴表現を学習し,計算複雑性をトレードオフする。 実験の結果,提案手法(ELF)は平均0.25dBの最先端手法(MPRNet)より優れているが,計算コストとパラメータの11.7\%と42.1\%に留まることがわかった。 ソースコードはhttps://github.com/kuijiang94/magic-elfで入手できる。

Convolutional neural network (CNN) and Transformer have achieved great success in multimedia applications. However, little effort has been made to effectively and efficiently harmonize these two architectures to satisfy image deraining. This paper aims to unify these two architectures to take advantage of their learning merits for image deraining. In particular, the local connectivity and translation equivariance of CNN and the global aggregation ability of self-attention (SA) in Transformer are fully exploited for specific local context and global structure representations. Based on the observation that rain distribution reveals the degradation location and degree, we introduce degradation prior to help background recovery and accordingly present the association refinement deraining scheme. A novel multi-input attention module (MAM) is proposed to associate rain perturbation removal and background recovery. Moreover, we equip our model with effective depth-wise separable convolutions to learn the specific feature representations and trade off computational complexity. Extensive experiments show that our proposed method (dubbed as ELF) outperforms the state-of-the-art approach (MPRNet) by 0.25 dB on average, but only accounts for 11.7\% and 42.1\% of its computational cost and parameters. The source code is available at https://github.com/kuijiang94/Magic-ELF.
翻訳日:2022-07-22 13:13:05 公開日:2022-07-21
# セマンティック対応ファイングラインド対応

Semantic-Aware Fine-Grained Correspondence ( http://arxiv.org/abs/2207.10456v1 )

ライセンス: Link先を確認
Yingdong Hu, Renhao Wang, Kaifeng Zhang, Yang Gao(参考訳) 画像間の視覚的対応を確立することは、困難かつ必須の課題である。 近年,視覚対応のための表現をより良く学習するための自己指導手法が提案されている。 しかし,これらの手法は意味情報の活用に失敗し,低レベルの特徴のマッチングを過度に行うことが多い。 対照的に、人間の視覚はトラッキングの序文として異なる物体を区別することができる。 このパラダイムに触発されて,我々は意味認識のきめ細かな対応を学ぶことを提案する。 まず、画像レベルの自己管理手法の豊富なセットを通して意味的対応が暗黙的に可能であることを示す。 さらに、細粒度対応を目標とする画素レベルの自己教師型学習目標を設計する。 ダウンストリームタスクでは、これら2つの補完対応表現を融合して、パフォーマンスを相乗的に向上させることを示す。 提案手法は,映像オブジェクトのセグメンテーション,人物のポーズ追跡,人的部分追跡など,様々な視覚的対応タスクにおける畳み込みネットワークを用いた従来の自己管理手法を超越した手法である。

Establishing visual correspondence across images is a challenging and essential task. Recently, an influx of self-supervised methods have been proposed to better learn representations for visual correspondence. However, we find that these methods often fail to leverage semantic information and over-rely on the matching of low-level features. In contrast, human vision is capable of distinguishing between distinct objects as a pretext to tracking. Inspired by this paradigm, we propose to learn semantic-aware fine-grained correspondence. Firstly, we demonstrate that semantic correspondence is implicitly available through a rich set of image-level self-supervised methods. We further design a pixel-level self-supervised learning objective which specifically targets fine-grained correspondence. For downstream tasks, we fuse these two kinds of complementary correspondence representations together, demonstrating that they boost performance synergistically. Our method surpasses previous state-of-the-art self-supervised methods using convolutional networks on a variety of visual correspondence tasks, including video object segmentation, human pose tracking, and human part tracking.
翻訳日:2022-07-22 13:12:28 公開日:2022-07-21
# 時間的自己感覚を用いた雑音ラベルデータからの学習

Learning from Data with Noisy Labels Using Temporal Self-Ensemble ( http://arxiv.org/abs/2207.10354v1 )

ライセンス: Link先を確認
Jun Ho Lee, Jae Soon Baik, Tae Hwan Hwang, and Jun Won Choi(参考訳) 実世界のデータセットには必然的に多くの誤ったラベルデータがある。 ディープニューラルネットワーク(DNN)にはノイズラベルを記憶する膨大な能力があるため、ラベル付けエラーによるDNNの一般化性能の低下を防止するための堅牢なトレーニングスキームが必要である。 現在の最先端手法では、小さな損失を伴うサンプルを使ってデュアルネットワークを訓練する共同学習方式が提案されている。 しかし実際には、2つのネットワークを同時にトレーニングすることは、コンピューティングリソースを負担する可能性がある。 本研究では,単一のネットワークのみを訓練することにより,簡便かつ効果的なロバストなトレーニング方式を提案する。 提案手法は,確率的勾配降下最適化により生成した重み軌道から中間ネットワークパラメータをサンプリングし,時間的自己感覚を生成する。 これらの自己センブルで評価された損失和は、誤ってラベルづけされたサンプルを特定するために使用される。 並列に,入力データを様々な形式に変換し,誤ラベル付きサンプルを特定することで,多視点予測を生成する。 上記の指標を組み合わせることで,サンプルをノイズラベルでフィルタし,トレーニングへの影響を低減できるSRT法を提案する。 広範に利用されている公開データセットの実験により,提案手法は2つのネットワークを訓練することなく,いくつかのカテゴリで最先端のパフォーマンスを実現することを示した。

There are inevitably many mislabeled data in real-world datasets. Because deep neural networks (DNNs) have an enormous capacity to memorize noisy labels, a robust training scheme is required to prevent labeling errors from degrading the generalization performance of DNNs. Current state-of-the-art methods present a co-training scheme that trains dual networks using samples associated with small losses. In practice, however, training two networks simultaneously can burden computing resources. In this study, we propose a simple yet effective robust training scheme that operates by training only a single network. During training, the proposed method generates temporal self-ensemble by sampling intermediate network parameters from the weight trajectory formed by stochastic gradient descent optimization. The loss sum evaluated with these self-ensembles is used to identify incorrectly labeled samples. In parallel, our method generates multi-view predictions by transforming an input data into various forms and considers their agreement to identify incorrectly labeled samples. By combining the aforementioned metrics, we present the proposed {\it self-ensemble-based robust training} (SRT) method, which can filter the samples with noisy labels to reduce their influence on training. Experiments on widely-used public datasets demonstrate that the proposed method achieves a state-of-the-art performance in some categories without training the dual networks.
翻訳日:2022-07-22 13:10:13 公開日:2022-07-21
# LocVTP: 時間的ローカライゼーションのためのビデオテキスト事前トレーニング

LocVTP: Video-Text Pre-training for Temporal Localization ( http://arxiv.org/abs/2207.10362v1 )

ライセンス: Link先を確認
Meng Cao, Tianyu Yang, Junwu Weng, Can Zhang, Jue Wang, and Yuexian Zou(参考訳) ビデオテキスト事前学習(VTP)は、大規模なWebビデオから様々な下流タスクの転送可能な表現を学習することを目的としている。 現在までに、既存のVTP手法のほとんどは、例えばビデオ検索のような、検索に基づく下流タスクに限られているが、時間的グラウンドなど、ローカライゼーションに基づくタスクへの転送ポテンシャルは未探索である。 本稿では,現在のVTP手法とローカライズタスクの非互換性を実験的に分析し,ロクVTPと呼ばれる新しいローカライズ指向ビデオテキスト事前学習フレームワークを提案する。 具体的には, クリップワード対応発見方式により, 粗粒との補完として細粒度の対比アライメントを行う。 学習した特徴の時間的推論能力をさらに高めるために,文脈的関係を知覚する文脈投影ヘッドと時間的意識的コントラスト損失を提案する。 6つのデータセットにまたがる4つの下流タスクに関する大規模な実験により、我々のLocVTPは検索ベースとローカライゼーションベースの両方のタスクで最先端のパフォーマンスを達成することを示した。 さらに, モデル設計とトレーニング戦略を検討するため, 包括的アブレーション研究を行い, 徹底的な解析を行った。

Video-Text Pre-training (VTP) aims to learn transferable representations for various downstream tasks from large-scale web videos. To date, almost all existing VTP methods are limited to retrieval-based downstream tasks, e.g., video retrieval, whereas their transfer potentials on localization-based tasks, e.g., temporal grounding, are under-explored. In this paper, we experimentally analyze and demonstrate the incompatibility of current VTP methods with localization tasks, and propose a novel Localization-oriented Video-Text Pre-training framework, dubbed as LocVTP. Specifically, we perform the fine-grained contrastive alignment as a complement to the coarse-grained one by a clip-word correspondence discovery scheme. To further enhance the temporal reasoning ability of the learned feature, we propose a context projection head and a temporal aware contrastive loss to perceive the contextual relationships. Extensive experiments on four downstream tasks across six datasets demonstrate that our LocVTP achieves state-of-the-art performance on both retrieval-based and localization-based tasks. Furthermore, we conduct comprehensive ablation studies and thorough analyses to explore the optimum model designs and training strategies.
翻訳日:2022-07-22 13:09:48 公開日:2022-07-21
# 効率的な映像認識のための時間的サルディエンシークエリネットワーク

Temporal Saliency Query Network for Efficient Video Recognition ( http://arxiv.org/abs/2207.10379v1 )

ライセンス: Link先を確認
Boyang Xia, Zhihao Wang, Wenhao Wu, Haoran Wang, Jungong Han(参考訳) 効率的なビデオ認識は、インターネットやモバイルデバイスにおけるマルチメディアデータの爆発的な成長を伴うホットスポットな研究テーマである。 既存のほとんどの手法では、クラス固有のサリエンシスコアを意識せずにサリエントフレームを選択し、フレームのサリエンシとその属するカテゴリ間の暗黙的な関連を無視している。 この問題を軽減するため,我々は,クラス固有の情報を導入する新しい時間的サリエンシークエリ(tsq)機構を考案し,サリエンシー測定のための細かな手がかりを提供する。 具体的には、クラス固有の塩分測定プロセスをクエリ応答タスクとしてモデル化する。 各カテゴリについて、その共通パターンをクエリとして使用し、最も適切なフレームに応答する。 そして、算出された類似度をフレームサリエンシースコアとして採用する。 そこで本稿では,視覚的外観類似性とテキストイベントオブジェクト関係に基づくTSQ機構の2つのインスタンス化を含むTSQNet(Temporal Saliency Query Network)を提案する。 その後、それらの間の情報交換を促進するために、相互モダリティ相互作用が課される。 最後に、2つのモダリティによって生成される最も自信あるカテゴリのクラス固有のサリエンシを用いて、サリエントフレームの選択を行う。 大規模実験により, activitynet, fcvid, mini-kinetics データセットを用いた最新結果が得られた。 プロジェクトページはhttps://lawrencexia2008.github.io/projects/tsqnet.orgにある。

Efficient video recognition is a hot-spot research topic with the explosive growth of multimedia data on the Internet and mobile devices. Most existing methods select the salient frames without awareness of the class-specific saliency scores, which neglect the implicit association between the saliency of frames and its belonging category. To alleviate this issue, we devise a novel Temporal Saliency Query (TSQ) mechanism, which introduces class-specific information to provide fine-grained cues for saliency measurement. Specifically, we model the class-specific saliency measuring process as a query-response task. For each category, the common pattern of it is employed as a query and the most salient frames are responded to it. Then, the calculated similarities are adopted as the frame saliency scores. To achieve it, we propose a Temporal Saliency Query Network (TSQNet) that includes two instantiations of the TSQ mechanism based on visual appearance similarities and textual event-object relations. Afterward, cross-modality interactions are imposed to promote the information exchange between them. Finally, we use the class-specific saliencies of the most confident categories generated by two modalities to perform the selection of salient frames. Extensive experiments demonstrate the effectiveness of our method by achieving state-of-the-art results on ActivityNet, FCVID and Mini-Kinetics datasets. Our project page is at https://lawrencexia2008.github.io/projects/tsqnet .
翻訳日:2022-07-22 13:09:12 公開日:2022-07-21
# あらゆるものへのポーズ:カテゴリー非依存なポーズ推定に向けて

Pose for Everything: Towards Category-Agnostic Pose Estimation ( http://arxiv.org/abs/2207.10387v1 )

ライセンス: Link先を確認
Lumin Xu, Sheng Jin, Wang Zeng, Wentao Liu, Chen Qian, Wanli Ouyang, Ping Luo, Xiaogang Wang(参考訳) 既存の2Dポーズ推定の研究は、主に人間、動物、車両などの特定のカテゴリーに焦点を当てている。 しかし、見当たらないオブジェクトクラスのポーズ/キーポイントを検出する必要のあるアプリケーションシナリオはたくさんあります。 本稿では,キーポイント定義を持つ少数のサンプルのみを与えられた任意の種類のオブジェクトのポーズを検出可能なポーズ推定モデルを作成することを目的とした,カテゴリー-非依存ポス推定(CAPE)のタスクを紹介する。 この目的を達成するために、ポーズ推定問題をキーポイントマッチング問題として定式化し、ポスマッチングネットワーク(POMNet)と呼ばれる新しいCAPEフレームワークを設計する。 異なるキーポイント間のインタラクションと、サポートと問い合わせ画像の関係をキャプチャするために、トランスフォーマティブベースのキーポイントインタラクションモジュール(kim)が提案されている。 また、20K以上のインスタンスを含む100のオブジェクトカテゴリの2次元ポーズデータセットであるMP-100データセットを導入し、CAPEアルゴリズムの開発に適している。 実験により,本手法が他のベースラインアプローチよりも高いマージンを示した。 コードとデータはhttps://github.com/luminxu/pose-for-everythingで入手できる。

Existing works on 2D pose estimation mainly focus on a certain category, e.g. human, animal, and vehicle. However, there are lots of application scenarios that require detecting the poses/keypoints of the unseen class of objects. In this paper, we introduce the task of Category-Agnostic Pose Estimation (CAPE), which aims to create a pose estimation model capable of detecting the pose of any class of object given only a few samples with keypoint definition. To achieve this goal, we formulate the pose estimation problem as a keypoint matching problem and design a novel CAPE framework, termed POse Matching Network (POMNet). A transformer-based Keypoint Interaction Module (KIM) is proposed to capture both the interactions among different keypoints and the relationship between the support and query images. We also introduce Multi-category Pose (MP-100) dataset, which is a 2D pose dataset of 100 object categories containing over 20K instances and is well-designed for developing CAPE algorithms. Experiments show that our method outperforms other baseline approaches by a large margin. Codes and data are available at https://github.com/luminxu/Pose-for-Everything.
翻訳日:2022-07-22 13:08:45 公開日:2022-07-21
# NSNet: 効率的なビデオ認識のための非可用性抑圧サンプリング

NSNet: Non-saliency Suppression Sampler for Efficient Video Recognition ( http://arxiv.org/abs/2207.10388v1 )

ライセンス: Link先を確認
Boyang Xia, Wenhao Wu, Haoran Wang, Rui Su, Dongliang He, Haosen Yang, Xiaoran Fan, Wanli Ouyang(参考訳) 計算コストの低いシナリオ下で正確な映像認識を実現することは人工知能システムにとって困難である。 適応推論に基づく効率的なビデオ認識手法は、典型的にはビデオのプレビューを行い、計算コストを削減するために正常な部分に焦点を当てる。 既存の作品の多くは、ビデオ分類に基づく複雑なネットワーク学習に焦点を当てている。 すべてのフレームを正のサンプルとして捉え、監督において正のサンプル(正のフレーム)と負のサンプル(正のフレーム)の区別に注意を払う人はほとんどいない。 このギャップを埋めるために、本稿では、非塩分フレームの応答を効果的に抑制する新しい非塩分抑制ネットワーク(NSNet)を提案する。 具体的には、フレームレベルでは、サラエントフレームと非サラエントフレームを区別できる効果的な擬似ラベルを生成し、フレームサラエンシー学習を導く。 映像レベルでは、salient表現とnon-salient表現の両方の2つのビデオレベルの監督の下で、時間的注意モジュールが学習される。 2つのレベルから得られた塩分の測定を組み合わせることで、複数の粒度相補情報の活用が可能となる。 4つのよく知られたベンチマークで実施された大規模な実験により、NSNetは最先端の精度と効率のトレードオフを達成するだけでなく、最先端の手法よりもはるかに高速な(2.4〜4.3x)実用的な推論速度を示す。 私たちのプロジェクトページはhttps://lawrencexia2008.github.io/projects/nsnetにあります。

It is challenging for artificial intelligence systems to achieve accurate video recognition under the scenario of low computation costs. Adaptive inference based efficient video recognition methods typically preview videos and focus on salient parts to reduce computation costs. Most existing works focus on complex networks learning with video classification based objectives. Taking all frames as positive samples, few of them pay attention to the discrimination between positive samples (salient frames) and negative samples (non-salient frames) in supervisions. To fill this gap, in this paper, we propose a novel Non-saliency Suppression Network (NSNet), which effectively suppresses the responses of non-salient frames. Specifically, on the frame level, effective pseudo labels that can distinguish between salient and non-salient frames are generated to guide the frame saliency learning. On the video level, a temporal attention module is learned under dual video-level supervisions on both the salient and the non-salient representations. Saliency measurements from both two levels are combined for exploitation of multi-granularity complementary information. Extensive experiments conducted on four well-known benchmarks verify our NSNet not only achieves the state-of-the-art accuracy-efficiency trade-off but also present a significantly faster (2.4~4.3x) practical inference speed than state-of-the-art methods. Our project page is at https://lawrencexia2008.github.io/projects/nsnet .
翻訳日:2022-07-22 13:08:25 公開日:2022-07-21
# FADE: タスク非依存のアップサンプリングのためのデコーダとエンコーダのアセットを利用する

FADE: Fusing the Assets of Decoder and Encoder for Task-Agnostic Upsampling ( http://arxiv.org/abs/2207.10392v1 )

ライセンス: Link先を確認
Hao Lu, Wenze Liu, Hongtao Fu, Zhiguo Cao(参考訳) 我々は,セマンティックセグメンテーションのような領域に敏感なタスクと,イメージマットングのようなディテールに敏感なタスクの両方を容易にするために,アップサンプリング演算子が必要となる密集予測において,タスク非依存な機能アップサンプリングの問題を考える。 既存のアップサンプリング演算子は、どちらのタスクでもうまく動作しますが、両方ではありません。 本稿では,新しい,プラグアンドプレイ,タスクに依存しないアップサンプリング演算子であるFADEを紹介する。 3つの設計選択の利点をなくします 一 カーネル生成のアップサンプリングにおけるエンコーダ及びデコーダの機能を考えること。 二 各特徴点がアップサンプリングカーネルにどのように貢献するかを細かく制御することができる効率的な半シフト畳み込み演算子 三 ディテールディテールディライテーションを強化するデコーダに依存したゲーティング機構 まず, 玩具データ上でのフェードのアップサンプリング特性を調査し, 大規模セマンティクスセグメンテーションと画像マッティングを用いて評価した。 特にFADEは、最近の動的アップサンプリング演算子を異なるタスクで一貫して上回り、その有効性とタスクに依存しない特性を明らかにしている。 また、計算オーバーヘッドの少ない畳み込みアーキテクチャやトランスフォーマーアーキテクチャをうまく一般化する。 私たちの仕事は、タスク非依存のアップサンプリングに何をもたらすのかに関する思慮深い洞察も提供します。 コードは http://lnkiy.in/fade_in で入手できる。

We consider the problem of task-agnostic feature upsampling in dense prediction where an upsampling operator is required to facilitate both region-sensitive tasks like semantic segmentation and detail-sensitive tasks such as image matting. Existing upsampling operators often can work well in either type of the tasks, but not both. In this work, we present FADE, a novel, plug-and-play, and task-agnostic upsampling operator. FADE benefits from three design choices: i) considering encoder and decoder features jointly in upsampling kernel generation; ii) an efficient semi-shift convolutional operator that enables granular control over how each feature point contributes to upsampling kernels; iii) a decoder-dependent gating mechanism for enhanced detail delineation. We first study the upsampling properties of FADE on toy data and then evaluate it on large-scale semantic segmentation and image matting. In particular, FADE reveals its effectiveness and task-agnostic characteristic by consistently outperforming recent dynamic upsampling operators in different tasks. It also generalizes well across convolutional and transformer architectures with little computational overhead. Our work additionally provides thoughtful insights on what makes for task-agnostic upsampling. Code is available at: http://lnkiy.in/fade_in
翻訳日:2022-07-22 13:08:00 公開日:2022-07-21
# 近似画像を用いたインシシシトニューラル表現のためのソボレフトレーニング

Sobolev Training for Implicit Neural Representations with Approximated Image Derivatives ( http://arxiv.org/abs/2207.10395v1 )

ライセンス: Link先を確認
Wentao Yuan, Qingtian Zhu, Xiangyue Liu, Yikang Ding, Haotian Zhang, Chi Zhang(参考訳) 近年、ニューラルネットワークによってパラメータ化された暗黙的ニューラルネットワーク表現(inrs)は、その連続的かつ微分可能な特性により、異なる種類の信号を表現するための強力で有望なツールとして登場し、古典的離散表現よりも優れている。 しかし、INRのためのニューラルネットワークのトレーニングは入出力ペアのみを使用し、場合によってはアクセス可能な入力に対する対象出力の導出は通常無視される。 本稿では、ニューラルネットワークにおける画像値に加えて、画像の導出を符号化する画像画素を目標出力とするinrsのトレーニングパラダイムを提案する。 具体的には、近似画像微分に有限差分を用いる。 トレーニングパラダイムが典型的なinrs問題、すなわち画像回帰や逆レンダリングの解決にどのように活用できるかを示し、このトレーニングパラダイムがinrsのデータ効率と一般化能力を改善することを実証する。 このメソッドのコードは \url{https://github.com/megvii-research/sobolev_inrs} で入手できる。

Recently, Implicit Neural Representations (INRs) parameterized by neural networks have emerged as a powerful and promising tool to represent different kinds of signals due to its continuous, differentiable properties, showing superiorities to classical discretized representations. However, the training of neural networks for INRs only utilizes input-output pairs, and the derivatives of the target output with respect to the input, which can be accessed in some cases, are usually ignored. In this paper, we propose a training paradigm for INRs whose target output is image pixels, to encode image derivatives in addition to image values in the neural network. Specifically, we use finite differences to approximate image derivatives. We show how the training paradigm can be leveraged to solve typical INRs problems, i.e., image regression and inverse rendering, and demonstrate this training paradigm can improve the data-efficiency and generalization capabilities of INRs. The code of our method is available at \url{https://github.com/megvii-research/Sobolev_INRs}.
翻訳日:2022-07-22 13:07:42 公開日:2022-07-21
# D2-TPred:交通信号における軌道予測の不連続依存性

D2-TPred: Discontinuous Dependency for Trajectory Prediction under Traffic Lights ( http://arxiv.org/abs/2207.10398v1 )

ライセンス: Link先を確認
Yuzhen Zhang, Wentong Wang, Weizhi Guo, Pei Lv, Mingliang Xu, Wei Chen and Dinesh Manocha(参考訳) 複雑なシナリオ,特に都市交通交差点を走行する際には,エージェント間の関係や行動の深い理解が,高品質な計画を実現する上で重要である。 本稿では,空間的動的相互作用グラフ (SDG) と行動依存グラフ (BDG) を用いて,空間的時間空間における不連続依存の問題に対処する交通信号に対する軌道予測手法D2-TPredを提案する。 具体的には、SDGは、フレームごとに動的かつ変化可能な特性を持つ異なるエージェントのサブグラフを再構成することで、空間的相互作用をキャプチャするために使用される。 bdgは、前兆の挙動、特に加速度、減速、回転方向に対応する不連続な動きに対する現在の状態の暗黙の依存性をモデル化して運動傾向を推定するために用いられる。 さらに、VTP-TLと呼ばれる信号機における車両軌道予測のための新しいデータセットを提案する。 実験の結果,他の軌道予測アルゴリズムと比較して,adeとfdeでそれぞれ20.45%と20.78%の改善を達成した。 データセットとコードは、https://github.com/vtp-tl/d2-tpred。

A profound understanding of inter-agent relationships and motion behaviors is important to achieve high-quality planning when navigating in complex scenarios, especially at urban traffic intersections. We present a trajectory prediction approach with respect to traffic lights, D2-TPred, which uses a spatial dynamic interaction graph (SDG) and a behavior dependency graph (BDG) to handle the problem of discontinuous dependency in the spatial-temporal space. Specifically, the SDG is used to capture spatial interactions by reconstructing sub-graphs for different agents with dynamic and changeable characteristics during each frame. The BDG is used to infer motion tendency by modeling the implicit dependency of the current state on priors behaviors, especially the discontinuous motions corresponding to acceleration, deceleration, or turning direction. Moreover, we present a new dataset for vehicle trajectory prediction under traffic lights called VTP-TL. Our experimental results show that our model achieves more than {20.45% and 20.78% }improvement in terms of ADE and FDE, respectively, on VTP-TL as compared to other trajectory prediction algorithms. The dataset and code are available at: https://github.com/VTP-TL/D2-TPred.
翻訳日:2022-07-22 13:07:23 公開日:2022-07-21
# ビデオ参照表現理解のための対応事項

Correspondence Matters for Video Referring Expression Comprehension ( http://arxiv.org/abs/2207.10400v1 )

ライセンス: Link先を確認
Meng Cao, Ji Jiang, Long Chen, Yuexian Zou(参考訳) 本稿では,ビデオフレーム内の視覚領域に記述された参照対象をローカライズすることを目的としたビデオ参照表現理解(REC)の問題について検討する。 最近の進歩にもかかわらず、既存の方法には2つの問題がある。 1) ビデオフレーム間の一貫性のないローカライズ結果 2)参照元と文脈オブジェクトの混同。 この目的のために、フレーム間およびクロスモーダルの両方の密接な関連性を明確に拡張する新しいデュアル対応ネットワーク(DCNet)を提案する。 まず、フレーム内のすべての既存インスタンスに対するフレーム間相関を構築することを目的とする。 具体的には,フレーム間パッチ間コサイン類似度を計算して密集したアライメントを推定し,フレーム間コントラスト学習を行い,それらを特徴空間に近接させる。 次に、各パッチと特定の単語を関連付けるために、きめ細かいパッチワードアライメントを構築することを提案する。 このような詳細なアノテーションが欠如しているため、コサイン類似性を通じてパッチワード対応を予測できる。 我々のDCNetはビデオと画像のRECベンチマークの両方で最先端のパフォーマンスを実現している。 さらに, モデル設計の最適設計を検討するため, 包括的アブレーション研究を行い, 徹底的な解析を行った。 特に、フレーム間およびクロスモーダルのコントラスト損失はプラグアンドプレイ機能であり、任意のビデオRECアーキテクチャに適用できる。 例えば、コグラウンド上に構築することで、accuのパフォーマンスを1.48%向上させることができます。 VID-Sentenceデータセットの@0.5。

We investigate the problem of video Referring Expression Comprehension (REC), which aims to localize the referent objects described in the sentence to visual regions in the video frames. Despite the recent progress, existing methods suffer from two problems: 1) inconsistent localization results across video frames; 2) confusion between the referent and contextual objects. To this end, we propose a novel Dual Correspondence Network (dubbed as DCNet) which explicitly enhances the dense associations in both the inter-frame and cross-modal manners. Firstly, we aim to build the inter-frame correlations for all existing instances within the frames. Specifically, we compute the inter-frame patch-wise cosine similarity to estimate the dense alignment and then perform the inter-frame contrastive learning to map them close in feature space. Secondly, we propose to build the fine-grained patch-word alignment to associate each patch with certain words. Due to the lack of this kind of detailed annotations, we also predict the patch-word correspondence through the cosine similarity. Extensive experiments demonstrate that our DCNet achieves state-of-the-art performance on both video and image REC benchmarks. Furthermore, we conduct comprehensive ablation studies and thorough analyses to explore the optimal model designs. Notably, our inter-frame and cross-modal contrastive losses are plug-and-play functions and are applicable to any video REC architectures. For example, by building on top of Co-grounding, we boost the performance by 1.48% absolute improvement on Accu.@0.5 for VID-Sentence dataset.
翻訳日:2022-07-22 13:07:02 公開日:2022-07-21
# 時空間規則性崩壊によるディープフェイクの検出

Detecting Deepfake by Creating Spatio-Temporal Regularity Disruption ( http://arxiv.org/abs/2207.10402v1 )

ライセンス: Link先を確認
Jiazhi Guan, Hang Zhou, Mingming Gong, Youjian Zhao, Errui Ding, and Jingdong Wang(参考訳) ディープフェイク検出の進歩を奨励しているにもかかわらず、トレーニング中に探究された限られた偽の手がかりのため、見当たらない偽の型への一般化は重要な課題である。 対照的に、私たちはディープフェイクに共通する現象に気付き、フェイクビデオ作成は必然的にオリジナルビデオの統計的規則性を損なう。 そこで本研究では,実際の映像にない「規則性破壊」を識別することで,ディープフェイク検出の一般化を促進することを提案する。 具体的には、空間的・時間的特性を慎重に調べることで、擬似フェイク生成器を通じて実映像を破壊し、訓練用に幅広い擬似フェイク映像を作成することを提案する。 このようなプラクティスによって,偽ビデオを使用せずにディープフェイク検出を実現し,汎用性をシンプルかつ効率的な方法で改善することができる。 空間的および時間的混乱を協調的に捉えるために,我々は時間的空間的混乱を学習するための時空間的拡張ブロックを提案する。 包括的実験により,複数のデータセットにおいて優れた性能を示す。

Despite encouraging progress in deepfake detection, generalization to unseen forgery types remains a significant challenge due to the limited forgery clues explored during training. In contrast, we notice a common phenomenon in deepfake: fake video creation inevitably disrupts the statistical regularity in original videos. Inspired by this observation, we propose to boost the generalization of deepfake detection by distinguishing the "regularity disruption" that does not appear in real videos. Specifically, by carefully examining the spatial and temporal properties, we propose to disrupt a real video through a Pseudo-fake Generator and create a wide range of pseudo-fake videos for training. Such practice allows us to achieve deepfake detection without using fake videos and improves the generalization ability in a simple and efficient manner. To jointly capture the spatial and temporal disruptions, we propose a Spatio-Temporal Enhancement block to learn the regularity disruption across space and time on our self-created videos. Through comprehensive experiments, our method exhibits excellent performance on several datasets.
翻訳日:2022-07-22 13:06:35 公開日:2022-07-21
# 産業画像における教師なし異常局所化のための深層学習 : 調査

Deep Learning for Unsupervised Anomaly Localization in Industrial Images: A Survey ( http://arxiv.org/abs/2207.10298v1 )

ライセンス: Link先を確認
Xian Tao, Xinyi Gong, Xin Zhang, Shaohua Yan and Chandranath Adak(参考訳) 現在,ディープラーニングに基づく視覚検査は,教師あり学習手法の助けを借りて高い成功を収めている。 しかし、実際の産業シナリオでは、欠陥サンプルの不足、アノテーションのコスト、欠陥に関する事前知識の欠如は、教師付き手法を効果的にしない可能性がある。 近年,非教師付き異常局在化アルゴリズムが産業検査タスクで広く利用されている。 本稿では, 深層学習を用いた産業画像における非監督的異常局所化の最近の成果を包括的に調査することにより, この分野の研究者を支援することを目的とする。 調査は120以上の重要な論文をレビューし、主に様々な概念、課題、分類学、ベンチマークデータセット、そしてレビューされた手法の定量的性能比較を取り上げている。 本稿では,これまでの成果を概観し,今後の研究方向性を詳細に予測し,分析する。 本総説では, 産業的異常局所化に関心があり, その他の分野における異常局所化に応用したい研究者に対して, 詳細な技術情報を提供する。

Currently, deep learning-based visual inspection has been highly successful with the help of supervised learning methods. However, in real industrial scenarios, the scarcity of defect samples, the cost of annotation, and the lack of a priori knowledge of defects may render supervised-based methods ineffective. In recent years, unsupervised anomaly localization algorithms have become more widely used in industrial inspection tasks. This paper aims to help researchers in this field by comprehensively surveying recent achievements in unsupervised anomaly localization in industrial images using deep learning. The survey reviews more than 120 significant publications covering different aspects of anomaly localization, mainly covering various concepts, challenges, taxonomies, benchmark datasets, and quantitative performance comparisons of the methods reviewed. In reviewing the achievements to date, this paper provides detailed predictions and analysis of several future research directions. This review provides detailed technical information for researchers interested in industrial anomaly localization and who wish to apply it to the localization of anomalies in other fields.
翻訳日:2022-07-22 13:03:55 公開日:2022-07-21
# すべてから学ぶ:ノイズラベル表情認識のための注意の一貫性の消去

Learn From All: Erasing Attention Consistency for Noisy Label Facial Expression Recognition ( http://arxiv.org/abs/2207.10299v1 )

ライセンス: Link先を確認
Yuhang Zhang, Chengrui Wang, Xu Ling and Weihong Deng(参考訳) 騒がしいラベルの表情認識(fer)は、クラス間の類似性とアノテーションのあいまいさのため、従来の騒がしいラベル分類タスクよりも難しい。 最近の研究は、主に大量のサンプルをフィルタリングすることでこの問題に対処している。 本稿では,新しい特徴学習の観点から,ノイズの多いラベルを扱うことを検討する。 FERモデルは、潜伏する真実に繋がる全ての特徴から学ぶのではなく、ノイズラベルに関連すると思われる機能の一部に焦点を当てることでノイズのあるサンプルを記憶している。 そこで本研究では,トレーニングプロセス中のノイズサンプルを自動的に抑制する新しい消去注意一貫性(EAC)手法を提案する。 具体的には、まず顔画像のフリップ意味一貫性を利用して、不均衡な枠組みを設計する。 そして、入力画像をランダムに消去し、フリップアテンション一貫性を使用して、モデルが機能の一部に焦点を当てないようにします。 EACは、最先端のノイズラベルFERメソッドを著しく上回り、CIFAR100やTiny-ImageNetのような多数のクラスを持つ他のタスクによく一般化する。 コードはhttps://github.com/zyh-uaiaaaa/erasing-attention-consistencyで入手できる。

Noisy label Facial Expression Recognition (FER) is more challenging than traditional noisy label classification tasks due to the inter-class similarity and the annotation ambiguity. Recent works mainly tackle this problem by filtering out large-loss samples. In this paper, we explore dealing with noisy labels from a new feature-learning perspective. We find that FER models remember noisy samples by focusing on a part of the features that can be considered related to the noisy labels instead of learning from the whole features that lead to the latent truth. Inspired by that, we propose a novel Erasing Attention Consistency (EAC) method to suppress the noisy samples during the training process automatically. Specifically, we first utilize the flip semantic consistency of facial images to design an imbalanced framework. We then randomly erase input images and use flip attention consistency to prevent the model from focusing on a part of the features. EAC significantly outperforms state-of-the-art noisy label FER methods and generalizes well to other tasks with a large number of classes like CIFAR100 and Tiny-ImageNet. The code is available at https://github.com/zyh-uaiaaaa/Erasing-Attention-Consistency.
翻訳日:2022-07-22 13:03:38 公開日:2022-07-21
# 光流量推定のためのエッジ保存変動モデルについて

On an Edge-Preserving Variational Model for Optical Flow Estimation ( http://arxiv.org/abs/2207.10302v1 )

ライセンス: Link先を確認
Hirak Doshi, N. Uday Kiran(参考訳) ホーンモデルやシュンクモデルに似た古典的定式化は、現代的な実装の慣行により、いまだに競争が激しいことはよく知られている。 ほとんどの場合、これらのモデルは現代の多くのフロー推定手法を上回っている。 そこで本研究では,光フローに対するエッジ保存型$L^1$正規化手法の効果的な実装設計を提案する。 提案したモデルの数学的適切性は、有界変分$BV(\Omega,\mathbb{R}^2)$の関数空間で研究される。 実装方式は複数のステップで設計されている。 流れ場はロバストなシャンブル・ポック原始双対アルゴリズムを用いて計算される。 castro と donoho の最近の研究に動機づけられ、反復型中央値フィルタリングのヒューリスティックをフロー推定に拡張した。 さらに,LiとOsherによって確立された重み付き中央フィルタを後処理ステップとして用いる。 ミドルベリーデータセットを用いた実験により,提案手法は最先端のホーン法やシュンック型変分法に比べて,最高の平均角点誤差と端点誤差が得られた。

It is well known that classical formulations resembling the Horn and Schunck model are still largely competitive due to the modern implementation practices. In most cases, these models outperform many modern flow estimation methods. In view of this, we propose an effective implementation design for an edge-preserving $L^1$ regularization approach to optical flow. The mathematical well-posedness of our proposed model is studied in the space of functions of bounded variations $BV(\Omega,\mathbb{R}^2)$. The implementation scheme is designed in multiple steps. The flow field is computed using the robust Chambolle-Pock primal-dual algorithm. Motivated by the recent studies of Castro and Donoho we extend the heuristic of iterated median filtering to our flow estimation. Further, to refine the flow edges we use the weighted median filter established by Li and Osher as a post-processing step. Our experiments on the Middlebury dataset show that the proposed method achieves the best average angular and end-point errors compared to some of the state-of-the-art Horn and Schunck based variational methods.
翻訳日:2022-07-22 13:03:19 公開日:2022-07-21
# フロースーパーバイザによる光流れの半教師付き学習

Semi-Supervised Learning of Optical Flow by Flow Supervisor ( http://arxiv.org/abs/2207.10314v1 )

ライセンス: Link先を確認
Woobin Im, Sebin Lee, Sung-Eui Yoon(参考訳) 光フローCNNのトレーニングパイプラインは、合成データセットの事前訓練段階と、ターゲットデータセットの微調整段階から構成される。 しかし、ターゲットビデオから真理を得るには、多大な努力が必要だ。 本稿では,未検討の地中真理の流れを伴わずに,事前学習したモデルをターゲットデータセットに適応するための実用的な微調整法を提案する。 具体的には,パラメータ分離と学生出力接続からなる自己監督のためのフロースーパーバイザを提案する。 この設計は、微調整作業において不安定な従来の自己超越法よりも安定した収束と精度の向上を目的としている。 実験の結果, 半教師あり学習における自己超越法と比較し, 提案手法の有効性が示された。 さらに,Sintel および KITTI ベンチマークにおける最先端光学フローモデルに対する有意義な改善を実現する。 コードはhttps://github.com/iwbn/flow-supervisorで入手できる。

A training pipeline for optical flow CNNs consists of a pretraining stage on a synthetic dataset followed by a fine tuning stage on a target dataset. However, obtaining ground truth flows from a target video requires a tremendous effort. This paper proposes a practical fine tuning method to adapt a pretrained model to a target dataset without ground truth flows, which has not been explored extensively. Specifically, we propose a flow supervisor for self-supervision, which consists of parameter separation and a student output connection. This design is aimed at stable convergence and better accuracy over conventional self-supervision methods which are unstable on the fine tuning task. Experimental results show the effectiveness of our method compared to different self-supervision methods for semi-supervised learning. In addition, we achieve meaningful improvements over state-of-the-art optical flow models on Sintel and KITTI benchmarks by exploiting additional unlabeled datasets. Code is available at https://github.com/iwbn/flow-supervisor.
翻訳日:2022-07-22 13:02:58 公開日:2022-07-21
# seedformer:upsample transformerによるパッチ種ベースのポイントクラウド補完

SeedFormer: Patch Seeds based Point Cloud Completion with Upsample Transformer ( http://arxiv.org/abs/2207.10315v1 )

ライセンス: Link先を確認
Haoran Zhou, Yun Cao, Wenqing Chu, Junwei Zhu, Tong Lu, Ying Tai and Chengjie Wang(参考訳) ポイント・クラウド・コンプリートは, 部分的な観測から3次元オブジェクトの完全な形状を復元する上で, 困難だが必須の課題であるため, 3次元ポイント・クラウドの生成タスクの間で人気が高まっている。 本稿では,ポイントクラウド完了時の細部保存と回復能力を向上させるための新しいSeedFormerを提案する。 グローバル特徴ベクトルに基づく従来の手法とは異なり,パッチ種という新しい形状表現を導入し,部分的な入力から一般的な構造を取り込むだけでなく,局所的なパターンの地域情報を保持する。 そして、種の特徴を生成プロセスに組み込むことで、完全点雲の忠実な詳細を粗い方法で復元することができる。 さらに,変圧器構造を点生成器の基本動作に拡張し,隣接点間の空間的・意味的関係を効果的に組み込んだアップサンプルトランスを考案する。 定性的および定量的評価により,本手法は複数のベンチマークデータセット上で,最先端の完了ネットワークより優れていることが示された。 私たちのコードはhttps://github.com/hrzhou2/seedformerで利用可能です。

Point cloud completion has become increasingly popular among generation tasks of 3D point clouds, as it is a challenging yet indispensable problem to recover the complete shape of a 3D object from its partial observation. In this paper, we propose a novel SeedFormer to improve the ability of detail preservation and recovery in point cloud completion. Unlike previous methods based on a global feature vector, we introduce a new shape representation, namely Patch Seeds, which not only captures general structures from partial inputs but also preserves regional information of local patterns. Then, by integrating seed features into the generation process, we can recover faithful details for complete point clouds in a coarse-to-fine manner. Moreover, we devise an Upsample Transformer by extending the transformer structure into basic operations of point generators, which effectively incorporates spatial and semantic relationships between neighboring points. Qualitative and quantitative evaluations demonstrate that our method outperforms state-of-the-art completion networks on several benchmark datasets. Our code is available at https://github.com/hrzhou2/seedformer.
翻訳日:2022-07-22 13:02:46 公開日:2022-07-21
# AutoAlignV2:動的マルチモーダル3Dオブジェクト検出のための変形可能な特徴集約

AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection ( http://arxiv.org/abs/2207.10316v1 )

ライセンス: Link先を確認
Zehui Chen, Zhenyu Li, Shiquan Zhang, Liangji Fang, Qinhong Jiang, Feng Zhao(参考訳) ポイントクラウドとRGBイメージは、自律運転における2つの一般的な認識源である。 前者はオブジェクトの正確なローカライズを提供し、後者はセマンティック情報により密着し豊かである。 最近、AutoAlignはこれら2つのモードを組み合わせて3Dオブジェクト検出を行うための学習可能なパラダイムを提示している。 しかし、グローバルな注目がもたらした高い計算コストに悩まされている。 そこで本研究では,クロスドメインデフォルムCAFAモジュールを提案する。 これによってキャリブレーションエラーへの耐性が向上し、さまざまなモダリティにまたがる機能集約が大幅にスピードアップする。 複雑なGT-AUGをマルチモーダル設定で克服するために,画像パッチの凸結合に対して,その深度情報をもとに,単純かつ効果的なクロスモーダル拡張戦略を設計する。 さらに,新しい画像レベルのドロップアウトトレーニングスキームを実施すれば,モデルを動的に推測することができる。 そこで我々は,AutoAlign上に構築された高速で強力なマルチモーダル3D検出フレームワークであるAutoAlignV2を提案する。 nuScenesベンチマークの大規模な実験では、AutoAlignV2の有効性と効率が示されている。 特に、我々の最良のモデルは、nuScenesテストリーダーボード上で72.4 NDSに達し、公開されたすべてのマルチモーダル3Dオブジェクト検出器の中で、新しい最先端の結果を達成する。 コードはhttps://github.com/zehuichen123/AutoAlignV2で入手できる。

Point clouds and RGB images are two general perceptional sources in autonomous driving. The former can provide accurate localization of objects, and the latter is denser and richer in semantic information. Recently, AutoAlign presents a learnable paradigm in combining these two modalities for 3D object detection. However, it suffers from high computational cost introduced by the global-wise attention. To solve the problem, we propose Cross-Domain DeformCAFA module in this work. It attends to sparse learnable sampling points for cross-modal relational modeling, which enhances the tolerance to calibration error and greatly speeds up the feature aggregation across different modalities. To overcome the complex GT-AUG under multi-modal settings, we design a simple yet effective cross-modal augmentation strategy on convex combination of image patches given their depth information. Moreover, by carrying out a novel image-level dropout training scheme, our model is able to infer in a dynamic manner. To this end, we propose AutoAlignV2, a faster and stronger multi-modal 3D detection framework, built on top of AutoAlign. Extensive experiments on nuScenes benchmark demonstrate the effectiveness and efficiency of AutoAlignV2. Notably, our best model reaches 72.4 NDS on nuScenes test leaderboard, achieving new state-of-the-art results among all published multi-modal 3D object detectors. Code will be available at https://github.com/zehuichen123/AutoAlignV2.
翻訳日:2022-07-22 13:02:24 公開日:2022-07-21
# 可視化による効率的なCNNアーキテクチャ設計

Efficient CNN Architecture Design Guided by Visualization ( http://arxiv.org/abs/2207.10318v1 )

ライセンス: Link先を確認
Liangqi Zhang, Haibo Shen, Yihao Luo, Xiang Cao, Leixilan Pan, Tianjiang Wang, Qi Feng(参考訳) 現代の効率的な畳み込みニューラルネットワーク(CNN)は、パラメータの数と計算複雑性を減らすために、常にDepthwise Separable Convolutions(DSC)とNeural Architecture Search(NAS)を使用している。 しかし、ネットワーク固有の特性は見過ごされている。 機能マップとn$\times$n(n$>$1)畳み込みカーネルの可視化に着想を得て,パラメータ効率と推論速度をさらに向上するためのガイドラインをいくつか紹介した。 これらのガイドラインに基づき、パラメータ効率のよいCNNアーキテクチャである \textit{VGNetG} は、約30%$\thicksim$50%のパラメータ削減で、従来のネットワークよりも精度とレイテンシを向上する。 我々のVGNetG-1.0MPは、0.99Mパラメータで67.7%、ImageNet分類データセットで1.14Mパラメータで69.2%のTop-1精度を達成した。 さらに,n$\times$nカーネルを固定エッジ検出カーネルに置き換えることで,学習可能な奥行き方向畳み込み層を置き換え,特徴を混合できることを実証した。 VGNetF-1.5MPは64.4%(-3.2%)のトップ1の精度と66.2%(-1.4%)のトップ1の精度でガウスカーネルを追加している。

Modern efficient Convolutional Neural Networks(CNNs) always use Depthwise Separable Convolutions(DSCs) and Neural Architecture Search(NAS) to reduce the number of parameters and the computational complexity. But some inherent characteristics of networks are overlooked. Inspired by visualizing feature maps and N$\times$N(N$>$1) convolution kernels, several guidelines are introduced in this paper to further improve parameter efficiency and inference speed. Based on these guidelines, our parameter-efficient CNN architecture, called \textit{VGNetG}, achieves better accuracy and lower latency than previous networks with about 30%$\thicksim$50% parameters reduction. Our VGNetG-1.0MP achieves 67.7% top-1 accuracy with 0.99M parameters and 69.2% top-1 accuracy with 1.14M parameters on ImageNet classification dataset. Furthermore, we demonstrate that edge detectors can replace learnable depthwise convolution layers to mix features by replacing the N$\times$N kernels with fixed edge detection kernels. And our VGNetF-1.5MP archives 64.4%(-3.2%) top-1 accuracy and 66.2%(-1.4%) top-1 accuracy with additional Gaussian kernels.
翻訳日:2022-07-22 13:01:59 公開日:2022-07-21
# OIMNet++: 人物検索のためのプロトタイプ正規化とローカライズ対応学習

OIMNet++: Prototypical Normalization and Localization-aware Learning for Person Search ( http://arxiv.org/abs/2207.10320v1 )

ライセンス: Link先を確認
Sanghoon Lee, Youngmin Oh, Donghyeon Baek, Junghyup Lee, Bumsub Ham(参考訳) 我々は,人物検索,すなわち,生のシーン画像から人物をローカライズし,再同定するタスクに対処する。 近年のアプローチは、人探索の先駆的な研究であるOIMNetに基づいて構築され、人の再識別(reID)タスクを実行するために、共同人物表現を学習している。 表現を得るために、歩行者の提案から特徴を抽出し、l2正規化を持つ単位超球面に投影する。 これらの手法は全ての肯定的な提案を取り入れており、それは基礎的真理と十分に重なるものであり、同様にreidの人的表現を学ぶ。 私たちはそれを見つけました 1)特徴分布を考慮しないl2正規化は、人的表現の判別能力を低下させ、 2) 肯定的な提案は背景クラッタや人物重複も表現し, 雑音特性を人物表現に符号化する。 本稿では,上記の制限に対処するOIMNet++を紹介する。 この目的のために, 歩行者idのロングテール分布を考慮しつつ, 歩行者提案の特徴を補う新しい正規化層protonormを導入し, l2正規化人物表現を判別可能にした。 また,識別表現の学習において,より協調的な提案を奨励するローカライズ・アウェア特徴学習スキームを提案する。 標準人物探索ベンチマークの実験結果と解析により,OIMNet++の有効性が示された。

We address the task of person search, that is, localizing and re-identifying query persons from a set of raw scene images. Recent approaches are typically built upon OIMNet, a pioneer work on person search, that learns joint person representations for performing both detection and person re-identification (reID) tasks. To obtain the representations, they extract features from pedestrian proposals, and then project them on a unit hypersphere with L2 normalization. These methods also incorporate all positive proposals, that sufficiently overlap with the ground truth, equally to learn person representations for reID. We have found that 1) the L2 normalization without considering feature distributions degenerates the discriminative power of person representations, and 2) positive proposals often also depict background clutter and person overlaps, which could encode noisy features to person representations. In this paper, we introduce OIMNet++ that addresses the aforementioned limitations. To this end, we introduce a novel normalization layer, dubbed ProtoNorm, that calibrates features from pedestrian proposals, while considering a long-tail distribution of person IDs, enabling L2 normalized person representations to be discriminative. We also propose a localization-aware feature learning scheme that encourages better-aligned proposals to contribute more in learning discriminative representations. Experimental results and analysis on standard person search benchmarks demonstrate the effectiveness of OIMNet++.
翻訳日:2022-07-22 13:01:33 公開日:2022-07-21
# UFO: 統一された機能最適化

UFO: Unified Feature Optimization ( http://arxiv.org/abs/2207.10341v1 )

ライセンス: Link先を確認
Teng Xi, Yifan Sun, Deli Yu, Bi Li, Nan Peng, Gang Zhang, Xinyu Zhang, Zhigang Wang, Jinwen Chen, Jian Wang, Lufei Liu, Haocheng Feng, Junyu Han, Jingtuo Liu, Errui Ding and Jingdong Wang(参考訳) 本稿では,複数のAI関数のコレクションを必要とする,現実世界および大規模シナリオ下での深層モデルのトレーニングと展開のための新しい統一特徴最適化(UFO)パラダイムを提案する。 ufoは、すべてのタスクを大規模に事前トレーニングすることで、各タスクのメリットを享受することを目指している。 UFOは、よく知られた基礎モデルと比較すると、比較的小さなモデルサイズとNO適応コストという2つの重点がある。 1)UFOは,マルチタスク学習方式で,幅広いタスクを中規模統一モデルに絞り込み,下流タスクに移行する際のモデルサイズをさらに縮小する。 2)ufoは新規タスクへの移行を強調しない。 代わりに、1つ以上のタスク専用のトリミングモデルを作ることを目指している。 これら2つの特徴により、UFOは大規模事前訓練の利点を維持しつつ、柔軟な展開に優れた利便性を提供する。 UFOの重要な利点は、トリミングプロセスがモデルサイズと推論消費を減らすだけでなく、特定のタスクの精度も改善することである。 具体的には、UFOはマルチタスクトレーニングを考慮し、統一モデルに2倍の影響をもたらす。 UFOは、紛争を減らし、新しいネットワークアーキテクチャサーチ(NAS)手法によって相互利益を維持する。 幅広い深層表現学習タスク(顔認識、人物再識別、車両再識別、製品検索など)の実験では、UFOからトリミングされたモデルはシングルタスク訓練されたモデルよりも精度が高く、モデルサイズも小さく、UFOの概念を検証している。 さらにUFOは、業界最大のCVモデルである17億のパラメータコンピュータビジョン(CV)基盤モデルのリリースもサポートした。

This paper proposes a novel Unified Feature Optimization (UFO) paradigm for training and deploying deep models under real-world and large-scale scenarios, which requires a collection of multiple AI functions. UFO aims to benefit each single task with a large-scale pretraining on all tasks. Compared with the well known foundation model, UFO has two different points of emphasis, i.e., relatively smaller model size and NO adaptation cost: 1) UFO squeezes a wide range of tasks into a moderate-sized unified model in a multi-task learning manner and further trims the model size when transferred to down-stream tasks. 2) UFO does not emphasize transfer to novel tasks. Instead, it aims to make the trimmed model dedicated for one or more already-seen task. With these two characteristics, UFO provides great convenience for flexible deployment, while maintaining the benefits of large-scale pretraining. A key merit of UFO is that the trimming process not only reduces the model size and inference consumption, but also even improves the accuracy on certain tasks. Specifically, UFO considers the multi-task training and brings two-fold impact on the unified model: some closely related tasks have mutual benefits, while some tasks have conflicts against each other. UFO manages to reduce the conflicts and to preserve the mutual benefits through a novel Network Architecture Search (NAS) method. Experiments on a wide range of deep representation learning tasks (i.e., face recognition, person re-identification, vehicle re-identification and product retrieval) show that the model trimmed from UFO achieves higher accuracy than its single-task-trained counterpart and yet has smaller model size, validating the concept of UFO. Besides, UFO also supported the release of 17 billion parameters computer vision (CV) foundation model which is the largest CV model in the industry.
翻訳日:2022-07-22 13:01:09 公開日:2022-07-21
# データ拡張とニューラルネットワークの検索を統一した医用画像解析のための自動機械学習

Auto Machine Learning for Medical Image Analysis by Unifying the Search on Data Augmentation and Neural Architecture ( http://arxiv.org/abs/2207.10351v1 )

ライセンス: Link先を確認
Jianwei Zhang, Dong Li, Lituan Wang, Lei Zhang(参考訳) 自動データ拡張(Automated Data Augmentation)は、エンジニアリングの強化ポリシーを自動で実現するものだ。 従来の自動拡張手法の多くは、テスト時間拡張性能の観点からポリシーを評価することで密度マッチング戦略を利用した。 そこで本稿では,本研究では,ドメイン内サンプリングバイアスと呼ばれる小型医用画像データセットの列車と検証セットの矛盾を理論的,実証的に実証した。 次に、ドメイン内サンプリングバイアスが密度マッチングの非効率性を引き起こすことを示した。 この問題を解決するために,事前分布からランダムにポリシーをサンプリングし,拡張密度マッチングという改良された拡張探索戦略を提案した。 さらに、データ拡張とニューラルアーキテクチャの探索を統合することで、効率的な自動機械学習(AutoML)アルゴリズムを提案した。 実験の結果,提案手法は,医療画像解析におけるAutoMLのための先駆的ベンチマークであるMedMNISTに対して,最先端のアプローチよりも優れていた。

Automated data augmentation, which aims at engineering augmentation policy automatically, recently draw a growing research interest. Many previous auto-augmentation methods utilized a Density Matching strategy by evaluating policies in terms of the test-time augmentation performance. In this paper, we theoretically and empirically demonstrated the inconsistency between the train and validation set of small-scale medical image datasets, referred to as in-domain sampling bias. Next, we demonstrated that the in-domain sampling bias might cause the inefficiency of Density Matching. To address the problem, an improved augmentation search strategy, named Augmented Density Matching, was proposed by randomly sampling policies from a prior distribution for training. Moreover, an efficient automatical machine learning(AutoML) algorithm was proposed by unifying the search on data augmentation and neural architecture. Experimental results indicated that the proposed methods outperformed state-of-the-art approaches on MedMNIST, a pioneering benchmark designed for AutoML in medical image analysis.
翻訳日:2022-07-22 13:00:39 公開日:2022-07-21
# SGBANet: 任意向きシーン音声認識のための意味的GANと平衡注意ネットワーク

SGBANet: Semantic GAN and Balanced Attention Network for Arbitrarily Oriented Scene Text Recognition ( http://arxiv.org/abs/2207.10256v1 )

ライセンス: Link先を確認
Dajian Zhong and Shujing Lyu and Palaiahnakote Shivakumara and Bing Yin and Jiajia Wu and Umapada Pal and Yue Lu(参考訳) シーンのテキスト認識は、複雑な背景と様々なテキストインスタンスがあるため、難しい課題である。 本稿では,シーン画像中のテキストを認識するためのセマンティックGAN and Balanced Attention Network (SGBANet)を提案する。 提案手法はまずセマンティックGANを用いて単純な意味的特徴を生成し,次にバランス注意モジュールを用いてシーンテキストを認識する。 Semantic GANは、サポートドメインとターゲットドメインのセマンティックな特徴分布を調整することを目的としている。 画像レベルで実行される従来の画像と画像の変換方法とは異なり、セマンティックGANはセマンティックジェネレータモジュール(SGM)とセマンティック識別モジュール(SDM)を用いてセマンティックレベルでの生成と識別を行う。 ターゲット画像(シーンテキスト画像)に対して、セマンティックジェネレータモジュールは同じ特徴分布とサポート画像(クリアテキスト画像)を共有する単純な意味的特徴を生成する。 Semantic Discriminator Moduleは、サポートドメインとターゲットドメインのセマンティックな特徴を区別するために使用される。 さらに、注意流の問題を軽減するために、バランスド・アテンション・モジュールが設計されている。 Balanced Attention Moduleはまず、視覚視線ベクトルと意味視線ベクトルとに基づいてバランスパラメータを学習し、その後、平衡視線ベクトルを得るためのバランス操作を実行する。 正規データセット,すなわちIIIT5K,SVT,ICDAR2013,および不規則データセット,すなわちICDAR2015,SVTP,CUTE80を含む6つのベンチマーク実験により,提案手法の有効性が検証された。

Scene text recognition is a challenging task due to the complex backgrounds and diverse variations of text instances. In this paper, we propose a novel Semantic GAN and Balanced Attention Network (SGBANet) to recognize the texts in scene images. The proposed method first generates the simple semantic feature using Semantic GAN and then recognizes the scene text with the Balanced Attention Module. The Semantic GAN aims to align the semantic feature distribution between the support domain and target domain. Different from the conventional image-to-image translation methods that perform at the image level, the Semantic GAN performs the generation and discrimination on the semantic level with the Semantic Generator Module (SGM) and Semantic Discriminator Module (SDM). For target images (scene text images), the Semantic Generator Module generates simple semantic features that share the same feature distribution with support images (clear text images). The Semantic Discriminator Module is used to distinguish the semantic features between the support domain and target domain. In addition, a Balanced Attention Module is designed to alleviate the problem of attention drift. The Balanced Attention Module first learns a balancing parameter based on the visual glimpse vector and semantic glimpse vector, and then performs the balancing operation for obtaining a balanced glimpse vector. Experiments on six benchmarks, including regular datasets, i.e., IIIT5K, SVT, ICDAR2013, and irregular datasets, i.e., ICDAR2015, SVTP, CUTE80, validate the effectiveness of our proposed method.
翻訳日:2022-07-22 12:58:03 公開日:2022-07-21
# 深部運動モデリングを用いた領域認識型ビデオオブジェクトセグメンテーション

Region Aware Video Object Segmentation with Deep Motion Modeling ( http://arxiv.org/abs/2207.10258v1 )

ライセンス: Link先を確認
Bo Miao and Mohammed Bennamoun and Yongsheng Gao and Ajmal Mian(参考訳) 現在の半教師付きビデオオブジェクトセグメンテーション(VOS)手法は、通常、オブジェクトマスクの予測とメモリの更新に、1フレームのすべての機能を利用する。 これは大きな冗長計算をもたらす。 冗長性を低減するために、効率的なオブジェクトセグメンテーションとメモリストレージのために、関心領域(roi)を予測する領域認識ビデオオブジェクトセグメンテーション(ravos)アプローチを提案する。 RAVOSには、次のフレームでROIを予測する高速なオブジェクトモーショントラッカーが含まれている。 効率的なセグメンテーションのために、ROIに応じてオブジェクトの特徴を抽出し、オブジェクトレベルのセグメンテーションのためにオブジェクトデコーダを設計する。 効率的なメモリ記憶のために,2つのフレーム間のオブジェクトの動作パス内の特徴を記憶して冗長なコンテキストをフィルタするモーションパスメモリを提案する。 また、RAVOS以外にも、OVOSと呼ばれる大規模なデータセットを提案し、VOSモデルの性能をオクルージョンでベンチマークする。 DAVISおよびYouTube-VOSベンチマークおよび新しいOVOSデータセットによる評価から,本手法は,DAVISの42FPSでの86.1J&F,YouTube-VOSの23FPSでの84.4J&Fなど,非常に高速な推論時間で最先端のパフォーマンスを実現する。

Current semi-supervised video object segmentation (VOS) methods usually leverage the entire features of one frame to predict object masks and update memory. This introduces significant redundant computations. To reduce redundancy, we present a Region Aware Video Object Segmentation (RAVOS) approach that predicts regions of interest (ROIs) for efficient object segmentation and memory storage. RAVOS includes a fast object motion tracker to predict their ROIs in the next frame. For efficient segmentation, object features are extracted according to the ROIs, and an object decoder is designed for object-level segmentation. For efficient memory storage, we propose motion path memory to filter out redundant context by memorizing the features within the motion path of objects between two frames. Besides RAVOS, we also propose a large-scale dataset, dubbed OVOS, to benchmark the performance of VOS models under occlusions. Evaluation on DAVIS and YouTube-VOS benchmarks and our new OVOS dataset show that our method achieves state-of-the-art performance with significantly faster inference time, e.g., 86.1 J&F at 42 FPS on DAVIS and 84.4 J&F at 23 FPS on YouTube-VOS.
翻訳日:2022-07-22 12:57:33 公開日:2022-07-21
# 分割認識とコンテンツ保存機能を備えた人間中心画像クロッピング

Human-centric Image Cropping with Partition-aware and Content-preserving Features ( http://arxiv.org/abs/2207.10269v1 )

ライセンス: Link先を確認
Bo Zhang, Li Niu, Xing Zhao, Liqing Zhang(参考訳) Image croppingは、画像の中に視覚的に魅力的な作物を見つけることを目的としている。 本稿では,人物の描写に焦点をあてた,人間中心のイメージクロッピングという,具体的かつ実用的な応用について考察する。 そこで本研究では, 分割認識機能とコンテンツ保存機能という, 新たな2つの特徴を持つ画像抽出手法を提案する。 分割認識機能では、画像全体を人間の境界ボックスに基づいて9つのパーティションに分割し、人間の情報に基づいて異なる条件の候補作物における異なるパーティションを扱う。 コンテンツ保存機能については,作物に含まれる重要な内容を示すヒートマップを予測し,ヒートマップと候補作物との幾何学的関係を抽出する。 広範な実験により,人間中心のイメージクロッピングタスクにおいて,最先端の画像クロッピング手法に対して好適に動作できることが証明された。 コードはhttps://github.com/bcmi/human-centric-image-croppingで入手できる。

Image cropping aims to find visually appealing crops in an image, which is an important yet challenging task. In this paper, we consider a specific and practical application: human-centric image cropping, which focuses on the depiction of a person. To this end, we propose a human-centric image cropping method with two novel feature designs for the candidate crop: partition-aware feature and content-preserving feature. For partition-aware feature, we divide the whole image into nine partitions based on the human bounding box and treat different partitions in a candidate crop differently conditioned on the human information. For content-preserving feature, we predict a heatmap indicating the important content to be included in a good crop, and extract the geometric relation between the heatmap and a candidate crop. Extensive experiments demonstrate that our method can perform favorably against state-of-the-art image cropping methods on human-centric image cropping task. Code is available at https://github.com/bcmi/Human-Centric-Image-Cropping.
翻訳日:2022-07-22 12:57:08 公開日:2022-07-21
# DeltaGAN: サンプル差分画像生成に向けて

DeltaGAN: Towards Diverse Few-shot Image Generation with Sample-Specific Delta ( http://arxiv.org/abs/2207.10271v1 )

ライセンス: Link先を確認
Yan Hong, Li Niu, Jianfu Zhang, and Liqing Zhang(参考訳) 少数ショット画像生成と呼ばれる少数の画像に基づいて新しいカテゴリの新しい画像を生成する学習は、研究の関心が高まりつつある。 いくつかの最先端の作品は印象的な結果をもたらしたが、多様性はまだ限られている。 本研究では,再構成サブネットワークと生成サブネットワークからなるDelta Generative Adversarial Network (DeltaGAN)を提案する。 レコンストラクションサブネットワークは、カテゴリ内変換、すなわちデルタを同カテゴリペア間でキャプチャする。 生成サブネットは、入力画像に対してサンプル固有デルタを生成し、この入力画像と組み合わせて、同一カテゴリ内で新しい画像を生成する。 さらに、上記2つのサブネットを連結するように、逆デルタマッチング損失を設計する。 6つのベンチマークデータセットに対する大規模な実験により,提案手法の有効性が示された。 私たちのコードはhttps://github.com/bcmi/DeltaGAN-Few-Shot-Image-Generationで公開されています。

Learning to generate new images for a novel category based on only a few images, named as few-shot image generation, has attracted increasing research interest. Several state-of-the-art works have yielded impressive results, but the diversity is still limited. In this work, we propose a novel Delta Generative Adversarial Network (DeltaGAN), which consists of a reconstruction subnetwork and a generation subnetwork. The reconstruction subnetwork captures intra-category transformation, i.e., delta, between same-category pairs. The generation subnetwork generates sample-specific delta for an input image, which is combined with this input image to generate a new image within the same category. Besides, an adversarial delta matching loss is designed to link the above two subnetworks together. Extensive experiments on six benchmark datasets demonstrate the effectiveness of our proposed method. Our code is available at https://github.com/bcmi/DeltaGAN-Few-Shot-Image-Generation.
翻訳日:2022-07-22 12:56:53 公開日:2022-07-21
# 忘れないでください: ローカルグローバルコンテキストのモデリングによるテキスト除去のための正確なバックグラウンドリカバリ

Don't Forget Me: Accurate Background Recovery for Text Removal via Modeling Local-Global Context ( http://arxiv.org/abs/2207.10273v1 )

ライセンス: Link先を確認
Chongyu Liu, Lianwen Jin, Yuliang Liu, Canjie Luo, Bangdong Chen, Fengjun Guo, and Kai Ding(参考訳) テキスト削除は、プライバシー保護、文書復元、テキスト編集に関する様々な応用により、注目を集めている。 ディープニューラルネットワークでは大きな進歩を遂げている。 しかし、既存のメソッドの多くは複雑なバックグラウンドに対して一貫性のない結果を生成することが多い。 そこで本研究では,CTRNetと呼ばれるコンテキスト誘導テキスト除去ネットワークを提案する。 CTRNetは、背景復元のプロセスを導くための事前知識として、低レベル構造と高レベル識別コンテキストの両方を探索する。 さらに,cnnとtransformer-encoderを用いたローカル・グローバル・コンテンツ・モデリング(lgcm)ブロックを提案する。 最後に,LGCMに特徴モデリングと復号化のためのコンテキストガイダンスを組み込む。 ベンチマークデータセット、SCUT-EnsText、SCUT-Synの実験は、CTRNetが既存の最先端メソッドよりも大幅に優れていることを示している。 さらに,試験論文における定性的な実験により,本手法の一般化能力を示す。 コードはhttps://github.com/lcy0604/CTRNetで入手できる。

Text removal has attracted increasingly attention due to its various applications on privacy protection, document restoration, and text editing. It has shown significant progress with deep neural network. However, most of the existing methods often generate inconsistent results for complex background. To address this issue, we propose a Contextual-guided Text Removal Network, termed as CTRNet. CTRNet explores both low-level structure and high-level discriminative context feature as prior knowledge to guide the process of background restoration. We further propose a Local-global Content Modeling (LGCM) block with CNNs and Transformer-Encoder to capture local features and establish the long-term relationship among pixels globally. Finally, we incorporate LGCM with context guidance for feature modeling and decoding. Experiments on benchmark datasets, SCUT-EnsText and SCUT-Syn show that CTRNet significantly outperforms the existing state-of-the-art methods. Furthermore, a qualitative experiment on examination papers also demonstrates the generalization ability of our method. The codes and supplement materials are available at https://github.com/lcy0604/CTRNet.
翻訳日:2022-07-22 12:56:39 公開日:2022-07-21
# 単一受容場を超えて:空中レーザー走査点雲分類のための受容場融合成層ネットワーク

Beyond single receptive field: A receptive field fusion-and-stratification network for airborne laser scanning point cloud classification ( http://arxiv.org/abs/2207.10278v1 )

ライセンス: Link先を確認
Yongqiang Mao, Kaiqiang Chen, Wenhui Diao, Xian Sun, Xiaonan Lu, Kun Fu, Martin Weinmann(参考訳) 空中レーザー走査(ALS)点雲の分類はリモートセンシングと光度測定の分野において重要な課題である。 近年の深層学習に基づく手法は良好な成果を上げているが、彼らは受容領域のユニシティを無視しており、alsポイントクラウド分類は複雑な構造と極端なスケールのバリエーションを持つ領域の区別に依然として困難である。 本稿では,複数受容場特徴の設定を目的として,新しい受容場融合ネットワーク(RFFS-Net)を提案する。 新規な拡張グラフ畳み込み(dgconv)とその拡張環状拡張畳み込み(adconv)を基本構成要素として、様々な受容領域で拡張および環状グラフをキャプチャして多重受容フィールド特徴表現を得る拡張および環状グラフ融合(dagfusion)モジュールを用いて受容フィールド融合処理を実行する。 RFFS-Netにネストし、MRFALoss(Multi-level Receptive Field aggregate loss)によって駆動されるマルチレベルデコーダを用いて、異なる解像度の点集合による受容場の成層化を行い、異なる解像度の監督ラベルの方向に学習する。 受容場融合・成層化により、RFFS-Netは、大規模ALS点雲における複雑な構造と極端なスケールの変動を持つ領域の分類に適応可能である。 ISPRS Vaihingen 3Dデータセットに基づいて評価すると、RFFS-NetはmF1が5.3%、mIoUが5.4%、全体の精度が82.1%、mF1が71.6%、mIoUが58.2%で、ベースラインアプローチを著しく上回っている。 さらに、LASDUデータセットと2019年のIEEE-GRSS Data Fusion Contestデータセットの実験は、RFFS-Netが新しい最先端の分類性能を達成することを示している。

The classification of airborne laser scanning (ALS) point clouds is a critical task of remote sensing and photogrammetry fields. Although recent deep learning-based methods have achieved satisfactory performance, they have ignored the unicity of the receptive field, which makes the ALS point cloud classification remain challenging for the distinguishment of the areas with complex structures and extreme scale variations. In this article, for the objective of configuring multi-receptive field features, we propose a novel receptive field fusion-and-stratification network (RFFS-Net). With a novel dilated graph convolution (DGConv) and its extension annular dilated convolution (ADConv) as basic building blocks, the receptive field fusion process is implemented with the dilated and annular graph fusion (DAGFusion) module, which obtains multi-receptive field feature representation through capturing dilated and annular graphs with various receptive regions. The stratification of the receptive fields with point sets of different resolutions as the calculation bases is performed with Multi-level Decoders nested in RFFS-Net and driven by the multi-level receptive field aggregation loss (MRFALoss) to drive the network to learn in the direction of the supervision labels with different resolutions. With receptive field fusion-and-stratification, RFFS-Net is more adaptable to the classification of regions with complex structures and extreme scale variations in large-scale ALS point clouds. Evaluated on the ISPRS Vaihingen 3D dataset, our RFFS-Net significantly outperforms the baseline approach by 5.3% on mF1 and 5.4% on mIoU, accomplishing an overall accuracy of 82.1%, an mF1 of 71.6%, and an mIoU of 58.2%. Furthermore, experiments on the LASDU dataset and the 2019 IEEE-GRSS Data Fusion Contest dataset show that RFFS-Net achieves a new state-of-the-art classification performance.
翻訳日:2022-07-22 12:56:24 公開日:2022-07-21
# 背景クラス正規化によるオープンセット認識の高精度化

Towards Accurate Open-Set Recognition via Background-Class Regularization ( http://arxiv.org/abs/2207.10287v1 )

ライセンス: Link先を確認
Wonwoo Cho and Jaegul Choo(参考訳) オープンセット認識(OSR)では、分類器は、高いクローズドセット分類精度を維持しつつ、未知のクラスサンプルを拒否できるべきである。 osr問題を効果的に解決するために、従来の研究では、オフライン分析、例えば距離ベースの特徴分析、複雑なネットワークアーキテクチャなどを通じて、潜在的な特徴空間を制限し、制限された空間外にあるデータを拒否しようとした。 標準分類器アーキテクチャにおいて、OSRを単純な推論プロセス(オフライン解析なしで)で実行するために、従来のソフトマックス分類器の代わりに距離ベースの分類器を用いる。 その後,トレーニング段階で未知クラスデータのサロゲートとしてバックグラウンドクラスデータを使用するバックグラウンドクラス正規化戦略を設計する。 具体的には、距離ベース分類器に適した新しい正規化損失を定式化し、既知のクラスに対して十分に大きなクラスワイド特徴空間を予約し、バックグラウンドクラスサンプルを制限空間から遠く離れた場所に強制する。 実験により,提案手法は高い閉集合分類精度を維持しつつ,堅牢なOSR結果を提供することを示した。

In open-set recognition (OSR), classifiers should be able to reject unknown-class samples while maintaining high closed-set classification accuracy. To effectively solve the OSR problem, previous studies attempted to limit latent feature space and reject data located outside the limited space via offline analyses, e.g., distance-based feature analyses, or complicated network architectures. To conduct OSR via a simple inference process (without offline analyses) in standard classifier architectures, we use distance-based classifiers instead of conventional Softmax classifiers. Afterwards, we design a background-class regularization strategy, which uses background-class data as surrogates of unknown-class ones during training phase. Specifically, we formulate a novel regularization loss suitable for distance-based classifiers, which reserves sufficiently large class-wise latent feature spaces for known classes and forces background-class samples to be located far away from the limited spaces. Through our extensive experiments, we show that the proposed method provides robust OSR results, while maintaining high closed-set classification accuracy.
翻訳日:2022-07-22 12:55:42 公開日:2022-07-21
# augrmixat: 多重ロバスト性と一般化性能を向上させるデータ処理およびトレーニング方法

AugRmixAT: A Data Processing and Training Method for Improving Multiple Robustness and Generalization Performance ( http://arxiv.org/abs/2207.10290v1 )

ライセンス: Link先を確認
Xiaoliang Liu, Furao Shen, Jian Zhao, Changhai Nie(参考訳) ディープニューラルネットワークは強力だが、敵の例に対する感度、ノイズ、ぼかし、閉塞などの欠点もある。 さらに、ディープニューラルネットワークモデルの信頼性と堅牢性を保証することが、安全クリティカルな分野への応用に不可欠である。 具体的な堅牢性を改善するために、これまでの多くの作業が提案されている。 しかし、ニューラルネットワークモデルのさらなる堅牢性や一般化能力を犠牲にして、特定のロバスト性が改善されることがしばしばある。 特に、敵の強靭性を改善する際に、非摂動データに対する一般化性能を著しく損なう。 本稿では,ニューラルネットワークモデルの一般化能力と多重ロバスト性を同時に向上させる,augrmixatと呼ばれる新しいデータ処理・トレーニング手法を提案する。 最後に,CIFAR-10/100およびTiny-ImageNetデータセットに対するAugRmixATの有効性を検証する。 実験により、AugRmixATは、ホワイトボックスのロバスト性、ブラックボックスのロバスト性、共通の破損ロバスト性、部分閉塞ロバスト性を高めながら、モデルの一般化性能を向上させることができることが示された。

Deep neural networks are powerful, but they also have shortcomings such as their sensitivity to adversarial examples, noise, blur, occlusion, etc. Moreover, ensuring the reliability and robustness of deep neural network models is crucial for their application in safety-critical areas. Much previous work has been proposed to improve specific robustness. However, we find that the specific robustness is often improved at the sacrifice of the additional robustness or generalization ability of the neural network model. In particular, adversarial training methods significantly hurt the generalization performance on unperturbed data when improving adversarial robustness. In this paper, we propose a new data processing and training method, called AugRmixAT, which can simultaneously improve the generalization ability and multiple robustness of neural network models. Finally, we validate the effectiveness of AugRmixAT on the CIFAR-10/100 and Tiny-ImageNet datasets. The experiments demonstrate that AugRmixAT can improve the model's generalization performance while enhancing the white-box robustness, black-box robustness, common corruption robustness, and partial occlusion robustness.
翻訳日:2022-07-22 12:55:20 公開日:2022-07-21
# オンラインソーシャルネットワークにおける被覆伝送のための画像生成ネットワーク

Image Generation Network for Covert Transmission in Online Social Network ( http://arxiv.org/abs/2207.10292v1 )

ライセンス: Link先を確認
Zhengxin You, Qichao Ying, Sheng Li, Zhenxing Qian and Xinpeng Zhang(参考訳) オンラインソーシャルネットワークは、これまで以上にインターネット上のコミュニケーションを刺激し、そのような騒々しいチャンネル上で秘密のメッセージ送信を可能にする。 本稿では,シークレットメッセージに直接条件付き高品質な画像を合成して転送する,CIS-Net(Coverless Image Steganography Network)を提案する。 CIS-Netは、ジェネレーション、アドバイサル、抽出、ノイズモジュールの4つのモジュールで構成されている。 受信機は、JPEG圧縮攻撃によって画像が歪んだとしても、損失なく隠されたメッセージを抽出することができる。 ステガノグラフィーの振る舞いを偽装するために、プロファイル写真やステッカーのコンテキストで画像を収集し、それに従ってネットワークを訓練した。 したがって、生成された画像は悪意のある検出や攻撃から逃れる傾向がある。 従来の画像ステガノグラフィー法との違いは、主に多様な攻撃に対する頑丈さと無害さである。 様々な公開データセットに対する実験は、抗ステガナリシスの優れた能力を示した。

Online social networks have stimulated communications over the Internet more than ever, making it possible for secret message transmission over such noisy channels. In this paper, we propose a Coverless Image Steganography Network, called CIS-Net, that synthesizes a high-quality image directly conditioned on the secret message to transfer. CIS-Net is composed of four modules, namely, the Generation, Adversarial, Extraction, and Noise Module. The receiver can extract the hidden message without any loss even the images have been distorted by JPEG compression attacks. To disguise the behaviour of steganography, we collected images in the context of profile photos and stickers and train our network accordingly. As such, the generated images are more inclined to escape from malicious detection and attack. The distinctions from previous image steganography methods are majorly the robustness and losslessness against diverse attacks. Experiments over diverse public datasets have manifested the superior ability of anti-steganalysis.
翻訳日:2022-07-22 12:55:02 公開日:2022-07-21
# 顔行動分析におけるマルチタスククロスアテンションネットワーク

Multi-task Cross Attention Network in Facial Behavior Analysis ( http://arxiv.org/abs/2207.10293v1 )

ライセンス: Link先を確認
Dang-Khanh Nguyen, Sudarshan Pant, Ngoc-Huynh Ho, Guee-Sang Lee, Soo-Huyng Kim, Hyung-Jeong Yang(参考訳) 顔の行動分析は、顔の感情認識、年齢、性別認識など、さまざまなカテゴリの幅広いトピックである。 多くの研究は個々のタスクに焦点を当てているが、マルチタスク学習アプローチはまだオープンであり、より多くの研究が必要である。 本稿では,本研究の課題である「感情行動分析」におけるマルチタスク学習の課題に対する解決策と実験結果について述べる。 課題は、アクションユニット検出、表情認識、ヴァランス・覚醒推定の3つのタスクの組み合わせである。 この課題に対処するため,マルチタスク学習性能を向上させるクロスアテンテートモジュールを提案する。 さらに、アクションユニット間の関連を捉えるために、顔グラフを適用する。 その結果,オーガナイザが提供した検証データに対して,0.30のベースライン結果よりも優れた1.24の評価値が得られた。

Facial behavior analysis is a broad topic with various categories such as facial emotion recognition, age and gender recognition, ... Many studies focus on individual tasks while the multi-task learning approach is still open and requires more research. In this paper, we present our solution and experiment result for the Multi-Task Learning challenge of the Affective Behavior Analysis in-the-wild competition. The challenge is a combination of three tasks: action unit detection, facial expression recognition and valance-arousal estimation. To address this challenge, we introduce a cross-attentive module to improve multi-task learning performance. Additionally, a facial graph is applied to capture the association among action units. As a result, we achieve the evaluation measure of 1.24 on the validation data provided by the organizers, which is better than the baseline result of 0.30.
翻訳日:2022-07-22 12:54:47 公開日:2022-07-21
# spin:等方性ネットワークの共有パラメータに関する経験的評価

SPIN: An Empirical Evaluation on Sharing Parameters of Isotropic Networks ( http://arxiv.org/abs/2207.10237v1 )

ライセンス: Link先を確認
Chien-Yu Lin, Anish Prabhu, Thomas Merth, Sachin Mehta, Anurag Ranjan, Maxwell Horton, and Mohammad Rastegari(参考訳) ConvMixerやビジョントランスフォーマーのような最近の等方性ネットワークは、非等方性畳み込みニューラルネットワーク(CNN)のマッチングや性能向上など、視覚認識タスク全体で大きな成功を収めている。 等方性アーキテクチャは、効果的なニューラルネットワーク圧縮技術であるクロスレイヤー重み共有に特に適している。 本稿では,等方性ネットワーク(spin)におけるパラメータの共有手法について経験的評価を行う。 本稿では,重み付け設計決定を形式化し,この設計空間を包括的に評価する枠組みを提案する。 実験結果から導かれ,従来のスケーリング手法のみと比較して,FLOPとパラメータと精度の点で,画像ネットの精度を向上しつつ,ConvMixerを1.9倍圧縮するなど,全体的な効率向上を図ったモデル群を生成するための重み共有戦略を提案する。 最後に,等方性アーキテクチャにおける重み共有の挙動をさらに理解するために質的研究を行う。 コードはhttps://github.com/apple/ml-spinで入手できる。

Recent isotropic networks, such as ConvMixer and vision transformers, have found significant success across visual recognition tasks, matching or outperforming non-isotropic convolutional neural networks (CNNs). Isotropic architectures are particularly well-suited to cross-layer weight sharing, an effective neural network compression technique. In this paper, we perform an empirical evaluation on methods for sharing parameters in isotropic networks (SPIN). We present a framework to formalize major weight sharing design decisions and perform a comprehensive empirical evaluation of this design space. Guided by our experimental results, we propose a weight sharing strategy to generate a family of models with better overall efficiency, in terms of FLOPs and parameters versus accuracy, compared to traditional scaling methods alone, for example compressing ConvMixer by 1.9x while improving accuracy on ImageNet. Finally, we perform a qualitative study to further understand the behavior of weight sharing in isotropic architectures. The code is available at https://github.com/apple/ml-spin.
翻訳日:2022-07-22 12:48:54 公開日:2022-07-21
# 環境科学における画像解析タスクを支援するトポロジカルデータ解析のプライマー

A Primer on Topological Data Analysis to Support Image Analysis Tasks in Environmental Science ( http://arxiv.org/abs/2207.10552v1 )

ライセンス: Link先を確認
Lander Ver Hoef and Henry Adams and Emily J. King and Imme Ebert-Uphoff(参考訳) トポロジカルデータ分析(TDA)は、データサイエンスと数学のツールであり、環境科学で波を発生させ始めている。 本研究は,画像解析,すなわち持続的ホモロジーにおいて特に有用である,tdaのツールの直感的かつ理解可能な紹介を提供することを目的としている。 簡単に理論的な背景を議論するが、主にこのツールのアウトプットを理解し、どのような情報が読み取れるかについて議論する。 そこで本研究では,raspらによる雲のメソケール構造の研究のために作成された糖,魚,花,砂利のデータセットから衛星画像を分類する誘導例について考察する。 2020年時点(arXiv:1906:01906)。 我々は,単純な機械学習アルゴリズムを用いてワークフロー内で永続的ホモロジーとそのベクトル化,永続的ランドスケープがいかに利用できるかを実証し,画像レベルの特徴を用いてその振る舞いを詳細に説明する。 永続ホモロジーのコアとなる強みの1つは、それがいかに解釈可能かであるので、本論文全体を通して、見いだすパターンだけでなく、永続ホモロジーの理論について知っていることを考えると、なぜこれらの結果が期待されるのかを議論する。 私たちの目標は、この論文の読者が、TDAと永続的ホモロジーをよりよく理解し、永続的ホモロジーが役立つ可能性のある問題やデータセットを識別し、GitHubのサンプルコードの適用から得られる結果の理解を得ることです。

Topological data analysis (TDA) is a tool from data science and mathematics that is beginning to make waves in environmental science. In this work, we seek to provide an intuitive and understandable introduction to a tool from TDA that is particularly useful for the analysis of imagery, namely persistent homology. We briefly discuss the theoretical background but focus primarily on understanding the output of this tool and discussing what information it can glean. To this end, we frame our discussion around a guiding example of classifying satellite images from the Sugar, Fish, Flower, and Gravel Dataset produced for the study of mesocale organization of clouds by Rasp et. al. in 2020 (arXiv:1906:01906). We demonstrate how persistent homology and its vectorization, persistence landscapes, can be used in a workflow with a simple machine learning algorithm to obtain good results, and explore in detail how we can explain this behavior in terms of image-level features. One of the core strengths of persistent homology is how interpretable it can be, so throughout this paper we discuss not just the patterns we find, but why those results are to be expected given what we know about the theory of persistent homology. Our goal is that a reader of this paper will leave with a better understanding of TDA and persistent homology, be able to identify problems and datasets of their own for which persistent homology could be helpful, and gain an understanding of results they obtain from applying the included GitHub example code.
翻訳日:2022-07-22 12:46:50 公開日:2022-07-21
# ハイパースペクトル画像におけるクラスタリングのための動的システムアルゴリズム

A Dynamical Systems Algorithm for Clustering in Hyperspectral Imagery ( http://arxiv.org/abs/2207.10625v1 )

ライセンス: Link先を確認
William F. Basener, Alexey Castrodad, David Messinger, Jennifer Mahle, Paul Prue(参考訳) 本稿では,ハイパースペクトル画像におけるクラスタリングのための新しい動的システムアルゴリズムを提案する。 このアルゴリズムの主な考え方は、データポイントが密度を増加させる方向に 'pushed\' であり、同じ密度の領域に終わるピクセル群は同じクラスに属するということである。 これは本質的に、データ多様体上のデータ点の密度の勾配によって定義される微分方程式の数値解である。 クラスの数は自動化されており、その結果のクラスタリングは極めて正確である。 正確なクラスタリングに加えて、このアルゴリズムは高次元のハイパースペクトルデータを理解するための新しいツールを提供する。 そこで本研究では,k-means法との比較結果と比較し,都市(www.tec.ary.mil/hypercube/)における評価を行った。

In this paper we present a new dynamical systems algorithm for clustering in hyperspectral images. The main idea of the algorithm is that data points are \`pushed\' in the direction of increasing density and groups of pixels that end up in the same dense regions belong to the same class. This is essentially a numerical solution of the differential equation defined by the gradient of the density of data points on the data manifold. The number of classes is automated and the resulting clustering can be extremely accurate. In addition to providing a accurate clustering, this algorithm presents a new tool for understanding hyperspectral data in high dimensions. We evaluate the algorithm on the Urban (Available at www.tec.ary.mil/Hypercube/) scene comparing performance against the k-means algorithm using pre-identified classes of materials as ground truth.
翻訳日:2022-07-22 12:46:24 公開日:2022-07-21
# 深部強化学習を用いたマルチアセットクローズドループ貯留層管理

Multi-Asset Closed-Loop Reservoir Management Using Deep Reinforcement Learning ( http://arxiv.org/abs/2207.10376v1 )

ライセンス: Link先を確認
Yusuf Nasir, Louis J. Durlofsky(参考訳) クローズドループ貯水池管理(clrm)は、資産の存続期間に複数回にわたって履歴マッチングと生産最適化を行い、指定された目的を著しく改善することができる。 これらの手順は、データ同化と最適化に必要な大量のフローシミュレーションのために計算コストがかかる。 既存のclrm手続きは、資産ごとに適用される資産であり、範囲の資産よりも有用な情報を利用することはない。 本稿では,様々な数の井戸を持つ複数の資産を対象としたCLRMフレームワークを開発する。 我々は、深層強化学習を用いて、考慮すべきすべての資産に適用可能な単一のグローバルコントロールポリシーを訓練する。 新しいフレームワークは、最近導入された個々の資産に対する制御ポリシー方法論の拡張である。 埋め込み層は、異なる資産のために生じる異なる数の決定変数を処理するために表現に組み込まれます。 グローバルコントロールポリシは,複数の資産から有用な特徴の統一表現を学習するため,アセット・バイ・アセット・トレーニングよりも建設コストが低い(例では約3倍のスピードアップ)。 生産最適化問題には、ウェル設定に対する相対的な変更制約が含まれており、実際の使用に適した結果が得られる。 マルチアセストCLRMフレームワークを2次元および3次元水流の例に適用する。 いずれの場合も、井戸数、井戸構成、地政学的記述の異なる4つの資産が考慮される。 数値実験により、グローバルコントロールポリシは、各アセットごとに個別に訓練されたコントロールポリシとほぼ同一の2次元および3次元のケースに対して、客観的関数値を提供することが示された。 この有望な発見は、マルチアセスメントCLRMが実際に実行可能な実用戦略である可能性を示唆している。

Closed-loop reservoir management (CLRM), in which history matching and production optimization are performed multiple times over the life of an asset, can provide significant improvement in the specified objective. These procedures are computationally expensive due to the large number of flow simulations required for data assimilation and optimization. Existing CLRM procedures are applied asset by asset, without utilizing information that could be useful over a range assets. Here, we develop a CLRM framework for multiple assets with varying numbers of wells. We use deep reinforcement learning to train a single global control policy that is applicable for all assets considered. The new framework is an extension of a recently introduced control policy methodology for individual assets. Embedding layers are incorporated into the representation to handle the different numbers of decision variables that arise for the different assets. Because the global control policy learns a unified representation of useful features from multiple assets, it is less expensive to construct than asset-by-asset training (we observe about 3x speedup in our examples). The production optimization problem includes a relative-change constraint on the well settings, which renders the results suitable for practical use. We apply the multi-asset CLRM framework to 2D and 3D water-flooding examples. In both cases, four assets with different well counts, well configurations, and geostatistical descriptions are considered. Numerical experiments demonstrate that the global control policy provides objective function values, for both the 2D and 3D cases, that are nearly identical to those from control policies trained individually for each asset. This promising finding suggests that multi-asset CLRM may indeed represent a viable practical strategy.
翻訳日:2022-07-22 12:45:56 公開日:2022-07-21
# 言語表現学習と生成のための自然監督の活用

Leveraging Natural Supervision for Language Representation Learning and Generation ( http://arxiv.org/abs/2207.10617v1 )

ライセンス: Link先を確認
Mingda Chen(参考訳) 自然言語処理(NLP)の最近の進歩は、大量のプレーンテキストで訓練された言語モデルによって推進されている。 強力ではあるが、テキストリソースから監督を引き出すことは、まだ未解決の問題だ。 例えば、言語モデルの事前学習は、テキストデータのリッチで自由に利用可能な構造をしばしば無視する。 本稿では,神経モデルの学習と評価を自然発生的監督を用いて改善しようとする3つの作業について述べる。 まず,NLPタスクに対する事前学習言語モデルの性能向上を支援するために,自己指導型学習損失について検討する。 具体的には、文予測の損失を、他の訓練済みの損失に合致し、より解決が困難になるよう変更する。 我々は,タスク間の一般化におけるモデルの能力を促進するために,自己教師付きトレーニングを用いた中間的微調整ステップを設計する。 次に、ウィキペディアとパラフレーズの構造を利用する方法を説明する。 特に,ハイパーリンク,記事構造,記事カテゴリグラフを用いたエンティティ,談話,包括的知識の活用のための学習損失を提案する。 文表現における意味論と構文のアンタングル化にパラフレーズペアを用いるフレームワークを提案する。 本稿では,テキストの構文を逐次例で制御する新しい生成タスクのためのフレームワークを拡張する。 最後に,課題評価タスクの確立に向けて,テキストリソースの調整作業について論じる。 本稿では,長文データ・テキスト生成データセット,画面要約データセット,長文ストーリー生成データセットなど,さまざまなWebサイトを用いて新たなタスクを定義することで,3つのデータセットを紹介する。 これらのデータセットには、それぞれのタスク設定で将来の作業に課題を提供するユニークな特徴がある。

Recent breakthroughs in Natural Language Processing (NLP) have been driven by language models trained on a massive amount of plain text. While powerful, deriving supervision from textual resources is still an open question. For example, language model pretraining often neglects the rich, freely-available structures in textual data. In this thesis, we describe three lines of work that seek to improve the training and evaluation of neural models using naturally-occurring supervision. We first investigate self-supervised training losses to help enhance the performance of pretrained language models for various NLP tasks. Specifically, we alter the sentence prediction loss to make it better suited to other pretraining losses and more challenging to solve. We design an intermediate finetuning step that uses self-supervised training to promote models' ability in cross-task generalization. Then we describe methods to leverage the structures in Wikipedia and paraphrases. In particular, we propose training losses to exploit hyperlinks, article structures, and article category graphs for entity-, discourse-, entailment-related knowledge. We propose a framework that uses paraphrase pairs to disentangle semantics and syntax in sentence representations. We extend the framework for a novel generation task that controls the syntax of output text with a sentential exemplar. Lastly, we discuss our work on tailoring textual resources for establishing challenging evaluation tasks. We introduce three datasets by defining novel tasks using various fan-contributed websites, including a long-form data-to-text generation dataset, a screenplay summarization dataset, and a long-form story generation dataset. These datasets have unique characteristics offering challenges to future work in their respective task settings.
翻訳日:2022-07-22 12:44:56 公開日:2022-07-21
# 将来エネルギーと炭素中立性のための強化学習 : 挑戦設計

Reinforcement learning for Energies of the future and carbon neutrality: a Challenge Design ( http://arxiv.org/abs/2207.10330v1 )

ライセンス: Link先を確認
Ga\"etan Serr\'e (TAU, Inria, LISN), Eva Boguslawski (RTE, TAU, LISN, Inria), Benjamin Donnot (RTE), Adrien Pav\~ao (TAU, LISN, Inria), Isabelle Guyon (TAU, LISN, Inria), Antoine Marot (RTE)(参考訳) 気候変動の急速な変化により、エネルギー生産と消費管理を変え、炭素やその他のグリーンハウスガス生産を減らす緊急性が高まる。 この文脈において、フランスの電力ネットワーク管理会社RTE(R{\'e}seau de Transport d'{\'E}lectricit{\'e})は、明日のフランスの電力管理の様々なシナリオを概説する広範な研究結果を発表した。 このようなシナリオの実行可能性をテストするための課題を提案する。 目的は電力網における電力輸送の制御であり、生産と消費のバランス、エネルギー損失の最小化、人や機器の安全確保、特に破滅的な失敗を避けることである。 アプリケーションの重要性はそれ自体に目標を提供する一方で、この課題は、制御問題に対処する新たな可能性を提供するReinforcement Learning(RL)と呼ばれる人工知能(AI)の分野において、最先端の技術を推進することでもある。 特に、Deep Reinforcement Learningと呼ばれるDeep LearningとRLの組み合わせのさまざまな側面は、このアプリケーションドメインで利用され続けています。 この挑戦は"Learning to run a power network" (L2RPN)という名前で2019年に始まったシリーズに属する。 この新版では、2050年までに炭素中立に達するためにRTEが提案したより現実的なシナリオを紹介し、化石燃料の発電を廃止し、再生可能エネルギーと核エネルギーの割合を増やし、電池を導入する。 さらに,最先端強化学習アルゴリズムを用いたベースラインを提供し,今後の参加者を刺激する。

Current rapid changes in climate increase the urgency to change energy production and consumption management, to reduce carbon and other green-house gas production. In this context, the French electricity network management company RTE (R{\'e}seau de Transport d'{\'E}lectricit{\'e}) has recently published the results of an extensive study outlining various scenarios for tomorrow's French power management. We propose a challenge that will test the viability of such a scenario. The goal is to control electricity transportation in power networks, while pursuing multiple objectives: balancing production and consumption, minimizing energetic losses, and keeping people and equipment safe and particularly avoiding catastrophic failures. While the importance of the application provides a goal in itself, this challenge also aims to push the state-of-the-art in a branch of Artificial Intelligence (AI) called Reinforcement Learning (RL), which offers new possibilities to tackle control problems. In particular, various aspects of the combination of Deep Learning and RL called Deep Reinforcement Learning remain to be harnessed in this application domain. This challenge belongs to a series started in 2019 under the name "Learning to run a power network" (L2RPN). In this new edition, we introduce new more realistic scenarios proposed by RTE to reach carbon neutrality by 2050, retiring fossil fuel electricity production, increasing proportions of renewable and nuclear energy and introducing batteries. Furthermore, we provide a baseline using state-of-the-art reinforcement learning algorithm to stimulate the future participants.
翻訳日:2022-07-22 12:44:15 公開日:2022-07-21
# 強化学習のためのシーケンスモデリングにおける最適バイアスへの対処

Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning ( http://arxiv.org/abs/2207.10295v1 )

ライセンス: Link先を確認
Adam Villaflor, Zhe Huang, Swapnil Pande, John Dolan, Jeff Schneider(参考訳) Transformerニューラルネットワークアーキテクチャに基づく自然言語処理(NLP)の印象的な成果は、研究者に汎用的なシーケンスモデリング問題としてオフライン強化学習(RL)の視認を刺激している。 このパラダイムに基づく最近の研究は、主に決定論的オフラインのAtariとD4RLベンチマークで最先端の結果を得た。 しかし、これらの手法は単一シークエンシング問題として状態と動作を共同でモデル化するため、政策と世界ダイナミクスがリターンに与える影響を解き放つのに苦労する。 したがって、敵対的あるいは確率的な環境では、これらの手法は過度に楽観的な行動をもたらし、自動運転のような安全クリティカルなシステムでは危険である。 本研究では,この最適化バイアスに対処する手法を提案する。この手法は,環境における複数の将来性に対して堅牢なポリシーを,テスト時に探索することができる。 シミュレーションにおいて,様々な自律運転タスクにおいて,提案手法の優れた性能を示す。

Impressive results in natural language processing (NLP) based on the Transformer neural network architecture have inspired researchers to explore viewing offline reinforcement learning (RL) as a generic sequence modeling problem. Recent works based on this paradigm have achieved state-of-the-art results in several of the mostly deterministic offline Atari and D4RL benchmarks. However, because these methods jointly model the states and actions as a single sequencing problem, they struggle to disentangle the effects of the policy and world dynamics on the return. Thus, in adversarial or stochastic environments, these methods lead to overly optimistic behavior that can be dangerous in safety-critical systems like autonomous driving. In this work, we propose a method that addresses this optimism bias by explicitly disentangling the policy and world models, which allows us at test time to search for policies that are robust to multiple possible futures in the environment. We demonstrate our method's superior performance on a variety of autonomous driving tasks in simulation.
翻訳日:2022-07-22 12:40:35 公開日:2022-07-21
# 勧告のための知識強化型ブラックボックス攻撃

Knowledge-enhanced Black-box Attacks for Recommendations ( http://arxiv.org/abs/2207.10307v1 )

ライセンス: Link先を確認
Jingfan Chen, Wenqi Fan, Guanghui Zhu, Xiangyu Zhao, Chunfeng Yuan, Qing Li, Yihua Huang(参考訳) 近年の研究では、ディープニューラルネットワークベースのレコメンデーターシステムは敵の攻撃に弱いことが示されており、攻撃者はターゲットのレコメンデーターシステムに慎重に偽ユーザープロファイル(つまり、偽ユーザーが対話したアイテムのセット)を注入して、ターゲットのアイテムのセットのプロモートやデモといった悪意ある目的を達成することができる。 セキュリティとプライバシの懸念から、ターゲットシステムのアーキテクチャ/パラメータとトレーニングデータが攻撃者によって容易にアクセスできないブラックボックス設定下で敵攻撃を行うことは、より現実的である。 しかし、ブラックボックス設定下で高品質な偽ユーザープロファイルを生成することは、ターゲットシステムに限られたリソースを投入する上でかなり難しい。 この課題に対処するため、本稿では、アイテムの属性情報(すなわち、アイテムの知識グラフ)を公開して、フェイクユーザプロファイルの生成を促進するための豊富な補助的知識を提供する新しい戦略を導入する。 より具体的には、知識グラフを階層的ポリシネットワークにシームレスに統合し、敵ブラックボックス攻撃を行うための偽ユーザープロファイルを生成する、深層強化学習技術により、効果的に攻撃ポリシーを学ぶための知識グラフ強化ブラックボックス攻撃フレームワーク(kgattack)を提案する。 様々な実世界のデータセットに関する総合的な実験は、ブラックボックス設定下で提案された攻撃フレームワークの有効性を示す。

Recent studies have shown that deep neural networks-based recommender systems are vulnerable to adversarial attacks, where attackers can inject carefully crafted fake user profiles (i.e., a set of items that fake users have interacted with) into a target recommender system to achieve malicious purposes, such as promote or demote a set of target items. Due to the security and privacy concerns, it is more practical to perform adversarial attacks under the black-box setting, where the architecture/parameters and training data of target systems cannot be easily accessed by attackers. However, generating high-quality fake user profiles under black-box setting is rather challenging with limited resources to target systems. To address this challenge, in this work, we introduce a novel strategy by leveraging items' attribute information (i.e., items' knowledge graph), which can be publicly accessible and provide rich auxiliary knowledge to enhance the generation of fake user profiles. More specifically, we propose a knowledge graph-enhanced black-box attacking framework (KGAttack) to effectively learn attacking policies through deep reinforcement learning techniques, in which knowledge graph is seamlessly integrated into hierarchical policy networks to generate fake user profiles for performing adversarial black-box attacks. Comprehensive experiments on various real-world datasets demonstrate the effectiveness of the proposed attacking framework under the black-box setting.
翻訳日:2022-07-22 12:40:19 公開日:2022-07-21
# 単モーダル対マルチモーダル・シームズ・ネットワーク

Unimodal vs. Multimodal Siamese Networks for Outfit Completion ( http://arxiv.org/abs/2207.10355v1 )

ライセンス: Link先を確認
Mariya Hendriksen, Viggo Overes(参考訳) オンラインファッションショッピングの人気は増え続けている。 顧客に効果的なレコメンデーションを提供する能力はますます重要になっています。 本研究は、SIGIR 2022 Workshop on eCommerceの一部であるFashion Outfits Challengeに焦点を当てる。 課題は、不完全な衣装と候補者のリストが与えられた場合、行方不明の衣装を予測するための空白(fitb)タスクを満たすことにある。 本稿では,課題にシアムネットワークを適用することに焦点を当てる。 具体的には、複数のモーダル性(テキストと視覚のモーダル性)からの情報の組み合わせが、タスクにおけるモデルの性能にどのように影響するかを検討する。 チャレンジオーガナイザによるテスト分割と,開発期間中に作成したゴールドアサインによるテスト分割について,本モデルの評価を行った。 ビジュアルデータとビジュアルデータとテキストデータの両方を使用することで、タスクに有望な結果が得られることが分かりました。 提案手法のさらなる改善に向けての方向性を提案する。

The popularity of online fashion shopping continues to grow. The ability to offer an effective recommendation to customers is becoming increasingly important. In this work, we focus on Fashion Outfits Challenge, part of SIGIR 2022 Workshop on eCommerce. The challenge is centered around Fill in the Blank (FITB) task that implies predicting the missing outfit, given an incomplete outfit and a list of candidates. In this paper, we focus on applying siamese networks on the task. More specifically, we explore how combining information from multiple modalities (textual and visual modality) impacts the performance of the model on the task. We evaluate our model on the test split provided by the challenge organizers and the test split with gold assignments that we created during the development phase. We discover that using both visual, and visual and textual data demonstrates promising results on the task. We conclude by suggesting directions for further improvement of our method.
翻訳日:2022-07-22 12:39:53 公開日:2022-07-21
# 左右対称データ拡張による擬似ペア登録による弱監視胸部異常位置推定モデルの改良

Improved Generative Model for Weakly Supervised Chest Anomaly Localization via Pseudo-paired Registration with Bilaterally Symmetrical Data Augmentation ( http://arxiv.org/abs/2207.10324v1 )

ライセンス: Link先を確認
Kyung-Su Kim, Seong Je Oh, Tae Uk Kim, Myung Jin Chung(参考訳) 胸部X線画像(AL-CXR)における異常領域の正確な位置推定にはGAN-IT(Generative Adversarial Network)を用いた画像翻訳が有用である。 しかし、異種無ペアデータセットは、重要な特徴を抽出し、正常なケースと異常なケースを区別する既存の手法を損なうため、不正確で不安定なAL-CXRとなる。 そこで本研究では,登録とデータ拡張を含む2段階gan-itの改良を提案する。 第1段階では,非ペアデータからペアデータに変換する非可逆なディープラーニングベースの登録手法を導入し,登録マップを学習する。 この手法は高い登録性能を実現する。 第2段階では、均一な登録フレーム上で左右の肺領域を交換することにより、異常箇所の多様化にデータ拡張を適用し、左右の肺病変を示すデータ分布の不均衡を緩和し、さらに性能を向上させる。 提案手法は,既存のGAN-ITモデルに適用することを目的としており,既存のアーキテクチャが翻訳の重要な特徴の恩恵を受けることができる。 提案手法を適用すると,AL-CXRの性能が均一に向上することを示すことにより,学習データが少ない場合でも,AL-CXRのGAN-ITを臨床環境に展開できると考えている。

Image translation based on a generative adversarial network (GAN-IT) is a promising method for precise localization of abnormal regions in chest X-ray images (AL-CXR). However, heterogeneous unpaired datasets undermine existing methods to extract key features and distinguish normal from abnormal cases, resulting in inaccurate and unstable AL-CXR. To address this problem, we propose an improved two-stage GAN-IT involving registration and data augmentation. For the first stage, we introduce an invertible deep-learning-based registration technique that virtually and reasonably converts unpaired data into paired data for learning registration maps. This novel approach achieves high registration performance. For the second stage, we apply data augmentation to diversify anomaly locations by swapping the left and right lung regions on the uniform registered frames, further improving the performance by alleviating imbalance in data distribution showing left and right lung lesions. Our method is intended for application to existing GAN-IT models, allowing existing architecture to benefit from key features for translation. By showing that the AL-CXR performance is uniformly improved when applying the proposed method, we believe that GAN-IT for AL-CXR can be deployed in clinical environments, even if learning data are scarce.
翻訳日:2022-07-22 12:38:40 公開日:2022-07-21
# 埋め込み密度異常値を用いた多重画像の高速データ駆動クラスタ数推定

Fast Data Driven Estimation of Cluster Number in Multiplex Images using Embedded Density Outliers ( http://arxiv.org/abs/2207.10469v1 )

ライセンス: Link先を確認
Spencer A. Thomas(参考訳) 化学画像技術の使用は、病理学における従来の手法と相容れないものになりつつある。 最先端の技術は、リッチで空間的に解決された多次元の化学画像を提供する次世代技術を開発した。 デジタル病理学の台頭は, 光学顕微鏡と免疫組織化学による画像モダリティの相乗効果を著しく向上させ, 疾患の生物学的機構と進展の理解を深めた。 イメージングマスサイトメトリーのような技術は、デジタル病理学技術と連動して使用される特定の成分のラベル付き多次元(多次元)画像を提供する。 これらの強力な技術は豊富な高次元データを生成し、データ分析において大きな課題を生み出す。 クラスタリングのような教師なしの手法は、これらのデータを解析するための魅力的な方法であるが、クラスタの数などのパラメータの選択が必要である。 本稿では,深層オートエンコーダを用いてクラスタ数を自動的にデータ駆動方式で推定し,そのデータを低次元空間に埋め込む手法を提案する。 組込み空間内の領域密度を計算し,そのほとんどが空であり,高密度領域を異常値として検出し,クラスタ数の推定値を与える。 このフレームワークは、完全に教師なしでデータ駆動の方法を提供し、多次元データを分析します。 本研究は,45個のマルチプレクサイメージング質量サイトメトリーデータセットを用いた手法を実証する。 さらに,本モデルでは,データセットの1つのみを用いて学習し,学習した埋め込みを残りの44画像に適用し,効率的なデータ解析を行う。 最後に,クラスタ数関数として和二乗距離を計算することにより,推定よりも2桁早い計算効率を示す。

The usage of chemical imaging technologies is becoming a routine accompaniment to traditional methods in pathology. Significant technological advances have developed these next generation techniques to provide rich, spatially resolved, multidimensional chemical images. The rise of digital pathology has significantly enhanced the synergy of these imaging modalities with optical microscopy and immunohistochemistry, enhancing our understanding of the biological mechanisms and progression of diseases. Techniques such as imaging mass cytometry provide labelled multidimensional (multiplex) images of specific components used in conjunction with digital pathology techniques. These powerful techniques generate a wealth of high dimensional data that create significant challenges in data analysis. Unsupervised methods such as clustering are an attractive way to analyse these data, however, they require the selection of parameters such as the number of clusters. Here we propose a methodology to estimate the number of clusters in an automatic data-driven manner using a deep sparse autoencoder to embed the data into a lower dimensional space. We compute the density of regions in the embedded space, the majority of which are empty, enabling the high density regions to be detected as outliers and provide an estimate for the number of clusters. This framework provides a fully unsupervised and data-driven method to analyse multidimensional data. In this work we demonstrate our method using 45 multiplex imaging mass cytometry datasets. Moreover, our model is trained using only one of the datasets and the learned embedding is applied to the remaining 44 images providing an efficient process for data analysis. Finally, we demonstrate the high computational efficiency of our method which is two orders of magnitude faster than estimating via computing the sum squared distances as a function of cluster number.
翻訳日:2022-07-22 12:38:14 公開日:2022-07-21
# LPYOLO:FPGAによる顔検出用低精度YOLO

LPYOLO: Low Precision YOLO for Face Detection on FPGA ( http://arxiv.org/abs/2207.10482v1 )

ライセンス: Link先を確認
Bestami G\"unay, Sefa Burak Okcu and Hasan \c{S}akir Bilge(参考訳) 近年,エッジコンピューティングデバイスや人工知能アプリケーションが過度に進歩している。 エッジコンピューティングでは、意思決定プロセスと計算がサーバからエッジデバイスに移動されます。 そのため、安価で低消費電力の装置が必要となる。 FPGAは非常に低消費電力であり、並列処理や、人工知能アプリケーションの基本単位である畳み込みニューラルネットワーク(CNN)の実行に非常に適している。 監視システムの顔検出は、セキュリティ市場で最も期待されているアプリケーションである。 この作業では、tinyyolov3アーキテクチャが再設計され、顔検出のためにデプロイされる。 CNNに基づくオブジェクト検出手法であり,組込みシステム向けに開発された。 PYNQ-Z2は、Xilinx Zynq 7020 System-on-Chip(SoC)が載っているターゲットボードとして選択される。 再設計されたtinyyolov3モデルは、b brevitasライブラリで多数のビット幅精度で定義されており、基本的なcnn層と整数量子化形式のアクティベーションをもたらす。 次に、モデルはWiderFaceデータセットで量子化された構造でトレーニングされる。 レイテンシと消費電力を減らすため、FPGAのオンチップメモリはネットワークパラメータ全体のストレージとして構成され、最後のアクティベーション関数はSigmoidの代わりにHardTanhとして再スケールされる。 また、FPGAの論理資源にも高い並列性が適用される。 モデルは、C++のレイヤ定義を含むFINNフレームワークとFINN-HLSライブラリを使用して、HLSベースのアプリケーションに変換される。 その後、モデルは合成され、デプロイされる。 SoCのCPUにはマルチスレッド機構があり、前処理、後処理、TCP/IPストリーミング操作に責任がある。 その結果、WiderFaceのイージーカテゴリにおける2.4ワットのボード消費電力、18フレーム/秒(FPS)スループットと0.757mAP精度を4ビット精度モデルで達成した。

In recent years, number of edge computing devices and artificial intelligence applications on them have advanced excessively. In edge computing, decision making processes and computations are moved from servers to edge devices. Hence, cheap and low power devices are required. FPGAs are very low power, inclined to do parallel operations and deeply suitable devices for running Convolutional Neural Networks (CNN) which are the fundamental unit of an artificial intelligence application. Face detection on surveillance systems is the most expected application on the security market. In this work, TinyYolov3 architecture is redesigned and deployed for face detection. It is a CNN based object detection method and developed for embedded systems. PYNQ-Z2 is selected as a target board which has low-end Xilinx Zynq 7020 System-on-Chip (SoC) on it. Redesigned TinyYolov3 model is defined in numerous bit width precisions with Brevitas library which brings fundamental CNN layers and activations in integer quantized form. Then, the model is trained in a quantized structure with WiderFace dataset. In order to decrease latency and power consumption, onchip memory of the FPGA is configured as a storage of whole network parameters and the last activation function is modified as rescaled HardTanh instead of Sigmoid. Also, high degree of parallelism is applied to logical resources of the FPGA. The model is converted to an HLS based application with using FINN framework and FINN-HLS library which includes the layer definitions in C++. Later, the model is synthesized and deployed. CPU of the SoC is employed with multithreading mechanism and responsible for preprocessing, postprocessing and TCP/IP streaming operations. Consequently, 2.4 Watt total board power consumption, 18 Frames-Per-Second (FPS) throughput and 0.757 mAP accuracy rate on Easy category of the WiderFace are achieved with 4 bits precision model.
翻訳日:2022-07-22 12:37:49 公開日:2022-07-21
# スペクトル指数と特徴における化学結合表現のニューラルネットワーク学習

Neural Network Learning of Chemical Bond Representations in Spectral Indices and Features ( http://arxiv.org/abs/2207.10530v1 )

ライセンス: Link先を確認
Bill Basener(参考訳) 本稿では,ハイパースペクトル画像の分類のためのニューラルネットワークについて検討し,ネットワークのアーキテクチャとセンサの物理と材料との結合に着目した。 分光は、物質によって反射または放出される光を機能波長として測定する過程である。 材料に含まれる分子結合は、各波長で測定される光量に影響を与える振動周波数を有する。 したがって、測定されたスペクトルは、特定の化学成分および結合の種類に関する情報を含む。 例えば、クロロフィルは赤 (625-675nm) の範囲よりも近赤外光量 (800-900nm) で反射しており、この差は、これらの波長で収集された画像の植生の存在、健康、タイプを検出するために一般的に用いられる正規化植生差指数 (ndvi) を用いて測定することができる。 本稿では、異なる植生クラスで訓練されたニューラルネットワークの重み付けが、反射率のこの差を測定することを学ぶ。 さらに,より複雑な10種類の高分子材料で訓練されたニューラルネットワークは,ネットワークの重みで明らかなスペクトル「特徴」を学習し,これらの特徴は,異なる種類のポリマーを確実に識別するために使用できることを示した。 重みの検証は、ネットワークの人間解釈可能な理解を提供する。

In this paper we investigate neural networks for classification in hyperspectral imaging with a focus on connecting the architecture of the network with the physics of the sensing and materials present. Spectroscopy is the process of measuring light reflected or emitted by a material as a function wavelength. Molecular bonds present in the material have vibrational frequencies which affect the amount of light measured at each wavelength. Thus the measured spectrum contains information about the particular chemical constituents and types of bonds. For example, chlorophyll reflects more light in the near-IR rage (800-900nm) than in the red (625-675nm) range, and this difference can be measured using a normalized vegetation difference index (NDVI), which is commonly used to detect vegetation presence, health, and type in imagery collected at these wavelengths. In this paper we show that the weights in a Neural Network trained on different vegetation classes learn to measure this difference in reflectance. We then show that a Neural Network trained on a more complex set of ten different polymer materials will learn spectral 'features' evident in the weights for the network, and these features can be used to reliably distinguish between the different types of polymers. Examination of the weights provides a human-interpretable understanding of the network.
翻訳日:2022-07-22 12:37:19 公開日:2022-07-21
# Flow-Guided Video Inpaintingのための誤差補償フレームワーク

Error Compensation Framework for Flow-Guided Video Inpainting ( http://arxiv.org/abs/2207.10391v1 )

ライセンス: Link先を確認
Jaeyeon Kang, Seoung Wug Oh, and Seon Joo Kim(参考訳) ビデオインペインティングの鍵は、可能な限り多くの参照フレームからの相関情報を使用することである。 既存のフローベース伝搬法では, 映像合成過程を複数のステップに分割した: フロー補完 -> 画素伝搬 -> 合成。 しかし、各ステップのエラーが次のステップで蓄積され、増幅され続けるという大きな欠点があります。 この目的のために,フローベース手法を生かし,その弱点を相殺するError Compensation Framework for Flow-Guided Video Inpainting (ECFVI)を提案する。 我々は、新たに設計されたフロー補完モジュールとエラー誘導マップを利用するエラー補償ネットワークの弱点に対処する。 提案手法は,映像の時間的一貫性と視覚的品質を大幅に向上させる。 実験の結果,提案手法は最先端手法と比較して,x6の高速化で優れた性能を示した。 さらに,既存のテストデータセットの弱点を補うことで,評価のための新しいベンチマークデータセットを提案する。

The key to video inpainting is to use correlation information from as many reference frames as possible. Existing flow-based propagation methods split the video synthesis process into multiple steps: flow completion -> pixel propagation -> synthesis. However, there is a significant drawback that the errors in each step continue to accumulate and amplify in the next step. To this end, we propose an Error Compensation Framework for Flow-guided Video Inpainting (ECFVI), which takes advantage of the flow-based method and offsets its weaknesses. We address the weakness with the newly designed flow completion module and the error compensation network that exploits the error guidance map. Our approach greatly improves the temporal consistency and the visual quality of the completed videos. Experimental results show the superior performance of our proposed method with the speed up of x6, compared to the state-of-the-art methods. In addition, we present a new benchmark dataset for evaluation by supplementing the weaknesses of existing test datasets.
翻訳日:2022-07-22 12:32:34 公開日:2022-07-21
# ドローンと鳥の分類のためのシーケンスモデル

Sequence Models for Drone vs Bird Classification ( http://arxiv.org/abs/2207.10409v1 )

ライセンス: Link先を確認
Fatih Cagatay Akyon, Erdem Akagunduz, Sinan Onur Altinuc, Alptekin Temizel(参考訳) ドローンのコストが減少し、ドローン技術が向上するにつれ、ドローン検出はオブジェクト検出において重要な課題となっている。 しかし、コントラストが弱く、長距離で可視性が低い場合、遠く離れたドローンを検出することは困難である。 本研究では,検出されたドローントラックの偽陽性率を低減するため,複数のシーケンス分類アーキテクチャを提案する。 さらに,提案アーキテクチャの訓練と評価を行うために,新しいドローン対鳥列分類データセットを提案する。 3d cnn, lstm, およびtransformerベースのシーケンス分類アーキテクチャは, 提案するデータセット上で, 提案手法の有効性を示すために訓練されている。 実験が示すように、シーケンス情報、鳥の分類、f1全体のスコアをそれぞれ73%と35%増やすことができる。 すべてのシーケンス分類モデルの中で、R(2+1)Dに基づく完全畳み込みモデルは、最良の転送学習と微調整結果をもたらす。

Drone detection has become an essential task in object detection as drone costs have decreased and drone technology has improved. It is, however, difficult to detect distant drones when there is weak contrast, long range, and low visibility. In this work, we propose several sequence classification architectures to reduce the detected false-positive ratio of drone tracks. Moreover, we propose a new drone vs. bird sequence classification dataset to train and evaluate the proposed architectures. 3D CNN, LSTM, and Transformer based sequence classification architectures have been trained on the proposed dataset to show the effectiveness of the proposed idea. As experiments show, using sequence information, bird classification and overall F1 scores can be increased by up to 73% and 35%, respectively. Among all sequence classification models, R(2+1)D-based fully convolutional model yields the best transfer learning and fine-tuning results.
翻訳日:2022-07-22 12:32:19 公開日:2022-07-21
# SSW60データセットを用いた細粒度音響視覚分類の探索

Exploring Fine-Grained Audiovisual Categorization with the SSW60 Dataset ( http://arxiv.org/abs/2207.10664v1 )

ライセンス: Link先を確認
Grant Van Horn, Rui Qian, Kimberly Wilber, Hartwig Adam, Oisin Mac Aodha and Serge Belongie(参考訳) そこで我々は,音響視覚的細粒度分類の研究を進めるためのベンチマークデータセットSapsucker Woods 60 (SSW60)を提案する。 私たちのコミュニティは、画像のきめ細かい分類に大きく貢献していますが、オーディオやビデオのきめ細かい分類は、比較的未発見です。 この分野の進歩を促進するため、我々はSSW60データセットを慎重に構築し、研究者が同じカテゴリを画像、オーディオ、ビデオの3つの異なるモードで分類することができるようにした。 データセットは60種類の鳥類を対象とし、既存のデータセットからの画像と、新たな専門家によるオーディオおよびビデオデータセットで構成されている。 我々は,最先端トランスを用いた音響視覚分類性能とモダリティ融合実験を徹底的にベンチマークする。 本研究は,映像分類作業において,映像や音声のみを用いた場合よりも,映像融合法の性能が優れていることを示す。 また,3つの異なるモダリティを包含するssw60のユニークな構成により,興味深いモダリティ伝達実験を行う。 SSW60データセットとそれに伴うベースラインが、この魅力的な領域の研究を促進することを期待しています。

We present a new benchmark dataset, Sapsucker Woods 60 (SSW60), for advancing research on audiovisual fine-grained categorization. While our community has made great strides in fine-grained visual categorization on images, the counterparts in audio and video fine-grained categorization are relatively unexplored. To encourage advancements in this space, we have carefully constructed the SSW60 dataset to enable researchers to experiment with classifying the same set of categories in three different modalities: images, audio, and video. The dataset covers 60 species of birds and is comprised of images from existing datasets, and brand new, expert-curated audio and video datasets. We thoroughly benchmark audiovisual classification performance and modality fusion experiments through the use of state-of-the-art transformer methods. Our findings show that performance of audiovisual fusion methods is better than using exclusively image or audio based methods for the task of video classification. We also present interesting modality transfer experiments, enabled by the unique construction of SSW60 to encompass three different modalities. We hope the SSW60 dataset and accompanying baselines spur research in this fascinating area.
翻訳日:2022-07-22 12:32:01 公開日:2022-07-21
# 代数表面による近似微分レンダリング

Approximate Differentiable Rendering with Algebraic Surfaces ( http://arxiv.org/abs/2207.10606v1 )

ライセンス: Link先を確認
Leonid Keselman, Martial Hebert(参考訳) 微分可能なレンダラは、オブジェクトの3d表現とオブジェクトの画像との直接的な数学的リンクを提供する。 本研究では,ファジィメタボールと呼ばれるコンパクトで解釈可能な表現のための近似微分可能レンダラを開発した。 近似レンダラは深度マップとシルエットによる形状のレンダリングに焦点を当てている。 ユーティリティの忠実さを犠牲にして、高速なランタイムと、ビジョンタスクの解決に使用できる高品質の勾配情報を生成する。 メッシュベースの微分可能なレンダラと比較して,提案手法はフォワードパスが5倍高速で後方パスが30倍高速である。 提案手法により生成された深度マップとシルエット画像は, 至る所でスムーズに定義されている。 ポーズ推定のための微分可能なレンダラーの評価において,従来の手法に匹敵する手法は本手法のみであることを示す。 シルエットから形状は, 勾配降下と画素当たりの損失のみを用い, サーロゲート損失や正規化を伴わずに良好に機能する。 これらの再構成は、セグメンテーションアーティファクトを持つ自然なビデオシーケンスでもうまく機能する。 プロジェクトページ: https://leonidk.github.io/fuzzy-metaballs

Differentiable renderers provide a direct mathematical link between an object's 3D representation and images of that object. In this work, we develop an approximate differentiable renderer for a compact, interpretable representation, which we call Fuzzy Metaballs. Our approximate renderer focuses on rendering shapes via depth maps and silhouettes. It sacrifices fidelity for utility, producing fast runtimes and high-quality gradient information that can be used to solve vision tasks. Compared to mesh-based differentiable renderers, our method has forward passes that are 5x faster and backwards passes that are 30x faster. The depth maps and silhouette images generated by our method are smooth and defined everywhere. In our evaluation of differentiable renderers for pose estimation, we show that our method is the only one comparable to classic techniques. In shape from silhouette, our method performs well using only gradient descent and a per-pixel loss, without any surrogate losses or regularization. These reconstructions work well even on natural video sequences with segmentation artifacts. Project page: https://leonidk.github.io/fuzzy-metaballs
翻訳日:2022-07-22 12:31:42 公開日:2022-07-21
# 近似自己認識のための多重分解能解析(MRA)

Multi Resolution Analysis (MRA) for Approximate Self-Attention ( http://arxiv.org/abs/2207.10284v1 )

ライセンス: Link先を確認
Zhanpeng Zeng, Sourav Pal, Jeffery Kline, Glenn M Fung, Vikas Singh(参考訳) トランスフォーマーは、自然言語処理や視覚の多くのタスクに好まれるモデルとして登場してきた。 トランスフォーマーのトレーニングとデプロイに関する最近の取り組みは、トランスフォーマーアーキテクチャにおけるキーモジュールである自己注意行列を近似する多くの戦略を特定している。 効果的なアイデアには、様々な所定のスパーシティパターン、低ランク基底展開、それらの組み合わせが含まれる。 本稿では,従来のマルチレゾリューション解析(MRA)の概念であるウェーブレットについて再検討する。 ハードウェアや実装の課題から得られる経験的フィードバックと設計上の選択に基づく単純な近似が,MRAベースの自己注意アプローチを,ほとんどの関心の基準で優れたパフォーマンスプロファイルで実現していることを示す。 このマルチレゾリューション方式は、最も効率的な自己意図的提案よりも優れており、ショートシーケンスとロングシーケンスの両方に好適であることを示す。 コードは \url{https://github.com/mlpen/mra-attention} で入手できる。

Transformers have emerged as a preferred model for many tasks in natural langugage processing and vision. Recent efforts on training and deploying Transformers more efficiently have identified many strategies to approximate the self-attention matrix, a key module in a Transformer architecture. Effective ideas include various prespecified sparsity patterns, low-rank basis expansions and combinations thereof. In this paper, we revisit classical Multiresolution Analysis (MRA) concepts such as Wavelets, whose potential value in this setting remains underexplored thus far. We show that simple approximations based on empirical feedback and design choices informed by modern hardware and implementation challenges, eventually yield a MRA-based approach for self-attention with an excellent performance profile across most criteria of interest. We undertake an extensive set of experiments and demonstrate that this multi-resolution scheme outperforms most efficient self-attention proposals and is favorable for both short and long sequences. Code is available at \url{https://github.com/mlpen/mra-attention}.
翻訳日:2022-07-22 12:31:24 公開日:2022-07-21
# 次世代多面体画像:2D GAN 3D対応

Generative Multiplane Images: Making a 2D GAN 3D-Aware ( http://arxiv.org/abs/2207.10642v1 )

ライセンス: Link先を確認
Xiaoming Zhao, Fangchang Ma, David G\"uera, Zhile Ren, Alexander G. Schwing, Alex Colburn(参考訳) 既存の2D GAN 3D認識に何が必要か? この質問に答えるために、古典的な GAN、すなわち StyleGANv2 をできるだけ小さく修正する。 必要な修正は2つだけです。 1) 深さに応じて条件づけされたアルファマップのセットを生成する多面体画像スタイル生成枝 2) ポーズ条件付き判別器。 生成した出力を「生成多面体画像」(GMPI)と呼び、そのレンダリングは高品質であるだけでなく、ビュー一貫性も保証されていることを強調し、GMPIを従来の多くの作品と異なるものにしている。 重要なことは、アルファマップの数は動的に調整でき、トレーニングと推論の相違、メモリの懸念の緩和、GMPIの高速トレーニングを1日半未満で1024^2$の解像度で行うことができる。 私たちの発見は、FFHQ、AFHQv2、MetFacesなど、難解で一般的な3つの高解像度データセットで一致しています。

What is really needed to make an existing 2D GAN 3D-aware? To answer this question, we modify a classical GAN, i.e., StyleGANv2, as little as possible. We find that only two modifications are absolutely necessary: 1) a multiplane image style generator branch which produces a set of alpha maps conditioned on their depth; 2) a pose-conditioned discriminator. We refer to the generated output as a 'generative multiplane image' (GMPI) and emphasize that its renderings are not only high-quality but also guaranteed to be view-consistent, which makes GMPIs different from many prior works. Importantly, the number of alpha maps can be dynamically adjusted and can differ between training and inference, alleviating memory concerns and enabling fast training of GMPIs in less than half a day at a resolution of $1024^2$. Our findings are consistent across three challenging and common high-resolution datasets, including FFHQ, AFHQv2, and MetFaces.
翻訳日:2022-07-22 12:28:23 公開日:2022-07-21
# スケーリング法則とモデルアーキテクチャ: 帰納的バイアスはスケーリングにどのように影響するか?

Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling? ( http://arxiv.org/abs/2207.10551v1 )

ライセンス: Link先を確認
Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus, Jinfeng Rao, Sharan Narang, Vinh Q. Tran, Dani Yogatama, Donald Metzler(参考訳) Transformerモデルのスケーリング特性には,多くの関心が寄せられている。 しかし、異なる帰納的バイアスとモデルアーキテクチャのスケーリング特性の影響を調査する面ではあまり行われていない。 モデルアーキテクチャはスケールが違うか? もしそうなら、インダクティブバイアスはスケーリングの振る舞いにどのように影響しますか? これは上流(プレトレーニング)と下流(トランスファー)にどのように影響しますか? 本稿では,トランスフォーマー,スイッチトランスフォーマー,ユニバーサルトランスフォーマー,ダイナミックコンボリューション,パフォーマ,最近提案されたMLPミクサなどの10種類のモデルアーキテクチャのスケーリング挙動について,系統的研究を行う。 広範な実験を通じて,(1) アーキテクチャはスケーリングを行う上で重要な考慮事項であり,(2) ベストパフォーマンスモデルが異なるスケールで変動可能であることを示す。 この研究で概説された結果は、モデルアーキテクチャが現在コミュニティでどのように評価されているかに大きな影響を及ぼすと信じています。

There have been a lot of interest in the scaling properties of Transformer models. However, not much has been done on the front of investigating the effect of scaling properties of different inductive biases and model architectures. Do model architectures scale differently? If so, how does inductive bias affect scaling behaviour? How does this influence upstream (pretraining) and downstream (transfer)? This paper conducts a systematic study of scaling behaviour of ten diverse model architectures such as Transformers, Switch Transformers, Universal Transformers, Dynamic convolutions, Performers, and recently proposed MLP-Mixers. Via extensive experiments, we show that (1) architecture is an indeed an important consideration when performing scaling and (2) the best performing model can fluctuate at different scales. We believe that the findings outlined in this work has significant implications to how model architectures are currently evaluated in the community.
翻訳日:2022-07-22 12:28:05 公開日:2022-07-21
# CodeT: 生成テストによるコード生成

CodeT: Code Generation with Generated Tests ( http://arxiv.org/abs/2207.10397v1 )

ライセンス: Link先を確認
Bei Chen, Fengji Zhang, Anh Nguyen, Daoguang Zan, Zeqi Lin, Jian-Guang Lou, Weizhu Chen(参考訳) プログラミングの問題から、Codexのような事前訓練された言語モデルは、サンプリングによって複数の異なるコードソリューションを生成する能力を示した。 しかし、これらのサンプルから正しい解または最良の解を選択することは依然として困難である。 コードソリューションの正しさを検証する簡単な方法は、テストケースを実行することですが、高品質のテストケースを作成することは、極めて高価です。 本稿では,事前学習した言語モデルを用いてテストケースを自動的に生成し,そのメソッドをcodet: code generation with generated testsと呼ぶ。 codetは生成したテストケースを使用してコードソリューションを実行し、生成したテストケースと他の生成したソリューションの両方との二重実行合意に基づいて最適なソリューションを選択する。 我々は,HumanEvalおよびMBPPベンチマークを用いて,5種類の事前学習モデル上でCodeTを評価する。 大規模な実験の結果は、CodeTが以前の方法よりも大きく、一貫性があり、驚くべき改善を達成できることを示している。 例えば、CodeTはHumanEvalのpass@1を65.8%に改善し、code-davinci-002モデルでは絶対18.8%が増加し、過去の最先端結果よりも20%以上改善されている。

Given a programming problem, pre-trained language models such as Codex have demonstrated the ability to generate multiple different code solutions via sampling. However, selecting a correct or best solution from those samples still remains a challenge. While an easy way to verify the correctness of a code solution is through executing test cases, producing high-quality test cases is prohibitively expensive. In this paper, we explore the use of pre-trained language models to automatically generate test cases, calling our method CodeT: Code generation with generated Tests. CodeT executes the code solutions using the generated test cases, and then chooses the best solution based on a dual execution agreement with both the generated test cases and other generated solutions. We evaluate CodeT on five different pre-trained models with both HumanEval and MBPP benchmarks. Extensive experimental results demonstrate CodeT can achieve significant, consistent, and surprising improvements over previous methods. For example, CodeT improves the pass@1 on HumanEval to 65.8%, an increase of absolute 18.8% on the code-davinci-002 model, and an absolute 20+% improvement over previous state-of-the-art results.
翻訳日:2022-07-22 12:27:49 公開日:2022-07-21
# 車載CANネットワークの異常検出における教師付きと半教師付き機械学習の比較検討

Comparative Study on Supervised versus Semi-supervised Machine Learning for Anomaly Detection of In-vehicle CAN Network ( http://arxiv.org/abs/2207.10286v1 )

ライセンス: Link先を確認
Yongqi Dong, Kejia Chen, Yinxuan Peng, Zhiyuan Ma(参考訳) インテリジェントな車両制御システムの中枢神経として、車載ネットワークバスは車両運転のセキュリティに不可欠である。 車両内ネットワークの最良の標準の1つは、コントローラエリアネットワーク(CANバス)プロトコルである。 しかし、CANバスはセキュリティ機構の欠如により、様々な攻撃に対して脆弱であるように設計されている。 本研究は,車内ネットワークの安全性を高め,CANネットワークトラフィックデータを大規模に抽出した貴重な特徴に基づいて,この分野の研究を促進するため,完全教師付き機械学習と半教師付き機械学習によるCANメッセージ異常検出手法を総合的に比較した。 従来の機械学習モデル(単一分類器とアンサンブルモデルを含む)とニューラルネットワークに基づくディープラーニングモデルの両方を評価する。 さらに,CANメッセージ異常検出に応用したディープオートエンコーダに基づく半教師付き学習手法を提案し,その優位性を確認した。 広範な実験により、完全な教師付きメソッドは、入力としてより多くの情報を使っているため、一般的に半教師付きメソッドよりも優れています。 一般的に開発されたXGBoostベースのモデルでは、最高の精度(98.65%)、精度(0.9853)、ROC AUC(0.9585)が文献で報告された他の手法に勝っている。

As the central nerve of the intelligent vehicle control system, the in-vehicle network bus is crucial to the security of vehicle driving. One of the best standards for the in-vehicle network is the Controller Area Network (CAN bus) protocol. However, the CAN bus is designed to be vulnerable to various attacks due to its lack of security mechanisms. To enhance the security of in-vehicle networks and promote the research in this area, based upon a large scale of CAN network traffic data with the extracted valuable features, this study comprehensively compared fully-supervised machine learning with semi-supervised machine learning methods for CAN message anomaly detection. Both traditional machine learning models (including single classifier and ensemble models) and neural network based deep learning models are evaluated. Furthermore, this study proposed a deep autoencoder based semi-supervised learning method applied for CAN message anomaly detection and verified its superiority over other semi-supervised methods. Extensive experiments show that the fully-supervised methods generally outperform semi-supervised ones as they are using more information as inputs. Typically the developed XGBoost based model obtained state-of-the-art performance with the best accuracy (98.65%), precision (0.9853), and ROC AUC (0.9585) beating other methods reported in the literature.
翻訳日:2022-07-22 12:27:17 公開日:2022-07-21
# ニューラルレースの低減:ゲーテッドネットワークにおける抽象化のダイナミクス

The Neural Race Reduction: Dynamics of Abstraction in Gated Networks ( http://arxiv.org/abs/2207.10430v1 )

ライセンス: Link先を確認
Andrew M. Saxe, Shagun Sodhani, Sam Lewallen(参考訳) 深層学習の理論的な理解は、その経験的な成功には至っていません。 ネットワークアーキテクチャは批判的であることは知られているが,その学習表現やネットワーク動作への影響,あるいはこのアーキテクチャがタスク構造をどのように反映すべきか,我々はまだ理解していない。本研究では,情報フローの経路がアーキテクチャ内の学習ダイナミクスにどのように影響するかをモデル化するゲート付きディープリニアネットワークフレームワークを導入することで,このギャップに対処する。 重要なのは、ゲーティングのため、これらのネットワークは入力の非線形関数を計算できる。 私たちは正確な削減と、ある場合には学習のダイナミクスに対する正確な解決策を導き出します。 我々の分析は、構造化ネットワークにおける学習ダイナミクスを、共有表現に対する暗黙の偏りを持つニューラルレースとして概念化し、モデルが体系的に一般化し、マルチタスクし、転送する能力を制御できることを示します。 自然主義的なデータセットとリラックスした仮定に関する重要な洞察を検証する。 私たちの研究は、ニューラルネットワークと学習に関する一般的な仮説を生み出し、より複雑なアーキテクチャの設計を理解するための数学的アプローチと、現実世界の問題を解決するためのモジュラリティと構成性の役割を提供する。 コードと結果はhttps://www.saxelab.org/gated-dln で公開されている。

Our theoretical understanding of deep learning has not kept pace with its empirical success. While network architecture is known to be critical, we do not yet understand its effect on learned representations and network behavior, or how this architecture should reflect task structure.In this work, we begin to address this gap by introducing the Gated Deep Linear Network framework that schematizes how pathways of information flow impact learning dynamics within an architecture. Crucially, because of the gating, these networks can compute nonlinear functions of their input. We derive an exact reduction and, for certain cases, exact solutions to the dynamics of learning. Our analysis demonstrates that the learning dynamics in structured networks can be conceptualized as a neural race with an implicit bias towards shared representations, which then govern the model's ability to systematically generalize, multi-task, and transfer. We validate our key insights on naturalistic datasets and with relaxed assumptions. Taken together, our work gives rise to general hypotheses relating neural architecture to learning and provides a mathematical approach towards understanding the design of more complex architectures and the role of modularity and compositionality in solving real-world problems. The code and results are available at https://www.saxelab.org/gated-dln .
翻訳日:2022-07-22 12:26:51 公開日:2022-07-21
# MQRetNN: 検索拡張によるマルチ水平時系列予測

MQRetNN: Multi-Horizon Time Series Forecasting with Retrieval Augmentation ( http://arxiv.org/abs/2207.10517v1 )

ライセンス: Link先を確認
Sitan Yang and Carson Eisenach and Dhruv Madeka(参考訳) マルチホライゾン確率時系列予測は需要予測のような実世界のタスクに適用できる。 ニューラル時系列予測における最近の研究は、主にseq2seqアーキテクチャの使用に焦点を当てている。 例えば、MQTransformer - MQCNNの改良 - は、確率的需要予測における最先端のパフォーマンスを示している。 本稿では,クロスエンティティ・アテンション機構を付加し,どのエンティティに出席すべきかを検索する検索機構を付加することで,モデル性能を向上させるためにクロスエンティティ情報を導入することを検討する。 我々は、新しいニューラルアーキテクチャであるMQRetNNが、人口全体の事前訓練されたベースラインモデルから符号化されたコンテキストをどのように活用し、予測精度を向上するかを実証する。 MQCNNをベースラインモデルとして使用し(計算制約のため、MQTransformerを使用しない)、まず、各エンティティが集団内の他のすべてのエンティティに付随する相互注意機構を追加することで、テスト損失の約3%の改善を達成できるという、小さな需要予測データセットを示す。 提案手法を,200万製品以上の大規模需要予測アプリケーション上で,大規模人口に対する注意を近似する手法として提案手法を用いて評価し,MQCNNベースラインの約1%の性能向上を観測した。

Multi-horizon probabilistic time series forecasting has wide applicability to real-world tasks such as demand forecasting. Recent work in neural time-series forecasting mainly focus on the use of Seq2Seq architectures. For example, MQTransformer - an improvement of MQCNN - has shown the state-of-the-art performance in probabilistic demand forecasting. In this paper, we consider incorporating cross-entity information to enhance model performance by adding a cross-entity attention mechanism along with a retrieval mechanism to select which entities to attend over. We demonstrate how our new neural architecture, MQRetNN, leverages the encoded contexts from a pretrained baseline model on the entire population to improve forecasting accuracy. Using MQCNN as the baseline model (due to computational constraints, we do not use MQTransformer), we first show on a small demand forecasting dataset that it is possible to achieve ~3% improvement in test loss by adding a cross-entity attention mechanism where each entity attends to all others in the population. We then evaluate the model with our proposed retrieval methods - as a means of approximating an attention over a large population - on a large-scale demand forecasting application with over 2 million products and observe ~1% performance gain over the MQCNN baseline.
翻訳日:2022-07-22 12:26:29 公開日:2022-07-21
# 深部ReQUニューラルネットワークを用いた非閉塞量子回帰過程の推定

Estimation of Non-Crossing Quantile Regression Process with Deep ReQU Neural Networks ( http://arxiv.org/abs/2207.10442v1 )

ライセンス: Link先を確認
Guohao Shen, Yuling Jiao, Yuanyuan Lin, Joel L. Horowitz and Jian Huang(参考訳) 本稿では, 量子レグレッション曲線の非交差を強制する新たなペナルティ関数を導入し, 整流器2次単位(ReQU)活性化ディープニューラルネットワークを用いた非分離モデルにおいて, 量子レグレッション過程(QRP)を推定するペナルティ非パラメトリック手法を提案する。 推定qrpの非漸近的過大リスク境界を定め,軽度な平滑さと正則性条件下で推定qrpの平均積分二乗誤差を導出する。 これらの非漸近的リスクと推定誤差の境界を確立するために、s > 0$ で $c^s$ の滑らかな関数とその導関数をrequ で活性化したニューラルネットワークを用いて近似する新しい誤差境界を開発した。 これはReQUネットワークの新たな近似結果であり、独立した関心を持ち、他の問題に有用かもしれない。 数値実験により,提案手法は,非パラメトリック量子量的回帰のためのカーネルとランダムフォレストを再生する手法を含む,既存の2つの手法に匹敵する。

We propose a penalized nonparametric approach to estimating the quantile regression process (QRP) in a nonseparable model using rectifier quadratic unit (ReQU) activated deep neural networks and introduce a novel penalty function to enforce non-crossing of quantile regression curves. We establish the non-asymptotic excess risk bounds for the estimated QRP and derive the mean integrated squared error for the estimated QRP under mild smoothness and regularity conditions. To establish these non-asymptotic risk and estimation error bounds, we also develop a new error bound for approximating $C^s$ smooth functions with $s >0$ and their derivatives using ReQU activated neural networks. This is a new approximation result for ReQU networks and is of independent interest and may be useful in other problems. Our numerical experiments demonstrate that the proposed method is competitive with or outperforms two existing methods, including methods using reproducing kernels and random forests, for nonparametric quantile regression.
翻訳日:2022-07-22 12:25:48 公開日:2022-07-21
# ベイズ再帰単位とフォワードバックワードアルゴリズム

Bayesian Recurrent Units and the Forward-Backward Algorithm ( http://arxiv.org/abs/2207.10486v1 )

ライセンス: Link先を確認
Alexandre Bittar and Philip N. Garner(参考訳) ベイズの定理を用いることで、単位的再帰と前向きアルゴリズムと同様の後方再帰を導出する。 ベイズ的再帰ユニットは、隠れマルコフモデルとの直接対応から確率論的解釈を維持しながら、ディープラーニングフレームワーク内で再帰ニューラルネットワークとして統合することができる。 貢献は主に理論的であるが、音声認識の実験は、最先端のリカレントアーキテクチャの終わりに導出単位を追加することは、訓練可能なパラメータの観点から非常に低いコストで性能を改善することができることを示している。

Using Bayes's theorem, we derive a unit-wise recurrence as well as a backward recursion similar to the forward-backward algorithm. The resulting Bayesian recurrent units can be integrated as recurrent neural networks within deep learning frameworks, while retaining a probabilistic interpretation from the direct correspondence with hidden Markov models. Whilst the contribution is mainly theoretical, experiments on speech recognition indicate that adding the derived units at the end of state-of-the-art recurrent architectures can improve the performance at a very low cost in terms of trainable parameters.
翻訳日:2022-07-22 12:25:27 公開日:2022-07-21
# マルチエージェント動作の表現学習のためのMABe22ベンチマーク

The MABe22 Benchmarks for Representation Learning of Multi-Agent Behavior ( http://arxiv.org/abs/2207.10553v1 )

ライセンス: Link先を確認
Jennifer J. Sun, Andrew Ulmer, Dipam Chakraborty, Brian Geuther, Edward Hayes, Heng Jia, Vivek Kumar, Zachary Partridge, Alice Robie, Catherine E. Schretter, Chao Sun, Keith Sheppard, Param Uttarwar, Pietro Perona, Yisong Yue, Kristin Branson, Ann Kennedy(参考訳) 実世界の行動は、しばしば複数のエージェント間の複雑な相互作用によって形成される。 マルチエージェントの振る舞いを十分に研究するために、教師なしおよび自己教師付き学習の進歩は、様々な行動表現を軌跡データから学べるようにした。 これまでのところ、さまざまな行動分析設定で定量的かつ体系的にメソッドを比較することができる、統一されたベンチマークのセットは存在しない。 本研究の目的は、行動分析タスクをカバーする実世界の行動神経科学実験から、大規模でマルチエージェントな軌道データセットを導入することである。 私たちのデータセットは、共通のモデル生物の軌道データで構成されており、960万フレームのマウスデータと440万フレームのフライデータがあります。 フレームのサブセットはエキスパートアノテートされた振る舞いラベルも含む。 我々のデータセットの改善は、複数の生物にまたがる行動表現に対応し、共通の行動分析タスクの違いを捉えることができる。

Real-world behavior is often shaped by complex interactions between multiple agents. To scalably study multi-agent behavior, advances in unsupervised and self-supervised learning have enabled a variety of different behavioral representations to be learned from trajectory data. To date, there does not exist a unified set of benchmarks that can enable comparing methods quantitatively and systematically across a broad set of behavior analysis settings. We aim to address this by introducing a large-scale, multi-agent trajectory dataset from real-world behavioral neuroscience experiments that covers a range of behavior analysis tasks. Our dataset consists of trajectory data from common model organisms, with 9.6 million frames of mouse data and 4.4 million frames of fly data, in a variety of experimental settings, such as different strains, lengths of interaction, and optogenetic stimulation. A subset of the frames also consist of expert-annotated behavior labels. Improvements on our dataset corresponds to behavioral representations that work across multiple organisms and is able to capture differences for common behavior analysis tasks.
翻訳日:2022-07-22 12:22:49 公開日:2022-07-21
# 忘れることなく新しいクラス発見

Novel Class Discovery without Forgetting ( http://arxiv.org/abs/2207.10659v1 )

ライセンス: Link先を確認
K J Joseph, Sujoy Paul, Gaurav Aggarwal, Soma Biswas, Piyush Rai, Kai Han, Vineeth N Balasubramanian(参考訳) 人間は、これまでに取得した知識を活用し、適応することによって、よく知らないインスタンスを識別し、区別する能力を持っている。 重要なのは、初期の学習のパフォーマンスを損なうことなく、これを達成することです。 これにより、ncdwfの新しい実用的問題設定を特定し、定式化する: 忘れずに新しいクラス発見、どの機械学習モデルがラベルのないデータから新しいインスタンスのカテゴリを段階的に発見するタスク、そして以前見たカテゴリでのパフォーマンスを維持する。 提案します 1) ラベル付きデータのプロキシとして機能し(もはや利用できない)、忘れを緩和する擬似ラテント表現を生成する方法。 2)新規クラスの教師なし発見を促進する相互情報に基づく正規化子 3) テストデータにインスタンスが含まれている場合の一般化推論を支援する単純なノウンクラス識別器。 CIFAR-10, CIFAR-100, ImageNet-1000に基づく実験プロトコルを導入し, 知識保持と新しいクラス発見のトレードオフを測定する。 広範な評価結果から,既存のモデルでは既見のカテゴリを壊滅的に忘れ,新たなカテゴリを識別していることが明らかとなった。 我々の研究が、この新しく特定された実用的問題にさらなる研究を惹きつけることを願っている。

Humans possess an innate ability to identify and differentiate instances that they are not familiar with, by leveraging and adapting the knowledge that they have acquired so far. Importantly, they achieve this without deteriorating the performance on their earlier learning. Inspired by this, we identify and formulate a new, pragmatic problem setting of NCDwF: Novel Class Discovery without Forgetting, which tasks a machine learning model to incrementally discover novel categories of instances from unlabeled data, while maintaining its performance on the previously seen categories. We propose 1) a method to generate pseudo-latent representations which act as a proxy for (no longer available) labeled data, thereby alleviating forgetting, 2) a mutual-information based regularizer which enhances unsupervised discovery of novel classes, and 3) a simple Known Class Identifier which aids generalized inference when the testing data contains instances form both seen and unseen categories. We introduce experimental protocols based on CIFAR-10, CIFAR-100 and ImageNet-1000 to measure the trade-off between knowledge retention and novel class discovery. Our extensive evaluations reveal that existing models catastrophically forget previously seen categories while identifying novel categories, while our method is able to effectively balance between the competing objectives. We hope our work will attract further research into this newly identified pragmatic problem setting.
翻訳日:2022-07-22 12:22:31 公開日:2022-07-21
# EC-KitY: シームレス機械学習統合を備えたPythonの進化型計算ツールキット

EC-KitY: Evolutionary Computation Tool Kit in Python with Seamless Machine Learning Integration ( http://arxiv.org/abs/2207.10367v1 )

ライセンス: Link先を確認
Moshe Sipper, Tomer Halperin, Itai Tzruia, Achiya Elyasaf(参考訳) EC-KitYは、進化計算を行うための包括的なPythonライブラリで、GNU General Public License v3.0でライセンスされ、Scikit-learnと互換性がある。 現代のソフトウェアエンジニアリングと機械学習の統合を念頭に設計されたEC-KitYは、遺伝的アルゴリズム、遺伝的プログラミング、共進化、進化的多目的最適化など、一般的なECパラダイムをすべてサポートできる。 本稿では,EC実験のセットアップを容易にすること,アーキテクチャ,主な特徴,他のライブラリとの比較など,パッケージの概要を紹介する。

EC-KitY is a comprehensive Python library for doing evolutionary computation (EC), licensed under GNU General Public License v3.0, and compatible with scikit-learn. Designed with modern software engineering and machine learning integration in mind, EC-KitY can support all popular EC paradigms, including genetic algorithms, genetic programming, coevolution, evolutionary multi-objective optimization, and more. This paper provides an overview of the package, including the ease of setting up an EC experiment, the architecture, the main features, and a comparison with other libraries.
翻訳日:2022-07-22 12:22:08 公開日:2022-07-21
# バイアスの誕生--英語モデルにおけるジェンダーバイアスの進化を事例として

The Birth of Bias: A case study on the evolution of gender bias in an English language model ( http://arxiv.org/abs/2207.10245v1 )

ライセンス: Link先を確認
Oskar van der Wal, Jaap Jumelet, Katrin Schulz, Willem Zuidema(参考訳) 現代の言語モデルにおける有害バイアスの検出と緩和は、重要でオープンな問題として広く認識されている。 本稿では,まず第一に,言語モデルがどのようなバイアスを受けるかを検討する。 我々は、英語のウィキペディアコーパスで訓練されたLSTMアーキテクチャを用いて、比較的小さな言語モデルを使用する。 トレーニング中のステップ毎にデータにアクセスし、モデルパラメータが変化すると、性別の表現がどのように発達するか、データセットのパターンがこれを駆動するか、モデルの内部状態が下流タスクのバイアスとどのように関連しているかを詳細にマッピングすることができる(semantic textual similarity)。 性別の表現は動的であり,訓練中に異なる段階を識別できることがわかった。 さらに,モデルの入力埋め込みにおいて,ジェンダー情報が局所的に表現されるようになり,結果として,これらを嫌悪することが,下流バイアスの低減に有効であることを示す。 トレーニングダイナミクスの監視により、入力埋め込みで女性と男性の性別がどう表現されているかの非対称性を検出できます。 これは、ナイーブな緩和戦略が新しい望ましくないバイアスをもたらす可能性があるため、重要である。 より一般的な緩和戦略の発見と、我々の手法をより大きな言語モデル、トランスフォーマーアーキテクチャ、他の言語、その他の望ましくないバイアスに一般化する可能性について論じる。

Detecting and mitigating harmful biases in modern language models are widely recognized as crucial, open problems. In this paper, we take a step back and investigate how language models come to be biased in the first place. We use a relatively small language model, using the LSTM architecture trained on an English Wikipedia corpus. With full access to the data and to the model parameters as they change during every step while training, we can map in detail how the representation of gender develops, what patterns in the dataset drive this, and how the model's internal state relates to the bias in a downstream task (semantic textual similarity). We find that the representation of gender is dynamic and identify different phases during training. Furthermore, we show that gender information is represented increasingly locally in the input embeddings of the model and that, as a consequence, debiasing these can be effective in reducing the downstream bias. Monitoring the training dynamics, allows us to detect an asymmetry in how the female and male gender are represented in the input embeddings. This is important, as it may cause naive mitigation strategies to introduce new undesirable biases. We discuss the relevance of the findings for mitigation strategies more generally and the prospects of generalizing our methods to larger language models, the Transformer architecture, other languages and other undesirable biases.
翻訳日:2022-07-22 12:21:09 公開日:2022-07-21
# 言語モデルカスケード

Language Model Cascades ( http://arxiv.org/abs/2207.10342v1 )

ライセンス: Link先を確認
David Dohan, Winnie Xu, Aitor Lewkowycz, Jacob Austin, David Bieber, Raphael Gontijo Lopes, Yuhuai Wu, Henryk Michalewski, Rif A. Saurous, Jascha Sohl-dickstein, Kevin Murphy, Charles Sutton(参考訳) プロンプテッドモデルは、驚くべき数発の学習能力を示している。 単一モデルによるテスト時の反復的なインタラクション、あるいは複数のモデルの組み合わせは、機能をさらに拡張します。 これらの合成は確率モデルであり、文字列のような複雑なデータ型である確率変数を持つグラフィカルモデルの言語で表現することができる。 制御フローと動的構造を持つ場合、統一言語で異なるモデル構造と推論戦略を実装することができる確率的プログラミングのテクニックが必要である。 この観点から,スクラッチパッドや思考の連鎖,検証器,STaR,選択推論,ツール利用など,既存の手法を定式化した。 結果として得られたプログラムを言語モデルカスケードと呼ぶ。

Prompted models have demonstrated impressive few-shot learning abilities. Repeated interactions at test-time with a single model, or the composition of multiple models together, further expands capabilities. These compositions are probabilistic models, and may be expressed in the language of graphical models with random variables whose values are complex data types such as strings. Cases with control flow and dynamic structure require techniques from probabilistic programming, which allow implementing disparate model structures and inference strategies in a unified language. We formalize several existing techniques from this perspective, including scratchpads / chain of thought, verifiers, STaR, selection-inference, and tool use. We refer to the resulting programs as language model cascades.
翻訳日:2022-07-22 12:20:42 公開日:2022-07-21
# NusaCrowd: インドネシア語におけるオープンで再現可能なNLP研究の呼びかけ

NusaCrowd: A Call for Open and Reproducible NLP Research in Indonesian Languages ( http://arxiv.org/abs/2207.10524v1 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Alham Fikri Aji, Holy Lovenia, Genta Indra Winata, Bryan Wilie, Rahmad Mahendra, Fajri Koto, David Moeljadi, Karissa Vincentio, Ade Romadhony, Ayu Purwarianti(参考訳) インドネシアの自然言語処理(NLP)研究の進展を食い止める根底にある問題の中心には、データ不足がある。 インドネシア語、特に現地語の資源は極めて乏しく、過小評価されている。 多くのインドネシアの研究者はデータセットを公開していない。 さらに、いくつかの公開データセットはさまざまなプラットフォームに分散しており、インドネシアのNLPにおける再現性とデータ中心の研究をさらに困難にしています。 この課題に乗じて,インドネシア初のNLPクラウドソーシング活動であるNusaCrowdを開始しました。 NusaCrowdは、すべてのインドネシア言語におけるNLPタスクの標準化されたデータローディングを備えた、最大のデータシートアグリゲーションの提供を目指している。 インドネシアのNLPリソースへのオープンで集中的なアクセスを可能にすることで、NusaCrowdがインドネシアにおけるNLPの進歩を妨げるデータ不足の問題に対処し、NLP実践者たちを協力へと導くことを願っています。

At the center of the underlying issues that halt Indonesian natural language processing (NLP) research advancement, we find data scarcity. Resources in Indonesian languages, especially the local ones, are extremely scarce and underrepresented. Many Indonesian researchers do not publish their dataset. Furthermore, the few public datasets that we have are scattered across different platforms, thus makes performing reproducible and data-centric research in Indonesian NLP even more arduous. Rising to this challenge, we initiate the first Indonesian NLP crowdsourcing effort, NusaCrowd. NusaCrowd strives to provide the largest datasheets aggregation with standardized data loading for NLP tasks in all Indonesian languages. By enabling open and centralized access to Indonesian NLP resources, we hope NusaCrowd can tackle the data scarcity problem hindering NLP progress in Indonesia and bring NLP practitioners to move towards collaboration.
翻訳日:2022-07-22 12:20:31 公開日:2022-07-21
# CNNモデルへの伝統的な特徴注入による衛星画像の土地分類

Land Classification in Satellite Images by Injecting Traditional Features to CNN Models ( http://arxiv.org/abs/2207.10368v1 )

ライセンス: Link先を確認
Mehmet Cagri Aksoy, Beril Sirmacek, Cem Unsalan(参考訳) 深層学習法は,近年,リモートセンシング問題に適用されている。 これらの手法のうち、CNNベースのモデルは衛星画像や空中画像を用いた土地分類問題の精度が高い。 これらのモデルは精度が高いが、一般に大きなメモリサイズ要件が伴う。 一方,無人航空機に実装されているような,メモリスペースの少ない小型の応用モデルが望ましい。 残念なことに、小型CNNモデルでは、大きなバージョンでは高い精度が得られない。 本研究では,CNNモデル,特に小型モデルにおいて,従来の特徴を注入することにより精度を向上させる手法を提案する。 提案手法の有効性を検証するため, 0.5MBから528MBのCNNモデルSqueezeNet, MobileNetV2, ShuffleNetV2, VGG16, ResNet50V2に適用した。 試料の平均値, グレーレベル共起行列, Huモーメント, 局所二分パターン, 配向勾配のヒストグラム, カラー不変量を注射の伝統的な特徴として用いた。 土地分類を行うために,提案手法をEuroSATデータセット上で検証した。 提案手法は,特に小規模のcnnモデルに適用すると,土地分類精度が著しく向上することを示す。

Deep learning methods have been successfully applied to remote sensing problems for several years. Among these methods, CNN based models have high accuracy in solving the land classification problem using satellite or aerial images. Although these models have high accuracy, this generally comes with large memory size requirements. On the other hand, it is desirable to have small-sized models for applications, such as the ones implemented on unmanned aerial vehicles, with low memory space. Unfortunately, small-sized CNN models do not provide high accuracy as with their large-sized versions. In this study, we propose a novel method to improve the accuracy of CNN models, especially the ones with small size, by injecting traditional features to them. To test the effectiveness of the proposed method, we applied it to the CNN models SqueezeNet, MobileNetV2, ShuffleNetV2, VGG16, and ResNet50V2 having size 0.5 MB to 528 MB. We used the sample mean, gray level co-occurrence matrix features, Hu moments, local binary patterns, histogram of oriented gradients, and color invariants as traditional features for injection. We tested the proposed method on the EuroSAT dataset to perform land classification. Our experimental results show that the proposed method significantly improves the land classification accuracy especially when applied to small-sized CNN models.
翻訳日:2022-07-22 12:19:49 公開日:2022-07-21
# 重要度サンプリングによる複雑度の異なる複数ニューラルネットワークの効率的な探索

Efficient Search of Multiple Neural Architectures with Different Complexities via Importance Sampling ( http://arxiv.org/abs/2207.10334v1 )

ライセンス: Link先を確認
Yuhei Noda, Shota Saito, Shinichi Shirakawa(参考訳) neural architecture search(nas)は、アーキテクチャ設計プロセスの自動化とディープニューラルネットワークのパフォーマンス向上を目的としている。 プラットフォーム対応NAS手法は、性能と複雑さの両方を考慮し、計算資源の少ない優れたアーキテクチャを見つけることができる。 通常のNAS法は, モデルトレーニングの繰り返しによる計算コストが大幅に低下するが, 探索過程において, 全ての候補アーキテクチャを含むスーパーネットワークの重みをトレーニングするワンショットNASは, 探索コストが低下することが報告されている。 本研究は,予測性能やパラメータ数などの2つの指標の重み付け和からなる目的関数を最適化する,アーキテクチャ複雑性を考慮した一発nasに着目した。 既存の方法では、アーキテクチャ探索プロセスは重み付け和の異なる係数で複数回実行し、複雑さの異なる複数のアーキテクチャを得る必要がある。 本研究の目的は,複数のアーキテクチャの発見に伴う検索コストの削減である。 提案手法では,異なる複雑さのアーキテクチャを生成するために複数の分布を用い,重要サンプリングに基づいて複数の分布から得られたサンプルを用いて各分布を更新する。 提案手法により,単一のアーキテクチャ探索において異なる複雑度を持つ複数のアーキテクチャを得ることができ,検索コストを低減できる。 提案手法は,CIAFR-10およびImageNetデータセット上の畳み込みニューラルネットワークのアーキテクチャ探索に適用される。 その結果,提案手法はベースライン法と比較して,計算量が少なく,複雑度が異なる複数のアーキテクチャを見出すことができた。

Neural architecture search (NAS) aims to automate architecture design processes and improve the performance of deep neural networks. Platform-aware NAS methods consider both performance and complexity and can find well-performing architectures with low computational resources. Although ordinary NAS methods result in tremendous computational costs owing to the repetition of model training, one-shot NAS, which trains the weights of a supernetwork containing all candidate architectures only once during the search process, has been reported to result in a lower search cost. This study focuses on the architecture complexity-aware one-shot NAS that optimizes the objective function composed of the weighted sum of two metrics, such as the predictive performance and number of parameters. In existing methods, the architecture search process must be run multiple times with different coefficients of the weighted sum to obtain multiple architectures with different complexities. This study aims at reducing the search cost associated with finding multiple architectures. The proposed method uses multiple distributions to generate architectures with different complexities and updates each distribution using the samples obtained from multiple distributions based on importance sampling. The proposed method allows us to obtain multiple architectures with different complexities in a single architecture search, resulting in reducing the search cost. The proposed method is applied to the architecture search of convolutional neural networks on the CIAFR-10 and ImageNet datasets. Consequently, compared with baseline methods, the proposed method finds multiple architectures with varying complexities while requiring less computational effort.
翻訳日:2022-07-22 12:17:16 公開日:2022-07-21
# 対向ロバスト性を考慮したロジットのマージン向上のためのレスト損失の切り替え

Switching One-Versus-the-Rest Loss to Increase the Margin of Logits for Adversarial Robustness ( http://arxiv.org/abs/2207.10283v1 )

ライセンス: Link先を確認
Sekitoshi Kanai, Shin'ya Yamaguchi, Masanori Yamada, Hiroshi Takahashi, Yasutoshi Ida(参考訳) 敵の例に対するディープニューラルネットワークの防御は、AIの安全性にとって重要な課題である。 効果的なロバスト性向上のために,近年の手法では,意思決定境界付近の重要なデータポイントに着目している。 しかし、これらの手法は信頼性評価のためのパラメータフリー攻撃のアンサンブルであるAuto-Attackに対して脆弱である。 本稿では,その脆弱性の原因を実験的に検討し,既存の手法は,その勾配基準を非小値に保ちながら,真のラベルと他のラベルのロジット間のマージンを減少させる。 マージンの減少と非小さな勾配ノルムは、最大のロジットが摂動によって簡単に反転できるため、脆弱性を引き起こす。 また,ロジットマージンのヒストグラムは2つのピーク,すなわち,小さくて大きなロジットマージンを持つことを示した。 観測結果から,データにロジットマージンが小さい場合の1-versus-the-rest loss(SOVR)の切り替えを提案する。 我々は,SOVRが従来の手法よりもロジットマージンを増加させる一方で,勾配基準を小さく保ち,Auto-Attackに対するロバスト性でそれらを上回っていることを発見した。

Defending deep neural networks against adversarial examples is a key challenge for AI safety. To improve the robustness effectively, recent methods focus on important data points near the decision boundary in adversarial training. However, these methods are vulnerable to Auto-Attack, which is an ensemble of parameter-free attacks for reliable evaluation. In this paper, we experimentally investigate the causes of their vulnerability and find that existing methods reduce margins between logits for the true label and the other labels while keeping their gradient norms non-small values. Reduced margins and non-small gradient norms cause their vulnerability since the largest logit can be easily flipped by the perturbation. Our experiments also show that the histogram of the logit margins has two peaks, i.e., small and large logit margins. From the observations, we propose switching one-versus-the-rest loss (SOVR), which uses one-versus-the-rest loss when data have small logit margins so that it increases the margins. We find that SOVR increases logit margins more than existing methods while keeping gradient norms small and outperforms them in terms of the robustness against Auto-Attack.
翻訳日:2022-07-22 12:16:20 公開日:2022-07-21
# GANの最適精度

Optimal precision for GANs ( http://arxiv.org/abs/2207.10541v1 )

ライセンス: Link先を確認
Thibaut Issenhuth, Ugo Tanielian, J\'er\'emie Mary, David Picard(参考訳) 切り離された分布を学習する場合、生成的敵ネットワーク(gans)は顔モデルの誤特定が知られている。 実際、単項潜在分布から非連結分布への連続写像は不可能であるため、GANは対象分布の支持外からサンプルを生成する必要がある。 これは基本的な疑問を提起する: これらの領域の測度を最小化する潜在空間分割とは何か? 幾何学的測度理論の最近の結果に基づいて、最適 GAN がその潜在空間を 'simplicial cluster' (セルが凸錐であるボロノイ分割) として構成しなければならないことを証明している。 この構成では、それぞれのボロノイ細胞はデータの異なるモードにマップされる。 我々は、GANs学習非連結多様体の最適精度に基づいて上界と下界の両方を導出する。 興味深いことに、これらの2つの境界は同じ順序で減少する:$\sqrt{\log m}$, $m$はモードの数である。 最後に、潜在空間の幾何を示すためにいくつかの実験を行い、GANが理論的性質に類似した幾何学を持つことを実験的に示す。

When learning disconnected distributions, Generative adversarial networks (GANs) are known to face model misspecification. Indeed, a continuous mapping from a unimodal latent distribution to a disconnected one is impossible, so GANs necessarily generate samples outside of the support of the target distribution. This raises a fundamental question: what is the latent space partition that minimizes the measure of these areas? Building on a recent result of geometric measure theory, we prove that an optimal GANs must structure its latent space as a 'simplicial cluster' - a Voronoi partition where cells are convex cones - when the dimension of the latent space is larger than the number of modes. In this configuration, each Voronoi cell maps to a distinct mode of the data. We derive both an upper and a lower bound on the optimal precision of GANs learning disconnected manifolds. Interestingly, these two bounds have the same order of decrease: $\sqrt{\log m}$, $m$ being the number of modes. Finally, we perform several experiments to exhibit the geometry of the latent space and experimentally show that GANs have a geometry with similar properties to the theoretical one.
翻訳日:2022-07-22 12:15:54 公開日:2022-07-21
# 領域一般化のためのテキストによる接地視覚表現

Grounding Visual Representations with Texts for Domain Generalization ( http://arxiv.org/abs/2207.10285v1 )

ライセンス: Link先を確認
Seonwoo Min, Nokyung Park, Siwon Kim, Seunghyun Park, Jinkyu Kim(参考訳) モデル一般化を最大化するための鍵となる要素は、ソースとターゲットドメイン間の表現上の相違を減らすことである。 本稿では、ドメイン一般化タスクにおける自然言語監督の活用を提唱する。 人間の典型的推論を含むテキストを用いた視覚表現に,(1)視覚・テキスト統合埋め込みと(2)テキスト説明生成という2つのモジュールを導入する。 前者は画像テキストの結合埋め込み空間を学習し、高レベルなクラス識別情報をモデルに埋め込むことができる。 後者は説明可能なモデルを利用し、決定の背後にある根拠を正当化する説明を生成する。 我々の知る限りでは、これはドメイン一般化タスクに視覚と言語間の相互モダリティアプローチを利用する最初の試みである。 新たに作成されたCUB-DGベンチマークデータセットを用いた実験により、ドメイン不変の視覚表現を基盤として、モデル一般化を改善するために、モダリティ間監視をうまく利用できることが示されている。 さらに, 大規模ドメインベッドベンチマークでは, 提案手法が最先端の結果を達成し, 5つのマルチドメインデータセットの平均性能で1位にランクインした。 データセットとコードはhttps://github.com/mswzeus/gvrtで入手できる。

Reducing the representational discrepancy between source and target domains is a key component to maximize the model generalization. In this work, we advocate for leveraging natural language supervision for the domain generalization task. We introduce two modules to ground visual representations with texts containing typical reasoning of humans: (1) Visual and Textual Joint Embedder and (2) Textual Explanation Generator. The former learns the image-text joint embedding space where we can ground high-level class-discriminative information into the model. The latter leverages an explainable model and generates explanations justifying the rationale behind its decision. To the best of our knowledge, this is the first work to leverage the vision-and-language cross-modality approach for the domain generalization task. Our experiments with a newly created CUB-DG benchmark dataset demonstrate that cross-modality supervision can be successfully used to ground domain-invariant visual representations and improve the model generalization. Furthermore, in the large-scale DomainBed benchmark, our proposed method achieves state-of-the-art results and ranks 1st in average performance for five multi-domain datasets. The dataset and codes are available at https://github.com/mswzeus/GVRT.
翻訳日:2022-07-22 12:15:36 公開日:2022-07-21
# GBDF: 公平なディープフェイク検出を目指すジェンダーバランスのDeepFakeデータセット

GBDF: Gender Balanced DeepFake Dataset Towards Fair DeepFake Detection ( http://arxiv.org/abs/2207.10246v1 )

ライセンス: Link先を確認
Aakash Varma Nadimpalli and Ajita Rattani(参考訳) ディープフェイクによる顔の偽造は社会の深刻な懸念を引き起こした。 ビジョンコミュニティは、自動ディープフェイク検出システムを通じてインターネット上の誤情報を効果的に対処するためのいくつかのソリューションを提案している。 近年の研究では、顔分析に基づくディープラーニングモデルが保護属性に基づいて識別できることが示されている。 ディープフェイク検出技術の商業的採用と大規模展開のためには、性別や人種などの人口動態の異なるディープフェイク検出装置の公正性(偏見や好意の欠如)を評価し、理解することが不可欠である。 人口集団間のディープフェイク検出器の性能差は、奪われたサブグループの何百万人もの人々に影響を及ぼすだろう。 本稿では,男女間におけるディープフェイク検出器の公平性を評価することを目的とした。 しかし、既存のdeepfakeデータセットは、フェアネス分析を容易にするために、人口統計ラベルに注釈を付けていない。 本研究では,既存のディープフェイクデータセットを性別ラベルで手動でアノテートし,現在のディープフェイク検出器の性能差を評価した。 性別ラベル付きデータセットの分析から示唆される。 (a)現在のディープフェイクデータセットは、性別の分布を歪め、 b) 一般的に採用されているディープフェイク検出器は、女性よりも男性の方が多い性別間で不平等な性能を得る。 最後に,男女バランスと注釈付きディープフェイクデータセットGBDFを用いて,性能差を緩和し,フェアネスを意識したディープフェイク検出器の研究と開発を促進する。 GBDFデータセットは、https://github.com/aakash4305/GBDFで公開されている。

Facial forgery by deepfakes has raised severe societal concerns. Several solutions have been proposed by the vision community to effectively combat the misinformation on the internet via automated deepfake detection systems. Recent studies have demonstrated that facial analysis-based deep learning models can discriminate based on protected attributes. For the commercial adoption and massive roll-out of the deepfake detection technology, it is vital to evaluate and understand the fairness (the absence of any prejudice or favoritism) of deepfake detectors across demographic variations such as gender and race. As the performance differential of deepfake detectors between demographic subgroups would impact millions of people of the deprived sub-group. This paper aims to evaluate the fairness of the deepfake detectors across males and females. However, existing deepfake datasets are not annotated with demographic labels to facilitate fairness analysis. To this aim, we manually annotated existing popular deepfake datasets with gender labels and evaluated the performance differential of current deepfake detectors across gender. Our analysis on the gender-labeled version of the datasets suggests (a) current deepfake datasets have skewed distribution across gender, and (b) commonly adopted deepfake detectors obtain unequal performance across gender with mostly males outperforming females. Finally, we contributed a gender-balanced and annotated deepfake dataset, GBDF, to mitigate the performance differential and to promote research and development towards fairness-aware deep fake detectors. The GBDF dataset is publicly available at: https://github.com/aakash4305/GBDF
翻訳日:2022-07-22 12:14:27 公開日:2022-07-21
# SplitMixer: MLPライクなモデルの脂肪

SplitMixer: Fat Trimmed From MLP-like Models ( http://arxiv.org/abs/2207.10255v1 )

ライセンス: Link先を確認
Ali Borji and Sikun Lin(参考訳) 視覚認識のためのシンプルで軽量なMLPのようなアーキテクチャであるSplitMixerを提案する。 空間的な場所(空間的混合)とチャネル(チャネル混合)の情報を混在させる2種類の畳み込み操作を含む。 最初の1つは、2Dカーネルの代わりに2つの奥行き1Dカーネルを順次適用して空間情報を混合することを含む。 2つめは、共有パラメータの有無にかかわらず、チャネルをオーバーラップまたは非オーバーラップセグメントに分割し、提案するチャネル混合アプローチまたは3d畳み込みを適用してチャネル情報を混合することである。 設計選択によっては、精度、パラメータ数、速度のバランスをとるために、多くのSplitMixer変種を構築することができる。 理論的にも実験的にも,SplitMixerは最先端のMLPライクなモデルと同等に動作し,パラメータやFLOPSは極めて少ない。 例えば、強力なデータ拡張と最適化なしに、SplitMixerはわずか0.28MパラメータでCIFAR-10で約94%の精度を達成し、ConvMixerは0.6Mパラメータで同じ精度を達成する。 MLP-Mixerは85.45%、パラメータは17.1Mである。 CIFAR-100データセットでは、SplitMixerは約73%の精度で、ConvMixerと同等だが、パラメータとFLOPSは52%少ない。 この結果が、より効率的な視覚アーキテクチャの発見と、MDPのようなモデルの開発を促進するためのさらなる研究のきっかけになることを願っている。 コードはhttps://github.com/aliborji/splitmixerで入手できる。

We present SplitMixer, a simple and lightweight isotropic MLP-like architecture, for visual recognition. It contains two types of interleaving convolutional operations to mix information across spatial locations (spatial mixing) and channels (channel mixing). The first one includes sequentially applying two depthwise 1D kernels, instead of a 2D kernel, to mix spatial information. The second one is splitting the channels into overlapping or non-overlapping segments, with or without shared parameters, and applying our proposed channel mixing approaches or 3D convolution to mix channel information. Depending on design choices, a number of SplitMixer variants can be constructed to balance accuracy, the number of parameters, and speed. We show, both theoretically and experimentally, that SplitMixer performs on par with the state-of-the-art MLP-like models while having a significantly lower number of parameters and FLOPS. For example, without strong data augmentation and optimization, SplitMixer achieves around 94% accuracy on CIFAR-10 with only 0.28M parameters, while ConvMixer achieves the same accuracy with about 0.6M parameters. The well-known MLP-Mixer achieves 85.45% with 17.1M parameters. On CIFAR-100 dataset, SplitMixer achieves around 73% accuracy, on par with ConvMixer, but with about 52% fewer parameters and FLOPS. We hope that our results spark further research towards finding more efficient vision architectures and facilitate the development of MLP-like models. Code is available at https://github.com/aliborji/splitmixer.
翻訳日:2022-07-22 12:14:01 公開日:2022-07-21
# イベントベース光流れの秘密

Secrets of Event-Based Optical Flow ( http://arxiv.org/abs/2207.10022v2 )

ライセンス: Link先を確認
Shintaro Shiba, Yoshimitsu Aoki, Guillermo Gallego(参考訳) イベントカメラはシーンダイナミクスに反応し、動きを推定する利点を提供する。 近年、画像に基づくディープラーニングの成果に続いて、イベントカメラの光学的フロー推定法が急上昇し、これらの画像ベースの手法とイベントデータを組み合わせた。 しかし、非常に異なる特性を持つため、いくつかの適応(データ変換、損失関数など)が必要である。 コントラスト最大化フレームワークを拡張し,イベントのみから光の流れを推定する手法を開発した。 我々は,目的関数の設計方法,閉塞性を改善するためにイベントをワープする方法,マルチスケールの生イベントとの収束性を改善する方法など,重要な要素について検討する。 これらの重要な要素により,本手法はMVSECベンチマークにおける教師なし手法の中で第1位となり,DSECベンチマークでは競合する。 さらに,本手法は,これらのベンチマークにおいて基底真理フローの問題を露呈し,教師なし学習環境に移行した場合に顕著な結果が得られる。 私たちのコードはhttps://github.com/tub-rip/event_based_optical_flowで利用可能です。

Event cameras respond to scene dynamics and offer advantages to estimate motion. Following recent image-based deep-learning achievements, optical flow estimation methods for event cameras have rushed to combine those image-based methods with event data. However, it requires several adaptations (data conversion, loss function, etc.) as they have very different properties. We develop a principled method to extend the Contrast Maximization framework to estimate optical flow from events alone. We investigate key elements: how to design the objective function to prevent overfitting, how to warp events to deal better with occlusions, and how to improve convergence with multi-scale raw events. With these key elements, our method ranks first among unsupervised methods on the MVSEC benchmark, and is competitive on the DSEC benchmark. Moreover, our method allows us to expose the issues of the ground truth flow in those benchmarks, and produces remarkable results when it is transferred to unsupervised learning settings. Our code is available at https://github.com/tub-rip/event_based_optical_flow
翻訳日:2022-07-22 10:38:25 公開日:2022-07-21
# クロスサイロフェデレーション学習のためのマルチグラフトポロジ設計

Multigraph Topology Design for Cross-Silo Federated Learning ( http://arxiv.org/abs/2207.09657v2 )

ライセンス: Link先を確認
Binh X. Nguyen, Tuong Do, Hien Nguyen, Vuong Pham, Toan Tran, Erman Tjiputra, Quang Tran, Anh Nguyen(参考訳) クロスサイロフェデレーション学習は、数百の信頼性の高いデータサイロと高速アクセスリンクを使用して、モデルを共同トレーニングする。 このアプローチは連合学習で一般的な設定になる一方で、トレーニング時間を短縮するためのロバストなトポロジの設計は、いまだに未解決の問題である。 本稿では,クロスサイロフェデレート学習のための新しいマルチグラフトポロジーを提案する。 まずオーバーレイグラフを用いてマルチグラフを構築する。 次に、この多重グラフを孤立ノードを持つ異なる単純なグラフに解析する。 分離ノードの存在は、他のノードを待つことなくモデルアグリゲーションを実行可能にするため、トレーニング時間を短縮できる。 さらに,マルチグラフトポロジを用いた新しい分散学習アルゴリズムを提案する。 公開データセットの集中的な実験により,提案手法は最近の最先端のトポロジと比較してトレーニング時間を著しく短縮し,収束の確保とモデルの精度の維持を図っている。

Cross-silo federated learning utilizes a few hundred reliable data silos with high-speed access links to jointly train a model. While this approach becomes a popular setting in federated learning, designing a robust topology to reduce the training time is still an open problem. In this paper, we present a new multigraph topology for cross-silo federated learning. We first construct the multigraph using the overlay graph. We then parse this multigraph into different simple graphs with isolated nodes. The existence of isolated nodes allows us to perform model aggregation without waiting for other nodes, hence reducing the training time. We further propose a new distributed learning algorithm to use with our multigraph topology. The intensive experiments on public datasets show that our proposed method significantly reduces the training time compared with recent state-of-the-art topologies while ensuring convergence and maintaining the model's accuracy.
翻訳日:2022-07-22 10:38:07 公開日:2022-07-21
# NeuralNEB -- ニューラルネットワークは反応経路を素早く見つけることができる

NeuralNEB -- Neural Networks can find Reaction Paths Fast ( http://arxiv.org/abs/2207.09971v2 )

ライセンス: Link先を確認
Mathias Schreiner, Arghya Bhowmik, Tejs Vegge and Ole Winther(参考訳) 密度汎関数理論 (dft) のような量子力学的手法は、反応系の運動学を研究する効率的な探索アルゴリズムとともに大きな成功を収めている。 しかし、DFTは大規模な探査には極めて高価である。 機械学習(ML)モデルは、小さな分子DFT計算の優れたエミュレータであることが判明し、そのようなタスクでDFTを置き換える可能性がある。 運動学においては、成功は主に遷移状態と最小エネルギー経路(MEP)に関するポテンシャルエネルギー表面(PES)を正確に予測するモデル能力に依存する。 これまでは、文献に関連データが不足していたため、これは不可能であった。 本稿では,transition1xデータセットから約10000の初等反応に対して,art同変グラフニューラルネットワーク(gnn)ベースのモデルをトレーニングする。 我々は,Nudged Elastic Band (NEB)アルゴリズムのポテンシャルとしてモデルを適用し,未知反応の障壁エネルギーに対して平均平均誤差0.13+/-0.03eVを達成する。 QM9とANI1xでトレーニングした等価モデルと比較した。 また,密度汎関数型タイトバインディング(DFTB)の精度と計算資源の比較を行った。 意味するところは、関連するデータをもとにしたMLモデルは、量子化学における下流のタスクに適用可能なレベルに達しているということだ。

Quantum mechanical methods like Density Functional Theory (DFT) are used with great success alongside efficient search algorithms for studying kinetics of reactive systems. However, DFT is prohibitively expensive for large scale exploration. Machine Learning (ML) models have turned out to be excellent emulators of small molecule DFT calculations and could possibly replace DFT in such tasks. For kinetics, success relies primarily on the models capability to accurately predict the Potential Energy Surface (PES) around transition-states and Minimal Energy Paths (MEPs). Previously this has not been possible due to scarcity of relevant data in the literature. In this paper we train state of the art equivariant Graph Neural Network (GNN)-based models on around 10.000 elementary reactions from the Transition1x dataset. We apply the models as potentials for the Nudged Elastic Band (NEB) algorithm and achieve a Mean Average Error (MAE) of 0.13+/-0.03 eV on barrier energies on unseen reactions. We compare the results against equivalent models trained on QM9 and ANI1x. We also compare with and outperform Density Functional based Tight Binding (DFTB) on both accuracy and computational resource. The implication is that ML models, given relevant data, are now at a level where they can be applied for downstream tasks in quantum chemistry transcending prediction of simple molecular features.
翻訳日:2022-07-22 10:37:54 公開日:2022-07-21
# htnet:階層型トランスフォーマーによるアンカーフリー時空間動作定位

HTNet: Anchor-free Temporal Action Localization with Hierarchical Transformers ( http://arxiv.org/abs/2207.09662v2 )

ライセンス: Link先を確認
Tae-Kyung Kang, Gun-Hee Lee, and Seong-Whan Lee(参考訳) 時間的アクションローカライゼーション(TAL)は、ビデオ内のアクションの集合を識別するタスクであり、開始フレームと終了フレームをローカライズし、各アクションインスタンスを分類する。 既存の手法では、事前定義されたアンカーウィンドウやヒューリスティックなボトムアップ境界マッチング戦略を用いてこの問題に対処している。 加えて、主な課題は、グローバルな文脈情報がないため、長距離アクションをキャプチャできないことである。 本稿では,トランスフォーマーアーキテクチャに基づくビデオから<start time, end time, class>三重項のセットを予測する,HTNetと呼ばれる新しいアンカーフリーフレームワークを提案する。 粗い境界の予測の後、我々は背景特徴サンプリング(BFS)モジュールと階層変換器を用いてそれを洗練し、グローバルな文脈情報を集約し、ビデオ内の固有の意味関係を効果的に活用する。 本手法は,2つのTALベンチマークデータセット(THUMOS14とActivityNet 1.3)上で,正確なアクションインスタンスのローカライズと最先端のパフォーマンスを実現する。

Temporal action localization (TAL) is a task of identifying a set of actions in a video, which involves localizing the start and end frames and classifying each action instance. Existing methods have addressed this task by using predefined anchor windows or heuristic bottom-up boundary-matching strategies, which are major bottlenecks in inference time. Additionally, the main challenge is the inability to capture long-range actions due to a lack of global contextual information. In this paper, we present a novel anchor-free framework, referred to as HTNet, which predicts a set of <start time, end time, class> triplets from a video based on a Transformer architecture. After the prediction of coarse boundaries, we refine it through a background feature sampling (BFS) module and hierarchical Transformers, which enables our model to aggregate global contextual information and effectively exploit the inherent semantic relationships in a video. We demonstrate how our method localizes accurate action instances and achieves state-of-the-art performance on two TAL benchmark datasets: THUMOS14 and ActivityNet 1.3.
翻訳日:2022-07-22 10:36:26 公開日:2022-07-21
# ERA:早期行動予測のための専門家検索と会議

ERA: Expert Retrieval and Assembly for Early Action Prediction ( http://arxiv.org/abs/2207.09675v2 )

ライセンス: Link先を確認
Lin Geng Foo, Tianjiao Li, Hossein Rahmani, Qiuhong Ke, Jun Liu(参考訳) 初期アクション予測は、完全に実行される前にアクションのクラスラベルをうまく予測することを目的としている。 これは、異なる行動の開始段階が非常によく似ており、差別に対して微妙な違いしか持たないため、難しい課題である。 本稿では,入力サンプルと他の類似したサンプルを区別するために,識別的微妙な差異を用いた専門家集合の検索と組み立てを行う,新しいエキスパート検索・アセンブリ(era)モジュールを提案する。 初期の行動予測に微妙な違いを効果的に活用するよう、我々は専門家に非常に類似したサンプルを区別するよう促し、それらのサンプルの間に存在する微妙な違いを学習させました。 さらに、専門家の最適化のバランスを保ち、より良いパフォーマンスをもたらす効果的なエキスパート学習率最適化法を設計する。 我々は4つの公開アクションデータセットで era モジュールを評価し,最新性能を実現する。

Early action prediction aims to successfully predict the class label of an action before it is completely performed. This is a challenging task because the beginning stages of different actions can be very similar, with only minor subtle differences for discrimination. In this paper, we propose a novel Expert Retrieval and Assembly (ERA) module that retrieves and assembles a set of experts most specialized at using discriminative subtle differences, to distinguish an input sample from other highly similar samples. To encourage our model to effectively use subtle differences for early action prediction, we push experts to discriminate exclusively between samples that are highly similar, forcing these experts to learn to use subtle differences that exist between those samples. Additionally, we design an effective Expert Learning Rate Optimization method that balances the experts' optimization and leads to better performance. We evaluate our ERA module on four public action datasets and achieve state-of-the-art performance.
翻訳日:2022-07-22 10:36:05 公開日:2022-07-21
# ビデオ編集の解剖:AIによるビデオ編集のためのデータセットとベンチマークスイート

The Anatomy of Video Editing: A Dataset and Benchmark Suite for AI-Assisted Video Editing ( http://arxiv.org/abs/2207.09812v2 )

ライセンス: Link先を確認
Dawit Mureja Argaw, Fabian Caba Heilbron, Joon-Young Lee, Markus Woodson, In So Kweon(参考訳) 機械学習はビデオ編集業界を変えつつある。 コンピュータビジョンの最近の進歩は、インテリジェントリフレーミング、ロトスコープ、カラーグレーディング、デジタルメイクアップなどのビデオ編集タスクをレベルアップしている。 しかし、ほとんどのソリューションはビデオ操作とVFXに焦点を当てている。 本研究は、ai支援ビデオ編集の研究を促進するために、ビデオ編集、データセット、ベンチマークの解剖を紹介する。 本ベンチマークスイートでは,映像の自動撮影やビデオ組み立てなど,視覚効果以外の映像編集作業に重点を置いている。 これらの前線の研究を可能にするために、196176年の映画シーンから採取した150万枚以上のタグと、撮影技術に関する概念を注釈付けした。 それぞれのタスクに対して,競争基準法と詳細な分析を行う。 われわれの研究が、AIによるビデオ編集の未発見分野への革新的な研究のきっかけになることを願っている。

Machine learning is transforming the video editing industry. Recent advances in computer vision have leveled-up video editing tasks such as intelligent reframing, rotoscoping, color grading, or applying digital makeups. However, most of the solutions have focused on video manipulation and VFX. This work introduces the Anatomy of Video Editing, a dataset, and benchmark, to foster research in AI-assisted video editing. Our benchmark suite focuses on video editing tasks, beyond visual effects, such as automatic footage organization and assisted video assembling. To enable research on these fronts, we annotate more than 1.5M tags, with relevant concepts to cinematography, from 196176 shots sampled from movie scenes. We establish competitive baseline methods and detailed analyses for each of the tasks. We hope our work sparks innovative research towards underexplored areas of AI-assisted video editing.
翻訳日:2022-07-22 10:35:48 公開日:2022-07-21
# 合成データからの学習:マルチタスクネットワークのアンサンブルに基づく表情分類

Learning from Synthetic Data: Facial Expression Classification based on Ensemble of Multi-task Networks ( http://arxiv.org/abs/2207.10025v2 )

ライセンス: Link先を確認
Jae-Yeop Jeong, Yeong-Gi Hong, JiYeon Oh, Sumin Hong, Jin-Woo Jeong, Yuchul Jung(参考訳) 様々な対話型コンピューティングドメインでは,実地での表情が不可欠である。 特に「合成データからの学習」(lsd)は表情認識タスクにおいて重要な話題である。 本稿では,すべての顔情報を共有できる感情と表情学習分枝からなる多タスク学習に基づく表情認識手法を提案し,第4回感情行動分析 in-the-wild (abaw) コンペティションで紹介されたlsdチャレンジの予備結果を提案する。 平均F1スコアは0.71。

Facial expression in-the-wild is essential for various interactive computing domains. Especially, "Learning from Synthetic Data" (LSD) is an important topic in the facial expression recognition task. In this paper, we propose a multi-task learning-based facial expression recognition approach which consists of emotion and appearance learning branches that can share all face information, and present preliminary results for the LSD challenge introduced in the 4th affective behavior analysis in-the-wild (ABAW) competition. Our method achieved the mean F1 score of 0.71.
翻訳日:2022-07-22 10:35:33 公開日:2022-07-21
# 単眼3次元物体検出のための密拘束深さ推定器

Densely Constrained Depth Estimator for Monocular 3D Object Detection ( http://arxiv.org/abs/2207.10047v2 )

ライセンス: Link先を確認
Yingyan Li, Yuntao Chen, Jiawei He, and Zhaoxiang Zhang(参考訳) モノクロ画像から物体の正確な3D位置を推定することは、深さが不足しているため難しい問題である。 これまでの研究では、オブジェクトのキーポイント投影制約を利用して複数の深さ候補を推定することで検出性能が向上した。 しかし,既存の手法では,垂直エッジを投射制約としてのみ深度推定に利用できる。 したがって、これらの手法は少数の射影制約しか使用せず、深さ候補が不十分であり、深さ推定が不正確になる。 本稿では,任意の方向のエッジから高密度な投影制約を利用する手法を提案する。 このように、より多くのプロジェクション制約を採用し、かなりの深さの候補を生成する。 さらに、深度候補をマージするグラフマッチング重み付けモジュールも提示する。 提案手法であるDCD (Densely Constrained Detector) は, KITTI および WOD ベンチマークの最先端性能を実現する。 コードはhttps://github.com/BraveGroup/DCDで公開されている。

Estimating accurate 3D locations of objects from monocular images is a challenging problem because of lacking depth. Previous work shows that utilizing the object's keypoint projection constraints to estimate multiple depth candidates boosts the detection performance. However, the existing methods can only utilize vertical edges as projection constraints for depth estimation. So these methods only use a small number of projection constraints and produce insufficient depth candidates, leading to inaccurate depth estimation. In this paper, we propose a method that utilizes dense projection constraints from edges of any direction. In this way, we employ much more projection constraints and produce considerable depth candidates. Besides, we present a graph matching weighting module to merge the depth candidates. The proposed method DCD (Densely Constrained Detector) achieves state-of-the-art performance on the KITTI and WOD benchmarks. Code is released at https://github.com/BraveGroup/DCD.
翻訳日:2022-07-22 10:35:24 公開日:2022-07-21
# qubitsに歌を教える:ミッション不可能?

Teaching Qubits to Sing: Mission Impossible? ( http://arxiv.org/abs/2207.08225v2 )

ライセンス: Link先を確認
Eduardo Reck Miranda and Brian N. Siegelwax(参考訳) 本稿では,実例を聴いて新しい曲を歌うことを学習するシステムを提案する。 入力音楽からシークエンシング規則を抽出し、これらの規則を用いて声楽シンセサイザーによって歌われる新しい曲を生成する。 量子回路として音楽構成規則を表現する手法を開発した。 このような音楽的規則は量子ネイティブであり、量子状態の振幅に自然にエンコード可能であると主張する。 その後の事象を発生させるルールを評価するために、システムは各量子回路を動的に構築し、測定する。 本稿では,我々が試行してきた音声合成法について,簡単な議論をした後,実例を通して新しい生成的音楽法を紹介した。 本論文は,システムの創造的可能性を活用することに関する実験と結論を提示する。

This paper introduces a system that learns to sing new tunes by listening to examples. It extracts sequencing rules from input music and uses these rules to generate new tunes, which are sung by a vocal synthesiser. We developed a method to represent rules for musical composition as quantum circuits. We claim that such musical rules are quantum native: they are naturally encodable in the amplitudes of quantum states. To evaluate a rule to generate a subsequent event, the system builds the respective quantum circuit dynamically and measures it. After a brief discussion about the vocal synthesis methods that we have been experimenting with, the paper introduces our novel generative music method through a practical example. The paper shows some experiments and concludes with a discussion about harnessing the creative potential of the system.
翻訳日:2022-07-22 10:35:10 公開日:2022-07-21
# レイテンシを考慮した協調認識

Latency-Aware Collaborative Perception ( http://arxiv.org/abs/2207.08560v2 )

ライセンス: Link先を確認
Zixing Lei, Shunli Ren, Yue Hu, Wenjun Zhang and Siheng Chen(参考訳) 協調的知覚は、最近、単一エージェント知覚よりも知覚能力を向上させる大きな可能性を示している。 既存の協調認識手法は通常理想的なコミュニケーション環境を考える。 しかし、実際には、通信システムは必然的にレイテンシの問題に悩まされ、潜在的な性能低下と自律運転のような安全クリティカルなアプリケーションに高いリスクをもたらす。 機械学習の観点から、避けられないレイテンシによる影響を軽減するため、複数のエージェントからの非同期知覚特徴を同時に適用し、コラボレーションの堅牢性と有効性を促進する、最初のレイテンシ対応協調認識システムを提案する。 このような機能レベルの同期を実現するため,我々はsyncnetと呼ばれる新しいレイテンシ補償モジュールを提案する。 実験の結果,SyncNetを用いた協調認識システムは,通信遅延のシナリオにおいて,最先端の協調認識手法よりも15.6%向上し,単一エージェントの認識よりも高度な協調認識を実現することができた。

Collaborative perception has recently shown great potential to improve perception capabilities over single-agent perception. Existing collaborative perception methods usually consider an ideal communication environment. However, in practice, the communication system inevitably suffers from latency issues, causing potential performance degradation and high risks in safety-critical applications, such as autonomous driving. To mitigate the effect caused by the inevitable latency, from a machine learning perspective, we present the first latency-aware collaborative perception system, which actively adapts asynchronous perceptual features from multiple agents to the same time stamp, promoting the robustness and effectiveness of collaboration. To achieve such a feature-level synchronization, we propose a novel latency compensation module, called SyncNet, which leverages feature-attention symbiotic estimation and time modulation techniques. Experiments results show that the proposed latency aware collaborative perception system with SyncNet can outperforms the state-of-the-art collaborative perception method by 15.6% in the communication latency scenario and keep collaborative perception being superior to single agent perception under severe latency.
翻訳日:2022-07-22 10:34:40 公開日:2022-07-21
# 深層学習を用いた3次元歯科画像のセグメンテーション

Segmentation of 3D Dental Images Using Deep Learning ( http://arxiv.org/abs/2207.09582v2 )

ライセンス: Link先を確認
Omar Boudraa(参考訳) 3D画像のセグメンテーションは多くの医学的分析と認識スキームにおいて、最近かつ重要なステップである。 実際、これは関連する研究テーマであり、その重要性と影響から根本的な課題である。 本稿では,最適な3次元セグメンテーション出力を得るために,様々な効率的な手法をハイブリダイズする多相ディープラーニングシステムを提案する。 まず、データの量を減らし、処理時間を短縮するために、デシメート圧縮技術の適用を提案し、正当化する。 次に,CNNモデルを用いて歯科像を15のクラスに分割する。 最後に、孤立メッシュを除去し、歯形を矯正するために、特別なKNNベースの変換を適用した。 実験は, 個人臨床ベンチマークで3次元歯科画像に適用したフレームワークの精度とロバスト性を示す。

3D image segmentation is a recent and crucial step in many medical analysis and recognition schemes. In fact, it represents a relevant research subject and a fundamental challenge due to its importance and influence. This paper provides a multi-phase Deep Learning-based system that hybridizes various efficient methods in order to get the best 3D segmentation output. First, to reduce the amount of data and accelerate the processing time, the application of Decimate compression technique is suggested and justified. We then use a CNN model to segment dental images into fifteen separated classes. In the end, a special KNN-based transformation is applied for the purpose of removing isolated meshes and of correcting dental forms. Experimentations demonstrate the precision and the robustness of the selected framework applied to 3D dental images within a private clinical benchmark.
翻訳日:2022-07-22 10:33:53 公開日:2022-07-21
# ReFactorGNNs: メッセージパッシングの観点からの因子化モデルの再検討

ReFactorGNNs: Revisiting Factorisation-based Models from a Message-Passing Perspective ( http://arxiv.org/abs/2207.09980v2 )

ライセンス: Link先を確認
Yihong Chen, Pushkar Mishra, Luca Franceschi, Pasquale Minervini, Pontus Stenetorp, Sebastian Riedel(参考訳) DistMultのようなファクトライゼーションベースのモデル(FM)は、知識グラフ補完(KGC)タスクの持続的な成功を享受し、しばしばグラフニューラルネットワーク(GNN)を上回っている。 しかし、GNNとは異なり、FMはノード機能を組み込むのに苦労し、インダクティブな設定で見えないノードに一般化する。 我々の研究は、ReFactorGNNを提案し、FMとGNNのギャップを埋める。 この新しいアーキテクチャは、かつては相容れないと考えられていた両方のモデリングパラダイムに基づいている。 具体的には, メッセージパッシング形式を用いて, 勾配降下手順をメッセージパッシング操作として再構成することで, fms を gnn としてキャスティングする方法を示す。 多数の確立されたKGCベンチマークの中で、ReFactorGNNはFMに匹敵するトランスダクティブ性能と最先端のインダクティブ性能を実現し、パラメータの桁数を桁違いに減らした。

Factorisation-based Models (FMs), such as DistMult, have enjoyed enduring success for Knowledge Graph Completion (KGC) tasks, often outperforming Graph Neural Networks (GNNs). However, unlike GNNs, FMs struggle to incorporate node features and to generalise to unseen nodes in inductive settings. Our work bridges the gap between FMs and GNNs by proposing ReFactorGNNs. This new architecture draws upon both modelling paradigms, which previously were largely thought of as disjoint. Concretely, using a message-passing formalism, we show how FMs can be cast as GNNs by reformulating the gradient descent procedure as message-passing operations, which forms the basis of our ReFactorGNNs. Across a multitude of well-established KGC benchmarks, our ReFactorGNNs achieve comparable transductive performance to FMs, and state-of-the-art inductive performance while using an order of magnitude fewer parameters.
翻訳日:2022-07-22 10:31:15 公開日:2022-07-21
# 半教師付き時間行動セグメンテーションにおける行動親和性と継続性

Leveraging Action Affinity and Continuity for Semi-supervised Temporal Action Segmentation ( http://arxiv.org/abs/2207.08653v2 )

ライセンス: Link先を確認
Guodong Ding and Angela Yao(参考訳) 本稿では,時間的行動分割タスクに対する半教師付き学習手法を提案する。 このタスクの目標は、短いビデオセットだけが密にラベル付けされ、大量のビデオがラベル付けされていない長い手続きビデオで、一時的にアクションを検出し、セグメント化することである。 そこで本研究では,非ラベルデータに対する2つの新しい損失関数,アクションアフィニティ損失とアクション連続損失を提案する。 動作アフィニティ損失はラベル付き集合から誘導される動作優先値を設定することにより、ラベル付きサンプル学習を導く。 アクション連続性損失は、アクションの一時的な連続性を強制する。 さらに、より堅牢で信頼性の高い学習のための粗いアクション境界を構築するための適応境界平滑化(ABS)手法を提案する。 提案した損失関数とABSを3つのベンチマークで評価した。 その結果、ラベル付きデータの低量(5%と10%)でアクションセグメンテーション性能を著しく改善し、50%のラベル付きデータによる完全な監視に匹敵する結果を得た。 さらにABSは、完全に教師付き学習に統合された場合のパフォーマンス向上に成功した。

We present a semi-supervised learning approach to the temporal action segmentation task. The goal of the task is to temporally detect and segment actions in long, untrimmed procedural videos, where only a small set of videos are densely labelled, and a large collection of videos are unlabelled. To this end, we propose two novel loss functions for the unlabelled data: an action affinity loss and an action continuity loss. The action affinity loss guides the unlabelled samples learning by imposing the action priors induced from the labelled set. Action continuity loss enforces the temporal continuity of actions, which also provides frame-wise classification supervision. In addition, we propose an Adaptive Boundary Smoothing (ABS) approach to build coarser action boundaries for more robust and reliable learning. The proposed loss functions and ABS were evaluated on three benchmarks. Results show that they significantly improved action segmentation performance with a low amount (5% and 10%) of labelled data and achieved comparable results to full supervision with 50% labelled data. Furthermore, ABS succeeded in boosting performance when integrated into fully-supervised learning.
翻訳日:2022-07-22 10:30:57 公開日:2022-07-21
# x線透視におけるロバストランドマークに基づくステント追跡

Robust Landmark-based Stent Tracking in X-ray Fluoroscopy ( http://arxiv.org/abs/2207.09933v2 )

ライセンス: Link先を確認
Luojie Huang, Yikang Liu, Li Chen, Eric Z. Chen, Xiao Chen, and Shanhui Sun(参考訳) 血管形成術(すなわち冠状動脈開放術)の術式では, バルーンやステントなどの装置をX線蛍光法で動脈内に設置し, 拡張する必要がある。 x線照射の限界のため、結果として生じる画像はしばしば騒がしい。 これらのデバイスの正しい配置をチェックするために、一般的に複数のモーション補償フレームが平均されてビューが向上する。 したがって、デバイス追跡はこの目的のために必要となる手順である。 血管形成装置は, 追跡が容易な無線式マーカーを備えるように設計されているが, 血管形成術におけるマーカーサイズや複雑なシーンが小さいため, 現状の方法では満足いく結果が得られない。 本稿では,u-netベースのランドマーク検出,resnetベースのステント提案と特徴抽出,および空間情報と出現特徴の両方を時間的に集約したグラフ畳み込みニューラルネットワーク(gcn)ベースのステントトラッキングという3つの階層モジュールからなる,単一ステント追跡のためのエンドツーエンドのディープラーニングフレームワークを提案する。 実験の結果,最先端のポイントベース追跡モデルと比較して検出精度が有意に向上した。 さらに、その高速な推論速度は臨床要件を満たす。

In clinical procedures of angioplasty (i.e., open clogged coronary arteries), devices such as balloons and stents need to be placed and expanded in arteries under the guidance of X-ray fluoroscopy. Due to the limitation of X-ray dose, the resulting images are often noisy. To check the correct placement of these devices, typically multiple motion-compensated frames are averaged to enhance the view. Therefore, device tracking is a necessary procedure for this purpose. Even though angioplasty devices are designed to have radiopaque markers for the ease of tracking, current methods struggle to deliver satisfactory results due to the small marker size and complex scenes in angioplasty. In this paper, we propose an end-to-end deep learning framework for single stent tracking, which consists of three hierarchical modules: U-Net based landmark detection, ResNet based stent proposal and feature extraction, and graph convolutional neural network (GCN) based stent tracking that temporally aggregates both spatial information and appearance features. The experiments show that our method performs significantly better in detection compared with the state-of-the-art point-based tracking models. In addition, its fast inference speed satisfies clinical requirements.
翻訳日:2022-07-22 10:30:39 公開日:2022-07-21
# ラグランジアン緩和によるソフト制約車両経路問題の解法

Learning to Solve Soft-Constrained Vehicle Routing Problems with Lagrangian Relaxation ( http://arxiv.org/abs/2207.09860v2 )

ライセンス: Link先を確認
Qiaoyue Tang, Yangzhe Kong, Lemeng Pan, Choonmeng Lee(参考訳) 現実世界のアプリケーションにおける車両ルーティング問題(VRP)は、しばしば様々な制約が伴うため、正確な解法やヒューリスティックな探索手法にさらなる計算課題をもたらす。 近年,サンプルデータからヒューリスティックな動きパターンを学習するアイデアは,ソリューション開発コストの削減にますます期待されている。 しかし、より多くのタイプの制約付きvrpに対処するための学習ベースのアプローチを使うことは依然として課題である。 この難しさは最適解を探しながら制約違反を制御することである。 この課題を解決するために,ラグランジアン緩和手法を導入し,制約付きポリシー最適化を用いてソフト制約付きVRPを解くための強化学習手法を提案する。 本手法は,3種類のVRP,TSPTW(Travelling Salesman Problem with Time Windows),CVRP(Capacitated VRP with Time Windows),CVRPTW(Capacitated VRP with Time Windows)に適用し,提案手法の一般化可能性を示す。 既存のrlベースの手法とオープンソースのヒューリスティックソルバとの比較を行った結果,旅行距離,制約違反,推論速度のバランスが良好であるソリューションを見つけることで,その競合性を示す。

Vehicle Routing Problems (VRPs) in real-world applications often come with various constraints, therefore bring additional computational challenges to exact solution methods or heuristic search approaches. The recent idea to learn heuristic move patterns from sample data has become increasingly promising to reduce solution developing costs. However, using learning-based approaches to address more types of constrained VRP remains a challenge. The difficulty lies in controlling for constraint violations while searching for optimal solutions. To overcome this challenge, we propose a Reinforcement Learning based method to solve soft-constrained VRPs by incorporating the Lagrangian relaxation technique and using constrained policy optimization. We apply the method on three common types of VRPs, the Travelling Salesman Problem with Time Windows (TSPTW), the Capacitated VRP (CVRP) and the Capacitated VRP with Time Windows (CVRPTW), to show the generalizability of the proposed method. After comparing to existing RL-based methods and open-source heuristic solvers, we demonstrate its competitive performance in finding solutions with a good balance in travel distance, constraint violations and inference speed.
翻訳日:2022-07-22 10:30:18 公開日:2022-07-21
# 多視点画像超解像のための幾何認識参照合成

Geometry-Aware Reference Synthesis for Multi-View Image Super-Resolution ( http://arxiv.org/abs/2207.08601v2 )

ライセンス: Link先を確認
Ri Cheng, Yuqi Sun, Bo Yan, Weimin Tan, Chenxi Ma(参考訳) 最近のマルチビューマルチメディアアプリケーションは、高解像度(HR)ビジュアルエクスペリエンスとストレージや帯域幅の制約に悩まされている。 そこで本稿では,MVISR(Multi-View Image Super-Resolution)タスクを提案する。 同じシーンから撮影されたマルチビュー画像の解像度を向上させることを目的としている。 1つの解決策は、低解像度(LR)入力ビューからHR結果を再構成するために画像またはビデオ超解像(SR)手法を適用することである。 しかし、これらの手法はビュー間の大角変換を処理できず、全てのマルチビュー画像の情報を活用できない。 これらの問題に対処するために、幾何情報を用いて全てのLRマルチビューから鋭い詳細を抽出し、LR入力ビューのSRをサポートするMVSRnetを提案する。 具体的には、MVSRnetのGeometry-Aware Reference Synthesisモジュールは、幾何情報と全多視点LR画像を用いて、ピクセル整列HR参照画像を合成する。 そこで提案する動的高周波検索ネットワークは,SRの参照画像における高周波テクスチャの詳細をフル活用する。 いくつかのベンチマーク実験により,本手法は最先端手法よりも大幅に改善されていることが示された。

Recent multi-view multimedia applications struggle between high-resolution (HR) visual experience and storage or bandwidth constraints. Therefore, this paper proposes a Multi-View Image Super-Resolution (MVISR) task. It aims to increase the resolution of multi-view images captured from the same scene. One solution is to apply image or video super-resolution (SR) methods to reconstruct HR results from the low-resolution (LR) input view. However, these methods cannot handle large-angle transformations between views and leverage information in all multi-view images. To address these problems, we propose the MVSRnet, which uses geometry information to extract sharp details from all LR multi-view to support the SR of the LR input view. Specifically, the proposed Geometry-Aware Reference Synthesis module in MVSRnet uses geometry information and all multi-view LR images to synthesize pixel-aligned HR reference images. Then, the proposed Dynamic High-Frequency Search network fully exploits the high-frequency textural details in reference images for SR. Extensive experiments on several benchmarks show that our method significantly improves over the state-of-the-art approaches.
翻訳日:2022-07-22 10:29:55 公開日:2022-07-21
# 3次元表現のための表面符号による潜時分割

Latent Partition Implicit with Surface Codes for 3D Representation ( http://arxiv.org/abs/2207.08631v2 )

ライセンス: Link先を確認
Chao Chen, Yu-Shen Liu, Zhizhong Han(参考訳) 深い暗黙関数は、様々な3dコンピュータビジョンタスクにおいて顕著な形状モデリング能力を示している。 1つの欠点は、3d形状を複数の部品として表現することが難しいことである。 現在の解は、様々なプリミティブを学習し、空間空間に直接プリミティブをブレンドする。 そこで本研究では, 潜在空間の部分集合として1つの3次元形状を表現するための新しい暗黙表現を, 高精度かつ解釈可能な形状モデリングに導入する。 ここでの私たちの洞察は、部分学習と部分ブレンディングの両方が、空間空間よりも潜在空間の方がずっと簡単に行えるということです。 提案手法は,グローバルな形状モデリングを複数の局所的な部分モデリングに流し込み,グローバルな形状統一を分割する能力から,LPI (Latent Partition Implicit) と命名する。 lpiは表面符号を用いた符号付き距離関数(sdfs)の形状を表す。 各曲面符号は, 中心が表面にある部分を表す潜在符号であり, 形状の固有特性や付加表面特性を柔軟に利用することができる。 最終的にLPIは、形状と形状上の部分の両方を再構築することができる。 LPIはマルチレベル表現であり、トレーニング後に形状を異なる数の部品に分割することができる。 LPIは、真実に署名された距離、点正規あるいは部分分割の監督なしに学習することができる。 LPIは、リコンストラクション精度とモデル解釈可能性の観点から、広く使われているベンチマークで最新の手法より優れている。 私たちのコード、データ、モデルはhttps://github.com/chenchao15/lpiで利用可能です。

Deep implicit functions have shown remarkable shape modeling ability in various 3D computer vision tasks. One drawback is that it is hard for them to represent a 3D shape as multiple parts. Current solutions learn various primitives and blend the primitives directly in the spatial space, which still struggle to approximate the 3D shape accurately. To resolve this problem, we introduce a novel implicit representation to represent a single 3D shape as a set of parts in the latent space, towards both highly accurate and plausibly interpretable shape modeling. Our insight here is that both the part learning and the part blending can be conducted much easier in the latent space than in the spatial space. We name our method Latent Partition Implicit (LPI), because of its ability of casting the global shape modeling into multiple local part modeling, which partitions the global shape unity. LPI represents a shape as Signed Distance Functions (SDFs) using surface codes. Each surface code is a latent code representing a part whose center is on the surface, which enables us to flexibly employ intrinsic attributes of shapes or additional surface properties. Eventually, LPI can reconstruct both the shape and the parts on the shape, both of which are plausible meshes. LPI is a multi-level representation, which can partition a shape into different numbers of parts after training. LPI can be learned without ground truth signed distances, point normals or any supervision for part partition. LPI outperforms the latest methods under the widely used benchmarks in terms of reconstruction accuracy and modeling interpretability. Our code, data and models are available at https://github.com/chenchao15/LPI.
翻訳日:2022-07-22 10:29:36 公開日:2022-07-21
# エゴセントリックビデオのストローク後の家庭における手と手の役割の認識

Recognizing Hand Use and Hand Role at Home After Stroke from Egocentric Video ( http://arxiv.org/abs/2207.08920v2 )

ライセンス: Link先を確認
Meng-Fen Tsai, Rosalie H. Wang, and Jo\'se Zariffa(参考訳) はじめに、手機能は脳卒中後の独立の中枢決定因子である。 新しい介入の影響を評価し,新しいウェアラブル技術を求めるためには,家庭環境における手作業の計測が必要である。 egocentric videoは、手とオブジェクトのインタラクションをコンテキストでキャプチャし、双方向のタスク(安定化や操作のために)において、より多くの影響を受ける手がどのように使われているかを示すことができる。 この情報を抽出するには自動的な方法が必要となる。 目的: 脳卒中後の家庭で記録された自発的映像から,人工知能を用いたコンピュータビジョンを用いて手使いと手の役割を分類すること。 方法:21名の脳卒中患者が研究に参加した。 ランダム森林分類器, SlowFast ニューラルネットワーク, Hand Object Detector ニューラルネットワークを用いて, 家庭における手指の使用状況と手指の役割を同定した。 LOSOCV (Leave-One-Subject-Out-Cross-Validation) を用いて3モデルの性能評価を行った。 モデルの群間差はmathews相関係数(mcc)に基づいて算出した。 結果: ハンドオブジェクト検出では, ハンドオブジェクト検出器は他のモデルよりも大幅に高い性能を示した。 このモデルを用いたLOSOCVのマクロ平均MCCは、より影響の大きい手は0.50+-0.23、より影響の少ない手は0.58+-0.18であった。 ハンドロール分類では,LOSOCVのマクロ平均MCCは全モデルで0に近かった。 結論: エゴセントリックビデオを用いて家庭での脳卒中生存者の手の使用を捉えることは可能である。 指の動きを追跡するポス推定は、将来手指の役割を分類するのに有益である。

Introduction: Hand function is a central determinant of independence after stroke. Measuring hand use in the home environment is necessary to evaluate the impact of new interventions, and calls for novel wearable technologies. Egocentric video can capture hand-object interactions in context, as well as show how more-affected hands are used during bilateral tasks (for stabilization or manipulation). Automated methods are required to extract this information. Objective: To use artificial intelligence-based computer vision to classify hand use and hand role from egocentric videos recorded at home after stroke. Methods: Twenty-one stroke survivors participated in the study. A random forest classifier, a SlowFast neural network, and the Hand Object Detector neural network were applied to identify hand use and hand role at home. Leave-One-Subject-Out-Cross-Validation (LOSOCV) was used to evaluate the performance of the three models. Between-group differences of the models were calculated based on the Mathews correlation coefficient (MCC). Results: For hand use detection, the Hand Object Detector had significantly higher performance than the other models. The macro average MCCs using this model in the LOSOCV were 0.50 +- 0.23 for the more-affected hands and 0.58 +- 0.18 for the less-affected hands. Hand role classification had macro average MCCs in the LOSOCV that were close to zero for all models. Conclusion: Using egocentric video to capture the hand use of stroke survivors at home is feasible. Pose estimation to track finger movements may be beneficial to classifying hand roles in the future.
翻訳日:2022-07-22 10:29:09 公開日:2022-07-21
# PoserNet: オブジェクト検出を爆発させるカメラの精製

PoserNet: Refining Relative Camera Poses Exploiting Object Detections ( http://arxiv.org/abs/2207.09445v2 )

ライセンス: Link先を確認
Matteo Taiana, Matteo Toso, Stuart James, Alessio Del Bue(参考訳) 画像の集合に関連付けられたカメラのポーズの推定は、画像間の特徴マッチングによく依存する。 対照的に、私たちは、明示的なセマンティックオブジェクト検出よりも、ポーズ推定問題を導出するために、オブジェクトネス領域を使用して、この課題に最初に取り組みます。 本稿では,一対関係カメラのポーズを近似的に改善する軽量グラフニューラルネットワークPose Refiner Network(PoserNet)を提案する。 PoserNetは、複数のビューにまたがってオブジェクト性領域(正確には境界ボックスとして表現される)の関連を利用して、疎結合なビューグラフをグローバルに洗練する。 グラフのさまざまなサイズにわたる7-scenesデータセットを評価し,境界ボックスに基づいて得られた初期推定値に対して,回転の中央誤差を62度向上させる最適化に基づく運動平均化アルゴリズムに,このプロセスがいかに有用かを示す。 コードとデータはhttps://github.com/IIT-PAVIS/PoserNetで公開されている。

The estimation of the camera poses associated with a set of images commonly relies on feature matches between the images. In contrast, we are the first to address this challenge by using objectness regions to guide the pose estimation problem rather than explicit semantic object detections. We propose Pose Refiner Network (PoserNet) a light-weight Graph Neural Network to refine the approximate pair-wise relative camera poses. PoserNet exploits associations between the objectness regions - concisely expressed as bounding boxes - across multiple views to globally refine sparsely connected view graphs. We evaluate on the 7-Scenes dataset across varied sizes of graphs and show how this process can be beneficial to optimisation-based Motion Averaging algorithms improving the median error on the rotation by 62 degrees with respect to the initial estimates obtained based on bounding boxes. Code and data are available at https://github.com/IIT-PAVIS/PoserNet.
翻訳日:2022-07-22 10:28:44 公開日:2022-07-21
# 第4回ABAWコンペティションにおけるHSE-NNチーム: マルチタスク感情認識と合成画像からの学習

HSE-NN Team at the 4th ABAW Competition: Multi-task Emotion Recognition and Learning from Synthetic Images ( http://arxiv.org/abs/2207.09508v2 )

ライセンス: Link先を確認
Andrey V. Savchenko(参考訳) 本稿では,第4回ABAW(Affective Behavior Analysis in the-wild)コンペティションにおけるHSE-NNチームの結果を紹介する。 新たなマルチタスク・エフィシエントネットモデルでは,表情の同時認識と,静止画像上での価値と覚醒の予測を訓練する。 MT-EmotiEffNetは、マルチタスク学習課題において、単純なフィードフォワードニューラルネットワークに入力される視覚的特徴を抽出する。 s-aff-wild2データベース上でのみトレーニングされるベースライン(0.3)や既存モデルと比較した場合,検証セットの性能測定値1.3を得た。 合成データチャレンジからの学習において、Real-ESRGANのような超解像技術を用いて、元の合成トレーニングセットの品質を高める。 次に、MT-EmotiEffNetは、新しいトレーニングセットに基づいて微調整される。 最後の予測は、事前訓練されたMT-EmotiEffNetsの単純な混合アンサンブルである。 我々の平均検証F1スコアは、ベースライン畳み込みニューラルネットワークよりも18%大きい。

In this paper, we present the results of the HSE-NN team in the 4th competition on Affective Behavior Analysis in-the-wild (ABAW). The novel multi-task EfficientNet model is trained for simultaneous recognition of facial expressions and prediction of valence and arousal on static photos. The resulting MT-EmotiEffNet extracts visual features that are fed into simple feed-forward neural networks in the multi-task learning challenge. We obtain performance measure 1.3 on the validation set, which is significantly greater when compared to either performance of baseline (0.3) or existing models that are trained only on the s-Aff-Wild2 database. In the learning from synthetic data challenge, the quality of the original synthetic training set is increased by using the super-resolution techniques, such as Real-ESRGAN. Next, the MT-EmotiEffNet is fine-tuned on the new training set. The final prediction is a simple blending ensemble of pre-trained and fine-tuned MT-EmotiEffNets. Our average validation F1 score is 18% greater than the baseline convolutional neural network.
翻訳日:2022-07-22 10:28:26 公開日:2022-07-21
# ポラリメトリック3次元再構成のための位相角モデル

Perspective Phase Angle Model for Polarimetric 3D Reconstruction ( http://arxiv.org/abs/2207.09629v2 )

ライセンス: Link先を確認
Guangcheng Chen, Li He, Yisheng Guan, Hong Zhang(参考訳) 現在の偏光3次元再構成法は、偏光文学から確立された形状を含む、全て正射影仮定の下で開発されている。 しかし、広い視野で見れば、この仮定は成立せず、この仮定を仮定する手法において重大な再構成誤りをもたらす可能性がある。 この問題に対処するために,視線カメラに適用可能な視線位相角(PPA)モデルを提案する。 正弦波モデルと比較して,提案したPPAモデルは視線投影下での偏光位相角と表面正規度の関係を正確に記述する。 加えて、ppaモデルは1つの単視点位相角マップから表面正規値の推定を可能にし、いわゆる$\pi$-ambiguity問題に苦しむことはない。 実データを用いた実験により,PPAモデルの方が視線カメラによる表面正規推定に精度が高いことが示された。

Current polarimetric 3D reconstruction methods, including those in the well-established shape from polarization literature, are all developed under the orthographic projection assumption. In the case of a large field of view, however, this assumption does not hold and may result in significant reconstruction errors in methods that make this assumption. To address this problem, we present the perspective phase angle (PPA) model that is applicable to perspective cameras. Compared with the orthographic model, the proposed PPA model accurately describes the relationship between polarization phase angle and surface normal under perspective projection. In addition, the PPA model makes it possible to estimate surface normals from only one single-view phase angle map and does not suffer from the so-called $\pi$-ambiguity problem. Experiments on real data show that the PPA model is more accurate for surface normal estimation with a perspective camera than the orthographic model.
翻訳日:2022-07-22 10:28:08 公開日:2022-07-21