このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220724となっている論文です。

PDF登録状況(公開日: 20220724)

TitleAuthorsAbstract論文公表日・翻訳日
# スケーラブル量子論理分光法

Scalable quantum logic spectroscopy ( http://arxiv.org/abs/2207.11768v1 )

ライセンス: Link先を確認
Kaifeng Cui, Jose Valencia, Kevin T. Boyce, David R. Leibrandt and David B. Hume(参考訳) 量子論理分光法(QLS)では、捕獲されたイオンの1種が、他のアクセス不能なイオン種の状態を検出するセンサーとして用いられる。 これは原子時計や基礎物理学のテストのような応用のために、精密測定を幅広い原子・分子系のクラスに拡張する。 本稿では,qlをより大きなイオン数にスケールする問題に対処するために,schr\"{o}dinger cat interferometerに基づく新しい手法を開発した。 本稿では,$^{25}\text{mg}^+$ logic ionsと$^{27}\text{al}^+$ spectroscopy ionsの組み合わせを用いて,本手法の基本特性を示す。 我々は、$^{25}\text{mg}^+$イオンの数を増やすことにより、より高い検出効率を観測する。 複数の$^{27}\text{al}^+$に適用されるこの方法は、高精度の光時計の安定性を改善し、ハイゼンベルク制限のqlsを可能にする。

In quantum logic spectroscopy (QLS), one species of trapped ion is used as a sensor to detect the state of an otherwise inaccessible ion species. This extends precision measurements to a broader class of atomic and molecular systems for applications like atomic clocks and tests of fundamental physics. Here, we develop a new technique based on a Schr\"{o}dinger cat interferometer to address the problem of scaling QLS to larger ion numbers. We demonstrate the basic features of this method using various combinations of $^{25}\text{Mg}^+$ logic ions and $^{27}\text{Al}^+$ spectroscopy ions. We observe higher detection efficiency by increasing the number of $^{25}\text{Mg}^+$ ions. Applied to multiple $^{27}\text{Al}^+$, this method will improve the stability of high-accuracy optical clocks and could enable Heisenberg-limited QLS.
翻訳日:2023-02-03 22:16:36 公開日:2022-07-24
# 多体量子系の計測に基づく冷却

Measurement-based cooling of many-body quantum systems ( http://arxiv.org/abs/2207.11726v1 )

ライセンス: Link先を確認
Tarek A. Elsayed(参考訳) 未知のハミルトン系の多体量子系を高忠実度で基底状態に冷却する新しい手法を導入する。 この手法は強磁場をスイッチし、射影的測定とrfパルスのシーケンスを適用して外部磁場の方向に沿ってシステムを分極し、断続的にフィールドをオフにする。 系の基底状態への進化は、量子断熱定理によって制御される。 提案手法はNMR状態準備の分野に特に関係している。 長距離相互作用と短距離相互作用を有する量子スピン鎖に適用する手法の数値シミュレーション結果を示す。

We introduce a new technique for cooling many-body quantum systems of unknown Hamiltonians to their ground states with a high fidelity. The technique works by switching on a strong field and applying a sequence of projective measurements and RF pulses to polarize the system along the direction of the external field before we adiabatically switch the field off. The evolution of the system towards its ground state is governed by the quantum adiabatic theorem. The proposed technique is particularly relevant to the field of NMR state preparation. We present numerical simulation results for the technique applied to quantum spin chains with long and short range interactions.
翻訳日:2023-02-03 22:16:21 公開日:2022-07-24
# 量子コヒーレンスはド・ジッター空間における曲率効果によって増加するか?

Would quantum coherence be increased by curvature effect in de Sitter space? ( http://arxiv.org/abs/2207.11721v1 )

ライセンス: Link先を確認
Shu-Min Wu, Chun-Xu Wang, Dan-Dan Liu, Xiao-Li Huang, Hao-Sheng Zeng(参考訳) 自由質量スカラー場の2つのモードの間で当初は絡み合った状態を共有するアリスとボブの二成分系に対するド・ジッター空間の量子コヒーレンスについて研究する。 空間曲率効果は局所的コヒーレンスと相関的コヒーレンスの両方を生じさせ, バイパルタイト系の総コヒーレンスを増大させることを示した。 これらの結果はアンルー効果やホーキング効果と大きく異なり、単一のモード近似では局所的なコヒーレンスを生成できず、同時に相関したコヒーレンスを破壊し、バイパルタイト系全体のコヒーレンスを減少させる。 興味深いことに、量子コヒーレンスはド・ジッター空間の量子相関と比較して逆の挙動を持つ。 また,共形不変性と無質量性の場合,量子コヒーレンスはド・ジッター空間の曲率効果に最も強く影響されることがわかった。 本結果は,ド・ジッター空間における曲率効果とリンドラー時空におけるウンルー効果,ブラックホール時空におけるホーキング効果と量子コヒーレンスとの関係を明らかにする。

We study the quantum coherence in de Sitter space for the bipartite system of Alice and Bob who initially share an entangled state between the two modes of a free massive scalar field. It is shown that the space-curvature effect can produce both local coherence and correlated coherence, leading to the increase of the total coherence of the bipartite system. These results are sharp different from the Unruh effect or Hawking effect, which, in the single mode approximation, cannot produce local coherence and at the same time destroy correlated coherence, leading to the decrease of the total coherence of the bipartite systems. Interestingly, we find that quantum coherence has the opposite behavior compared with the quantum correlation in de Sitter space. We also find that quantum coherence is most severely affected by the curvature effect of de Sitter space for the cases of conformal invariance and masslessness. Our result reveals the difference between the curvature effect in the de Sitter space and the Unruh effect in Rindler spacetime or the Hawking effect in black hole spacetime on quantum coherence.
翻訳日:2023-02-03 22:16:12 公開日:2022-07-24
# 連続可変量子鍵分布のための離散変調フォーマットの実験的実証

Experimental Demonstration of Discrete Modulation Formats for Continuous Variable Quantum Key Distribution ( http://arxiv.org/abs/2207.11702v1 )

ライセンス: Link先を確認
Fran\c{c}ois Roumestan, Amirhossein Ghazisaeidi, J\'er\'emie Renaudier, Luis Trigo Vidarte, Anthony Leverrier, Eleni Diamanti, Philippe Grangier(参考訳) 量子鍵分布(QKD)は、盗聴に脆弱なチャネルを介して接続されたユーザ間の秘密鍵の確立を可能にする。 連続変数(CV)の鍵情報の符号化に基づくQKDシステムは、コヒーレント状態の二次成分の値のように、標準的な通信技術のみを必要とするという大きな利点を示す。 しかし、CV-QKDの最も一般的なセキュリティ証明は送信機によるガウス変調の使用であり、実用的な実装を複雑にしている。 ここでは,任意のガウス型離散変調を可能にするプロトコルを実験的に実装し,そのセキュリティは,そのような状況に広く適用される理論的証明に基づいている。 これらの変調フォーマットは、コヒーレント光通信の強力なツールの使用と互換性があり、25km以上の秘密鍵レートで毎秒数十メガビットの性能に達することができる。

Quantum key distribution (QKD) enables the establishment of secret keys between users connected via a channel vulnerable to eavesdropping, with information-theoretic security, that is, independently of the power of a malevolent party. QKD systems based on the encoding of the key information on continuous variables (CV), such as the values of the quadrature components of coherent states, present the major advantage that they only require standard telecommunication technology. However, the most general security proofs for CV-QKD required until now the use of Gaussian modulation by the transmitter, complicating practical implementations. Here, we experimentally implement a protocol that allows for arbitrary, Gaussian-like, discrete modulations, whose security is based on a theoretical proof that applies very generally to such situations. These modulation formats are compatible with the use of powerful tools of coherent optical telecommunication, allowing our system to reach a performance of tens of megabit per second secret key rates over 25 km.
翻訳日:2023-02-03 22:15:51 公開日:2022-07-24
# 非摂動光マッターカップリングを用いた実空間ナノフォトニックフィールド操作の展望

Perspective on real-space nanophotonic field manipulation using non-perturbative light-matter coupling ( http://arxiv.org/abs/2207.11691v1 )

ライセンス: Link先を確認
Erika Cortese, Joshua Mornhinweg, Rupert Huber, Christoph Lange and Simone De Liberato(参考訳) ナノエンジニアリングフォトニック構造における光マッター結合の大きな値の達成は、同じハイブリッドポラリトンモードの最終特性に寄与する複数のフォトニック共鳴をもたらす可能性がある。 次元を縮小した系において,多モード光マッター結合を記述する一般理論を開発し,その新しい現象論を探求し,数値電磁シミュレーションに対する理論の予測を検証する。 一方、偏光子の多モード特性と関連するスペクトル特徴を特徴付ける。 一方, 異なるフォトニック共鳴間の干渉が, それぞれのポラリトンモードに関連付けられた電磁界の実空間形状をどのように変化させるかを示す。 我々は、ナノフォトニック共振器がマルチモード混合を最大化し、応用外界を介して偏光子モードを変化させることによって、サブ波長電磁界の動的実空間調整が可能となると論じる。

The achievement of large values of the light-matter coupling in nanoengineered photonic structures can lead to multiple photonic resonances contributing to the final properties of the same hybrid polariton mode. We develop a general theory describing multi-mode light-matter coupling in systems of reduced dimensionality and we explore their novel phenomenology, validating the predictions of our theory against numerical electromagnetic simulations. On the one hand, we characterise the spectral features linked with the multi-mode nature of the polaritons. On the other hand, we show how the interference between different photonic resonances can modify the real-space shape of the electromagnetic field associated with each polariton mode. We argue that the possibility of engineering nanophotonic resonators to maximise the multi-mode mixing, and to alter the polariton modes via applied external fields, could allow for the dynamical real-space tailoring of subwavelength electromagnetic fields.
翻訳日:2023-02-03 22:15:35 公開日:2022-07-24
# Wigner-Molecularization 対応動的核場プログラミング

Wigner-molecularization-enabled dynamic nuclear field programming ( http://arxiv.org/abs/2207.11655v1 )

ライセンス: Link先を確認
Wonjin Jang, Jehyun Kim, Jaemin Park, Gyeonghun Kim, Min-Kyun Cho, Hyeongyu Jang, Sangwoo Sim, Byoungwoo Kang, Hwanchul Jung, Vladimir Umansky, and Dohun Kim(参考訳) 多電子半導体量子ドット(qds)は、有限量子系におけるクーロン相関の役割と多体エネルギースペクトルへの影響を研究する新しいプラットフォームを提供する。 例えば、wigner分子(wms)の相互作用駆動、空間局在電子状態の形成がある。 ウィグナー分子化は実空間イメージングとコヒーレント分光によって確認されているが、環境と強く関連している状態の開系力学はまだよく分かっていない。 本稿では,人工三電子WMと核環境との間のスピン移動の効率的な制御をGaAs二重QDで実証する。 wigner分子化によって実現されるlandau-zener sweep-based polarization sequenceとスピン多重状態の低次アンチクロスを利用する。 効率的な偏光速度は2.58 $h \cdotp kHz \cdotp (g^* \cdotp \mu_B)^{-1}$1電子スピンフリップであり、制御された単一電子トンネルによるプログラム可能な核偏光を実現する。 スピン状態のコヒーレント制御と組み合わさって、核場の大きさ、極性、および部位依存性の制御を実現する。 非相互作用体制では、同じレベルの制御が達成できないことが示されている。 したがって、WMの多重スピン構造を確認し、メソスコピック環境工学への応用のために、新たに出現する相関電子状態のアクティブな制御方法を編み出した。

Multielectron semiconductor quantum dots (QDs) provide a novel platform to study the role of Coulomb correlations in finite quantum systems and their impact on many-body energy spectra. An example is the formation of interaction-driven, spatially localized electron states of Wigner molecules (WMs). Although Wigner molecularization has been confirmed by real-space imaging and coherent spectroscopy, the open system dynamics of the strongly-correlated states with the environment are not yet well understood. Here, we demonstrate efficient control of spin transfer between an artificial three-electron WM and the nuclear environment in a GaAs double QD. A Landau-Zener sweep-based polarization sequence and low-lying anti-crossings of spin multiplet states enabled by Wigner molecularization are utilized. An efficient polarization rate of 2.58 $h \cdotp kHz \cdotp (g^* \cdotp \mu_B)^{-1}$ per electron spin flip and, consequently, programmable nuclear polarization by controlled single-electron tunneling are achieved. Combined with coherent control of spin states, we achieve control of magnitude, polarity, and site dependence of the nuclear field. It is demonstrated that the same level of control cannot be achieved in the non-interacting regime. Thus, we confirm the multiplet spin structure of a WM, paving the way for active control of newly emerging correlated electron states for application in mesoscopic environment engineering.
翻訳日:2023-02-03 22:15:01 公開日:2022-07-24
# 量子状態整合問題に対する最大エントロピー法

Maximum entropy methods for quantum state compatibility problems ( http://arxiv.org/abs/2207.11645v1 )

ライセンス: Link先を確認
Shi-Yao Hou, Zipeng Wu, Jinfeng Zeng, Ningping Cao, Chenfeng Cao, Youning Li, and Bei Zeng(参考訳) 不完全情報から量子システムを推定することは、量子情報科学や応用の多くの面で共通の問題であり、最大エントロピー(MaxEnt)の原理が重要な役割を果たす。 量子状態整合性問題は、与えられた測定結果と適合する密度行列$\rho$が存在するかどうかを問う。 このような互換性問題は半定値プログラミング(SDP)として自然に定式化することができ、$\rho$の存在を直接検索する。 しかし、大規模なシステム次元ではパラメータが多すぎるため、$\rho$を直接表現することは困難である。 本研究では,量子周縁問題を含む様々な量子状態互換問題に対してmaxentを適用する。 MaxEntメソッドの直接的な利点は、測定された演算子の数である比較的少数のパラメータを通して$\rho$を表す必要があることである。 さらに,不整合の測定結果が不整合の場合,本手法では,互換集合の支持超平面である証人を返却する。 本手法は, 幾何学的意味が明確であり, ハイブリッド量子古典アルゴリズムで効果的に計算できる。

Inferring a quantum system from incomplete information is a common problem in many aspects of quantum information science and applications, where the principle of maximum entropy (MaxEnt) plays an important role. The quantum state compatibility problem asks whether there exists a density matrix $\rho$ compatible with some given measurement results. Such a compatibility problem can be naturally formulated as a semidefinite programming (SDP), which searches directly for the existence of a $\rho$. However, for large system dimensions, it is hard to represent $\rho$ directly, since it needs too many parameters. In this work, we apply MaxEnt to solve various quantum state compatibility problems, including the quantum marginal problem. An immediate advantage of the MaxEnt method is that it only needs to represent $\rho$ via a relatively small number of parameters, which is exactly the number of the operators measured. Furthermore, in case of incompatible measurement results, our method will further return a witness that is a supporting hyperplane of the compatible set. Our method has a clear geometric meaning and can be computed effectively with hybrid quantum-classical algorithms.
翻訳日:2023-02-03 22:13:58 公開日:2022-07-24
# カスケード超放射率モデル

A Cascade Superradiance Model ( http://arxiv.org/abs/2207.11841v1 )

ライセンス: Link先を確認
Gombojav O. Ariunbold(参考訳) 最近, 自然発生カスケード放出が注目されている。 多くの成功にもかかわらず、複雑さの深い理解はまだ欠けている。 このモチベーションにより,新しい単純なカスケード超放射能モデルが開発されている。 同一の2レベル原子の既存のモデルは、新しい洞察によって再検討される。 平均時間遅延とゆらぎの時間変化を導入し、超放射時間遅延を4つの異なる方法で求める。 これらの定式化により、2レベルモデルをカスケード3レベルモデルに拡張することができる。 相関した2モード放射と特性について詳細に論じる。 将来的には、例えば量子ノイズのクエンチにおいて、集合原子からの相関した放出が用いられる。

Intriguing collective spontaneous cascade emissions have recently been realized. In despite of much success, a depth understanding of the complexity is still lacking. With this motivation, a new simple cascade superradiance model is developed in this work. The existing model of identical two-level atoms is reexamined with a new insight. Temporal evolutions of average time delays and the fluctuations are introduced and the superradiance time delays are obtained in four different ways. These formulations allow to extend the two-level model to a cascade three-level model. The correlated two-mode emissions and the characteristics are discussed in detail. In the future, the correlated emissions from the collective atoms may be used, for example, in quantum noise quenching.
翻訳日:2023-02-03 22:07:29 公開日:2022-07-24
# システムバスダイナミクスのための小行列経路積分のツリーベース実装

Tree-based Implementation of the Small Matrix Path Integral for System-Bath Dynamics ( http://arxiv.org/abs/2207.11830v1 )

ライセンス: Link先を確認
Geshuo Wang and Zhenning Cai(参考訳) small matrix path integral (smatpi) 法は、高調波浴に結合した量子系の進化をシミュレートする効率的な数値的手法である。 我々は,smatpi行列の計算に焦点をあて,計算コストの厳密な研究を行う。 その結果,各経路の計算コストはメモリ長とともに指数関数的にスケールし,各経路の計算コストが多項式時間以内であるSMatPI行列の繰り返し関係が明らかになった。 アルゴリズムの実装は暗黙のツリー構造に基づいており、メモリコストはメモリ長の2乗としてスケールする必要がある。 このアルゴリズムは `t-smatpi' と呼ばれ、数値実験において古典的反復的準断熱プロパゲータ経路積分と比較することで検証される。

The small matrix path integral (SMatPI) method is an efficient numerical approach to simulate the evolution of a quantum system coupled to a harmonic bath. We focus on the computation of SMatPI matrices and perform some rigorous study of its computational cost. Finding that the computational cost for each path scales exponentially with the memory length, we figure out a recurrence relation of SMatPI matrices by which the computational cost for each path is within polynomial time. The implementation of the algorithm is based on an implicit tree structure, requiring memory cost to scale as the square of the memory length. The algorithm is called ``t-SMatPI'' and is validated by comparing with the classical iterative quasi-adiabatic propagator path integral in our numerical tests.
翻訳日:2023-02-03 22:07:21 公開日:2022-07-24
# クリーンリミット中のニオブ:内在型超伝導体

Niobium in clean limit: an intrinsic type-I superconductor ( http://arxiv.org/abs/2207.11829v1 )

ライセンス: Link先を確認
Ruslan Prozorov, Mehdi Zarea, James A. Sauls(参考訳) ニオブは理論上も実験的にも最も研究されている超伝導体の一つである。 強力な磁石から量子コンピューティングまで、超伝導応用のあらゆる分野において非常に重要である。 したがって、その基本的な性質を詳細に理解することが不可欠である。 ここでは, 異方性電子, フォノン, 超伝導特性の最近の微視的計算結果を用いて, 従来のギンツブルグ・ランダウパラメータ$\kappa$-に基づく行列式よりも, 超伝導のタイプに熱力学的基準を適用し, 純ニオブがクリーン限界のタイプI超伝導体であることを示す。 しかし、障害(不純物、欠陥、ひずみ、ストレス)はそれをII型超伝導体へと押し上げる。

Niobium is one of the most researched superconductors, both theoretically and experimentally. It is enormously significant in all branches of superconducting applications, from powerful magnets to quantum computing. It is, therefore, imperative to understand its fundamental properties in great detail. Here we use the results of recent microscopic calculations of anisotropic electronic, phonon, and superconducting properties, and apply thermodynamic criterion for the type of superconductivity, more accurate and straightforward than a conventional Ginzburg-Landau parameter $\kappa$ - based delineation, to show that pure niobium is a type-I superconductor in the clean limit. However, disorder (impurities, defects, strain, stress) pushes it to become a type-II superconductor.
翻訳日:2023-02-03 22:07:08 公開日:2022-07-24
# ハイブリッド階層運動方程式による光収穫錯体の電荷とエネルギー移動の結合ダイナミクス

Coupled charge and energy transfer dynamics in light harvesting complexes from a hybrid hierarchical equations of motion approach ( http://arxiv.org/abs/2207.11826v1 )

ライセンス: Link先を確認
Thomas P. Fay, David T. Limmer(参考訳) 本稿では,タンパク質-ピグメント複合体の励起子ダイナミクスをシミュレートする方法について述べる。 この方法は、励起子の量子力学を記述するために用いられる運動の階層方程式と、より遅い電荷移動過程を記述するために用いられる中島・ズワンジグ量子マスター方程式を組み合わせる。 本研究は,多くの植物において非光化学反応を制御するためのタンパク質である光収穫複合体IIの電荷移動焼成について検討した。 ハイブリッドアプローチを用いることで、計算と励起寿命の実験的測定との間に良い一致が得られた。 さらに,エキシトンエネルギーがクエンチング効率を決定する上で重要な役割を担っていることが明らかとなった。 これはまた、エキシトンダイナミクスと電荷移動過程の相互作用を適切に考慮したシミュレーション方法の必要性を浮き彫りにしている。

We describe a method for simulating exciton dynamics in protein-pigment complexes, including effects from charge transfer as well as fluorescence. The method combines the hierarchical equations of motion, which are used to describe quantum dynamics of excitons, and the Nakajima-Zwanzig quantum master equation, which is used to describe slower charge transfer processes. We study the charge transfer quenching in light harvesting complex II, a protein postulated to control non-photochemcial quenching in many plant species. Using our hybrid approach, we find good agreement between our calculation and experimental measurements of the excitation lifetime. Furthermore our calculations reveal that the exciton energy funnel plays an important role in determining quenching efficiency, a conclusion we expect to extend to other proteins that perform protective excitation quenching. This also highlights the need for simulation methods that properly account for the interplay of exciton dynamics and charge transfer processes.
翻訳日:2023-02-03 22:06:55 公開日:2022-07-24
# 超伝導量子プロセッサにおける量子ホール効果のシミュレーション

Simulating quantum Hall effects on a superconducting quantum processor ( http://arxiv.org/abs/2207.11797v1 )

ライセンス: Link先を確認
Zhong-Cheng Xiang, Kaixuan Huang, Yu-Ran Zhang, Tao Liu, Yun-Hao Shi, Cheng-Lin Deng, Tong Liu, Hao Li, Gui-Han Liang, Zheng-Yang Mei, Haifeng Yu, Guangming Xue, Ye Tian, Xiaohui Song, Zhi-Bo Liu, Kai Xu, Dongning Zheng, Franco Nori, and Heng Fan(参考訳) 量子ホール効果は、現代の凝縮物質物理学の基本であり、新しい理論を継続的に刺激し、物質の創発的な相を予測する。 量子ホール効果やその他の興味深い量子トポロジカル現象を、バルクエッジ対応をテストすることによって解析することは、量子シミュレーションプラットフォームでは難しい。 プログラム可能な30qubit-ladder超伝導プロセッサ上で,合成次元の量子ホール効果を実験的に実証する。 動的分光法を用いて、Aubry-Andr\'{e}-Harper鎖の様々な例で合成次元に沿って量子ホール系のバンド構造を直接測定する。 エッジ量子ビットに初期化された励起の量子ウォークを観測することにより、位相的に保護されたカイラルエッジ状態の動的局在を観察する。 これら2つのトポロジーのシグネチャを用いて,量子ホール効果におけるバルクエッジ対応を実装した。 さらに、2つの異なる2層量子トポロジー系をラダー型超伝導プロセッサ上でシミュレートする。 2つの結合鎖に対する同じ周期的に変調されたオンサイトポテンシャルでは、ホール伝導率ゼロの位相的非自明なエッジ状態が観測され、一方、2つの鎖で変調されたオンサイトポテンシャルに対して高いチャーン数を持つ量子ホール効果が観測される。 本研究は、超伝導量子ビットを用いた量子物質の様々な興味深い位相の研究の可能性を示す。

The quantum Hall effect, fundamental in modern condensed matter physics, continuously inspires new theories and predicts emergent phases of matter. Analyzing the quantum Hall effect and other intriguing quantum topological phenomena by testing the bulk-edge correspondence remains challenging on quantum simulation platforms. We experimentally demonstrate quantum Hall effects with synthetic dimensions on a programable 30-qubit-ladder superconducting processor. Using a dynamic spectroscopic technique, we directly measure the band structures of the quantum Hall systems along synthetic dimensions with various instances of Aubry-Andr\'{e}-Harper chains. By monitoring the quantum walks of an excitation initialized at the edge qubit, we observe dynamical localization of the topologically protected chiral edge states. With these two signatures of topology, our experiments implement the bulk-edge correspondence in the quantum Hall effect. Moreover, we simulate two different bilayer quantum topological systems on the ladder-type superconducting processor. With the same periodically modulated on-site potentials for two coupled chains, the topologically nontrivial edge states with zero Hall conductivity are observed, while we probe a quantum Hall effect with higher Chern numbers for opposite on-site potentials modulated for two chains. Our work shows the potential of using superconducting qubits for investigating different intriguing topological phases of quantum matter.
翻訳日:2023-02-03 22:06:38 公開日:2022-07-24
# なぜ干渉現象は量子理論の本質を捉えないのか?

Reply to "Comment on 'Why interference phenomena do not capture the essence of quantum theory' " ( http://arxiv.org/abs/2207.11791v1 )

ライセンス: Link先を確認
Lorenzo Catani, Matthew Leifer, David Schmid and Robert W. Spekkens(参考訳) 我々の論文[arXiv:2111.13727(2021)]は、伝統的に問題と見なされる干渉の現象論は、実際には、ファインマンらの主張に反して、量子理論の本質を捉えていないと主張している。 これは、この現象論を再現するが、古典的世界観を犠牲にしない「トイ場理論」と呼ばれる物理理論の存在を実証することによるものである。 彼らのコメント[arXiv:2204.01768(2022)]で、HanceとHossenfelderは我々の主張に異議を唱えた。 そこで見つかった誤った主張を訂正し、彼らの批判に答えることで、この記事のいくつかのアイデアをさらに明確にする機会が得られます。

Our article [arXiv:2111.13727(2021)] argues that the phenomenology of interference that is traditionally regarded as problematic does not, in fact, capture the essence of quantum theory -- contrary to the claims of Feynman and many others. It does so by demonstrating the existence of a physical theory, which we term the "toy field theory", that reproduces this phenomenology but which does not sacrifice the classical worldview. In their Comment [arXiv:2204.01768(2022)], Hance and Hossenfelder dispute our claim. Correcting mistaken claims found therein and responding to their criticisms provides us with an opportunity to further clarify some of the ideas in our article.
翻訳日:2023-02-03 22:06:13 公開日:2022-07-24
# 1 + 1)d量子セルオートマトンを用いた大規模量子ニューラルネットワークにおける集団効果の探索

Using (1 + 1)D Quantum Cellular Automata for Exploring Collective Effects in Large Scale Quantum Neural Networks ( http://arxiv.org/abs/2207.11777v1 )

ライセンス: Link先を確認
Edward Gillman, Federico Carollo and Igor Lesanovsky(参考訳) 量子機械学習の分野の中心は、量子パーセプトロンとニューラルネットワークアーキテクチャの設計である。 この点において重要な問題は、そのようなモデルが情報を処理する方法に対する量子効果の影響である。 ここでは、局所量子ゲートの逐次適用による離散的非平衡量子多体ダイナミクスを実装する$(1+1)d$量子セルセルオートマトンと、隣接層を相互接続するパーセプトロンを介して情報を処理する再帰的量子ニューラルネットワークとの接続を確立することにより、この問題にアプローチする。 この関係により、量子ニューラルネットワークにおける情報の処理は、等価なセルオートマトン力学の性質の観点から研究することができる。 我々は、コヒーレントなハミルトニアン進化に関連するような量子効果の導入を可能にする量子ゲート(パーセプトロン)のクラスを構築し、連続時間リンドブラッドダイナミクスへの厳密なリンクを確立することでこれを活用する。 さらに、特定の量子セルオートマトンの普遍的特性を解析し、量子効果が変化する際の臨界挙動の変化を同定し、大規模ニューラルネットワークにおける情報処理の基礎となる集団的動的挙動に実際に影響を及ぼすことを実証する。

Central to the field of quantum machine learning is the design of quantum perceptrons and neural network architectures. A key question in this regard is the impact of quantum effects on the way in which such models process information. Here, we approach this question by establishing a connection between $(1+1)D$ quantum cellular automata, which implement a discrete nonequilibrium quantum many-body dynamics through the successive application of local quantum gates, and recurrent quantum neural networks, which process information by feeding it through perceptrons interconnecting adjacent layers. This relation allows the processing of information in quantum neural networks to be studied in terms of the properties of their equivalent cellular automaton dynamics. We exploit this by constructing a class of quantum gates (perceptrons) that allow for the introduction of quantum effects, such as those associated with a coherent Hamiltonian evolution, and establish a rigorous link to continuous-time Lindblad dynamics. We further analyse the universal properties of a specific quantum cellular automaton, and identify a change of critical behavior when quantum effects are varied, demonstrating that they can indeed affect the collective dynamical behavior underlying the processing of information in large-scale neural networks.
翻訳日:2023-02-03 22:05:16 公開日:2022-07-24
# 産業ロボットコラボレーションにおけるポース予測

Pose Forecasting in Industrial Human-Robot Collaboration ( http://arxiv.org/abs/2208.07308v1 )

ライセンス: Link先を確認
Alessio Sampieri, Guido D'Amely, Andrea Avogaro, Federico Cunico, Geri Skenderi, Francesco Setti, Marco Cristani, Fabio Galasso(参考訳) 産業環境における協調型ロボットのフロンティアを後押しし、ポーズ予測のための分離型グラフ畳み込みネットワーク(SeS-GCN)を提案する。 初めて、SeS-GCNは、GCNの空間的、時間的、チャネル的次元の相互作用をボトルネックにし、教師が学習するフレームワークによって、スパース隣接行列を学習する。 最先端技術と比較すると、パラメータの1.72%しか使用せず、約4倍高速であるが、将来1秒でHuman3.6Mの予測精度は相変わらず向上し、コボットは人間のオペレーターを認識できる。 第2の貢献として,産業協力におけるCobotsとHumansの新しいベンチマークを提案する。 CHICOには、マルチビュービデオ、20人のオペレーターとコボットの3Dポーズと軌道が含まれ、7つの現実的な産業行動に関わっている。 さらに、人間とロボットの相互作用中に226回の本物の衝突を報告している。 今後1秒で平均誤差85.3mm(MPJPE)に到達し,動作時間2.3msecで衝突検出を行い,予測された人間の動きと既知のコボットの動きを比較し,F1スコア0.64を得る。

Pushing back the frontiers of collaborative robots in industrial environments, we propose a new Separable-Sparse Graph Convolutional Network (SeS-GCN) for pose forecasting. For the first time, SeS-GCN bottlenecks the interaction of the spatial, temporal and channel-wise dimensions in GCNs, and it learns sparse adjacency matrices by a teacher-student framework. Compared to the state-of-the-art, it only uses 1.72% of the parameters and it is ~4 times faster, while still performing comparably in forecasting accuracy on Human3.6M at 1 second in the future, which enables cobots to be aware of human operators. As a second contribution, we present a new benchmark of Cobots and Humans in Industrial COllaboration (CHICO). CHICO includes multi-view videos, 3D poses and trajectories of 20 human operators and cobots, engaging in 7 realistic industrial actions. Additionally, it reports 226 genuine collisions, taking place during the human-cobot interaction. We test SeS-GCN on CHICO for two important perception tasks in robotics: human pose forecasting, where it reaches an average error of 85.3 mm (MPJPE) at 1 sec in the future with a run time of 2.3 msec, and collision detection, by comparing the forecasted human motion with the known cobot motion, obtaining an F1-score of 0.64.
翻訳日:2022-08-28 22:37:14 公開日:2022-07-24
# 変圧器の一般注意機構と相対位置

Generalized Attention Mechanism and Relative Position for Transformer ( http://arxiv.org/abs/2208.10247v1 )

ライセンス: Link先を確認
R. V. R. Pandya(参考訳) 本稿では,Vaswaniらによる自己注意機構の新しい解釈を提案することによって,GAM(Generalized attention mechanism)を提案する。 . 解釈の後、我々はGAMを形成する異なる注意機構の変種について記述する。 さらに,gamの枠組みにおける新たな相対的位置表現を提案する。 この表現は、入力シーケンス内の隣り合う要素が実際のデータセット/コーパスのランダムな位置にある場合に容易に利用できる。

In this paper, we propose generalized attention mechanism (GAM) by first suggesting a new interpretation for self-attention mechanism of Vaswani et al. . Following the interpretation, we provide description for different variants of attention mechanism which together form GAM. Further, we propose a new relative position representation within the framework of GAM. This representation can be easily utilized for cases in which elements next to each other in input sequence can be at random locations in actual dataset/corpus.
翻訳日:2022-08-28 22:33:45 公開日:2022-07-24
# 小型データのためのRNNとFSTの構成:ハワイ古文の欠落文字の検索

Composing RNNs and FSTs for Small Data: Recovering Missing Characters in Old Hawaiian Text ( http://arxiv.org/abs/2208.10248v1 )

ライセンス: Link先を確認
Oiwi Parker Jones and Brendan Shillingford(参考訳) 19世紀の古い文字体系とは対照的に、現代のハワイ語正書法は長い母音と声門の停止のために文字を使用している。 これらの余分な文字はハワイ語の音韻の約3分の1を占めるため、それらを含め、読み理解と発音に大きな違いがある。 しかし、手作業で古いテキストと新しいテキストを転写するのは大変な作業である。 エンド・ツー・エンドのディープラーニングモデルをトレーニングするのに十分なデータがないことを考慮し、この翻訳問題を解決するための2つの関連手法を提案する。 1つの方法は有限状態トランスデューサ(FST)を用いてエンドツーエンドに実装される。 もうひとつは、リカレントニューラルネットワーク(RNN)とFSTを略して構成するハイブリッドディープラーニングアプローチである。 本手法は,従来の問題をFSTを用いて手作業でモデル化できる部分と,利用可能なデータに基づいて訓練されたRNNによって容易に解ける部分に分割することで,エンドツーエンドのFSTよりも優れていることがわかった。

In contrast to the older writing system of the 19th century, modern Hawaiian orthography employs characters for long vowels and glottal stops. These extra characters account for about one-third of the phonemes in Hawaiian, so including them makes a big difference to reading comprehension and pronunciation. However, transliterating between older and newer texts is a laborious task when performed manually. We introduce two related methods to help solve this transliteration problem automatically, given that there were not enough data to train an end-to-end deep learning model. One method is implemented, end-to-end, using finite state transducers (FSTs). The other is a hybrid deep learning approach which approximately composes an FST with a recurrent neural network (RNN). We find that the hybrid approach outperforms the end-to-end FST by partitioning the original problem into one part that can be modelled by hand, using an FST, and into another part, which is easily solved by an RNN trained on the available data.
翻訳日:2022-08-28 22:33:37 公開日:2022-07-24
# 機械学習による液体金属包埋エラストマーの微細構造と結合特性

Linking Properties to Microstructure in Liquid Metal Embedded Elastomers via Machine Learning ( http://arxiv.org/abs/2208.04146v1 )

ライセンス: Link先を確認
Abhijith Thoopul Anantharanga, Mohammad Saber Hashemi, Azadeh Sheidaei(参考訳) 液体金属(LM)はエラストマーマトリックスに埋め込まれ、独特の熱、誘電体、機械的特性を持つ軟質複合材料が得られる。 ソフトロボティクス、バイオメディカルエンジニアリング、ウェアラブルエレクトロニクスに応用されている。 これらの材料の特性と構造を結びつけることで、材料設計を合理的に行うことができる。 液体金属埋込みエラストマー (LMEE) は, 可変オートエンコーダネットワーク (VAE) における構造固有性 (SP) リンクの半教師付き学習により, 電気熱力学的特性を目標に設計されている。 設計パラメータは、物理的に有意であり、研究された粒子複合材料の合成と親和性を持つマイクロ構造記述子である。 機械学習(ML)モデルは、その多機能特性量をラベルとして生成したマイクロ構造記述子のデータセットに基づいて訓練される。 ソボシーケンスは、設計空間をサンプリングし、パッキングアルゴリズムを介して3Dマイクロ構造実現の包括的なデータセットを生成することで、実験のシリコン設計(DoE)に使用される。 また, 内部のFast Fourier Transform (FFT)パッケージの助けを借りて, 線形熱・誘電率定数を均質化した上で, LM介在物による表面張力を考慮したFinete Element (FE)モデルを用いて, 生成したミクロ構造の機械的応答をシミュレーションした。 適切な損失関数の最小化によるトレーニングの後、VAEエンコーダは多機能均質化の数値解法のサロゲートとして機能し、そのデコーダは材料設計に使用される。 LMEE実験結果から得られた高忠実度数値シミュレーションについて,サロゲートモデルと逆計算機の良好な性能を示す。

Liquid metals (LM) are embedded in an elastomer matrix to obtain soft composites with unique thermal, dielectric, and mechanical properties. They have applications in soft robotics, biomedical engineering, and wearable electronics. By linking the structure to the properties of these materials, it is possible to perform material design rationally. Liquid-metal embedded elastomers (LMEEs) have been designed for targeted electro-thermo-mechanical properties by semi-supervised learning of structure-property (SP) links in a variational autoencoder network (VAE). The design parameters are the microstructural descriptors that are physically meaningful and have affine relationships with the synthetization of the studied particulate composite. The machine learning (ML) model is trained on a generated dataset of microstructural descriptors with their multifunctional property quantities as their labels. Sobol sequence is used for in-silico Design of Experiment (DoE) by sampling the design space to generate a comprehensive dataset of 3D microstructure realizations via a packing algorithm. The mechanical responses of the generated microstructures are simulated using a previously developed Finite Element (FE) model, considering the surface tension induced by LM inclusions, while the linear thermal and dielectric constants are homogenized with the help of our in-house Fast Fourier Transform (FFT) package. Following the training by minimization of an appropriate loss function, the VAE encoder acts as the surrogate of numerical solvers of the multifunctional homogenizations, and its decoder is used for the material design. Our results indicate the satisfactory performance of the surrogate model and the inverse calculator with respect to high-fidelity numerical simulations validated with LMEE experimental results.
翻訳日:2022-08-14 18:17:45 公開日:2022-07-24
# 自由形式のテキストクエリから脳活動マップを合成するトランスフォーマーベースニューラル言語モデル

A Transformer-based Neural Language Model that Synthesizes Brain Activation Maps from Free-Form Text Queries ( http://arxiv.org/abs/2208.00840v1 )

ライセンス: Link先を確認
Gia H. Ngo, Minh Nguyen, Nancy F. Chen, Mert R. Sabuncu(参考訳) 神経画像研究は、しばしば被検者数と、容易に尋問できる認知過程によって制限される。 しかし、急速に成長する神経科学の研究は総じて膨大な結果を蓄積している。 既存のメタ分析ツールはキーワードクエリに制約されているため、この増大する文献をダイジェストし、新しい洞察を得ることは大きな課題である。 本稿では,オープンエンドテキストクエリから脳の活性化マップを合成する簡単なツールであるText2Brainを提案する。 text2brainは、トランスフォーマーベースのニューラルネットワーク言語モデルと、神経画像研究の座標ベースのメタ分析に基づいて構築された。 text2brainはトランスフォーマーベースのテキストエンコーダと3dイメージジェネレータを組み合わせることで、可変長のテキストスニペットと、13,000件の論文からサンプリングされた対応するアクティベーションマップをトレーニングした。 実験では,Text2Brainが様々な自由形式のテキスト記述から有意義な神経活性化パターンを合成できることを実証した。 text2brainは、webベースのツールとしてhttps://braininterpreter.comで利用可能である。

Neuroimaging studies are often limited by the number of subjects and cognitive processes that can be feasibly interrogated. However, a rapidly growing number of neuroscientific studies have collectively accumulated an extensive wealth of results. Digesting this growing literature and obtaining novel insights remains to be a major challenge, since existing meta-analytic tools are constrained to keyword queries. In this paper, we present Text2Brain, an easy to use tool for synthesizing brain activation maps from open-ended text queries. Text2Brain was built on a transformer-based neural network language model and a coordinate-based meta-analysis of neuroimaging studies. Text2Brain combines a transformer-based text encoder and a 3D image generator, and was trained on variable-length text snippets and their corresponding activation maps sampled from 13,000 published studies. In our experiments, we demonstrate that Text2Brain can synthesize meaningful neural activation patterns from various free-form textual descriptions. Text2Brain is available at https://braininterpreter.com as a web-based tool for efficiently searching through the vast neuroimaging literature and generating new hypotheses.
翻訳日:2022-08-07 14:33:37 公開日:2022-07-24
# 舗装景観:アスファルト舗装損傷セグメンテーションのための大規模階層画像データセット

Pavementscapes: a large-scale hierarchical image dataset for asphalt pavement damage segmentation ( http://arxiv.org/abs/2208.00775v1 )

ライセンス: Link先を確認
Zheng Tong, Tao Ma, Ju Huyan, Weiguang Zhang(参考訳) 舗装損傷セグメンテーションは深層学習の恩恵を受けている。 %と大規模データセットであった。 しかし、現在の公共データセットは、舗装損傷区分の適用においてディープラーニングの潜在的な探索を制限するものはほとんどない。 そこで本研究では,舗装損傷セグメンテーションの手法を開発し評価するための大規模データセットPavementscapesを提案する。 舗装景観は4,000枚の画像で構成され、解像度は1024 \times 2048$で、15の異なる舗装を持つ現実世界の舗装検査プロジェクトで記録されている。 合計8,680件のダメージインスタンスは、ピクセルレベルで6つのダメージクラスで手動でラベル付けされる。 統計的研究は、提案されたデータセットの詳細な調査と分析を提供する。 数値実験では、舗装の損傷をセグメント化できるトップパフォーマンスのディープニューラルネットワークを提案し、舗装検査のオープンチャレンジのベースラインを提供する。 実験結果からは, 深層学習による損傷セグメンテーションの問題点が示唆され, 本研究は潜在的な解決策を提供する。

Pavement damage segmentation has benefited enormously from deep learning. % and large-scale datasets. However, few current public datasets limit the potential exploration of deep learning in the application of pavement damage segmentation. To address this problem, this study has proposed Pavementscapes, a large-scale dataset to develop and evaluate methods for pavement damage segmentation. Pavementscapes is comprised of 4,000 images with a resolution of $1024 \times 2048$, which have been recorded in the real-world pavement inspection projects with 15 different pavements. A total of 8,680 damage instances are manually labeled with six damage classes at the pixel level. The statistical study gives a thorough investigation and analysis of the proposed dataset. The numeral experiments propose the top-performing deep neural networks capable of segmenting pavement damages, which provides the baselines of the open challenge for pavement inspection. The experiment results also indicate the existing problems for damage segmentation using deep learning, and this study provides potential solutions.
翻訳日:2022-08-07 14:27:33 公開日:2022-07-24
# コントラスト視覚変換器を用いたオンライン連続学習

Online Continual Learning with Contrastive Vision Transformer ( http://arxiv.org/abs/2207.13516v1 )

ライセンス: Link先を確認
Zhen Wang, Liu Liu, Yajing Kong, Jiaxian Guo, and Dacheng Tao(参考訳) オンライン連続学習(オンラインCL)は、タスク境界のないオンラインデータストリームからシーケンシャルなタスクを学習する問題を研究し、過去のタスクに対する破滅的な忘れを軽減しつつ、新しいデータに適応することを目指している。 本稿では,オンラインCLの安定性と塑性のトレードオフを改善するために,トランスフォーマアーキテクチャに基づく焦点コントラスト学習戦略を設計するフレームワークであるContrastive Vision Transformer(CVT)を提案する。 具体的には,従来のタスクの情報を暗黙的にキャプチャするオンラインclのための新たな外部注意機構を設計する。 さらにCVTには各クラスに対する学習可能な焦点が含まれており、過去のクラスの知識を蓄積して忘れを軽減できる。 学習可能な焦点に基づいて,新しいクラスと過去のクラス間のコントラスト学習を再バランスさせ,事前学習した表現を統合するために,局所的なコントラストロスを設計する。 さらにCVTには、現在の学習クラスを分離し、すべての観察されたクラスのバランスをとるための二重分類器構造が含まれている。 広範な実験結果から,本手法はオンラインclベンチマークのパラメータを少なくして最先端のパフォーマンスを実現し,破滅的な忘れを効果的に緩和することを示した。

Online continual learning (online CL) studies the problem of learning sequential tasks from an online data stream without task boundaries, aiming to adapt to new data while alleviating catastrophic forgetting on the past tasks. This paper proposes a framework Contrastive Vision Transformer (CVT), which designs a focal contrastive learning strategy based on a transformer architecture, to achieve a better stability-plasticity trade-off for online CL. Specifically, we design a new external attention mechanism for online CL that implicitly captures previous tasks' information. Besides, CVT contains learnable focuses for each class, which could accumulate the knowledge of previous classes to alleviate forgetting. Based on the learnable focuses, we design a focal contrastive loss to rebalance contrastive learning between new and past classes and consolidate previously learned representations. Moreover, CVT contains a dual-classifier structure for decoupling learning current classes and balancing all observed classes. The extensive experimental results show that our approach achieves state-of-the-art performance with even fewer parameters on online CL benchmarks and effectively alleviates the catastrophic forgetting.
翻訳日:2022-07-28 12:51:42 公開日:2022-07-24
# 4値論理を用いた衝突解析のための状態定義

State Definition for Conflict Analysis with Four-valued Logic ( http://arxiv.org/abs/2207.11733v1 )

ライセンス: Link先を確認
Yukiko Kato(参考訳) コンフリクト解決モデルにおける状態設定のための4値論理法について検討した。 紛争解決のためのゲーム理論やグラフモデル(GMCR)のような紛争解決の意思決定モデルでは、状態の説明は戦略の組み合わせの結果、あるいは意思決定者による選択肢選択の結果であると仮定する。 しかし、フレームワークが意思決定システムとして機能するならば、無限世界から情報を取り出すタスクを明確に定義しない限り、論理的一貫性は保証されず、したがって関数は計算不能となる可能性がある。 パラ一貫性4値論理の導入は、情報不足による誤った状態設定と解析を防止し、利用可能な情報の粗さの度合いに応じて解析の解像度が変化する分析手法に論理的妥当性を提供する。 本研究では,Belnapの4値論理に基づく状態構成を用いたGMCR安定性解析を提案する。

We examined a four-valued logic method for state settings in conflict resolution models. Decision-making models of conflict resolution, such as game theory and graph model for conflict resolution (GMCR), assume the description of a state to be the outcome of a combination of strategies or the consequence of option selection by the decision-makers. However, for a framework to function as a decision-making system, unless a clear definition of the task of placing information out of an infinite world exists, logical consistency cannot be ensured, and thus, the function may be incomputable. The introduction of paraconsistent four-valued logic can prevent incorrect state setting and analysis with insufficient information and provide logical validity to analytical methods that vary the analysis resolution depending on the degree of coarseness of the available information. This study proposes a GMCR stability analysis with state configuration based on Belnap's four-valued logic.
翻訳日:2022-07-27 13:11:19 公開日:2022-07-24
# 超次元コンピューティング対ニューラルネットワーク:アーキテクチャと学習過程の比較

Hyperdimensional Computing vs. Neural Networks: Comparing Architecture and Learning Process ( http://arxiv.org/abs/2207.12932v1 )

ライセンス: Link先を確認
Dongning Ma and Xun Jiao(参考訳) 超次元コンピューティング(HDC)は、新しい非ノイマン計算パラダイムとして注目されている。 人間の脳機能にインスパイアされたHDCは、高次元パターンを利用して学習タスクを実行する。 ニューラルネットワークと比較すると、HDCはエネルギー効率やモデルサイズが小さいといった利点があるが、高度なアプリケーションではサブパーラーニング能力がある。 近年、研究者らは、ニューラルネットワークコンポーネントと組み合わせることで、HDCが従来のHDCモデルよりも優れたパフォーマンスを達成することを観察している。 このことは、HDCの理論的基礎、特にニューラルネットワークとのつながりと違いの背後にある深い洞察を探求する動機となります。 本稿では,HDCとニューラルネットワークの比較検討を行い,HDCを前もって訓練された極めてコンパクトなニューラルネットワークから導出できる角度を異にする。 実験の結果,従来モデルと学習モデルから得られたhdcモデルでは,最大21%,5%の精度向上が得られた。 本論文は,この新興学習方式の研究のために,さらなる洞察と今後の方向性の明かりを提供することを目的としている。

Hyperdimensional Computing (HDC) has obtained abundant attention as an emerging non von Neumann computing paradigm. Inspired by the way human brain functions, HDC leverages high dimensional patterns to perform learning tasks. Compared to neural networks, HDC has shown advantages such as energy efficiency and smaller model size, but sub-par learning capabilities in sophisticated applications. Recently, researchers have observed when combined with neural network components, HDC can achieve better performance than conventional HDC models. This motivates us to explore the deeper insights behind theoretical foundations of HDC, particularly the connection and differences with neural networks. In this paper, we make a comparative study between HDC and neural network to provide a different angle where HDC can be derived from an extremely compact neural network trained upfront. Experimental results show such neural network-derived HDC model can achieve up to 21% and 5% accuracy increase from conventional and learning-based HDC models respectively. This paper aims to provide more insights and shed lights on future directions for researches on this popular emerging learning scheme.
翻訳日:2022-07-27 12:12:51 公開日:2022-07-24
# ベータ自己回帰移動平均モデルにおける予測間隔

Prediction Intervals in the Beta Autoregressive Moving Average Model ( http://arxiv.org/abs/2207.11628v1 )

ライセンス: Link先を確認
B. G. Palm, F. M. Bayer, R. J. Cintra(参考訳) 本稿では,ベータ自己回帰移動平均モデルに対する5つの予測間隔を提案する。 このモデルは、$(0,1)$の間隔で値を仮定する変数のモデリングと予測に適しています。 提案した予測区間のうち2つは、ベータ分布の正規分布と量子関数を考慮した近似に基づいている。 ブートストラップに基づく予測間隔についても検討する。 (i)ブートストラップ予測エラー(BPE)間隔 (ii)バイアス補正・加速度(bca)予測間隔 3) ブートストラップ予測値の定量値に基づく2つの異なるブートストラップ方式のパーセンタイル予測間隔。 提案した予測間隔はモンテカルロシミュレーションにより評価した。 BCa予測間隔は、評価間隔の中で最高の性能を示し、低いカバレッジ率の歪みと低い平均長さを示した。 ブラジル・サンパウロのカンタレイラ水供給システムの水位予測に本手法を適用した。

In this paper, we propose five prediction intervals for the beta autoregressive moving average model. This model is suitable for modeling and forecasting variables that assume values in the interval $(0,1)$. Two of the proposed prediction intervals are based on approximations considering the normal distribution and the quantile function of the beta distribution. We also consider bootstrap-based prediction intervals, namely: (i) bootstrap prediction errors (BPE) interval; (ii) bias-corrected and acceleration (BCa) prediction interval; and (iii) percentile prediction interval based on the quantiles of the bootstrap-predicted values for two different bootstrapping schemes. The proposed prediction intervals were evaluated according to Monte Carlo simulations. The BCa prediction interval offered the best performance among the evaluated intervals, showing lower coverage rate distortion and small average length. We applied our methodology for predicting the water level of the Cantareira water supply system in S\~ao Paulo, Brazil.
翻訳日:2022-07-26 16:08:29 公開日:2022-07-24
# OCTAL:LTLモデル検査のためのグラフ表現学習

OCTAL: Graph Representation Learning for LTL Model Checking ( http://arxiv.org/abs/2207.11649v1 )

ライセンス: Link先を確認
Prasita Mukherjee, Haoteng Yin, Susheel Suresh, Tiark Rompf(参考訳) モデルチェックは、複雑なシステムと並行システムの仕様に対する正確性を検証するのに広く適用されます。 純粋なシンボリックアプローチは人気があるものの、大規模システムや仕様では実用的でない状態空間爆発の問題に苦しんでいる。 本稿では,線形時相論理(ltl)モデルチェックにおけるグラフ表現学習(grl)を用いて,システムと仕様をそれぞれb\"uchiオートマトンとltl式で表現する手法を提案する。 新たなGRLベースのフレームワークOCTALは、グラフ構造化システムと仕様の表現を学習するために設計されており、モデルチェック問題を潜在空間におけるバイナリ分類に還元する。 実験の結果、octalは3つの異なるデータセットで標準のsomaモデルチェッカーと同等の精度を達成し、最高で$5\times$のスピードアップと$63\times$以上の満足度チェックが可能となった。

Model Checking is widely applied in verifying the correctness of complex and concurrent systems against a specification. Pure symbolic approaches while popular, still suffer from the state space explosion problem that makes them impractical for large scale systems and/or specifications. In this paper, we propose to use graph representation learning (GRL) for solving linear temporal logic (LTL) model checking, where the system and the specification are expressed by a B\"uchi automaton and an LTL formula respectively. A novel GRL-based framework OCTAL, is designed to learn the representation of the graph-structured system and specification, which reduces the model checking problem to binary classification in the latent space. The empirical experiments show that OCTAL achieves comparable accuracy against canonical SOTA model checkers on three different datasets, with up to $5\times$ overall speedup and above $63\times$ for satisfiability checking alone.
翻訳日:2022-07-26 16:06:52 公開日:2022-07-24
# BPFISH:ブロックチェーンとプライバシー保護のFLによるスマートヘルスケア

BPFISH: Blockchain and Privacy-preserving FL Inspired Smart Healthcare ( http://arxiv.org/abs/2207.11654v1 )

ライセンス: Link先を確認
Moirangthem Biken Singh, and Ajay Pratap(参考訳) 本稿では,医療センター(MC)が患者から収集したデータを用いてローカルモデルをトレーニングし,生データを共有せずにブロックチェーンベースの堅牢なフレームワークを用いて,モデルウェイトをマイニング者に送信し,プライバシ保護を議論に維持する,FLベースのsmar tヘルスケアシステムを提案する。 ブロックチェーンベースのフレームワークを基盤とする分散医療データ上で有効なモデルを学習するために,電力消費とmcsのflプロセス遅延を考慮した損失関数を最小化し最適化問題を定式化する。 まず、マイナとmcsの両方の有用性を最大化し、その後、差分プライバシー(dp)とブロックチェーン技術によるflを用いた確率的勾配降下(sgd)アルゴリズムを用いて損失最小化を解決するための、安定したマッチングベースの関連アルゴリズムを提案する。 さらに,提案するflベースのフレームワークに,テンパード耐性と分散化されたモデル重み付けを提供するために,ブロックチェーン技術が組み込まれている。 提案モデルの有効性は,実世界の医療データを用いたシミュレーションにより示される。

This paper proposes Federated Learning (FL) based smar t healthcare system where Medical Centers (MCs) train the local model using the data collected from patients and send the model weights to the miners in a blockchain-based robust framework without sharing raw data, keeping privacy preservation into deliberation. We formulate an optimization problem by maximizing the utility and minimizing the loss function considering energy consumption and FL process delay of MCs for learning effective models on distributed healthcare data underlying a blockchain-based framework. We propose a solution in two stages: first, offer a stable matching-based association algorithm to maximize the utility of both miners and MCs and then solve loss minimization using Stochastic Gradient Descent (SGD) algorithm employing FL under Differential Privacy (DP) and blockchain technology. Moreover, we incorporate blockchain technology to provide tempered resistant and decentralized model weight sharing in the proposed FL-based framework. The effectiveness of the proposed model is shown through simulation on real-world healthcare data comparing other state-of-the-art techniques.
翻訳日:2022-07-26 16:06:34 公開日:2022-07-24
# housex: きめ細かなハウス音楽データセットとその音楽産業における可能性

HouseX: A Fine-grained House Music Dataset and its Potential in the Music Industry ( http://arxiv.org/abs/2207.11690v1 )

ライセンス: Link先を確認
Xinyu Li(参考訳) 機械音の分類は音楽技術の基本課題の1つである。 音の分類の主要な分野は音楽ジャンルの分類である。 しかし、ほとんどの音楽ジャンルをカバーしているが、既存の音楽ジャンルのデータセットは、音楽の詳細なサブジャンルを示す詳細なラベルを含まないことが多い。 ミックステープやDJ(ライブ)セットにおける楽曲のジャンルの整合性を考慮して,我々は,将来のハウス,ベースハウス,プログレッシブハウス,メロディックハウスという4つのサブジャンルのレーベルを提供するハウスミュージックのデータセットを収集し,注釈した。 実験の結果,アノテーションは様々なカテゴリの特徴を示すことがわかった。 また,トラックのメルスペクトルに基づいてサブジャンルを分類するベースラインモデルを構築し,競争力のある結果を得た。 さらに、当社のデータセットとベースラインモデルのいくつかのアプリケーションシナリオを、モデル出力によって照明の色が自動化された3dモデリングソフトウェアで構築され、レンダリングされた短いデモとしてシミュレートしたsci-fiトンネルで実施しました。

Machine sound classification has been one of the fundamental tasks of music technology. A major branch of sound classification is the classification of music genres. However, though covering most genres of music, existing music genre datasets often do not contain fine-grained labels that indicate the detailed sub-genres of music. In consideration of the consistency of genres of songs in a mixtape or in a DJ (live) set, we have collected and annotated a dataset of house music that provide 4 sub-genre labels, namely future house, bass house, progressive house and melodic house. Experiments show that our annotations well exhibit the characteristics of different categories. Also, we have built baseline models that classify the sub-genre based on the mel-spectrograms of a track, achieving strongly competitive results. Besides, we have put forward a few application scenarios of our dataset and baseline model, with a simulated sci-fi tunnel as a short demo built and rendered in a 3D modeling software, with the colors of the lights automated by the output of our model.
翻訳日:2022-07-26 16:06:14 公開日:2022-07-24
# データ駆動アプローチによるソフトウェア脆弱性評価の理解向上に向けて

Towards an Improved Understanding of Software Vulnerability Assessment Using Data-Driven Approaches ( http://arxiv.org/abs/2207.11708v1 )

ライセンス: Link先を確認
Triet H. M. Le(参考訳) 論文は、データ駆動アプローチを用いたソフトウェア脆弱性評価の知識と自動化サポートを提供することで、ソフトウェアセキュリティの分野を前進させる。 ソフトウェア脆弱性評価は、野生の危険なサイバー攻撃を防ぎ、緩和するために重要かつ多面的な情報を提供する。 主な貢献は、知識の体系化と、新しいデータ駆動技術と、この分野の研究者や実践者のための実践的なレコメンデーションである。 この論文は、現実世界のソフトウェアシステムにおける脆弱性を継続的に評価するプラクティスの理解とインフォメーションを改善するのに役立つ。 これにより、これらの重要なセキュリティ問題の優先順位付けと計画をより徹底的かつタイムリーに修正することができる。

The thesis advances the field of software security by providing knowledge and automation support for software vulnerability assessment using data-driven approaches. Software vulnerability assessment provides important and multifaceted information to prevent and mitigate dangerous cyber-attacks in the wild. The key contributions include a systematisation of knowledge, along with a suite of novel data-driven techniques and practical recommendations for researchers and practitioners in the area. The thesis results help improve the understanding and inform the practice of assessing ever-increasing vulnerabilities in real-world software systems. This in turn enables more thorough and timely fixing prioritisation and planning of these critical security issues.
翻訳日:2022-07-26 16:05:55 公開日:2022-07-24
# 垂直連合学習における推論攻撃に対するプライバシ

Privacy Against Inference Attacks in Vertical Federated Learning ( http://arxiv.org/abs/2207.11788v1 )

ライセンス: Link先を確認
Borzoo Rassouli, Morteza Varasteh and Deniz Gunduz(参考訳) 真のクラスラベルにアクセス可能なアクティブパーティが、ラベルにアクセスできないパッシブパーティからより多くの機能を活用して分類モデルを構築し、モデルの精度を向上したいと考える、垂直的なフェデレーション学習が検討されている。 予測段階では、ロジスティック回帰を分類モデルとして、敵、すなわちアクティブな当事者が、センシティブな情報と見なされる受動的当事者の特徴を再構築するために使用できるいくつかの推論攻撃手法が提案されている。 これらの攻撃は主に集合の中心という古典的な概念、すなわちチェビシェフ中心に基づいており、文献で提案されたものよりも優れていることが示されている。 さらに、上記の攻撃に対して、いくつかの理論的性能保証が提供される。 その後、敵が受動者の特徴を完全に再構築する必要がある最小限の情報量を考える。 特に、受動的当事者が1つの特徴を持ち、相手が関連するパラメータの兆候のみを認識している場合、予測数が十分大きい場合に、その特徴を完全に再構築できることが示されている。 次に、防御機構として、2つのプライバシ保護スキームが提案され、敵の再構築攻撃を悪化させ、VFLがアクティブな党にもたらすすべての利益を保護した。 最後に,提案手法とプライバシ保護方式の有効性を実験的に検証した。

Vertical federated learning is considered, where an active party, having access to true class labels, wishes to build a classification model by utilizing more features from a passive party, which has no access to the labels, to improve the model accuracy. In the prediction phase, with logistic regression as the classification model, several inference attack techniques are proposed that the adversary, i.e., the active party, can employ to reconstruct the passive party's features, regarded as sensitive information. These attacks, which are mainly based on a classical notion of the center of a set, i.e., the Chebyshev center, are shown to be superior to those proposed in the literature. Moreover, several theoretical performance guarantees are provided for the aforementioned attacks. Subsequently, we consider the minimum amount of information that the adversary needs to fully reconstruct the passive party's features. In particular, it is shown that when the passive party holds one feature, and the adversary is only aware of the signs of the parameters involved, it can perfectly reconstruct that feature when the number of predictions is large enough. Next, as a defense mechanism, two privacy-preserving schemes are proposed that worsen the adversary's reconstruction attacks, while preserving the full benefits that VFL brings to the active party. Finally, experimental results demonstrate the effectiveness of the proposed attacks and the privacy-preserving schemes.
翻訳日:2022-07-26 16:05:45 公開日:2022-07-24
# チェン因子分解に基づくdct近似

DCT Approximations Based on Chen's Factorization ( http://arxiv.org/abs/2207.11638v1 )

ライセンス: Link先を確認
C. J. Tablada, T. L. T. da Silveira, R. J. Cintra, F. M. Bayer(参考訳) 本稿では、chenの因子分解に基づく2つの8点乗算自由dct近似を提案し、その高速アルゴリズムも導出する。 どちらの変換も計算コスト、誤差エネルギー、符号化ゲインの観点から評価される。 JPEGライクな画像圧縮方式による実験を行い、競合する手法と比較した。 提案する低複素変換は、jridi-alfalou-meherアルゴリズムにより16点および32点近似に影響を及ぼす。 新しい変換セットは、HEVC準拠のビデオ符号化スキームを提供するため、HEVCリファレンスソフトウェアに組み込まれる。 近似変換が従来の変換や最先端の手法を非常に低い複雑性コストで上回ることができることを示す。

In this paper, two 8-point multiplication-free DCT approximations based on the Chen's factorization are proposed and their fast algorithms are also derived. Both transformations are assessed in terms of computational cost, error energy, and coding gain. Experiments with a JPEG-like image compression scheme are performed and results are compared with competing methods. The proposed low-complexity transforms are scaled according to Jridi-Alfalou-Meher algorithm to effect 16- and 32-point approximations. The new sets of transformations are embedded into an HEVC reference software to provide a fully HEVC-compliant video coding scheme. We show that approximate transforms can outperform traditional transforms and state-of-the-art methods at a very low complexity cost.
翻訳日:2022-07-26 15:59:21 公開日:2022-07-24
# 分散ロバスト主成分分析

Distributed Robust Principal Analysis ( http://arxiv.org/abs/2207.11669v1 )

ライセンス: Link先を確認
Wenda Chu(参考訳) 本研究では,分散環境でのロバストな主成分分析(RPCA)問題について検討する。 rpcaの目標は、データマトリックスが粗いスパースエラーの腐敗の対象となる場合、生のデータマトリックスの低ランク推定の基盤を見つけることである。 従来の研究では、高速収束で安定した解を提供するRPCAアルゴリズムが開発されている。 しかし、これらのアルゴリズムは通常拡張が困難であり、SVDまたは大きな行列乗算を使用するため、分散実装はできない。 本稿では,DCF-PCAと呼ばれるコンセンサス分解に基づく分散ロバストな主成分分析アルゴリズムを提案する。 我々は, DCF-PCAの収束性を証明し, 諸問題におけるDCF-PCAの評価を行う。

We study the robust principal component analysis (RPCA) problem in a distributed setting. The goal of RPCA is to find an underlying low-rank estimation for a raw data matrix when the data matrix is subject to the corruption of gross sparse errors. Previous studies have developed RPCA algorithms that provide stable solutions with fast convergence. However, these algorithms are typically hard to scale and cannot be implemented distributedly, due to the use of either SVD or large matrix multiplication. In this paper, we propose the first distributed robust principal analysis algorithm based on consensus factorization, dubbed DCF-PCA. We prove the convergence of DCF-PCA and evaluate DCF-PCA on various problem setting
翻訳日:2022-07-26 15:53:18 公開日:2022-07-24
# 深層学習のための勾配に基づくbiレベル最適化に関する研究

Gradient-based Bi-level Optimization for Deep Learning: A Survey ( http://arxiv.org/abs/2207.11719v1 )

ライセンス: Link先を確認
Can Chen, Xi Chen, Chen Ma, Zixuan Liu, Xue Liu(参考訳) 双レベル最適化,特に勾配に基づくカテゴリは,ハイパーパラメータ最適化やメタ知識抽出など,ディープラーニングコミュニティで広く利用されている。 双レベル最適化は別の問題に埋め込まれ、勾配に基づくカテゴリは、進化アルゴリズムのような古典的な手法よりもはるかに効率的な過次性を計算することによって、外層タスクを解く。 本研究では,まず,勾配に基づくbiレベル最適化を形式的に定義する。 次に,二段階最適化問題として研究問題を定式化する方法について述べる。 具体的には、正規化パラメータや蒸留データなどのハイパーパラメータを最適化するシングルタスク定式化と、モデル初期化などのメタ知識を抽出するマルチタスク定式化の2つがある。 次に,2段階の定式化により,外変数の明示的な勾配更新,プロキシ更新,暗黙的関数更新,クローズドフォーム更新を含む4つの2段階最適化ソルバについて検討する。 最後に、科学問題(AI4Science)における勾配に基づく二段階最適化の大きな可能性を指摘した。

Bi-level optimization, especially the gradient-based category, has been widely used in the deep learning community including hyperparameter optimization and meta-knowledge extraction. Bi-level optimization embeds one problem within another and the gradient-based category solves the outer level task by computing the hypergradient, which is much more efficient than classical methods such as the evolutionary algorithm. In this survey, we first give a formal definition of the gradient-based bi-level optimization. Secondly, we illustrate how to formulate a research problem as a bi-level optimization problem, which is of great practical use for beginners. More specifically, there are two formulations: the single-task formulation to optimize hyperparameters such as regularization parameters and the distilled data, and the multi-task formulation to extract meta knowledge such as the model initialization. With a bi-level formulation, we then discuss four bi-level optimization solvers to update the outer variable including explicit gradient update, proxy update, implicit function update, and closed-form update. Last but not least, we conclude the survey by pointing out the great potential of gradient-based bi-level optimization on science problems (AI4Science).
翻訳日:2022-07-26 15:53:09 公開日:2022-07-24
# 歩行者画像における学習可能なプライバシー保護匿名化

Learnable Privacy-Preserving Anonymization for Pedestrian Images ( http://arxiv.org/abs/2207.11677v1 )

ライセンス: Link先を確認
Junwu Zhang, Mang Ye, Yao Yang(参考訳) 本稿では,認証モデルに対する個人識別情報(pii)を保存し,第三者によるpiiの認識を防止した,歩行者画像のプライバシー保全匿名化問題を提案する。 従来の匿名化手法は、必然的にセマンティック情報損失を引き起こし、データユーティリティが制限される。 さらに、既存の学習匿名化技術は、さまざまなアイデンティティ関連ユーティリティを保持しながら、歩行者のアイデンティティを変更するため、堅牢な再識別モデルのトレーニングには適さない。 歩行者画像のプライバシー利用トレードオフを探るため,人間の再識別作業における性能低下が少なく,全体匿名画像を可逆的に生成できる共同学習可逆匿名化フレームワークを提案する。 その中核となる考え方は、従来の手法によるデセンシタイズされたイメージを初期プライバシー保護監視として採用し、リカバリデコーダとアイデンティティ不変モデルで匿名化エンコーダを共同で訓練することである。 さらに,初期匿名化監視を反復的にアップグレードする,パフォーマンス向上のための漸進的なトレーニング戦略を提案する。 さらに、プライバシー保護のための匿名化された歩行者画像の有効性を実証し、プライバシーを保ちながら再識別性能を高める実験を行った。 コードは \url{https://github.com/whuzjw/privacy-reid} で入手できる。

This paper studies a novel privacy-preserving anonymization problem for pedestrian images, which preserves personal identity information (PII) for authorized models and prevents PII from being recognized by third parties. Conventional anonymization methods unavoidably cause semantic information loss, leading to limited data utility. Besides, existing learned anonymization techniques, while retaining various identity-irrelevant utilities, will change the pedestrian identity, and thus are unsuitable for training robust re-identification models. To explore the privacy-utility trade-off for pedestrian images, we propose a joint learning reversible anonymization framework, which can reversibly generate full-body anonymous images with little performance drop on person re-identification tasks. The core idea is that we adopt desensitized images generated by conventional methods as the initial privacy-preserving supervision and jointly train an anonymization encoder with a recovery decoder and an identity-invariant model. We further propose a progressive training strategy to improve the performance, which iteratively upgrades the initial anonymization supervision. Experiments further demonstrate the effectiveness of our anonymized pedestrian images for privacy protection, which boosts the re-identification performance while preserving privacy. Code is available at \url{https://github.com/whuzjw/privacy-reid}.
翻訳日:2022-07-26 15:36:26 公開日:2022-07-24
# FD-MAR:CT金属アーチファクト低減のためのフーリエデュアルドメインネットワーク

FD-MAR: Fourier Dual-domain Network for CT Metal Artifact Reduction ( http://arxiv.org/abs/2207.11678v1 )

ライセンス: Link先を確認
Zilong Li, Qi Gao, Yaping Wu, Chuang Niu, Junping Zhang, Meiyun Wang, Ge Wang, Hongming Shan(参考訳) 金属インプラントやデンタルフィリングのような高密度物体の存在は、CT(Computed tomography)画像に深刻なストリークのようなアーティファクトを導入し、その後の診断を大幅に制限する。 深層ニューラルネットワークに基づく金属アーティファクト低減法(mar)が提案されているが、シンノグラム領域におけるグローバルコンテキストの活用、画像領域に導入された二次アーティファクト、精密金属マスクの必要性などにより、パフォーマンスが低下することが多い。 これらの問題に対処するため,本論文では,シンノグラム領域と画像領域の両方において高速フーリエ畳み込みを行い,fd-marと呼ばれるフーリエ双ドメインネットワークを提案する。 具体的には,まず,非破壊領域から金属腐食領域を埋めるために,シンノグラム全体の受容的文脈を活用できるフーリエシンノグラム復元ネットワークを提案する。 第2に、画像領域におけるフーリエ精細化ネットワークを提案し、画像全体のコンテキスト情報を探索することにより、局所的・言語的に再構成された画像を洗練することができる。 その結果、提案したFD-MARは、MARのシノグラムと画像全体に対する受容場を探索することができる。 複合損失関数でFD-MARを最適化することにより、定量化と視覚比較の観点から、最先端のMAR法よりもFD-MARの方が優れていることを示した。 注目すべきは、fd-marは正確な金属マスクを必要としないことである。

The presence of high-density objects such as metal implants and dental fillings can introduce severely streak-like artifacts in computed tomography (CT) images, greatly limiting subsequent diagnosis. Although various deep neural networks-based methods have been proposed for metal artifact reduction (MAR), they usually suffer from poor performance due to limited exploitation of global context in the sinogram domain, secondary artifacts introduced in the image domain, and the requirement of precise metal masks. To address these issues, this paper explores fast Fourier convolution for MAR in both sinogram and image domains, and proposes a Fourier dual-domain network for MAR, termed FD-MAR. Specifically, we first propose a Fourier sinogram restoration network, which can leverage sinogram-wide receptive context to fill in the metal-corrupted region from uncorrupted region and, hence, is robust to the metal trace. Second, we propose a Fourier refinement network in the image domain, which can refine the reconstructed images in a local-to-global manner by exploring image-wide context information. As a result, the proposed FD-MAR can explore the sinogram- and image-wide receptive fields for MAR. By optimizing FD-MAR with a composite loss function, extensive experimental results demonstrate the superiority of the proposed FD-MAR over the state-of-the-art MAR methods in terms of quantitative metrics and visual comparison. Notably, FD-MAR does not require precise metal masks, which is of great importance in clinical routine.
翻訳日:2022-07-26 15:36:04 公開日:2022-07-24
# ヒント:テキストによるポーズ合成

TIPS: Text-Induced Pose Synthesis ( http://arxiv.org/abs/2207.11718v1 )

ライセンス: Link先を確認
Prasun Roy, Subhankar Ghosh, Saumik Bhattacharya, Umapada Pal, Michael Blumenstein(参考訳) コンピュータビジョンでは、人間のポーズ合成と転送は、既に利用可能な人物の観察から、以前に見抜かれたポーズで人物の確率的画像生成を扱う。 研究者は最近、この課題を達成するためのいくつかの手法を提案しているが、これらの手法のほとんどは、特定のデータセット上の所望のターゲット画像から直接ターゲットのポーズを導き、ターゲット画像の生成が実際の目的であるため、現実のシナリオに適用することは困難である。 本稿では,まず,現在のポーズ伝達アルゴリズムの欠点について述べるとともに,これらの問題に対処するための新しいテキストベースのポーズ転送手法を提案する。 問題を3つの独立した段階に分けます (a)表現を代行するテキスト (b)リファインメントのポーズ、及び (c)ポーズレンダリング。 私たちの知る限りでは、deepfashionデータセットのイメージに記述的なポーズアノテーションを追加することで、新たなデータセットdf-passも導入する、テキストベースのポーズ転送フレームワークを開発する最初の試みのひとつです。 提案手法は,実験において有意な質的,定量的な結果をもたらす。

In computer vision, human pose synthesis and transfer deal with probabilistic image generation of a person in a previously unseen pose from an already available observation of that person. Though researchers have recently proposed several methods to achieve this task, most of these techniques derive the target pose directly from the desired target image on a specific dataset, making the underlying process challenging to apply in real-world scenarios as the generation of the target image is the actual aim. In this paper, we first present the shortcomings of current pose transfer algorithms and then propose a novel text-based pose transfer technique to address those issues. We divide the problem into three independent stages: (a) text to pose representation, (b) pose refinement, and (c) pose rendering. To the best of our knowledge, this is one of the first attempts to develop a text-based pose transfer framework where we also introduce a new dataset DF-PASS, by adding descriptive pose annotations for the images of the DeepFashion dataset. The proposed method generates promising results with significant qualitative and quantitative scores in our experiments.
翻訳日:2022-07-26 15:35:32 公開日:2022-07-24
# CNNと視覚変換器を用いたMR画像の高分解能化

Improved Super Resolution of MR Images Using CNNs and Vision Transformers ( http://arxiv.org/abs/2207.11748v1 )

ライセンス: Link先を確認
Dwarikanath Mahapatra(参考訳) 畳み込みニューラルネットワーク(CNN)を用いた磁気共鳴(MR)画像超解像法(ISR)の現状は、CNNの空間範囲が限られているため、限られた文脈情報を活用する。 視覚変換器(ViT)は、高品質なHR画像を生成するのに役立つ、より優れたグローバルコンテキストを学習する。 我々は、CNNのローカル情報とViTのグローバル情報を組み合わせて、画像の超解像を出力し、最先端技術よりも優れた画質の超解像を出力する。 低分解能画像から高分解能画像まで構造とテクスチャ情報を保存できる複数の新しい損失関数による余分な制約を含む。

State of the art magnetic resonance (MR) image super-resolution methods (ISR) using convolutional neural networks (CNNs) leverage limited contextual information due to the limited spatial coverage of CNNs. Vision transformers (ViT) learn better global context that is helpful in generating superior quality HR images. We combine local information of CNNs and global information from ViTs for image super resolution and output super resolved images that have superior quality than those produced by state of the art methods. We include extra constraints through multiple novel loss functions that preserve structure and texture information from the low resolution to high resolution images.
翻訳日:2022-07-26 15:35:15 公開日:2022-07-24
# 非可逆ニューラルネットワークにおけるデュアル潜時変数を用いた画像再スケーリングの強化

Enhancing Image Rescaling using Dual Latent Variables in Invertible Neural Network ( http://arxiv.org/abs/2207.11844v1 )

ライセンス: Link先を確認
Min Zhang, Zhihong Pan, Xin Zhou, C.-C. Jay Kuo(参考訳) Invertible Neural Networks (INN) を通じて、自然画像の複雑な分布を遅延空間における単純なトラクタブル分布に近似することにより、生成画像超解像(SR)に正規化フローモデルが成功している。 これらのモデルは、複数の高解像度(HR)画像が同じLRに対応する画像アップスケーリングの不正な性質をシミュレートし、潜在空間内のランダムサンプリングされた点を用いて、1つの低解像度(LR)入力から複数の現実的SR画像を生成することができる。 近年、IRNの非可逆プロセスは、ダウンスケーリングと逆アップスケーリングの併用最適化のために、IRNやHCFlowといった双方向イメージ再スケーリングモデルでもうまく利用されており、アップスケールの画質が大幅に改善されている。 画像のダウンスケーリングにも最適化されているが、1つのHR画像を異なる補間カーネルや再サンプリング方法に依存する複数のLR画像に縮小することができる画像ダウンスケーリングの性質は考慮されていない。 イメージダウンスケーリングプロセスのバリエーションをモデル化するために、イメージアップスケーリングにおける不確実性を表す元の変数に加えて、新しいダウンスケーリング潜在変数が導入された。 この2つの潜伏変数拡張は、異なる画像再スケーリングモデルに適用でき、ダウンスケールされたLR画像の画質を犠牲にすることなく、画像アップスケーリング精度を一貫して向上できることを示す。 また、画像隠蔽のような画像復元アプリケーションのための他の INN ベースのモデルの拡張にも有効である。

Normalizing flow models have been used successfully for generative image super-resolution (SR) by approximating complex distribution of natural images to simple tractable distribution in latent space through Invertible Neural Networks (INN). These models can generate multiple realistic SR images from one low-resolution (LR) input using randomly sampled points in the latent space, simulating the ill-posed nature of image upscaling where multiple high-resolution (HR) images correspond to the same LR. Lately, the invertible process in INN has also been used successfully by bidirectional image rescaling models like IRN and HCFlow for joint optimization of downscaling and inverse upscaling, resulting in significant improvements in upscaled image quality. While they are optimized for image downscaling too, the ill-posed nature of image downscaling, where one HR image could be downsized to multiple LR images depending on different interpolation kernels and resampling methods, is not considered. A new downscaling latent variable, in addition to the original one representing uncertainties in image upscaling, is introduced to model variations in the image downscaling process. This dual latent variable enhancement is applicable to different image rescaling models and it is shown in extensive experiments that it can improve image upscaling accuracy consistently without sacrificing image quality in downscaled LR images. It is also shown to be effective in enhancing other INN-based models for image restoration applications like image hiding.
翻訳日:2022-07-26 15:35:04 公開日:2022-07-24
# ファインチューニングはなし? コードインテリジェンスにおけるプロンプトチューニングの実験的評価

No More Fine-Tuning? An Experimental Evaluation of Prompt Tuning in Code Intelligence ( http://arxiv.org/abs/2207.11680v1 )

ライセンス: Link先を確認
Chaozheng Wang, Yuanhang Yang, Cuiyun Gao, Yun Peng, Hongyu Zhang, Michael R. Lyu(参考訳) 事前訓練されたモデルは、多くのコードインテリジェンスタスクで有効であることが示されている。 これらのモデルは大規模未ラベルコーパスで事前訓練され、下流タスクで微調整される。 しかしながら、事前学習やダウンストリームタスクへの入力は異なる形式にあるため、事前学習されたモデルの知識を十分に探求することは困難である。 加えて、微調整の性能は下流データの量に強く依存するが、実際には少ないデータを持つシナリオは一般的である。 自然言語処理(NLP)分野における最近の研究は、新しいチューニングパラダイムであるプロンプトチューニングが上記の問題を緩和し、様々なNLPタスクにおいて有望な結果をもたらすことを示している。 即時チューニングでは、チューニング中に挿入されるプロンプトはタスク固有の知識を提供するが、これは比較的少ないデータを持つタスクにとって特に有益である。 本稿では,コードインテリジェンスタスクにおける即時チューニングの使用と効果を実証的に評価する。 我々は、一般的な事前学習モデルであるcodebertとcodet5の迅速なチューニングを行い、欠陥予測、コード要約、コード翻訳という3つのコードインテリジェンスタスクを実験します。 実験の結果, 即時チューニングは3つのタスクすべてにおいて微調整よりも優れていた。 さらに、プロンプトチューニングは、例えばコード要約のための平均26倍以上の微調整のBLEUスコアを改善するなど、低リソースシナリオにおいて大きなポテンシャルを示す。 我々の結果は、微調整の代わりに、コードインテリジェンスタスクの即時チューニングに適応して、特にタスク固有のデータがない場合に、より良いパフォーマンスを実現することを示唆している。

Pre-trained models have been shown effective in many code intelligence tasks. These models are pre-trained on large-scale unlabeled corpus and then fine-tuned in downstream tasks. However, as the inputs to pre-training and downstream tasks are in different forms, it is hard to fully explore the knowledge of pre-trained models. Besides, the performance of fine-tuning strongly relies on the amount of downstream data, while in practice, the scenarios with scarce data are common. Recent studies in the natural language processing (NLP) field show that prompt tuning, a new paradigm for tuning, alleviates the above issues and achieves promising results in various NLP tasks. In prompt tuning, the prompts inserted during tuning provide task-specific knowledge, which is especially beneficial for tasks with relatively scarce data. In this paper, we empirically evaluate the usage and effect of prompt tuning in code intelligence tasks. We conduct prompt tuning on popular pre-trained models CodeBERT and CodeT5 and experiment with three code intelligence tasks including defect prediction, code summarization, and code translation. Our experimental results show that prompt tuning consistently outperforms fine-tuning in all three tasks. In addition, prompt tuning shows great potential in low-resource scenarios, e.g., improving the BLEU scores of fine-tuning by more than 26\% on average for code summarization. Our results suggest that instead of fine-tuning, we could adapt prompt tuning for code intelligence tasks to achieve better performance, especially when lacking task-specific data.
翻訳日:2022-07-26 15:30:38 公開日:2022-07-24
# スキル発見に基づく自動運転車の交差点における適応的意思決定

Adaptive Decision Making at the Intersection for Autonomous Vehicles Based on Skill Discovery ( http://arxiv.org/abs/2207.11724v1 )

ライセンス: Link先を確認
Xianqi He, Lin Yang, Chao Lu, Zirui Li, Jianwei Gong(参考訳) 都市環境において、複雑な交差点のシナリオは自動運転にとって困難である。 安全性を確保するためには,他の車両とのインタラクションを処理可能な適応的意思決定システムを開発することが重要である。 手動で設計されたモデルベースのメソッドは、一般的なシナリオでは信頼できる。 しかし、不確定な環境では信頼できないため、学習に基づく手法、特に強化学習(rl)法が提案されている。 しかし、現在のRLメソッドはシナリオが変更されたときに再トレーニングする必要がある。 言い換えれば、現在のRL法は蓄積した知識を再利用できない。 新しいシナリオが与えられたとき、学習した知識を忘れる。 この問題を解決するために,知識を自律的に蓄積・再利用できる階層型フレームワークを提案する。 提案手法は,動きプリミティブ(MP)と階層的強化学習(HRL)を組み合わせたものである。 複雑な問題を複数の基本的なサブタスクに分解して難易度を下げる。 提案手法および他のベースライン法は, CARLAシミュレータに基づく, 挑戦的な交差点シナリオで検証される。 交差点のシナリオは、実際の交通流の複雑さと不確実性を反映できる3つの異なるサブタスクを含んでいる。 オフライン学習とテストの結果,提案手法はすべての手法で最高の性能を示した。

In urban environments, the complex and uncertain intersection scenarios are challenging for autonomous driving. To ensure safety, it is crucial to develop an adaptive decision making system that can handle the interaction with other vehicles. Manually designed model-based methods are reliable in common scenarios. But in uncertain environments, they are not reliable, so learning-based methods are proposed, especially reinforcement learning (RL) methods. However, current RL methods need retraining when the scenarios change. In other words, current RL methods cannot reuse accumulated knowledge. They forget learned knowledge when new scenarios are given. To solve this problem, we propose a hierarchical framework that can autonomously accumulate and reuse knowledge. The proposed method combines the idea of motion primitives (MPs) with hierarchical reinforcement learning (HRL). It decomposes complex problems into multiple basic subtasks to reduce the difficulty. The proposed method and other baseline methods are tested in a challenging intersection scenario based on the CARLA simulator. The intersection scenario contains three different subtasks that can reflect the complexity and uncertainty of real traffic flow. After offline learning and testing, the proposed method is proved to have the best performance among all methods.
翻訳日:2022-07-26 15:30:14 公開日:2022-07-24
# 低符号言語に対するニューロシンボリック修復法

Neurosymbolic Repair for Low-Code Formula Languages ( http://arxiv.org/abs/2207.11765v1 )

ライセンス: Link先を確認
Rohan Bavishi, Harshit Joshi, Jos\'e Pablo Cambronero S\'anchez, Anna Fariha, Sumit Gulwani, Vu Le, Ivan Radicek, Ashish Tiwari(参考訳) ExcelやPowerAppsのようなローコードプラットフォームのほとんどのユーザは、ドメイン固有の公式言語でプログラムを書き、非自明なタスクを実行する。 多くの場合、ユーザーは自分の望むプログラムのほとんどを書けるが、壊れた公式を生み出す小さなミスを導入する。 これらのミスは構文的にも意味的にも、ほんの数回の編集で解決できたとしても、ローコードユーザが識別し修正することは難しい。 ラストマイル修復問題として,このような編集の問題を定式化する。 この問題に対処するため,我々は,シンボリックとニューラルネットワークを組み合わせたラストマイル修理エンジン生成器であるlamirageを開発した。 LaMirageは文法とドメイン固有の制約/ルールのセットを持ち、ターゲット言語を互いに近似し、これらを使用して、その言語の式を修正可能な修復エンジンを生成する。 エラーのローカライズと修正候補のランク付けという課題に対処するために、lamirageはニューラルネットワークのテクニックを活用している。 この組み合わせにより、LaMirageは提供された文法と制約を満たす修復を見つけ、次に最も自然な修復を選択することができる。 我々はLaMirageを、400の実際のExcelとPowerFxの公式に対する最先端のニューラルネットワークとシンボリックアプローチと比較する。 これらのベンチマークをリリースして、ローコードドメインでのその後の作業を促進する。

Most users of low-code platforms, such as Excel and PowerApps, write programs in domain-specific formula languages to carry out nontrivial tasks. Often users can write most of the program they want, but introduce small mistakes that yield broken formulas. These mistakes, which can be both syntactic and semantic, are hard for low-code users to identify and fix, even though they can be resolved with just a few edits. We formalize the problem of producing such edits as the last-mile repair problem. To address this problem, we developed LaMirage, a LAst-MIle RepAir-engine GEnerator that combines symbolic and neural techniques to perform last-mile repair in low-code formula languages. LaMirage takes a grammar and a set of domain-specific constraints/rules, which jointly approximate the target language, and uses these to generate a repair engine that can fix formulas in that language. To tackle the challenges of localizing the errors and ranking the candidate repairs, LaMirage leverages neural techniques, whereas it relies on symbolic methods to generate candidate repairs. This combination allows LaMirage to find repairs that satisfy the provided grammar and constraints, and then pick the most natural repair. We compare LaMirage to state-of-the-art neural and symbolic approaches on 400 real Excel and PowerFx formulas, where LaMirage outperforms all baselines. We release these benchmarks to encourage subsequent work in low-code domains.
翻訳日:2022-07-26 15:29:59 公開日:2022-07-24
# Federated Graph Machine Learning: 概念,テクニック,応用に関する調査

Federated Graph Machine Learning: A Survey of Concepts, Techniques, and Applications ( http://arxiv.org/abs/2207.11812v1 )

ライセンス: Link先を確認
Xingbo Fu, Binchi Zhang, Yushun Dong, Chen Chen, Jundong Li(参考訳) グラフ機械学習は最近、学術と産業の両方で大きな注目を集めている。 グラフニューラルネットワーク(GNN)など、ほとんどのグラフ機械学習モデルは、巨大なグラフデータを使ってトレーニングされている。 しかし、医療システムにおける入院予測のような現実のシナリオでは、グラフデータは複数のデータ所有者に格納され、プライバシー上の懸念や規制上の制約のため、他のどの当事者からも直接アクセスできない。 Federated Graph Machine Learning(FGML)は、グラフ機械学習モデルをフェデレートされた方法でトレーニングすることで、この問題に取り組むための有望なソリューションである。 本調査では,FGMLにおける文献の総合的なレビューを行う。 具体的には、まずFGMLの既存の問題を、構造化データ付きemph{FLとemph{structured FL}の2つの設定に分割する新しい分類法を提案する。 次に、各設定における主流技術についてレビューし、FGMLの課題に対する対処方法について詳しく述べる。 さらに、異なるドメインからのFGMLの実際の応用を要約し、FGMLで採用されているオープングラフデータセットとプラットフォームを紹介する。 最後に,本分野での有望な研究方向性を持つ既存研究にいくつかの制限を課す。

Graph machine learning has gained great attention in both academia and industry recently. Most of the graph machine learning models, such as Graph Neural Networks (GNNs), are trained over massive graph data. However, in many real-world scenarios, such as hospitalization prediction in healthcare systems, the graph data is usually stored at multiple data owners and cannot be directly accessed by any other parties due to privacy concerns and regulation restrictions. Federated Graph Machine Learning (FGML) is a promising solution to tackle this challenge by training graph machine learning models in a federated manner. In this survey, we conduct a comprehensive review of the literature in FGML. Specifically, we first provide a new taxonomy to divide the existing problems in FGML into two settings, namely, \emph{FL with structured data} and \emph{structured FL}. Then, we review the mainstream techniques in each setting and elaborate on how they address the challenges under FGML. In addition, we summarize the real-world applications of FGML from different domains and introduce open graph datasets and platforms adopted in FGML. Finally, we present several limitations in the existing studies with promising research directions in this field.
翻訳日:2022-07-26 15:19:24 公開日:2022-07-24
# フェデレートグラフのコントラスト学習

Federated Graph Contrastive Learning ( http://arxiv.org/abs/2207.11836v1 )

ライセンス: Link先を確認
Haoran Yang, Xiangyu Zhao, Muyang Li, Hongxu Chen, Guandong Xu(参考訳) グラフ学習モデルは、研究者がグラフ構造化データを探索するための重要なツールである。 有能なグラフ学習モデルをトレーニングするために、従来の方法は十分なトレーニングデータを使用して、単一のデバイス上でグラフモデルをトレーニングする。 しかし、プライバシー上の懸念から現実のシナリオではそうすることは禁じられている。 フェデレーション学習は、グラフエッジ上の差分プライバシーなど、さまざまなプライバシ保護メカニズムを導入することで、このような制限に対処するための実現可能なソリューションを提供する。 それでも、フェデレーション付きグラフ学習における差分プライバシーは、グラフに保持されている機密情報を保証する。 グラフ学習モデルの性能を劣化させる。 本稿では,グラフエッジに差分プライバシーを実装する方法について検討し,実験で低下する性能を観察する。 また、グラフエッジ上の差分プライバシーは、グラフのコントラスト学習におけるグラフ強化の1つである摂動グラフ近接にノイズをもたらすことに留意する。 そこで我々は,グラフコントラスト学習の利点を生かして,ディファレンシャルプライバシに起因するパフォーマンス低下を軽減することを提案する。 いくつかの代表的なグラフモデルと広く使用されているデータセットで広範な実験が行われ、対照的な学習は差分プライバシーによって引き起こされるモデルのパフォーマンス低下を緩和することを示している。

Graph learning models are critical tools for researchers to explore graph-structured data. To train a capable graph learning model, a conventional method uses sufficient training data to train a graph model on a single device. However, it is prohibitive to do so in real-world scenarios due to privacy concerns. Federated learning provides a feasible solution to address such limitations via introducing various privacy-preserving mechanisms, such as differential privacy on graph edges. Nevertheless, differential privacy in federated graph learning secures the classified information maintained in graphs. It degrades the performances of the graph learning models. In this paper, we investigate how to implement differential privacy on graph edges and observe the performances decreasing in the experiments. We also note that the differential privacy on graph edges introduces noises to perturb graph proximity, which is one of the graph augmentations in graph contrastive learning. Inspired by that, we propose to leverage the advantages of graph contrastive learning to alleviate the performance dropping caused by differential privacy. Extensive experiments are conducted with several representative graph models and widely-used datasets, showing that contrastive learning indeed alleviates the models' performance dropping caused by differential privacy.
翻訳日:2022-07-26 15:19:03 公開日:2022-07-24
# $\textit{FastSVD-ML-ROM}$:リアルタイムアプリケーションのための機械学習に基づく低次モデリングフレームワーク

$\textit{FastSVD-ML-ROM}$: A Reduced-Order Modeling Framework based on Machine Learning for Real-Time Applications ( http://arxiv.org/abs/2207.11842v1 )

ライセンス: Link先を確認
G. I. Drakoulas, T. V. Gortsas, G. C. Bourantas, V. N. Burganos, D. Polyzos(参考訳) デジタル双子は、エンジニアリング製品やシステムのパフォーマンスを最適化するための重要な技術として登場した。 高忠実度数値シミュレーションはエンジニアリング設計のバックボーンであり、複雑なシステムの性能に関する正確な洞察を提供する。 しかし、大規模で動的で非線形なモデルにはかなりの計算資源が必要であり、リアルタイムデジタルツインアプリケーションでは禁じられている。 この目的のために、低次モデル(ROM)を用いて高忠実度解を近似し、物理挙動の優位性を正確に把握する。 本研究は,一過性非線形偏微分方程式を扱う大規模数値問題に対処するため,ROMを開発するための機械学習(ML)プラットフォームを提案する。 私たちのフレームワークは$\textit{FastSVD-ML-ROM}$と呼ばれ、$\textit{ (i)}$ a singular value decomposition (SVD) update method, to compute a linear subspace of the multi-fidelity solution during the simulation process, $\textit{ (ii)}$convolutional autoencoders for non dimensionality reduction, $\textit{ (iii)$ feed-forward neural networks to map the input parameters to the latent spaces, and $\textit{ (iv)$ パラメトリック解のダイナミクスを予測・予測するための長期短期記憶ネットワーク。 2次元線形対流拡散方程式、シリンダーまわりの流体問題、動脈セグメント内の3次元血流について、$\textit{fastsvd-ml-rom}$フレームワークの有効性を実証した。 再構成結果の精度はロバスト性を示し,提案手法の有効性を評価した。

Digital twins have emerged as a key technology for optimizing the performance of engineering products and systems. High-fidelity numerical simulations constitute the backbone of engineering design, providing an accurate insight into the performance of complex systems. However, large-scale, dynamic, non-linear models require significant computational resources and are prohibitive for real-time digital twin applications. To this end, reduced order models (ROMs) are employed, to approximate the high-fidelity solutions while accurately capturing the dominant aspects of the physical behavior. The present work proposes a new machine learning (ML) platform for the development of ROMs, to handle large-scale numerical problems dealing with transient nonlinear partial differential equations. Our framework, mentioned as $\textit{FastSVD-ML-ROM}$, utilizes $\textit{(i)}$ a singular value decomposition (SVD) update methodology, to compute a linear subspace of the multi-fidelity solutions during the simulation process, $\textit{(ii)}$ convolutional autoencoders for nonlinear dimensionality reduction, $\textit{(iii)}$ feed-forward neural networks to map the input parameters to the latent spaces, and $\textit{(iv)}$ long short-term memory networks to predict and forecast the dynamics of parametric solutions. The efficiency of the $\textit{FastSVD-ML-ROM}$ framework is demonstrated for a 2D linear convection-diffusion equation, the problem of fluid around a cylinder, and the 3D blood flow inside an arterial segment. The accuracy of the reconstructed results demonstrates the robustness and assesses the efficiency of the proposed approach.
翻訳日:2022-07-26 15:18:43 公開日:2022-07-24
# 軌跡計画と特徴位置キューを用いた視覚・言語ナビゲーションの優先順位マップ

A Priority Map for Vision-and-Language Navigation with Trajectory Plans and Feature-Location Cues ( http://arxiv.org/abs/2207.11717v1 )

ライセンス: Link先を確認
Jason Armitage, Leonardo Impett, Rico Sennrich(参考訳) にぎやかな街では、気晴らしに囲まれた歩行者が、ルートに関連する場合、1つの標識を拾うことができます。 屋外ビジョン・アンド・ランゲージナビゲーション(VLN)の人工エージェントも、入力中の環境特徴や位置に関する監視信号を検出する。 コストのかかる前処理や事前訓練を行わずにトランスフォーマティブアーキテクチャの関連する特徴の優位性を高めるため,神経心理学研究で記述された優先的マップサ機構から着想を得た。 我々は,新しい優先度マップモジュールを実装し,経路の高レベル表現と都市特徴への環境関連参照を備えた低サンプルデータセットを用いて,補助タスクを事前学習する。 軌跡計画の階層的プロセス - その後のパラメータ化による視覚入力のビジュアルブーストフィルタリングと対応するテキストスパンの予測 - は、クロスモーダルアライメントと特徴レベルのローカライゼーションのコア課題に対処する。 優先度マップモジュールは機能ロケーションフレームワークに統合され、スタンドアロントランスフォーマーのタスク完了率を2倍にし、VLNのTouchdownベンチマークで最先端のパフォーマンスを達成する。 コードとデータは appendix c で参照される。

In a busy city street, a pedestrian surrounded by distractions can pick out a single sign if it is relevant to their route. Artificial agents in outdoor Vision-and-Language Navigation (VLN) are also confronted with detecting supervisory signal on environment features and location in inputs. To boost the prominence of relevant features in transformer-based architectures without costly preprocessing and pretraining, we take inspiration from priority maps - a mechanism described in neuropsychological studies. We implement a novel priority map module and pretrain on auxiliary tasks using low-sample datasets with high-level representations of routes and environment-related references to urban features. A hierarchical process of trajectory planning - with subsequent parameterised visual boost filtering on visual inputs and prediction of corresponding textual spans - addresses the core challenges of cross-modal alignment and feature-level localisation. The priority map module is integrated into a feature-location framework that doubles the task completion rates of standalone transformers and attains state-of-the-art performance on the Touchdown benchmark for VLN. Code and data are referenced in Appendix C.
翻訳日:2022-07-26 15:12:12 公開日:2022-07-24
# AMS-Net:多相流問題に対する解釈可能な基底展開を用いた適応型マルチスケールスパースニューラルネットワーク

AMS-Net: Adaptive Multiscale Sparse Neural Network with Interpretable Basis Expansion for Multiphase Flow Problems ( http://arxiv.org/abs/2207.11735v1 )

ライセンス: Link先を確認
Yating Wang, Wing Tat Leung, Guang Lin(参考訳) 本研究では,物理過程を学習し,大きなスナップショット空間を与えられた解のスパース表現を得るために適用可能な適応スパース学習アルゴリズムを提案する。 興味の量を近似するために使用できる事前計算された基底関数の豊富なクラスが存在すると仮定する。 次に、これらの基底関数にまたがる空間における解の係数を学ぶために、ニューラルネットワークアーキテクチャを設計する。 基本関数の情報は損失関数に組み込まれており、複数の時間ステップにおけるダウンスケール縮小次数解と参照解との差を最小限に抑える。 ネットワークには複数のサブモジュールが含まれており、異なる時間ステップの解を同時に学習することができる。 我々は,学習の枠組みにおいて,重要な自由度を特定するための戦略を提案する。 疎解表現を求めるために、ソフトしきい値演算子を適用して、ニューラルネットワークの出力係数ベクトルのスパーシティを強制する。 近似空間の単純化と強化を避けるため、グレディアルゴリズムによってある程度の自由度をシステムに追加することができる。 どちらのシナリオ、すなわち自由度を取り除いて加える場合、対応するネットワーク接続は、ネットワーク出力から得られる解係数の大きさによってprunまたは再活性化される。 提案した適応学習プロセスは, 適切な基礎選択と正確な近似を達成できることを示すために, いくつかの玩具事例に適用される。 複雑な応用における提案手法の能力と解釈性を示すため,二相多相流問題に対するより数値的な実験を行った。

In this work, we propose an adaptive sparse learning algorithm that can be applied to learn the physical processes and obtain a sparse representation of the solution given a large snapshot space. Assume that there is a rich class of precomputed basis functions that can be used to approximate the quantity of interest. We then design a neural network architecture to learn the coefficients of solutions in the spaces which are spanned by these basis functions. The information of the basis functions are incorporated in the loss function, which minimizes the differences between the downscaled reduced order solutions and reference solutions at multiple time steps. The network contains multiple submodules and the solutions at different time steps can be learned simultaneously. We propose some strategies in the learning framework to identify important degrees of freedom. To find a sparse solution representation, a soft thresholding operator is applied to enforce the sparsity of the output coefficient vectors of the neural network. To avoid over-simplification and enrich the approximation space, some degrees of freedom can be added back to the system through a greedy algorithm. In both scenarios, that is, removing and adding degrees of freedom, the corresponding network connections are pruned or reactivated guided by the magnitude of the solution coefficients obtained from the network outputs. The proposed adaptive learning process is applied to some toy case examples to demonstrate that it can achieve a good basis selection and accurate approximation. More numerical tests are performed on two-phase multiscale flow problems to show the capability and interpretability of the proposed method on complicated applications.
翻訳日:2022-07-26 15:11:51 公開日:2022-07-24
# マルチラベル学習からクロスドメイン移行へ:モデルに依存しないアプローチ

From Multi-label Learning to Cross-Domain Transfer: A Model-Agnostic Approach ( http://arxiv.org/abs/2207.11742v1 )

ライセンス: Link先を確認
Jesse Read(参考訳) マルチラベル学習では, 単一のデータポイントを複数のターゲットラベルに関連付けるマルチタスク学習において, 最良精度を得るためには, ラベル間の依存を明示的にモデル化するべきであると広く想定された。 この前提により、例えばあるラベルの予測が他のラベルの予測に影響を与える場合など、ラベルを学習し、予測する技術を提供する手法が急増した。 現在では多くの文脈において、依存モデルが最適性能に必要とされないことが認識されているが、そのようなモデルはこれらの文脈において独立モデルよりも優れており、ラベル依存以外の性能に関する代替の説明が提案されている。 近年の発見の活用と拡張により,従来のマルチラベル学習の前提を転換し,タスクラベル間の測定可能な依存がない場合,例えばタスクラベルが別の問題領域から来ている場合などにおいて,特に共同モデリングの問題にアプローチする。 この研究から、タスクの転送可能性は、ソースと対象ドメインやモデル間の類似性の測定から生じるという長期にわたる仮定に挑戦する、トランスファー学習のアプローチの構築へと洞察をシフトする。 これにより、純粋にデータ駆動ではなくモデル駆動で、さらにブラックボックスとモデルに依存しない(どんなベースモデルクラスも考慮できる)トランスファーラーニングの方法の設計とテストが可能になります。 基本的に、ソースモデルのキャパシティに基づいてタスク依存を作成できることを示します。 得られた結果は,マルチラベル学習とトランスファー学習の両面で,今後の作業への明確な方向性を示す上で重要な意味を持つ。

In multi-label learning, a particular case of multi-task learning where a single data point is associated with multiple target labels, it was widely assumed in the literature that, to obtain best accuracy, the dependence among the labels should be explicitly modeled. This premise led to a proliferation of methods offering techniques to learn and predict labels together, for example where the prediction for one label influences predictions for other labels. Even though it is now acknowledged that in many contexts a model of dependence is not required for optimal performance, such models continue to outperform independent models in some of those very contexts, suggesting alternative explanations for their performance beyond label dependence, which the literature is only recently beginning to unravel. Leveraging and extending recent discoveries, we turn the original premise of multi-label learning on its head, and approach the problem of joint-modeling specifically under the absence of any measurable dependence among task labels; for example, when task labels come from separate problem domains. We shift insights from this study towards building an approach for transfer learning that challenges the long-held assumption that transferability of tasks comes from measurements of similarity between the source and target domains or models. This allows us to design and test a method for transfer learning, which is model driven rather than purely data driven, and furthermore it is black box and model-agnostic (any base model class can be considered). We show that essentially we can create task-dependence based on source-model capacity. The results we obtain have important implications and provide clear directions for future work, both in the areas of multi-label and transfer learning.
翻訳日:2022-07-26 15:11:28 公開日:2022-07-24
# SGAT: 単純なグラフアテンションネットワーク

SGAT: Simplicial Graph Attention Network ( http://arxiv.org/abs/2207.11761v1 )

ライセンス: Link先を確認
See Hian Lee, Feng Ji and Wee Peng Tay(参考訳) 不均一グラフは複数のノードとエッジ型を持ち、同質グラフよりも意味的にリッチである。 このような複雑なセマンティクスを学ぶために、ヘテロジニアスグラフに対する多くのグラフニューラルネットワークアプローチは、ノード間のマルチホップインタラクションをキャプチャするためにメタパスを使用する。 通常、非ターゲットノードの機能は学習手順には組み込まれない。 しかし、複数のノードやエッジを含む非線形で高次相互作用が存在する。 本稿では,sgat(simplicial graph attention network)を提案する。sgat(simplicial graph attention network)は,そのような高次相互作用を表現するための,単純で複雑なアプローチである。 次に、注意機構と上部隣接を用いて表現を生成する。 異種グラフデータセット上でのノード分類タスクによるアプローチの有効性を実証的に実証し、ランダムなノード特徴を用いて構造情報を抽出するSGATの能力を示す。 数値実験により、SGATは他の最先端の異種グラフ学習法よりも優れた性能を示した。

Heterogeneous graphs have multiple node and edge types and are semantically richer than homogeneous graphs. To learn such complex semantics, many graph neural network approaches for heterogeneous graphs use metapaths to capture multi-hop interactions between nodes. Typically, features from non-target nodes are not incorporated into the learning procedure. However, there can be nonlinear, high-order interactions involving multiple nodes or edges. In this paper, we present Simplicial Graph Attention Network (SGAT), a simplicial complex approach to represent such high-order interactions by placing features from non-target nodes on the simplices. We then use attention mechanisms and upper adjacencies to generate representations. We empirically demonstrate the efficacy of our approach with node classification tasks on heterogeneous graph datasets and further show SGAT's ability in extracting structural information by employing random node features. Numerical experiments indicate that SGAT performs better than other current state-of-the-art heterogeneous graph learning methods.
翻訳日:2022-07-26 15:10:59 公開日:2022-07-24
# codit:時系列データにおけるコンフォーマントアウトオブディストリビューション検出

CODiT: Conformal Out-of-Distribution Detection in Time-Series Data ( http://arxiv.org/abs/2207.11769v1 )

ライセンス: Link先を確認
Ramneet Kaur, Kaustubh Sridhar, Sangdon Park, Susmit Jha, Anirban Roy, Oleg Sokolsky, Insup Lee(参考訳) 機械学習モデルは、トレーニング分布から遠くない入力に対して誤った予測を行う傾向にあります。 これにより、自動運転車や医療といった安全クリティカルなアプリケーションへの展開が妨げられる。 個々のデータポイントのトレーニング分布からのシフトの検出が注目されている。 このようなアウト・オブ・ディストリビューション(OOD)の検出には,いくつかの手法が提案されている。 しかし、多くの応用において、機械学習モデルへの入力は時間系列を形成する。 時系列データにおける既存のOOD検出技術は、シーケンス内の時間的関係を利用していないか、検出に関する保証を提供していない。 本稿では, 時系列データにおけるOOD検出のための共形異常検出フレームワークの非整合性尺度として, 非分布時間同値からの偏差を用いて, 提案した測定値に基づいて複数の共形検出器からの独立予測を計算し, これらの予測をフィッシャーの手法で組み合わせることで, 時系列データにおける誤検出の保証を伴う検出CODiTへと導いた。 自律運転におけるコンピュータビジョンデータセットの最先端結果を達成することで,coditの有効性を示す。 また,CODiTは生理的GAIT知覚データセットで実験を行うことにより,非視覚的データセットにおけるOOD検出に利用できることを示す。 コード、データ、トレーニングされたモデルはhttps://github.com/kaustubhsridhar/time-series-OOD.comで入手できる。

Machine learning models are prone to making incorrect predictions on inputs that are far from the training distribution. This hinders their deployment in safety-critical applications such as autonomous vehicles and healthcare. The detection of a shift from the training distribution of individual datapoints has gained attention. A number of techniques have been proposed for such out-of-distribution (OOD) detection. But in many applications, the inputs to a machine learning model form a temporal sequence. Existing techniques for OOD detection in time-series data either do not exploit temporal relationships in the sequence or do not provide any guarantees on detection. We propose using deviation from the in-distribution temporal equivariance as the non-conformity measure in conformal anomaly detection framework for OOD detection in time-series data.Computing independent predictions from multiple conformal detectors based on the proposed measure and combining these predictions by Fisher's method leads to the proposed detector CODiT with guarantees on false detection in time-series data. We illustrate the efficacy of CODiT by achieving state-of-the-art results on computer vision datasets in autonomous driving. We also show that CODiT can be used for OOD detection in non-vision datasets by performing experiments on the physiological GAIT sensory dataset. Code, data, and trained models are available at https://github.com/kaustubhsridhar/time-series-OOD.
翻訳日:2022-07-26 15:10:43 公開日:2022-07-24
# エアロゾルマイクロ物理の物理インフォームドラーニング

Physics-Informed Learning of Aerosol Microphysics ( http://arxiv.org/abs/2207.11786v1 )

ライセンス: Link先を確認
Paula Harder, Duncan Watson-Parris, Philip Stier, Dominik Strassel, Nicolas R. Gauger, Janis Keuper(参考訳) エアロゾル粒子は、放射を吸収・散乱し、雲の性質に影響を与えることにより、気候システムにおいて重要な役割を果たす。 また、気候モデリングの最大の不確実性源の1つでもある。 多くの気候モデルは、計算上の制約のため、エアロゾルを十分に詳細に含まない。 重要な過程を表現するためには、エアロゾルの微物理特性と過程を考慮しなければならない。 これは、M7マイクロ物理を用いたECHAM-HAMグローバル気候エアロゾルモデルで行われているが、計算コストが高いため、より精細な解像度やより長い時間で実行するのは非常に高価である。 機械学習を用いて、マイクロ物理モデルを十分な精度でエミュレートし、推論時に高速で計算コストを削減することを目指している。 オリジナルのM7モデルは、入力出力ペアのデータを生成してニューラルネットワークをトレーニングするために使用される。 変数の傾向を学習することができ、平均的なR^2$スコアは7.1\%$である。 さらに、ニューラルネットワークに物理的知識を付加し、マス違反を減らし、マスポジティビティを強制する手法についても検討する。 GPUでは、元のモデルと比較して64倍以上のスピードアップを実現しています。

Aerosol particles play an important role in the climate system by absorbing and scattering radiation and influencing cloud properties. They are also one of the biggest sources of uncertainty for climate modeling. Many climate models do not include aerosols in sufficient detail due to computational constraints. In order to represent key processes, aerosol microphysical properties and processes have to be accounted for. This is done in the ECHAM-HAM global climate aerosol model using the M7 microphysics, but high computational costs make it very expensive to run with finer resolution or for a longer time. We aim to use machine learning to emulate the microphysics model at sufficient accuracy and reduce the computational cost by being fast at inference time. The original M7 model is used to generate data of input-output pairs to train a neural network on it. We are able to learn the variables' tendencies achieving an average $R^2$ score of $77.1\% $. We further explore methods to inform and constrain the neural network with physical knowledge to reduce mass violation and enforce mass positivity. On a GPU we achieve a speed-up of up to over 64x compared to the original model.
翻訳日:2022-07-26 15:10:23 公開日:2022-07-24
# 言語課題克服のための視覚摂動認識協調学習

Visual Perturbation-aware Collaborative Learning for Overcoming the Language Prior Problem ( http://arxiv.org/abs/2207.11850v1 )

ライセンス: Link先を確認
Yudong Han, Liqiang Nie, Jianhua Yin, Jianlong Wu, Yan Yan(参考訳) 近年,既存の視覚質問回答(VQA, Visual Question Answering, VQA, VQA)モデルでは,画像内容を無視しながら,質問タイプと回答間の表面的統計的相関を捉えることが指摘されている。 繊細なモデルを作成したり、余分なビジュアルアノテーションを導入することで、画像依存性を強化するために多くの努力がなされている。 しかし、これらの手法は、言語依存の緩和に不可欠である学習された回答表現に視覚的手がかりがどう影響するかを十分に調べることができない。 さらに、彼らは一般的に、よりきめ細かいインスタンスレベルのパターンを見落とし、さらなる最適化を要求する、学習された回答表現のクラスレベルの識別を強調している。 本稿では,視覚的摂動校正の観点から新しい協調学習手法を提案する。 具体的には、異なる摂動範囲で2種類のキュレートされた画像を構築するための視覚コントローラを考案し、よく設計された2つの識別器を用いて、インスタンス内不変性とインスタンス間識別の協調学習を行う。 また,情報ボトルネック変調器を潜在空間に実装し,さらにバイアス軽減と表現校正を行う。 3つの正統派ベースラインに視覚摂動認識フレームワークを付加し、2つの診断VQA-CPベンチマークデータセットによる実験結果から,その効果が明らかとなった。 さらに、バランスの取れたVQAベンチマークの堅牢性も正当化します。

Several studies have recently pointed that existing Visual Question Answering (VQA) models heavily suffer from the language prior problem, which refers to capturing superficial statistical correlations between the question type and the answer whereas ignoring the image contents. Numerous efforts have been dedicated to strengthen the image dependency by creating the delicate models or introducing the extra visual annotations. However, these methods cannot sufficiently explore how the visual cues explicitly affect the learned answer representation, which is vital for language reliance alleviation. Moreover, they generally emphasize the class-level discrimination of the learned answer representation, which overlooks the more fine-grained instance-level patterns and demands further optimization. In this paper, we propose a novel collaborative learning scheme from the viewpoint of visual perturbation calibration, which can better investigate the fine-grained visual effects and mitigate the language prior problem by learning the instance-level characteristics. Specifically, we devise a visual controller to construct two sorts of curated images with different perturbation extents, based on which the collaborative learning of intra-instance invariance and inter-instance discrimination is implemented by two well-designed discriminators. Besides, we implement the information bottleneck modulator on latent space for further bias alleviation and representation calibration. We impose our visual perturbation-aware framework to three orthodox baselines and the experimental results on two diagnostic VQA-CP benchmark datasets evidently demonstrate its effectiveness. In addition, we also justify its robustness on the balanced VQA benchmark.
翻訳日:2022-07-26 14:50:12 公開日:2022-07-24
# サッカーにおけるスポーツフィールド登録のためのキーポイントレスカメラキャリブレーション

Keypoint-less Camera Calibration for Sports Field Registration in Soccer ( http://arxiv.org/abs/2207.11709v1 )

ライセンス: Link先を確認
Jonas Theiner and Ralph Ewerth(参考訳) 放送映像におけるスポーツフィールド登録は、通常、画像の平面フィールドと対応する可視領域のマッピングを提供するホモグラフィ推定のタスクとして解釈される。 従来のアプローチとは対照的に,この課題はカメラのキャリブレーション問題である。 まず、既知の校正対象のセグメントに対する画素レベルのアノテーション、すなわちスポーツフィールドに基づいて、セグメント対応(線、点雲など)からカメラのポーズと焦点長を学習できる微分可能な目的関数を導入する。 キャリブレーションモジュールは、推定カメラパラメータによって誘導されるセグメント再投射誤差を反復的に最小化する。 第2に,放送サッカー映像から3次元スポーツフィールド登録を行うための新しい手法を提案する。 キャリブレーションモジュールはトレーニングデータを一切必要とせず、典型的な解と比較して初期推定を洗練させるため、我々の解は1ステップで行う。 提案手法は,2つのデータセットのスポーツフィールド登録に対して評価され,最先端の2つのアプローチと比較して優れた結果が得られる。

Sports field registration in broadcast videos is typically interpreted as the task of homography estimation, which provides a mapping between a planar field and the corresponding visible area of the image. In contrast to previous approaches, we consider the task as a camera calibration problem. First, we introduce a differentiable objective function that is able to learn the camera pose and focal length from segment correspondences (e.g., lines, point clouds), based on pixel-level annotations for segments of a known calibration object, i.e., the sports field. The calibration module iteratively minimizes the segment reprojection error induced by the estimated camera parameters. Second, we propose a novel approach for 3D sports field registration from broadcast soccer images. The calibration module does not require any training data and compared to the typical solution, which subsequently refines an initial estimation, our solution does it in one step. The proposed method is evaluated for sports field registration on two datasets and achieves superior results compared to two state-of-the-art approaches.
翻訳日:2022-07-26 14:43:18 公開日:2022-07-24
# ビデオのロールングシャッターに対する内部制約と外部制約の組合せ

Combining Internal and External Constraints for Unrolling Shutter in Videos ( http://arxiv.org/abs/2207.11725v1 )

ライセンス: Link先を確認
Eyal Naor and Itai Antebi and Shai Bagon and Michal Irani(参考訳) ローリングシャッター(RS)カメラで撮影した映像は空間的に歪んだフレームとなる。 これらの歪みは、高速カメラ/シーン動作で顕著になる。 RSのアンドーイング効果は、正しいグローバルシャッター(GS)フレームを生成するために、オブジェクトを修正/置換する必要がある空間問題として扱われることがある。 しかし、rs効果の原因は本質的に時間的であり、空間的ではない。 本稿では,RS問題に対する時空間解を提案する。 それらのxyフレーム間の大きな違いにもかかわらず、RSビデオとその対応するGSビデオは、既知のサブフレームの時間シフトまで、全く同じxtスライスを共有する傾向にある。 さらに、それぞれのビデオ内で強い時間的エイリアスにもかかわらず、小さな2D xt-パッチの同じ分布を共有している。 これにより、RS入力ビデオによって課されるビデオ固有の制約を使用してGS出力ビデオを制限することができる。 我々のアルゴリズムは3つの主成分から成り立っている。 i) 通常のビデオシーケンスで訓練したオフ・ザ・シェルフ法を用いて, 連続RSフレーム間の高密度時間的アップサンプリングを行い, GSの「プロソサル」を抽出した。 (ii)専用のマージネットを用いて、そのようなgs「プロポサール」のアンサンブルを正しくマージする学習。 (iii)gs出力映像とrs入力映像とのxtパッチの類似性を課す映像特異的ゼロショット最適化。 本手法は,小さな合成rs/gsデータセット上で訓練されたにもかかわらず,数値的および視覚的にベンチマークデータセットの最先端結果を得る。 さらに、トレーニングセットの配布外のモーションタイプ(例えば、複雑な非剛体モーション)を持つ新しい複雑なRSビデオ(例えば、より多くのデータでトレーニングされた競合メソッドがうまく扱えないビデオ)を一般化する。 これらの一般化能力は、外部制約と内部制約の組み合わせによるものである。

Videos obtained by rolling-shutter (RS) cameras result in spatially-distorted frames. These distortions become significant under fast camera/scene motions. Undoing effects of RS is sometimes addressed as a spatial problem, where objects need to be rectified/displaced in order to generate their correct global shutter (GS) frame. However, the cause of the RS effect is inherently temporal, not spatial. In this paper we propose a space-time solution to the RS problem. We observe that despite the severe differences between their xy frames, a RS video and its corresponding GS video tend to share the exact same xt slices -- up to a known sub-frame temporal shift. Moreover, they share the same distribution of small 2D xt-patches, despite the strong temporal aliasing within each video. This allows to constrain the GS output video using video-specific constraints imposed by the RS input video. Our algorithm is composed of 3 main components: (i) Dense temporal upsampling between consecutive RS frames using an off-the-shelf method, (which was trained on regular video sequences), from which we extract GS "proposals". (ii) Learning to correctly merge an ensemble of such GS "proposals" using a dedicated MergeNet. (iii) A video-specific zero-shot optimization which imposes the similarity of xt-patches between the GS output video and the RS input video. Our method obtains state-of-the-art results on benchmark datasets, both numerically and visually, despite being trained on a small synthetic RS/GS dataset. Moreover, it generalizes well to new complex RS videos with motion types outside the distribution of the training set (e.g., complex non-rigid motions) -- videos which competing methods trained on much more data cannot handle well. We attribute these generalization capabilities to the combination of external and internal constraints.
翻訳日:2022-07-26 14:43:02 公開日:2022-07-24
# Few-Shot Talking Head Synthesisのための動的顔放射場学習

Learning Dynamic Facial Radiance Fields for Few-Shot Talking Head Synthesis ( http://arxiv.org/abs/2207.11770v1 )

ライセンス: Link先を確認
Shuai Shen, Wanhua Li, Zheng Zhu, Yueqi Duan, Jie Zhou, Jiwen Lu(参考訳) トーキングヘッド合成は、フィルムダビング、仮想アバター、オンライン教育に広く応用されている新興技術である。 最近のNeRFベースの手法は、顔の3D構造情報をよりよく捉えるため、より自然な会話ビデオを生成する。 しかし、特定のモデルは、大きなデータセットで各アイデンティティのためにトレーニングする必要がある。 本稿では,少ないトレーニングデータで識別できない同一性に迅速に一般化可能な,少数発発発発発声頭部合成のための動的顔放射場(dfrf)を提案する。 ネットワーク内で特定の人物の3次元形状と外観を直接エンコードする既存のnerfベースの方法とは異なり、dfrf条件は2次元の外観画像上で放射能場に直面し、事前に顔を学ぶ。 これにより、顔放射野は、参照画像が少ない新しいアイデンティティに柔軟に調整することができる。 さらに, 顔の変形をモデル化するために, 音声信号に条件付き可変顔整形モジュールを提案し, クエリ空間への参照画像のデフォルメを行う。 提案するdfrfは,数十秒のトレーニングクリップを利用可能にすることで,40kのイテレーションで新たなアイデンティティを実現するために,自然で高品質な音声駆動型音声ヘッドビデオを合成できることが実証された。 読者は直感的な比較のために補足ビデオを見ることを強く推奨する。 コードはhttps://sstzal.github.io/dfrf/で入手できる。

Talking head synthesis is an emerging technology with wide applications in film dubbing, virtual avatars and online education. Recent NeRF-based methods generate more natural talking videos, as they better capture the 3D structural information of faces. However, a specific model needs to be trained for each identity with a large dataset. In this paper, we propose Dynamic Facial Radiance Fields (DFRF) for few-shot talking head synthesis, which can rapidly generalize to an unseen identity with few training data. Different from the existing NeRF-based methods which directly encode the 3D geometry and appearance of a specific person into the network, our DFRF conditions face radiance field on 2D appearance images to learn the face prior. Thus the facial radiance field can be flexibly adjusted to the new identity with few reference images. Additionally, for better modeling of the facial deformations, we propose a differentiable face warping module conditioned on audio signals to deform all reference images to the query space. Extensive experiments show that with only tens of seconds of training clip available, our proposed DFRF can synthesize natural and high-quality audio-driven talking head videos for novel identities with only 40k iterations. We highly recommend readers view our supplementary video for intuitive comparisons. Code is available in https://sstzal.github.io/DFRF/.
翻訳日:2022-07-26 14:42:31 公開日:2022-07-24
# 汚染耐性異常検出のための階層型半教師付きコントラスト学習

Hierarchical Semi-Supervised Contrastive Learning for Contamination-Resistant Anomaly Detection ( http://arxiv.org/abs/2207.11789v1 )

ライセンス: Link先を確認
Gaoang Wang, Yibing Zhan, Xinchao Wang, Mingli Song, Klara Nahrstedt(参考訳) 異常検出は、通常のデータ分布から逸脱したサンプルを識別することを目的としている。 対照的な学習は、異常の効果的な識別を可能にするサンプル表現に成功している。 しかし, 半教師付き学習セットにおけるラベルなし異常サンプルを汚染する場合, 現在のコントラストに基づく方法が一般的である。 1)トレーニングデータ間の包括的関係を無視し、最適以下のパフォーマンスにつながる。 2) 微調整が必要で, 効率が低い。 本稿では,これら2つの問題に対処するため,汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習(HSCL)フレームワークを提案する。 具体的には、hsclはサンプル対サンプル、サンプル対プロトタイプ、正常対異常関係の3つの相補的な関係を階層的に制御し、汚染されたデータを包括的に探索することで正常と異常の区別を拡大する。 さらに、HSCLは、微調整なしで識別表現を効率的に学習できるエンドツーエンドの学習手法である。 HSCLは、一級分類やクロスデータセット検出など、複数のシナリオで最先端のパフォーマンスを達成する。 広範囲なアブレーション研究は、各々の考慮された関係の有効性をさらに検証する。 コードはhttps://github.com/gaoangw/hsclで入手できる。

Anomaly detection aims at identifying deviant samples from the normal data distribution. Contrastive learning has provided a successful way to sample representation that enables effective discrimination on anomalies. However, when contaminated with unlabeled abnormal samples in training set under semi-supervised settings, current contrastive-based methods generally 1) ignore the comprehensive relation between training data, leading to suboptimal performance, and 2) require fine-tuning, resulting in low efficiency. To address the above two issues, in this paper, we propose a novel hierarchical semi-supervised contrastive learning (HSCL) framework, for contamination-resistant anomaly detection. Specifically, HSCL hierarchically regulates three complementary relations: sample-to-sample, sample-to-prototype, and normal-to-abnormal relations, enlarging the discrimination between normal and abnormal samples with a comprehensive exploration of the contaminated data. Besides, HSCL is an end-to-end learning approach that can efficiently learn discriminative representations without fine-tuning. HSCL achieves state-of-the-art performance in multiple scenarios, such as one-class classification and cross-dataset detection. Extensive ablation studies further verify the effectiveness of each considered relation. The code is available at https://github.com/GaoangW/HSCL.
翻訳日:2022-07-26 14:42:09 公開日:2022-07-24
# PatchRD: パターン検索と変形の学習による詳細な形状保存

PatchRD: Detail-Preserving Shape Completion by Learning Patch Retrieval and Deformation ( http://arxiv.org/abs/2207.11790v1 )

ライセンス: Link先を確認
Bo Sun, Vladimir G. Kim, Noam Aigerman, Qixing Huang, Siddhartha Chaudhuri(参考訳) 本稿では,3次元形状の欠落領域の幾何学的詳細化に焦点を当てたデータ駆動型形状補完手法を提案する。 既存の生成法では訓練データや表現能力が欠如しており、複雑な幾何学やトポロジーで精細な細部を合成できる。 私たちの重要な洞察は、パッチを部分的な入力から完全な欠落領域にコピーして変形させることです。 これにより、トレーニングデータと大きく異なる場合でも、局所的な幾何学的特徴のスタイルを維持できる。 完全に自動化されたアプローチは2段階に進む。 まず、入力形状から候補パッチを取得することを学ぶ。 第二に、検索された候補のいくつかを選択して変形し、それらをシームレスに完全な形にブレンドします。 この方法は、類似性に基づく単一インスタンス補完と形状空間の学習による補完という、2つの最も一般的な補完手法の利点を組み合わせたものである。 部分入力からパッチを検索して繰り返しパターンを活用し,ニューラルネットワークを用いて検索と変形のステップを導くことにより,グローバル構造事前学習を行う。 実験の結果,複数のデータセットと形状カテゴリのベースラインをはるかに上回る結果が得られた。 コードとデータはhttps://github.com/GitBoSun/PatchRD.comで公開されている。

This paper introduces a data-driven shape completion approach that focuses on completing geometric details of missing regions of 3D shapes. We observe that existing generative methods lack the training data and representation capacity to synthesize plausible, fine-grained details with complex geometry and topology. Our key insight is to copy and deform patches from the partial input to complete missing regions. This enables us to preserve the style of local geometric features, even if it drastically differs from the training data. Our fully automatic approach proceeds in two stages. First, we learn to retrieve candidate patches from the input shape. Second, we select and deform some of the retrieved candidates to seamlessly blend them into the complete shape. This method combines the advantages of the two most common completion methods: similarity-based single-instance completion, and completion by learning a shape space. We leverage repeating patterns by retrieving patches from the partial input, and learn global structural priors by using a neural network to guide the retrieval and deformation steps. Experimental results show our approach considerably outperforms baselines across multiple datasets and shape categories. Code and data are available at https://github.com/GitBoSun/PatchRD.
翻訳日:2022-07-26 14:41:51 公開日:2022-07-24
# クロスモーダル3次元形状生成とマニピュレーション

Cross-Modal 3D Shape Generation and Manipulation ( http://arxiv.org/abs/2207.11795v1 )

ライセンス: Link先を確認
Zezhou Cheng, Menglei Chai, Jian Ren, Hsin-Ying Lee, Kyle Olszewski, Zeng Huang, Subhransu Maji, Sergey Tulyakov(参考訳) 3Dオブジェクトの形状と色の作成と編集には、膨大な努力と専門知識が必要です。 3dインターフェースの直接操作と比較すると、スケッチやスクリブルのような2dインタラクションは通常、ユーザにとってずっと自然で直感的です。 本稿では,2次元モダリティと暗黙の3次元表現を共有潜在空間で結合する汎用的マルチモーダル生成モデルを提案する。 提案モデルでは, 特定の2次元制御モダリティから潜在空間へ編集を伝播させることにより, 汎用的な3次元生成と操作が可能となる。 例えば、スケッチを描いて3d形状を編集したり、2dレンダリングにカラークリブルを塗って3d表面を塗り替えたり、1つまたは複数の参照画像が与えられたカテゴリの3d形状を生成したりする。 従来の作業とは異なり、我々のモデルは編集作業ごとに再学習や微調整を必要とせず、概念的にはシンプルで、実装が容易で、ドメインシフトが堅牢で、部分的な2次元入力に対する多様な再構成に柔軟である。 グレースケールラインスケッチとレンダリングカラー画像の2つの代表的な2次元モーダル性について評価し,これらの2次元モーダル性を用いて形状操作と生成作業を可能にすることを示す。

Creating and editing the shape and color of 3D objects require tremendous human effort and expertise. Compared to direct manipulation in 3D interfaces, 2D interactions such as sketches and scribbles are usually much more natural and intuitive for the users. In this paper, we propose a generic multi-modal generative model that couples the 2D modalities and implicit 3D representations through shared latent spaces. With the proposed model, versatile 3D generation and manipulation are enabled by simply propagating the editing from a specific 2D controlling modality through the latent spaces. For example, editing the 3D shape by drawing a sketch, re-colorizing the 3D surface via painting color scribbles on the 2D rendering, or generating 3D shapes of a certain category given one or a few reference images. Unlike prior works, our model does not require re-training or fine-tuning per editing task and is also conceptually simple, easy to implement, robust to input domain shifts, and flexible to diverse reconstruction on partial 2D inputs. We evaluate our framework on two representative 2D modalities of grayscale line sketches and rendered color images, and demonstrate that our method enables various shape manipulation and generation tasks with these 2D modalities.
翻訳日:2022-07-26 14:41:32 公開日:2022-07-24
# VizWiz-FewShot:視覚障害者が撮影した画像に物体を配置する

VizWiz-FewShot: Locating Objects in Images Taken by People With Visual Impairments ( http://arxiv.org/abs/2207.11810v1 )

ライセンス: Link先を確認
Yu-Yun Tseng, Alexander Bell, and Danna Gurari(参考訳) 撮影された画像の視覚的コンテンツについて真に学ぼうとしていた写真家から生まれた,数ショットのローカライズデータセットを紹介します。 視覚障害者が撮影した4500枚以上の画像に、100のカテゴリの約10,000のセグメンテーションが含まれている。 既存の少数ショットオブジェクト検出やインスタンスセグメンテーションデータセットと比較して、私たちのデータセットは、オブジェクトの穴(例えば、セグメンテーションの12.3\%)を最初に見つけ、画像に対してはるかに大きな範囲の大きさを占めるオブジェクトを示し、テキストは、オブジェクト(例えば、セグメンテーションの22.4\%)の5倍以上の頻度で使われている。 現代の3つのマイナショットローカライズアルゴリズムの分析は、新しいデータセットに貧弱に一般化していることを示しています。 アルゴリズムは通常、穴のある物体、非常に小さくて大きな物体、そしてテキストが欠けている物体を見つけるのに苦労する。 より大きなコミュニティがこれらの未解決の課題に取り組むように促すため、私たちは注釈付き少数ショットデータセットをhttps://vizwiz.org.com/で公開しています。

We introduce a few-shot localization dataset originating from photographers who authentically were trying to learn about the visual content in the images they took. It includes nearly 10,000 segmentations of 100 categories in over 4,500 images that were taken by people with visual impairments. Compared to existing few-shot object detection and instance segmentation datasets, our dataset is the first to locate holes in objects (e.g., found in 12.3\% of our segmentations), it shows objects that occupy a much larger range of sizes relative to the images, and text is over five times more common in our objects (e.g., found in 22.4\% of our segmentations). Analysis of three modern few-shot localization algorithms demonstrates that they generalize poorly to our new dataset. The algorithms commonly struggle to locate objects with holes, very small and very large objects, and objects lacking text. To encourage a larger community to work on these unsolved challenges, we publicly share our annotated few-shot dataset at https://vizwiz.org .
翻訳日:2022-07-26 14:41:10 公開日:2022-07-24
# 分割時空間アテンション機構を用いたエゴセントリックビデオの物体状態変化分類

Object State Change Classification in Egocentric Videos using the Divided Space-Time Attention Mechanism ( http://arxiv.org/abs/2207.11814v1 )

ライセンス: Link先を確認
Md Mohaiminul Islam, Gedas Bertasius(参考訳) 本稿では,Ego4D: Object State Change Classification Challengeに対するTarHeelsという提案について述べる。 トランス方式の映像認識モデルを用いて,エゴセントリック映像における物体状態変化の分類に,分割時空注意機構を利用する。 私たちの応募は、この挑戦における2番目に良いパフォーマンスを達成します。 さらに,自己中心型ビデオにおける物体の状態変化の同定には時間的モデリング能力が必要であることを示す。 最後に,モデルの予測を可視化するための肯定的,否定的な例をいくつか提示する。 コードは、https://github.com/md-mohaiminul/ObjectStateChangeで公開されている。

This report describes our submission called "TarHeels" for the Ego4D: Object State Change Classification Challenge. We use a transformer-based video recognition model and leverage the Divided Space-Time Attention mechanism for classifying object state change in egocentric videos. Our submission achieves the second-best performance in the challenge. Furthermore, we perform an ablation study to show that identifying object state change in egocentric videos requires temporal modeling ability. Lastly, we present several positive and negative examples to visualize our model's predictions. The code is publicly available at: https://github.com/md-mohaiminul/ObjectStateChange
翻訳日:2022-07-26 14:40:48 公開日:2022-07-24
# モデル間解釈可能性--ケーススタディとしての自己教師型モデル

Inter-model Interpretability: Self-supervised Models as a Case Study ( http://arxiv.org/abs/2207.11837v1 )

ライセンス: Link先を確認
Ahmad Mustapha, Wael Khreich, Wassim Masri(参考訳) 初期の機械学習モデル以来、精度や精度などのメトリクスは、訓練されたモデルを評価して比較するデファクトな方法であった。 しかし、1つのメートル法番号は、特にコンピュータビジョン領域において、モデル間の類似点と相違点を完全に捉えていない。 特定のデータセットに高い精度を持つモデルは、それ以上の洞察なしに、別のデータセットに低い精度を提供する可能性がある。 この問題を解決するために、Dissectと呼ばれる最近の解釈可能性技術を利用して、モデルが学習した視覚的概念(オブジェクトや材料など)に基づいて、どのように相互に関連し、補完するかを決定する、 \textit{inter-model interpretability}を導入する。 この目標に向けて,学習概念の観点からモデル間の近さを明らかにするLearned Concepts Embedding (LCE) 空間に,13個の自己教師型モデルを計画する。 さらに、4つのコンピュータビジョンタスクと15のデータセットにおけるこれらのモデルのパフォーマンスで、この情報をさらに越えました。 この実験により、モデルを3つのカテゴリに分類し、異なるタスクが必要とする視覚概念の種類を初めて明らかにしました。 これは、クロスタスク学習アルゴリズムを設計するための一歩です。

Since early machine learning models, metrics such as accuracy and precision have been the de facto way to evaluate and compare trained models. However, a single metric number doesn't fully capture the similarities and differences between models, especially in the computer vision domain. A model with high accuracy on a certain dataset might provide a lower accuracy on another dataset, without any further insights. To address this problem we build on a recent interpretability technique called Dissect to introduce \textit{inter-model interpretability}, which determines how models relate or complement each other based on the visual concepts they have learned (such as objects and materials). Towards this goal, we project 13 top-performing self-supervised models into a Learned Concepts Embedding (LCE) space that reveals proximities among models from the perspective of learned concepts. We further crossed this information with the performance of these models on four computer vision tasks and 15 datasets. The experiment allowed us to categorize the models into three categories and revealed for the first time the type of visual concepts different tasks requires. This is a step forward for designing cross-task learning algorithms.
翻訳日:2022-07-26 14:40:40 公開日:2022-07-24
# deep cluster (複数形 deep clusters)

A Deep Dive into Deep Cluster ( http://arxiv.org/abs/2207.11839v1 )

ライセンス: Link先を確認
Ahmad Mustapha, Wael Khreich, Wasim Masr(参考訳) ディープラーニングは、画像や音声認識など、さまざまな分野の従来の機械学習アプローチに対して、大幅に改善されている。 ベンチマークデータセットでの彼らの成功は、実践者が事前訓練したモデルを通じて現実世界に転送される。 教師付き学習を用いて視覚モデルを事前学習するには、膨大な量の高価なデータアノテーションが必要である。 この制限に対処するため、ビジュアル表現のシンプルでスケーラブルな教師なし事前トレーニングであるDeepClusterが提案されている。 しかし、モデルの基礎となる作業はまだよく分かっていない。 本稿では,DeepClusterの内部を解析し,3つの異なるデータセット上の幅広い値に対する様々なハイパーパラメータの影響を徹底的に評価する。 そこで本研究では,アルゴリズムが実際に動作する理由を説明する。 また、DeepClusterの収束と性能は、畳み込み層のランダム初期化フィルタの品質と選択されたクラスタ数の相互作用に大きく依存していることを示す。 さらに, 連続クラスタリングがDeepCluster収束に重要でないことを示す。 したがって、クラスタリングフェーズの早期停止はトレーニング時間を短縮し、アルゴリズムを大規模データセットに拡張可能にする。 最後に、半教師付き設定において、妥当なハイパーパラメータ選択基準を導出する。

Deep Learning has demonstrated a significant improvement against traditional machine learning approaches in different domains such as image and speech recognition. Their success on benchmark datasets is transferred to the real-world through pretrained models by practitioners. Pretraining visual models using supervised learning requires a significant amount of expensive data annotation. To tackle this limitation, DeepCluster - a simple and scalable unsupervised pretraining of visual representations - has been proposed. However, the underlying work of the model is not yet well understood. In this paper, we analyze DeepCluster internals and exhaustively evaluate the impact of various hyperparameters over a wide range of values on three different datasets. Accordingly, we propose an explanation of why the algorithm works in practice. We also show that DeepCluster convergence and performance highly depend on the interplay between the quality of the randomly initialized filters of the convolutional layer and the selected number of clusters. Furthermore, we demonstrate that continuous clustering is not critical for DeepCluster convergence. Therefore, early stopping of the clustering phase will reduce the training time and allow the algorithm to scale to large datasets. Finally, we derive plausible hyperparameter selection criteria in a semi-supervised setting.
翻訳日:2022-07-26 14:40:21 公開日:2022-07-24
# 自動コンクリート作業性推定のための時空間解析

Spatial-temporal Analysis for Automated Concrete Workability Estimation ( http://arxiv.org/abs/2207.11635v1 )

ライセンス: Link先を確認
Litao Yu, Jian Zhang, Vute Sirivivatnanon, Ali Nezhad(参考訳) 視覚検査を施した認定評価器の主観的評価に基づいて, 具体的な作業性尺度を決定する。 作業性の測定における潜在的なヒューマンエラーと、作業性に対する不要な調整は、建設業界が直面する大きな課題であり、かなりのコスト、材料廃棄物、遅延をもたらす。 本稿では, コンクリートの混合過程を観察し, 作業性を評価するために, コンピュータビジョン技術を適用しようとする。 具体的には,映像データを収集し,空間-時間回帰のための3種類の深層ニューラルネットワークを構築した。 実験では, 混合過程におけるコンクリートの作業性を評価するために, コンピュータビジョン技術を用いた実用的応用を実証した。

Concrete workability measure is mostly determined based on subjective assessment of a certified assessor with visual inspections. The potential human error in measuring the workability and the resulting unnecessary adjustments for the workability is a major challenge faced by the construction industry, leading to significant costs, material waste and delay. In this paper, we try to apply computer vision techniques to observe the concrete mixing process and estimate the workability. Specifically, we collected the video data and then built three different deep neural networks for spatial-temporal regression. The pilot study demonstrates a practical application with computer vision techniques to estimate the concrete workability during the mixing process.
翻訳日:2022-07-26 14:36:16 公開日:2022-07-24
# 微粒スネーク認識のための有効手法の探索

Explored An Effective Methodology for Fine-Grained Snake Recognition ( http://arxiv.org/abs/2207.11637v1 )

ライセンス: Link先を確認
Yong Huang, Aderon Huang, Wei Zhu, Yanming Fang, Jinghua Feng(参考訳) Fine-Grained Visual Classification (FGVC) は、コンピュータビジョンとパターン認識における長年の基本的な問題であり、様々な現実世界のアプリケーションを支える。 本稿では,FGVCによるSnakeCLEF2022の貢献について述べる。 まず, 様々なメタ情報を用いて, きめ細かい識別を支援する強力なマルチモーダルバックボーンを設計する。 第二に、データセットで長い尾の分布を解くために、新しい損失関数を提供する。 そして,ラベル付きデータセットを最大限活用するために,自己教師付き学習と教師付き学習合同学習を用いて事前学習モデルを提供する。 さらに, 実験では, 効果的なデータ処理手法も検討されている。 最後に重要なことは、ハードマイニングを伴う下流タスクの微調整と、モデルパフォーマンスのサンプル化です。 大規模な実験により, 粒度認識の性能を効果的に向上できることが示された。 本手法は,個人用および公開用データセットにおいて,それぞれ92.7%,89.4%のマクロf1スコアを達成できる。

Fine-Grained Visual Classification (FGVC) is a longstanding and fundamental problem in computer vision and pattern recognition, and underpins a diverse set of real-world applications. This paper describes our contribution at SnakeCLEF2022 with FGVC. Firstly, we design a strong multimodal backbone to utilize various meta-information to assist in fine-grained identification. Secondly, we provide new loss functions to solve the long tail distribution with dataset. Then, in order to take full advantage of unlabeled datasets, we use self-supervised learning and supervised learning joint training to provide pre-trained model. Moreover, some effective data process tricks also are considered in our experiments. Last but not least, fine-tuned in downstream task with hard mining, ensambled kinds of model performance. Extensive experiments demonstrate that our method can effectively improve the performance of fine-grained recognition. Our method can achieve a macro f1 score 92.7% and 89.4% on private and public dataset, respectively, which is the 1st place among the participators on private leaderboard.
翻訳日:2022-07-26 14:36:07 公開日:2022-07-24
# MAR:効率的な行動認識のためのマスク付きオートエンコーダ

MAR: Masked Autoencoders for Efficient Action Recognition ( http://arxiv.org/abs/2207.11660v1 )

ライセンス: Link先を確認
Zhiwu Qing, Shiwei Zhang, Ziyuan Huang, Xiang Wang, Yuehuan Wang, Yiliang Lv, Changxin Gao, Nong Sang(参考訳) ビデオ認識の標準的なアプローチは、通常フルインプットビデオで動作するが、ビデオの時空間的冗長性が広く存在しているため、非効率である。 マスク付きビデオモデリングの最近の進歩、すなわちVideoMAEは、限られた視覚コンテンツしか持たない時空間を補完するバニラビジョントランスフォーマー(ViT)の能力を示している。 そこで本稿では,MAR (Masked Action Recognition) を提案する。これは,パッチの割合を削減し,ビデオの一部のみを操作することで冗長な計算を削減できる。 MARには、セルランニングマスキングとブリッジング分類器の2つの必須成分が含まれている。 具体的には、ViTが目に見えるパッチ以上の詳細を容易に認識できるようにするため、ビデオ内の時空間相関を保存するためにセルランキングマスクが提示され、同じ空間位置のパッチを交互に観察することができる。 さらに,部分的に観察された特徴は意味的に明らかでないパッチを再構築することができるが,正確な分類は得られない。 これを解決するために,ViTエンコードされた特徴と分類に特化した特徴とのセマンティックギャップを橋渡しするブリッジング分類器を提案する。 提案するmarはvitの計算コストを53%削減し,広範な実験により,既存のvitモデルよりも高いマージンを示した。 特に、MARでトレーニングしたViT-Largeは、Kineetics-400とSomething v2データセットのマージンを検証することで、標準的なトレーニングスキームでトレーニングしたViT-Hugeよりも優れており、VT-Hugeの計算オーバーヘッドはわずか14.5%である。

Standard approaches for video recognition usually operate on the full input videos, which is inefficient due to the widely present spatio-temporal redundancy in videos. Recent progress in masked video modelling, i.e., VideoMAE, has shown the ability of vanilla Vision Transformers (ViT) to complement spatio-temporal contexts given only limited visual contents. Inspired by this, we propose propose Masked Action Recognition (MAR), which reduces the redundant computation by discarding a proportion of patches and operating only on a part of the videos. MAR contains the following two indispensable components: cell running masking and bridging classifier. Specifically, to enable the ViT to perceive the details beyond the visible patches easily, cell running masking is presented to preserve the spatio-temporal correlations in videos, which ensures the patches at the same spatial location can be observed in turn for easy reconstructions. Additionally, we notice that, although the partially observed features can reconstruct semantically explicit invisible patches, they fail to achieve accurate classification. To address this, a bridging classifier is proposed to bridge the semantic gap between the ViT encoded features for reconstruction and the features specialized for classification. Our proposed MAR reduces the computational cost of ViT by 53% and extensive experiments show that MAR consistently outperforms existing ViT models with a notable margin. Especially, we found a ViT-Large trained by MAR outperforms the ViT-Huge trained by a standard training scheme by convincing margins on both Kinetics-400 and Something-Something v2 datasets, while our computation overhead of ViT-Large is only 14.5% of ViT-Huge.
翻訳日:2022-07-26 14:35:50 公開日:2022-07-24
# 顔の事前学習モデルを用いた感情行動分析

Affective Behaviour Analysis Using Pretrained Model with Facial Priori ( http://arxiv.org/abs/2207.11679v1 )

ライセンス: Link先を確認
Yifan Li, Haomiao Sun, Zhaori Liu, Hu Han(参考訳) 影響的な行動分析は研究者の注意を喚起している。 しかし、大量の顔画像の正確なアノテーションを得るのには手間がかかる。 そこで本稿では,未ラベルの顔画像に基づいて事前訓練したMasked Auto-Encoder (MAE) による顔情報の利用を提案する。 さらに,MAE事前学習型視覚変換器(ViT)とAffectNet事前学習型CNNを組み合わせてマルチタスク感情認識を行う。 式と動作単位 (AU) のスコアは純粋かつ無傷であり, valence-arousal (VA) 回帰に有用である。 その結果,impactnet pretrained cnn を用いて vit から式および au スコアに結合した表現スコアを抽出し,最終的な va 特徴を得ることができた。 さらに,2つの並列MAEプレトレーニング済みVETを用いた協調学習フレームワークを提案する。 2つのビューを独立させるため、トレーニングプロセス中にほとんどのパッチをランダムにマスクします。 次に、jsの分岐を行い、2つのビューの予測を可能な限り一貫性を持たせる。 ABAW4の結果は,本手法が有効であることを示している。

Affective behaviour analysis has aroused researchers' attention due to its broad applications. However, it is labor exhaustive to obtain accurate annotations for massive face images. Thus, we propose to utilize the prior facial information via Masked Auto-Encoder (MAE) pretrained on unlabeled face images. Furthermore, we combine MAE pretrained Vision Transformer (ViT) and AffectNet pretrained CNN to perform multi-task emotion recognition. We notice that expression and action unit (AU) scores are pure and intact features for valence-arousal (VA) regression. As a result, we utilize AffectNet pretrained CNN to extract expression scores concatenating with expression and AU scores from ViT to obtain the final VA features. Moreover, we also propose a co-training framework with two parallel MAE pretrained ViT for expression recognition tasks. In order to make the two views independent, we random mask most patches during the training process. Then, JS divergence is performed to make the predictions of the two views as consistent as possible. The results on ABAW4 show that our methods are effective.
翻訳日:2022-07-26 14:35:16 公開日:2022-07-24
# 画像転送のための学習グラフニューラルネットワーク

Learning Graph Neural Networks for Image Style Transfer ( http://arxiv.org/abs/2207.11681v1 )

ライセンス: Link先を確認
Yongcheng Jing, Yining Mao, Yiding Yang, Yibing Zhan, Mingli Song, Xinchao Wang, Dacheng Tao(参考訳) 最先端のパラメトリックおよび非パラメトリックなスタイル転送アプローチは、グローバルな統計アライメントによる局所的なスタイルパターンの歪んだり、パッチミスマッチによるアーティファクトを減らしたりする傾向にある。 本稿では,パラメトリックスタイライゼーションと非パラメトリックスタイライゼーションの両方の欠如を緩和する,新しい半パラメトリックニューラルスタイルトランスファーフレームワークについて検討する。 我々のアプローチの中核となる考え方は、グラフニューラルネットワーク(GNN)を用いて、正確できめ細かなコンテンツスタイルの対応を確立することである。 この目的のために我々は,グラフ頂点としてコンテンツとスタイルの局所パッチを用いた,精巧なgnnモデルを開発した。 次に、スタイル転送手順は、スタイルとコンテンツノード間の注意に基づくヘテロジニアスメッセージパッシングを学習可能な方法でモデル化し、ローカルパッチレベルで適応的な多対一スタイル-コンテンツ相関をもたらす。 さらに、クロススケールなスタイル・コンテンツマッチングのために、精巧な変形可能なグラフ畳み込み演算を導入する。 実験により,半パラメトリック画像のスタイリング手法は,グローバルな外観と精巧な細部の両方を保ちながら,難易度の高いスタイルパターンを推し進めることを示す。 さらに,推定段階でのエッジ数を制御することにより,単一モデルによるパッチベーススタイリングの多様化など,新たな機能をトリガーする。

State-of-the-art parametric and non-parametric style transfer approaches are prone to either distorted local style patterns due to global statistics alignment, or unpleasing artifacts resulting from patch mismatching. In this paper, we study a novel semi-parametric neural style transfer framework that alleviates the deficiency of both parametric and non-parametric stylization. The core idea of our approach is to establish accurate and fine-grained content-style correspondences using graph neural networks (GNNs). To this end, we develop an elaborated GNN model with content and style local patches as the graph vertices. The style transfer procedure is then modeled as the attention-based heterogeneous message passing between the style and content nodes in a learnable manner, leading to adaptive many-to-one style-content correlations at the local patch level. In addition, an elaborated deformable graph convolutional operation is introduced for cross-scale style-content matching. Experimental results demonstrate that the proposed semi-parametric image stylization approach yields encouraging results on the challenging style patterns, preserving both global appearance and exquisite details. Furthermore, by controlling the number of edges at the inference stage, the proposed method also triggers novel functionalities like diversified patch-based stylization with a single model.
翻訳日:2022-07-26 14:35:00 公開日:2022-07-24
# シフト非依存重み正規化と最寄りのソースプロトタイプによるテスト時間適応の改善

Improving Test-Time Adaptation via Shift-agnostic Weight Regularization and Nearest Source Prototypes ( http://arxiv.org/abs/2207.11707v1 )

ライセンス: Link先を確認
Sungha Choi, Seunghan Yang, Seokeon Choi, Sungrack Yun(参考訳) 本稿では,対象ドメインからの未ラベルのオンラインデータのみを用いて,ソースドメイン上で事前学習したモデルを調整することで,ソースドメインとターゲットドメイン間の分散シフトによる性能劣化を軽減する新しいテスト時間適応手法を提案する。 ラベルなしオンラインデータを用いたモデルパラメータ全体への適応は、教師なしの目的からの誤った信号のため、有害である可能性がある。 この問題を緩和するために,テスト時間適応中に,分布シフトに敏感なモデルパラメータをわずかに更新しながら,分布シフトに敏感なモデルパラメータを大幅に更新するシフト非依存量正規化を提案する。 この正規化により、高い学習率の利点を生かして、性能劣化なしにターゲット領域に迅速に適応することが可能となる。 さらに,ソースとターゲットの機能を調整するために,最寄りのソースプロトタイプに基づく補助タスクを提案することで,分散シフトを低減し,さらなるパフォーマンス向上を実現する。 本手法は,様々な標準ベンチマークにおいて最先端のパフォーマンスを示し,教師付きベンチマークよりも優れた性能を示す。

This paper proposes a novel test-time adaptation strategy that adjusts the model pre-trained on the source domain using only unlabeled online data from the target domain to alleviate the performance degradation due to the distribution shift between the source and target domains. Adapting the entire model parameters using the unlabeled online data may be detrimental due to the erroneous signals from an unsupervised objective. To mitigate this problem, we propose a shift-agnostic weight regularization that encourages largely updating the model parameters sensitive to distribution shift while slightly updating those insensitive to the shift, during test-time adaptation. This regularization enables the model to quickly adapt to the target domain without performance degradation by utilizing the benefit of a high learning rate. In addition, we present an auxiliary task based on nearest source prototypes to align the source and target features, which helps reduce the distribution shift and leads to further performance improvement. We show that our method exhibits state-of-the-art performance on various standard benchmarks and even outperforms its supervised counterpart.
翻訳日:2022-07-26 14:34:37 公開日:2022-07-24
# ブロック型変圧器によるマンダリン音声認識の改善

Improving Mandarin Speech Recogntion with Block-augmented Transformer ( http://arxiv.org/abs/2207.11697v1 )

ライセンス: Link先を確認
Xiaoming Ren, Huifeng Zhu, Liuwei Wei, Minghui Wu, Jie Hao(参考訳) 近年,畳み込み型変換器(Conformer)は,従来の最も優れた変換器よりも優れた自動音声認識(ASR)において,有望な結果を示している。 本研究では、エンコーダとデコーダの各ブロックの出力情報は、完全に包括的ではない、つまり、それらの出力情報は相補的であると信じている。 我々は,各ブロックの補完的情報をパラメーター効率良く活用する方法について検討し,それによってより堅牢な性能が期待できることを示す。 そこで我々は,ブロックフォーマーという音声認識用ブロックエイジメントトランスを提案する。 我々は2つのブロックアンサンブル法を実装した: 基本重み付きブロック出力(Base-WSBO)と、重み付きブロック出力(SE-WSBO)に対するSqueeze-and-Excitationモジュール。 実験の結果、BlockformerはAISHELL-1で最先端のConformerベースモデルよりも優れており、我々のモデルは言語モデルを用いずに4.35\%、テストセット上では4.10\%のCERを実現している。

Recently Convolution-augmented Transformer (Conformer) has shown promising results in Automatic Speech Recognition (ASR), outperforming the previous best published Transformer Transducer. In this work, we believe that the output information of each block in the encoder and decoder is not completely inclusive, in other words, their output information may be complementary. We study how to take advantage of the complementary information of each block in a parameter-efficient way, and it is expected that this may lead to more robust performance. Therefore we propose the Block-augmented Transformer for speech recognition, named Blockformer. We have implemented two block ensemble methods: the base Weighted Sum of the Blocks Output (Base-WSBO), and the Squeeze-and-Excitation module to Weighted Sum of the Blocks Output (SE-WSBO). Experiments have proved that the Blockformer significantly outperforms the state-of-the-art Conformer-based models on AISHELL-1, our model achieves a CER of 4.35\% without using a language model and 4.10\% with an external language model on the testset.
翻訳日:2022-07-26 14:12:55 公開日:2022-07-24
# リアルな布交換歩行認識のためのプログレッシブ特徴学習

Progressive Feature Learning for Realistic Cloth-Changing Gait Recognition ( http://arxiv.org/abs/2207.11720v1 )

ライセンス: Link先を確認
Xuqian Ren, Saihui Hou, Chunshui Cao, Xu Liu and Yongzhen Huang(参考訳) 歩容認識は、被検者の協力なしに長距離に行うことができるため、防犯・社会保障に有用である。 しかしながら、既存のデータセットやメソッドは、現実的な歩行認識において最も難しい問題、すなわち異なる衣服(cl)を歩き回ることには対処できない。 そこで本研究では, CASIA-BN-RCC と OUMVLP-RCC の2つのベンチマークを提案し, 布の交換条件をシミュレーションした。 2つのベンチマークは、アルゴリズムに2つのサブデータセットでクロスビューとクロスクロスを実現するように強制することができる。 さらに,プログレッシブ・フィーチャーラーニングを用いたリアル・クラス・チェンキング問題における性能向上のために,既製のバックボーンを用いて適用可能な新しいフレームワークを提案する。 具体的には,プログレッシブマッピングとプログレッシブ不確実性を設計し,クロスビュー特徴を抽出し,クロスクロース特徴をベースとした抽出を行う。 このように、クロスビューサブデータセットの特徴は、最初に特徴空間を支配し、クロスクロスサブデータセットの悪影響による不均一な分布を緩和することができる。 ベンチマーク実験の結果,cl条件下での認識性能を効果的に向上できることがわかった。 私たちのコードとデータセットは、受け入れられた後にリリースされます。

Gait recognition is instrumental in crime prevention and social security, for it can be conducted at a long distance without the cooperation of subjects. However, existing datasets and methods cannot deal with the most challenging problem in realistic gait recognition effectively: walking in different clothes (CL). In order to tackle this problem, we propose two benchmarks: CASIA-BN-RCC and OUMVLP-RCC, to simulate the cloth-changing condition in practice. The two benchmarks can force the algorithm to realize cross-view and cross-cloth with two sub-datasets. Furthermore, we propose a new framework that can be applied with off-the-shelf backbones to improve its performance in the Realistic Cloth-Changing problem with Progressive Feature Learning. Specifically, in our framework, we design Progressive Mapping and Progressive Uncertainty to extract the cross-view features and then extract cross-cloth features on the basis. In this way, the features from the cross-view sub-dataset can first dominate the feature space and relieve the uneven distribution caused by the adverse effect from the cross-cloth sub-dataset. The experiments on our benchmarks show that our framework can effectively improve the recognition performance in CL conditions. Our codes and datasets will be released after accepted.
翻訳日:2022-07-26 14:12:34 公開日:2022-07-24
# 意味誘導型マルチマスク画像調和

Semantic-guided Multi-Mask Image Harmonization ( http://arxiv.org/abs/2207.11722v1 )

ライセンス: Link先を確認
Xuqian Ren, Yifan Liu(参考訳) 従来のハーモニゼーション手法は,入力マスクに基づく画像中の1つの不調和領域の調整に重点を置いている。 異なるセマンティクス領域で異なる摂動を扱う場合、入力マスクを使わずに問題が発生する可能性がある。 異なる画像から得られた複数の前景を1枚の画像に貼り付け、入力としてマスクを使わずに異なる領域方向に向けて調和させるという問題に対処するため、新しい意味誘導型マルチマスク画像調和タスクを提案する。 従来のシングルマスク画像調和タスクとは異なり、各不調和画像はセマンティックセグメンテーションマスクに応じて異なる方法で摂動される。 HSceneとHLIPという2つの挑戦的なベンチマークは、それぞれ150ドルと19ドルのセマンティッククラスに基づいて構築されている。 さらに、以前のベースラインは、調和した画像の各ピクセルの正確な値を回帰することに重点を置いている。 生成された結果は 'black box' に含まれており、編集はできない。 本研究では,一連のオペレーターマスクを予測して不調和な画像を編集する方法を提案する。 マスクは、特定の次元の明るさ、彩度、色など、特定の画像編集操作を適用するためのレベルと位置を示す。 オペレーターマスクは、ユーザーが画像をさらに編集するための柔軟性を提供する。 広汎な実験により、オペレーターマスクベースのネットワークは、摂動が構造的であるときにRGB画像を直接回帰する最先端の手法をさらに改善できることを確認した。 提案する操作者マスクベースのフレームワークが,より複雑な場面で不調和な領域を発見・修正できることを確認するため,構築したベンチマークを用いて実験を行った。 私たちのコードとモデルはhttps://github.com/xuqianren/semantic-guided-multi-mask-image-harmonization.gitで利用可能です。

Previous harmonization methods focus on adjusting one inharmonious region in an image based on an input mask. They may face problems when dealing with different perturbations on different semantic regions without available input masks. To deal with the problem that one image has been pasted with several foregrounds coming from different images and needs to harmonize them towards different domain directions without any mask as input, we propose a new semantic-guided multi-mask image harmonization task. Different from the previous single-mask image harmonization task, each inharmonious image is perturbed with different methods according to the semantic segmentation masks. Two challenging benchmarks, HScene and HLIP, are constructed based on $150$ and $19$ semantic classes, respectively. Furthermore, previous baselines focus on regressing the exact value for each pixel of the harmonized images. The generated results are in the `black box' and cannot be edited. In this work, we propose a novel way to edit the inharmonious images by predicting a series of operator masks. The masks indicate the level and the position to apply a certain image editing operation, which could be the brightness, the saturation, and the color in a specific dimension. The operator masks provide more flexibility for users to edit the image further. Extensive experiments verify that the operator mask-based network can further improve those state-of-the-art methods which directly regress RGB images when the perturbations are structural. Experiments have been conducted on our constructed benchmarks to verify that our proposed operator mask-based framework can locate and modify the inharmonious regions in more complex scenes. Our code and models are available at https://github.com/XuqianRen/Semantic-guided-Multi-mask-Image-Harmonization.git.
翻訳日:2022-07-26 14:12:11 公開日:2022-07-24
# 電力系統における臨界電圧事象予測のためのデータ駆動モデル

Data-driven Models to Anticipate Critical Voltage Events in Power Systems ( http://arxiv.org/abs/2207.11803v1 )

ライセンス: Link先を確認
Fabrizio De Caro, Adam J. Collin, Alfredo Vaccaro (University of Sannio)(参考訳) 本稿では,単純なカテゴリラベルを用いた電力系統の電圧変動予測におけるデータ駆動モデルの有効性について検討する。 予測をカテゴリー分類タスクとして扱うことにより、計算量とデータ負担の少ないワークフローを特徴付ける。 相当量の風力発電を担っているイタリアの150kVサブミッションネットワークの実際の部分に関する概念実証ケーススタディでは、提案提案の一般的な妥当性を示し、この応用のために広く利用されている予測モデルの長所と短所について考察する。

This paper explores the effectiveness of data-driven models to predict voltage excursion events in power systems using simple categorical labels. By treating the prediction as a categorical classification task, the workflow is characterized by a low computational and data burden. A proof-of-concept case study on a real portion of the Italian 150 kV sub-transmission network, which hosts a significant amount of wind power generation, demonstrates the general validity of the proposal and offers insight into the strengths and weaknesses of several widely utilized prediction models for this application.
翻訳日:2022-07-26 14:11:41 公開日:2022-07-24
# 感性認知型会話エージェントを目指して

Towards a Sentiment-Aware Conversational Agent ( http://arxiv.org/abs/2207.11774v1 )

ライセンス: Link先を確認
Isabel Dias, Ricardo Rei, Patr\'icia Pereira and Luisa Coheur(参考訳) 本稿では,対話の文脈を活用し,その応答で表現するエージェントの適切な感情を予測する応答感情予測モデルと,予測された感情と対話の文脈を条件としたテキスト生成モデルと,対話の文脈と感情の両方に適した応答を生成する2つのモデルに基づくエンドツーエンド感情認識対話エージェントを提案する。 さらに,感情分類モデルを用いて,エージェントがモデル開発中に表現した感情を評価することを提案する。 これにより、エージェントを自動で評価することができます。 自動評価と人文評価の結果から,テキスト生成モデルを予め定義された文集合で明示的に指導することは,表現された感情と生成したテキストの品質の両方において,明確な改善をもたらすことが示された。

In this paper, we propose an end-to-end sentiment-aware conversational agent based on two models: a reply sentiment prediction model, which leverages the context of the dialogue to predict an appropriate sentiment for the agent to express in its reply; and a text generation model, which is conditioned on the predicted sentiment and the context of the dialogue, to produce a reply that is both context and sentiment appropriate. Additionally, we propose to use a sentiment classification model to evaluate the sentiment expressed by the agent during the development of the model. This allows us to evaluate the agent in an automatic way. Both automatic and human evaluation results show that explicitly guiding the text generation model with a pre-defined set of sentences leads to clear improvements, both regarding the expressed sentiment and the quality of the generated text.
翻訳日:2022-07-26 14:06:49 公開日:2022-07-24
# トルコの凝集性特性を反映したBOUNツリーバンクの強化

Enhancements to the BOUN Treebank Reflecting the Agglutinative Nature of Turkish ( http://arxiv.org/abs/2207.11782v1 )

ライセンス: Link先を確認
B\"u\c{s}ra Mar\c{s}an, Salih Furkan Akkurt, Muhammet \c{S}en, Merve G\"urb\"uz, Onur G\"ung\"or, \c{S}aziye Bet\"ul \"Ozate\c{s}, Suzan \"Usk\"udarl{\i}, Arzucan \"Ozg\"ur, Tunga G\"ung\"or, Balk{\i}z \"Ozt\"urk(参考訳) 本研究では,ユビキタス依存フレームワークから切り離すことなく,言語的に動機付けされたソリューションを提供することで,ヌル形態素の表現の欠如,高度に生産的な導出過程,およびトルコのBOUNツリーバンクにおける同期形態素の解消を図ることを目的とする。 これらの問題に対処するために、特定の補題を分割し、派生を表すためにUDフレームワークにMISC(miscellaneous)タブを使用することにより、新しいアノテーション規則が導入された。 LSTMベースの依存性パーサで再アノテーションツリーバンクの表現機能をテストし、BoAT Toolの更新版が導入された。

In this study, we aim to offer linguistically motivated solutions to resolve the issues of the lack of representation of null morphemes, highly productive derivational processes, and syncretic morphemes of Turkish in the BOUN Treebank without diverging from the Universal Dependencies framework. In order to tackle these issues, new annotation conventions were introduced by splitting certain lemmas and employing the MISC (miscellaneous) tab in the UD framework to denote derivation. Representational capabilities of the re-annotated treebank were tested on a LSTM-based dependency parser and an updated version of the BoAT Tool is introduced.
翻訳日:2022-07-26 14:06:36 公開日:2022-07-24
# 森林火災予報システムに応用した並列新奇検索メタヒューリスティック

A Parallel Novelty Search Metaheuristic Applied to a Wildfire Prediction System ( http://arxiv.org/abs/2207.11646v1 )

ライセンス: Link先を確認
Jan Strappa, Paola Caymes-Scutari, Germ\'an Bianchini(参考訳) 森林火災は多因性環境現象である。 この現象の影響には、人的損失、環境被害、高い経済コストが含まれる。 これらの効果を緩和するために、一連の入力パラメータ(風速や方向、温度など)に基づいて火災の挙動を予測するために、いくつかの計算機シミュレーションシステムが開発された。 しかしながら、シミュレーションの結果は、いくつかの変数の値の不確かさや、その測定が不正確である、誤った、あるいはリアルタイムに実行できないため、エラーの度合いが高いのが普通である。 以前の研究では、この不確実性を減らすために複数の結果の組み合わせを提案している。 State-of-the-artメソッドは、フィットネス関数を使ってあらゆるシナリオを探索する並列最適化戦略に基づいている。 これらの手法は予測の質が改善されているものの、シナリオの選択に使用されるアルゴリズムに関するいくつかの制限がある。 これらの限界を克服するため,本研究では,目的関数を解の新規性尺度で置き換えるノベルティ探索パラダイムを適用することを提案する。 このアプローチは局所最適化を回避し、他のアルゴリズムで見つけるのが困難または不可能な有用な解を見つけることができるかもしれない。 既存の方法と同様に、この提案は他の伝播モデル(フロード、雪崩、地すべり)にも適用することができる。

Wildfires are a highly prevalent multi-causal environmental phenomenon. The impact of this phenomenon includes human losses, environmental damage and high economic costs. To mitigate these effects, several computer simulation systems have been developed in order to predict fire behavior based on a set of input parameters, also called a scenario (wind speed and direction; temperature; etc.). However, the results of a simulation usually have a high degree of error due to the uncertainty in the values of some variables, because they are not known, or because their measurement may be imprecise, erroneous, or impossible to perform in real time. Previous works have proposed the combination of multiple results in order to reduce this uncertainty. State-of-the-art methods are based on parallel optimization strategies that use a fitness function to guide the search among all possible scenarios. Although these methods have shown improvements in the quality of predictions, they have some limitations related to the algorithms used for the selection of scenarios. To overcome these limitations, in this work we propose to apply the Novelty Search paradigm, which replaces the objective function by a measure of the novelty of the solutions found, which allows the search to continuously generate solutions with behaviors that differ from one another. This approach avoids local optima and may be able to find useful solutions that would be difficult or impossible to find by other algorithms. As with existing methods, this proposal may also be adapted to other propagation models (floods, avalanches or landslides).
翻訳日:2022-07-26 14:05:28 公開日:2022-07-24
# 反転とドリフトによるイベントベース学習の正則化

Improved Regularization of Event-based Learning by Reversing and Drifting ( http://arxiv.org/abs/2207.11659v1 )

ライセンス: Link先を確認
Haibo Shen, Yihao Luo, Xiang Cao, Liangqi Zhang, Juyu Xiao, Tianjiang Wang(参考訳) イベントカメラは、高時間分解能、高ダイナミックレンジ、低消費電力、動きのぼやけがないという利点のために、挑戦的なシーンで大きな可能性を秘めている。 しかし、事象に基づく学習は、一般化能力の不足によって妨げられる。 本稿では,まず,異なる輝度変動がイベントデータに与える影響を解析する。 次に、EventReverseとEventDriftという2つの新しい拡張手法を提案する。 時空間領域または極性領域における対応する位置への事象の反転と漂流により、提案手法は異なる輝度変動の影響を受けるサンプルを生成し、イベントベース学習の頑健性を改善し、よりよい一般化をもたらす。 N-CARS,N-Caltech101およびCIFAR10-DVSデータセットの大規模な実験により,本手法は汎用的で極めて有効であることが示された。

Event camera has an enormous potential in challenging scenes for its advantages of high temporal resolution, high dynamic range, low power consumption, and no motion blur. However, event-based learning is hindered by insufficient generalization ability. In this paper, we first analyze the influence of different brightness variations on event data. Then we propose two novel augmentation methods: EventReverse and EventDrift. By reversing and drifting events to their corresponding positions in the spatiotemporal or polarity domain, the proposed methods generate samples affected by different brightness variations, which improves the robustness of event-based learning and results in a better generalization. Extensive experiments on N-CARS, N-Caltech101 and CIFAR10-DVS datasets demonstrate that our method is general and remarkably effective.
翻訳日:2022-07-26 14:01:20 公開日:2022-07-24
# PCA: Patch Confidence Adversarial Training を用いた半教師付きセグメンテーション

PCA: Semi-supervised Segmentation with Patch Confidence Adversarial Training ( http://arxiv.org/abs/2207.11683v1 )

ライセンス: Link先を確認
Zihang Xu, Zhenghua Xu, Shuo Zhang, Thomas Lukasiewicz(参考訳) 深層学習に基づく半教師あり学習法 (SSL) は, 医用画像のセグメンテーションにおいて, 大量の未ラベルデータを活用することで, 医師の高価なアノテーションを緩和する。 既存の半教師付き学習法とは異なり、逆学習に基づく手法は、セグメント化マップのデータ分布を学習することで、異なるソースからのサンプルを区別し、より正確な予測を生成する。 このような手法の現在の性能制限は特徴抽出と学習優先の問題であると主張する。 本稿では,医用画像セグメンテーションのためのPatch Confidence Adversarial Training (PCA) と呼ばれる半教師付き対向法を提案する。 提案する判別器は,単一のスカラー分類結果やピクセルレベルの信頼度マップではなく,パッチ信頼度マップを作成し,パッチ規模で分類する。 ラベルなしデータの予測は、各パッチの画素構造とコンテキスト情報を学習し、十分な勾配フィードバックを得ることで、判別器を最適状態に収束させ、半教師付きセグメンテーション性能を向上させる。 さらに,識別者の入力において,画像に対する意味的情報制約を補足し,ラベルなしのデータが期待されるデータ分布に適合しやすいようにした。 ACDC(Automated Cardiac Diagnosis Challenge)2017データセットとBraTS(Brain tumor Segmentation)2019 Challengeデータセットの大規模な実験により、我々の手法は最先端の半教師付き手法よりも優れており、医用画像セグメンテーションの有効性を示している。

Deep learning based semi-supervised learning (SSL) methods have achieved strong performance in medical image segmentation, which can alleviate doctors' expensive annotation by utilizing a large amount of unlabeled data. Unlike most existing semi-supervised learning methods, adversarial training based methods distinguish samples from different sources by learning the data distribution of the segmentation map, leading the segmenter to generate more accurate predictions. We argue that the current performance restrictions for such approaches are the problems of feature extraction and learning preference. In this paper, we propose a new semi-supervised adversarial method called Patch Confidence Adversarial Training (PCA) for medical image segmentation. Rather than single scalar classification results or pixel-level confidence maps, our proposed discriminator creates patch confidence maps and classifies them at the scale of the patches. The prediction of unlabeled data learns the pixel structure and context information in each patch to get enough gradient feedback, which aids the discriminator in convergent to an optimal state and improves semi-supervised segmentation performance. Furthermore, at the discriminator's input, we supplement semantic information constraints on images, making it simpler for unlabeled data to fit the expected data distribution. Extensive experiments on the Automated Cardiac Diagnosis Challenge (ACDC) 2017 dataset and the Brain Tumor Segmentation (BraTS) 2019 challenge dataset show that our method outperforms the state-of-the-art semi-supervised methods, which demonstrates its effectiveness for medical image segmentation.
翻訳日:2022-07-26 14:01:08 公開日:2022-07-24
# 畳み込みオートエンコーダを用いた画像認識

Image Denoising Using Convolutional Autoencoder ( http://arxiv.org/abs/2207.11771v1 )

ライセンス: Link先を確認
Prashanth Venkataraman(参考訳) 現代の世界の不可解なデジタル化によって、テクノロジー分野のあらゆるサブセットは、常に大きな進歩を遂げている。 そのようなサブセットの1つはデジタルイメージであり、これほど人気がある。 イメージは、あなたが望むほど視覚的に心地よい、あるいは明確であるとは限らないし、ノイズによって歪められたり、ぼやけたりすることが多い。 画像を強化する多くの技術は、年月が経つにつれて登場し、それぞれに長所と短所がある。 本稿では、オートエンコーダとして知られるニューラルネットワークモデルの助けを借りて、このタスクを実現する特殊な手法について考察する。 モデルのための異なるアーキテクチャを構築し、そのタスクに適したアーキテクチャを決定するために結果を比較する。 モデルの特徴と作業について,今後の研究への道筋をたどることができるのかを簡潔に論じる。

With the inexorable digitalisation of the modern world, every subset in the field of technology goes through major advancements constantly. One such subset is digital images which are ever so popular. Images can not always be as visually pleasing or clear as you would want them to be and are often distorted or obscured with noise. A number of techniques to enhance images have come up as the years passed, all with their own respective pros and cons. In this paper, we look at one such particular technique which accomplishes this task with the help of a neural network model commonly known as an autoencoder. We construct different architectures for the model and compare results in order to decide the one best suited for the task. The characteristics and working of the model are discussed briefly knowing which can help set a path for future research.
翻訳日:2022-07-26 14:00:37 公開日:2022-07-24
# オートエンコーダに基づく単一チャネル水中音響信号の未知数の音源分離

Source Separation of Unknown Numbers of Single-Channel Underwater Acoustic Signals Based on Autoencoders ( http://arxiv.org/abs/2207.11749v1 )

ライセンス: Link先を確認
Qinggang Sun and Kejun Wang(参考訳) 単一チャネル水中音響信号の分離は、実用上重要な課題である。 信号数不明の信号分離問題を考慮し, 目標への出力のアライメントによって引き起こされる置換問題による次元的災害を回避するために, 一定数の出力チャネルを持つ解を提案する。 具体的には,未知数の信号に対して開発された2つのアルゴリズムを自動エンコーダに基づいて修正する。 また,ミュートチャネルのある状況に対する新しい性能評価手法を提案する。 放射された船舶騒音の混合混合実験により, 提案手法は既知の信号数で得られたものと同様の分離性能が得られることがわかった。 ミュートチャネル出力も良好である。

The separation of single-channel underwater acoustic signals is a challenging problem with practical significance. In view of the signal separation problem with unknown numbers of signals, we propose a solution with a fixed number of output channels, enabling it to avoid the dimensional disaster caused by the permutation problem induced by the alignment of outputs to targets. Specifically, we modify two algorithms developed for known numbers of signals based on autoencoders, which are highly explainable. We also propose a new performance evaluation method for situations with mute channels. Experiments conducted on simulated mixtures of radiated ship noise show that the proposed solution can achieve similar separation performance to that attained with a known number of signals. The mute channel output is also good.
翻訳日:2022-07-26 13:56:14 公開日:2022-07-24
# 物理に基づく潜在分布補正を用いた不定形変分推論

Reliable amortized variational inference with physics-based latent distribution correction ( http://arxiv.org/abs/2207.11640v1 )

ライセンス: Link先を確認
Ali Siahkoohi and Gabrio Rizzuti and Rafael Orozco and Felix J. Herrmann(参考訳) 高次元逆問題に対するベイズ推論は、フォワード演算子の計算コストと適切な事前分布の選択によって挑戦される。 amortized variational inferenceは、ニューラルネットワークが既存のモデルとデータペアの後方分布を近似するように訓練される、これらの課題に対処する。 未確認のデータと通常分散された潜伏サンプルを入力として供給すると、事前訓練されたディープニューラルネットワーク -- 条件付き正規化フロー -- は、ほとんどコストがかからない後部サンプルを提供する。 しかし、このアプローチの正確性は、地球の不均一構造による地球物理学的逆問題にはほとんど存在しない高忠実度トレーニングデータの可用性に依存する。 さらに、正確な補正変分推論では、トレーニングデータ分布から観測データを引き出す必要がある。 そこで本研究では,条件付き正規化フロー潜在分布に対する物理に基づく補正により,データ分布シフトに直面した場合の不定形変分推論のレジリエンスを高めることを提案する。 これを達成するために、標準ガウスの潜伏分布の代わりに、未知の平均と対角共分散を持つガウス分布により潜伏分布をパラメータ化する。 これらの未知の量は、補正された後方分布と真の後方分布の間のkullback-leiblerの発散を最小化することによって推定される。 他の逆問題にも汎用的に適用できるが, 地震イメージングの例を用いて, 補正ステップにより, 音源実験数, 雑音分散, 事前分布の変動について, 償却変分推論のロバスト性が向上することを示す。 このアプローチは, 限られたアーティファクトを持つ地震像と, 5回の逆時間移動とほぼ同じコストで不確実性を評価する。

Bayesian inference for high-dimensional inverse problems is challenged by the computational costs of the forward operator and the selection of an appropriate prior distribution. Amortized variational inference addresses these challenges where a neural network is trained to approximate the posterior distribution over existing pairs of model and data. When fed previously unseen data and normally distributed latent samples as input, the pretrained deep neural network -- in our case a conditional normalizing flow -- provides posterior samples with virtually no cost. However, the accuracy of this approach relies on the availability of high-fidelity training data, which seldom exists in geophysical inverse problems due to the heterogeneous structure of the Earth. In addition, accurate amortized variational inference requires the observed data to be drawn from the training data distribution. As such, we propose to increase the resilience of amortized variational inference when faced with data distribution shift via a physics-based correction to the conditional normalizing flow latent distribution. To accomplish this, instead of a standard Gaussian latent distribution, we parameterize the latent distribution by a Gaussian distribution with an unknown mean and diagonal covariance. These unknown quantities are then estimated by minimizing the Kullback-Leibler divergence between the corrected and true posterior distributions. While generic and applicable to other inverse problems, by means of a seismic imaging example, we show that our correction step improves the robustness of amortized variational inference with respect to changes in number of source experiments, noise variance, and shifts in the prior distribution. This approach provides a seismic image with limited artifacts and an assessment of its uncertainty with approximately the same cost as five reverse-time migrations.
翻訳日:2022-07-26 13:55:13 公開日:2022-07-24
# 騒音二重破壊下におけるロバストなシーン推論

Robust Scene Inference under Noise-Blur Dual Corruptions ( http://arxiv.org/abs/2207.11643v1 )

ライセンス: Link先を確認
Bhavya Goyal, Jean-Fran\c{c}ois Lalonde, Yin Li, Mohit Gupta(参考訳) 低照度下でのシーン推測は、撮像画像の厳しいノイズのために難しい問題である。 ノイズを減らす方法の1つは、捕獲中に長時間露光を使用することである。 しかし、モーション(シーンやカメラの動き)の存在下では、長時間の露光によって動きがぼやけ、画像情報が失われる。 これにより、これらの2種類の画像劣化のトレードオフが生じる: 動きのぼけ(長時間露光による)とノイズ(短い露光による)である。 同じシーンの複数の露出を同時に撮影できるカメラの台頭により、このトレードオフを克服することが可能である。 私たちのキーとなる観察は、これらの異なる画像キャプチャーにおいて劣化の量と性質は異なりますが、セマンティックコンテンツはすべての画像で同じです。 そこで本研究では,低照度動作下でのロバスト推論にこれらのマルチ露光キャプチャを利用する手法を提案する。 提案手法は, 特徴の整合性を損なうことにより, 個々のキャプチャの類似した結果を促進し, 最終的な予測のアンサンブルを用いて, 堅牢な視覚認識を行う。 本研究は,物体検出と画像分類のタスクにおいて,複数の露光による実撮影とシミュレーション画像に対するアプローチの有効性を実証する。

Scene inference under low-light is a challenging problem due to severe noise in the captured images. One way to reduce noise is to use longer exposure during the capture. However, in the presence of motion (scene or camera motion), longer exposures lead to motion blur, resulting in loss of image information. This creates a trade-off between these two kinds of image degradations: motion blur (due to long exposure) vs. noise (due to short exposure), also referred as a dual image corruption pair in this paper. With the rise of cameras capable of capturing multiple exposures of the same scene simultaneously, it is possible to overcome this trade-off. Our key observation is that although the amount and nature of degradation varies for these different image captures, the semantic content remains the same across all images. To this end, we propose a method to leverage these multi exposure captures for robust inference under low-light and motion. Our method builds on a feature consistency loss to encourage similar results from these individual captures, and uses the ensemble of their final predictions for robust visual recognition. We demonstrate the effectiveness of our approach on simulated images as well as real captures with multiple exposures, and across the tasks of object detection and image classification.
翻訳日:2022-07-26 13:41:56 公開日:2022-07-24
# データだけで堅牢性を達成できますか?

Can we achieve robustness from data alone? ( http://arxiv.org/abs/2207.11727v1 )

ライセンス: Link先を確認
Nikolaos Tsilivis, Jingtong Su, Julia Kempe(参考訳) adversarial trainingとその変種は、ニューラルネットワークを使用して敵対的にロバストな分類を実現するための一般的な方法となった。 しかし、その計算コストの増大と、標準性能とロバスト性能の間の大きなギャップは、進歩を妨げ、改善できるかどうかという疑問を投げかける。 モデルが適度に最適化されたセット上で、標準トレーニングを通じて堅牢性を達成することができるか? この目的のために,ロバストでないデータの削除を効果的に目的とし,展開前にデータセットを最適化するロバストな分類のためのメタ学習手法を考案する。 我々は,カーネル回帰の多段階PGD手法として,無限に広いニューラルネットワーク(Nural Tangent Kernels - NTKs)を記述したカーネルのクラスをキャストした。 MNISTとCIFAR-10の実験は、私たちが生成するデータセットが、カーネル回帰分類器とニューラルネットワークの両方にデプロイされる場合、PGD攻撃に対して非常に堅牢であることを示した。 しかし、この頑健さは、別の攻撃がモデルを騙すことができるため、やや不利な部分もある。 我々はこの可能性について議論し、さらなる研究の道筋を概説する。

Adversarial training and its variants have come to be the prevailing methods to achieve adversarially robust classification using neural networks. However, its increased computational cost together with the significant gap between standard and robust performance hinder progress and beg the question of whether we can do better. In this work, we take a step back and ask: Can models achieve robustness via standard training on a suitably optimized set? To this end, we devise a meta-learning method for robust classification, that optimizes the dataset prior to its deployment in a principled way, and aims to effectively remove the non-robust parts of the data. We cast our optimization method as a multi-step PGD procedure on kernel regression, with a class of kernels that describe infinitely wide neural nets (Neural Tangent Kernels - NTKs). Experiments on MNIST and CIFAR-10 demonstrate that the datasets we produce enjoy very high robustness against PGD attacks, when deployed in both kernel regression classifiers and neural networks. However, this robustness is somewhat fallacious, as alternative attacks manage to fool the models, which we find to be the case for previous similar works in the literature as well. We discuss potential reasons for this and outline further avenues of research.
翻訳日:2022-07-26 13:41:35 公開日:2022-07-24
# pomdpsにおける完全可観測ポリシーの活用に向けて

Towards Using Fully Observable Policies for POMDPs ( http://arxiv.org/abs/2207.11737v1 )

ライセンス: Link先を確認
Andr\'as Attila Sulyok and Krist\'of Karacs(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は多くの現実世界の問題に適用可能なフレームワークである。 本稿では,完全可観測版を解く方針に依拠して,マルチモーダル信念を持つpomdpの解法を提案する。 完全可観測変種からの値関数に基づく新しい混合値関数をデファイニグすることにより、対応するグリードポリシーを用いて、POMDP自体を解くことができる。 本稿では, 議論に必要な数学的枠組みを開発し, Reconnaissance Blind TicTacToe のタスクに基づくベンチマークを提案する。 本ベンチマークでは,複数モードの存在を無視するポリシーよりも,ポリシーが優れていることを示す。

Partially Observable Markov Decision Process (POMDP) is a framework applicable to many real world problems. In this work, we propose an approach to solve POMDPs with multimodal belief by relying on a policy that solves the fully observable version. By defininig a new, mixture value function based on the value function from the fully observable variant, we can use the corresponding greedy policy to solve the POMDP itself. We develop the mathematical framework necessary for discussion, and introduce a benchmark built on the task of Reconnaissance Blind TicTacToe. On this benchmark, we show that our policy outperforms policies ignoring the existence of multiple modes.
翻訳日:2022-07-26 13:36:58 公開日:2022-07-24
# 不均質なユーザー行動と社会的影響を組み込んだ予測分析

Incorporating Heterogeneous User Behaviors and Social Influences for Predictive Analysis ( http://arxiv.org/abs/2207.11776v1 )

ライセンス: Link先を確認
Haobing Liu, Yanmin Zhu, Chunyang Wang, Jianyu Ding, Jiadi Yu, Feilong Tang(参考訳) 過去の行動データに基づく行動予測は現実的な意義を持っている。 推薦や学業成績の予測などに応用されている。 ユーザデータ記述の洗練、新しい機能の開発、そして複数のデータソースの融合により、複数の種類の振る舞いを含む異種行動データがますます一般的になる。 本稿では,不均一なユーザ行動と社会的影響を組み込んで行動予測を行う。 そこで本稿では,行動シーケンスをモデル化しながらコンテキスト情報を考慮可能なLong-Short Term Memory (LSTM) の変種と,異なる行動タイプ間の多面的関係をモデル化可能なプロジェクション機構と,異なる行動パターンから情報的周期を動的に検出可能な多面的注意機構を提案する。 多くの行動データは時空間データに属する。 時空間データに基づく社会的行動グラフの構築と社会的影響のモデル化のための教師なし手法を提案する。 さらに、残差学習に基づくデコーダは、社会的行動表現やその他の行動表現に基づいて、複数の高次クロス特徴を自動的に構築するように設計されている。 実世界のデータセットに関する定性的かつ定量的な実験は、このモデルの有効性を実証した。

Behavior prediction based on historical behavioral data have practical real-world significance. It has been applied in recommendation, predicting academic performance, etc. With the refinement of user data description, the development of new functions, and the fusion of multiple data sources, heterogeneous behavioral data which contain multiple types of behaviors become more and more common. In this paper, we aim to incorporate heterogeneous user behaviors and social influences for behavior predictions. To this end, this paper proposes a variant of Long-Short Term Memory (LSTM) which can consider context information while modeling a behavior sequence, a projection mechanism which can model multi-faceted relationships among different types of behaviors, and a multi-faceted attention mechanism which can dynamically find out informative periods from different facets. Many kinds of behavioral data belong to spatio-temporal data. An unsupervised way to construct a social behavior graph based on spatio-temporal data and to model social influences is proposed. Moreover, a residual learning-based decoder is designed to automatically construct multiple high-order cross features based on social behavior representation and other types of behavior representations. Qualitative and quantitative experiments on real-world datasets have demonstrated the effectiveness of this model.
翻訳日:2022-07-26 13:36:47 公開日:2022-07-24
# 不均一疾患進行モデルのための入力出力隠れマルコフモデルの混合

Mixture of Input-Output Hidden Markov Models for Heterogeneous Disease Progression Modeling ( http://arxiv.org/abs/2207.11846v1 )

ライセンス: Link先を確認
Taha Ceritli, Andrew P. Creagh, David A. Clifton(参考訳) 疾患進行モデリングの特に課題は、疾患の不均一性とその患者における発現である。 既存のアプローチでは、パーキンソン病のような神経変性疾患にはあり得ない単一の疾患進行特性の存在を想定することが多い。 本稿では,複数の疾患進行ダイナミクスを探索する階層的時系列モデルを提案する。 提案モデルは、患者の健康状態と処方薬の臨床的評価を考慮に入れた、入力出力隠れマルコフモデルの拡張である。 本稿では,パーキンソン病に対する合成データセットと実世界縦断データセットを用いたモデルの有用性について述べる。

A particular challenge for disease progression modeling is the heterogeneity of a disease and its manifestations in the patients. Existing approaches often assume the presence of a single disease progression characteristics which is unlikely for neurodegenerative disorders such as Parkinson's disease. In this paper, we propose a hierarchical time-series model that can discover multiple disease progression dynamics. The proposed model is an extension of an input-output hidden Markov model that takes into account the clinical assessments of patients' health status and prescribed medications. We illustrate the benefits of our model using a synthetically generated dataset and a real-world longitudinal dataset for Parkinson's disease.
翻訳日:2022-07-26 13:36:27 公開日:2022-07-24
# ラベルガイドによる補助訓練が3Dオブジェクト検出器を改良

Label-Guided Auxiliary Training Improves 3D Object Detector ( http://arxiv.org/abs/2207.11753v1 )

ライセンス: Link先を確認
Yaomin Huang, Xinmei Liu, Yichen Zhu, Zhiyuan Xu, Chaomin Shen, Zhengping Che, Guixu Zhang, Yaxin Peng, Feifei Feng, Jian Tang(参考訳) ポイントクラウドから3Dオブジェクトを検出することは実用的だが難しい作業であり、近年注目を集めている。 本稿では,既存の3次元物体検出器の特徴学習を強化する補助ネットワークとして機能する3次元物体検出(lg3d)のためのラベル誘導補助訓練手法を提案する。 具体的には、境界ボックス内のアノテーションと点クラウドをタスク固有の表現にマッピングするラベルアノテーション-インデューサと、元の特徴を補助して検出クリティカルな表現を得るラベル-知識-マップパーの2つの新しいモジュールを提案する。 提案する補助ネットワークは推論で廃棄され、テスト時に余分な計算コストは発生しない。 本手法の有効性を検証するために,屋内データと屋外データの両方について広範な実験を行った。 例えば、提案したLG3Dは、それぞれSUN RGB-DとScanNetV2データセットでVoteNetを2.5%改善し、3.1%のmAPを実現した。

Detecting 3D objects from point clouds is a practical yet challenging task that has attracted increasing attention recently. In this paper, we propose a Label-Guided auxiliary training method for 3D object detection (LG3D), which serves as an auxiliary network to enhance the feature learning of existing 3D object detectors. Specifically, we propose two novel modules: a Label-Annotation-Inducer that maps annotations and point clouds in bounding boxes to task-specific representations and a Label-Knowledge-Mapper that assists the original features to obtain detection-critical representations. The proposed auxiliary network is discarded in inference and thus has no extra computational cost at test time. We conduct extensive experiments on both indoor and outdoor datasets to verify the effectiveness of our approach. For example, our proposed LG3D improves VoteNet by 2.5% and 3.1% mAP on the SUN RGB-D and ScanNetV2 datasets, respectively.
翻訳日:2022-07-26 13:32:31 公開日:2022-07-24
# 少数の画像から一般化可能な光場ネットワークを学習する

Learning Generalizable Light Field Networks from Few Images ( http://arxiv.org/abs/2207.11757v1 )

ライセンス: Link先を確認
Qian Li, Franck Multon, Adnane Boukhayma(参考訳) ニューラル光場表現に基づく数発の新規ビュー合成のための新しい戦略を探索する。 ターゲットカメラのポーズが与えられると、暗黙のニューラルネットワークは各光線をターゲットピクセルの色に直接マッピングする。 ネットワークは、明示的な3D特徴量から粗いボリュームレンダリングによって生成された局所光線特徴に条件付けされる。 このボリュームは3D ConvNetを使って入力画像から作られる。 提案手法は,100倍高速なレンダリングを実現するとともに,最先端のニューラルラジアンスフィールドベースの競合に対して,合成および実MVSデータに対する競合性能を実現する。

We explore a new strategy for few-shot novel view synthesis based on a neural light field representation. Given a target camera pose, an implicit neural network maps each ray to its target pixel's color directly. The network is conditioned on local ray features generated by coarse volumetric rendering from an explicit 3D feature volume. This volume is built from the input images using a 3D ConvNet. Our method achieves competitive performances on synthetic and real MVS data with respect to state-of-the-art neural radiance field based competition, while offering a 100 times faster rendering.
翻訳日:2022-07-26 13:32:15 公開日:2022-07-24
# 階層的アトミックアクションを用いた微粒化ビデオの弱教師付き時間行動検出

Weakly-Supervised Temporal Action Detection for Fine-Grained Videos with Hierarchical Atomic Actions ( http://arxiv.org/abs/2207.11805v1 )

ライセンス: Link先を確認
Zhi Li, Lu He, Huijuan Xu(参考訳) 行動理解は細かな粒度の時代へと進化し、実生活における人間の行動のほとんどがわずかな違いしか持たない。 これらの細粒度動作をラベル効率良く正確に検出するため,ビデオにおける弱教師付き時間的動作検出の問題に初めて取り組む。 細粒度動作間の微妙な差異を捉えるための注意深い設計がなければ、従来の一般的なアクション検出のための弱教師付きモデルは細粒度設定ではうまく機能しない。 本稿では, 自己監視クラスタリングによるデータから自動的に検出される再利用可能なアトミックアクションの組み合わせとして, アクションをモデル化することを提案する。 学習されたアトミックアクションは、視覚的概念によって表現され、セマンティックなラベル階層を利用して、さらに微細で粗いアクションラベルにマッピングされる。 このアプローチでは,クリップレベル,アトミックアクションレベル,ファインアクションクラスレベル,粗いアクションクラスレベルという4つのレベルの視覚的表現階層を構築し,各レベルを監督する。 2つの大規模細粒ビデオデータセット(ファインアクションとファインジャム)に関する広範囲な実験により,提案する微粒度動作検出のための弱教師付きモデルの利点を示し,最新結果を得た。

Action understanding has evolved into the era of fine granularity, as most human behaviors in real life have only minor differences. To detect these fine-grained actions accurately in a label-efficient way, we tackle the problem of weakly-supervised fine-grained temporal action detection in videos for the first time. Without the careful design to capture subtle differences between fine-grained actions, previous weakly-supervised models for general action detection cannot perform well in the fine-grained setting. We propose to model actions as the combinations of reusable atomic actions which are automatically discovered from data through self-supervised clustering, in order to capture the commonality and individuality of fine-grained actions. The learnt atomic actions, represented by visual concepts, are further mapped to fine and coarse action labels leveraging the semantic label hierarchy. Our approach constructs a visual representation hierarchy of four levels: clip level, atomic action level, fine action class level and coarse action class level, with supervision at each level. Extensive experiments on two large-scale fine-grained video datasets, FineAction and FineGym, show the benefit of our proposed weakly-supervised model for fine-grained action detection, and it achieves state-of-the-art results.
翻訳日:2022-07-26 13:32:04 公開日:2022-07-24
# savchoi: 人間のオブジェクトインタラクションを用いた密集ビデオキャプションによる疑わしい行動の検出

SAVCHOI: Detecting Suspicious Activities using Dense Video Captioning with Human Object Interactions ( http://arxiv.org/abs/2207.11838v1 )

ライセンス: Link先を確認
Ansh Mittal, Shuvam Ghosal, Rishibha Bansal, Dat Ngyuyen(参考訳) 監視ビデオにおける不審な行為の検出は長年の問題であり、さらに犯罪の検出が困難になる可能性がある。 筆者らは,監視ビデオにおける不審な活動を検出し,要約するための新しい手法を提案する。 また、UCF-Crimeビデオデータセットの真理要約を作成する。 さらに、著者らは、このデータセットのサブセットに対して、Dense Video Captioningの既存の最先端アルゴリズムをテストし、視覚機能にヒューマンオブジェクトインタラクションモデルを活用することで、このタスクのモデルを提案する。 彼らは、このDense Captioningの定式化が、以前のアプローチよりもかなりの差で大きな利益を得ると考えている。 また,著者らは,データセットとモデルについてアブレーション分析を行い,その結果を報告する。

Detecting suspicious activities in surveillance videos has been a longstanding problem, which can further lead to difficulties in detecting crimes. The authors propose a novel approach for detecting and summarizing the suspicious activities going on in the surveillance videos. They also create ground truth summaries for the UCF-Crime video dataset. Further, the authors test existing state-of-the-art algorithms for Dense Video Captioning for a subset of this dataset and propose a model for this task by leveraging Human-Object Interaction models for the Visual features. They observe that this formulation for Dense Captioning achieves large gains over earlier approaches by a significant margin. The authors also perform an ablative analysis of the dataset and the model and report their findings.
翻訳日:2022-07-26 13:31:41 公開日:2022-07-24
# 少数ショット学習のためのカーネル相対型スペクトルフィルタリング

Kernel Relative-prototype Spectral Filtering for Few-shot Learning ( http://arxiv.org/abs/2207.11685v1 )

ライセンス: Link先を確認
Tao Zhang, Wu Huang(参考訳) 少数ショット学習は、少ないサンプルで分類タスクと回帰タスクを実行する。 最も代表的な少数ショット学習モデルの1つとして、プロトタイプネットワークは各クラスをサンプル平均またはプロトタイプとして表現し、ユークリッド距離でサンプルとプロトタイプの類似度を測定する。 本稿では,再生成核ヒルベルト空間(rkhs)におけるクエリサンプルとプロトタイプ,すなわち相対プロトタイプ間の差を測定するためのスペクトルフィルタリング(shrinkage)の枠組みを提案する。 そこで本研究では,Tikhonov正則化をフィルタ関数として用いた数ショット分類手法を提案する。 我々は, miniImageNet データセット, tiered-ImageNet データセット, CIFAR-FS データセットに基づいて, 異なるカーネルを用いた検証実験を行った。 実験結果は,提案モデルが最先端の手法を実現できることを示す。 また,提案手法によって性能が向上することを示す実験結果を得た。 ソースコードはhttps://github.com/zhangtao2022/DSFNで入手できる。

Few-shot learning performs classification tasks and regression tasks on scarce samples. As one of the most representative few-shot learning models, Prototypical Network represents each class as sample average, or a prototype, and measures the similarity of samples and prototypes by Euclidean distance. In this paper, we propose a framework of spectral filtering (shrinkage) for measuring the difference between query samples and prototypes, or namely the relative prototypes, in a reproducing kernel Hilbert space (RKHS). In this framework, we further propose a method utilizing Tikhonov regularization as the filter function for few-shot classification. We conduct several experiments to verify our method utilizing different kernels based on the miniImageNet dataset, tiered-ImageNet dataset and CIFAR-FS dataset. The experimental results show that the proposed model can perform the state-of-the-art. In addition, the experimental results show that the proposed shrinkage method can boost the performance. Source code is available at https://github.com/zhangtao2022/DSFN.
翻訳日:2022-07-26 13:23:35 公開日:2022-07-24
# 半教師付きディープマルチビューステレオ

Semi-supervised Deep Multi-view Stereo ( http://arxiv.org/abs/2207.11699v1 )

ライセンス: Link先を確認
Hongbin Xu, Zhipeng Zhou, Weitao Cheng, Baigui Sun, Hao Li, Wenxiong Kang(参考訳) 教師なしおよび教師なしの設定の学習ベースのマルチビューステレオ(MVS)において、重要な進歩が見られた。 そこで本研究では,MVSデータのごく一部に深層地盤真理を付加した学習ベースMVS問題の,新たな半教師付き設定について検討する。 しかし、シナリオの多様さと視点の柔軟な設定により、半教師付きMSV問題(Semi-MVS)は、ラベルなしデータとラベル付きデータが同じラベル空間とデータ分布を共有するという古典的な半教師付き学習の基本的な前提を破る可能性がある。 これらの問題に対処するため、我々はSE-MVSと呼ばれる新しい半教師付きMVSフレームワークを提案する。 MVSデータに基本的な仮定が作用する単純な場合において、一貫性の正則化は、KLの発散に関する制約により、元のサンプルとランダムに増分されたサンプルとの整合性をモデル予測に促す。 さらに,mvsデータに基本仮定が矛盾する場合には,分布ギャップに起因する負の効果を緩和する新しいスタイルの一貫性損失を提案する。 ラベル付けされていないサンプルの視覚的スタイルをラベル付きサンプルに転送してギャップを小さくし、生成されたサンプルのモデル予測をさらにラベル付きサンプルで監督する。 DTU, BlendedMVS, GTA-SFM, Tanks\&Temples を用いた実験結果から,提案手法の優れた性能を示した。 バックボーンネットワークと同じ設定で,提案するSE-MVSは,完全に教師付きで教師なしのベースラインよりも優れている。

Significant progress has been witnessed in learning-based Multi-view Stereo (MVS) of supervised and unsupervised settings. To combine their respective merits in accuracy and completeness, meantime reducing the demand for expensive labeled data, this paper explores a novel semi-supervised setting of learning-based MVS problem that only a tiny part of the MVS data is attached with dense depth ground truth. However, due to huge variation of scenarios and flexible setting in views, semi-supervised MVS problem (Semi-MVS) may break the basic assumption in classic semi-supervised learning, that unlabeled data and labeled data share the same label space and data distribution. To handle these issues, we propose a novel semi-supervised MVS framework, namely SE-MVS. For the simple case that the basic assumption works in MVS data, consistency regularization encourages the model predictions to be consistent between original sample and randomly augmented sample via constraints on KL divergence. For further troublesome case that the basic assumption is conflicted in MVS data, we propose a novel style consistency loss to alleviate the negative effect caused by the distribution gap. The visual style of unlabeled sample is transferred to labeled sample to shrink the gap, and the model prediction of generated sample is further supervised with the label in original labeled sample. The experimental results on DTU, BlendedMVS, GTA-SFM, and Tanks\&Temples datasets show the superior performance of the proposed method. With the same settings in backbone network, our proposed SE-MVS outperforms its fully-supervised and unsupervised baselines.
翻訳日:2022-07-26 13:23:20 公開日:2022-07-24
# アウト・オブ・ディストリビューション型マルチモーダル感性分析のための因果推論

Counterfactual Reasoning for Out-of-distribution Multimodal Sentiment Analysis ( http://arxiv.org/abs/2207.11652v1 )

ライセンス: Link先を確認
Teng Sun, Wenjie Wang, Liqiang Jing, Yiran Cui, Xuemeng Song, Liqiang Nie(参考訳) 既存のマルチモーダル感情分析の研究は、テキストのモダリティに大きく依存しており、テキストの単語と感情ラベルの急激な相関を必然的に引き起こす。 これはモデル一般化能力を大きく阻害する。 この問題に対処するため,我々はout-of-distribution (ood) マルチモーダル感情分析のタスクを定義する。 本課題は,強いOOD一般化のためのテキストモダリティの悪影響を推定・緩和することを目的とする。 この目的のために、因果関係を因果グラフを用いて検査する因果関係推論を採用する。 グラフから、スプリアス相関はモデル予測に対するテクストモーダルモダリティの直接的な効果に起因し、間接相関はマルチモーダルセマンティクスを考えることによってより信頼性が高いことが分かる。 そこで本研究では,テキストモデルによるテキストモダリティの直接的効果を捉え,その間接的効果をマルチモーダルモデルにより推定する,マルチモーダル感情分析のためのモデル非依存の逆ファクトアルフレームワークを考案した。 提案手法では,まず,反現実的推論による直接効果を推定し,すべてのモーダルの全体効果から抽出し,信頼性のある予測のための間接効果を得る。 大規模な実験により,提案フレームワークの優れた有効性と一般化能力を示す。

Existing studies on multimodal sentiment analysis heavily rely on textual modality and unavoidably induce the spurious correlations between textual words and sentiment labels. This greatly hinders the model generalization ability. To address this problem, we define the task of out-of-distribution (OOD) multimodal sentiment analysis. This task aims to estimate and mitigate the bad effect of textual modality for strong OOD generalization. To this end, we embrace causal inference, which inspects the causal relationships via a causal graph. From the graph, we find that the spurious correlations are attributed to the direct effect of textual modality on the model prediction while the indirect one is more reliable by considering multimodal semantics. Inspired by this, we devise a model-agnostic counterfactual framework for multimodal sentiment analysis, which captures the direct effect of textual modality via an extra text model and estimates the indirect one by a multimodal model. During the inference, we first estimate the direct effect by the counterfactual inference, and then subtract it from the total effect of all modalities to obtain the indirect effect for reliable prediction. Extensive experiments show the superior effectiveness and generalization ability of our proposed framework.
翻訳日:2022-07-26 13:18:56 公開日:2022-07-24
# AutoWeird:ランダム検索で同定されたワイド翻訳スコーリング関数

AutoWeird: Weird Translational Scoring Function Identified by Random Search ( http://arxiv.org/abs/2207.11673v1 )

ライセンス: Link先を確認
Hansi Yang, Yongqi Zhang, Quanming Yao(参考訳) Scoring function (SF) は知識グラフにおける三重項の妥当性を測定する。 異なるスコアリング関数は、異なる知識グラフ上のリンク予測性能に大きな違いをもたらす可能性がある。 本稿では,オープングラフベンチマーク(OGB)でランダム検索によって見いだされる奇妙なスコアリング関数について述べる。 このスコアリング関数はautoweirdと呼ばれ、三重項で末尾の実体と関係のみを使用し、その可能性スコアを計算する。 実験結果から, AutoWeird は ogbl-wikikg2 データセット上ではトップ-1 性能を達成するが, ogbl-biokg データセットでは他の手法よりもパフォーマンスが劣ることがわかった。 これら2つのデータセットのテールエンティティ分布と評価プロトコルを分析することにより,ogbl-wikikg2におけるautoweirdの予期せぬ成功を不適切な評価と集中的テールエンティティ分布に分類する。 このような結果は、知識グラフに対する異なるリンク予測手法の性能を正確に評価する方法に関するさらなる研究を動機付けうる。

Scoring function (SF) measures the plausibility of triplets in knowledge graphs. Different scoring functions can lead to huge differences in link prediction performances on different knowledge graphs. In this report, we describe a weird scoring function found by random search on the open graph benchmark (OGB). This scoring function, called AutoWeird, only uses tail entity and relation in a triplet to compute its plausibility score. Experimental results show that AutoWeird achieves top-1 performance on ogbl-wikikg2 data set, but has much worse performance than other methods on ogbl-biokg data set. By analyzing the tail entity distribution and evaluation protocol of these two data sets, we attribute the unexpected success of AutoWeird on ogbl-wikikg2 to inappropriate evaluation and concentrated tail entity distribution. Such results may motivate further research on how to accurately evaluate the performance of different link prediction methods for knowledge graphs.
翻訳日:2022-07-26 13:18:34 公開日:2022-07-24
# タスク補完対話システムのための反見積対話政策学習

Anti-Overestimation Dialogue Policy Learning for Task-Completion Dialogue System ( http://arxiv.org/abs/2207.11762v1 )

ライセンス: Link先を確認
Chang Tian, Wenpeng Yin and Marie-Francine Moens(参考訳) 対話ポリシーモジュールはタスク補完対話システムにおいて不可欠な部分である。 近年,強化学習(RL)に基づく対話政策への関心が高まっている。 その望ましいパフォーマンスと賢明なアクション決定は、アクション値の正確な推定に依存する。 過大評価問題は、最大作用値の推定が基礎的真理よりも大きく、不安定な学習プロセスと準最適政策をもたらすため、RLの広く知られている問題である。 この問題はrlベースの対話政策学習に有害である。 この問題を軽減するために,本研究では,基底真理最大作用値の動的部分平均推定器(DPAV)を提案する。 DPAVは、予測された最大アクション値と最小アクション値との間の部分平均を計算する。 我々はDPAVを対話ポリシーとして深くQ-networkに組み込み、計算負荷の少ない3つのドメインの対話データセットの上位ベースラインよりも優れた、あるいは同等の結果が得られることを示す。 さらに、理論的には収束を証明し、他の方法と比較してバイアスの上と下の境界を導出する。

A dialogue policy module is an essential part of task-completion dialogue systems. Recently, increasing interest has focused on reinforcement learning (RL)-based dialogue policy. Its favorable performance and wise action decisions rely on an accurate estimation of action values. The overestimation problem is a widely known issue of RL since its estimate of the maximum action value is larger than the ground truth, which results in an unstable learning process and suboptimal policy. This problem is detrimental to RL-based dialogue policy learning. To mitigate this problem, this paper proposes a dynamic partial average estimator (DPAV) of the ground truth maximum action value. DPAV calculates the partial average between the predicted maximum action value and minimum action value, where the weights are dynamically adaptive and problem-dependent. We incorporate DPAV into a deep Q-network as the dialogue policy and show that our method can achieve better or comparable results compared to top baselines on three dialogue datasets of different domains with a lower computational load. In addition, we also theoretically prove the convergence and derive the upper and lower bounds of the bias compared with those of other methods.
翻訳日:2022-07-26 13:18:17 公開日:2022-07-24
# ArmanEmo: テキストベースの感情検出のためのペルシャのデータセット

ArmanEmo: A Persian Dataset for Text-based Emotion Detection ( http://arxiv.org/abs/2207.11808v1 )

ライセンス: Link先を確認
Hossein Mirzaee (1), Javad Peymanfard (2), Hamid Habibzadeh Moshtaghin (3), Hossein Zeinali (1) ((1) Amirkabir University of Technology, (2) Iran University of Science and Technology, (3) Allameh Tabataba'i University)(参考訳) 近年,ソーシャルメディアプラットフォーム上でのオープンテキストデータの増加に伴い,テキストからの感情検出(ED)が近年注目されている。 企業やオンラインサービスプロバイダなど、多くのアプリケーションがあり、顧客やユーザの製品やサービスに対する感情を分析することで、感情検出技術が商業的な意思決定に役立ちます。 本研究では,7つのカテゴリでラベル付けされた7000以上のペルシャ文の感情データセットであるarmanemoについて紹介する。 データセットはTwitter、Instagram、Digikala(イランのeコマース企業)のコメントなど、さまざまなリソースから収集されている。 レーベルは、エクマンの6つの基本的な感情(アンガー、恐怖、幸福、憎しみ、悲しみ、不思議)と他のカテゴリー(他の)に基づいて、エクマンのモデルに含まれない他の感情を検討する。 データセットとともに、最先端のトランスフォーマーベースの言語モデルに注目した感情分類のベースラインモデルをいくつか提供した。 我々の最良のモデルは、テストデータセット全体で平均75.39パーセントのマクロ平均F1スコアを達成する。 さらに,提案するデータセットの一般化を他のペルシャ感情データセットと比較するために,転送学習実験を行う。 これらの実験の結果,既存のペルシャ感情データセットよりもデータセットの一般化性が優れていることが示唆された。 armanemoは、https://github.com/arman-rayan-sharif/arman-text-emotionで非商用利用が可能。

With the recent proliferation of open textual data on social media platforms, Emotion Detection (ED) from Text has received more attention over the past years. It has many applications, especially for businesses and online service providers, where emotion detection techniques can help them make informed commercial decisions by analyzing customers/users' feelings towards their products and services. In this study, we introduce ArmanEmo, a human-labeled emotion dataset of more than 7000 Persian sentences labeled for seven categories. The dataset has been collected from different resources, including Twitter, Instagram, and Digikala (an Iranian e-commerce company) comments. Labels are based on Ekman's six basic emotions (Anger, Fear, Happiness, Hatred, Sadness, Wonder) and another category (Other) to consider any other emotion not included in Ekman's model. Along with the dataset, we have provided several baseline models for emotion classification focusing on the state-of-the-art transformer-based language models. Our best model achieves a macro-averaged F1 score of 75.39 percent across our test dataset. Moreover, we also conduct transfer learning experiments to compare our proposed dataset's generalization against other Persian emotion datasets. Results of these experiments suggest that our dataset has superior generalizability among the existing Persian emotion datasets. ArmanEmo is publicly available for non-commercial use at https://github.com/Arman-Rayan-Sharif/arman-text-emotion.
翻訳日:2022-07-26 13:17:59 公開日:2022-07-24
# 転倒検知・屋内位置推定のための環境支援型生活支援システムの実世界開発のためのシンプルでコスト効果のある設計:概念実証

A Simplistic and Cost-Effective Design for Real-World Development of an Ambient Assisted Living System for Fall Detection and Indoor Localization: Proof of Concept ( http://arxiv.org/abs/2207.11623v1 )

ライセンス: Link先を確認
Nirmalya Thakur and Chia Y. Han(参考訳) 滝は、常に増加する世界の高齢化において非常に一般的であり、健康、幸福、生活の質に様々な悪影響を及ぼす可能性がある。 転倒時の時間的援助は非常に必要であり、転倒の正確な位置を検出するために、ADLに関連する様々なナビゲーションパターン中の高齢者の屋内位置を追跡する。 世界規模での介護者の人口減少に伴い、知的生活環境の将来は、実世界における高齢者の屋内位置を追跡しながら、adlによる転倒を検知できることが重要である。 このような課題に対処するために,本研究では,実世界での転倒検出と屋内の局所化を同時に行うために必要なADLにおいて,ユーザ行動のマルチモーダルなコンポーネントをキャプチャ可能な,費用対効果と簡易な設計パラダイムを提案する。 実世界の実験から得られた概念の証明は, システムの効果的な動作を裏付けるものである。 この分野での2つの先行研究との比較研究から得られた知見も,本研究の斬新さを裏付けるものである。 最初の比較研究は、ソフトウェア設計とハードウェア設計の有効性の観点から、提案手法が屋内のローカライズと転倒検出の領域において、先行手法よりも優れていることを示すものである。 第2の比較研究により、このシステムの開発コストは、地下システムの実世界開発を伴うこれらの分野での先行研究と比べて最小であることが示され、コスト効率のよい性質が保たれる。

Falls, highly common in the constantly increasing global aging population, can have a variety of negative effects on their health, well-being, and quality of life, including restricting their capabilities to conduct Activities of Daily Living (ADLs), which are crucial for one's sustenance. Timely assistance during falls is highly necessary, which involves tracking the indoor location of the elderly during their diverse navigational patterns associated with ADLs to detect the precise location of a fall. With the decreasing caregiver population on a global scale, it is important that the future of intelligent living environments can detect falls during ADLs while being able to track the indoor location of the elderly in the real world. To address these challenges, this work proposes a cost-effective and simplistic design paradigm for an Ambient Assisted Living system that can capture multimodal components of user behaviors during ADLs that are necessary for performing fall detection and indoor localization in a simultaneous manner in the real world. Proof of concept results from real-world experiments are presented to uphold the effective working of the system. The findings from two comparison studies with prior works in this field are also presented to uphold the novelty of this work. The first comparison study shows how the proposed system outperforms prior works in the areas of indoor localization and fall detection in terms of the effectiveness of its software design and hardware design. The second comparison study shows that the cost for the development of this system is the least as compared to prior works in these fields, which involved real-world development of the underlining systems, thereby upholding its cost-effective nature.
翻訳日:2022-07-26 13:14:01 公開日:2022-07-24
# 対向移動性向上のための12法で共有される共通メカニズムの証明

Proving Common Mechanisms Shared by Twelve Methods of Boosting Adversarial Transferability ( http://arxiv.org/abs/2207.11694v1 )

ライセンス: Link先を確認
Quanshi Zhang, Xin Wang, Jie Ren, Xu Cheng, Shuyun Lin, Yisen Wang, Xiangming Zhu(参考訳) 相反摂動の伝達性を高めるために多くの手法が提案されているが、これらの手法はヒューリスティックな設計であり、相反移動性を改善するための必須のメカニズムはまだ不明である。 本稿では,従来の12種類の移動可能性ブースティング手法で共有される共通メカニズムを統一的な視点で要約する。 この目的のために、我々は、全ての対向的摂動間の相互作用の攻撃性に注目し、まず、対向的伝達可能性と対向的相互作用の攻撃性の間の負の相関を発見し、証明する。 この発見に基づいて, 従来の12の移動可能性ブースティング法が, 局所対向摂動の相互作用を減少させることを理論的に証明し, 実証的に検証した。 さらに重要な点として, 相互作用の低減が, 逆伝達性の向上に必要不可欠な理由であると考える。 さらに,攻撃時の対地的摂動の相互作用を直接罰する相互作用損失を設計する。 実験の結果, 相互作用損失は逆摂動の伝達性を大幅に改善することがわかった。

Although many methods have been proposed to enhance the transferability of adversarial perturbations, these methods are designed in a heuristic manner, and the essential mechanism for improving adversarial transferability is still unclear. This paper summarizes the common mechanism shared by twelve previous transferability-boosting methods in a unified view, i.e., these methods all reduce game-theoretic interactions between regional adversarial perturbations. To this end, we focus on the attacking utility of all interactions between regional adversarial perturbations, and we first discover and prove the negative correlation between the adversarial transferability and the attacking utility of interactions. Based on this discovery, we theoretically prove and empirically verify that twelve previous transferability-boosting methods all reduce interactions between regional adversarial perturbations. More crucially, we consider the reduction of interactions as the essential reason for the enhancement of adversarial transferability. Furthermore, we design the interaction loss to directly penalize interactions between regional adversarial perturbations during attacking. Experimental results show that the interaction loss significantly improves the transferability of adversarial perturbations.
翻訳日:2022-07-26 13:13:18 公開日:2022-07-24
# 分散エッジ上の生涯人物再識別のための時空間フェデレーション学習

Spatial-Temporal Federated Learning for Lifelong Person Re-identification on Distributed Edges ( http://arxiv.org/abs/2207.11759v1 )

ライセンス: Link先を確認
Lei Zhang, Guanyu Gao, Huaizheng Zhang(参考訳) データドリフト(data drift)は、人の再識別(reid)モデルを実世界のデバイスにデプロイする場合の、厄介な課題である。 この問題に対処するために,フェデレーション付き時空間漸進学習手法であるFedSTILを提案する。これは,生涯学習とフェデレーション学習の両方を活用し,多くの分散エッジクライアントにデプロイされたモデルを継続的に最適化する。 従来の取り組みとは異なり、FedSTILは異なるエッジクライアントから学んだ知識間の空間的時間的相関をマイニングすることを目的としている。 具体的には、エッジクライアントがドリフトデータの一般的な表現を定期的に抽出し、ローカルモデルを最適化する。 次に、エッジクライアントから学習した知識を集中パラメータサーバで集約し、その知識を慎重に設計されたメカニズムで空間次元と時間次元から選択的に抽出する。 最後に、蒸留した情報的空間時間知識を関連エッジクライアントに送信し、生涯学習法により各エッジクライアントの認識精度をさらに向上させる。 5つの実世界のデータセットの混合による大規模な実験により、我々の手法はRan-1の精度で4%近く向上し、通信コストは62%削減された。 すべての実装コードはhttps://github.com/MSNLAB/Federated-Lifelong-Person-ReIDで公開されている。

Data drift is a thorny challenge when deploying person re-identification (ReID) models into real-world devices, where the data distribution is significantly different from that of the training environment and keeps changing. To tackle this issue, we propose a federated spatial-temporal incremental learning approach, named FedSTIL, which leverages both lifelong learning and federated learning to continuously optimize models deployed on many distributed edge clients. Unlike previous efforts, FedSTIL aims to mine spatial-temporal correlations among the knowledge learnt from different edge clients. Specifically, the edge clients first periodically extract general representations of drifted data to optimize their local models. Then, the learnt knowledge from edge clients will be aggregated by centralized parameter server, where the knowledge will be selectively and attentively distilled from spatial- and temporal-dimension with carefully designed mechanisms. Finally, the distilled informative spatial-temporal knowledge will be sent back to correlated edge clients to further improve the recognition accuracy of each edge client with a lifelong learning method. Extensive experiments on a mixture of five real-world datasets demonstrate that our method outperforms others by nearly 4% in Rank-1 accuracy, while reducing communication cost by 62%. All implementation codes are publicly available on https://github.com/MSNLAB/Federated-Lifelong-Person-ReID
翻訳日:2022-07-26 13:10:04 公開日:2022-07-24
# 大規模コーパスの意味的類似性分析に関する認知的研究:トランスフォーマーによるアプローチ

A Cognitive Study on Semantic Similarity Analysis of Large Corpora: A Transformer-based Approach ( http://arxiv.org/abs/2207.11716v1 )

ライセンス: Link先を確認
Praneeth Nemani, Satyanarayana Vollala(参考訳) 意味的類似性分析とモデリングは、今日の多くの自然言語処理の先駆的応用において、基本的に賞賛されているタスクである。 シーケンシャルパターン認識の感覚により、RNNやLSTMのような多くのニューラルネットワークはセマンティック類似性モデリングにおいて満足な結果を得た。 しかし、これらの解は、非系列的な方法で情報を処理できないため、不適切なコンテキスト抽出につながるため、非効率であると考えられている。 トランスフォーマーは、非逐次データ処理や自己アテンションといった長所があるため、最先端アーキテクチャとして機能する。 本稿では,従来の手法とトランスフォーマー方式の両方を用いて,米国特許用語のPhrase Matching Datasetに対する意味的類似性解析とモデリングを行う。 提案手法は,4種類の復号化BERT-DeBERTaを試作し,K-Foldクロスバリデーションにより性能を向上する。 実験の結果,従来の手法と比較して手法の性能が向上し,平均ピアソン相関スコアは0.79。

Semantic similarity analysis and modeling is a fundamentally acclaimed task in many pioneering applications of natural language processing today. Owing to the sensation of sequential pattern recognition, many neural networks like RNNs and LSTMs have achieved satisfactory results in semantic similarity modeling. However, these solutions are considered inefficient due to their inability to process information in a non-sequential manner, thus leading to the improper extraction of context. Transformers function as the state-of-the-art architecture due to their advantages like non-sequential data processing and self-attention. In this paper, we perform semantic similarity analysis and modeling on the U.S Patent Phrase to Phrase Matching Dataset using both traditional and transformer-based techniques. We experiment upon four different variants of the Decoding Enhanced BERT - DeBERTa and enhance its performance by performing K-Fold Cross-Validation. The experimental results demonstrate our methodology's enhanced performance compared to traditional techniques, with an average Pearson correlation score of 0.79.
翻訳日:2022-07-26 13:08:03 公開日:2022-07-24
# スパイクニューラルネットワークの学習を促進するためのシナプス間の連想塑性のモデル化

Modeling Associative Plasticity between Synapses to Enhance Learning of Spiking Neural Networks ( http://arxiv.org/abs/2207.11670v1 )

ライセンス: Link先を確認
Haibo Shen, Juyu Xiao, Yihao Luo, Xiang Cao, Liangqi Zhang, Tianjiang Wang(参考訳) spiking neural networks(snn)は、ニューロモルフィック・ハードウェア上でエネルギー効率の良い実装を可能にする第3世代のニューラルネットワークである。 しかし、スパイクの離散的な伝達は、堅牢で高性能な学習メカニズムに大きな課題をもたらす。 既存の作品の多くは神経細胞間の学習のみに焦点を当てているが、シナプス間の影響を無視し、堅牢性と正確性が失われる。 そこで本研究では,結合性長期増強(ALTP)の生理的現象から観察されるシナプス間の連想塑性(APBS)をモデル化し,頑健で効果的な学習機構を提案する。 APBS法では、同じニューロンのシナプスが他のニューロンによって同時に刺激されると共有因子を介して相互作用する。 さらに,ネットワークの一般化能力を向上させるため,時空間トリミング・フリップ法(STCF)を提案する。 広汎な実験により,我々は静的CIFAR-10データセットとニューロモルフィックMNIST-DVS,CIFAR10-DVSデータセットの最先端性能を軽量畳み込みネットワークにより達成した。 我々の知る限りでは、シナプスとニューロモルフィックデータの拡張アプローチの間の学習方法を探求するのはこれが初めてである。

Spiking Neural Networks (SNNs) are the third generation of artificial neural networks that enable energy-efficient implementation on neuromorphic hardware. However, the discrete transmission of spikes brings significant challenges to the robust and high-performance learning mechanism. Most existing works focus solely on learning between neurons but ignore the influence between synapses, resulting in a loss of robustness and accuracy. To address this problem, we propose a robust and effective learning mechanism by modeling the associative plasticity between synapses (APBS) observed from the physiological phenomenon of associative long-term potentiation (ALTP). With the proposed APBS method, synapses of the same neuron interact through a shared factor when concurrently stimulated by other neurons. In addition, we propose a spatiotemporal cropping and flipping (STCF) method to improve the generalization ability of our network. Extensive experiments demonstrate that our approaches achieve superior performance on static CIFAR-10 datasets and state-of-the-art performance on neuromorphic MNIST-DVS, CIFAR10-DVS datasets by a lightweight convolution network. To our best knowledge, this is the first time to explore a learning method between synapses and an extended approach for neuromorphic data.
翻訳日:2022-07-26 13:07:00 公開日:2022-07-24