このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220702となっている論文です。

PDF登録状況(公開日: 20220702)

TitleAuthorsAbstract論文公表日・翻訳日
# 一般ハイゼンベルク星における反強磁性秩序の緩和とr\'enyiエントロピーの成長

Relaxation of antiferromagnetic order and growth of R\'enyi entropy in a generalized Heisenberg star ( http://arxiv.org/abs/2108.07055v3 )

ライセンス: Link先を確認
Jiaxiu Li, Ye Cao, Ning Wu(参考訳) 相互作用する中心スピン系は、中心スピンが強相関のスピン浴とバス内相互作用に結合し、通常のゴーディン磁石を超える重要なスピン系から構成される。 これらのシステムはいくつかの現実的な設定に関連しており、相互作用制御されたデコヒーレンスとフラストレーションによる磁気秩序の不安定性を研究するための興味深いプラットフォームとなっている。 XX鎖内のスピン-作用素行列要素の解析的表現に基づく運動方程式を用いて、スピン-S$中心スピンと$N\leq 16$浴スピンの不均一結合XXZ鎖からなる一般化ハイゼンベルク星の正確な時間力学を求める。 中心スピンダイナミクスが主に関係する以前の研究とは対照的に、スピンバス内の磁気秩序のダイナミクスに対する中心スピンの影響に焦点を当てている。 N'eel状態のXXZ浴を調製することにより、浴槽の隙間のない位相において、システムバスカップリングの弱さが反強磁性秩序のほぼ完全な緩和につながることが判明した。 間隙相では、スタッガーされた磁化は急速に減衰し、異方性パラメータの増加とともに増加する安定した値に近づく。 これらの結果は, 強相関多スピン系の内部ダイナミクスを, ある程度の自由度のある結合補助系によって制御する可能性を示唆する。 また,浴の基底状態における中心スピンの r\'enyi の絡み合いエントロピーのダイナミクスについても検討した。 R'enyiエントロピーの全体的なプロファイルと初期成長速度は、XXZ浴の臨界点において最小値を示す。

Interacting central spin systems, in which a central spin is coupled to a strongly correlated spin bath with intrabath interaction, consist of an important class of spin systems beyond the usual Gaudin magnet. These systems are relevant to several realistic setups and serve as an interesting platform to study interaction controlled decoherence and frustration induced instability of magnetic order. Using an equations-of-motion method based on analytical representations of spin-operator matrix elements in the XX chain, we obtain exact long-time dynamics of a generalized Heisenberg star consisting of a spin-$S$ central spin and an inhomogeneously coupled XXZ chain of $N\leq 16$ bath spins. In contrast to previous studies where the central spin dynamics is mainly concerned, we focus on the influence of the central spin on the dynamics of magnetic orders within the spin bath. By preparing the XXZ bath in a N\'eel state, we find that in the gapless phase of the bath even weak system-bath coupling could lead to nearly perfect relaxation of the antiferromagnetic order. In the gapped phase, the staggered magnetization decays rapidly and approaches a steady value that increases with increasing anisotropy parameter. These findings suggest the possibility of controlling internal dynamics of strongly correlated many-spin systems by certain coupled auxiliary systems of even few degrees of freedom. We also study the dynamics of the R\'enyi entanglement entropy of the central spin when the bath is prepared in the ground state. Both the overall profile and initial growth rate of the R\'enyi entropy are found to exhibit minima at the critical point of the XXZ bath.
翻訳日:2023-03-18 07:40:44 公開日:2022-07-02
# 位相遷移検出のための最適解析予測器によるニューラルネットワークの置換

Replacing neural networks by optimal analytical predictors for the detection of phase transitions ( http://arxiv.org/abs/2203.06084v2 )

ライセンス: Link先を確認
Julian Arnold and Frank Sch\"afer(参考訳) 物質の相転移の同定と相の分類は、幅広い物質系の特性と挙動を理解するために重要である。 近年、機械学習(ML)技術は、データ駆動方式でそのようなタスクを実行するのに成功している。 しかし、このアプローチの成功にもかかわらず、特にニューラルネットワーク(NN)を利用したフェーズ遷移を検出するMLメソッドの明確な理解はいまだに欠けている。 本研究では,位相遷移を検出する3つのNN方式の最適出力に対する解析式を導出する。 これらの最適予測は、高モデル容量の限界で得られた結果に対応する。 したがって、実際には十分な規模で訓練されたnnを使用して回復することができる。 提案手法の内部動作は,入力データに対する最適出力の明示的依存によって明らかにされる。 解析式を評価することにより,nnをトレーニングすることなく,実験的にアクセス可能なデータから直接位相遷移を同定することができる。 我々の理論的結果は、トポロジカル、量子、多体局在相転移などの広範な数値シミュレーションによって支えられている。 同様の分析により、凝縮物質物理学における他の分類課題のより深い理解が期待できる。

Identifying phase transitions and classifying phases of matter is central to understanding the properties and behavior of a broad range of material systems. In recent years, machine-learning (ML) techniques have been successfully applied to perform such tasks in a data-driven manner. However, the success of this approach notwithstanding, we still lack a clear understanding of ML methods for detecting phase transitions, particularly of those that utilize neural networks (NNs). In this work, we derive analytical expressions for the optimal output of three widely used NN-based methods for detecting phase transitions. These optimal predictions correspond to the results obtained in the limit of high model capacity. Therefore, in practice they can, for example, be recovered using sufficiently large, well-trained NNs. The inner workings of the considered methods are revealed through the explicit dependence of the optimal output on the input data. By evaluating the analytical expressions, we can identify phase transitions directly from experimentally accessible data without training NNs, which makes this procedure favorable in terms of computation time. Our theoretical results are supported by extensive numerical simulations covering, e.g., topological, quantum, and many-body localization phase transitions. We expect similar analyses to provide a deeper understanding of other classification tasks in condensed matter physics.
翻訳日:2023-02-25 20:40:12 公開日:2022-07-02
# 小さなキュービットランドスケープにおける抽出可能な作業の増加

Increasing extractable work in small qubit landscapes ( http://arxiv.org/abs/2203.10928v2 )

ライセンス: Link先を確認
Unnati Akhouri, Sarah Shandera and Gaukhar Yesmurzayeva(参考訳) 生命に関わるものを含む興味深い物理系のクラスは、ベイで熱を保ち、ローカル環境と比較して高い自由エネルギーの状態が持続する能力を示している。 この研究では、エネルギー、熱、仕事、エントロピーのための外部源やシンクのない単純な量子システムを研究し、高い自由エネルギーサブシステムの形成と持続を可能にする。 我々は、混在した非相関状態の量子ビット系を初期化し、保存法の下でそれらを進化させる。 基準温度を設定する4つの量子ビットは、これらの制限された力学と初期条件がサブシステムに対する抽出可能な作業の増加を許容する最小のシステムを構成する。 次に、エネルギーと励起数を保存するユニタリ進化が各ステップでランダムに選択されたサブシステムで起こる8つのキュービットのランドスケープを考える。 本研究では,抽出可能作業の正の変化,抽出可能作業の総増加,抽出可能作業の連続時間の長さを初期状態における温度変化の度合い,キュービットの接続性,許容家族内のユニタリの選択の関数として,抽出可能作業の連続的な増加について検討した。 抽出可能な作業の増加期間が長いランドスケープは熱化が小さく,接続性に制限のあるランドスケープで発生することがわかった。

An interesting class of physical systems, including those associated with life, demonstrates the ability to hold thermalization at bay and perpetuate states of high free energy compared to a local environment. In this work we study simple quantum systems with no external sources or sinks for energy, heat, work, or entropy, that allow for high free-energy subsystems to form and persist. We initialize qubit systems in mixed, uncorrelated states and evolve them subject to a conservation law. We find that four qubits, one of which sets the reference temperature, make up the minimal system for which these restricted dynamics and initial conditions allow an increase in extractable work for a subsystem. We then consider landscapes of eight qubits where unitary evolution that conserves energy and excitation-number takes place in randomly selected sub-systems at each step. We study the frequency of time steps with positive change in extractable work, the total increase in extractable work, and the length of intervals with consecutive increases in extractable work as a function of the degree of temperature variation in the initial state, the connectivity of the qubits, and the choice of unitary within the allowed family. We find that landscapes with longer intervals of increasing extractable work are less thermalized, and that this occurs on landscapes with somewhat restricted connectivity.
翻訳日:2023-02-21 05:07:22 公開日:2022-07-02
# ハッカー産業のプロフェッショナル化

The Professionalization of the Hacker Industry ( http://arxiv.org/abs/2207.00890v1 )

ライセンス: Link先を確認
Tyson Brooks(参考訳) 社会は、情報サービスの供給に使用されるインターネットやその他のグローバルな相互接続インフラに依存している。 情報技術(IT)と情報システム(IS)の過去数十年にわたる成長は、情報へのアクセスに対する前例のない需要を生み出している。 ワイヤレスモビリティの意義は素晴らしいもので、モノのインターネット(IoT)の出現によって、新しい革新的なワイヤレス柔軟性の商業的可能性を実現し始めている。 この記事では、ハッカー業界のハッキングと専門化の歴史を振り返る。 ハッカー業界がより完全に専門化されるにつれて、適応性と柔軟性が増し、諜報機関や法執行機関が直面するのが難しくなっている。 さらにハッカー業界は、重要なインフラの破壊やネットワークの浸透など、動機づけられた犯罪と従来のコンピュータセキュリティの脅威の区別を曖昧にしている。

Society is inextricably dependent on the Internet and other globally interconnected infrastructures used in the provisioning of information services. The growth of information technology (IT) and information systems (IS) over the past decades has created an unprecedented demand for access to information. The implication of wireless mobility are great, and the commercial possibilities of new and innovative wireless flexibility are just beginning to be realized through the emergence of the Internet of Things (IoT). This article takes a look the history of hacking and professionalization of the hacker industry. As the hacker industry becomes more fully professionalized, it is becoming much more adaptive and flexible, making it harder for intelligence and law enforcement to confront. Furthermore, the hacker industry is blurring the distinction between motivated crime and traditional computer security threats - including the disruption of critical infrastructures or the penetration of networks.
翻訳日:2023-02-19 09:35:04 公開日:2022-07-02
# 開導波路における2量子状態の量子位相測定

Quantum phase measurement for two-qubit states in an open waveguide ( http://arxiv.org/abs/2206.00864v2 )

ライセンス: Link先を確認
Ya. S. Greenberg and A. A. Shtygashev(参考訳) 開導波路における2量子状態の単一励起部分空間内での量子状態トモグラフィーの新しい手法を提案する。 調査中のシステムは、開放導波路内の3量子ビットからなり、電磁界の波長に匹敵する距離で分離される。 中心軸量子ビットの周波数の変調により、それらの確率振幅の進化の測定により、エッジ量子ビットの初期位相差$\varphi_1-\varphi_3$に関する曖昧な情報を得ることができることを示す。

We present a new method for quantum state tomography within a single-excitation subspace of two-qubit states in an open waveguide. The system under investigation consists of three qubits in an open waveguide, separated by a distance comparable to the wavelength of the electromagnetic field. We show that the modulation of the frequency of the central ancillary qubit allows us to obtain unambiguous information about the initial phase difference $\varphi_1-\varphi_3$ of the edge qubits via the measurement of the evolution of their probability amplitudes.
翻訳日:2023-02-10 22:44:41 公開日:2022-07-02
# 赤外線加速放射

Infrared acceleration radiation ( http://arxiv.org/abs/2206.07291v2 )

ライセンス: Link先を確認
Michael R.R. Good and Paul C.W. Davies(参考訳) 本研究では, 可溶性電子軌道から放射される軟質(深紫外)放射の解析が可能であり, その存在は, 低次内部ブレムシュトラルングによるβ崩壊時に実験的に観察されている。 我々の治療は、動的カシミール効果の密接に関連する現象と類似して、放出の時間発展と温度、そしておそらくスペクトルを予測している。

We present an exactly soluble electron trajectory that permits an analysis of the soft (deep infrared) radiation emitted, the existence of which has been experimentally observed during beta decay via lowest order inner bremsstrahlung. Our treatment also predicts the time evolution and temperature of the emission, and possibly the spectrum, by analogy with the closely related phenomenon of the dynamic Casimir effect.
翻訳日:2023-02-09 07:17:42 公開日:2022-07-02
# 超伝導回路のコンピュータ支援量子化と数値解析

Computer-aided quantization and numerical analysis of superconducting circuits ( http://arxiv.org/abs/2206.08320v2 )

ライセンス: Link先を確認
Sai Pavan Chitta, Tianpu Zhao, Ziwen Huang, Ian Mondragon-Shem, Jens Koch(参考訳) 新しい超伝導回路の開発と既存の回路の改良は、量子ビット性能の必要な進歩を達成する鍵となるスペクトル特性の正確なモデリングに依存している。 回路ネットワークから始まり、回路の量子特性を適切に記述したハミルトニアンで頂点となる集中要素レベルでの系統的回路解析は、確立された手順であるが、より大きな回路では手作業で実行するのが面倒である。 本稿では,記号型計算機代数と数値対角化ルーチンを多用し,様々な回路に対処する。 この成果は、新しくリリースされたscqubitsパッケージのモジュールを通じて得られる。

The development of new superconducting circuits and the improvement of existing ones rely on the accurate modeling of spectral properties which are key to achieving the needed advances in qubit performance. Systematic circuit analysis at the lumped-element level, starting from a circuit network and culminating in a Hamiltonian appropriately describing the quantum properties of the circuit, is a well-established procedure, yet cumbersome to carry out manually for larger circuits. We present work utilizing symbolic computer algebra and numerical diagonalization routines versatile enough to tackle a variety of circuits. Results from this work are accessible through a newly released module of the scqubits package.
翻訳日:2023-02-09 04:34:50 公開日:2022-07-02
# シュワルツシルト時空におけるディラック方程式の境界状態:好奇心の学生に対する直観の探索

Bound states of the Dirac equation in Schwarzschild spacetime: an exploration of intuition for the curious student ( http://arxiv.org/abs/2207.00905v1 )

ライセンス: Link先を確認
Paul M. Alsing(参考訳) 本研究では、量子力学の学部で教えられたクーロンポテンシャルにおける境界状態の初等導出の類似性を利用したシュワルツシルト重力場における量子境界状態の可能性を検討する。 そのためには、非相対論的量子力学を超越し、高学年の卒業生(特別な)相対論的量子力学コースで教えられている中央ポテンシャルに対して相対論的ディラック方程式を利用する必要がある。 最後に、特別相対論的ディラック方程式は曲線時空に対して一般相対論的版に拡張されなければならない。 これらの異なる要素の全ては、学生読者のために書かれた優れた、非常に読みやすい教科書に存在し、好奇心をそそる学生が学び、探究するのに十分な詳細がある。 シュワルツシルト計量の効果的な1/r$ラジアルポテンシャル(角運動量障壁を持つ)が、小学校のGRコースで教えられているように、ニュートン的(1/r^3$補正を伴う)であるなら、シュヴァルツシルト時空における量子境界状態は、単に$V(r)$から$V_C(r)=-e^2/r$から$V_{Schw}=-G M m/r$に変化させることで導出できるのだろうか?

In this work we explore the possibility of quantum bound states in a Schwarzschild gravitational field leveraging the analogy of the elementary derivation of bound states in the Coulomb potential as taught in an undergraduate course in Quantum Mechanics. For this we will also need to go beyond non-relativistic quantum mechanics and utilize the relativistic Dirac equation for a central potential as taught in an advanced undergraduate or first year graduate (special) relativistic quantum mechanics course. Finally, the special relativistic Dirac equation must be extended to the general relativistic version for curved spacetime. All these disparate component pieces exist in excellent, very readable textbooks written for the student reader, with sufficient detail for a curious student to learn and explore. We pull all these threads together in order to explore a very natural question that a student might ask: "If the effective $1/r$ radial potential of the Schwarzschild metric (with angular momentum barrier), as taught in elementary GR courses for undergraduates, appears Newtonian-like (with a $1/r^3$ correction), then is it possible to derive quantum bound states in the Schwarzschild spacetime by simply changing the radial potential $V(r)$ from $V_C(r)=-e^2/r$ to $V_{Schw}=-G M m/r$?"
翻訳日:2023-02-06 23:39:08 公開日:2022-07-02
# 異方性と非線形スタークカップリングによる光-物質相互作用におけるスケーリング関係と位相的四重点

Scaling Relations and Topological Quadruple Points in Light-matter Interactions with Anisotropy and Nonlinear Stark Coupling ( http://arxiv.org/abs/2207.00904v1 )

ライセンス: Link先を確認
Zu-Jian Ying(参考訳) 普遍性は、物理的システムの深い性質に根ざした様々な物理パラメータにおいて共通の品質である。 スケーリング関係は量子相転移周辺の臨界現象の典型的な普遍性であり、位相分類は臨界普遍性とは本質的に異なる別の普遍性を提供する。 両方の普遍性のクラスは、光-物質相互作用を持つ単一量子ビット系に存在し、一般に、線形カップリングだけでなく非線形スタークカップリング(nsc)に対しても異方性を持つ基本的な量子ラビモデルで示される。 低周波数でのスケーリング関係の異なるレベルが示され、異方性または/およびNSCをローカルまたはグローバルに保持する。 有限周波では、このような臨界普遍性が崩壊し、多様性が支配的である。 しかし、基底状態の共通位相的特徴は、臨界多様性の中で普遍性の位相的クラスをもたらすノード数から抽出することができる。 従来の位相遷移と非慣習的な位相遷移の両方が出現し、それらの会合は線型相互作用では起こらないが、非線形カップリングによってスピン不変点であることが判明した位相二次点を形成することができる。 感度分析は、NSCが結合異方性に加えてトポロジカル遷移を操作する別のアプローチであることを示している。

Universality is a common quality in different physical parameters that is rooted in the deep nature of physical systems. Scaling relation is a typical universality for critical phenomena around a quantum phase transition, while topological classification provides another type of universality essentially different from the critical universality. Both classes of universalities can be present in a single-qubit system with light-matter interactions, as exhibiting generally in the fundamental quantum Rabi model with anisotropy not only for linear coupling but also for nonlinear Stark coupling (NSC). In low frequencies different levels of scaling relations are demonstrated, holding for anisotropic or/and NSCs, locally or globally. At finite frequencies such a critical universality breaks down and diversity is dominant. However, common topological feature of the ground state can be extracted from the node number, which yields a topological class of universality amidst the critical diversity. Both conventional and unconventional topological transitions emerge, with their meeting, which never occurs in linear interaction, enabled by the nonlinear coupling to form topological quadruple points which are found to be spin-invariant points. Sensitivity analysis indicates that the NSC can be another approach to manipulate topological transitions in addition to coupling anisotropy.
翻訳日:2023-02-06 23:38:36 公開日:2022-07-02
# 量子チャネルのスキュー情報に基づくコヒーレンス生成パワー

Skew information-based coherence generating power of quantum channels ( http://arxiv.org/abs/2207.00836v1 )

ライセンス: Link先を確認
Zhaoqi Wu, Lin Zhang, Shao-Ming Fei, Jianhui Wang(参考訳) 非コヒーレント状態に適用した場合、量子チャネルが量子コヒーレンスを生成する能力について研究する。 我々は,汎用量子チャネルにおけるコヒーレンス生成パワー(CGP)の測定値を,スキュー情報に基づくコヒーレンス測定に基づいて不整合状態の一様アンサンブルに作用する量子チャネルが生成する平均コヒーレンスとして定義する。 任意の有限次元ユニタリチャネルに対するCGPの解析公式を明示的に提示する。 我々は、単位群上のCGPの平均値を導出し、正規化されたCGPの典型性を調べる。 さらに、ユニタリチャネルの凸結合に対して、CGPの上限を与える。 詳細な例は、特定の量子ゲートおよびいくつかの量子ビットチャネルに関連するユニタリチャネルのCGPの値を正確に計算するために提供される。

We study the ability of a quantum channel to generate quantum coherence when it applies to incoherent states. We define the measure of coherence generating power (CGP) for a generic quantum channel to be the average coherence generated by the quantum channel acting on a uniform ensemble of incoherent states based on the skew information-based coherence measure. We present explicitly the analytical formulae of the CGP for any arbitrary finite dimensional unitary channels. We derive the mean value of the CGP over the unitary groups and investigate the typicality of the normalized CGP. Furthermore, we give an upper bound of the CGP for the convex combinations of unitary channels. Detailed examples are provided to calculate exactly the values of the CGP for the unitary channels related to specific quantum gates and for some qubit channels.
翻訳日:2023-02-06 23:38:09 公開日:2022-07-02
# 超高速w$状態生成のためのマルチモード量子rabiモデルの解法

Solutions to the multimode quantum Rabi model for ultrafast $W$-state generation ( http://arxiv.org/abs/2207.00775v1 )

ライセンス: Link先を確認
Xun Gao, Liwei Duan, Jie Peng(参考訳) 我々は、全てのモードが同一周波数を持つマルチモード量子rabiモデルの解析解を得た。 少なくとも$K$$(K=1,2,3,\ldots)$ Photons を持つ一連のダークステートソリューション $|\phi_K\rangle$ が見つかる。 2量子ビットの場合に拡張すると、そのような解はスペクトル内の少なくとも1つの光子を持つ暗黒状態$\vert \psi_1\rangle$ に閉ざされるが、$\langle \phi_k|\dot{h}|\psi_1\rangle=0$ のために$\vert \psi_1\rangle$ に沿った断熱的進化には影響しない。 興味深いことに、スタークシフト項の追加は、$\vert \psi_1\rangle$とそのクローゼット固有状態の間の有効エネルギーギャップを拡大し、$W$状態は共振器周波数の逆数に比例して超高速に生成できる。 さらに、生成時間と忠実度は、任意の$\vert w_m\rangle$ に対して同じである。 この場合、通常の量子ビット基底状態とフォトニックスクイーズ状態の積である別の種類の暗黒状態は、一定のエネルギーを持つカップリングレジーム全体に存在する。 これらの暗黒状態の特異性は超強結合系における決定論的かつ超高速状態生成の道を開く。

We have obtained the analytical solutions of the multimode quantum Rabi model when all modes have identical frequencies. A series of dark state solutions $|\phi_K\rangle$ with at least $K$ $(K=1,2,3,\ldots)$ photons are found. Extended to the two-qubit case, such solutions lie closet to a dark state $\vert \psi_1\rangle$ with at most one photon in the spectrum, but will not affect the adiabatic evolution along $\vert \psi_1\rangle$ because $\langle \phi_K|\dot{H}|\psi_1\rangle=0$, and arbitrary single photon multimode $W$ state can be fast generated from $\vert \psi_1\rangle$. Interestingly, the addition of Stark-shift terms could enlarge the effective energy gap between $\vert \psi_1\rangle$ and its closet eigenstates, such that the $W$ state can be ultrafast generated in a time proportional to the inverse of the resonator frequency. Moreover, the generation time and fidelity can both be the same for arbitrary $\vert W_M\rangle$. For this case, another kind of dark state which is a product of just qubit ground states and photonic squeezed states exist in the whole coupling regime with constant energy. The peculiarities of these dark states pave the way of deterministic and ultrafast state-generation in the ultrastrong coupling regime.
翻訳日:2023-02-06 23:37:57 公開日:2022-07-02
# 電磁放射を伴う量子宇宙論における課題の解決

Resolution of challenging problems in quantum cosmology with electromagnetic radiation ( http://arxiv.org/abs/2207.00727v1 )

ライセンス: Link先を確認
S. Jalalzadeh(参考訳) 電磁放射を物質含量とする閉空間同質・等方性フリードマン・レマ・ロベルトソン・ウォーカー(flrw)ミニスーパースペースモデルの量子宇宙論について検討する。 リーマンのゼータ関数正則化法を用いて対応するホイーラー・ドウィット方程式を解く。 電磁場の正則化された真空エネルギーは因子秩序、境界条件、特異性問題を克服できることを実証する。

We investigate the quantum cosmology of a closed spatially homogeneous and isotropic Friedmann-Lema\^itre-Robertson-Walker (FLRW) minisuperspace model with electromagnetic radiation as matter content. We solve the corresponding Wheeler-DeWitt equation by utilizing Riemann's zeta function regularization method. We demonstrate that the regularized vacuum energy of the electromagnetic field can overcome factor ordering, boundary conditions, and singularity problems.
翻訳日:2023-02-06 23:37:09 公開日:2022-07-02
# 視線から移動へ:視覚室内ナビゲーション(VIN)の学習に関する調査

From Seeing to Moving: A Survey on Learning for Visual Indoor Navigation (VIN) ( http://arxiv.org/abs/2002.11310v3 )

ライセンス: Link先を確認
Xin Ye and Yezhou Yang(参考訳) Visual Indoor Navigation (VIN)タスクは、特に最近報告された学習ベースの手法の成功により、データ駆動機械学習コミュニティから注目を集めている。 このタスクの本来の複雑さのために、研究者は様々な角度からこの問題にアプローチしようと試みてきたが、その全体像はまだ全体報告で捉えられていない。 この調査はまず、VINタスクに対する学習ベースのアプローチの代表的成果を要約し、VINのパフォーマンスを妨げる言語問題を特定し、議論し、コミュニティにとって価値のあるこれらの重要な領域における将来の研究を動機付けている。

Visual Indoor Navigation (VIN) task has drawn increasing attention from the data-driven machine learning communities especially with the recently reported success from learning-based methods. Due to the innate complexity of this task, researchers have tried approaching the problem from a variety of different angles, the full scope of which has not yet been captured within an overarching report. This survey first summarizes the representative work of learning-based approaches for the VIN task and then identifies and discusses lingering issues impeding the VIN performance, as well as motivates future research in these key areas worth exploring for the community.
翻訳日:2022-12-28 14:34:13 公開日:2022-07-02
# シンクホーン距離による模倣学習

Imitation Learning with Sinkhorn Distances ( http://arxiv.org/abs/2008.09167v2 )

ライセンス: Link先を確認
Georgios Papagiannis and Yunpeng Li(参考訳) 模倣学習アルゴリズムは、発散最小化問題の変種として解釈されている。 専門家と学習者の占有度を比較する能力は、実演から学ぶ上での有効性に不可欠である。 本稿では,占領対策間のシンクホーン距離の最小化として,模倣学習を定式化したトラクタブルソリューションを提案する。 この定式化は、非重複分布と敵対的に学習された特徴空間で定義されるコサイン距離コストを比較する際の最適な輸送指標の貴重な特性を組み合わせる。 これは非常に差別的な批判ネットワークと、その後模倣学習を導く最適な輸送計画につながる。 提案手法は,多くの MuJoCo 実験において,報奨距離とシンクホーン距離の両方を用いて評価する。 実装と再現結果については、以下のリポジトリ https://github.com/gpapagiannis/sinkhorn-imitationを参照してください。

Imitation learning algorithms have been interpreted as variants of divergence minimization problems. The ability to compare occupancy measures between experts and learners is crucial in their effectiveness in learning from demonstrations. In this paper, we present tractable solutions by formulating imitation learning as minimization of the Sinkhorn distance between occupancy measures. The formulation combines the valuable properties of optimal transport metrics in comparing non-overlapping distributions with a cosine distance cost defined in an adversarially learned feature space. This leads to a highly discriminative critic network and optimal transport plan that subsequently guide imitation learning. We evaluate the proposed approach using both the reward metric and the Sinkhorn distance metric on a number of MuJoCo experiments. For the implementation and reproducing results please refer to the following repository https://github.com/gpapagiannis/sinkhorn-imitation.
翻訳日:2022-10-27 03:13:10 公開日:2022-07-02
# cctv-exposure:ジオロケーション(拡張版)に基づくcctvカメラへのユーザのプライバシー露出を測定するオープンソースシステム

CCTV-Exposure: An open-source system for measuring user's privacy exposure to mapped CCTV cameras based on geo-location (Extended Version) ( http://arxiv.org/abs/2208.02159v1 )

ライセンス: Link先を確認
Hannu Turtiainen, Andrei Costin, Timo Hamalainen(参考訳) 本研究では,クローズドサーキットテレビ(cctv)カメラに対するプライバシーの潜在的露出を評価する最初のcctvアウェアソリューションであるcctv-exposureを提案する。 目的は、プライバシーの観点からCCTVカメラへの人間の露出を定量化するツールセットを開発することである。 我々の新しいアプローチは、個人を軌跡分析し、位置情報マッピングされたCCTVカメラのデータベースと、最小限のメタ情報でアノテートした。 この目的のために,GPS(Global Positioning System)追跡に基づくCCTV-Exposureモデルを適用し,異なるシナリオにおける個々のプライバシ露出を推定した。 現在の調査は、モデリングアプローチのアプリケーションの例と検証を提供する。 本研究で開発された方法論とツールセットは、露光イベントの時系列と位置系列を提供し、それによって個々の活動やカメラとの露光の関連性を可能とし、時空間分解能の高いCCTVカメラへの露光に関する主な統計を提供する。

In this work, we present CCTV-Exposure -- the first CCTV-aware solution to evaluate potential privacy exposure to closed-circuit television (CCTV) cameras. The objective was to develop a toolset for quantifying human exposure to CCTV cameras from a privacy perspective. Our novel approach is trajectory analysis of the individuals, coupled with a database of geo-location mapped CCTV cameras annotated with minimal yet sufficient meta-information. For this purpose, CCTV-Exposure model based on a Global Positioning System (GPS) tracking was applied to estimate individual privacy exposure in different scenarios. The current investigation provides an application example and validation of the modeling approach. The methodology and toolset developed and implemented in this work provide time-sequence and location-sequence of the exposure events, thus making possible association of the exposure with the individual activities and cameras, and delivers main statistics on individual's exposure to CCTV cameras with high spatio-temporal resolution.
翻訳日:2022-08-07 14:41:42 公開日:2022-07-02
# (参考訳) 音声感情:モデル表現、マルチタスク学習、知識蒸留の研究

Speech Emotion: Investigating Model Representations, Multi-Task Learning and Knowledge Distillation ( http://arxiv.org/abs/2207.03334v1 )

ライセンス: CC BY 4.0
Vikramjit Mitra, Hsiang-Yun Sherry Chien, Vasudha Kowtha, Joseph Yitan Cheng, Erdrin Azemi(参考訳) 近年, 音声信号からのアクティベーション, 原子価, 優位性などの次元的感情の推定が盛んに行われている。 発話のアクティベーションと優位性の正確な推定は可能と思われるが、有能性は同じである。 従来の研究では、語彙情報を用いることで、値推定性能が向上することが示されている。 事前学習された音響モデルから語彙情報を得ることができ、学習された表現は音声からの原子価推定を改善することができる。 本研究では,事前学習したモデル表現を用いて音声信号の価値推定を改善する。 また,3つの感情の次元 – アクティベーション,原子価,支配 – にまたがる感情推定を改善するための表現の融合についても検討する。 さらに,事前学習されたモデルからの表現を低レベルの特徴を訓練したモデルに蒸留できるかどうかを検証し,パラメータの少ないモデルを生成する。 その結果, 標準音響特徴量ベースライン (mel-filterbank energies) と比較して, 結合相関係数 (ccc) が79%向上したのに対し, 予め学習したモデル埋め込みから低次元表現への蒸留は相対12%改善した。 このような性能向上は2つの評価セットで観察され,提案するアーキテクチャが評価セット全体に一般化していることを示している。 我々は,2つのmsp-podcast評価セットにおいて,音声のみの感情推定値である$ccc$を新たに設定した。

Estimating dimensional emotions, such as activation, valence and dominance, from acoustic speech signals has been widely explored over the past few years. While accurate estimation of activation and dominance from speech seem to be possible, the same for valence remains challenging. Previous research has shown that the use of lexical information can improve valence estimation performance. Lexical information can be obtained from pre-trained acoustic models, where the learned representations can improve valence estimation from speech. We investigate the use of pre-trained model representations to improve valence estimation from acoustic speech signal. We also explore fusion of representations to improve emotion estimation across all three emotion dimensions: activation, valence and dominance. Additionally, we investigate if representations from pre-trained models can be distilled into models trained with low-level features, resulting in models with a less number of parameters. We show that fusion of pre-trained model embeddings result in a 79% relative improvement in concordance correlation coefficient CCC on valence estimation compared to standard acoustic feature baseline (mel-filterbank energies), while distillation from pre-trained model embeddings to lower-dimensional representations yielded a relative 12% improvement. Such performance gains were observed over two evaluation sets, indicating that our proposed architecture generalizes across those evaluation sets. We report new state-of-the-art "text-free" acoustic-only dimensional emotion estimation $CCC$ values on two MSP-Podcast evaluation sets.
翻訳日:2022-07-10 11:54:38 公開日:2022-07-02
# (参考訳) マイクロデータのサンプルと合成データの有用性と開示リスクの比較

Comparing the Utility and Disclosure Risk of Synthetic Data with Samples of Microdata ( http://arxiv.org/abs/2207.03339v1 )

ライセンス: CC BY 4.0
Claire Little, Mark Elliot, Richard Allmendinger(参考訳) ほとんどの統計機関はランダムに選択されたCensus microdataのサンプルを放出し、通常10%未満のサンプル分画と他の種類の統計開示制御(SDC)を適用している。 SDCの代替手段はデータ合成であり、関心が高まりつつあるが、関連するユーティリティの測定方法やデータの開示リスクについて明確なコンセンサスはない。 ユーティリティと関連するリスクを明確に理解した合成国勢調査マイクロデータを作成する能力は、よりタイムリーで幅広いマイクロデータへのアクセスを可能にする可能性がある。 本論文は,リスク利用度マップ (r-u) 上で合成国勢調査データをマッピングした著者による先行研究から従う。 本稿では, 種々の試料分画の原データのサンプルと比較することにより, 合成データの有用性と開示リスクを計測し, 合成データに等価な有効性とリスクを有する試料分画を同定する枠組みを提案する。 3つの一般的なデータ合成パッケージを興味深い結果と比較する。 さらなる作業はいくつかの面で必要だが,方法論は非常に有望なようだ。

Most statistical agencies release randomly selected samples of Census microdata, usually with sample fractions under 10% and with other forms of statistical disclosure control (SDC) applied. An alternative to SDC is data synthesis, which has been attracting growing interest, yet there is no clear consensus on how to measure the associated utility and disclosure risk of the data. The ability to produce synthetic Census microdata, where the utility and associated risks are clearly understood, could mean that more timely and wider-ranging access to microdata would be possible. This paper follows on from previous work by the authors which mapped synthetic Census data on a risk-utility (R-U) map. The paper presents a framework to measure the utility and disclosure risk of synthetic data by comparing it to samples of the original data of varying sample fractions, thereby identifying the sample fraction which has equivalent utility and risk to the synthetic data. Three commonly used data synthesis packages are compared with some interesting results. Further work is needed in several directions but the methodology looks very promising.
翻訳日:2022-07-10 11:36:49 公開日:2022-07-02
# (参考訳) UserLibri: テキストのみを使用したASRパーソナライズのためのデータセット

UserLibri: A Dataset for ASR Personalization Using Only Text ( http://arxiv.org/abs/2207.00706v1 )

ライセンス: CC BY 4.0
Theresa Breiner, Swaroop Ramaswamy, Ehsan Variani, Shefali Garg, Rajiv Mathews, Khe Chai Sim, Kilol Gupta, Mingqing Chen, Lara McConnaughey(参考訳) モバイル端末における音声モデルのパーソナライズ(オンデバイスパーソナライズ)は、活発な研究分野であるが、多くの場合、モバイル端末はペア化された音声テキストデータよりもテキストのみのデータを持っている。 本研究では,テキストのみのデータを用いたパーソナライズされた言語モデルの訓練について検討する。 我々は,Project Gutenbergのユーザ毎のパーソナライズされたテキスト専用データを補足した,ユーザクラスタのLibriSpeechコーパスの実験を行った。 今後のパーソナライズ研究を支援するために、このUser-Specific LibriSpeech(UserLibri)データセットをリリースする。 LibriSpeechオーディオ書き起こしペアは、テストクリーンデータセットから55ユーザ、テスト他から52ユーザに分けられる。 ストリーミングと非ストリーミングモデルの両方のセットでユーザ毎の平均単語エラー率を下げることができます。

Personalization of speech models on mobile devices (on-device personalization) is an active area of research, but more often than not, mobile devices have more text-only data than paired audio-text data. We explore training a personalized language model on text-only data, used during inference to improve speech recognition performance for that user. We experiment on a user-clustered LibriSpeech corpus, supplemented with personalized text-only data for each user from Project Gutenberg. We release this User-Specific LibriSpeech (UserLibri) dataset to aid future personalization research. LibriSpeech audio-transcript pairs are grouped into 55 users from the test-clean dataset and 52 users from test-other. We are able to lower the average word error rate per user across both sets in streaming and nonstreaming models, including an improvement of 2.5 for the harder set of test-other users when streaming.
翻訳日:2022-07-09 12:07:35 公開日:2022-07-02
# (参考訳) パラメーター効率の良い樹状樹状ニューロンはパーセプトロンを上回る

Parameter efficient dendritic-tree neurons outperform perceptrons ( http://arxiv.org/abs/2207.00708v1 )

ライセンス: CC BY 4.0
Ziwen Han, Evgeniya Gorobets, Pan Chen(参考訳) 生物学的ニューロンは、複雑な樹状体入力計算のために、人工パーセプトロンよりも強力である。 生物学的にインスパイアされた機能を備えたパーセプトロンの強化にインスパイアされた我々は、入力分岐因子の追加とチューニングと入力ドロップアウトの効果を探求する。 これによりパラメータ効率の良い非線形入力アーキテクチャを発見し、ベンチマークすることができる。 さらに,既存のアーキテクチャにおける多層パーセプトロン層を置き換えるPyTorchモジュールを提案する。 MNIST分類の初期実験は、既存のパーセプトロンアーキテクチャと比較して樹状ニューロンの精度と一般化の改善を示す。

Biological neurons are more powerful than artificial perceptrons, in part due to complex dendritic input computations. Inspired to empower the perceptron with biologically inspired features, we explore the effect of adding and tuning input branching factors along with input dropout. This allows for parameter efficient non-linear input architectures to be discovered and benchmarked. Furthermore, we present a PyTorch module to replace multi-layer perceptron layers in existing architectures. Our initial experiments on MNIST classification demonstrate the accuracy and generalization improvement of dendritic neurons compared to existing perceptron architectures.
翻訳日:2022-07-09 11:49:29 公開日:2022-07-02
# (参考訳) 連続時間におけるq-learning

q-Learning in Continuous Time ( http://arxiv.org/abs/2207.00713v1 )

ライセンス: CC BY 4.0
Yanwei Jia and Xun Yu Zhou(参考訳) 我々は、wangらによって導入されたエントロピー正規化・探索的拡散過程(2020年)に基づく強化学習(rl)のためのq-learningの連続時間対応を、従来の(大きな)q-関数が連続時間に崩壊するものとして検討し、その一階近似を考え、「(小さな)q-function」という用語を導出する。 この関数はハミルトニアンと同様に瞬時に有利な関数と関連している。 時間離散化に依存しないq関数の周りに「q学習」理論を展開する。 確率的方針が与えられたとき、ある確率過程のマルティンゲール条件により、関連するq関数と値関数を共同で特徴付ける。 次に, q関数から生成するギブス測度の密度関数を明示的に計算できるか否かに応じて, 基礎となるrl問題を解決するための異なるアクター-批判アルゴリズムを考案する理論を適用する。 我々のアルゴリズムの1つはよく知られたq-learningアルゴリズムsarsaを解釈し、もう1つはjia and zhou (2021)で提案されたポリシー勾配(pg)ベースの連続時間アルゴリズムを復元する。 最後に,jia と zhou (2021) における pg ベースのアルゴリズムと時間離散化従来の q-learning アルゴリズムの性能を比較するためにシミュレーション実験を行った。

We study the continuous-time counterpart of Q-learning for reinforcement learning (RL) under the entropy-regularized, exploratory diffusion process formulation introduced by Wang et al. (2020) As the conventional (big) Q-function collapses in continuous time, we consider its first-order approximation and coin the term "(little) q-function". This function is related to the instantaneous advantage rate function as well as the Hamiltonian. We develop a "q-learning" theory around the q-function that is independent of time discretization. Given a stochastic policy, we jointly characterize the associated q-function and value function by martingale conditions of certain stochastic processes. We then apply the theory to devise different actor-critic algorithms for solving underlying RL problems, depending on whether or not the density function of the Gibbs measure generated from the q-function can be computed explicitly. One of our algorithms interprets the well-known Q-learning algorithm SARSA, and another recovers a policy gradient (PG) based continuous-time algorithm proposed in Jia and Zhou (2021). Finally, we conduct simulation experiments to compare the performance of our algorithms with those of PG-based algorithms in Jia and Zhou (2021) and time-discretized conventional Q-learning algorithms.
翻訳日:2022-07-09 11:41:11 公開日:2022-07-02
# (参考訳) PhilaeX: マルウェア検出におけるAIモデルの失敗と成功を説明する

PhilaeX: Explaining the Failure and Success of AI Models in Malware Detection ( http://arxiv.org/abs/2207.00740v1 )

ライセンス: CC BY 4.0
Zhi Lu, Vrizlynn L. L. Thing(参考訳) サイバーセキュリティにおける意思決定を支援するaiモデルの予測に対する説明は、非常に重要である。 特に、モデルの不正確な予測が、重大な損害や、生命や重要な資産の損失につながる場合である。 しかしながら、既存のAIモデルには、ほとんどのシナリオで強力なパフォーマンスにもかかわらず、予測結果の説明を提供する能力がない。 本稿では、AIモデルの予測の完全な説明を形成するために、最適化された機能のサブセットを特定するためのヒューリスティックな手段を提供する、PhillaeXと呼ばれる新しい説明可能なAI手法を提案する。 モデルの境界線予測に繋がる特徴を特定し、肯定的な個人貢献を持つものを抽出する。 特徴属性は、リッジ回帰モデルの最適化によって定量化される。 2つの実験により説明忠実度を検証する。 まず,PhillaeX の特徴帰属値を用いて,Android マルウェアの敵検体中の活性化特徴を正確に同定する手法の有効性を評価する。 第二に、説明の忠実性を評価するために、推論と拡張テストが使用される。 その結果, LIME や SHAP のような最先端の手法と比較して, フィラエX は多種多様な分類法を高精度に説明できることがわかった。

The explanation to an AI model's prediction used to support decision making in cyber security, is of critical importance. It is especially so when the model's incorrect prediction can lead to severe damages or even losses to lives and critical assets. However, most existing AI models lack the ability to provide explanations on their prediction results, despite their strong performance in most scenarios. In this work, we propose a novel explainable AI method, called PhilaeX, that provides the heuristic means to identify the optimized subset of features to form the complete explanations of AI models' predictions. It identifies the features that lead to the model's borderline prediction, and those with positive individual contributions are extracted. The feature attributions are then quantified through the optimization of a Ridge regression model. We verify the explanation fidelity through two experiments. First, we assess our method's capability in correctly identifying the activated features in the adversarial samples of Android malwares, through the features attribution values from PhilaeX. Second, the deduction and augmentation tests, are used to assess the fidelity of the explanations. The results show that PhilaeX is able to explain different types of classifiers correctly, with higher fidelity explanations, compared to the state-of-the-arts methods such as LIME and SHAP.
翻訳日:2022-07-09 11:39:53 公開日:2022-07-02
# (参考訳) 最適化モデルの構築によるプランニング時間スケジューリングと成長度単位の時系列解析

Scheduling Planting Time Through Developing an Optimization Model and Analysis of Time Series Growing Degree Units ( http://arxiv.org/abs/2207.00745v1 )

ライセンス: CC BY 4.0
Javad Ansarifar, Faezeh Akhavizadegan, and Lizhi Wang(参考訳) 短い繁殖サイクルで高品質な作物を生産することで、世界的な食料の供給と安全が確保されるが、この改良は、貯蔵の制限により、年中繁殖過程における種子産業の物流的および生産性の課題を増大させる。 分析における2021年のSyngentaの作物問題において、Syngentaは、2020年型育種プロセスにおけるプランティング時間スケジューリングの最適化モデルを設計し、毎週一貫した収穫量を持つようにした。 彼らは2569個の種子の個体群を植えたデータセットをリリースし、収穫の程度を増加させ、2つの場所で収穫量を増加させた。 この課題に対処するため、我々は、気象時系列モデルと、植林時間をスケジュールする最適化モデルからなる新しいフレームワークを開発した。 将来の天気を予測するためにディープリカレントニューラルネットワークが設計され、予測された天気の不確かさをモデル化するために時系列モデルの上にガウス過程モデルが開発された。 提案する最適化モデルでは、種子の栽培時期を最も数週間に短縮し、より一貫した収穫量を計画した。 提案した最適化モデルを用いることで, 元の植林時間と比較して, サイト0では69%, サイト1では51%の削減が可能となる。

Producing higher-quality crops within shortened breeding cycles ensures global food availability and security, but this improvement intensifies logistical and productivity challenges for seed industries in the year-round breeding process due to the storage limitations. In the 2021 Syngenta crop challenge in analytics, Syngenta raised the problem to design an optimization model for the planting time scheduling in the 2020 year-round breeding process so that there is a consistent harvest quantity each week. They released a dataset that contained 2569 seed populations with their planting windows, required growing degree units for harvesting, and their harvest quantities at two sites. To address this challenge, we developed a new framework that consists of a weather time series model and an optimization model to schedule the planting time. A deep recurrent neural network was designed to predict the weather into the future, and a Gaussian process model on top of the time-series model was developed to model the uncertainty of forecasted weather. The proposed optimization models also scheduled the seed population's planting time at the fewest number of weeks with a more consistent weekly harvest quantity. Using the proposed optimization models can decrease the required capacity by 69% at site 0 and up to 51% at site 1 compared to the original planting time.
翻訳日:2022-07-09 11:24:22 公開日:2022-07-02
# (参考訳) 言語モデルにおける合理性に基づくアンサンブル

Rationale-Augmented Ensembles in Language Models ( http://arxiv.org/abs/2207.00747v1 )

ライセンス: CC BY 4.0
Xuezhi Wang, Jason Wei, Dale Schuurmans, Quoc Le, Ed Chi, Denny Zhou(参考訳) 近年の研究では、多段階推論タスクのパフォーマンス向上に理性、つまりステップバイステップの思考連鎖を用いることが示されている。 我々は、(インプット ->出力)プロンプトを(インプット、合理 ->出力)プロンプトに拡張する、数発のインコンテキスト学習のための有理数拡張プロンプトを再検討する。 手動のプロンプトエンジニアリングに依存する既存のアプローチが、パフォーマンスを損なう可能性のある準最適理性の対象となっていることを示す。 そこで本研究では,この脆さを緩和するために,出力空間における合理化サンプリングを主成分とし,ロバストな性能向上を実現する,合理化型アンサンブルの統一フレームワークを提案する。 このフレームワークは一般的であり、質問応答、単語感覚の曖昧さ、感情分析などの中間段階を伝統的に活用していないものでも、自然言語処理タスクに容易に拡張できる。 本稿では,既存のプロンプト手法よりも,合理性のない標準プロンプトや,関連する合理性によるモデル予測の解釈可能性の向上と同時に,合理性に基づくチェーン・オブ・マインド・プロンシングを含む,合理性提示型アンサンブルが,より正確かつ解釈可能な結果が得られることを示す。

Recent research has shown that rationales, or step-by-step chains of thought, can be used to improve performance in multi-step reasoning tasks. We reconsider rationale-augmented prompting for few-shot in-context learning, where (input -> output) prompts are expanded to (input, rationale -> output) prompts. For rationale-augmented prompting we demonstrate how existing approaches, which rely on manual prompt engineering, are subject to sub-optimal rationales that may harm performance. To mitigate this brittleness, we propose a unified framework of rationale-augmented ensembles, where we identify rationale sampling in the output space as the key component to robustly improve performance. This framework is general and can easily be extended to common natural language processing tasks, even those that do not traditionally leverage intermediate steps, such as question answering, word sense disambiguation, and sentiment analysis. We demonstrate that rationale-augmented ensembles achieve more accurate and interpretable results than existing prompting approaches--including standard prompting without rationales and rationale-based chain-of-thought prompting--while simultaneously improving interpretability of model predictions through the associated rationales.
翻訳日:2022-07-09 11:02:48 公開日:2022-07-02
# (参考訳) ブラジル法文書のシーケンシャルアウェアマルチモーダルページ分類

Sequence-aware multimodal page classification of Brazilian legal documents ( http://arxiv.org/abs/2207.00748v1 )

ライセンス: CC BY 4.0
Pedro H. Luz de Araujo, Ana Paula G. S. de Almeida, Fabricio A. Braz, Nilton C. da Silva, Flavio de Barros Vidal, Teofilo E. de Campos(参考訳) ブラジル最高裁判所は毎年数万件の事件を審理している。 裁判所職員は、ケース管理ワークフローのより後方の、より複雑な段階から、これらのケースの初期分析と分類を実行するのに数千時間を費やします。 本稿では,ブラジル最高裁判所の文書のマルチモーダル分類について検討する。 6つのクラスの1つに各ページを手動アノテーションで割り当てて、6,510件の訴訟(339,478ページ)からなる新しいマルチモーダルデータセットをトレーニングし,評価した。 各訴訟は順序付けられたページのシーケンスであり、画像として、および光学文字認識によって抽出された対応するテキストとして格納される。 imagenetで事前トレーニングされたresnetをイメージに微調整し、複数のカーネルサイズのフィルタを備えた畳み込みネットワークを文書テキスト上でスクラッチからトレーニングする。 視覚的特徴とテキスト的特徴の抽出器として使用し,提案するフュージョンモジュールを組み合わせる。 私たちのFusion Moduleは、学習した埋め込みを使って、欠落したテキストや視覚的な入力を処理できます。 さらに,2方向長短期記憶(biLSTM)ネットワークと線形鎖条件付きランダムフィールドを用いて,ページの逐次特性をモデル化する実験を行った。 マルチモーダルアプローチは、特にページのシーケンシャルな性質を活用する場合に、テキストとビジュアルの両方の分類器を上回る。

The Brazilian Supreme Court receives tens of thousands of cases each semester. Court employees spend thousands of hours to execute the initial analysis and classification of those cases -- which takes effort away from posterior, more complex stages of the case management workflow. In this paper, we explore multimodal classification of documents from Brazil's Supreme Court. We train and evaluate our methods on a novel multimodal dataset of 6,510 lawsuits (339,478 pages) with manual annotation assigning each page to one of six classes. Each lawsuit is an ordered sequence of pages, which are stored both as an image and as a corresponding text extracted through optical character recognition. We first train two unimodal classifiers: a ResNet pre-trained on ImageNet is fine-tuned on the images, and a convolutional network with filters of multiple kernel sizes is trained from scratch on document texts. We use them as extractors of visual and textual features, which are then combined through our proposed Fusion Module. Our Fusion Module can handle missing textual or visual input by using learned embeddings for missing data. Moreover, we experiment with bi-directional Long Short-Term Memory (biLSTM) networks and linear-chain conditional random fields to model the sequential nature of the pages. The multimodal approaches outperform both textual and visual classifiers, especially when leveraging the sequential nature of the pages.
翻訳日:2022-07-09 10:31:09 公開日:2022-07-02
# (参考訳) GUIM --Eコマースにおける表現の混合による一般ユーザとアイテム埋め込み

GUIM -- General User and Item Embedding with Mixture of Representation in E-commerce ( http://arxiv.org/abs/2207.00750v1 )

ライセンス: CC BY 4.0
Chao Yang, Ru He, Fangquan Lin, Suoyuan Song, Jingqiao Zhang, Cheng Yang(参考訳) 当社の目標は、世界最大級のeコマースウェブサイトであるtaobaoやtmallを含むalibabaのビジネス全体で、各ユーザと各プロダクトの汎用表現(埋め込み)を構築することです。 ユーザやアイテムの表現は,レコメンデーションシステム,検索,マーケティング,需要予測など,さまざまなダウンストリームアプリケーションにおいて重要な役割を担っている。 自然言語処理(nlp)ドメインのbertモデルから着想を得て,数億のユーザとアイテム間のインタラクションを含む大規模で構造化されたマルチモーダルデータで目標を達成するためのguim(general user item embedded with mixed of representation)モデルを提案する。 表現の混合(MoR)を新しい表現形式として利用し、各ユーザの多様な興味をモデル化する。 さらに,アイテム(トークン)語彙の多さによる難解な計算コストを回避するために,コントラスト学習からInfoNCEを利用する。 最後に,NLPドメインのGLUEベンチマークに類似した,学習したユーザおよび/またはアイテムの埋め込みの品質を評価するための標準ベンチマークとして機能する一連の下流タスクを提案する。 このような下流タスクにおける実験結果から,GUIMモデルから得られた埋め込みの比較値が明らかとなった。

Our goal is to build general representation (embedding) for each user and each product item across Alibaba's businesses, including Taobao and Tmall which are among the world's biggest e-commerce websites. The representation of users and items has been playing a critical role in various downstream applications, including recommendation system, search, marketing, demand forecasting and so on. Inspired from the BERT model in natural language processing (NLP) domain, we propose a GUIM (General User Item embedding with Mixture of representation) model to achieve the goal with massive, structured, multi-modal data including the interactions among hundreds of millions of users and items. We utilize mixture of representation (MoR) as a novel representation form to model the diverse interests of each user. In addition, we use the InfoNCE from contrastive learning to avoid intractable computational costs due to the numerous size of item (token) vocabulary. Finally, we propose a set of representative downstream tasks to serve as a standard benchmark to evaluate the quality of the learned user and/or item embeddings, analogous to the GLUE benchmark in NLP domain. Our experimental results in these downstream tasks clearly show the comparative value of embeddings learned from our GUIM model.
翻訳日:2022-07-09 10:17:41 公開日:2022-07-02
# (参考訳) うつ病とギャンブル障害のユーザレベル分類のためのエンドツーエンドセットトランスフォーマ

An End-to-End Set Transformer for User-Level Classification of Depression and Gambling Disorder ( http://arxiv.org/abs/2207.00753v1 )

ライセンス: CC BY 4.0
Ana-Maria Bucur, Adrian Cosma, Liviu P. Dinu and Paolo Rosso(参考訳) 本稿では,ギャンブル依存症と抑うつをユーザレベルで分類するトランスフォーマアーキテクチャを提案する。 ポストレベルで運用する他の方法とは対照的に,投稿間のインタラクションを利用し,ポストレベルでラベルノイズを除去するために,特定の個人からソーシャルメディア投稿の集合を処理する。 位置エンコーディングを注入しないことにより、マルチヘッドアテンションは不変であり、現代の事前訓練文エンコーダ(RoBERTa / MiniLM)でエンコードされた後、ランダムにサンプル化されたテキスト集合をユーザから処理する。 さらに,現在の特徴帰属手法で解釈可能であり,ユーザのテキスト集合におけるポストの識別により,データセットの自動生成を可能にする。 我々は,ハイパーパラメーターのアブレーション研究を行い,病的ギャンブルの兆候の早期検出とうつ病の早期発見に関するeRisk 2022 Labの方法を評価する。 チームBLUEにより提案されたERDE5スコアは0.015で,ERDE50スコアは0.009であった。 うつ病の早期発見には,第2級のerde50 (0.027) が得られた。

This work proposes a transformer architecture for user-level classification of gambling addiction and depression that is trainable end-to-end. As opposed to other methods that operate at the post level, we process a set of social media posts from a particular individual, to make use of the interactions between posts and eliminate label noise at the post level. We exploit the fact that, by not injecting positional encodings, multi-head attention is permutation invariant and we process randomly sampled sets of texts from a user after being encoded with a modern pretrained sentence encoder (RoBERTa / MiniLM). Moreover, our architecture is interpretable with modern feature attribution methods and allows for automatic dataset creation by identifying discriminating posts in a user's text-set. We perform ablation studies on hyper-parameters and evaluate our method for the eRisk 2022 Lab on early detection of signs of pathological gambling and early risk detection of depression. The method proposed by our team BLUE obtained the best ERDE5 score of 0.015, and the second-best ERDE50 score of 0.009 for pathological gambling detection. For the early detection of depression, we obtained the second-best ERDE50 of 0.027.
翻訳日:2022-07-09 10:00:15 公開日:2022-07-02
# (参考訳) プライバシー保護型モバイルエッジコンピューティングネットワークにおけるエッジ人気予測のための教師なし反復学習

Unsupervised Recurrent Federated Learning for Edge Popularity Prediction in Privacy-Preserving Mobile Edge Computing Networks ( http://arxiv.org/abs/2207.00755v1 )

ライセンス: CC BY 4.0
Chong Zheng, Shengheng Liu, Yongming Huang, Wei Zhang, Luxi Yang(参考訳) 現在、無線通信は業界全体で急速に変化している。 特に、産業用IoT(Industrial Internet of Things, IIoT)の実現技術としてのモバイルエッジコンピューティング(MEC)は、強力なコンピューティング/ストレージインフラストラクチャをモバイル端末に近づけることで、応答レイテンシを大幅に低下させる。 ネットワークエッジにおけるアクティブキャッシュのメリットを享受するためには、エンドデバイス間の人気パターンに関する正確な知識が不可欠である。 しかし、空間や時間のコンテンツの人気と、多くのIIoTシナリオにおけるデータプライバシ要件の複雑さと動的な性質は、買収に難しい課題をもたらしている。 本稿では,MEC対応IIoTのための教師なし,プライバシ保護による人気予測フレームワークを提案する。 ローカルおよびグローバルな人気の概念を導入し、各ユーザの時間変化による人気度をモデルフリーなマルコフ連鎖としてモデル化する。 本研究では,非教師付き再帰的フェデレーション学習(urfl)アルゴリズムを提案し,プライバシ保護と教師なし学習を実現しつつ,分散人気を予測する。 シミュレーションにより,提案フレームワークはルート平均二乗誤差を最大60.5\%-68.7\%$に削減することで予測精度を向上できることが示された。 さらに、手動のラベル付けとユーザのデータプライバシの侵害も避けられる。

Nowadays wireless communication is rapidly reshaping entire industry sectors. In particular, mobile edge computing (MEC) as an enabling technology for industrial Internet of things (IIoT) brings powerful computing/storage infrastructure closer to the mobile terminals and, thereby, significant lowers the response latency. To reap the benefit of proactive caching at the network edge, precise knowledge on the popularity pattern among the end devices is essential. However, the complex and dynamic nature of the content popularity over space and time as well as the data-privacy requirements in many IIoT scenarios pose tough challenges to its acquisition. In this article, we propose an unsupervised and privacy-preserving popularity prediction framework for MEC-enabled IIoT. The concepts of local and global popularities are introduced and the time-varying popularity of each user is modelled as a model-free Markov chain. On this basis, a novel unsupervised recurrent federated learning (URFL) algorithm is proposed to predict the distributed popularity while achieve privacy preservation and unsupervised training. Simulations indicate that the proposed framework can enhance the prediction accuracy in terms of a reduced root-mean-squared error by up to $60.5\%-68.7\%$. Additionally, manual labeling and violation of users' data privacy are both avoided.
翻訳日:2022-07-08 10:52:32 公開日:2022-07-02
# (参考訳) MIA 2022 共用課題:16の多言語に対する言語横断的オープン検索質問応答の評価

MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question Answering for 16 Diverse Languages ( http://arxiv.org/abs/2207.00758v1 )

ライセンス: CC BY 4.0
Akari Asai, Shayne Longpre, Jungo Kasai, Chia-Hsuan Lee, Rui Zhang, Junjie Hu, Ikuya Yamada, Jonathan H. Clark, Eunsol Choi(参考訳) 本報告では,多言語情報アクセス(MIA)2022の共有タスクについて,言語間対話型質問応答(QA)システムの評価を行った。 そこで本研究では,14言語に2つの大規模言語横断型オープン検索QAデータセットを適応させ,新たに注釈付きオープン検索QAデータを2言語(TagalogとTamil)で記述した。 4チームがシステムを提出した。 反復的にマイニングされた様々なネガティブな例とより大きな事前訓練されたモデルを利用する最良のシステムは32.2 F1に達し、ベースラインを4.5ポイント上回る。 第2の最良のシステムは、文書検索にエンティティ対応のコンテキスト化表現を使用し、tami(20.8 f1)の大幅な改善を実現している。

We present the results of the Workshop on Multilingual Information Access (MIA) 2022 Shared Task, evaluating cross-lingual open-retrieval question answering (QA) systems in 16 typologically diverse languages. In this task, we adapted two large-scale cross-lingual open-retrieval QA datasets in 14 typologically diverse languages, and newly annotated open-retrieval QA data in 2 underrepresented languages: Tagalog and Tamil. Four teams submitted their systems. The best system leveraging iteratively mined diverse negative examples and larger pretrained models achieves 32.2 F1, outperforming our baseline by 4.5 points. The second best system uses entity-aware contextualized representations for document retrieval, and achieves significant improvements in Tamil (20.8 F1), whereas most of the other systems yield nearly zero scores.
翻訳日:2022-07-08 10:18:01 公開日:2022-07-02
# (参考訳) GANをベースとした医療画像合成におけるバックドア攻撃

Backdoor Attack is A Devil in Federated GAN-based Medical Image Synthesis ( http://arxiv.org/abs/2207.00762v1 )

ライセンス: CC BY 4.0
Ruinan Jin, Xiaoxiao Li(参考訳) 深層学習に基づく画像合成技術は、オープンな研究を支援するために医療研究に応用されている。 GAN(generative adversarial Neural Network)のトレーニングは通常、大量のトレーニングデータを必要とする。 フェデレーション学習(fl)は、生データをローカルに保持しながら、異なる医療機関からの分散データを使用して中央モデルをトレーニングする方法を提供する。 しかし、中央サーバが元のデータに直接アクセスできないため、flはトレーニングデータを毒殺することで敵対するバックドア攻撃に対して脆弱である。 ほとんどのバックドア攻撃戦略は分類モデルと集中型ドメインに焦点を当てている。 本研究では,バックドア攻撃分類モデルにおいて,識別器を一般的なデータ中毒戦略で扱うことにより,フェデレートgan (fedgan) を攻撃する方法を提案する。 画像サイズが0.5%未満の小さなトリガを追加するとFL-GANモデルが劣化することを示した。 提案する攻撃に基づいて,グローバル悪質な検出とローカルトレーニングの正規化という2つの効果的な防御戦略を提供する。 この2つの防衛戦略を組み合わせることで、堅牢な医用画像生成が得られることを示す。

Deep Learning-based image synthesis techniques have been applied in healthcare research for generating medical images to support open research. Training generative adversarial neural networks (GAN) usually requires large amounts of training data. Federated learning (FL) provides a way of training a central model using distributed data from different medical institutions while keeping raw data locally. However, FL is vulnerable to backdoor attack, an adversarial by poisoning training data, given the central server cannot access the original data directly. Most backdoor attack strategies focus on classification models and centralized domains. In this study, we propose a way of attacking federated GAN (FedGAN) by treating the discriminator with a commonly used data poisoning strategy in backdoor attack classification models. We demonstrate that adding a small trigger with size less than 0.5 percent of the original image size can corrupt the FL-GAN model. Based on the proposed attack, we provide two effective defense strategies: global malicious detection and local training regularization. We show that combining the two defense strategies yields a robust medical image generation.
翻訳日:2022-07-08 09:59:22 公開日:2022-07-02
# (参考訳) コンピュータ支援の発音訓練 - 音声合成は必要なほとんどすべてだ

Computer-assisted Pronunciation Training -- Speech synthesis is almost all you need ( http://arxiv.org/abs/2207.00774v1 )

ライセンス: CC BY 4.0
Daniel Korzekwa, Jaime Lorenzo-Trueba, Thomas Drugman, Bozena Kostek(参考訳) 研究コミュニティは、非ネイティブ音声におけるコンピュータ支援発音訓練(CAPT)法を長年研究してきた。 研究者はベイジアンネットワークやディープラーニング手法などの様々なモデルアーキテクチャの研究や、音声信号の異なる表現の分析に注力した。 近年の進歩にもかかわらず、既存のCAPT法では高い精度で発音誤りを検出できない(40 %-80 %リコールで60 %の精度しか検出できない)。 重要な問題の1つは、発音誤り検出モデルの信頼性トレーニングに必要な誤発音音声の可用性が低いことである。 非ネイティブ音声を模倣し、任意の量の訓練データを生成する生成モデルがあれば、発音誤りを検出する作業はずっと簡単になります。 本稿では,音素対音素(p2p),テキスト対音声(t2s),音声対音声変換(s2s)に基づく3つの革新的手法を提案する。 これらの手法は、発音誤り検出のための3つの機械学習モデルの精度を向上させるだけでなく、この分野における新たな最先端の確立にも寄与する。 従来の研究では、P2P変換のような単純な音声生成技術を使用していたが、発音誤り検出の精度を向上させるための追加のメカニズムとしてのみ利用されていた。 一方,音声生成は発音誤りを検出する第1級手法であると考えられる。 これらの手法の有効性は、発音および語彙的ストレスエラーを検出するタスクにおいて評価される。 ドイツ語、イタリア語、ポーランド語話者の非ネイティブ英語コーパスが評価に用いられる。 最適なS2S手法は、最先端手法と比較して、AUCメトリックの発音誤りを0.528から0.749まで41倍の精度で検出する。

The research community has long studied computer-assisted pronunciation training (CAPT) methods in non-native speech. Researchers focused on studying various model architectures, such as Bayesian networks and deep learning methods, as well as on the analysis of different representations of the speech signal. Despite significant progress in recent years, existing CAPT methods are not able to detect pronunciation errors with high accuracy (only 60\% precision at 40\%-80\% recall). One of the key problems is the low availability of mispronounced speech that is needed for the reliable training of pronunciation error detection models. If we had a generative model that could mimic non-native speech and produce any amount of training data, then the task of detecting pronunciation errors would be much easier. We present three innovative techniques based on phoneme-to-phoneme (P2P), text-to-speech (T2S), and speech-to-speech (S2S) conversion to generate correctly pronounced and mispronounced synthetic speech. We show that these techniques not only improve the accuracy of three machine learning models for detecting pronunciation errors but also help establish a new state-of-the-art in the field. Earlier studies have used simple speech generation techniques such as P2P conversion, but only as an additional mechanism to improve the accuracy of pronunciation error detection. We, on the other hand, consider speech generation to be the first-class method of detecting pronunciation errors. The effectiveness of these techniques is assessed in the tasks of detecting pronunciation and lexical stress errors. Non-native English speech corpora of German, Italian, and Polish speakers are used in the evaluations. The best proposed S2S technique improves the accuracy of detecting pronunciation errors in AUC metric by 41\% from 0.528 to 0.749 compared to the state-of-the-art approach.
翻訳日:2022-07-08 09:49:32 公開日:2022-07-02
# (参考訳) pavlov 学習機械

Pavlov Learning Machines ( http://arxiv.org/abs/2207.00790v1 )

ライセンス: CC BY 4.0
Elena Agliari, Miriam Aquaro, Adriano Barra, Alberto Fachechi, Chiara Marullo(参考訳) 有名なように、ヘブの学習はパヴロフの古典的条件付けにその起源を辿るが、前者は過去数十年にわたって広範囲にモデル化されてきた(例えばホップフィールドモデルやテーマに関する無数のバリエーションによって)。 パブロフの理論は、犬とリングベルを主役とする有名な実験で示されるように、シナプス行列に(動的に)保存されている 'emph{concepts} 間の相関関係についてであり、逆に、ヘッブの理論は隣接するニューロンのペア間の相関関係に関するものである。 本稿では、確率過程理論とランゲヴィン方程式による神経・シナプス力学をモデル化し、ニューロンとシナプスの時間スケールが大々的に分裂している限り、パブロフ機構が自然発生し、最終的にヘビアン核を回復するシナプス重みが生じることを証明した。

As well known, Hebb's learning traces its origin in Pavlov's Classical Conditioning, however, while the former has been extensively modelled in the past decades (e.g., by Hopfield model and countless variations on theme), as for the latter modelling has remained largely unaddressed so far; further, a bridge between these two pillars is totally lacking. The main difficulty towards this goal lays in the intrinsically different scales of the information involved: Pavlov's theory is about correlations among \emph{concepts} that are (dynamically) stored in the synaptic matrix as exemplified by the celebrated experiment starring a dog and a ring bell; conversely, Hebb's theory is about correlations among pairs of adjacent neurons as summarized by the famous statement {\em neurons that fire together wire together}. In this paper we rely on stochastic-process theory and model neural and synaptic dynamics via Langevin equations, to prove that -- as long as we keep neurons' and synapses' timescales largely split -- Pavlov mechanism spontaneously takes place and ultimately gives rise to synaptic weights that recover the Hebbian kernel.
翻訳日:2022-07-08 09:22:35 公開日:2022-07-02
# (参考訳) 構造光による産業検査のベンチマーク

Benchmarks for Industrial Inspection Based on Structured Light ( http://arxiv.org/abs/2207.00796v1 )

ライセンス: CC BY 4.0
Yuping Ye, Siyuan Chen and Zhan Song(参考訳) ロバストさと精度は、産業検査の2つの重要な指標である。 本稿では,構造化光方式の性能を評価するベンチマークを提案する。 私たちの評価基準は、工場から多くの検査タスクから学びました。 提案した計量は、平坦性、長さ、高さ、球状性などの4つの詳細な基準からなる。 そして, 評価基準により, 所定の点検作業に構造化光法/デバイスを迅速に適用できるかどうかを判断できる。 本報では, タイプcピンニードル検査のための構造光デバイスについて, 最終実験部で測定値を用いて評価した。

Robustness and accuracy are two critical metrics for industrial inspection. In this paper, we propose benchmarks that can evaluate the structured light method's performance. Our evaluation metric was learning from a lot of inspection tasks from the factories. The metric we proposed consists of four detailed criteria such as flatness, length, height and sphericity. Then we can judge whether the structured light method/device can be applied to a specified inspection task by our evaluation metric quickly. A structured light device built for TypeC pin needles inspection performance is evaluated via our metrics in the final experimental section.
翻訳日:2022-07-08 08:56:44 公開日:2022-07-02
# (参考訳) スキーマ誘導対話状態追跡のためのマルチタスクBERTモデル

A Multi-Task BERT Model for Schema-Guided Dialogue State Tracking ( http://arxiv.org/abs/2207.00828v1 )

ライセンス: CC BY 4.0
Eleftherios Kapelonis, Efthymios Georgiou, Alexandros Potamianos(参考訳) タスク指向対話システムは対話状態追跡器(DST)を用いて会話を完了させる。 最近のdst実装は、モデルの堅牢性を改善し、新しいドメインへのゼロショット一般化を扱うために多様なサービスのスキーマに依存するが、[2, 3]の手法は一般的に、複数の大規模なトランスフォーマーモデルと長い入力シーケンスを必要とする。 本稿では,意図予測,要求スロット予測,スロットフィリングの3つのDSTタスクを協調的に解決する単一マルチタスクBERTモデルを提案する。 さらに,対話履歴とサービススキーマの効率的かつ同義的な符号化を提案し,さらなる性能向上を図っている。 sgdデータセットの評価により,本手法はsgp-dstのベースラインを高いマージンで上回り,最先端と比較して優れた性能を示すが,計算効率は極めて高い。 本モデルの成功に寄与する要因を検討するため,広範なアブレーション研究を行った。

Task-oriented dialogue systems often employ a Dialogue State Tracker (DST) to successfully complete conversations. Recent state-of-the-art DST implementations rely on schemata of diverse services to improve model robustness and handle zero-shot generalization to new domains [1], however such methods [2, 3] typically require multiple large scale transformer models and long input sequences to perform well. We propose a single multi-task BERT-based model that jointly solves the three DST tasks of intent prediction, requested slot prediction and slot filling. Moreover, we propose an efficient and parsimonious encoding of the dialogue history and service schemata that is shown to further improve performance. Evaluation on the SGD dataset shows that our approach outperforms the baseline SGP-DST by a large margin and performs well compared to the state-of-the-art, while being significantly more computationally efficient. Extensive ablation studies are performed to examine the contributing factors to the success of our model.
翻訳日:2022-07-07 11:56:05 公開日:2022-07-02
# (参考訳) GOF-TTE:旅行時間推定のためのオンラインフェデレーション学習フレームワーク

GOF-TTE: Generative Online Federated Learning Framework for Travel Time Estimation ( http://arxiv.org/abs/2207.00838v1 )

ライセンス: CC BY 4.0
Zhiwen Zhang, Hongjun Wang, Jiyuan Chen, Zipei Fan, Xuan Song, Ryosuke Shibasaki(参考訳) 経路の走行時間の推定は、インテリジェントな輸送システムにとって重要なトピックである。 交通監視、ルート計画、タクシーの発送など、現実世界のアプリケーションの基礎として機能している。 しかし、そのようなデータ駆動タスクのためのモデルを構築するには、大量のユーザの旅行情報が必要であり、それは自身のプライバシに直接関連しているため、共有される可能性が低い。 非独立かつIdentically Distributed(非IID)トラジェクトリデータをデータオーナに分散することで、フェデレート学習を直接適用した場合、パーソナライズすることが極めて困難になる。 最後に,前回の走行時間推定に関する研究では,道路のリアルタイム交通状況は考慮されていない。 以上の課題に対処するため,モバイルユーザグループ向けのGOF-TTE,旅行時間推定のための生成オンラインフェデレーション学習フレームワーク,I)フェデレーション学習アプローチを導入し,トレーニング中のクライアントデバイス上でプライベートデータを保持し,グローバルモデルを全クライアントが共有するオンライン生成モデルとして設計し,リアルタイム道路交通状態を推定する。 II) サーバでベースモデルを共有することとは別に、各クライアントが個人運転の習慣を研究するために微調整されたパーソナライズされたモデルを適用し、局所的なグローバルモデル予測による残差を補う。 % iii) がグローバルモデルを全クライアントが共有するオンライン生成モデルとして設計し、リアルタイム道路交通状態を推定している。 また、私たちのフレームワークにシンプルなプライバシー攻撃を導入し、プライバシーの安全性をさらに保証するための差分プライバシーメカニズムを実装しています。 最後に、DiDi ChengduとXi'anの2つの実世界の公共タクシーデータセットについて実験を行った。 実験の結果,提案手法の有効性が示された。

Estimating the travel time of a path is an essential topic for intelligent transportation systems. It serves as the foundation for real-world applications, such as traffic monitoring, route planning, and taxi dispatching. However, building a model for such a data-driven task requires a large amount of users' travel information, which directly relates to their privacy and thus is less likely to be shared. The non-Independent and Identically Distributed (non-IID) trajectory data across data owners also make a predictive model extremely challenging to be personalized if we directly apply federated learning. Finally, previous work on travel time estimation does not consider the real-time traffic state of roads, which we argue can significantly influence the prediction. To address the above challenges, we introduce GOF-TTE for the mobile user group, Generative Online Federated Learning Framework for Travel Time Estimation, which I) utilizes the federated learning approach, allowing private data to be kept on client devices while training, and designs the global model as an online generative model shared by all clients to infer the real-time road traffic state. II) apart from sharing a base model at the server, adapts a fine-tuned personalized model for every client to study their personal driving habits, making up for the residual error made by localized global model prediction. % III) designs the global model as an online generative model shared by all clients to infer the real-time road traffic state. We also employ a simple privacy attack to our framework and implement the differential privacy mechanism to further guarantee privacy safety. Finally, we conduct experiments on two real-world public taxi datasets of DiDi Chengdu and Xi'an. The experimental results demonstrate the effectiveness of our proposed framework.
翻訳日:2022-07-07 11:42:39 公開日:2022-07-02
# (参考訳) 信念伝播による局所的マックスエントロピーと自由エネルギー原理の解法

Local Max-Entropy and Free Energy Principles Solved by Belief Propagation ( http://arxiv.org/abs/2207.00841v1 )

ライセンス: CC BY 4.0
Olivier Peltre(参考訳) 統計システムは古典的には、大域エネルギー関数 $H : E \to \mathbb{R}$ によって、すべての逆温度 $\beta = T^{-1}$ に対してギブス確率測度 (softmins) $\rho^\beta(H)$ で定義される。 ギブズ状態は、それぞれ逆温度$\beta$と平均エネルギー${\cal U}(\beta) = \mathbb{E}_{\rho^\beta}[H]$の2つの制約を持つ自由エネルギー原理と最大エントロピー原理によって同時に特徴づけられる。 レジェンダー変換は、残念ながら高次元では引けないこれらの多様な変動原理を関連づけている。 大域エネルギーは一般に和 $H(x) = \sum_{\rm a \subset \Omega} h_{\rm a}(x_{|\rm a})$ of local short-range interaction $h_{\rm a} : E_{\rm a} \to \mathbb{R}$ indexed by bounded sub Regions ${\rm a} \subset \Omega$ として与えられる。 一般化された信念伝達 (gbp) アルゴリズムは、自由エネルギー $f(\beta)$ とシャノンエントロピー $s(\cal u)$ と変分自由エネルギー ${\cal f}(\beta) = {\cal u} - \beta^{-1} s(\cal u)$ のベーテ・キクチ近似の臨界点に収束することで、局所的変分原理の集まりを解決し、エディーディアらによる初期対応を拡張する。 この局所的な形のルジャンドル双対性は平均エネルギー ${\cal u}$ と $\beta$ の間の縮退関係をもたらす。

A statistical system is classically defined on a set of microstates $E$ by a global energy function $H : E \to \mathbb{R}$, yielding Gibbs probability measures (softmins) $\rho^\beta(H)$ for every inverse temperature $\beta = T^{-1}$. Gibbs states are simultaneously characterized by free energy principles and the max-entropy principle, with dual constraints on inverse temperature $\beta$ and mean energy ${\cal U}(\beta) = \mathbb{E}_{\rho^\beta}[H]$ respectively. The Legendre transform relates these diverse variational principles which are unfortunately not tractable in high dimension. The global energy is generally given as a sum $H(x) = \sum_{\rm a \subset \Omega} h_{\rm a}(x_{|\rm a})$ of local short-range interactions $h_{\rm a} : E_{\rm a} \to \mathbb{R}$ indexed by bounded subregions ${\rm a} \subset \Omega$, and this local structure can be used to design good approximation schemes on thermodynamic functionals. We show that the generalized belief propagation (GBP) algorithm solves a collection of local variational principles, by converging to critical points of Bethe-Kikuchi approximations of the free energy $F(\beta)$, the Shannon entropy $S(\cal U)$, and the variational free energy ${\cal F}(\beta) = {\cal U} - \beta^{-1} S(\cal U)$, extending an initial correspondence by Yedidia et al. This local form of Legendre duality yields a possible degenerate relationship between mean energy ${\cal U}$ and $\beta$.
翻訳日:2022-07-07 11:18:55 公開日:2022-07-02
# (参考訳) 組合せ随伴と分化

Combinatory Adjoints and Differentiation ( http://arxiv.org/abs/2207.00847v1 )

ライセンス: CC BY 4.0
Martin Elsman (University of Copenhagen), Fritz Henglein (University of Copenhagen), Robin Kaarsgaard (University of Edinburgh), Mikkel Kragh Mathiesen (University of Copenhagen), Robert Schenck (University of Copenhagen)(参考訳) 本研究では,多次元配列として表現されるスカラー,ベクトル,行列,テンソルに制限されるのではなく,抽象ベクトル上の線型関数である関数解析において,カテゴリ構造に基づく自動的および記号的微分の合成手法を開発した。 本稿では,Fr'echet微分を表現した線形関数を生成する微分積分法を用いて,原始関数,定数関数,線形関数,双線型関数の規則,およびそれらの逐次および並列合成を用いて,記号的および自動微分が可能であることを示す。 線形関数は結合的なドメイン固有言語で表される。 最後に,高次元空間で使用するには非効率な行列を用いず,微分の随伴を記号的に計算するための計算法を提案する。 導関数のシンボル表現は、入力プログラムからのデータ並列操作を保持する。 結合微分と形式的随伴の計算の組み合わせは、逆モード自動微分と挙動的に等価であることが判明した。 特に、行列が線型関数を表現するには非効率すぎる最適化の機会を提供する。

We develop a compositional approach for automatic and symbolic differentiation based on categorical constructions in functional analysis where derivatives are linear functions on abstract vectors rather than being limited to scalars, vectors, matrices or tensors represented as multi-dimensional arrays. We show that both symbolic and automatic differentiation can be performed using a differential calculus for generating linear functions representing Fr\'echet derivatives based on rules for primitive, constant, linear and bilinear functions as well as their sequential and parallel composition. Linear functions are represented in a combinatory domain-specific language. Finally, we provide a calculus for symbolically computing the adjoint of a derivative without using matrices, which are too inefficient to use on high-dimensional spaces. The resulting symbolic representation of a derivative retains the data-parallel operations from the input program. The combination of combinatory differentiation and computing formal adjoints turns out to be behaviorally equivalent to reverse-mode automatic differentiation. In particular, it provides opportunities for optimizations where matrices are too inefficient to represent linear functions.
翻訳日:2022-07-07 11:05:22 公開日:2022-07-02
# (参考訳) IIRフィルタアルゴリズムの行列を用いた高スループットイベントビジュアルデータフィルタリングのためのハードウェアアーキテクチャ

Hardware architecture for high throughput event visual data filtering with matrix of IIR filters algorithm ( http://arxiv.org/abs/2207.00860v1 )

ライセンス: CC BY 4.0
Marcin Kowalczyk and Tomasz Kryjak(参考訳) ニューロモルフィック・ビジョンは、自動運転車の知覚システムに多くの応用がある急速に成長する分野である。 残念なことに、センサーの動作原理のため、イベントストリームにはかなりのノイズがある。 本稿では,このタイプの雑音をフィルタするiirフィルタ行列に基づく新しいアルゴリズムと,soc fpgaを用いた高速化を実現するハードウェアアーキテクチャを提案する。 提案手法は,ノイズの99%以上を除去した非相関ノイズに対して,フィルタ効率が極めて良好である。 ランダムノイズを付加したいくつかのイベントデータセットでテストされている。 我々はFPGAの内部BRAMリソースの利用を減らすためにハードウェアアーキテクチャを設計した。 提案されたハードウェアアーキテクチャは、Mercury+ XU9モジュール上のXilinx Zynq Ultrascale+ MPSoCチップとMercury+ ST1ベースボードのシミュレーションおよびハードウェア上で検証された。

Neuromorphic vision is a rapidly growing field with numerous applications in the perception systems of autonomous vehicles. Unfortunately, due to the sensors working principle, there is a significant amount of noise in the event stream. In this paper we present a novel algorithm based on an IIR filter matrix for filtering this type of noise and a hardware architecture that allows its acceleration using an SoC FPGA. Our method has a very good filtering efficiency for uncorrelated noise - over 99% of noisy events are removed. It has been tested for several event data sets with added random noise. We designed the hardware architecture in such a way as to reduce the utilisation of the FPGA's internal BRAM resources. This enabled a very low latency and a throughput of up to 385.8 MEPS million events per second.The proposed hardware architecture was verified in simulation and in hardware on the Xilinx Zynq Ultrascale+ MPSoC chip on the Mercury+ XU9 module with the Mercury+ ST1 base board.
翻訳日:2022-07-07 10:26:44 公開日:2022-07-02
# (参考訳) ORA3D:マルチビュー3Dオブジェクト検出を意識したオーバーラップ領域

ORA3D: Overlap Region Aware Multi-view 3D Object Detection ( http://arxiv.org/abs/2207.00865v1 )

ライセンス: CC BY 4.0
Wonseok Roh, Gyusam Chang, Seokha Moon, Giljoo Nam, Chanyoung Kim, Younghyun Kim, Sangpil Kim, Jinkyu Kim(参考訳) 多視点3Dオブジェクト検出タスクでは、重複する画像領域に対する差分監督が全体的な検出性能を大幅に向上させる。 しかし、現在のマルチビュー3Dオブジェクト検出手法では、重複領域のオブジェクトを適切に検出できないことが多く、シーンに対するネットワークの理解は単眼で検出するネットワークに限られることが多い。 この問題を軽減するために,従来のステレオ不均質推定法を適用して,重なり合う領域に対する信頼性の高い不均質情報を求める。 両眼画像の幾何学的ポテンシャルをフル活用し、全体的な検出精度を向上させるために、ネットワークを正規化することを提案する。 さらに,非オーバーラップ領域と重なり領域間の表現ギャップを最小限に抑えるように訓練した逆重なり領域判別器を用いる。 提案手法の有効性を, nuScenes と呼ばれる大規模マルチビュー3次元オブジェクト検出ベンチマークを用いて実証する。 提案手法が現在の最先端手法よりも優れていることを示す。

In multi-view 3D object detection tasks, disparity supervision over overlapping image regions substantially improves the overall detection performance. However, current multi-view 3D object detection methods often fail to detect objects in the overlap region properly, and the network's understanding of the scene is often limited to that of a monocular detection network. To mitigate this issue, we advocate for applying the traditional stereo disparity estimation method to obtain reliable disparity information for the overlap region. Given the disparity estimates as a supervision, we propose to regularize the network to fully utilize the geometric potential of binocular images, and improve the overall detection accuracy. Moreover, we propose to use an adversarial overlap region discriminator, which is trained to minimize the representational gap between non-overlap regions and overlapping regions where objects are often largely occluded or suffer from deformation due to camera distortion, causing a domain shift. We demonstrate the effectiveness of the proposed method with the large-scale multi-view 3D object detection benchmark, called nuScenes. Our experiment shows that our proposed method outperforms the current state-of-the-art methods.
翻訳日:2022-07-07 10:14:51 公開日:2022-07-02
# (参考訳) 経路計画のためのニューラルネットワーク

Neural Networks for Path Planning ( http://arxiv.org/abs/2207.00874v1 )

ライセンス: CC BY-SA 4.0
Salim Janji and Adrian Kliks(参考訳) 科学コミュニティは、ニューラルネットワークアーキテクチャの進歩による計算の効率と速度の観点から、現代の技術の性能を大幅に改善する、実践的な問題に対する新しいソリューションセットを提示することができる。 本稿では,ロボットの経路計画におけるニューラルネットワークの利用について検討する。 本調査は,様々な入力,出力,環境を考慮した問題の異なる定式化と,提示されたすべての問題に対して,ニューラルネットワークアーキテクチャがどのようにソリューションを提供できるか,の対比を示す。

The scientific community is able to present a new set of solutions to practical problems that substantially improve the performance of modern technology in terms of efficiency and speed of computation due to the advancement in neural networks architectures. We present the latest works considering the utilization of neural networks in robot path planning. Our survey shows the contrast between different formulations of the problems that consider different inputs, outputs, and environments and how different neural networks architectures are able to provide solutions to all of the presented problems.
翻訳日:2022-07-07 09:59:03 公開日:2022-07-02
# (参考訳) 臨床・非臨床診断のためのバイオメディカルパイプライン

A Biomedical Pipeline to Detect Clinical and Non-Clinical Named Entities ( http://arxiv.org/abs/2207.00876v1 )

ライセンス: CC BY 4.0
Shaina Raza and Brian Schwartz(参考訳) 既存の方法は、生体医学的な実体(例えば、疾患、症状、タンパク質、遺伝子)の数が少ないことを考慮し、これらの方法は、患者の健康に関連する非医療的要因である健康(年齢、性別、雇用、人種)の社会的決定要因を考慮しない。 本稿では,従来の取り組みを改善する機械学習パイプラインを提案する。第1に,標準的なもの以外の多くのバイオメディカルエンティティタイプを認識し,第2に,患者の健康に関連する非臨床要因を考察する。 このパイプラインはまた、プリプロセッシング、トークン化、埋め込みルックアップのマッピング、名前付きエンティティ認識タスクといったステージで構成され、フリーテキストから生体医学上の名前付きエンティティを抽出する。 新型コロナウイルスの症例報告をキュレートして準備する新たなデータセットを提示する。 提案手法は、マクロおよびマイクロ平均F1スコアの5つのベンチマークデータセットと、マクロおよびマイクロ平均F1スコアの95.25と93.18のデータセットのベースライン手法より優れている。

There are a few challenges related to the task of biomedical named entity recognition, which are: the existing methods consider a fewer number of biomedical entities (e.g., disease, symptom, proteins, genes); and these methods do not consider the social determinants of health (age, gender, employment, race), which are the non-medical factors related to patients' health. We propose a machine learning pipeline that improves on previous efforts in the following ways: first, it recognizes many biomedical entity types other than the standard ones; second, it considers non-clinical factors related to patient's health. This pipeline also consists of stages, such as preprocessing, tokenization, mapping embedding lookup and named entity recognition task to extract biomedical named entities from the free texts. We present a new dataset that we prepare by curating the COVID-19 case reports. The proposed approach outperforms the baseline methods on five benchmark datasets with macro-and micro-average F1 scores around 90, as well as our dataset with a macro-and micro-average F1 score of 95.25 and 93.18 respectively.
翻訳日:2022-07-07 09:47:50 公開日:2022-07-02
# (参考訳) 生物ロボット--新たな学際分野への展望

Biological Robots: Perspectives on an Emerging Interdisciplinary Field ( http://arxiv.org/abs/2207.00880v1 )

ライセンス: CC BY 4.0
D. Blackiston, S. Kriegman, J. Bongard, M. Levin(参考訳) 科学と工学の進歩は、しばしば現象を理解し、予測し、制御するために使われる古典的なアプローチの限界を明らかにする。 進歩により、概念のカテゴリは、しばしば再評価され、最近発見された分野間の不変量をよりよく追跡する必要がある。 フレームワークを洗練し、実験的なアプローチや能力をより促進するために、規律間の矛盾する境界を解決することが不可欠である。 本稿では, 発達生物学, コンピュータ科学, ロボット工学の共通点における課題について論じる。 生体ロボットの文脈では, 材料, 情報, 生命科学の最近の進歩によって推進される概念や, それまで異なる分野にまたがる変化を探求する。 ここで、各著者は、それぞれの学際訓練によって、その主題について独自の視点を提供する。 我々は、計算と同様に、発達生物学とロボティクスの特定の側面は特定の材料に結びついていないと主張している。 技術的制約によって生じる境界が克服され、再生医療から有用な合成リビングマシンへの実践的応用が促進されることを願っている。

Advances in science and engineering often reveal the limitations of classical approaches initially used to understand, predict, and control phenomena. With progress, conceptual categories must often be re-evaluated to better track recently discovered invariants across disciplines. It is essential to refine frameworks and resolve conflicting boundaries between disciplines such that they better facilitate, not restrict, experimental approaches and capabilities. In this essay, we discuss issues at the intersection of developmental biology, computer science, and robotics. In the context of biological robots, we explore changes across concepts and previously distinct fields that are driven by recent advances in materials, information, and life sciences. Herein, each author provides their own perspective on the subject, framed by their own disciplinary training. We argue that as with computation, certain aspects of developmental biology and robotics are not tied to specific materials; rather, the consilience of these fields can help to shed light on issues of multi-scale control, self-assembly, and relationships between form and function. We hope new fields can emerge as boundaries arising from technological limitations are overcome, furthering practical applications from regenerative medicine to useful synthetic living machines.
翻訳日:2022-07-07 09:31:30 公開日:2022-07-02
# (参考訳) 適応オブジェクトキャリブレーションを用いたロバストな映像オブジェクトセグメンテーション

Towards Robust Video Object Segmentation with Adaptive Object Calibration ( http://arxiv.org/abs/2207.00887v1 )

ライセンス: CC BY 4.0
Xiaohao Xu, Jinglu Wang, Xiang Ming, Yan Lu(参考訳) 急成長するビデオ時代において、ビデオセグメンテーションはマルチメディアコミュニティにおける研究の注目を集めている。 半教師付きビデオオブジェクトセグメンテーション(vos: semi-supervised video object segmentation)は、ビデオのすべてのターゲットフレームにオブジェクトをセグメンテーションすることを目的としている。 既存の手法では、ピクセル単位の参照目標相関を構築し、ピクセル単位の追跡を行い、ターゲットマスクを得る。 オブジェクトレベルの手がかりを無視するため、ピクセルレベルのアプローチは、追跡を摂動に弱いものにし、類似したオブジェクト間でも非差別化させる。 堅牢なVOSに向けて、重要な洞察は、表現的で差別的な各対象の表現とマスクを校正することである。 そこで本稿では,オブジェクト表現を適応的に構築し,オブジェクトマスクのキャリブレーションを行い,強靭性を実現する新しい深層ネットワークを提案する。 まず,アダプティブオブジェクトプロキシ(AOP)アグリゲーション手法を適用してオブジェクト表現を構築する。 次に、AOPに基づく基準目標相関からプロトタイプマスクを生成する。 その後、そのようなproto-maskは、ネットワーク変調、オブジェクトプロキシ表現のコンディショニングによってさらに校正される。 この条件付マスク校正プロセスを漸進的に統合し,オブジェクト表現とproto-maskが反復的に識別されるように進化する。 実験は標準VOSベンチマーク、YouTube-VOS-18/19、DAVIS-17で実施された。 本モデルは,既存の出版作品の最先端性能を実現し,摂動に対する優れた堅牢性を示す。 私たちのプロジェクトリポジトリはhttps://github.com/JerryX1110/Robust-Video-Object-Segmentationにあります。

In the booming video era, video segmentation attracts increasing research attention in the multimedia community. Semi-supervised video object segmentation (VOS) aims at segmenting objects in all target frames of a video, given annotated object masks of reference frames. Most existing methods build pixel-wise reference-target correlations and then perform pixel-wise tracking to obtain target masks. Due to neglecting object-level cues, pixel-level approaches make the tracking vulnerable to perturbations, and even indiscriminate among similar objects. Towards robust VOS, the key insight is to calibrate the representation and mask of each specific object to be expressive and discriminative. Accordingly, we propose a new deep network, which can adaptively construct object representations and calibrate object masks to achieve stronger robustness. First, we construct the object representations by applying an adaptive object proxy (AOP) aggregation method, where the proxies represent arbitrary-shaped segments at multi-levels for reference. Then, prototype masks are initially generated from the reference-target correlations based on AOP. Afterwards, such proto-masks are further calibrated through network modulation, conditioning on the object proxy representations. We consolidate this conditional mask calibration process in a progressive manner, where the object representations and proto-masks evolve to be discriminative iteratively. Extensive experiments are conducted on the standard VOS benchmarks, YouTube-VOS-18/19 and DAVIS-17. Our model achieves the state-of-the-art performance among existing published works, and also exhibits superior robustness against perturbations. Our project repo is at https://github.com/JerryX1110/Robust-Video-Object-Segmentation
翻訳日:2022-07-07 09:12:18 公開日:2022-07-02
# (参考訳) 目標, 位置変化, エリートリズムによる高速収束粒子群最適化(PSO-TPME)

A fast converging particle swarm optimization through targeted, position-mutated, elitism (PSO-TPME) ( http://arxiv.org/abs/2207.00900v1 )

ライセンス: CC BY 4.0
Tamir Shaqarin and Bernd R. Noack(参考訳) 我々は,PSO-TPMEによる粒子群最適化(PSO)の収束速度とグローバル探索能力を劇的に改善する。 3つの重要な革新は、認知と社会モデルにおける粒子の分類、エリート主義、突然変異である。 pso-tpmeは、最適化分野で広く採用されている5種類の多次元関数のpso変種に対してベンチマークを行い、特に収束精度、収束速度、大域的ミニマの探索能力について検討した。 統計誤差は何度も繰り返して評価される。 シミュレーションにより,提案するpso変種は他の変種よりも収束率と精度が桁違いに優れていることが示された。

We dramatically improve convergence speed and global exploration capabilities of particle swarm optimization (PSO) through a targeted position-mutated elitism (PSO-TPME). The three key innovations address particle classification, elitism, and mutation in the cognitive and social model. PSO-TPME is benchmarked against five popular PSO variants for multi-dimensional functions, which are extensively adopted in the optimization field, In particular, the convergence accuracy, convergence speed, and the capability to find global minima is investigated. The statistical error is assessed by numerous repetitions. The simulations demonstrate that proposed PSO variant outperforms the other variants in terms of convergence rate and accuracy by orders of magnitude.
翻訳日:2022-07-07 08:50:20 公開日:2022-07-02
# (参考訳) 人間の発見を補足する人工知能

Complementary artificial intelligence designed to augment human discovery ( http://arxiv.org/abs/2207.00902v1 )

ライセンス: CC BY 4.0
Jamshid Sourati, James Evans(参考訳) チューリングの模倣ゲームをプレイするために設計された人工知能も、情報の人間の操作を最大化するために作られた人工知能も、イノベーションを加速し、人類の最大の挑戦に対する集団的進歩を改善するために調整されていない。 我々は、人間の認知能力と競合するのではなく、補完することで人間の理解を根本的に増強するために、有益なAIを再認識し、パイロットする。 補完的インテリジェンスへの我々のアプローチは、群衆の情報とアプローチの独立性と多様性に基づく、群衆の知恵に基づく洞察に基づいている。 研究論文からの科学的専門知識の分布に関する情報をプログラム的に組み込むことにより,論文の内容の分布を追及し,科学的観衆や仮説の認知的利用を回避した。 このアプローチは、物質が有意義なエネルギー関連特性(例えば、熱電性)を持っているか、また物質が有意義な医学的特性(例えば、喘息)を持っているか(例えば、人間の科学的な群衆を補完する物質)を予測するために用いられる。 我々の補完的な予測は、人間の科学者や発明家によって特定されたとしても、今後数年で発見されることを実証する。 第一原理方程式による予測の約束を評価すると、予測の相補性の増加は減少せず、ある場合には、予測が目標となる性質を持つ確率を高めることが示される。 要約すると、群衆を避けるためにAIをチューニングすることで、遠い未来まで想像も追求もできない仮説を生成でき、科学的な進歩を予測できる。 集団的人間の偏見を同定し修正することにより、これらのモデルは発見のための科学教育を改革することで、人間の予測を改善する機会も提案する。

Neither artificial intelligence designed to play Turing's imitation game, nor augmented intelligence built to maximize the human manipulation of information are tuned to accelerate innovation and improve humanity's collective advance against its greatest challenges. We reconceptualize and pilot beneficial AI to radically augment human understanding by complementing rather than competing with human cognitive capacity. Our approach to complementary intelligence builds on insights underlying the wisdom of crowds, which hinges on the independence and diversity of crowd members' information and approach. By programmatically incorporating information on the evolving distribution of scientific expertise from research papers, our approach follows the distribution of content in the literature while avoiding the scientific crowd and the hypotheses cognitively available to it. We use this approach to generate valuable predictions for what materials possess valuable energy-related properties (e.g., thermoelectricity), and what compounds possess valuable medical properties (e.g., asthma) that complement the human scientific crowd. We demonstrate that our complementary predictions, if identified by human scientists and inventors at all, are only discovered years further into the future. When we evaluate the promise of our predictions with first-principles equations, we demonstrate that increased complementarity of our predictions does not decrease and in some cases increases the probability that the predictions possess the targeted properties. In summary, by tuning AI to avoid the crowd, we can generate hypotheses unlikely to be imagined or pursued until the distant future and promise to punctuate scientific advance. By identifying and correcting for collective human bias, these models also suggest opportunities to improve human prediction by reformulating science education for discovery.
翻訳日:2022-07-07 08:37:46 公開日:2022-07-02
# (参考訳) 構造化スパースニューラルネットワークとその行列計算アルゴリズム

A Structured Sparse Neural Network and Its Matrix Calculations Algorithm ( http://arxiv.org/abs/2207.00903v1 )

ライセンス: CC BY 4.0
Seyyed Mostafa Mousavi Janbeh Sarayi and Mansour Nikkhah Bahrami(参考訳) 勾配降下最適化とバックプロパゲーションはニューラルネットワークのトレーニングの最も一般的な方法であるが、リアルタイムアプリケーションでは計算コストが高く、高メモリリソースを必要とし、多くのネットワークや大規模データセットでは収束が難しい。 ニューラルネットワークのトレーニングのための逆モデルが,これらの問題を克服するための強力なツールとして登場した。 これらの手法を効果的に実装するために、構造化プルーニングを用いてスパースニューラルネットワークを生成する。 スパースニューラルネットワークはメモリ使用量では効率的だが、ほとんどのアルゴリズムはスパース行列では効率的ではない完全にロードされた行列計算手法を使用している。 三対角行列はニューラルネットワークの構造化によく用いられる候補の一つであるが、不適合問題や過剰フィッティング問題、一般化特性を扱うには柔軟ではない。 本稿では,非対称な三対角行列について,オフセット部分および超対角行列と,その[pseudo]逆行列および行列行列計算のアルゴリズムを紹介する。 行列計算の伝統的なアルゴリズム、特に逆転式と行列式は、大きなデータセットやより深いネットワークのような大きな行列に対して特に効率的ではない。 下方三角形行列の分解を開発し、元の行列を逆行列を計算した行列の集合に分解する。 行列逆が存在しない場合には、最小二乗型擬逆が提供される。 本手法は,ランダムに生成した行列に対して様々な大きさの予測可能な演算を実行するための直接ルーチンである。 その結果,行列のサイズが大きくなると計算コストが大きく向上することがわかった。

Gradient descent optimizations and backpropagation are the most common methods for training neural networks, but they are computationally expensive for real time applications, need high memory resources, and are difficult to converge for many networks and large datasets. [Pseudo]inverse models for training neural network have emerged as powerful tools to overcome these issues. In order to effectively implement these methods, structured pruning maybe be applied to produce sparse neural networks. Although sparse neural networks are efficient in memory usage, most of their algorithms use the same fully loaded matrix calculation methods which are not efficient for sparse matrices. Tridiagonal matrices are one of the frequently used candidates for structuring neural networks, but they are not flexible enough to handle underfitting and overfitting problems as well as generalization properties. In this paper, we introduce a nonsymmetric, tridiagonal matrix with offdiagonal sparse entries and offset sub and super-diagonals as well algorithms for its [pseudo]inverse and determinant calculations. Traditional algorithms for matrix calculations, specifically inversion and determinant, of these forms are not efficient specially for large matrices, e.g. larger datasets or deeper networks. A decomposition for lower triangular matrices is developed and the original matrix is factorized into a set of matrices where their inverse matrices are calculated. For the cases where the matrix inverse does not exist, a least square type pseudoinverse is provided. The present method is a direct routine, i.e., executes in a predictable number of operations which is tested for randomly generated matrices with varying size. The results show significant improvement in computational costs specially when the size of matrix increases.
翻訳日:2022-07-07 08:24:22 公開日:2022-07-02
# (参考訳) フィードフォワードニューラルネットワークを用いた知的車両の単眼視覚オドメトリーにおけるドリフト低減

Drift Reduction for Monocular Visual Odometry of Intelligent Vehicles using Feedforward Neural Networks ( http://arxiv.org/abs/2207.00909v1 )

ライセンス: CC BY 4.0
Hassan Wagih, Mostafa Osman, Mohamed I. Awad, and Sherif Hammad(参考訳) 本稿では,フィードフォワードニューラルネットワークを用いて,単眼視覚オドメトリーアルゴリズムにおけるドリフト低減手法を提案する。 視覚計測アルゴリズムは、連続するカメラフレーム間の車両のインクリメンタルな動きを計算し、これらのインクリメントを統合して車両のポーズを決定する。 提案するニューラルネットワークは,特徴検出とマッチング,カメラ固有のパラメータなどにおける不正確性から生じる車両のポーズ推定における誤差を低減する。 これらの不正確性は、より多くの推定誤差を引き起こす車両の運動推定に伝達される。 ドリフト低減ニューラルネットワークは、連続するカメラフレームにおける特徴の運動に基づいてそのような誤りを識別し、より正確なインクリメンタルモーション推定を行う。 提案したドリフト低減ニューラルネットワークは,KITTIデータセットを用いてトレーニング,検証を行い,提案手法の有効性を示す。

In this paper, an approach for reducing the drift in monocular visual odometry algorithms is proposed based on a feedforward neural network. A visual odometry algorithm computes the incremental motion of the vehicle between the successive camera frames, then integrates these increments to determine the pose of the vehicle. The proposed neural network reduces the errors in the pose estimation of the vehicle which results from the inaccuracies in features detection and matching, camera intrinsic parameters, and so on. These inaccuracies are propagated to the motion estimation of the vehicle causing larger amounts of estimation errors. The drift reducing neural network identifies such errors based on the motion of features in the successive camera frames leading to more accurate incremental motion estimates. The proposed drift reducing neural network is trained and validated using the KITTI dataset and the results show the efficacy of the proposed approach in reducing the errors in the incremental orientation estimation, thus reducing the overall error in the pose estimation.
翻訳日:2022-07-07 08:13:54 公開日:2022-07-02
# モーメント法による隠れマルコフモデルの幾何学的学習

Geometric Learning of Hidden Markov Models via a Method of Moments Algorithm ( http://arxiv.org/abs/2207.00818v1 )

ライセンス: Link先を確認
Berlin Chen, Cyrus Mostajeran, Salem Said(参考訳) 本稿では, リーマン多様体の値を取る幾何学的条件下で, 隠れマルコフモデルのパラメータを学習するための新しいアルゴリズムを提案する。 特に、非包括的相関を非正の曲率のリーマン対称空間で観測され、観測確率がリーマンガウス的であるようなより一般的な設定に組み込んだ、最近のモーメントアルゴリズムの2階法を高揚する。 得られたアルゴリズムは、リーマン混合ガウスモデル推定アルゴリズムに分解され、次に凸最適化手順が続く。 本稿では,学習者が既存の学習者と比較して,学習速度と数値精度を大幅に向上できることを示す。

We present a novel algorithm for learning the parameters of hidden Markov models (HMMs) in a geometric setting where the observations take values in Riemannian manifolds. In particular, we elevate a recent second-order method of moments algorithm that incorporates non-consecutive correlations to a more general setting where observations take place in a Riemannian symmetric space of non-positive curvature and the observation likelihoods are Riemannian Gaussians. The resulting algorithm decouples into a Riemannian Gaussian mixture model estimation algorithm followed by a sequence of convex optimization procedures. We demonstrate through examples that the learner can result in significantly improved speed and numerical accuracy compared to existing learners.
翻訳日:2022-07-05 17:03:30 公開日:2022-07-02
# 深部Unrolling-based Computational Imagingのための不確かさ定量化

Uncertainty Quantification for Deep Unrolling-Based Computational Imaging ( http://arxiv.org/abs/2207.00698v1 )

ライセンス: Link先を確認
Canberk Ekmekci, Mujdat Cetin(参考訳) Deep Unrollingは、モデルベースと純粋にディープラーニングベースの画像再構成方法のギャップを埋める、深層学習に基づく画像再構成手法である。 ディープアンロール法では画像問題に対する最先端の性能を達成し, 観察モデルの再構成プロセスへの組み入れを可能にするが, 再構成画像に関する不確実性情報を提供していないため, 特に安全・クリティカルイメージングへの応用において, 使用を厳しく制限している。 本稿では,観測モデルを再構成タスクに組み込んだ学習ベースの画像再構成フレームワークを提案する。 本稿では,磁気共鳴イメージングとCT再構成問題における提案手法の不確実性について述べる。 提案手法は,不確実性情報を活用するための将来の研究を動機付け,より正確で信頼性が高く,信頼性の高い,不確実性を認識し,学習に基づく画像再構成と画像解析手法を提案する。 提案手法は,最先端のディープアンロール法に匹敵する再構成性能を実現しつつ,不確実性情報を提供できることを示す。

Deep unrolling is an emerging deep learning-based image reconstruction methodology that bridges the gap between model-based and purely deep learning-based image reconstruction methods. Although deep unrolling methods achieve state-of-the-art performance for imaging problems and allow the incorporation of the observation model into the reconstruction process, they do not provide any uncertainty information about the reconstructed image, which severely limits their use in practice, especially for safety-critical imaging applications. In this paper, we propose a learning-based image reconstruction framework that incorporates the observation model into the reconstruction task and that is capable of quantifying epistemic and aleatoric uncertainties, based on deep unrolling and Bayesian neural networks. We demonstrate the uncertainty characterization capability of the proposed framework on magnetic resonance imaging and computed tomography reconstruction problems. We investigate the characteristics of the epistemic and aleatoric uncertainty information provided by the proposed framework to motivate future research on utilizing uncertainty information to develop more accurate, robust, trustworthy, uncertainty-aware, learning-based image reconstruction and analysis methods for imaging problems. We show that the proposed framework can provide uncertainty information while achieving comparable reconstruction performance to state-of-the-art deep unrolling methods.
翻訳日:2022-07-05 16:47:32 公開日:2022-07-02
# システムリスク対策のための深層学習

Deep Learning for Systemic Risk Measures ( http://arxiv.org/abs/2207.00739v1 )

ライセンス: Link先を確認
Yichen Feng, Ming Min, Jean-Pierre Fouque(参考訳) 本研究の目的は,自己資本配分の最適戦略を計算するためのツールとして深層学習法を適用し,システムリスク対策の方法論的枠組みを検討することである。 この新たな枠組みでは、システムリスク対策は、個々のリスクを集約する前に単一の機関に資本を割り当てることで、集約されたシステムを保護する最小の現金と解釈できる。 この問題には、非常に限られた状況を除いて明確な解決策がない。 深層学習は金融モデルやリスク管理においてますます注目を集めており,リスク対策の原始問題と二重問題の両方を解き,公平なリスク割り当てを学習するためのディープラーニングベースのアルゴリズムを提案する。 特に,二元問題に対する本手法は,gan(generative adversarial networks)アプローチに触発されたトレーニング哲学と,ラドン-ニコディム微分の直接推定を新たに設計した。 本論文は,本論文を実質的な数値研究で締めくくるとともに,システムリスク対策に関連するリスク割り当ての解釈を提供する。 特に指数的選好の場合、ベンチマークとして最適明示解と比較した場合、数値実験により提案アルゴリズムの優れた性能を示す。

The aim of this paper is to study a new methodological framework for systemic risk measures by applying deep learning method as a tool to compute the optimal strategy of capital allocations. Under this new framework, systemic risk measures can be interpreted as the minimal amount of cash that secures the aggregated system by allocating capital to the single institutions before aggregating the individual risks. This problem has no explicit solution except in very limited situations. Deep learning is increasingly receiving attention in financial modelings and risk management and we propose our deep learning based algorithms to solve both the primal and dual problems of the risk measures, and thus to learn the fair risk allocations. In particular, our method for the dual problem involves the training philosophy inspired by the well-known Generative Adversarial Networks (GAN) approach and a newly designed direct estimation of Radon-Nikodym derivative. We close the paper with substantial numerical studies of the subject and provide interpretations of the risk allocations associated to the systemic risk measures. In the particular case of exponential preferences, numerical experiments demonstrate excellent performance of the proposed algorithm, when compared with the optimal explicit solution as a benchmark.
翻訳日:2022-07-05 16:47:09 公開日:2022-07-02
# PGMG:生物活性分子生成のための薬理学指導型深層学習アプローチ

PGMG: A Pharmacophore-Guided Deep Learning Approach for Bioactive Molecular Generation ( http://arxiv.org/abs/2207.00821v1 )

ライセンス: Link先を確認
Huimin Zhu, Renyi Zhou, Jing Tang, Min Li(参考訳) 望まれる生物活性を持つ新規分子の合理的な設計は、特に新規標的ファミリーや未調査標的を治療する際には、薬物発見において重要な課題である。 本稿では,バイオアクティベート分子生成のための医薬用深層学習手法PGMGを提案する。 PGMGは医薬品のガイダンスを通じて、訓練された変異オートエンコーダを用いて様々なシナリオにおいて、構造的な多様性を持つ生物活性分子を生成する柔軟な戦略を提供する。 PGMGは, 高い妥当性, 特異性, 新規性を保ちながら, 与えられた薬効モデルに適合する分子を生成できることを示す。 本事例では, PGMGを用いたリガンド系および構造系ドノボ系薬物の設計における生物活性分子の生成, およびリード最適化シナリオについて述べる。 PGMGの柔軟性と有効性は、薬物発見プロセスの加速に有用なツールである。

The rational design of novel molecules with desired bioactivity is a critical but challenging task in drug discovery, especially when treating a novel target family or understudied targets. Here, we propose PGMG, a pharmacophore-guided deep learning approach for bioactivate molecule generation. Through the guidance of pharmacophore, PGMG provides a flexible strategy to generate bioactive molecules with structural diversity in various scenarios using a trained variational autoencoder. We show that PGMG can generate molecules matching given pharmacophore models while maintaining a high level of validity, uniqueness, and novelty. In the case studies, we demonstrate the application of PGMG to generate bioactive molecules in ligand-based and structure-based drug de novo design, as well as in lead optimization scenarios. Overall, the flexibility and effectiveness of PGMG make it a useful tool for accelerating the drug discovery process.
翻訳日:2022-07-05 16:46:49 公開日:2022-07-02
# 文脈音声認識のためのグラフニューラルネットワーク符号化を用いた木制約ポインタ生成

Tree-constrained Pointer Generator with Graph Neural Network Encodings for Contextual Speech Recognition ( http://arxiv.org/abs/2207.00857v1 )

ライセンス: Link先を確認
Guangzhi Sun, Chao Zhang, Philip C. Woodland(参考訳) 多くの自動音声認識(ASR)アプリケーションにおいて、文脈知識として得られるバイアス語を組み込むことが重要である。 本稿では,木制約付きポインタジェネレータ(TCPGen)コンポーネントにおけるグラフニューラルネットワーク(GNN)のエンド・ツー・エンドコンテキストASRへの応用を提案する。 プレフィックスツリー内のバイアスワードを木ベースのgnnで符号化することにより、根元にある木の枝のすべてのワードピースに関する情報を組み込むことにより、各ツリーノードにおいて、エンドツーエンドのasrデコードにおける将来のワードピースのルックアヘッドを実現し、バイアスワードの発生確率をより正確に予測することができる。 リブリスピーチ・コーパスでは,シミュレーションバイアスタスクを用いてシステムが評価され,amiコーパスでは,各ミーティングに並行してスライドからバイアスワードを抽出する新たな視野付き文脈asrパイプラインが提案されている。 結果,gnnエンコーディングを用いたtcpgenは,従来のtcpgenに比べてバイアスワードの約15%削減を達成し,復号化のための計算コストが著しく増加した。

Incorporating biasing words obtained as contextual knowledge is critical for many automatic speech recognition (ASR) applications. This paper proposes the use of graph neural network (GNN) encodings in a tree-constrained pointer generator (TCPGen) component for end-to-end contextual ASR. By encoding the biasing words in the prefix-tree with a tree-based GNN, lookahead for future wordpieces in end-to-end ASR decoding is achieved at each tree node by incorporating information about all wordpieces on the tree branches rooted from it, which allows a more accurate prediction of the generation probability of the biasing words. Systems were evaluated on the Librispeech corpus using simulated biasing tasks, and on the AMI corpus by proposing a novel visual-grounded contextual ASR pipeline that extracts biasing words from slides alongside each meeting. Results showed that TCPGen with GNN encodings achieved about a further 15% relative WER reduction on the biasing words compared to the original TCPGen, with a negligible increase in the computation cost for decoding.
翻訳日:2022-07-05 16:31:59 公開日:2022-07-02
# 文間アテンション機構によるトランスフォーマーに基づく会話型ASRの改良

Improving Transformer-based Conversational ASR by Inter-Sentential Attention Mechanism ( http://arxiv.org/abs/2207.00883v1 )

ライセンス: Link先を確認
Kun Wei, Pengcheng Guo, Ning Jiang(参考訳) トランスフォーマーベースのモデルは、自動音声認識(asr)タスクにおいてその効果を実証し、従来のハイブリッドフレームワークよりも優れた性能を示した。 Transformersの主な考え方は、発話中の長距離グローバルコンテキストを自己認識層によってキャプチャすることだ。 しかし、会話音声のようなシナリオでは、発話レベルモデリングは発話にまたがる文脈依存を無視する。 本稿では,会話音声認識のためのトランスフォーマーに基づくエンドツーエンドアーキテクチャにおいて,文間情報を明示的にモデル化することを提案する。 具体的には、エンコーダネットワークにおいて、先行音声のコンテキストをキャプチャし、その履歴情報をコンテキスト認識残留注意機構により現在の入力に組み込む。 デコーダでは、現在の発話の予測も条件付きデコーダの枠組みによって歴史的な言語情報に基づいて行われる。 提案手法は,複数のオープンソースの対話コーパスに対して有効であり,提案手法は発話レベル変換器を用いたASRモデルから連続的に性能を向上する。

Transformer-based models have demonstrated their effectiveness in automatic speech recognition (ASR) tasks and even shown superior performance over the conventional hybrid framework. The main idea of Transformers is to capture the long-range global context within an utterance by self-attention layers. However, for scenarios like conversational speech, such utterance-level modeling will neglect contextual dependencies that span across utterances. In this paper, we propose to explicitly model the inter-sentential information in a Transformer based end-to-end architecture for conversational speech recognition. Specifically, for the encoder network, we capture the contexts of previous speech and incorporate such historic information into current input by a context-aware residual attention mechanism. For the decoder, the prediction of current utterance is also conditioned on the historic linguistic information through a conditional decoder framework. We show the effectiveness of our proposed method on several open-source dialogue corpora and the proposed method consistently improved the performance from the utterance-level Transformer-based ASR models.
翻訳日:2022-07-05 16:31:38 公開日:2022-07-02
# ゴールコンディショニングmnmネットワークを用いたゴルフ選手の軌道予測

Golfer: Trajectory Prediction with Masked Goal Conditioning MnM Network ( http://arxiv.org/abs/2207.00738v1 )

ライセンス: Link先を確認
Xiaocheng Tang, Soheil Sadeghi Eshkevari, Haoyu Chen, Weidan Wu, Wei Qian, Xiaoming Wang(参考訳) トランスフォーマーは、nlpとコンピュータビジョンのブレークスルーを可能にし、最近、自律走行車(av)の軌道予測において有望な性能を見せ始めた。 エゴエージェントと他の道路および動的物体の対話的関係を効率的にモデル化する方法は、標準の注目モジュールでは難しい。 本研究では,av軌道予測のための新しいマスク付き目標条件付きトレーニング手順を備えた汎用トランスフォーマチックアーキテクチャモジュールmnmネットワークを提案する。 その結果得られたモデルはゴルファーと呼ばれ、2022年のWaymo Open Dataset Motion Prediction Challengeで2位を獲得し、minADEによると1位にランクインした。

Transformers have enabled breakthroughs in NLP and computer vision, and have recently began to show promising performance in trajectory prediction for Autonomous Vehicle (AV). How to efficiently model the interactive relationships between the ego agent and other road and dynamic objects remains challenging for the standard attention module. In this work we propose a general Transformer-like architectural module MnM network equipped with novel masked goal conditioning training procedures for AV trajectory prediction. The resulted model, named golfer, achieves state-of-the-art performance, winning the 2nd place in the 2022 Waymo Open Dataset Motion Prediction Challenge and ranked 1st place according to minADE.
翻訳日:2022-07-05 16:30:40 公開日:2022-07-02
# ラベル分布シフトのための医用画像分類ネットの校正によるテスト時間適応

Test-time Adaptation with Calibration of Medical Image Classification Nets for Label Distribution Shift ( http://arxiv.org/abs/2207.00769v1 )

ライセンス: Link先を確認
Wenao Ma, Cheng Chen, Shuang Zheng, Jing Qin, Huimao Zhang, Qi Dou(参考訳) クラス分布は、深い分類法を学ぶ上で重要な役割を果たす。 テストセットの各クラスの割合がトレーニングセットと異なる場合、分類ネットのパフォーマンスは通常低下する。 このようなラベル分布シフト問題は、疾患の頻度が場所や時間によって異なるため、診断において一般的である。 本稿では,単一のトレーニングラベル分布から学習したモデルを任意の未知テストラベル分布に効果的に適用する,医用画像分類のためのラベルシフトに取り組む最初の方法を提案する。 提案手法は,複数の代表型分類器を学習するための分布校正を革新する。 テストイメージが与えられると、未知のテストラベル分布に対処するため、一貫性駆動テストタイム適応を介して多様な分類器を動的に集約する。 肝線維症ステージングと重症度予測の2つの重要な医用画像分類課題について検討した。 実験の結果,ラベルシフトによるモデル性能の低下が明らかとなった。 本手法では,両画像診断タスクにおいて,ラベルシフトの異なる全てのテストデータセットにおいて,モデル性能が有意に向上する。

Class distribution plays an important role in learning deep classifiers. When the proportion of each class in the test set differs from the training set, the performance of classification nets usually degrades. Such a label distribution shift problem is common in medical diagnosis since the prevalence of disease vary over location and time. In this paper, we propose the first method to tackle label shift for medical image classification, which effectively adapt the model learned from a single training label distribution to arbitrary unknown test label distribution. Our approach innovates distribution calibration to learn multiple representative classifiers, which are capable of handling different one-dominating-class distributions. When given a test image, the diverse classifiers are dynamically aggregated via the consistency-driven test-time adaptation, to deal with the unknown test label distribution. We validate our method on two important medical image classification tasks including liver fibrosis staging and COVID-19 severity prediction. Our experiments clearly show the decreased model performance under label shift. With our method, model performance significantly improves on all the test datasets with different label shifts for both medical image diagnosis tasks.
翻訳日:2022-07-05 16:29:59 公開日:2022-07-02
# UTD-Yolov5: YOLOv5の改良に基づくリアルタイム水中ターゲット検出手法

UTD-Yolov5: A Real-time Underwater Targets Detection Method based on Attention Improved YOLOv5 ( http://arxiv.org/abs/2207.00837v1 )

ライセンス: Link先を確認
Jingyao Wang, Naigong Yu(参考訳) 自然の宝庫として、海には豊富な資源がある。 しかし、海洋生物の持続可能な発展に欠かせないサンゴ礁は、COTSやその他の生物の存在によって大きな危機に直面している。 手作業による社会の保護は限定的で非効率である。 海洋環境の予測不能な性質は、手動操作を危険にさらす。 水中操作におけるロボットの利用がトレンドになっている。 しかし、水中画像取得には、弱い光、低解像度、多くの干渉などの欠陥があるが、既存のターゲット検出アルゴリズムは有効ではない。 そこで本研究では, UTD-Yolov5 と呼ばれる YOLOv5 の改良型 YOLOv5 に基づく水中目標検出アルゴリズムを提案する。 COTSを迅速かつ効率的に検出し、複雑な水中操作の前提条件を提供する。 YOLOv5のネットワークアーキテクチャを複数の段階で調整し,元のBackboneを2段階のCSP(CSP2)に置き換えること,視覚チャネルアテンション機構モジュールSEの導入,ランダムアンカーボックス類似性計算法の設計などを行った。 これらの操作により、utd-yolov5はより柔軟に検出でき、より正確に機能をキャプチャできる。 また,ネットワークをより効率的にするために,WBFや反復改良機構などの最適化手法を提案する。 本稿では, CSIRO データセット [1] に基づいて多くの実験を行う。 その結果、utd-yolov5の平均精度は78.54%に達し、ベースラインと比較すると大きな改善となった。

As the treasure house of nature, the ocean contains abundant resources. But the coral reefs, which are crucial to the sustainable development of marine life, are facing a huge crisis because of the existence of COTS and other organisms. The protection of society through manual labor is limited and inefficient. The unpredictable nature of the marine environment also makes manual operations risky. The use of robots for underwater operations has become a trend. However, the underwater image acquisition has defects such as weak light, low resolution, and many interferences, while the existing target detection algorithms are not effective. Based on this, we propose an underwater target detection algorithm based on Attention Improved YOLOv5, called UTD-Yolov5. It can quickly and efficiently detect COTS, which in turn provides a prerequisite for complex underwater operations. We adjusted the original network architecture of YOLOv5 in multiple stages, including: replacing the original Backbone with a two-stage cascaded CSP (CSP2); introducing the visual channel attention mechanism module SE; designing random anchor box similarity calculation method etc. These operations enable UTD-Yolov5 to detect more flexibly and capture features more accurately. In order to make the network more efficient, we also propose optimization methods such as WBF and iterative refinement mechanism. This paper conducts a lot of experiments based on the CSIRO dataset [1]. The results show that the average accuracy of our UTD-Yolov5 reaches 78.54%, which is a great improvement compared to the baseline.
翻訳日:2022-07-05 16:29:42 公開日:2022-07-02
# ドメイン適応型3次元医用画像合成:効率的な教師なしアプローチ

Domain-Adaptive 3D Medical Image Synthesis: An Efficient Unsupervised Approach ( http://arxiv.org/abs/2207.00844v1 )

ライセンス: Link先を確認
Qingqiao Hu, Hongwei Li, Jianguo Zhang(参考訳) 医療画像合成は、画像データの欠如、診断の改善、多くの下流タスクの恩恵を受ける可能性があるため、注目を集めている。 しかし, これまでに開発された合成モデルは, 領域シフトを示す未確認データ分布に適応せず, 臨床ルーチンにおける適用性を制限している。 本研究では,3次元画像合成モデルの領域適応(DA)について検討する。 まず,分類,セグメンテーション,合成モデルにおけるDAの技術的差異について述べる。 次に,3次元分布を近似する2次元変分オートエンコーダに基づく新しい適応手法を提案する。 第3に,適応データ量とキーハイパーパラメータの効果に関する実証的研究を行った。 提案手法は, 未確認領域の合成精度を3次元設定で大幅に向上できることを示す。 コードはhttps://github.com/WinstonHuTiger/2D_VAE_UDA_for_3D_sythesisで公開されている。

Medical image synthesis has attracted increasing attention because it could generate missing image data, improving diagnosis and benefits many downstream tasks. However, so far the developed synthesis model is not adaptive to unseen data distribution that presents domain shift, limiting its applicability in clinical routine. This work focuses on exploring domain adaptation (DA) of 3D image-to-image synthesis models. First, we highlight the technical difference in DA between classification, segmentation and synthesis models. Second, we present a novel efficient adaptation approach based on 2D variational autoencoder which approximates 3D distributions. Third, we present empirical studies on the effect of the amount of adaptation data and the key hyper-parameters. Our results show that the proposed approach can significantly improve the synthesis accuracy on unseen domains in a 3D setting. The code is publicly available at https://github.com/WinstonHuTiger/2D_VAE_UDA_for_3D_sythesis
翻訳日:2022-07-05 16:29:19 公開日:2022-07-02
# 抽象化と洗練:ニューラルネットワークのスケーラブルで正確な検証に向けて

Abstraction and Refinement: Towards Scalable and Exact Verification of Neural Networks ( http://arxiv.org/abs/2207.00759v1 )

ライセンス: Link先を確認
Jiaxiang Liu, Yunhan Xing, Xiaomu Shi, Fu Song, Zhiwu Xu, Zhong Ming(参考訳) 新しいプログラミングパラダイムとして、ディープニューラルネットワーク(DNN)が実用化されつつあるが、ロバストさの欠如により、安全クリティカルなドメインでの応用が妨げられている。 正式な保証でDNNを検証する技術はあるが、スケーラビリティと精度に制限がある。 本稿では,スケーラブルかつ高精度なDNN検証のための新しい抽象化補正手法を提案する。 具体的には、過剰近似によりDNNのサイズを分解する新しい抽象化を提案する。 急激な反例が報告されていない場合、抽象的なDNNを検証する結果は、常に決定される。 そこで本研究では,抽象的なDNNを改良し,元のDNNを過度に近似しながら,与えられた急激な反例を除外する,新しい反例誘導改良法を提案する。 我々のアプローチは直交しており、既存の多くの検証技術と統合することができる。 実証のために,実証エンジンとしてMarabouとPlanetの2つの有望かつ正確なツールを用いて本手法を実装し,広く使用されているACAS Xu,MNIST,CIFAR-10の評価を行った。 提案手法は, より多くの問題を解くことにより, それぞれ86.3%, 78.0%の検証時間を短縮することで, 性能を向上できることを示す。 最も関連する抽象再定義アプローチと比較して、我々のアプローチは11.6-26.6倍高速です。

As a new programming paradigm, deep neural networks (DNNs) have been increasingly deployed in practice, but the lack of robustness hinders their applications in safety-critical domains. While there are techniques for verifying DNNs with formal guarantees, they are limited in scalability and accuracy. In this paper, we present a novel abstraction-refinement approach for scalable and exact DNN verification. Specifically, we propose a novel abstraction to break down the size of DNNs by over-approximation. The result of verifying the abstract DNN is always conclusive if no spurious counterexample is reported. To eliminate spurious counterexamples introduced by abstraction, we propose a novel counterexample-guided refinement that refines the abstract DNN to exclude a given spurious counterexample while still over-approximating the original one. Our approach is orthogonal to and can be integrated with many existing verification techniques. For demonstration, we implement our approach using two promising and exact tools Marabou and Planet as the underlying verification engines, and evaluate on widely-used benchmarks ACAS Xu, MNIST and CIFAR-10. The results show that our approach can boost their performance by solving more problems and reducing up to 86.3% and 78.0% verification time, respectively. Compared to the most relevant abstraction-refinement approach, our approach is 11.6-26.6 times faster.
翻訳日:2022-07-05 16:19:34 公開日:2022-07-02
# 降水ダウンスケーリングの現代的深層学習手法について

On the modern deep learning approaches for precipitation downscaling ( http://arxiv.org/abs/2207.00808v1 )

ライセンス: Link先を確認
Bipin Kumar, Kaustubh Atey, Bhupendra Bahadur Singh, Rajib Chattopadhyay, Nachiket Acharya, Manmeet Singh, Ravi S. Nanjundiah, and Suryachandra A. Rao(参考訳) 深層学習(DL)に基づくダウンスケーリングは、地球科学で最近人気となっている。 様々なDLアプローチが、ダウンスケールの粗い降水データに採用され、より正確で信頼性の高い地域規模(約2km以上)で推定される。 降水の動的または統計的ダウンスケールを採用するいくつかの研究にもかかわらず、精度は地上真理の可用性によって制限されている。 このような手法の精度を評価する上で重要な課題は、ダウンスケールのデータと、そのような小さなスケールでは利用できないポイントスケールの観測を比較することである。 そこで本研究では,インド気象局(imd)からの局地降雨データを推定するために,駅位置からグリッドポイントまでの値を近似して算出したdlに基づくダウンスケールを実施した。 異なるDL手法の有効性を検証するために,4種類のダウンスケール法を適用し,その性能評価を行った。 i)deep statistical downscaling (deepsd)、 augmented convolutional long short term memory (convlstm)、full convolutional network (u-net)、super- resolution generative adversarial network (sr-gan)である。 SR-GANで使用されるカスタムVGGネットワークは、降水データを用いて開発されている。 その結果,SR-GANは降水データダウンスケーリングの最良の方法であることが示唆された。 ダウンスケールデータはimdステーションの降雨量で検証される。 このDL法は統計的ダウンスケーリングに代わる有望な代替手段を提供する。

Deep Learning (DL) based downscaling has become a popular tool in earth sciences recently. Increasingly, different DL approaches are being adopted to downscale coarser precipitation data and generate more accurate and reliable estimates at local (~few km or even smaller) scales. Despite several studies adopting dynamical or statistical downscaling of precipitation, the accuracy is limited by the availability of ground truth. A key challenge to gauge the accuracy of such methods is to compare the downscaled data to point-scale observations which are often unavailable at such small scales. In this work, we carry out the DL-based downscaling to estimate the local precipitation data from the India Meteorological Department (IMD), which was created by approximating the value from station location to a grid point. To test the efficacy of different DL approaches, we apply four different methods of downscaling and evaluate their performance. The considered approaches are (i) Deep Statistical Downscaling (DeepSD), augmented Convolutional Long Short Term Memory (ConvLSTM), fully convolutional network (U-NET), and Super-Resolution Generative Adversarial Network (SR-GAN). A custom VGG network, used in the SR-GAN, is developed in this work using precipitation data. The results indicate that SR-GAN is the best method for precipitation data downscaling. The downscaled data is validated with precipitation values at IMD station. This DL method offers a promising alternative to statistical downscaling.
翻訳日:2022-07-05 16:19:10 公開日:2022-07-02
# FL-Defender:フェデレートラーニングにおける目標とする攻撃

FL-Defender: Combating Targeted Attacks in Federated Learning ( http://arxiv.org/abs/2207.00872v1 )

ライセンス: Link先を確認
Najeeb Jebreel and Josep Domingo-Ferrer(参考訳) フェデレーション学習(fl)は、参加者のセットに分散したローカルデータから、グローバルな機械学習モデルを学ぶことを可能にする。 こうすることで 一 豊かな共同研修データから学ぶことにより、より正確なモデルを訓練すること 二 労働者の現地の個人情報を他人と共有しないことにより、プライバシーを向上すること。 しかし、flの分散的な性質は、学習モデルの完全性に悪影響を及ぼす標的中毒攻撃に対して脆弱であると同時に、残念ながら検出が困難である。 既存の攻撃に対する防御は、労働者のデータ分布の仮定によって制限され、メインタスクにおけるグローバルモデルの性能が低下する可能性がある。 本稿では,flに対する標的攻撃を分析し,それに関連する深層学習(dl)モデルの最終層にあるニューロンが非関連ニューロンと異なる行動を示すことを見出し,最終層勾配を攻撃検出に有用な特徴とする。 そこで本稿では,FL標的攻撃に対抗する手段として,<textit{FL-Defender}を提案する。 構成は 一 労働者の最終層勾配に対する労働者の角度類似度を計算することにより、より堅牢な識別特性の工学 二 余剰情報を少なくするためにPCAを用いて結果の類似性ベクトルを圧縮すること。 三 圧縮類似性ベクトルのセントロイドからの偏差に基づいて、労働者の更新を再重み付けすること。 dlモデルサイズとデータ分布の異なる3つのデータセットにおける実験により,ラベルフリッピングやバックドア攻撃に対する防御手法の有効性が示された。 いくつかの最先端の防御と比較して、fl-defenderは攻撃成功率が最も低く、メインタスクにおけるグローバルモデルのパフォーマンスを維持し、サーバの計算オーバーヘッドを最小限に抑えることができる。

Federated learning (FL) enables learning a global machine learning model from local data distributed among a set of participating workers. This makes it possible i) to train more accurate models due to learning from rich joint training data, and ii) to improve privacy by not sharing the workers' local private data with others. However, the distributed nature of FL makes it vulnerable to targeted poisoning attacks that negatively impact the integrity of the learned model while, unfortunately, being difficult to detect. Existing defenses against those attacks are limited by assumptions on the workers' data distribution, may degrade the global model performance on the main task and/or are ill-suited to high-dimensional models. In this paper, we analyze targeted attacks against FL and find that the neurons in the last layer of a deep learning (DL) model that are related to the attacks exhibit a different behavior from the unrelated neurons, making the last-layer gradients valuable features for attack detection. Accordingly, we propose \textit{FL-Defender} as a method to combat FL targeted attacks. It consists of i) engineering more robust discriminative features by calculating the worker-wise angle similarity for the workers' last-layer gradients, ii) compressing the resulting similarity vectors using PCA to reduce redundant information, and iii) re-weighting the workers' updates based on their deviation from the centroid of the compressed similarity vectors. Experiments on three data sets with different DL model sizes and data distributions show the effectiveness of our method at defending against label-flipping and backdoor attacks. Compared to several state-of-the-art defenses, FL-Defender achieves the lowest attack success rates, maintains the performance of the global model on the main task and causes minimal computational overhead on the server.
翻訳日:2022-07-05 16:18:45 公開日:2022-07-02
# 確率的および動的解放日数をもつオリエンテーリング問題に対する強化学習アプローチ

Reinforcement Learning Approaches for the Orienteering Problem with Stochastic and Dynamic Release Dates ( http://arxiv.org/abs/2207.00885v1 )

ライセンス: Link先を確認
Yuanyuan Li, Claudia Archetti, Ivana Ljubic(参考訳) 本稿では,利用者の要望に応えるために,中央補給所から車両を送出する時期に関連する電子商取引事業者が直面する順次意思決定の問題について検討し,その場合,荷物が到着する時刻が確率的かつ動的であることを前提にサービス提供を行う。 目的は、サービス時間中に配信できる小包の数を最大化することである。 本稿では,この問題を解決するための2つの強化学習手法を提案する。1つは政策関数近似(PFA)に基づくもので,もう1つは価値関数近似(VFA)に基づくものである。 どちらの方法もルックアヘッド戦略と組み合わされ、将来のリリース日はモンテカルロ方式でサンプリングされ、再調整されたバッチアプローチは将来の状態の値の近似に使用される。 私たちのPFAとVFAは、意思決定の品質を改善するために、ブランチとカットベースの正確なメソッドをうまく利用しています。 また、最適政策の部分的評価のための十分な条件を確立し、それらをPFA/VFAに統合する。 720ベンチマークの事例に基づく実証的研究では, 完全情報を持つ上界を用いた競合解析を行い, PFAとVFAが2つの代替ミオピックアプローチを大幅に上回ることを示す。 全体として、PFAは最良のソリューションを提供するが、VFA(二段階確率最適化モデルの恩恵を受けている)は、ソリューションの品質と計算時間の間のトレードオフを良くする。

In this paper, we study a sequential decision making problem faced by e-commerce carriers related to when to send out a vehicle from the central depot to serve customer requests, and in which order to provide the service, under the assumption that the time at which parcels arrive at the depot is stochastic and dynamic. The objective is to maximize the number of parcels that can be delivered during the service hours. We propose two reinforcement learning approaches for solving this problem, one based on a policy function approximation (PFA) and the second on a value function approximation (VFA). Both methods are combined with a look-ahead strategy, in which future release dates are sampled in a Monte-Carlo fashion and a tailored batch approach is used to approximate the value of future states. Our PFA and VFA make a good use of branch-and-cut-based exact methods to improve the quality of decisions. We also establish sufficient conditions for partial characterization of optimal policy and integrate them into PFA/VFA. In an empirical study based on 720 benchmark instances, we conduct a competitive analysis using upper bounds with perfect information and we show that PFA and VFA greatly outperform two alternative myopic approaches. Overall, PFA provides best solutions, while VFA (which benefits from a two-stage stochastic optimization model) achieves a better tradeoff between solution quality and computing time.
翻訳日:2022-07-05 16:18:18 公開日:2022-07-02
# 広義ニューラルネットワークによるインフォームドラーニング:収束、一般化、サンプリング複雑性

Informed Learning by Wide Neural Networks: Convergence, Generalization and Sampling Complexity ( http://arxiv.org/abs/2207.00751v1 )

ライセンス: Link先を確認
Jianyi Yang and Shaolei Ren(参考訳) ドメイン知識とラベル付きサンプルを統合することで、幅広いアプリケーションの学習性能を改善するために、情報機械学習が登場している。 それでも、注入されたドメイン知識の役割に関する厳密な理解は、まだ探索されていない。 本稿では,過剰パラメータ化とドメイン知識を学習対象関数に統合したインフォームドディープニューラルネットワーク(dnn)について検討し,ドメイン知識がパフォーマンスにどのように役立つか,そしてなぜかを検討する。 具体的には、ラベルに基づく監督とラベル付きサンプルの補足を行う情報学習におけるドメイン知識の2つの利点を定量的に示すとともに、ラベルと知識の不完全性のトレードオフを明らかにする。 この理論分析に基づいて, 知識の利点をうまく活用し, 人口の危険度によって検証されるラベルの不完全さと知識の不完全さをバランスさせるために, 一般化したインフォームドトレーニング目標を提案する。 サンプリング複雑性の分析は,情報学習におけるハイパーパラメータの選択方法に光を当て,知識情報学習の利点をさらに正当化する。

By integrating domain knowledge with labeled samples, informed machine learning has been emerging to improve the learning performance for a wide range of applications. Nonetheless, rigorous understanding of the role of injected domain knowledge has been under-explored. In this paper, we consider an informed deep neural network (DNN) with over-parameterization and domain knowledge integrated into its training objective function, and study how and why domain knowledge benefits the performance. Concretely, we quantitatively demonstrate the two benefits of domain knowledge in informed learning - regularizing the label-based supervision and supplementing the labeled samples - and reveal the trade-off between label and knowledge imperfectness in the bound of the population risk. Based on the theoretical analysis, we propose a generalized informed training objective to better exploit the benefits of knowledge and balance the label and knowledge imperfectness, which is validated by the population risk bound. Our analysis on sampling complexity sheds lights on how to choose the hyper-parameters for informed learning, and further justifies the advantages of knowledge informed learning.
翻訳日:2022-07-05 15:45:15 公開日:2022-07-02
# Lane-GNN: ドライバーのレーン変更意図を予測するGNNの統合

Lane-GNN: Integrating GNN for Predicting Drivers Lane Change Intention ( http://arxiv.org/abs/2207.00824v1 )

ライセンス: Link先を確認
Hongde Wu and Mingming Liu(参考訳) 現在、インテリジェントな高速道路交通網は、現代の交通インフラにおいて重要な役割を担っている。 可変速度制限(VSL)システムは高速道路の交通網で容易に実現でき、ドライバーの安全を向上して走行するための有用な動的速度制限情報を提供する。 このようなシステムは、通常安定したアドバイザリスピードを念頭に設計されており、ドライバーが速度に従えば、渋滞時に速度を上げたり減速したりすることなく、トラフィックを円滑に移動させることができる。 しかし、ドライバーがvslシステムによって支配される道路網を離れた時の車両の挙動の研究には、ほとんど注意が払われておらず、これは主に予期せぬ加速、減速、頻繁な車線変更を伴う可能性がある。 本稿では,VSL後の高速道路交通網における運転者の車線変更意図による交通流異常の検出に焦点をあてる。 具体的には、道路セグメントレベルにおいて、人気のあるモビリティシミュレータSUMOが生成するトラフィックフローデータにグラフモデリングを適用する。 次に,注意時間グラフ畳み込みニューラルネットワークである lane-gnn 法を用いて車線切替検出の性能を評価し,その性能を時間畳み込みニューラルネットワーク (tcnn) のベースラインと比較した。 実験の結果,提案したレーン-GNNは,運転者の車線変更意図を90秒以内に特定条件下で99.42%の精度で検出できることがわかった。 最後に, 学習モデルにいくつかの解釈手法を適用し, さらなる知見を提示する。

Nowadays, intelligent highway traffic network is playing an important role in modern transportation infrastructures. A variable speed limit (VSL) system can be facilitated in the highway traffic network to provide useful and dynamic speed limit information for drivers to travel with enhanced safety. Such system is usually designed with a steady advisory speed in mind so that traffic can move smoothly when drivers follow the speed, rather than speeding up whenever there is a gap and slowing down at congestion. However, little attention has been given to the research of vehicles' behaviours when drivers left the road network governed by a VSL system, which may largely involve unexpected acceleration, deceleration and frequent lane changes, resulting in chaos for the subsequent highway road users. In this paper, we focus on the detection of traffic flow anomaly due to drivers' lane change intention on the highway traffic networks after a VSL system. More specifically, we apply graph modelling on the traffic flow data generated by a popular mobility simulator, SUMO, at road segment levels. We then evaluate the performance of lane changing detection using the proposed Lane-GNN scheme, an attention temporal graph convolutional neural network, and compare its performance with a temporal convolutional neural network (TCNN) as our baseline. Our experimental results show that the proposed Lane-GNN can detect drivers' lane change intention within 90 seconds with an accuracy of 99.42% under certain assumptions. Finally, some interpretation methods are applied to the trained models with a view to further illustrate our findings.
翻訳日:2022-07-05 15:43:24 公開日:2022-07-02
# 視覚コンテキスト拡張対話システムによる人間と機械の調和的インタラクションの実現 : レビュー

Enabling Harmonious Human-Machine Interaction with Visual-Context Augmented Dialogue System: A Review ( http://arxiv.org/abs/2207.00782v1 )

ライセンス: Link先を確認
Hao Wang, Bin Guo, Yating Zeng, Yasan Ding, Chen Qiu, Ying Zhang, Lina Yao, Zhiwen Yu(参考訳) 自然言語と調和して人間とコミュニケーションすることを目的としたインテリジェント対話システムは、人工知能の時代における人間と機械の対話の進歩を促進するのに素晴らしい。 次第に複雑な人間とコンピュータの相互作用要求(マルチモーダル入力、時間感度など)により、従来のテキストベースの対話システムではより鮮明で便利な対話の要求を満たすことは困難である。 その結果、多様情報(画像やビデオの視覚的文脈、テキスト的対話履歴など)を知覚し理解することで人間とコミュニケーションする可能性を秘めた視覚コンテキスト拡張対話システム(vad)が、主要な研究パラダイムとなっている。 視覚とテキストのコンテキストの一貫性と相補性から、vadはエンゲージメントとコンテキスト認識応答を生成する可能性を秘めている。 vadの開発を描写するために、まずvadの概念とユニークな特徴を特徴付け、次にシステムワークフローを説明するための汎用システムアーキテクチャを提示します。 その後、いくつかの研究課題と代表的研究が詳細に研究され、続いて権威的ベンチマークが要約される。 本稿では,vadに対するオープンな課題と有望な研究動向,例えば,クロスモーダル対話コンテキストにおける人間-機械対話の認知メカニズム,知識強化型クロスモーダルセマンティクスインタラクションについて述べる。

The intelligent dialogue system, aiming at communicating with humans harmoniously with natural language, is brilliant for promoting the advancement of human-machine interaction in the era of artificial intelligence. With the gradually complex human-computer interaction requirements (e.g., multimodal inputs, time sensitivity), it is difficult for traditional text-based dialogue system to meet the demands for more vivid and convenient interaction. Consequently, Visual Context Augmented Dialogue System (VAD), which has the potential to communicate with humans by perceiving and understanding multimodal information (i.e., visual context in images or videos, textual dialogue history), has become a predominant research paradigm. Benefiting from the consistency and complementarity between visual and textual context, VAD possesses the potential to generate engaging and context-aware responses. For depicting the development of VAD, we first characterize the concepts and unique features of VAD, and then present its generic system architecture to illustrate the system workflow. Subsequently, several research challenges and representative works are detailed investigated, followed by the summary of authoritative benchmarks. We conclude this paper by putting forward some open issues and promising research trends for VAD, e.g., the cognitive mechanisms of human-machine dialogue under cross-modal dialogue context, and knowledge-enhanced cross-modal semantic interaction.
翻訳日:2022-07-05 15:38:57 公開日:2022-07-02
# 複雑な地形上での高速でアジャイルな四足歩行学習

Learning fast and agile quadrupedal locomotion over complex terrain ( http://arxiv.org/abs/2207.00797v1 )

ライセンス: Link先を確認
Xu Chang, Zhitong Zhang, Honglei An, Hongxu Ma, Qing Wei(参考訳) 本稿では,実ブラインド四足ロボット上で自然かつ安定してロコモーションを実現するロバストな制御器を提案する。 知覚情報だけで、四足ロボットは体長の10倍の最大速度で動き、様々な複雑な地形を通り抜けることができる。 コントローラはモデルフリーの強化学習によりシミュレーション環境で訓練される。 本稿では,提案するゆるい近傍制御アーキテクチャは,学習速度を保証できるだけでなく,実四足ロボットへの移動が容易な行動ネットワークを得る。 本研究では,訓練中にデータ対称性の損失が問題となり,左右対称四足ロボット構造における学習制御器の性能が不均衡に陥り,性能問題を解決するためにミラーワールドニューラルネットワークを提案する。 ミラーワールドネットワークで構成された学習コントローラは、ロボットを優れた反ゆらぎ能力を達成することができる。 トレーニングアーキテクチャでは、足の軌跡生成器のような特定の人間知識は使用されません。 学習したコントローラはロボットの歩行周波数と移動速度を調整でき、移動パターンは人工的に設計されたコントローラよりも自然で合理的である。 我々のコントローラーは優れた耐震性能を有し、学習したことのない移動速度に到達し、これまで見たことのない地形を横断できる優れた一般化能力を有する。

In this paper, we propose a robust controller that achieves natural and stably fast locomotion on a real blind quadruped robot. With only proprioceptive information, the quadruped robot can move at a maximum speed of 10 times its body length, and has the ability to pass through various complex terrains. The controller is trained in the simulation environment by model-free reinforcement learning. In this paper, the proposed loose neighborhood control architecture not only guarantees the learning rate, but also obtains an action network that is easy to transfer to a real quadruped robot. Our research finds that there is a problem of data symmetry loss during training, which leads to unbalanced performance of the learned controller on the left-right symmetric quadruped robot structure, and proposes a mirror-world neural network to solve the performance problem. The learned controller composed of the mirror-world network can make the robot achieve excellent anti-disturbance ability. No specific human knowledge such as a foot trajectory generator are used in the training architecture. The learned controller can coordinate the robot's gait frequency and locomotion speed, and the locomotion pattern is more natural and reasonable than the artificially designed controller. Our controller has excellent anti-disturbance performance, and has good generalization ability to reach locomotion speeds it has never learned and traverse terrains it has never seen before.
翻訳日:2022-07-05 15:38:31 公開日:2022-07-02
# 多層ネットワークを用いたツイートのグラフィカル表現のための感情分析

Emotion Analysis using Multi-Layered Networks for Graphical Representation of Tweets ( http://arxiv.org/abs/2207.00907v1 )

ライセンス: Link先を確認
Anna Nguyen, Antonio Longa, Massimiliano Luca, Joe Kaul, Gabriel Lopez(参考訳) 特定のテキストに対する聴衆の反応を予測することは、政治、研究、商業産業といった社会のいくつかの側面に不可欠である。 感性分析(SA)は、語彙・統計・深層学習の両方の手法を用いて、異なるサイズのテキストが肯定的、否定的、中立的な感情を示すかどうかを判断する有用な自然言語処理(NLP)技術である。 しかし、現在、独立したテキストのグループを分析し、セット全体から主要な感情を抽出するために使用できるツールが不足している。 そこで本研究では,複数階層ネットワーク(MLN)を用いたソーシャルメディアテキストをグラフィカルにモデル化し,独立したツイート集合間の関係を符号化する,MLTA(Multi-Layered Tweet Analyzer)と呼ばれる新しいアルゴリズムを提案する。 グラフ構造は、他の表現方法と比較して複雑なエコシステムにおける意味のある関係を捉えることができる。 最先端のグラフニューラルネットワーク(GNN)は、Tweet-MLNから情報を抽出し、抽出したグラフの特徴に基づいて予測を行う。 その結果、MLTAはより大きな感情から予測し、通常のポジティブ、ネガティブ、中立的な感情よりも正確な感情を提供するだけでなく、Twitterデータのグループレベルの正確な予測を可能にしている。

Anticipating audience reaction towards a certain piece of text is integral to several facets of society ranging from politics, research, and commercial industries. Sentiment analysis (SA) is a useful natural language processing (NLP) technique that utilizes both lexical/statistical and deep learning methods to determine whether different sized texts exhibit a positive, negative, or neutral emotion. However, there is currently a lack of tools that can be used to analyse groups of independent texts and extract the primary emotion from the whole set. Therefore, the current paper proposes a novel algorithm referred to as the Multi-Layered Tweet Analyzer (MLTA) that graphically models social media text using multi-layered networks (MLNs) in order to better encode relationships across independent sets of tweets. Graph structures are capable of capturing meaningful relationships in complex ecosystems compared to other representation methods. State of the art Graph Neural Networks (GNNs) are used to extract information from the Tweet-MLN and make predictions based on the extracted graph features. Results show that not only does the MLTA predict from a larger set of possible emotions, delivering a more accurate sentiment compared to the standard positive, negative or neutral, it also allows for accurate group-level predictions of Twitter data.
翻訳日:2022-07-05 15:38:10 公開日:2022-07-02
# 空間的・時間的・文法的尺度の異なる言語統計

Language statistics at different spatial, temporal, and grammatical scales ( http://arxiv.org/abs/2207.00709v1 )

ライセンス: Link先を確認
Fernanda S\'anchez-Puig, Rogelio Lozano-Aranda, Dante P\'erez-M\'endez, Ewan Colman, Alfredo J. Morales-Guzm\'an, Carlos Pineda, and Carlos Gershenson(参考訳) 統計言語学は、データが利用可能になるにつれて、ここ数十年でかなり進歩してきた。 これにより、研究者は言語の統計的性質が時間とともにどのように変化するかを研究できるようになった。 本研究では,twitterのデータを用いて,時間的(3~96時間間隔),空間的(3km~3000kmradii),文法的(モノグラムからペンタグラムまで)の階層的多様性を考慮した英語とスペイン語の検索を行った。 3つの尺度がすべて関連していることが分かります。 しかし、最も大きな変化は文法スケールの変化によるものである。 最も低い文法尺度(モノグラム)では、ランクの多様性曲線は、他の尺度、言語、国の値とは独立に最もよく似ている。 文法的なスケールが成長するにつれて、ランクの多様性曲線は、時間的スケールや空間的スケール、言語や国によって大きく変化する。 また、Twitter固有のトークン(絵文字、ハッシュタグ、ユーザーの言及など)の統計も調べる。 これらの特定の種類のトークンは、階数多様性関数としてシグモイド的な振る舞いを示す。 我々の結果は、普遍的と思われる言語統計学の側面を定量化し、バリエーションにつながる可能性があることを示唆する。

Statistical linguistics has advanced considerably in recent decades as data has become available. This has allowed researchers to study how statistical properties of languages change over time. In this work, we use data from Twitter to explore English and Spanish considering the rank diversity at different scales: temporal (from 3 to 96 hour intervals), spatial (from 3km to 3000+km radii), and grammatical (from monograms to pentagrams). We find that all three scales are relevant. However, the greatest changes come from variations in the grammatical scale. At the lowest grammatical scale (monograms), the rank diversity curves are most similar, independently on the values of other scales, languages, and countries. As the grammatical scale grows, the rank diversity curves vary more depending on the temporal and spatial scales, as well as on the language and country. We also study the statistics of Twitter-specific tokens: emojis, hashtags, and user mentions. These particular type of tokens show a sigmoid kind of behaviour as a rank diversity function. Our results are helpful to quantify aspects of language statistics that seem universal and what may lead to variations.
翻訳日:2022-07-05 15:07:58 公開日:2022-07-02
# 対数精度変換器は一様一様閾値回路である

Log-Precision Transformers are Constant-Depth Uniform Threshold Circuits ( http://arxiv.org/abs/2207.00729v1 )

ライセンス: Link先を確認
William Merrill and Ashish Sabharwal(参考訳) 入力長の対数精度(およびフィードフォワードサブネットが入力長の線形空間で計算可能である場合)を持つ変圧器ニューラルネットワークは、一定深さの均一しきい値回路でシミュレート可能であることを証明した。 したがって、そのような変換器は、定数深度多値しきい値回路で定義される言語のクラスである$\mathsf{TC}^0$の形式言語しか認識しない。 これは NLP の実践的主張と、計算複雑性理論における理論的予想の関連性を示している: "attention is all you need" (Vaswani et al., 2017)、すなわち、トランスフォーマーは全ての効率的な計算が可能であり、全ての効率的な計算可能問題がログ空間で解ける場合、すなわち$\mathsf L = \mathsf P$である。 また、任意の入力に対して一定深さのしきい値回路を評価する変換器を構築し、$\mathsf{tc}^0$ で表現可能な命令に変換器が従うことを証明します。

We prove that transformer neural networks with logarithmic precision in the input length (and where the feedforward subnetworks are computable using linear space in their input length) can be simulated by constant-depth uniform threshold circuits. Thus, such transformers only recognize formal languages in $\mathsf{TC}^0$, the class of languages defined by constant-depth, poly-size threshold circuits. This demonstrates a connection between a practical claim in NLP and a theoretical conjecture in computational complexity theory: "attention is all you need" (Vaswani et al., 2017), i.e., transformers are capable of all efficient computation, only if all efficiently computable problems can be solved with log space, i.e., $\mathsf L = \mathsf P$. We also construct a transformer that can evaluate any constant-depth threshold circuit on any input, proving that transformers can follow instructions that are representable in $\mathsf{TC}^0$.
翻訳日:2022-07-05 15:07:39 公開日:2022-07-02
# 順序とセマンティック一貫性を考慮した構文制御型知識グラフ・テキスト生成

Syntax Controlled Knowledge Graph-to-Text Generation with Order and Semantic Consistency ( http://arxiv.org/abs/2207.00719v1 )

ライセンス: Link先を確認
Jin Liu and Chongfeng Fan and Fengyu Zhou and Huijuan Xu(参考訳) 知識グラフ(kg)は大量の構造的知識を格納しているが、直接人間の理解は容易ではない。 知識グラフ・トゥ・テキスト(KG-to-text)生成は、KGから分かりやすい文を生成することを目的としている。 既存のkg-to-text生成手法では、このタスクを線形化kgを入力とするシーケンス-シーケンス生成タスクとして表現し、各時間ステップで復号された文語とkgノード語を簡単に選択することで、生成されたテキストとkgの一貫性の問題を検討する。 しかし、線形化kg順序はデータ駆動最適化を伴わないヒューリスティック探索によって一般に得られる。 本稿では,キャプションから抽出した注文監督下での知識記述順序予測を最適化し,構文的・意味的正則化により生成した文とKGの一貫性をさらに向上する。 KGから単語をコピーする位置を制限するためにPOS構文タグを組み込み、各単語の局所的文脈における意味的適合性を評価するために意味的文脈スコアリング関数を用いて、生成された文中の各単語を復号する。 大規模な実験はWebNLGとDARTの2つのデータセットで行われ、最先端のパフォーマンスを達成する。

The knowledge graph (KG) stores a large amount of structural knowledge, while it is not easy for direct human understanding. Knowledge graph-to-text (KG-to-text) generation aims to generate easy-to-understand sentences from the KG, and at the same time, maintains semantic consistency between generated sentences and the KG. Existing KG-to-text generation methods phrase this task as a sequence-to-sequence generation task with linearized KG as input and consider the consistency issue of the generated texts and KG through a simple selection between decoded sentence word and KG node word at each time step. However, the linearized KG order is commonly obtained through a heuristic search without data-driven optimization. In this paper, we optimize the knowledge description order prediction under the order supervision extracted from the caption and further enhance the consistency of the generated sentences and KG through syntactic and semantic regularization. We incorporate the Part-of-Speech (POS) syntactic tags to constrain the positions to copy words from the KG and employ a semantic context scoring function to evaluate the semantic fitness for each word in its local context when decoding each word in the generated sentence. Extensive experiments are conducted on two datasets, WebNLG and DART, and achieve state-of-the-art performances.
翻訳日:2022-07-05 14:44:13 公開日:2022-07-02
# 自動運転車の軌道計画における長距離予測の不確かさ

Long-Tail Prediction Uncertainty Aware Trajectory Planning for Self-driving Vehicles ( http://arxiv.org/abs/2207.00788v1 )

ライセンス: Link先を確認
Weitao Zhou, Zhong Cao, Nanshan Deng, Xiaoyu Liu, Kun Jiang and Diange Yang(参考訳) 自動運転の典型的な軌道プランナーは通常、周囲の障害物の将来の挙動を予測することに依存する。 近年,深層学習に基づく予測モデルが注目されている。 しかし、近年の研究では、ロングテールの運転シナリオ分布に従ってデータセットでトレーニングされたディープラーニングモデルは、"テール"における大きな予測エラーに苦しめられ、プランナーの失敗に繋がる可能性がある。 この目的のために、この研究は、スパースデータによる高い誤差を定量化する予測モデルの不確実性の概念を定義する。 さらに,このような予測の不確実性を考慮した軌道プランナーを提案する。 まず、アンサンブルネットワーク構造により、トレーニングデータ不足による予測モデルの不確実性を推定する。 そして、予測の不確実性から生じる最悪のケースを考慮した軌道プランナーを設計する。 提案手法は,データ不足による予測の不確実性下での軌道計画の安全性を向上できることを示す。 同時に、十分なデータがあれば、フレームワークが保守的な結果をもたらすことはないでしょう。 この技術は、現実世界の長距離データ配信の下で自動運転車の安全性と信頼性を向上させるのに役立つ。

A typical trajectory planner of autonomous driving usually relies on predicting the future behavior of surrounding obstacles. In recent years, prediction models based on deep learning have been widely used due to their impressive performance. However, recent studies have shown that deep learning models trained on a dataset following a long-tailed driving scenario distribution will suffer from large prediction errors in the "tails," which might lead to failures of the planner. To this end, this work defines a notion of prediction model uncertainty to quantify high errors due to sparse data. Moreover, this work proposes a trajectory planner to consider such prediction uncertainty for safer performance. Firstly, the prediction model's uncertainty due to insufficient training data is estimated by an ensemble network structure. Then a trajectory planner is designed to consider the worst-case arising from prediction uncertainty. The results show that the proposed method can improve the safety of trajectory planning under the prediction uncertainty caused by insufficient data. At the same time, with sufficient data, the framework will not lead to overly conservative results. This technology helps to improve the safety and reliability of autonomous vehicles under the long-tail data distribution of the real world.
翻訳日:2022-07-05 14:43:49 公開日:2022-07-02
# カーネルによる自律エージェントの認知アーキテクチャ

Kernel Based Cognitive Architecture for Autonomous Agents ( http://arxiv.org/abs/2207.00822v1 )

ライセンス: Link先を確認
Alexander Serov(参考訳) 現代の認知アーキテクチャの主要な問題の一つは、認知活動の過程をモデル化するための過剰なスキーマ的アプローチである。 これは、所定の知覚パターンのセットを使わずに精神機能を再現できる普遍的なアーキテクチャの作成を許可しない。 本稿では,認知機能構築への進化的アプローチについて考察する。 このアプローチの基盤は、自律エージェントの知的機能を一貫して生成する機能的カーネルの使用である。 本稿では,シンボル創発問題に基づくエージェントの進化を保証する認知アーキテクチャについて考察する。 エージェントの認知能力の進化は、構成主義の理論に基づいて記述される。

One of the main problems of modern cognitive architectures is an excessively schematic approach to modeling the processes of cognitive activity. It does not allow the creation of a universal architecture that would be capable of reproducing mental functions without using a predetermined set of perceptual patterns. This paper considers an evolutionary approach to creating a cognitive functionality. The basis of our approach is the use of the functional kernel which consistently generates the intellectual functions of an autonomous agent. We consider a cognitive architecture which ensures the evolution of the agent on the basis of Symbol Emergence Problem solution. Evolution of cognitive abilities of the agent is described on the basis of the theory of constructivism.
翻訳日:2022-07-05 14:43:33 公開日:2022-07-02
# cova: 圧縮ドメイン分析を利用してビデオ分析を高速化

CoVA: Exploiting Compressed-Domain Analysis to Accelerate Video Analytics ( http://arxiv.org/abs/2207.00588v1 )

ライセンス: Link先を確認
Jinwoo Hwang, Minsu Kim, Daeun Kim, Seungho Nam, Yoonsung Kim, Dohee Kim, Hardik Sharma, Jongse Park(参考訳) 現代の振り返り分析システムは、ディープニューラルネットワーク(DNN)のボトルネックを軽減するためにカスケードアーキテクチャを活用している。 しかし,既存のカスケードは,1)デコードボトルネックを無視あるいは回避し,前処理に多大な計算・記憶コストを支払うこと,2)時間的クエリに特化して空間的クエリサポートが欠如していること,の2つの制限がある。 本稿では,デコードボトルネックに対処するため,圧縮領域と画素領域のカスケード計算を分割した新しいカスケードアーキテクチャCoVAを提案する。 CoVAカスケードは、最初の2段階を圧縮領域で実行し、最後の1段階をピクセル領域で実行する3つの主要なステージに解析する。 まず、covaは一連の圧縮フレーム(トラックと呼ばれる)上の移動物体(ブロブと呼ばれる)の発生を検出する。 そして、トラック結果を用いて、CoVAはラベル情報を取得するために最小限のフレーム群を選択し、それをデコードして完全なDNNを計算し、デコードボトルネックを緩和する。 最後に、CoVAはトラックとラベルを関連付け、ユーザが時間的および空間的なクエリを処理できる最終的な分析結果を生成する。 実験の結果,CoVAは最新のカスケードシステムよりも4.8倍のスループット向上を実現し,精度の低下を抑えることができた。

Modern retrospective analytics systems leverage cascade architecture to mitigate bottleneck for computing deep neural networks (DNNs). However, the existing cascades suffer two limitations: (1) decoding bottleneck is either neglected or circumvented, paying significant compute and storage cost for pre-processing; and (2) the systems are specialized for temporal queries and lack spatial query support. This paper presents CoVA, a novel cascade architecture that splits the cascade computation between compressed domain and pixel domain to address the decoding bottleneck, supporting both temporal and spatial queries. CoVA cascades analysis into three major stages where the first two stages are performed in compressed domain while the last one in pixel domain. First, CoVA detects occurrences of moving objects (called blobs) over a set of compressed frames (called tracks). Then, using the track results, CoVA prudently selects a minimal set of frames to obtain the label information and only decode them to compute the full DNNs, alleviating the decoding bottleneck. Lastly, CoVA associates tracks with labels to produce the final analysis results on which users can process both temporal and spatial queries. Our experiments demonstrate that CoVA offers 4.8x throughput improvement over modern cascade systems, while imposing modest accuracy loss.
翻訳日:2022-07-05 14:40:01 公開日:2022-07-02
# タイムスタンプを監督する時間的行動セグメンテーションの教師へ

Turning to a Teacher for Timestamp Supervised Temporal Action Segmentation ( http://arxiv.org/abs/2207.00712v1 )

ライセンス: Link先を確認
Yang Zhao and Yan Song(参考訳) ビデオにおける時間的なアクションセグメンテーションが最近注目を集めている。 タイムスタンプの監督は、このタスクに費用対効果がある。 モデル最適化のためのさらなる情報を得るため、既存の手法ではセグメンテーションモデルとタイムスタンプアノテーションの出力に基づいて擬似フレームワイズラベルを反復生成した。 しかし、この練習はトレーニング中にノイズと振動をもたらし、パフォーマンスの低下につながる可能性がある。 そこで本研究では,モデル最適化のプロセスの安定化を支援するため,教師モデルを導入し,時間スタンプによる時間的行動セグメンテーションのための新しいフレームワークを提案する。 教師モデルはセグメンテーションモデルのアンサンブルとして見ることができ、ノイズを抑え、擬似ラベルの安定性を向上させるのに役立つ。 さらに,より集中的かつ凝集性の高い部分的平滑化損失を導入し,行動インスタンス内の予測確率の円滑な遷移を強制する。 3つのデータセットを用いた実験により,本手法は最先端手法よりも優れており,アノテーションコストがはるかに低い完全教師付きメソッドと比較可能であった。

Temporal action segmentation in videos has drawn much attention recently. Timestamp supervision is a cost-effective way for this task. To obtain more information to optimize the model, the existing method generated pseudo frame-wise labels iteratively based on the output of a segmentation model and the timestamp annotations. However, this practice may introduce noise and oscillation during the training, and lead to performance degeneration. To address this problem, we propose a new framework for timestamp supervised temporal action segmentation by introducing a teacher model parallel to the segmentation model to help stabilize the process of model optimization. The teacher model can be seen as an ensemble of the segmentation model, which helps to suppress the noise and to improve the stability of pseudo labels. We further introduce a segmentally smoothing loss, which is more focused and cohesive, to enforce the smooth transition of the predicted probabilities within action instances. The experiments on three datasets show that our method outperforms the state-of-the-art method and performs comparably against the fully-supervised methods at a much lower annotation cost.
翻訳日:2022-07-05 14:39:35 公開日:2022-07-02
# ノイズとエッジに基づくデュアルブランチ画像のマニピュレーション検出

Noise and Edge Based Dual Branch Image Manipulation Detection ( http://arxiv.org/abs/2207.00724v1 )

ライセンス: Link先を確認
Zhongyuan Zhang, Yi Qian, Yanxiang Zhao, Lin Zhu, and Jinjin Wang(参考訳) 画像の意味的内容にもっとフォーカスする通常のコンピュータビジョンタスクとは異なり、画像操作検出タスクは画像操作の微妙な情報により多くの注意を払う。 本稿では、改良された制約付き畳み込みによって抽出されたノイズ画像を、元の画像の代わりにモデルの入力として使用し、より微妙な操作の痕跡を得る。 一方、高解像度ブランチとコンテキストブランチで構成されるデュアルブランチネットワークは、アーティファクトのトレースを可能な限りキャプチャするために使用される。 一般に、ほとんどの操作は操作エッジに操作アーティファクトを残します。 特別に設計された操作エッジ検出モジュールはデュアルブランチネットワークに基づいて構築され、これらのアーティファクトをよりよく識別する。 画像中の画素間の相関は、その距離と密接に関連している。 2つのピクセルが遠くなるほど相関は弱くなる。 画素間の相関をよりよく記述するために、自己アテンションモジュールに距離係数を加える。 4つの公開画像操作データセットの実験結果から,本モデルの有効性が示された。

Unlike ordinary computer vision tasks that focus more on the semantic content of images, the image manipulation detection task pays more attention to the subtle information of image manipulation. In this paper, the noise image extracted by the improved constrained convolution is used as the input of the model instead of the original image to obtain more subtle traces of manipulation. Meanwhile, the dual-branch network, consisting of a high-resolution branch and a context branch, is used to capture the traces of artifacts as much as possible. In general, most manipulation leaves manipulation artifacts on the manipulation edge. A specially designed manipulation edge detection module is constructed based on the dual-branch network to identify these artifacts better. The correlation between pixels in an image is closely related to their distance. The farther the two pixels are, the weaker the correlation. We add a distance factor to the self-attention module to better describe the correlation between pixels. Experimental results on four publicly available image manipulation datasets demonstrate the effectiveness of our model.
翻訳日:2022-07-05 14:39:17 公開日:2022-07-02
# 時空間ビデオグラウンドのためのガウスカーネルを用いたクロスモーダルネットワーク

Gaussian Kernel-based Cross Modal Network for Spatio-Temporal Video Grounding ( http://arxiv.org/abs/2207.00744v1 )

ライセンス: Link先を確認
Zeyu Xiong (1), Daizong Liu (2), Pan Zhou (1) ((1) The Hubei Engineering Research Center on Big Data Security, School of Cyber Science and Engineering, Huazhong University of Science and Technology, (2) Wangxuan Institute of Computer Technology, Peking University)(参考訳) STVG(Spatial-Temporal Video Grounding)は,対象物の時空間管を自然言語クエリに従って意味的にローカライズすることを目的とした課題である。 これまでのほとんどの作品は、Faster R-CNNが抽出したアンカーボックスに大きく依存するだけでなく、ビデオは一連の個々のフレームと見なすだけで、時間的モデリングに欠けていた。 本稿では,ガウス・ケルネルをベースとしたCross Modal Network (GKCMN) と呼ばれる,STVGのアンカーフリーフレームワークを提案する。 具体的には,各ビデオフレームのガウスカーネルに基づくヒートマップを用いて,クエリ関連オブジェクトの探索を行う。 さらに、フレーム間の空間的関係と時間的関係を両立させるために、混合シリアルおよび並列接続ネットワークを開発した。 vidstgデータセットの実験結果は,提案するgkcmnの有効性を示す。

Spatial-Temporal Video Grounding (STVG) is a challenging task which aims to localize the spatio-temporal tube of the interested object semantically according to a natural language query. Most previous works not only severely rely on the anchor boxes extracted by Faster R-CNN, but also simply regard the video as a series of individual frames, thus lacking their temporal modeling. Instead, in this paper, we are the first to propose an anchor-free framework for STVG, called Gaussian Kernel-based Cross Modal Network (GKCMN). Specifically, we utilize the learned Gaussian Kernel-based heatmaps of each video frame to locate the query-related object. A mixed serial and parallel connection network is further developed to leverage both spatial and temporal relations among frames for better grounding. Experimental results on VidSTG dataset demonstrate the effectiveness of our proposed GKCMN.
翻訳日:2022-07-05 14:39:02 公開日:2022-07-02
# PhotoScene: 室内シーンのためのフォトリアリスティック素材と照明伝達

PhotoScene: Photorealistic Material and Lighting Transfer for Indoor Scenes ( http://arxiv.org/abs/2207.00757v1 )

ライセンス: Link先を確認
Yu-Ying Yeh, Zhengqin Li, Yannick Hold-Geoffroy, Rui Zhu, Zexiang Xu, Milo\v{s} Ha\v{s}an, Kalyan Sunkavalli, Manmohan Chandraker(参考訳) ほとんどの屋内3dシーン再構成手法は、3dジオメトリとシーンレイアウトの復元に焦点を当てている。 そこで本研究では,シーンの入力画像(s)と,ほぼ整列したcad形状(自動あるいは手動で再構成)を取り,高品質な材料と類似の照明を備えたフォトリアリスティックなデジタル双生児を製作する枠組みであるphotosceneを提案する。 プロシージャ素材グラフを用いてシーン素材をモデル化し、そのようなグラフはフォトリアリスティックおよび解像度非依存の材料を表す。 これらのグラフのパラメータとそれらのテクスチャスケールと回転を最適化し、シーンライティングにより、異なるレンダリング層を介して入力画像に最適なマッチングを行う。 ScanNet, SUN RGB-D, ストック写真からのオブジェクトとレイアウトの再構成について評価し, 任意の視点, ズーム, ライティングで再レンダリング可能な高品質で完全照度の高い3Dシーンを再構成できることを実証した。

Most indoor 3D scene reconstruction methods focus on recovering 3D geometry and scene layout. In this work, we go beyond this to propose PhotoScene, a framework that takes input image(s) of a scene along with approximately aligned CAD geometry (either reconstructed automatically or manually specified) and builds a photorealistic digital twin with high-quality materials and similar lighting. We model scene materials using procedural material graphs; such graphs represent photorealistic and resolution-independent materials. We optimize the parameters of these graphs and their texture scale and rotation, as well as the scene lighting to best match the input image via a differentiable rendering layer. We evaluate our technique on objects and layout reconstructions from ScanNet, SUN RGB-D and stock photographs, and demonstrate that our method reconstructs high-quality, fully relightable 3D scenes that can be re-rendered under arbitrary viewpoints, zooms and lighting.
翻訳日:2022-07-05 14:38:44 公開日:2022-07-02
# 数ショット細粒画像分類のためのトランスフォーマにおけるクロスイメージオブジェクト意味関係の学習

Learning Cross-Image Object Semantic Relation in Transformer for Few-Shot Fine-Grained Image Classification ( http://arxiv.org/abs/2207.00784v1 )

ライセンス: Link先を確認
Bo Zhang, Jiakang Yuan, Baopu Li, Tao Chen, Jiayuan Fan, Botian Shi(参考訳) わずかなきめ細かい学習は、クエリイメージを細かい違いのあるサポートカテゴリの1つに分類することを目的としている。 ディープニューラルネットワークによる異なるオブジェクトの局所的な違いの学習は成功したが、トランスフォーマティブベースのアーキテクチャにおけるクエリサポートのクロスイメージオブジェクトセマンティクス関係をどのように活用するかは、わずかな詳細シナリオでは未検討のままである。 本研究では,双方向かつ対称な方法で画像間のオブジェクト意味関係マイニングを実現するためのトランスフォーマティブに基づく2重ヘリックスモデル,helixformerを提案する。 HelixFormerは2つのステップから構成される。 1)別枝間の関係マイニングプロセス(rmp) 2) 各部門内での表現促進プロセス(REP) 設計されたRMPにより、各ブランチは、他のブランチからの情報を用いて、細粒度オブジェクトレベルのクロスイメージセマンティックリレーショナルマップ(CSRM)を抽出し、セマンティック関連ローカルオブジェクト領域におけるより良いクロスイメージインタラクションを実現する。 さらに,csrmsの支援により,各ブランチで検出された意味的に関連した局所領域の抽出特徴を強化し,細粒度オブジェクトの微妙な特徴差を識別するモデルの能力を高めた。 5つの公開きめのベンチマークで実施された大規模な実験により、HelixFormerは、細粒度オブジェクトを認識するためのクロスイメージオブジェクトセマンティックリレーションマッチングを効果的に強化し、1ショットと5ショットのシナリオ下でのほとんどの最先端メソッドよりもはるかに優れたパフォーマンスを実現している。 私たちのコードは、https://github.com/JiakangYuan/HelixFormerで利用可能です。

Few-shot fine-grained learning aims to classify a query image into one of a set of support categories with fine-grained differences. Although learning different objects' local differences via Deep Neural Networks has achieved success, how to exploit the query-support cross-image object semantic relations in Transformer-based architecture remains under-explored in the few-shot fine-grained scenario. In this work, we propose a Transformer-based double-helix model, namely HelixFormer, to achieve the cross-image object semantic relation mining in a bidirectional and symmetrical manner. The HelixFormer consists of two steps: 1) Relation Mining Process (RMP) across different branches, and 2) Representation Enhancement Process (REP) within each individual branch. By the designed RMP, each branch can extract fine-grained object-level Cross-image Semantic Relation Maps (CSRMs) using information from the other branch, ensuring better cross-image interaction in semantically related local object regions. Further, with the aid of CSRMs, the developed REP can strengthen the extracted features for those discovered semantically-related local regions in each branch, boosting the model's ability to distinguish subtle feature differences of fine-grained objects. Extensive experiments conducted on five public fine-grained benchmarks demonstrate that HelixFormer can effectively enhance the cross-image object semantic relation matching for recognizing fine-grained objects, achieving much better performance over most state-of-the-art methods under 1-shot and 5-shot scenarios. Our code is available at: https://github.com/JiakangYuan/HelixFormer
翻訳日:2022-07-05 14:38:25 公開日:2022-07-02
# 境界誘導カモフラージュ物体検出

Boundary-Guided Camouflaged Object Detection ( http://arxiv.org/abs/2207.00794v1 )

ライセンス: Link先を確認
Yujia Sun, Shuo Wang, Chenglizhao Chen, Tian-Zhu Xiang(参考訳) カモフラージュされた物体検出(COD: Camouflaged Object Detection)は、エレガントに周囲に混ざり合った物体を分別する手法であり、重要な課題である。 既存のディープラーニング手法は、カモフラージュされたオブジェクトを完全かつ微細なオブジェクト構造で正確に識別することの難しさに陥ることが多い。 そこで本稿では,カモフラージュ物体検出のための境界誘導ネットワーク(BGNet)を提案する。 提案手法では,CODの表現学習を誘導するために,オブジェクト構造を強調させる特徴をモデルに生成させ,精度の高い境界位置検出を行うために,重要かつ余分なオブジェクト関連エッジセマンティクスを探索する。 3つの挑戦的なベンチマークデータセットに対する大規模な実験により、我々のBGNetは、4つの広く使用されている評価指標の下で既存の18の最先端メソッドよりも大幅に優れています。 私たちのコードは、https://github.com/thograce/BGNet.comで公開されています。

Camouflaged object detection (COD), segmenting objects that are elegantly blended into their surroundings, is a valuable yet challenging task. Existing deep-learning methods often fall into the difficulty of accurately identifying the camouflaged object with complete and fine object structure. To this end, in this paper, we propose a novel boundary-guided network (BGNet) for camouflaged object detection. Our method explores valuable and extra object-related edge semantics to guide representation learning of COD, which forces the model to generate features that highlight object structure, thereby promoting camouflaged object detection of accurate boundary localization. Extensive experiments on three challenging benchmark datasets demonstrate that our BGNet significantly outperforms the existing 18 state-of-the-art methods under four widely-used evaluation metrics. Our code is publicly available at: https://github.com/thograce/BGNet.
翻訳日:2022-07-05 14:37:37 公開日:2022-07-02
# less is more: 甲状腺結節診断のための適応型カリキュラム学習

Less is More: Adaptive Curriculum Learning for Thyroid Nodule Diagnosis ( http://arxiv.org/abs/2207.00807v1 )

ライセンス: Link先を確認
Haifan Gong, Hui Cheng, Yifan Xie, Shuangyi Tan, Guanqi Chen, Fei Chen, Guanbin Li(参考訳) 甲状腺結節分類は、特定の超音波画像に基づいて結節が良性であるか悪性かを決定することを目的とする。 しかし, 臨床医学における黄金基準である細胞学的生検で得られたラベルは, TI-RADS基準と必ずしも一致しない。 この2つの情報の違いは、既存のディープラーニングベースの分類方法に不確定性をもたらします。 そこで本研究では,不整合ラベルを用いてサンプルを適応的に発見・廃棄する適応型カリキュラム学習(acl)フレームワークを提案する。 具体的には、ACLはハードサンプルとモデル確実性の両方を考慮して、サンプルを一貫性のないラベルで識別する閾値を正確に決定することができる。 また,甲状腺結節に関する今後の研究を促進するため,甲状腺結節分類データセットであるtncdを寄贈した。 3つの異なるバックボーンネットワークに基づくtncdの広範囲な実験結果が,提案手法の優位性を示すだけでなく,非一貫性ラベルで戦略的にサンプルを破棄するより少ない原則が性能向上をもたらすことを証明した。 ソースコードとデータはhttps://github.com/chenghui-666/ACL/で入手できる。

Thyroid nodule classification aims at determining whether the nodule is benign or malignant based on a given ultrasound image. However, the label obtained by the cytological biopsy which is the golden standard in clinical medicine is not always consistent with the ultrasound imaging TI-RADS criteria. The information difference between the two causes the existing deep learning-based classification methods to be indecisive. To solve the Inconsistent Label problem, we propose an Adaptive Curriculum Learning (ACL) framework, which adaptively discovers and discards the samples with inconsistent labels. Specifically, ACL takes both hard sample and model certainty into account, and could accurately determine the threshold to distinguish the samples with Inconsistent Label. Moreover, we contribute TNCD: a Thyroid Nodule Classification Dataset to facilitate future related research on the thyroid nodules. Extensive experimental results on TNCD based on three different backbone networks not only demonstrate the superiority of our method but also prove that the less-is-more principle which strategically discards the samples with Inconsistent Label could yield performance gains. Source code and data are available at https://github.com/chenghui-666/ACL/.
翻訳日:2022-07-05 14:37:21 公開日:2022-07-02
# imlovenet:低オーバーラップポイントクラウドペアのための画像支援登録ネットワーク

ImLoveNet: Misaligned Image-supported Registration Network for Low-overlap Point Cloud Pairs ( http://arxiv.org/abs/2207.00826v1 )

ライセンス: Link先を確認
Honghua Chen, Zeyong Wei, Yabin Xu, Mingqiang Wei, Jun Wang(参考訳) ペア化されたポイントクラウド間の低オーバーラップ領域は、キャプチャーされた特徴を非常に低信頼にし、最先端モデルが品質の悪いクラウド登録をポイントとする。 最先端の登録モデルの性能を高めるために、2つの低オーバーラップポイントクラウド間の中間的かつ不整合のイメージを活用することは可能ですか? そこで本研究では,ImLoveNetと呼ばれる低オーバーラップ点雲対に対する画像対応登録ネットワークを提案する。 ImLoveNetはまず、異なるモードにわたるトリプルディープ機能を学び、次にこれら機能を2段階の分類器にエクスポートすることで、2点クラウド間の高信頼重複領域を段階的に取得する。 したがって、予測重複領域にソフト対応が確立され、登録のための正確な剛性変換が生じる。 imlovenetは実装が簡単で効果的です。 1) 不一致画像は、2つの低オーバーラップ点雲に対してより明確な重なり情報を提供し、重なり部分の配置をより良くする。 2)より深い特徴を抽出するための幾何学的知識を含む。 3)3D点雲の基準フレームに対して撮像装置の外部パラメータを必要としない。 異なる種類のベンチマークに対する広範囲な質的および定量的評価は、最先端のアプローチよりもImLoveNetの有効性と優位性を示している。

Low-overlap regions between paired point clouds make the captured features very low-confidence, leading cutting edge models to point cloud registration with poor quality. Beyond the traditional wisdom, we raise an intriguing question: Is it possible to exploit an intermediate yet misaligned image between two low-overlap point clouds to enhance the performance of cutting-edge registration models? To answer it, we propose a misaligned image supported registration network for low-overlap point cloud pairs, dubbed ImLoveNet. ImLoveNet first learns triple deep features across different modalities and then exports these features to a two-stage classifier, for progressively obtaining the high-confidence overlap region between the two point clouds. Therefore, soft correspondences are well established on the predicted overlap region, resulting in accurate rigid transformations for registration. ImLoveNet is simple to implement yet effective, since 1) the misaligned image provides clearer overlap information for the two low-overlap point clouds to better locate overlap parts; 2) it contains certain geometry knowledge to extract better deep features; and 3) it does not require the extrinsic parameters of the imaging device with respect to the reference frame of the 3D point cloud. Extensive qualitative and quantitative evaluations on different kinds of benchmarks demonstrate the effectiveness and superiority of our ImLoveNet over state-of-the-art approaches.
翻訳日:2022-07-05 14:37:01 公開日:2022-07-02
# プライバシアウェアトレーニングデータを用いた顔モーフィング攻撃検出

Face Morphing Attack Detection Using Privacy-Aware Training Data ( http://arxiv.org/abs/2207.00899v1 )

ライセンス: Link先を確認
Marija Ivanovska, Andrej Kronov\v{s}ek, Peter Peer, Vitomir \v{S}truc, Borut Batagelj(参考訳) Images of morphed faces pose a serious threat to face recognition--based security systems, as they can be used to illegally verify the identity of multiple people with a single morphed image. Modern detection algorithms learn to identify such morphing attacks using authentic images of real individuals. This approach raises various privacy concerns and limits the amount of publicly available training data. In this paper, we explore the efficacy of detection algorithms that are trained only on faces of non--existing people and their respective morphs. この目的のために、2つの専用アルゴリズムが合成データを用いて訓練され、3つの実世界のデータセット(FRLL-Morphs、FERET-Morphs、FRGC-Morphs)で評価される。 以上の結果から, 合成顔画像は検出アルゴリズムの訓練プロセスにうまく利用でき, 現実のシナリオによく適応できることがわかった。

Images of morphed faces pose a serious threat to face recognition--based security systems, as they can be used to illegally verify the identity of multiple people with a single morphed image. Modern detection algorithms learn to identify such morphing attacks using authentic images of real individuals. This approach raises various privacy concerns and limits the amount of publicly available training data. In this paper, we explore the efficacy of detection algorithms that are trained only on faces of non--existing people and their respective morphs. To this end, two dedicated algorithms are trained with synthetic data and then evaluated on three real-world datasets, i.e.: FRLL-Morphs, FERET-Morphs and FRGC-Morphs. Our results show that synthetic facial images can be successfully employed for the training process of the detection algorithms and generalize well to real-world scenarios.
翻訳日:2022-07-05 14:36:29 公開日:2022-07-02
# ルール学習とサブグループ探索技術を用いたシステムレベルデバッグの高速化

Accelerating System-Level Debug Using Rule Learning and Subgroup Discovery Techniques ( http://arxiv.org/abs/2207.00622v1 )

ライセンス: Link先を確認
Zurab Khasidashvili(参考訳) 本稿では,ルールベース手法を用いてシステムレベルのデバッグを高速化するルートキャリング手法を提案する。 この手順と、デバッグの労力を減らすために高品質なデバッグヒントを提供する方法について説明する。 これには、多くのテストのログからエンジニアリング機能のヒューリスティックスや、強力なデバッグヒントを生成するデータ分析技術が含まれている。 ケーススタディでは,これらの手法をパワーマネージメント(PM)設計の特徴であるPackage-C8の根源的故障に適用し,その有効性を示した。 さらに,ルートキャスティング体験と再利用結果のマイニング,将来のデバッグ活動の促進,検証専門家への依存の軽減などを提案する。 これらのテクニックは、複雑なハードウェア、ソフトウェア、ファームウェアシステム、プレシリコン、ポストシリコンといった様々なレベルでの検証活動にも有用であると考えています。

We propose a root-causing procedure for accelerating system-level debug using rule-based techniques. We describe the procedure and how it provides high quality debug hints for reducing the debug effort. This includes the heuristics for engineering features from logs of many tests, and the data analytics techniques for generating powerful debug hints. As a case study, we used these techniques for root-causing failures of the Power Management (PM) design feature Package-C8 and showed their effectiveness. Furthermore, we propose an approach for mining the root-causing experience and results for reuse, to accelerate future debug activities and reduce dependency on validation experts. We believe that these techniques are beneficial also for other validation activities at different levels of abstraction, for complex hardware, software and firmware systems, both pre-silicon and post-silicon.
翻訳日:2022-07-05 14:06:00 公開日:2022-07-02
# アンサンブル時間予測誤差を用いた教師なしシンボリック音楽セグメンテーション

Unsupervised Symbolic Music Segmentation using Ensemble Temporal Prediction Errors ( http://arxiv.org/abs/2207.00760v1 )

ライセンス: Link先を確認
Shahaf Bassan, Yossi Adi, Jeffrey S. Rosenschein(参考訳) シンボリック・ミュージック・セグメンテーション(symbolic music segmentation)は、シンボリック・メロディーを、旋律句のようなより小さな意味のあるグループに分割する過程である。 シンボリック音楽のセグメント化のための教師なし手法を提案する。 提案モデルは,時間的予測誤差モデルのアンサンブルに基づく。 トレーニング中、各モデルは次のトークンを予測し、音楽的フレーズの変化を特定する。 テスト時にセグメント候補を選択するためにピーク検出アルゴリズムを実行する。 最後に、アンサンブルに参加している各モデルの予測を集約し、最終的なセグメンテーションを予測する。 その結果,提案手法はFスコアとR値を考慮した場合,教師なし設定下でのEssen Folksongデータセットの最先端性能に達することが示唆された。 さらに,各モデルコンポーネントの最終的な結果への寄与度を評価するため,アブレーション研究を行った。 提案手法は,教師なし手法と教師なし手法のギャップを埋めることを考慮した将来の研究において,改善の余地を残している教師付き設定よりも劣っている。

Symbolic music segmentation is the process of dividing symbolic melodies into smaller meaningful groups, such as melodic phrases. We proposed an unsupervised method for segmenting symbolic music. The proposed model is based on an ensemble of temporal prediction error models. During training, each model predicts the next token to identify musical phrase changes. While at test time, we perform a peak detection algorithm to select segment candidates. Finally, we aggregate the predictions of each of the models participating in the ensemble to predict the final segmentation. Results suggest the proposed method reaches state-of-the-art performance on the Essen Folksong dataset under the unsupervised setting when considering F-Score and R-value. We additionally provide an ablation study to better assess the contribution of each of the model components to the final results. As expected, the proposed method is inferior to the supervised setting, which leaves room for improvement in future research considering closing the gap between unsupervised and supervised methods.
翻訳日:2022-07-05 14:05:45 公開日:2022-07-02
# AIoT対応自律型認知症モニタリングシステム

An AIoT-enabled Autonomous Dementia Monitoring System ( http://arxiv.org/abs/2207.00804v1 )

ライセンス: Link先を確認
Xingyu Wu and Jinyang Li(参考訳) 高齢者認知症患者をスマートホームで監視する自律型人工物インターネット(AIoT)システムについて紹介する。 本システムは主に、リアルタイム異常活動監視と疾患関連活動の傾向予測であるセンサデータのアクティビティ推論に基づく2つの機能を実装している。 特にcasasデータセットは、活動推論のためにランダムフォレスト(rf)モデルをトレーニングするために使用される。 そして、アクティビティ推論の出力データによって訓練された別のRFモデルを用いて、異常なアクティビティ監視を行う。 特にRFは、精度、時間効率、柔軟性、解釈可能性の間のトレードオフのバランスのために、これらのタスクのために選択される。 さらに,Long Short Term Memory (LSTM) を用いて,患者の疾患関連活動傾向を予測する。 その結果,活動推定と異常活動検出用に設計された2つのrf分類器の精度は,それぞれ99%,94%であった。 さらに、睡眠の期間を例として、LSTMモデルは正確で明らかな将来のトレンド予測を達成する。

An autonomous Artificial Internet of Things (AIoT) system for elderly dementia patients monitoring in a smart home is presented. The system mainly implements two functions based on the activity inference of the sensor data, which are real time abnormal activity monitoring and trend prediction of disease related activities. Specifically, CASAS dataset is employed to train a Random Forest (RF) model for activity inference. Then, another RF model trained by the output data of activity inference is used for abnormal activity monitoring. Particularly, RF is chosen for these tasks because of its balanced trade offs between accuracy, time efficiency, flexibility, and interpretability. Moreover, Long Short Term Memory (LSTM) is utilised to forecast the disease related activity trend of a patient. Consequently, the accuracy of two RF classifiers designed for activity inference and abnormal activity detection is greater than 99 percent and 94 percent, respectively. Furthermore, using the duration of sleep as an example, the LSTM model achieves accurate and evident future trends prediction.
翻訳日:2022-07-05 14:05:28 公開日:2022-07-02
# すべてのアノテーションからのソフトラベルの引用と学習

Eliciting and Learning with Soft Labels from Every Annotator ( http://arxiv.org/abs/2207.00810v1 )

ライセンス: Link先を確認
Katherine M. Collins, Umang Bhatt, Adrian Weller(参考訳) 機械学習(ML)モデルのトレーニングに使用されるラベルは、非常に重要である。 ML分類タスクの場合、データセットはハードラベルを含むが、ソフトラベルを用いた学習はモデルの一般化、堅牢性、キャリブレーションの恩恵をもたらすことが示されている。 初期の研究は、複数のアノテータのハードラベルからソフトラベルを作ることに成功したが、このアプローチは最高のラベルに収束せず、多くのアノテータを必要とする可能性がある。 個々のアノテータからソフトラベルを効率よく抽出することに注力する。 クラウドソーシング調査(N=242ドル)を通じて,CIFAR-10用のソフトラベルのデータセットを収集し,リリースする。 ラベルによる学習は,アノテータをはるかに少なくしながら,先行的なアプローチに匹敵するモデル性能を達成できることを実証する。 それゆえ,本手法は,アノテータの少ないモデル性能と信頼性の向上を実践者が享受できる可能性を示し,個々のアノテータからカテゴリ不確実性などのリッチな情報を活用することによる将来のデータセットキュレーターの指針となる。

The labels used to train machine learning (ML) models are of paramount importance. Typically for ML classification tasks, datasets contain hard labels, yet learning using soft labels has been shown to yield benefits for model generalization, robustness, and calibration. Earlier work found success in forming soft labels from multiple annotators' hard labels; however, this approach may not converge to the best labels and necessitates many annotators, which can be expensive and inefficient. We focus on efficiently eliciting soft labels from individual annotators. We collect and release a dataset of soft labels for CIFAR-10 via a crowdsourcing study ($N=242$). We demonstrate that learning with our labels achieves comparable model performance to prior approaches while requiring far fewer annotators. Our elicitation methodology therefore shows promise towards enabling practitioners to enjoy the benefits of improved model performance and reliability with fewer annotators, and serves as a guide for future dataset curators on the benefits of leveraging richer information, such as categorical uncertainty, from individual annotators.
翻訳日:2022-07-05 14:05:14 公開日:2022-07-02
# 生物学的にインフォームドされた癌深層学習モデル-オンコロジーデータのエンコーディングと解釈の基礎的傾向

Biologically-informed deep learning models for cancer: fundamental trends for encoding and interpreting oncology data ( http://arxiv.org/abs/2207.00812v1 )

ライセンス: Link先を確認
Magdalena Wysocka, Oskar Wysocki, Marie Zufferey, D\'onal Landers, Andr\'e Freitas(参考訳) 本稿では,がん生物学における推論支援に使用される深層学習モデルに焦点をあてた構造化文献解析を行い,マルチオミクス解析を特に重視する。 この研究は、既存のモデルがより優れた知識、生物学的可能性、解釈可能性、生物医学領域の基本特性との対話の必要性にどのように対処するかに焦点を当てている。 我々は,最近のDLモデルの進化的アーチを,より高度な一般化(例えば,経路やタンパク質-タンパク質-相互作用ネットワーク)と解釈可能性を支援するために,生物関係とネットワーク知識を統合する方向で論じる。 これは、機械論と統計推論の側面を統合できるモデルへの根本的な機能的シフトを表している。 このようなモデルにおけるドメイン事前知識の統合のための表現方法論について論じる。 この論文はまた、現代における説明可能性と解釈可能性の方法に対する批判的な見解を提供する。 この分析は、事前知識の符号化と解釈性の向上の間の収束の方向を示す。

In this paper we provide a structured literature analysis focused on Deep Learning (DL) models used to support inference in cancer biology with a particular emphasis on multi-omics analysis. The work focuses on how existing models address the need for better dialogue with prior knowledge, biological plausibility and interpretability, fundamental properties in the biomedical domain. We discuss the recent evolutionary arch of DL models in the direction of integrating prior biological relational and network knowledge to support better generalisation (e.g. pathways or Protein-Protein-Interaction networks) and interpretability. This represents a fundamental functional shift towards models which can integrate mechanistic and statistical inference aspects. We discuss representational methodologies for the integration of domain prior knowledge in such models. The paper also provides a critical outlook into contemporary methods for explainability and interpretabiltiy. This analysis points in the direction of a convergence between encoding prior knowledge and improved interpretability.
翻訳日:2022-07-05 14:04:56 公開日:2022-07-02
# Firenze: 弱信号を用いたモデル評価

Firenze: Model Evaluation Using Weak Signals ( http://arxiv.org/abs/2207.00827v1 )

ライセンス: Link先を確認
Bhavna Soman, Ali Torkamani, Michael J. Morais, Jeffrey Bickford, Baris Coskun(参考訳) セキュリティ分野のデータラベルは、しばしばうるさい、限られた、あるいは人口のサブセットに偏っている。 その結果、ラベル付きデータセットから計算された性能曲線の分析や精度、精度、リコール指標などの一般的な評価手法は、機械学習(ML)モデルの実際の性能に十分な信頼を与えていない。 これにより、この分野における機械学習の採用が遅くなった。 今日の業界では、セキュリティアプリケーションに新しいモデルを出荷する前に、この信頼性を構築するために、ドメインの専門知識と長い手作業による評価に依存しています。 本稿では,機械学習モデルの性能をドメインの専門知識を用いて比較評価する新しいフレームワークFirenzeを紹介し,マーカーと呼ばれるスケーラブルな関数にエンコードする。 興味領域と呼ばれるサンプルのサブセットを計算し、組み合わせたマーカーが実世界のパフォーマンスを堅牢に評価できることを示す。 重要な点として、観測された差分が我々のフレームワークから生じる結論が、ノイズ単独で観測できるものよりも顕著であることを保証するために統計的仮説テストを使用します。 マルウェアおよびドメイン名サービス評価検出のためのシミュレーションと2つの実世界のデータセットを用いて,本手法の有効性,限界,洞察を明らかにした。 研究者,ドメインエキスパート,ビジネスオーナの混合チームによる,迅速な,解釈可能な,協調的なモデル開発と評価のためのリソースとして,firenzeを提案する。

Data labels in the security field are frequently noisy, limited, or biased towards a subset of the population. As a result, commonplace evaluation methods such as accuracy, precision and recall metrics, or analysis of performance curves computed from labeled datasets do not provide sufficient confidence in the real-world performance of a machine learning (ML) model. This has slowed the adoption of machine learning in the field. In the industry today, we rely on domain expertise and lengthy manual evaluation to build this confidence before shipping a new model for security applications. In this paper, we introduce Firenze, a novel framework for comparative evaluation of ML models' performance using domain expertise, encoded into scalable functions called markers. We show that markers computed and combined over select subsets of samples called regions of interest can provide a robust estimate of their real-world performances. Critically, we use statistical hypothesis testing to ensure that observed differences-and therefore conclusions emerging from our framework-are more prominent than that observable from the noise alone. Using simulations and two real-world datasets for malware and domain-name-service reputation detection, we illustrate our approach's effectiveness, limitations, and insights. Taken together, we propose Firenze as a resource for fast, interpretable, and collaborative model development and evaluation by mixed teams of researchers, domain experts, and business owners.
翻訳日:2022-07-05 14:04:21 公開日:2022-07-02
# 言語モデルは楽しめますか? 中国語comical crosstalkにおける事例研究

Can Language Models Make Fun? A Case Study in Chinese Comical Crosstalk ( http://arxiv.org/abs/2207.00735v1 )

ライセンス: Link先を確認
Benyou Wang, Xiangbo Wu, Xiaokang Liu, Jianquan Li, Prayag Tiwari, Qianqian Xie(参考訳) 言語は人間のコミュニケーションの主要な道具であり、ユーモアは最も魅力的な部分の1つである。 コンピュータを使った人間のような自然言語の生成、すなわち自然言語生成(nlg)は、対話システム、チャットボット、機械翻訳、コンピュータエイドの創造、例えばアイデア世代、スクリプトライティングなどに広く使われている。 しかしながら、自然言語のユーモアの側面は、特に事前訓練された言語モデルの時代において、比較的過小評価されている。 本研究では,NLGが人間のようにユーモアを生成できるかどうかを事前に検証することを目的とする。 1800年代以降、中国で人気の高い芸能作品「xiangsheng」のために、多数のデジタル化されたコミッククロストークスクリプト(略して「c$^3$」と呼ばれる)からなる新しいデータセットを構築した。 (この論文では、非中国語話者の便宜上「クロストーク」を「xangsheng」と呼んだ。) 我々は,Scratch Seq2seq,微調整中規模PLM,大規模PLM(微調整なし/微調整なし)など,様々な世代のアプローチをベンチマークした。 さらに、人間による評価も行っており、 1) 大規模事前学習は, クロストーク生成の質を大幅に向上させる。 2) 最高のPLMから生成されたスクリプトでさえ,人間の作成したクロストークの品質は65%に過ぎません。 結論として,大規模PLMを用いてユーモア生成を大幅に改善することができるが,まだ初期段階にある。 データとベンチマークコードは \url{https://github.com/anonno2/crosstalk-generation} で公開されている。

Language is the principal tool for human communication, in which humor is one of the most attractive parts. Producing natural language like humans using computers, a.k.a, Natural Language Generation (NLG), has been widely used for dialogue systems, chatbots, machine translation, as well as computer-aid creation e.g., idea generations, scriptwriting. However, the humor aspect of natural language is relatively under-investigated, especially in the age of pre-trained language models. In this work, we aim to preliminarily test whether NLG can generate humor as humans do. We build a new dataset consisting of numerous digitized Chinese Comical Crosstalk scripts (called C$^3$ in short), which is for a popular Chinese performing art called `Xiangsheng' since 1800s. (For convenience for non-Chinese speakers, we called `crosstalk' for `Xiangsheng' in this paper.) We benchmark various generation approaches including training-from-scratch Seq2seq, fine-tuned middle-scale PLMs, and large-scale PLMs (with and without fine-tuning). Moreover, we also conduct a human assessment, showing that 1) large-scale pretraining largely improves crosstalk generation quality; and 2) even the scripts generated from the best PLM is far from what we expect, with only 65% quality of human-created crosstalk. We conclude, humor generation could be largely improved using large-scaled PLMs, but it is still in its infancy. The data and benchmarking code is publicly available in \url{https://github.com/anonNo2/crosstalk-generation}.
翻訳日:2022-07-05 13:54:20 公開日:2022-07-02
# INSCIT:混合開始対話による情報探索会話

INSCIT: Information-Seeking Conversations with Mixed-Initiative Interactions ( http://arxiv.org/abs/2207.00746v1 )

ライセンス: Link先を確認
Zeqiu Wu, Ryu Parish, Hao Cheng, Sewon Min, Prithviraj Ammanabrolu, Mari Ostendorf, Hannaneh Hajishirzi(参考訳) 情報探索会話では、ユーザーはエージェントと会話して、しばしば過度に特定される可能性のある一連の質問を行う。 理想的なエージェントは、まず基礎となる知識ソースを探索し、それを解決するためにユーザーと適切に対話することで、そのような状況にあることを識別する。 しかし、既存の研究のほとんどは、そのようなエージェントサイドのイニシアチブを失敗または人工的に取り入れている。 本研究では,複合開始型対話を用いた情報検索のためのデータセットであるINSCIT(Insight)を提案する。 合計4.7Kのユーザーエージェント・ターンは、エージェントがウィキペディアを検索し、明確化を求めるか、ユーザークエリに対処するための関連情報を提供する805人の人間と人間の会話から来ている。 我々は,エビデンスパス識別と応答生成という2つのサブタスクと,モデル性能を評価するための新しいヒューマン評価プロトコルを定義する。 対話型知識認識とオープンドメイン質問応答の最先端モデルに基づく2つの強力なベースラインの結果を報告する。 どちらのモデルも、人間を著しく弱め、コヒーレントで情報的な反応を生じさせず、将来の研究で改善の余地が十分にあることを示唆している。

In an information-seeking conversation, a user converses with an agent to ask a series of questions that can often be under- or over-specified. An ideal agent would first identify that they were in such a situation by searching through their underlying knowledge source and then appropriately interacting with a user to resolve it. However, most existing studies either fail to or artificially incorporate such agent-side initiatives. In this work, we present INSCIT (pronounced Insight), a dataset for information-seeking conversations with mixed-initiative interactions. It contains a total of 4.7K user-agent turns from 805 human-human conversations where the agent searches over Wikipedia and either asks for clarification or provides relevant information to address user queries. We define two subtasks, namely evidence passage identification and response generation, as well as a new human evaluation protocol to assess the model performance. We report results of two strong baselines based on state-of-the-art models of conversational knowledge identification and open-domain question answering. Both models significantly underperform humans and fail to generate coherent and informative responses, suggesting ample room for improvement in future studies.
翻訳日:2022-07-05 13:53:54 公開日:2022-07-02
# SKIPP'D:短期太陽予測のためのSKy画像と太陽光発電データセット

SKIPP'D: a SKy Images and Photovoltaic Power Generation Dataset for Short-term Solar Forecasting ( http://arxiv.org/abs/2207.00913v1 )

ライセンス: Link先を確認
Yuhao Nie, Xiatong Li, Andea Scott, Yuchi Sun, Vignesh Venugopal, Adam Brandt(参考訳) 太陽光発電(PV)の電力網への大規模な統合は、太陽エネルギーの断続的な性質に挑戦されている。 深層学習を用いたスカイイメージに基づく太陽予測は,短期的な変動を予測するための有望なアプローチとして認識されている。 しかし、画像ベースの太陽予報のための標準化ベンチマークデータセットは公開されていないため、異なる予報モデルの比較と予測手法の探索を制限することができる。 これらのギャップを埋めるために、SKIPP'D -- SKy Images と Photovoltaic Power Generation Dataset を導入します。 このデータセットには、3年(2017-2019年)の高解像度ダウンサンプルスカイイメージと、ディープラーニングを用いた短期太陽予報に使えるPV発電データが含まれている。 さらに,研究の柔軟性をサポートするため,高分解能,高周波空像,PV発電データ,および同時スカイビデオ映像を提供する。 また、データ処理スクリプトとベースラインモデル実装を含むコードベースも含んでおり、研究者は以前の研究を再現し、太陽予報の研究を加速します。

Large-scale integration of photovoltaics (PV) into electricity grids is challenged by the intermittent nature of solar power. Sky-image-based solar forecasting using deep learning has been recognized as a promising approach to predicting the short-term fluctuations. However, there are few publicly available standardized benchmark datasets for image-based solar forecasting, which limits the comparison of different forecasting models and the exploration of forecasting methods. To fill these gaps, we introduce SKIPP'D -- a SKy Images and Photovoltaic Power Generation Dataset. The dataset contains three years (2017-2019) of quality-controlled down-sampled sky images and PV power generation data that is ready-to-use for short-term solar forecasting using deep learning. In addition, to support the flexibility in research, we provide the high resolution, high frequency sky images and PV power generation data as well as the concurrent sky video footage. We also include a code base containing data processing scripts and baseline model implementations for researchers to reproduce our previous work and accelerate their research in solar forecasting.
翻訳日:2022-07-05 13:32:24 公開日:2022-07-02
# AlphaZeroによる探索問題の解法

An AlphaZero-Inspired Approach to Solving Search Problems ( http://arxiv.org/abs/2207.00919v1 )

ライセンス: Link先を確認
Evgeny Dantsin, Vladik Kreinovich, and Alexander Wolpert(参考訳) AlphaZeroとその拡張であるMuZeroは、チェス、ゴー、その他のいくつかのゲームにおいて超人的なレベルでのプレイに機械学習技術を使用するコンピュータプログラムである。 彼らはこのレベルのプレイを、ゲームルール以外のドメイン知識なしで、自己プレイからの強化学習だけで達成した。 AlphaZero で用いられている手法や技法を Boolean satisfiability 問題 (検索版) のような探索問題に適応させることは自然な考えである。 検索問題があれば、AlphaZeroにインスパイアされた解法をどう表現するか? この検索問題に対する「解決のルール」とは何か? 我々は, 解法や自己帰納法の観点から可能な表現を記述し, 充足可能性問題に対するそのような表現の例を示す。 また,探索問題に適応したモンテカルロ木探索法についても述べる。

AlphaZero and its extension MuZero are computer programs that use machine-learning techniques to play at a superhuman level in chess, go, and a few other games. They achieved this level of play solely with reinforcement learning from self-play, without any domain knowledge except the game rules. It is a natural idea to adapt the methods and techniques used in AlphaZero for solving search problems such as the Boolean satisfiability problem (in its search version). Given a search problem, how to represent it for an AlphaZero-inspired solver? What are the "rules of solving" for this search problem? We describe possible representations in terms of easy-instance solvers and self-reductions, and we give examples of such representations for the satisfiability problem. We also describe a version of Monte Carlo tree search adapted for search problems.
翻訳日:2022-07-05 13:05:28 公開日:2022-07-02
# SketchCleanNet -- 3次元CADモデル検索システムにおけるクエリスケッチの強化と修正のためのディープラーニングアプローチ

SketchCleanNet -- A deep learning approach to the enhancement and correction of query sketches for a 3D CAD model retrieval system ( http://arxiv.org/abs/2207.00732v1 )

ライセンス: Link先を確認
Bharadwaj Manda, Prasad Kendre, Subhrajit Dey, Ramanathan Muthuganapathy(参考訳) 検索と検索は、コンピュータグラフィックス、コンピュータビジョン、エンジニアリングデザインなど、いくつかの領域で主要な研究テーマである。 検索エンジンは、主に入力された検索クエリと検索すべき項目のデータベースを必要とする。 本論文の主要な文脈である工学では, データベースは洗濯機, ピストン, 接続棒などの3次元CADモデルで構成されている。 ユーザからのクエリは通常、スケッチの形式で、3Dモデルの詳細をキャプチャしようとする。 しかし、スケッチにはギャップやオーバードローク部分(複数ストローク)などの典型的な欠陥がある。 検索結果が入力クエリに匹敵するほど優れているため、より優れた検索結果を得るためには、スケッチのクリーニングアップとエンハンスメントが必要である。 本稿では,クエリスケッチの改善やクリーン化のために,ディープラーニングアプローチを提案する。 当初、様々なカテゴリのスケッチは、起こりうる多くの欠陥を理解するために分析される。 次に、これらの欠陥の理解に基づいて、クリーンアップまたは拡張クエリスケッチのデータセットを作成する。 これにより、欠陥スケッチとクリーンスケッチとのマッピングを提供するために、ディープニューラルネットワークのエンドツーエンドトレーニングが実行される。 このネットワークは、不良クエリスケッチを入力として、クリーンまたは拡張クエリスケッチを生成する。 提案手法と他の最先端技術との比較により,提案手法の有効性が示された。 検索の結果は,欠陥と拡張されたクエリ・スケッチの両方を用いて報告され,改良したアプローチによる拡張されたクエリ・スケッチを用いることで検索結果が向上することが示されている。

Search and retrieval remains a major research topic in several domains, including computer graphics, computer vision, engineering design, etc. A search engine requires primarily an input search query and a database of items to search from. In engineering, which is the primary context of this paper, the database consists of 3D CAD models, such as washers, pistons, connecting rods, etc. A query from a user is typically in the form of a sketch, which attempts to capture the details of a 3D model. However, sketches have certain typical defects such as gaps, over-drawn portions (multi-strokes), etc. Since the retrieved results are only as good as the input query, sketches need cleaning-up and enhancement for better retrieval results. In this paper, a deep learning approach is proposed to improve or clean the query sketches. Initially, sketches from various categories are analysed in order to understand the many possible defects that may occur. A dataset of cleaned-up or enhanced query sketches is then created based on an understanding of these defects. Consequently, an end-to-end training of a deep neural network is carried out in order to provide a mapping between the defective and the clean sketches. This network takes the defective query sketch as the input and generates a clean or an enhanced query sketch. Qualitative and quantitative comparisons of the proposed approach with other state-of-the-art techniques show that the proposed approach is effective. The results of the search engine are reported using both the defective and enhanced query sketches, and it is shown that using the enhanced query sketches from the developed approach yields improved search results.
翻訳日:2022-07-05 12:39:58 公開日:2022-07-02
# less is more: 3次元医用画像セグメンテーションにおけるアクティブラーニング戦略の比較

Less Is More: A Comparison of Active Learning Strategies for 3D Medical Image Segmentation ( http://arxiv.org/abs/2207.00845v1 )

ライセンス: Link先を確認
Josafat-Mattias Burmeister (1), Marcel Fernandez Rosas (1), Johannes Hagemann (1), Jonas Kordt (1), Jasper Blum (1), Simon Shabo (1), Benjamin Bergner (1), Christoph Lippert (1 and 2) ((1) Digital Health & Machine Learning, Hasso Plattner Institute, University of Potsdam, Germany, (2) Hasso Plattner Institute for Digital Health at Mount Sinai, Icahn School of Medicine at Mount Sinai, NYC, USA)(参考訳) 医用画像データのラベル付けは費用がかかり労働集約的なプロセスであるため,近年,医療用画像セグメンテーション分野において活発な学習が盛んに行われている。 文献では様々なアクティブラーニング戦略が提案されているが、その効果はデータセットとトレーニングシナリオに大きく依存している。 既存の戦略の比較を容易にし,新しい戦略を評価するためのベースラインを提供するため,医学的セグメンテーション宣言から得られた3つのデータセット上で,よく知られたアクティブな学習戦略の評価を行った。 さらに,3次元画像データに特化されたストライドサンプリング戦略を検討する。 ランダムサンプリングとストライドサンプリングの両方が強いベースラインとして機能し、研究手法の利点とデメリットについて議論する。 他の研究者が研究成果と比較できるように、さまざまな医学的セグメンテーションデータセット上でアクティブな学習戦略をベンチマークするためのオープンソースのフレームワークを提供する。

Since labeling medical image data is a costly and labor-intensive process, active learning has gained much popularity in the medical image segmentation domain in recent years. A variety of active learning strategies have been proposed in the literature, but their effectiveness is highly dependent on the dataset and training scenario. To facilitate the comparison of existing strategies and provide a baseline for evaluating novel strategies, we evaluate the performance of several well-known active learning strategies on three datasets from the Medical Segmentation Decathlon. Additionally, we consider a strided sampling strategy specifically tailored to 3D image data. We demonstrate that both random and strided sampling act as strong baselines and discuss the advantages and disadvantages of the studied methods. To allow other researchers to compare their work to our results, we provide an open-source framework for benchmarking active learning strategies on a variety of medical segmentation datasets.
翻訳日:2022-07-05 12:39:27 公開日:2022-07-02
# FRAME: 自由テキスト合理化のためのシミュラビリティメトリクスの評価

FRAME: Evaluating Simulatability Metrics for Free-Text Rationales ( http://arxiv.org/abs/2207.00779v1 )

ライセンス: Link先を確認
Aaron Chan, Shaoliang Nie, Liang Tan, Xiaochang Peng, Hamed Firooz, Maziar Sanjabi, Xiang Ren(参考訳) 自由文論理は、自然言語を通して柔軟に直感的にニューラルネットワークモデル(LM)の振る舞いを説明することを目的としている。 合理性の品質を確保するためには、合理性の忠実さ(LMの実際の振る舞いを反映)と妥当性(人間への信頼)を測定するためのメトリクスを持つことが重要である。 既存のすべての自由文合理化メトリクスは、シミュラビリティ(理性とLMの予測ラベルの関連性)に基づいているが、そのようなメトリクスの信頼性を評価するためのプロトコルはない。 そこで本研究では,自由文合理化シミュラビリティ評価のためのフレームワークFRAMEを提案する。 フレームワークは、3つの公理に基づいている:(1)良いメトリクスは基準の合理性に対して最高のスコアを与え、それによって構成による合理性-ラベル関係を最大化する;(2)良いメトリクスは合理性のセマンティックな摂動に適切に敏感でなければならない;(3)良いメトリクスはlmのタスクパフォーマンスの変動に頑健であるべきである。 3つのテキスト分類データセットにまたがって、既存のシミュラビリティの指標が3つのFRAME公理を全て満たせないことを示す。 本報告では,(1)および(3)における性能を平均41.7%,42.9%向上させ,(2)上での競争性能を向上する非予測的シミュラビリティ・バリアントを導入する。

Free-text rationales aim to explain neural language model (LM) behavior more flexibly and intuitively via natural language. To ensure rationale quality, it is important to have metrics for measuring rationales' faithfulness (reflects LM's actual behavior) and plausibility (convincing to humans). All existing free-text rationale metrics are based on simulatability (association between rationale and LM's predicted label), but there is no protocol for assessing such metrics' reliability. To investigate this, we propose FRAME, a framework for evaluating free-text rationale simulatability metrics. FRAME is based on three axioms: (1) good metrics should yield highest scores for reference rationales, which maximize rationale-label association by construction; (2) good metrics should be appropriately sensitive to semantic perturbation of rationales; and (3) good metrics should be robust to variation in the LM's task performance. Across three text classification datasets, we show that existing simulatability metrics cannot satisfy all three FRAME axioms, since they are implemented via model pretraining which muddles the metric's signal. We introduce a non-pretraining simulatability variant that improves performance on (1) and (3) by an average of 41.7% and 42.9%, respectively, while performing competitively on (2).
翻訳日:2022-07-05 12:36:50 公開日:2022-07-02
# 潜在指紋認識のためのペア関係モデリング

Pair-Relationship Modeling for Latent Fingerprint Recognition ( http://arxiv.org/abs/2207.00587v1 )

ライセンス: Link先を確認
Yanming Zhu, Xuefei Yin, Xiuping Jia, Jiankun Hu(参考訳) 潜伏指紋は容疑者を特定するために重要である。 しかし,参照指紋の収集において潜在指紋を認識することは課題である。 既存の手法のほとんどが、個々の指紋の表現特徴を独立して抽出し、異なるプロセスで認識するためにこれらの表現特徴の類似性を比較する。 特徴抽出過程の類似性の監督がなければ、抽出された表現特徴は、決定にマッチする基礎となる2つの比較指紋の類似性を最適に反映することは困難である。 本稿では,2つの指紋のペア関係を認識の類似性として直接モデル化できる新しい手法を提案する。 ペア・リレーションシップは、ランダムサイズの困難と潜在指紋の破損領域を処理できるハイブリッドディープ・ネットワークによってモデル化される。 2つのデータベースに対する実験結果から,提案手法が技術状況より優れていることが示された。

Latent fingerprints are important for identifying criminal suspects. However, recognizing a latent fingerprint in a collection of reference fingerprints remains a challenge. Most, if not all, of existing methods would extract representation features of each fingerprint independently and then compare the similarity of these representation features for recognition in a different process. Without the supervision of similarity for the feature extraction process, the extracted representation features are hard to optimally reflect the similarity of the two compared fingerprints which is the base for matching decision making. In this paper, we propose a new scheme that can model the pair-relationship of two fingerprints directly as the similarity feature for recognition. The pair-relationship is modeled by a hybrid deep network which can handle the difficulties of random sizes and corrupted areas of latent fingerprints. Experimental results on two databases show that the proposed method outperforms the state of the art.
翻訳日:2022-07-05 12:35:35 公開日:2022-07-02
# ニューラルネットワークによるマルチスケール注意画像デライニングネットワーク

Multi-scale Attentive Image De-raining Networks via Neural Architecture Search ( http://arxiv.org/abs/2207.00728v1 )

ライセンス: Link先を確認
Lei Cai, Yuli Fu, Wanliang Huo, Youjun Xiang, Tao Zhu, Ying Zhang and Huanqiang Zeng(参考訳) マルチスケールアーキテクチャとアテンションモジュールは、多くの深層学習に基づく画像デレイニング手法において有効性を示している。 しかし、これらの2つのコンポーネントをニューラルネットワークに手動で設計し、統合するには、膨大な労力と幅広い専門知識が必要です。 本稿では,画像デレーシングのために,高性能なマルチスケールニューラルネットワーク検索(manas)フレームワークを開発した。 提案手法は,画像デレイティングタスクに好適な複数のフレキシブルモジュールを用いた,新しいマルチスケールアテンション検索空間を定式化する。 探索空間下では、マルチスケールの減衰セルが構築され、強力な画像デレイニングネットワークの構築にさらに使用される。 ディライニングネットワークの内部のマルチスケール注意アーキテクチャは、手動設計の煩わしい手順をある程度回避する勾配に基づく探索アルゴリズムによって自動的に探索される。 Moreover, in order to obtain a robust image de-raining model, a practical and effective multi-to-one training strategy is also presented to allow the de-raining network to get sufficient background information from multiple rainy images with the same background scene, and meanwhile, multiple loss functions including external loss, internal loss, architecture regularization loss, and model complexity loss are jointly optimized to achieve robust de-raining performance and controllable model complexity. 合成および現実的な降雨画像および下流視覚応用(すなわち、対物検出とセグメンテーション)に関する大規模な実験結果は、提案手法の優位性を一貫して示している。

Multi-scale architectures and attention modules have shown effectiveness in many deep learning-based image de-raining methods. However, manually designing and integrating these two components into a neural network requires a bulk of labor and extensive expertise. In this article, a high-performance multi-scale attentive neural architecture search (MANAS) framework is technically developed for image deraining. The proposed method formulates a new multi-scale attention search space with multiple flexible modules that are favorite to the image de-raining task. Under the search space, multi-scale attentive cells are built, which are further used to construct a powerful image de-raining network. The internal multiscale attentive architecture of the de-raining network is searched automatically through a gradient-based search algorithm, which avoids the daunting procedure of the manual design to some extent. Moreover, in order to obtain a robust image de-raining model, a practical and effective multi-to-one training strategy is also presented to allow the de-raining network to get sufficient background information from multiple rainy images with the same background scene, and meanwhile, multiple loss functions including external loss, internal loss, architecture regularization loss, and model complexity loss are jointly optimized to achieve robust de-raining performance and controllable model complexity. Extensive experimental results on both synthetic and realistic rainy images, as well as the down-stream vision applications (i.e., objection detection and segmentation) consistently demonstrate the superiority of our proposed method.
翻訳日:2022-07-05 12:35:22 公開日:2022-07-02
# 視覚言語表現学習と検索のためのコントラスト横断的知識共有事前学習

Contrastive Cross-Modal Knowledge Sharing Pre-training for Vision-Language Representation Learning and Retrieval ( http://arxiv.org/abs/2207.00733v1 )

ライセンス: Link先を確認
Keyu Wen, Zhenshan Tan, Qingrong Cheng, Cheng Chen, and Xiaodong Gu(参考訳) 近年,検索,キャプション,質問応答など,ダウンストリーム研究に広く応用されているため,クロスモーダル事前学習タスクがホットスポットとなっている。 しかし,エグジット法では,一流事前学習モデルを用いて,計算爆発に苦しむクロスモーダル検索のための統合視覚言語表現を探索する。 さらに、従来の二重ストリーム構造は非常に効率的であるが、それでも重要なクロスモーダル相互作用が欠如しており、性能は低い。 これらの課題に触発され、コントラスト的クロスモーダルな知識共有事前学習(COOKIE)を行い、共同でテキストイメージ表現を把握した。 構造的には、COOKIEは従来のダブルストリーム構造を採用している。 上記の二重ストリーム構造の性質的欠陥を克服するため、2つの有効モジュールを精巧に設計する。 具体的には、最初のモジュールはウェイトシェアリングトランスフォーマーで、視覚およびテキストエンコーダのヘッド上に構築され、テキストとイメージを意味的にアライメントすることを目的としている。 この設計により、視覚的およびテキスト的パスは同じ意味論に集中することができる。 もう1つは、異なるモデル間で知識を共有することを目的とした、特別に設計された3つのコントラスト学習である。 共有クロスモーダル知識は,ユニモーダル表現の研究を大いに発展させ,単一モーダル検索タスクを促進する。 クロスモーダル検索,テキストマッチング,画像検索を含むマルチモーダルマッチング研究の広範な実験結果から,事前学習モデルの計算効率と統計指標が優れていることが明らかとなった。

Recently, the cross-modal pre-training task has been a hotspot because of its wide application in various down-streaming researches including retrieval, captioning, question answering and so on. However, exiting methods adopt a one-stream pre-training model to explore the united vision-language representation for conducting cross-modal retrieval, which easily suffer from the calculation explosion. Moreover, although the conventional double-stream structures are quite efficient, they still lack the vital cross-modal interactions, resulting in low performances. Motivated by these challenges, we put forward a Contrastive Cross-Modal Knowledge Sharing Pre-training (COOKIE) to grasp the joint text-image representations. Structurally, COOKIE adopts the traditional double-stream structure because of the acceptable time consumption. To overcome the inherent defects of double-stream structure as mentioned above, we elaborately design two effective modules. Concretely, the first module is a weight-sharing transformer that builds on the head of the visual and textual encoders, aiming to semantically align text and image. This design enables visual and textual paths focus on the same semantics. The other one is three specially designed contrastive learning, aiming to share knowledge between different models. The shared cross-modal knowledge develops the study of unimodal representation greatly, promoting the single-modal retrieval tasks. Extensive experimental results on multi-modal matching researches that includes cross-modal retrieval, text matching, and image retrieval reveal the superiors in calculation efficiency and statistical indicators of our pre-training model.
翻訳日:2022-07-05 12:34:59 公開日:2022-07-02
# 固定点としてのオブジェクト表現:暗黙的微分による反復的改良アルゴリズムの訓練

Object Representations as Fixed Points: Training Iterative Refinement Algorithms with Implicit Differentiation ( http://arxiv.org/abs/2207.00787v1 )

ライセンス: Link先を確認
Michael Chang, Thomas L. Griffiths, Sergey Levine(参考訳) 反復的な洗練 -- ランダムな推測から始めて、推測を反復的に改善する -- は表現学習にとって有用なパラダイムである。 この特性により、そのような手法の応用により、物理的シーンのオブジェクトのような、潜在空間におけるクラスタリングアルゴリズムに構造的に類似したエンティティの集合の表現を推論することができる。 しかし、ほとんどの先行する作業は、最適化を難しくするアンロールされた洗練プロセスを通じて区別される。 このような手法は暗黙の関数定理によって微分可能であることを観察し、前方と後方のパスを分離することでトレーニングの安定性とトラクタビリティを向上させる暗黙の微分アプローチを開発する。 この接続により、暗黙のレイヤを最適化することで、slateのスロットアテンションモジュールの最適化を改善することができるだけでなく、エンティティ表現を学習する最先端の方法であるだけでなく、バックプロパゲーションにおける一定のスペースと時間的複雑さと追加コードの行数を1行だけ増やすことができる。

Iterative refinement -- start with a random guess, then iteratively improve the guess -- is a useful paradigm for representation learning because it offers a way to break symmetries among equally plausible explanations for the data. This property enables the application of such methods to infer representations of sets of entities, such as objects in physical scenes, structurally resembling clustering algorithms in latent space. However, most prior works differentiate through the unrolled refinement process, which can make optimization challenging. We observe that such methods can be made differentiable by means of the implicit function theorem, and develop an implicit differentiation approach that improves the stability and tractability of training by decoupling the forward and backward passes. This connection enables us to apply advances in optimizing implicit layers to not only improve the optimization of the slot attention module in SLATE, a state-of-the-art method for learning entity representations, but do so with constant space and time complexity in backpropagation and only one additional line of code.
翻訳日:2022-07-05 12:06:15 公開日:2022-07-02
# 正のサンプルが少ない多変量時系列異常検出

Multivariate Time Series Anomaly Detection with Few Positive Samples ( http://arxiv.org/abs/2207.00705v1 )

ライセンス: Link先を確認
Feng Xue, Weizhong Yan(参考訳) 現実の応用における異常の不足を考えると、文献の大半は正規性をモデル化することに集中している。 学習された表現は、正規性モデルが訓練されたときの異常検出を可能にし、通常の状況下で重要なデータ正規性をキャプチャする。 実用的な設定、特に産業時系列異常検出では、時間とともに収集される少数の異常事象とともに、大量の正常な操作データが利用できる状況に遭遇することが多い。 この実践的な状況は、これらの少数の異常事象を利用してより良い異常検出を行う方法を要求する。 本稿では,この実践的状況のニーズに対処する2つの手法を紹介し,最近開発された技術技術と比較する。 提案手法は, 自己回帰(AR)モデルと損失成分を併用し, 正規と少数の正の例を分離した表現を促進する。 提案手法を2つの産業用異常検出データセットに適用し,文献からのアプローチと比較して有効性能を示した。 また,このような手法を実用に応用する上での課題についても指摘する。

Given the scarcity of anomalies in real-world applications, the majority of literature has been focusing on modeling normality. The learned representations enable anomaly detection as the normality model is trained to capture certain key underlying data regularities under normal circumstances. In practical settings, particularly industrial time series anomaly detection, we often encounter situations where a large amount of normal operation data is available along with a small number of anomaly events collected over time. This practical situation calls for methodologies to leverage these small number of anomaly events to create a better anomaly detector. In this paper, we introduce two methodologies to address the needs of this practical situation and compared them with recently developed state of the art techniques. Our proposed methods anchor on representative learning of normal operation with autoregressive (AR) model along with loss components to encourage representations that separate normal versus few positive examples. We applied the proposed methods to two industrial anomaly detection datasets and demonstrated effective performance in comparison with approaches from literature. Our study also points out additional challenges with adopting such methods in practical applications.
翻訳日:2022-07-05 12:05:16 公開日:2022-07-02
# ANEC: エンティティコーパスとトランスフォーマーベースの認識器

ANEC: An Amharic Named Entity Corpus and Transformer Based Recognizer ( http://arxiv.org/abs/2207.00785v1 )

ライセンス: Link先を確認
Ebrahim Chekol Jibril and A. C\"uneyd Tant\u{g}(参考訳) 名前付きエンティティ認識は、機械翻訳、情報検索、質問応答など他の自然言語処理タスクの前処理ステップとして機能する情報抽出タスクである。 名前付きエンティティ認識は、オープンドメインのテキストで適切な名前と時間的および数値的な表現の識別を可能にする。 アラビア語、アムハラ語、ヘブライ語のようなセム語では、これらの言語が強烈な構造を持つため、名前のついた実体認識タスクはより困難である。 本稿では,条件付きランダムフィールド層を有する双方向長短期記憶に基づくAmharicという名前のエンティティ認識システムを提案する。 我々はAmharicという新しいエンティティ認識データセット(182,691トークンを持つ8,070文)に注釈を付け、Synthetic Minority Over-Sampling Techniqueをデータセットに適用し、不均衡な分類問題を緩和する。 名前付きエンティティ認識システムは,amharic名前付きエンティティ認識の新しい最先端結果であるf_1スコアを93%達成する。

Named Entity Recognition is an information extraction task that serves as a preprocessing step for other natural language processing tasks, such as machine translation, information retrieval, and question answering. Named entity recognition enables the identification of proper names as well as temporal and numeric expressions in an open domain text. For Semitic languages such as Arabic, Amharic, and Hebrew, the named entity recognition task is more challenging due to the heavily inflected structure of these languages. In this paper, we present an Amharic named entity recognition system based on bidirectional long short-term memory with a conditional random fields layer. We annotate a new Amharic named entity recognition dataset (8,070 sentences, which has 182,691 tokens) and apply Synthetic Minority Over-sampling Technique to our dataset to mitigate the imbalanced classification problem. Our named entity recognition system achieves an F_1 score of 93%, which is the new state-of-the-art result for Amharic named entity recognition.
翻訳日:2022-07-05 12:05:00 公開日:2022-07-02
# 価値調整機関の言語盲点,自然言語と人工言語

The Linguistic Blind Spot of Value-Aligned Agency, Natural and Artificial ( http://arxiv.org/abs/2207.00868v1 )

ライセンス: Link先を確認
Travis LaCroix(参考訳) 人工知能(AI)のバリューアライメント問題は、人工システムの「価値」(すなわち、目的関数)が人類の価値観と一致していることを保証する方法を問うものである。 本稿では,言語コミュニケーション(自然言語)がロバストな価値アライメントに必要な条件であると主張する。 この主張の真相は、AIシステムの価値アライメントを確実にする研究プログラム、あるいはもっと率直に言って、堅牢で有益で倫理的な人工エージェントを設計する研究プログラムについて論じる。

The value-alignment problem for artificial intelligence (AI) asks how we can ensure that the 'values' (i.e., objective functions) of artificial systems are aligned with the values of humanity. In this paper, I argue that linguistic communication (natural language) is a necessary condition for robust value alignment. I discuss the consequences that the truth of this claim would have for research programmes that attempt to ensure value alignment for AI systems; or, more loftily, designing robustly beneficial or ethical artificial agents.
翻訳日:2022-07-05 12:04:41 公開日:2022-07-02
# 混合函数空間上の既知の制約を持つベイズ最適化のためのツリーアンサンブルカーネル

Tree ensemble kernels for Bayesian optimization with known constraints over mixed-feature spaces ( http://arxiv.org/abs/2207.00879v1 )

ライセンス: Link先を確認
Alexander Thebelt, Calvin Tsay, Robert M. Lee, Nathan Sudermann-Merx, David Walz, Behrang Shafei, Ruth Misener(参考訳) 木アンサンブルは、アルゴリズムチューニングやニューラルアーキテクチャサーチのようなブラックボックス最適化タスクに適しており、手動チューニングをほとんど、あるいは全く行わずに優れた予測性能を達成し、離散的な特徴空間を自然に処理し、トレーニングデータにおける外れ値に比較的敏感である。 木アンサンブルを用いたブラックボックス最適化における2つの課題 (i)探査のモデルの不確かさを効果的に定量化すること、及び (ii)ピースワイドの定数取得関数を最適化する。 両点を同時に解くために,モデル分散推定を得る前に,ガウス過程としてツリーアンサンブルのカーネル解釈を用いることを提案し,この獲得関数の最適化定式化を両立させる。 後者により、既知の制約をシームレスに統合し、エンジニアリング設定におけるドメイン知識を考慮し、探索空間対称性をモデル化することで、サンプリング効率を向上させることができる。 我々のフレームワークは、連続/離散機能に対する非拘束ブラックボックス最適化のための最先端の手法と同様に、混合変数の特徴空間と既知の入力制約を組み合わせた問題に対する競合手法よりも優れている。

Tree ensembles can be well-suited for black-box optimization tasks such as algorithm tuning and neural architecture search, as they achieve good predictive performance with little to no manual tuning, naturally handle discrete feature spaces, and are relatively insensitive to outliers in the training data. Two well-known challenges in using tree ensembles for black-box optimization are (i) effectively quantifying model uncertainty for exploration and (ii) optimizing over the piece-wise constant acquisition function. To address both points simultaneously, we propose using the kernel interpretation of tree ensembles as a Gaussian Process prior to obtain model variance estimates, and we develop a compatible optimization formulation for the acquisition function. The latter further allows us to seamlessly integrate known constraints to improve sampling efficiency by considering domain-knowledge in engineering settings and modeling search space symmetries, e.g., hierarchical relationships in neural architecture search. Our framework performs as well as state-of-the-art methods for unconstrained black-box optimization over continuous/discrete features and outperforms competing methods for problems combining mixed-variable feature spaces and known input constraints.
翻訳日:2022-07-05 12:04:28 公開日:2022-07-02
# MDLatLRRv2に基づく医用画像融合法

A Medical Image Fusion Method based on MDLatLRRv2 ( http://arxiv.org/abs/2206.15179v2 )

ライセンス: Link先を確認
Xu Song and Xiao-Jun Wu and Hui Li(参考訳) MDLatLRRは遅延低ランク表現(LatLRR)によって抽出された入力画像の詳細な部分(局所的な特徴)のみを考慮するため、LatLRRによって抽出された基本部分(主特徴)を効果的に使用しない。 そこで我々は,latlrrで得られた全画像の特徴を効果的に解析し活用する,mdlatlrrv2と呼ばれる改良マルチレベル分解法を提案する。 次に,MDLatLRRv2を医用画像融合に適用する。 基本部は平均的な戦略で融合し、詳細部は核・ノーム操作で融合する。 既存の手法との比較により,本手法は客観的および主観的評価において最先端の融合性能を達成できることが示されている。

Since MDLatLRR only considers detailed parts (salient features) of input images extracted by latent low-rank representation (LatLRR), it doesn't use base parts (principal features) extracted by LatLRR effectively. Therefore, we proposed an improved multi-level decomposition method called MDLatLRRv2 which effectively analyzes and utilizes all the image features obtained by LatLRR. Then we apply MDLatLRRv2 to medical image fusion. The base parts are fused by average strategy and the detail parts are fused by nuclear-norm operation. The comparison with the existing methods demonstrates that the proposed method can achieve state-of-the-art fusion performance in objective and subjective assessment.
翻訳日:2022-07-05 10:22:58 公開日:2022-07-02