このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221109となっている論文です。

PDF登録状況(公開日: 20221109)

TitleAuthorsAbstract論文公表日・翻訳日
# 局所発振器としてのschr\"odinger cat状態を用いたホモダイン測定

Homodyne measurement with a Schr\"odinger cat state as a local oscillator ( http://arxiv.org/abs/2207.10210v2 )

ライセンス: Link先を確認
Joshua Combes and Austin P. Lund(参考訳) ホモジン測定は広く使われている量子測定である。 局所発振器として大振幅のコヒーレント状態を用いることで、量子ホモダインの測定は場の二次測定に制限されることを示すことができる。 局所発振器としての非古典状態の注入は、非古典的測定につながる可能性がある。 具体的には、局所発振器としてコヒーレント状態の重ね合わせであるschr\"odinger cat状態の注入を検討する。 この状況において、クラウス作用素と正の作用素値測度(POVM)を導出する。

Homodyne measurements are a widely used quantum measurement. Using a coherent state of large amplitude as the local oscillator, it can be shown that the quantum homodyne measurement limits to a field quadrature measurement. In this work, we give an example of a general idea: injecting non-classical states as a local oscillator can led to non-classical measurements. Specifically we consider injecting a superposition of coherent states, a Schr\"odinger cat state, as a local oscillator. We derive the Kraus operators and the positive operator-valued measure (POVM) in this situation.
翻訳日:2023-02-04 07:50:07 公開日:2022-11-09
# 単一光子変調を用いたセシウムD2線上の10ヘルツ量子光源生成

10-Hertz quantum light source generation on the cesium D2 line using single photon modulation ( http://arxiv.org/abs/2209.07920v3 )

ライセンス: Link先を確認
Guanhua Zuo, Yuchi Zhang, Gang Li, Pengfei Zhang, Pengfei Yang, Shiyao Zhu, Yanqiang Guo, and Tiancai Zhang(参考訳) 量子光源の生成は、精密測定における標準量子限界を克服するための有望な技術である。 そこで本研究では,セシウムD2線上を初めて10Hzまで下降する4次スケザリングの実験的生成を実演する。 最大周波数帯域は5.57dBである。 さらに, レーザノイズが低周波スクイーズに与える影響を効果的に抑制しつつ, スクイーズ角制御のための単一光子変調ロックを提案する。 システム全体が数時間連続して動作します。 生成された低周波量子光源は、量子メロロジー、光-物質相互作用の調査、およびオーディオ周波数帯域における量子メモリ等に適用することができる。

Generation of quantum light source is a promising technique to overcome the standard quantum limit in precision measurement. Here, we demonstrate an experimental generation of quadrature squeezing resonating on the cesium D2 line down to 10 Hz for the first time. The maximum squeezing in audio frequency band is 5.57 dB. Moreover, we have presented a single-photon modulation locking to control the squeezing angle, while effectively suppressing the influence of laser noise on low-frequency squeezing. The whole system operates steadily for hours. The generated low-frequency quantum light source can be applied in quantum metrology,light-matter interaction investigation and quantum memory in the audio frequency band and even below.
翻訳日:2023-01-26 09:35:28 公開日:2022-11-09
# ランダムxxz量子スピンチェーンにおける局在

Localization in the random XXZ quantum spin chain ( http://arxiv.org/abs/2210.14873v2 )

ライセンス: Link先を確認
Alexander Elgart, Abel Klein(参考訳) ランダム磁場中におけるハイゼンベルクxxzスピン-$\frac12$チェーンの多体局在(mbl)特性について検討した。 この系はパラメータ空間の非自明な領域においてスペクトルの底部にある任意のエネルギー間隔で局在を示すことが証明される。 この領域は弱い相互作用と強い障害のレジームを含み、系の大きさとは独立しており、エネルギー間隔のみに依存する。 本手法は,ランダム多体XXZハミルトニアン関数に対する準局所性の表現として局所化問題の再構成に基づく。 これにより,単一粒子の局在化コンテキストで導出される局在性を証明する分数モーメント法を多体設定に拡張できる。

We study the many-body localization (MBL) properties of the Heisenberg XXZ spin-$\frac12$ chain in a random magnetic field. We prove that the system exhibits localization in any given energy interval at the bottom of the spectrum in a nontrivial region of the parameter space. This region, which includes weak interaction and strong disorder regimes, is independent of the size of the system and depends only on the energy interval. Our approach is based on the reformulation of the localization problem as an expression of quasi-locality for functions of the random many-body XXZ Hamiltonian. This allows us to extend the fractional moment method for proving localization, previously derived in a single-particle localization context, to the many-body setting.
翻訳日:2023-01-21 13:15:23 公開日:2022-11-09
# ポスナー分子の構造集合における$^{31}$P核スピンのサブ秒エンタングルメント寿命

Sub-second Entanglement Lifetimes of $^{31}$P Nuclear Spins in the Structural Ensemble of the Posner Molecule ( http://arxiv.org/abs/2210.14812v2 )

ライセンス: Link先を確認
Shivang Agarwal, Daniel R. Kattnig, Clarice D. Aiello and Amartya S. Banerjee(参考訳) ポズナー分子(リン酸カルシウム三量体)は、長寿命とされる$^{31}$P核スピン状態のために生物学的量子情報プロセッサとして機能すると考えられている。 この仮説は、分子がよく定義された対称性の回転軸(ポスナーを媒介とするニューラルプロセッシングの提案において必須の仮定)を欠き、非対称な動的アンサンブルとして存在するという最近の発見に異議を唱えられた。 続いて、非対称アンサンブル内の分子の絡み合った$^{31}$P核スピンのスピンダイナミクスについて調べる。 シミュレーションでは、別々のポスナー分子でベル状態で合成された2つの核スピンの絡み合いが、それまでの仮説よりもずっと早く、超細胞性神経細胞の処理には十分ではないことが示されている。 しかし、リン酸カルシウム二量体は驚くほど弾力性があり、数百秒間、絡み合った核スピンを保存できるため、その代わりに神経処理が行われる可能性が示唆されている。

The Posner molecule (calcium phosphate trimer), has been hypothesized to function as a biological quantum information processor due to its supposedly long-lived entangled $^{31}$P nuclear spin states. This hypothesis was challenged by our recent finding that the molecule lacks a well-defined rotational axis of symmetry -- an essential assumption in the proposal for Posner-mediated neural processing -- and exists as an asymmetric dynamical ensemble. Following up, we investigate here the spin dynamics of the molecule's entangled $^{31}$P nuclear spins within the asymmetric ensemble. Our simulations show that entanglement between two nuclear spins prepared in a Bell state in separate Posner molecules decays on a sub-second timescale -- much faster than previously hypothesized, and not long enough for super-cellular neuronal processing. Calcium phosphate dimers however, are found to be surprisingly resilient to decoherence and are able to preserve entangled nuclear spins for hundreds of seconds, suggesting that neural processing might occur through them instead.
翻訳日:2023-01-21 13:12:57 公開日:2022-11-09
# ブラックホールミラー:不均一傾斜ワイル半金属における電子レンズとベリー曲率効果

Black hole mirages: electron lensing and Berry curvature effects in inhomogeneously tilted Weyl semimetals ( http://arxiv.org/abs/2210.16254v2 )

ライセンス: Link先を確認
Andreas Haller, Suraj Hegde, Chen Xu, Christophe De Beule, Thomas L. Schmidt and Tobias Meng(参考訳) 我々は, 空間的に変化したnodal tilt profileを持つweyl半金属の電子輸送について検討した。 電子の流れは、司法的に選択された傾きプロファイルによって正確に導かれる。 幅広いパラメータでは、電子の流れは重力アトラクションを支配しているものと同様、半古典的な運動方程式によってうまく記述されている。 このアナログは、電子レンズのような傾斜光デバイスを設計するための物理的に透明なツールを提供する。 重力の類似性は、不均一な固体の難解な記述を回避しているが、微視的格子シミュレーションと比較すると、類似したブラックホールから十分に離れた軌道に対してのみ有効であることが示されている。 最後にベリー曲率駆動の逆運動についてコメントし、後者をスピンprecession physicsに関連付ける。

We study electronic transport in Weyl semimetals with spatially varying nodal tilt profiles. We find that the flow of electrons can be guided precisely by judiciously chosen tilt profiles. In a wide regime of parameters, we show that electron flow is described well by semiclassical equations of motion similar to the ones governing gravitational attraction. This analogy provides a physically transparent tool for designing tilt-tronic devices, such as electronic lenses. The analogy to gravity circumvents the notoriously difficult full-fledged description of inhomogeneous solids, but a comparison to microscopic lattice simulations shows that it is only valid for trajectories sufficiently far from analogue black holes. We finally comment on the Berry curvature-driven transverse motion and relate the latter to spin precession physics.
翻訳日:2023-01-21 05:28:15 公開日:2022-11-09
# XXZハイゼンベルク模型の相関コヒーレンスと量子不一致に対する固有デコヒーレンス効果

Intrinsic decoherence effects on correlated coherence and quantum discord in XXZ Heisenberg model ( http://arxiv.org/abs/2210.17248v2 )

ライセンス: Link先を確認
Zakaria Dahbi, Mansoura Oumennana, Mostafa Mansour(参考訳) スピン量子ビットは量子プロセッサの技術進歩の中心であり、量子情報処理のための優れたフレームワークを提供する。 この研究は、2ビット系が実現された2スピンXXZハイゼンベルクモデルにおけるコヒーレンスと非古典的相関の時間発展を特徴づける。 本研究では,コヒーレンス(コヒーレンス)と非古典的相関(量子不一致)に対する内在的デコヒーレンスの影響について検討し,外部磁場,ジアロシンスキー・モリヤ(DM)とカプラン・シェフツマン・エンチン・ヴルマン・アハロニー(KSEA)相互作用の複合的影響を考察した。 内在的デコヒーレンスの効果を十分に理解するために、このシステムは2つのよく知られたWerner-like状態(EWL)のうちの1つで準備できると仮定する。 その結果、本質的なデコヒーレンスによってコヒーレンスと量子相関が崩壊し、上記の量子資源の挙動が初期EWL状態パラメータに強く依存していることが判明した。 同様に、2スピンの相関したコヒーレンスと量子不一致は、初期状態のタイプによって本質的なデコヒーレンスに対してより堅牢になる。 これらの結果から、量子システムがどのように量子的優位性を達成するべきかが明らかになった。

Spin qubits are at the heart of technological advances in quantum processors and offer an excellent framework for quantum information processing. This work characterizes the time evolution of coherence and nonclassical correlations in a two-spin XXZ Heisenberg model, from which a two-qubit system is realized. We study the effects of intrinsic decoherence on coherence (correlated coherence) and nonclassical correlations (quantum discord), taking into consideration the combined impact of an external magnetic field, Dzyaloshinsky-Moriya (DM) and Kaplan Shekhtman Entin-Wohlman-Aharony (KSEA) interactions. To fully understand the effects of intrinsic decoherence, we suppose that the system can be prepared in one of the two well-known extended Werner-like (EWL) states. The findings show that intrinsic decoherence leads the coherence and quantum correlations to decay and that the behavior of the aforementioned quantum resources relies strongly on the initial EWL state parameters. We, likewise, found that the two-spin correlated coherence and quantum discord; become more robust against intrinsic decoherence depending on the type of the initial state. These outcomes shed light on how a quantum system should be engineered to achieve quantum advantages.
翻訳日:2023-01-20 22:26:35 公開日:2022-11-09
# 超低温原子の3体組換えにおける生成物状態分布のエネルギースケーリング

Energy-scaling of the product state distribution for three-body recombination of ultracold atoms ( http://arxiv.org/abs/2211.03834v2 )

ライセンス: Link先を確認
Shinsuke Haze, Jos\'e P. D'Incao, Dominik Dorer, Jinglun Li, Markus Dei\ss, Eberhard Tiemann, Paul S. Julienne, and Johannes Hecker Denschlag(参考訳) 三体再結合 (three-body recombination) は、3つの原子が衝突して二原子分子が形成される化学反応である。 超低温状態では、分子の生成速度は結合エネルギー$E_b$で低下することが期待されているが、その正確な依存とそれを管理する物理は今のところ不明である。 本稿では,超低温Rbの3体組換えにおけるエネルギー依存性に関する総合的および理論的研究について述べる。 このために、結合エネルギー$e_b$ 0.02 から 77 ghz$\times h$ の範囲で、状態から状態への分解方法で分子の生産速度を決定する。 生成速度はおよそ $e_b^{-\alpha}$ であり、ここで$\alpha$ は 1 付近にある。 生成速度は通常、低結合エネルギーの遠心障壁抑制とは別として、分子生成物の異なる回転角モータに対して2の係数でしか変化しない。 数値的な3体計算に加えて, 生成速度のエネルギースケーリングの物理的起源を明らかにする摂動モデルを提案する。 さらに、スケーリング法則は幅広い相互作用ポテンシャルに対して普遍的に成り立つ可能性があることを示す。

Three-body recombination is a chemical reaction where the collision of three atoms leads to the formation of a diatomic molecule. In the ultracold regime it is expected that the production rate of a molecule generally decreases with its binding energy $E_b$, however, its precise dependence and the physics governing it have been left unclear so far. Here, we present a comprehensive experimental and theoretical study of the energy dependency for three-body recombination of ultracold Rb. For this, we determine production rates for molecules in a state-to-state resolved manner, with the binding energies $E_b$ ranging from 0.02 to 77 GHz$\times h$. We find that the formation rate approximately scales as $E_b^{-\alpha}$, where $\alpha$ is in the vicinity of 1. The formation rate typically varies only within a factor of two for different rotational angular momenta of the molecular product, apart from a possible centrifugal barrier suppression for low binding energies. In addition to numerical three-body calculations we present a perturbative model which reveals the physical origin of the energy scaling of the formation rate. Furthermore, we show that the scaling law potentially holds universally for a broad range of interaction potentials.
翻訳日:2023-01-20 01:44:28 公開日:2022-11-09
# ランダム電信ノイズが量子ビットゲート動作に及ぼす影響

Influence of Random Telegraph Noise on Quantum Bit Gate Operation ( http://arxiv.org/abs/2211.04663v1 )

ライセンス: Link先を確認
Jackson Likens, Sanjay Prabhakar, Ratan Lal and Roderick Melnik(参考訳) ランダムな電信ノイズ(rtn)の存在下でのスピンフリップ量子ビットゲート動作の解析の問題を考える。 私たちの幅広いアプローチは以下のとおりです。 合成パルス(Cパルス)、量子井戸パルス(QWパルス)、バリア電位パルス(BPパルス)で駆動される量子ビットのスピンフリップ確率をFeynman disentangling法によるRTNの存在下で計算する。 合成パルスとRTNがそれぞれx方向とz方向で作用すると、最適な時間を計算し、キュービットのスピンフリップ確率を100%達成する。 本報告では,cパルスとbpパルス,qwパルスを併用することでspin-flip qubitのショートカットを実現する。 RTNのジャンプ時間が非常に速い場合、完全忠実度やスピンフリップ確率のチューニングはRTN相関時間にまで拡張される。 一方、rtnのジャンプが非常に遅い場合は、bpパルスを使用して失われたフィディティを回収することができる。 それでも、量子誤り訂正に有効なRTNジャンプ環境にかかわらず、量子ビットゲート演算の忠実度は90%以上である。 より一般的な場合、我々は高忠実度量子ゲートを実現するためにいくつかのパルスシーケンスをテストし、異なる方向に作用するパルスを用いた。 計算の結果,QWパルス,BPパルス,Cパルスがそれぞれx方向,y方向,z方向で作用すると,RTNの存在下でのqubitゲート動作の忠実度が高くなることがわかった。

We consider the problem of analyzing spin-flip qubit gate operation in presence of Random Telegraph Noise (RTN). Our broad approach is the following. We calculate the spin-flip probability of qubit driven by composite pulses, (Constant pulse (C-pulse), Quantum Well pulse (QW-pulse) and Barrier Potential pulse (BP-pulse)) in the presence of RTN using Feynman disentangling method. When composite pulses and RTN act in x-direction and z-direction respectively, we calculate the optimal time to achieve 100% spin-flip probability of qubit. We report the shortcut of spin-flip qubit, which can be achieved by using C-pulse, followed by BP-pulse and QW-pulse. When jumps time in RTN are very fast, tuning of perfect fidelity or spin-flip probability extends to large RTN correlation time. On the other hand, when the jumps in RTN are very slow, the BP-pulse can be used to recover the lost fidelities. Nevertheless, the fidelities of qubit gate operation are larger than 90%, regardless of RTN jumps environments which may be beneficial in quantum error correction. For more general case, we have tested several pulse sequences for achieving high fidelity quantum gates, where we have used the pulses acting in different directions. From the calculations, we find high fidelity of qubit gate operation in presence of RTN is achieved when QW-pulse, BP-pulse and C-pulse act in x-direction, y-direction and z-direction, respectively.
翻訳日:2023-01-19 20:53:52 公開日:2022-11-09
# 二元定数重み符号に対する量子探索アルゴリズム

Quantum Search Algorithm for Binary Constant Weight Codes ( http://arxiv.org/abs/2211.04637v1 )

ライセンス: Link先を確認
Kein Yukiyoshi and Naoki Ishikawa(参考訳) バイナリ定数重みコード(binary constant weight code)は、幅広いアプリケーションを持つエラー訂正コードの一種である。 バイナリ定数重み符号を見つける問題は、符号理論における組合せ最適化問題として長い間研究されてきた。 本稿では,バイナリ定数重み符号に対する量子探索アルゴリズムを提案する。 具体的には、探索問題を2次非拘束バイナリ最適化(QUBO)として新たに定式化し、二次高速化のためにGrover Adaptive Search(GAS)を用いる。 問題の固有構造に着目して、目的関数値の最小値上の上界と、解の正確な数に対する下界を導出する。 代数解析の結果,提案手法は必要な量子ビット数を減少させ,実現可能性を高めることができることがわかった。 さらに,従来の領域では63%,量子領域では31%のクエリ複雑性が減少することを示した。 提案手法は他の量子探索アルゴリズムや最適化問題に有用である。

A binary constant weight code is a type of error-correcting code with a wide range of applications. The problem of finding a binary constant weight code has long been studied as a combinatorial optimization problem in coding theory. In this paper, we propose a quantum search algorithm for binary constant weight codes. Specifically, the search problem is newly formulated as a quadratic unconstrained binary optimization (QUBO) and Grover adaptive search (GAS) is used for providing the quadratic speedup. Focusing on the inherent structure of the problem, we derive an upper bound on the minimum of the objective function value and a lower bound on the exact number of solutions. In our algebraic analysis, it was found that this proposed algorithm is capable of reducing the number of required qubits, thus enhancing the feasibility. Additionally, our simulations demonstrated that it reduces the query complexities by 63% in the classical domain and 31% in the quantum domain. The proposed approach may be useful for other quantum search algorithms and optimization problems.
翻訳日:2023-01-19 20:53:23 公開日:2022-11-09
# ニューラルネットワーク量子状態を用いた核対モデル解法

Solving the nuclear pairing model with neural network quantum states ( http://arxiv.org/abs/2211.04614v1 )

ライセンス: Link先を確認
Mauro Rigo, Benjamin Hall, Morten Hjorth-Jensen, Alessandro Lovato, Francesco Pederiva(参考訳) 基底状態波動関数の人工ニューラルネットワーク表現を利用した職業数定式化において,核多体問題を解く変分モンテカルロ法を提案する。 確率的再構成アルゴリズムのメモリ効率の高いバージョンを開発し、ハミルトニアンの期待値を最小限に抑えることでネットワークを訓練する。 我々は、核の相互作用の異なるタイプと相互作用強度の異なる値のペアリングを記述するために用いられるモデルを用いて、広く使われている核多体法に対してこのアプローチをベンチマークする。 その多項式計算コストにもかかわらず、本手法は結合クラスタよりも優れており、数値的な完全構成相互作用値とよく一致したエネルギーを提供する。

We present a variational Monte Carlo method that solves the nuclear many-body problem in the occupation number formalism exploiting an artificial neural network representation of the ground-state wave function. A memory-efficient version of the stochastic reconfiguration algorithm is developed to train the network by minimizing the expectation value of the Hamiltonian. We benchmark this approach against widely used nuclear many-body methods by solving a model used to describe pairing in nuclei for different types of interaction and different values of the interaction strength. Despite its polynomial computational cost, our method outperforms coupled-cluster and provides energies that are in excellent agreement with the numerically-exact full configuration interaction values.
翻訳日:2023-01-19 20:53:08 公開日:2022-11-09
# 可分性基準と収束限界の低さの一家系

A family of separability criteria and lower bounds of concurrence ( http://arxiv.org/abs/2211.04868v1 )

ライセンス: Link先を確認
Xian Shi, Yashuai Sun(参考訳) 2成分状態の絡み合いを検出する問題は、量子情報理論において重要である。 本稿では,二成分状態の修正再定義行列にkyファンノルムを適用する。 特に、二分項状態に対する分離可能な基準の族を考察し、密度行列が状態に対応するとき、その基準は高次配向基準と同値である。 さらに、任意の次元系に対する解析的低収差と凸ルーフ拡張負性について述べる。

The problem on detecting the entanglement of a bipartite state is significant in quantum information theory. In this article, we apply the Ky Fan norm to the revised realignment matrix of a bipartite state. Specifially, we consider a family of separable criteria for bipartite states, and present when the density matrix corresponds to a state is real, the criteria is equivalent to the enhanced realignment criterion. Moreover, we present analytical lower bounds of concurrence and the convex-roof extended negativity for arbitrary dimensional systems.
翻訳日:2023-01-19 20:50:32 公開日:2022-11-09
# 量子超グラフ準同型と非局所ゲーム

Quantum hypergraph homomorphisms and non-local games ( http://arxiv.org/abs/2211.04851v1 )

ライセンス: Link先を確認
Gage Hoefer and Ivan G. Todorov(参考訳) 情報理論におけるシミュレーションパラダイムを用いて、量子ハイパーグラフ準同型と量子ハイパーグラフ同型の概念を定義し、それぞれ部分順序と等価関係を構成することを示す。 基礎となるハイパーグラフが非局所ゲームから生じる場合に特化して、量子非局所ゲーム同型と量子非局所ゲーム同型の概念を定義し、与えられた相関型に対して同型であるゲームが、このタイプに対して等しい値と漸近値を持つことを示す。 我々は,非局所ゲーム準同型の存在を目撃し,正規作用素系のテンソル積に関する状態の観点から特徴付ける,符号なし相関の新しいクラスについて検討する。 連立同期相関を定義し、ゲームパーティに関連する正準C*-代数のテンソル積のトレースに対応することを示す。

Using the simulation paradigm in information theory, we define notions of quantum hypergraph homomorphisms and quantum hypergraph isomorphisms, and show that they constitute partial orders and equivalence relations, respectively. Specialising to the case where the underlying hypergraphs arise from non-local games, we define notions of quantum non-local game homomorphisms and quantum non-local game isomorphisms, and show that games, isomorphic with respect to a given correlation type, have equal values and asymptotic values relative to this type. We examine a new class of no-signalling correlations, which witness the existence of non-local game homomorphisms, and characterise them in terms of states on tensor products of canonical operator systems. We define jointly synchronous correlations and show that they correspond to traces on the tensor product of the canonical C*-algebras associated with the game parties.
翻訳日:2023-01-19 20:50:24 公開日:2022-11-09
# 超伝導ボソニック量子ビットのゲート操作に対するデコヒーレンスの効果

Effect of Decoherence for Gate Operations on a Superconducting Bosonic Qubit ( http://arxiv.org/abs/2211.04838v1 )

ライセンス: Link先を確認
Kosuke Mizuno, Takaaki Takenaka, Imran Mahboob, Shiro Saito(参考訳) 超伝導回路における高品質な3Dキャビティは、低光子損失率のみに制限されるため、ボソニック論理量子ビットの理想的な候補である。 しかし、ボソニックキュービットを操作するために使用されるトランスモンキュービットは、追加の緩和と強調チャネルの出現をもたらす。 本研究では, ボソニックキュービット上の論理ゲートの性能に及ぼす各種損失チャネルの影響を明らかにするために, 数値解析を行った。 任意のゲート演算の損失機構をカプセル化し,ボソニックキュービットのゲート誤差を実験的に予測するゲート誤差モデルを開発した。 この研究から得られた損失機構の洞察は、ボソニック量子ビットのゲート誤差を低減できるより効率的な最適化アルゴリズムを示唆している。

High-quality-factor 3D cavities in superconducting circuits are ideal candidates for bosonic logical qubits as their fidelity is limited only by the low photon loss rate. However, the transmon qubits that are used to manipulate bosonic qubits result in the emergence of additional relaxation and dephasing channels. In this work, a numerical study is performed to elucidate the effect of the various loss channels on the performance of logical gates on a bosonic qubit. A gate error model is developed that encapsulates the loss mechanisms for arbitrary gate operations and predicts experimentally achievable gate errors for bosonic qubits. The insights gleaned from this study into loss mechanisms suggest more efficient optimization algorithms that could reduce gate errors on bosonic qubits.
翻訳日:2023-01-19 20:50:08 公開日:2022-11-09
# 微小重力場における量子気泡の展望

Perspective on Quantum Bubbles in Microgravity ( http://arxiv.org/abs/2211.04804v1 )

ライセンス: Link先を確認
Nathan Lundblad, David C. Aveline, Antun Balaz, Elliot Bentine, Nicholas P. Bigelow, Patrick Boegel, Maxim A. Efremov, Naceur Gaaloul, Matthias Meister, Maxim Olshanii, Carlos A. R. S\'a de Melo, Andrea Tononi, Smitha Vishveshwara, Angela C. White, Alexander Wolf, and Barry M. Garraway(参考訳) 量子系の理解の進展は、超低温原子系の幾何学、トポロジー、次元性の探索によって引き起こされている。 国際宇宙ステーション(ISS)にあるNASAのコールド原子研究所(CAL)は、超低温の原子バブルの研究を可能にした。 また, Rf-dressing法を用いて, CALの気泡実験を行い, その代替技術(二種間相互作用駆動気泡)も提案されている。 どちらの手法も、微小重力における基礎物理学研究の次の10年で発見を促進することができる。

Progress in understanding quantum systems has been driven by the exploration of the geometry, topology, and dimensionality of ultracold atomic systems. The NASA Cold Atom Laboratory (CAL) aboard the International Space Station has enabled the study of ultracold atomic bubbles, a terrestrially-inaccessible topology. Proof-of-principle bubble experiments have been performed on CAL with an rf-dressing technique; an alternate technique (dual-species interaction-driven bubbles) has also been proposed. Both techniques can drive discovery in the next decade of fundamental physics research in microgravity.
翻訳日:2023-01-19 20:49:42 公開日:2022-11-09
# 軌跡に基づく前方最適化による時間分解データのロバストインバージョン

Robust inversion of time-resolved data via forward-optimisation in a trajectory basis ( http://arxiv.org/abs/2211.04766v1 )

ライセンス: Link先を確認
Kyle Acheson and Adam Kirrander(参考訳) 軌道上の前方最適化に基づく超高速実験からの時間分解データの逆解析法を提案する。 1,3-シクロヘキサジエンの光化学開環反応のx線散乱とcs2の光解離の電子回折による実験データに適用する。 それぞれの場合、インバージョンは実験データを再現し、主要な動的モチーフを特定し、独立した実験観測に一致するモデルを生成する。 特に、連続性制約を明示的に説明し、ノイズの多いデータに対して堅牢である。

An inversion method for time-resolved data from ultrafast experiments is introduced, based on forward-optimisation in a trajectory basis. The method is applied to experimental data from x-ray scattering of the photochemical ring-opening reaction of 1,3-cyclohexadiene and electron diffraction of the photodissociation of CS2. In each case, inversion yields a model that reproduces the experimental data, identifies the main dynamic motifs, and agrees with independent experimental observations. Notably, the method explicitly accounts for continuity constraints and is robust for noisy data.
翻訳日:2023-01-19 20:49:35 公開日:2022-11-09
# ノイズアパラタにおける量子エンハンスベイズマルチパラメータ推定の最適化

Optimizing quantum-enhanced Bayesian multiparameter estimation in noisy apparata ( http://arxiv.org/abs/2211.04747v1 )

ライセンス: Link先を確認
Federico Belliardo, Valeria Cimini, Emanuele Polino, Francesco Hoch, Bruno Piccirillo, Nicol\`o Spagnolo, Vittorio Giovannetti and Fabio Sciarrino(参考訳) 未知量を測定する際には、ノイズや限られたリソースの可用性を含む実用的なシナリオに適した方法論を開発する必要がある。 本稿では,実験用フォトニックセンサにおいて,パラメータのサブセットが避けられない雑音過程を記述する場合の量子エンハンスベイズマルチパラメータ推定の最適化について報告する。 我々は,どのパラメータが興味を持つか,あるいは迷惑なパラメータとして扱われるかによって,推定の最適化がどのように変化するかを検討する。 その結果,多パラメータアプローチをノイズアパラタで最適化することは,広帯域の標準量子限界を超える実用的センサの可能性を完全に活用するための重要なツールであることが示唆された。

Achieving quantum-enhanced performances when measuring unknown quantities requires developing suitable methodologies for practical scenarios, that include noise and the availability of a limited amount of resources. Here, we report on the optimization of quantum-enhanced Bayesian multiparameter estimation in a scenario where a subset of the parameters describes unavoidable noise processes in an experimental photonic sensor. We explore how the optimization of the estimation changes depending on which parameters are either of interest or are treated as nuisance ones. Our results show that optimizing the multiparameter approach in noisy apparata represents a significant tool to fully exploit the potential of practical sensors operating beyond the standard quantum limit for broad resources range.
翻訳日:2023-01-19 20:49:27 公開日:2022-11-09
# 長距離Rydberg分子の光解離におけるクーロン抗ブロッキングの役割

The role of Coulomb anti-blockade in the photoassociation of long-range Rydberg molecules ( http://arxiv.org/abs/2211.04744v1 )

ライセンス: Link先を確認
Michael Peper, Martin Trautmann, and Johannes Deiglmayr(参考訳) 我々は、パルス電界イオン化による光関連長距離Rydberg分子の検出に寄与する新しいメカニズムについて述べる: イオン生成物は、長距離Rydberg分子の崩壊によって生成され、周囲の基底状態原子の励起スペクトルを変化させ、光結合光によってRydberg状態へのさらなる原子の励起を促進する。 このようなイオンを介する励起機構は、以前は「クーロン・アンチ・ブロッキング」と呼ばれていた。 パルス場イオン化は通常、長距離リドベルグ分子のイオン化と孤立リドベルグ原子を区別しないため、この機構によって検出された原子イオンの数はプローブ体積に存在する長距離リドベルグ分子の数に比例しない。 セシウム原子の高分解能超低温気体の高分解能UVとRF分光、セシウムのnP_3/2Rydberg状態下にある長距離リドベルク分子の分子レベル構造の理論モデル、および光解離と崩壊過程の速度モデルを組み合わせることで、この検出機構のサインを、原子のアサンプトート下にある長距離リドベルク分子と負のスタークシフトの光解離における光解離において明らかに同定する。

We present a new mechanism contributing to the detection of photoassociated long-range Rydberg molecules via pulsed-field ionization: ionic products, created by the decay of a long-range Rydberg molecule, modify the excitation spectrum of surrounding ground-state atoms and facilitate the excitation of further atoms into Rydberg states by the photoassociation light. Such an ion-mediated excitation mechanism has been previously called "Coulomb anti-blockade". Pulsed-field ionisation typically doesn't discriminate between the ionization of a long-range Rydberg molecule and an isolated Rydberg atom, and thus the number of atomic ions detected by this mechanism is not proportional to the number of long-range Rydberg molecules present in the probe volume. By combining high-resolution UV and RF spectroscopy of a dense, ultracold gas of cesium atoms, theoretical modeling of the molecular level structures of long-range Rydberg molecules bound below nP_3/2 Rydberg states of cesium, and a rate model of the photoassociation and decay processes, we unambiguously identify the signatures of this detection mechanism in the photoassociation of long-range Rydberg molecules bound below atomic asymptotes with negative Stark shifts.
翻訳日:2023-01-19 20:49:15 公開日:2022-11-09
# 超低温原子によるフロック位相バンドのチューニング

Tuning anomalous Floquet topological bands with ultracold atoms ( http://arxiv.org/abs/2211.04739v1 )

ライセンス: Link先を確認
Jin-Yi Zhang, Chang-Rui Yi, Long Zhang, Rui-Heng Jiao, Kai-Ye Shi, Huan Yuan, Wei Zhang, Xiong-Jun Liu, Shuai Chen and Jian-Wei Pan(参考訳) Floquetエンジニアリングは、静的システムにはない新しいトポロジ的状態を生成する方法を開く。 本稿では,光ラマン格子に閉じ込められた超低温原子に対する高精度フロッケ工学を用いた新しい異常な位相状態の実験的実現とキャラクタリゼーションについて報告する。 フロッケ・バンド・トポロジーは、基底状態のトポロジーを完全に特徴付けるバンド反転面(BIS)と呼ばれる駆動誘起バンド・クロスをチューニングすることによって操作される。 バルクフロケトポロジに対応するBISの構成を計測することにより,様々な異常な位相状態を明らかにする。 特に,谷によって保護される異常なヘリカル様エッジモードと,チャーン数の高いキラルな状態を持つ,前例のないフロケット・バレーホール状態を特定する。

The Floquet engineering opens the way to create new topological states without counterparts in static systems. Here, we report the experimental realization and characterization of new anomalous topological states with high-precision Floquet engineering for ultracold atoms trapped in a shaking optical Raman lattice. The Floquet band topology is manipulated by tuning the driving-induced band crossings referred to as band inversion surfaces (BISs), whose configurations fully characterize the topology of the underlying states. We uncover various exotic anomalous topological states by measuring the configurations of BISs which correspond to the bulk Floquet topology. In particular, we identify an unprecedented anomalous Floquet valley-Hall state that possesses anomalous helicallike edge modes protected by valleys and a chiral state with high Chern number.
翻訳日:2023-01-19 20:48:46 公開日:2022-11-09
# スケーラブルな量子誤り訂正における漏洩の克服

Overcoming leakage in scalable quantum error correction ( http://arxiv.org/abs/2211.04728v1 )

ライセンス: Link先を確認
Kevin C. Miao, Matt McEwen, Juan Atalaya, Dvir Kafri, Leonid P. Pryadko, Andreas Bengtsson, Alex Opremcak, Kevin J. Satzinger, Zijun Chen, Paul V. Klimov, Chris Quintana, Rajeev Acharya, Kyle Anderson, Markus Ansmann, Frank Arute, Kunal Arya, Abraham Asfaw, Joseph C. Bardin, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Bob B. Buckley, David A. Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Juan Campero, Ben Chiaro, Roberto Collins, Paul Conner, Alexander L. Crook, Ben Curtin, Dripto M. Debroy, Sean Demura, Andrew Dunsworth, Catherine Erickson, Reza Fatemi, Vinicius S. Ferreira, Leslie Flores Burgos, Ebrahim Forati, Austin G. Fowler, Brooks Foxen, Gonzalo Garcia, William Giang, Craig Gidney, Marissa Giustina, Raja Gosula, Alejandro Grajales Dau, Jonathan A. Gross, Michael C. Hamilton, Sean D. Harrington, Paula Heu, Jeremy Hilton, Markus R. Hoffmann, Sabrina Hong, Trent Huang, Ashley Huff, Justin Iveland, Evan Jeffrey, Zhang Jiang, Cody Jones, Julian Kelly, Seon Kim, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Pavel Laptev, Lily Laws, Kenny Lee, Brian J. Lester, Alexander T. Lill, Wayne Liu, Aditya Locharla, Erik Lucero, Steven Martin, Anthony Megrant, Xiao Mi, Shirin Montazeri, Alexis Morvan, Ofer Naaman, Matthew Neeley, Charles Neill, Ani Nersisyan, Michael Newman, Jiun How Ng, Anthony Nguyen, Murray Nguyen, Rebecca Potter, Charles Rocque, Pedram Roushan, Kannan Sankaragomathi, Christopher Schuster, Michael J. Shearn, Aaron Shorter, Noah Shutty, Vladimir Shvarts, Jindra Skruzny, W. Clarke Smith, George Sterling, Marco Szalay, Douglas Thor, Alfredo Torres, Theodore White, Bryan W. K. Woo, Z. Jamie Yao, Ping Yeh, Juhwan Yoo, Grayson Young, Adam Zalcman, Ningfeng Zhu, Nicholas Zobrist, Hartmut Neven, Vadim Smelyanskiy, Andre Petukhov, Alexander N. Korotkov, Daniel Sank, and Yu Chen(参考訳) 計算状態から高エネルギー状態への量子情報の漏洩は、量子誤り訂正(QEC)の追求における大きな課題である。 qec回路では、リークは時間とともに発生し、マルチキュービットインタラクションを通じて拡散する。 これにより、論理的誤りの指数的抑制をスケールで低下させる相関エラーが発生し、フォールトトレラント量子計算への道のりとしてQECが実現可能であることに挑戦する。 本稿では,Sycamore量子プロセッサ上で,各サイクルの全てのキュービットから漏れが除去される距離3曲面符号と距離21ビットフリップ符号の実行を実演する。 これはリークの寿命を短縮し、相関エラーを拡散し誘発する能力を短縮する。 本報告では, 論理状態を符号化したデータキュービットにおける定常リーク集団の10倍の減少と, デバイス全体で平均リーク人口が1ドル未満であることを示す。 漏洩除去プロセス自体は、漏洩人口を計算ベースに効率良く戻り、それをコード回路に付加することで、サイクル間で相関したエラーを引き起こすことを防止し、qecの基本的な仮定を復元する。 リークを封じ込めたこの実証により,大規模運用におけるqecの重要な課題が解決される。

Leakage of quantum information out of computational states into higher energy states represents a major challenge in the pursuit of quantum error correction (QEC). In a QEC circuit, leakage builds over time and spreads through multi-qubit interactions. This leads to correlated errors that degrade the exponential suppression of logical error with scale, challenging the feasibility of QEC as a path towards fault-tolerant quantum computation. Here, we demonstrate the execution of a distance-3 surface code and distance-21 bit-flip code on a Sycamore quantum processor where leakage is removed from all qubits in each cycle. This shortens the lifetime of leakage and curtails its ability to spread and induce correlated errors. We report a ten-fold reduction in steady-state leakage population on the data qubits encoding the logical state and an average leakage population of less than $1 \times 10^{-3}$ throughout the entire device. The leakage removal process itself efficiently returns leakage population back to the computational basis, and adding it to a code circuit prevents leakage from inducing correlated error across cycles, restoring a fundamental assumption of QEC. With this demonstration that leakage can be contained, we resolve a key challenge for practical QEC at scale.
翻訳日:2023-01-19 20:48:30 公開日:2022-11-09
# 連続可変量子状態設計:理論と応用

Continuous-variable quantum state designs: theory and applications ( http://arxiv.org/abs/2211.05127v1 )

ライセンス: Link先を確認
Joseph T. Iosue, Kunal Sharma, Michael J. Gullans, Victor V. Albert(参考訳) 量子状態設計の概念を無限次元空間に一般化する。 最初に、continuous-variable (CV) 状態の定義の下で、Comm から $t$-designs を証明します。 数学 Phys 326, 755 (2014), $t\geq2$の状態設計は存在しない。 同様に、CVユニタリ $t$-designs が $t\geq 2$ に対して存在しないことを証明する。 CV状態設計の代替的定義を提案し、これをrigged $t$-designsと呼び、$t=2$の明示的な構成を提供する。 剛体設計の応用として,CV状態のシャドウトモグラフィープロトコルを開発した。 エネルギー制約されたリグデザインを用いて、CV量子チャネルの平均忠実度を定義し、この忠実度とCVエンタングルメント忠実度を関連付ける。 独立性による追加的な結果として、トーラスの2ドル設計と相互に偏りのない基底の完全集合との接続を確立する。

We generalize the notion of quantum state designs to infinite-dimensional spaces. We first prove that, under the definition of continuous-variable (CV) state $t$-designs from Comm. Math. Phys. 326, 755 (2014), no state designs exist for $t\geq2$. Similarly, we prove that no CV unitary $t$-designs exist for $t\geq 2$. We propose an alternative definition for CV state designs, which we call rigged $t$-designs, and provide explicit constructions for $t=2$. As an application of rigged designs, we develop a design-based shadow-tomography protocol for CV states. Using energy-constrained versions of rigged designs, we define an average fidelity for CV quantum channels and relate this fidelity to the CV entanglement fidelity. As an additional result of independent interest, we establish a connection between torus $2$-designs and complete sets of mutually unbiased bases.
翻訳日:2023-01-19 20:41:30 公開日:2022-11-09
# 界面ピコ秒およびナノ秒量子光パルス

Interfacing picosecond and nanosecond quantum light pulses ( http://arxiv.org/abs/2211.05112v1 )

ライセンス: Link先を確認
Filip So\'snicki, Micha{\l} Miko{\l}ajczyk, Ali Golestani, Micha{\l} Karpi\'nski(参考訳) 光は重要な情報キャリアであり、通信ファイバーネットワークを通じて世界中の高速データ伝送を可能にする。 この情報伝達能力は、量子情報(qi)を単一光子(空飛ぶ量子ビット)にエンコードすることで、送信できる。 しかし、様々なQI処理プラットフォームは、非常に異なる時間スケールで動作する。 原子媒体中のQI処理ユニットはナノ秒からマイクロ秒のタイムスケールで動作し、ピコ秒のタイムスケールで高速な量子通信は、タイムスケールまたはそれに対応するスペクトル線幅のオーダーによって効率的にリンクできない。 本研究では,このギャップを橋渡しするために,複雑な高帯域幅電気光学位相変調を用いた広角時間レンズを開発した。 我々は、量子光パルスのコヒーレントで決定論的スペクトル帯域圧縮を2桁以上、高効率で示す。 これは、これまで独立して開発されてきた超高速・準連続波実験プラットフォームをリンクすることで、大規模ハイブリッドQI処理を容易にする。

Light is a key information carrier, enabling worldwide high-speed data transmission through a telecommunication fibre network. This information-carrying capacity can be extended to transmitting quantum information (QI) by encoding it in single photons -- flying qubits. However, various QI-processing platforms operate at vastly different timescales. QI-processing units in atomic media, operating within nanosecond to microsecond timescales, and high-speed quantum communication, at picosecond timescales, cannot be efficiently linked due to orders of magnitude mismatch in the timescales or, correspondingly, spectral linewidths. In this work, we develop a large-aperture time lens using complex high-bandwidth electro-optic phase modulation to bridge this gap. We demonstrate coherent, deterministic spectral bandwidth compression of quantum light pulses by more than two orders of magnitude with high efficiency. It will facilitate large-scale hybrid QI-processing by linking the ultrafast and quasi-continuous-wave experimental platforms, which until now, to a large extent, have been developing independently.
翻訳日:2023-01-19 20:41:15 公開日:2022-11-09
# ボース・アインシュタイン凝縮体を用いたアインシュタイン・ポドルスキー・ローゼンの実験

Einstein-Podolsky-Rosen experiment with two Bose-Einstein condensates ( http://arxiv.org/abs/2211.05101v1 )

ライセンス: Link先を確認
Paolo Colciaghi, Yifan Li, Philipp Treutlein, Tilman Zibold(参考訳) 1935年、アインシュタイン、ポドルスキー、ローゼン(epr)は、量子技術の基礎となり、今日でも現実と局所性の理解に挑戦するゲダンケン実験を考案した。 この実験は小さな量子系で実現されているが、空間的に分離された巨大な多粒子系のEPRパラドックスの実証はいまだに解明されていない。 約700個のルビジウム原子を空間的に分離したボース・アインシュタイン凝縮体を用いてeprパラドックスを観測した。 量子レベルでの2つの凝縮体を個別に操作することに伴うEPRの絡み合いは、ここで示されるように、多くの粒子系による量子力学と情報処理の重要な資源となっている。 以上の結果から, 量子力学と局所リアリズムの衝突は, システムサイズが1万個以上の粒子に増大するにつれて, 消失しないことがわかった。

In 1935, Einstein, Podolsky and Rosen (EPR) conceived a Gedankenexperiment which became a cornerstone of quantum technology and still challenges our understanding of reality and locality today. While the experiment has been realized with small quantum systems, a demonstration of the EPR paradox with spatially separated, massive many-particle systems has so far remained elusive. We observe the EPR paradox in an experiment with two spatially separated Bose-Einstein condensates containing about 700 Rubidium atoms each. EPR entanglement in conjunction with individual manipulation of the two condensates on the quantum level, as demonstrated here, constitutes an important resource for quantum metrology and information processing with many-particle systems. Our results show that the conflict between quantum mechanics and local realism does not disappear as the system size is increased to over a thousand massive particles.
翻訳日:2023-01-19 20:40:58 公開日:2022-11-09
# 誘電体中における多重散乱からのカシミール相互作用

Casimir interactions from multiple scatterings in dielectric media ( http://arxiv.org/abs/2211.05042v1 )

ライセンス: Link先を確認
Giuseppe Bimonte, Thorsten Emig(参考訳) ゆらぎ誘導力は、ゆらぎと幾何学の相互作用の指標である。 カシミール力の最近の測定は、複雑な幾何学における電磁場の量子揺らぎの複雑な修正の証拠となった。 ここでは、任意の形状の物体と材料組成の間のカシミール相互作用の正確な表現の族の存在を示し、体間および体内多重波動散乱の列としての展開を認める。 複雑な幾何学における相互作用は、典型的には数個の波動散乱から現在の実験的解決において理解され、計算可能であることを示す。 異なる材料からなる様々な形状への応用は、電流の誘導と波の回折によるカシミール力の出現に関する新しい洞察を与える。 本研究は, カシミール効果を理論的に到達不能な構成で探究するための系統的解析フレームワークを提供する。

Fluctuation induced forces are a hallmark of the interplay of fluctuations and geometry. Recent measurements of Casimir forces have provided evidence of an intricate modification of quantum fluctuations of the electromagnetic field in complex geometries. Here we demonstrate the existence of a family of exact representations of Casimir interactions between bodies of arbitrary shape and material composition, admitting an expansion as a sequence of inter- and intra-body multiple wave scatterings. We show that interactions in complex geometries can be understood and computed within current experimental resolution from typically a few wave scatterings, notably without any a-priori knowledge of the scattering amplitudes of the bodies. Applications to various shapes composed of different materials offer novel insights into the emergence of Casimir forces from the induction of currents and diffraction of waves. Our results provide a systematic analytical framework for exploring Casimir effects in previously theoretically inaccessible configurations.
翻訳日:2023-01-19 20:40:42 公開日:2022-11-09
# 入力制御のない量子過程の学習

Learning quantum processes without input control ( http://arxiv.org/abs/2211.05005v1 )

ライセンス: Link先を確認
Marco Fanizza, Yihui Quek, Matteo Rosati(参考訳) 古典確率変数を入力とし、量子状態を出力するプロセスに対して、一般的な統計学習理論を導入する。 これは実質的に動機づけられた設定であり、学習者が未知の量子過程の近似表現を見つけようとするが、例えば天文過程の学習、乱れたシステムの研究、観察者が制御しない生物学的過程などにおいて、プロセス自体を管理する古典的な入力を制御できない。 概念クラスが無限であっても、この設定において有限個のサンプルで高い確率で学習するアルゴリズムを提供する。 そこで本研究では,既存アルゴリズムのシャドウトモグラフィと仮説選択の見直しと適応を行い,それらの保証と興味のある損失関数のデータへの統一収束を組み合わせる。 副産物として、量子レジスタの次元にのみ依存する多くのコピーを持つ古典量子状態のシャドウトモグラフィーを行うための十分な条件を得る。 量子回路や、ランダムな摂動やデータ依存の位相シフトを持つハミルトニアンのシステムのような物理的に動機付けられたシナリオに基づいて、この方法で学習できるプロセスの具体的な例を示す。

We introduce a general statistical learning theory for processes that take as input a classical random variable and output a quantum state. This is a practically motivated setting where the learner wants to find an approximate representation of an unknown quantum process, without having control on the classical inputs that govern the process itself, e.g., in learning astronomical processes, studying disordered systems and biological processes not controlled by the observer. We provide an algorithm for learning with high probability in this setting with a finite amount of samples, even if the concept class is infinite. To do this, we review and adapt existing algorithms for shadow tomography and hypothesis selection, and combine their guarantees with the uniform convergence on the data of the loss functions of interest. As a by-product we obtain sufficient conditions for performing shadow tomography of classical-quantum states with a number of copies which depend only on the dimension of the quantum register. We give concrete examples of processes that can be learned in this manner, based on quantum circuits or physically motivated scenarios like systems subject to Hamiltonians with random perturbations or data-dependent phase-shifts.
翻訳日:2023-01-19 20:40:29 公開日:2022-11-09
# ブロッホ波は互いに干渉するのか?

Comment on "Do Bloch waves interfere with one another?" ( http://arxiv.org/abs/2211.04916v1 )

ライセンス: Link先を確認
Tomasz Sowi\'nski(参考訳) 我々は [Phys. Lett. A 417, 127699 (2021)] で提示された議論が、周期的なシステムでは、2つの異なるブロッホ状態が固定位相のコヒーレントな重ね合わせを形成することを禁ずる超選択原理が存在するという結論に至ることを指摘している。 例えば、選択したワニエ状態に射影する作用素を実験的に利用して、重畳されたブロッホ状態間の相対位相を決定できることを示す。 このようにして、上述の超選択原理の非存在は、例えば、光学格子に閉じ込められた超低温原子を用いた最先端の実験において、局所化測定を行うときに常に現れると論じる。

We point out that argumentation presented in [Phys. Lett. A 417, 127699 (2021)], leading to the conclusion that in periodic systems there is a superselection principle forbidding two different Bloch states to form a coherent superposition of a fixed phase, is unjustified and false. As an example, we show that the operator projecting to the selected Wannier state can be experimentally utilized to determine relative phase between superposed Bloch states. In this way we argue that, in fact, the non-existence of the aforementioned superselection principle is manifested always when localized measurements are performed, for example in state-of-the-art experiments with ultracold atoms confined in optical lattices.
翻訳日:2023-01-19 20:39:37 公開日:2022-11-09
# 純粋デコヒーレンス制御における量子性のシグネチャ

A signature of quantumness in pure decoherence control ( http://arxiv.org/abs/2211.04904v1 )

ライセンス: Link先を確認
Bartosz Rzepkowski and Katarzyna Roszak(参考訳) 量子ビット上の中間測定を同じ重ね合わせで行うデコヒーレンス低減スキームを、クビット純デコヒーレンスにつながる全てのクビット環境相互作用の一般的な枠組みで研究する。 提案手法は, 測定の実施時間に関係なく, 平均的に常にコヒーレンスを得られる状況を示すとともに, 適用範囲を広く示す。 さらに、平均コヒーレンスの損失を観測することは、ハミルトニアンにおける異なる項の非可換性から生じる非常に量子的な効果である。 本研究は, 可換条件を満たさないスピンボソンモデルの変種に対して, 損失よりも利得に偏るスキームの適用により, コヒーレンスの挙動の多様性を示す。

We study a decoherence reduction scheme that involves an intermediate measurement on the qubit in an equal superposition basis, in the general framework of all qubit-environment interactions that lead to qubit pure decoherence. We show under what circumstances the scheme always leads to a gain of coherence on average, regardless of the time at which the measurement is performed, demonstrating its wide range of applicability. Furthermore, we find that observing an average loss of coherence is a highly quantum effect, resulting from non-commutation of different terms in the Hamiltonian. We show the diversity of behavior of coherence as effected by the application of the scheme, which is skewed towards gain rather than loss, on a variant of the spin-boson model that does not fulfill the commutation condition.
翻訳日:2023-01-19 20:39:22 公開日:2022-11-09
# 二層グラフェン二重量子ドットにおける3キャリアスピン遮断とカップリング

Three-carrier spin blockade and coupling in bilayer graphene double quantum dots ( http://arxiv.org/abs/2211.04882v1 )

ライセンス: Link先を確認
Chuyao Tong, Florian Ginzel, Wei Wister Huang, Annika Kurzmann, Rebekka Garreis, Kenji Watanabe, Takashi Taniguchi, Guido Burkard, Jeroen Danon, Thomas Ihn, Klaus Ensslin(参考訳) スピンの自由度は、任意の凝縮物系の理解に不可欠である。 スピン混合機構の知識は、スピン量子ビットの制御と操作に必須であるだけでなく、研究されたデバイスや材料の基本的な特性を明らかにする。 静電的に定義された二層グラフェン量子ドットでは、スピン緩和時間T1を強い磁場依存性を持つ50msまで報告し、電荷配置$(1,2)\leftrightarrow(0,3)$でスピン遮断現象を研究する。 トンネル間カップリングにおけるスピン-ブロック漏れ電流の依存性と外部印加磁界の大きさおよび方向について検討した。 平面外磁場では、観察されたゼロフィールド電流ピークはリードとの有限温度共振によって生じる可能性があるが、観測される鋭い側面ピークを説明するには、追加のスピン・バレー混合機構の関与が必要である。 平面内磁場では、スピンゼーマン効果とカイン-メールスピン軌道相互作用の競合によるゼロフィールド電流の低下が観測される。 しかし、現在のディップのライン形状の詳細は、さらなる基盤となるメカニズムが実行されていることを示唆している。

The spin degree of freedom is crucial for the understanding of any condensed matter system. Knowledge of spin-mixing mechanisms is not only essential for successful control and manipulation of spin-qubits, but also uncovers fundamental properties of investigated devices and material. For electrostatically-defined bilayer graphene quantum dots, in which recent studies report spin-relaxation times T1 up to 50ms with strong magnetic field dependence, we study spin-blockade phenomena at charge configuration $(1,2)\leftrightarrow(0,3)$. We examine the dependence of the spin-blockade leakage current on interdot tunnel coupling and on the magnitude and orientation of externally applied magnetic field. In out-of-plane magnetic field, the observed zero-field current peak could arise from finite-temperature co-tunneling with the leads; though involvement of additional spin- and valley-mixing mechanisms are necessary for explaining the persistent sharp side peaks observed. In in-plane magnetic field, we observe a zero-field current dip, attributed to the competition between the spin Zeeman effect and the Kane-Mele spin-orbit interaction. Details of the line shape of this current dip however, suggest additional underlying mechanisms are at play.
翻訳日:2023-01-19 20:39:07 公開日:2022-11-09
# ペルシャ語の感情分析:アルゴリズム,アプローチ,データセットのレビュー

Sentiment Analysis of Persian Language: Review of Algorithms, Approaches and Datasets ( http://arxiv.org/abs/2212.06041v1 )

ライセンス: Link先を確認
Ali Nazarizadeh, Touraj Banirostam, Minoo Sayyadpour(参考訳) 感情分析は、ウェブ上のコメントから人々の感情や意見を抽出することを目的としている。 企業では、ソーシャルデータの感情の検出、ブランド評価の計測、顧客理解に広く使われている。 この地域のほとんどの記事は英語に集中しているが、ペルシア語の資源は限られている。 本稿では、ペルシア語における感情分析の2018年から2022年にかけての論文をまとめ、その方法、アプローチ、データセットを説明し、分析する。 感情分析を解くのに使われるほとんどの方法は、機械学習とディープラーニングである。 本研究の目的は,ペルシャ語における40種類のアプローチ感情分析,分析データセットとそれらに適用するアルゴリズムの精度,およびそれぞれの強みと弱みについて検討することである。 これらの手法のうち, BERT や RNN ニューラルネットワーク, LSTM や Bi-LSTM などの変換器は感情分析において高い精度を実現している。 方法とアプローチに加えて、レビューされたデータセットは2018年から2022年の間にリストされ、各データセットとその詳細に関する情報が提供される。

Sentiment analysis aims to extract people's emotions and opinion from their comments on the web. It widely used in businesses to detect sentiment in social data, gauge brand reputation, and understand customers. Most of articles in this area have concentrated on the English language whereas there are limited resources for Persian language. In this review paper, recent published articles between 2018 and 2022 in sentiment analysis in Persian Language have been collected and their methods, approach and dataset will be explained and analyzed. Almost all the methods used to solve sentiment analysis are machine learning and deep learning. The purpose of this paper is to examine 40 different approach sentiment analysis in the Persian Language, analysis datasets along with the accuracy of the algorithms applied to them and also review strengths and weaknesses of each. Among all the methods, transformers such as BERT and RNN Neural Networks such as LSTM and Bi-LSTM have achieved higher accuracy in the sentiment analysis. In addition to the methods and approaches, the datasets reviewed are listed between 2018 and 2022 and information about each dataset and its details are provided.
翻訳日:2023-01-19 20:33:01 公開日:2022-11-09
# 量子暗号:非技術的アプローチによる量子鍵分布

Quantum Cryptography: Quantum Key Distribution, a Non-technical Approach ( http://arxiv.org/abs/2211.17089v1 )

ライセンス: Link先を確認
Andrew Frigyik(参考訳) 量子コンピュータの急速な発展により、現在セキュアな暗号プロトコルはそのような状態に留まらないかもしれない。 量子力学は、特定の数学的問題の計算困難さではなく、物理学の法則によって保護される、本質的に安全な通信チャネルを作成する手段を提供する。 この論文は量子鍵分布の非技術的概要であり、量子暗号の最もよく知られた応用の1つであり、量子力学の法則を直接利用するための暗号の一種である。

With the rapid development of quantum computers the currently secure cryptographic protocols may not stay that way. Quantum mechanics provides means to create an inherently secure communication channel that is protected by the laws of physics and not by the computational hardness of certain mathematical problems. This paper is a non-technical overview of quantum key distribution, one of the most well-known application of quantum cryptography, a type of cryptography poised to exploit the laws of quantum mechanics directly.
翻訳日:2023-01-19 20:32:45 公開日:2022-11-09
# 量子微分方程式解法の理論:限界と高速フォワード

A theory of quantum differential equation solvers: limitations and fast-forwarding ( http://arxiv.org/abs/2211.05246v1 )

ライセンス: Link先を確認
Dong An, Jin-Peng Liu, Daochen Wang, Qi Zhao(参考訳) 本研究では,非量子力学に着目した線形常微分方程式(ode)方程式の解法における量子アルゴリズムの限界と高速解法について検討する。 一方,一様線形 ode に対して,最悪の場合の下限を証明すれば,量子アルゴリズムは'非量子性' の実部ギャップと係数行列の非正規性 (non-normality of the coefficient matrix) という2つのタイプの'非量子性'によって計算上のオーバーヘッドを負うことが分かる。 両タイプの「非量子性」が存在しないodeは量子力学と同値であることを示し、量子力学の量子アルゴリズムが最善であるという結論に達した。 その結果を不均質な場合に一般化し、既存の一般的な量子 ode ソルバが大幅に改善できないことを見出す。 これらの下位境界を得るために、増幅器である量子アルゴリズムの下位境界を証明するための一般的な枠組みを提案し、入力された量子状態のペアの違いを増幅する。 一方,odeの特殊クラスを高速に解くための量子アルゴリズムを提案することで,効率が向上することを示す。 More specifically, we obtain quadratic to exponential improvements in terms of the evolution time $T$ and the spectral norm of the coefficient matrix for the following classes of ODEs: inhomogeneous ODEs with a negative definite coefficient matrix, inhomogeneous ODEs with a coefficient matrix having an eigenbasis that can be efficiently prepared on a quantum computer and eigenvalues that can be efficiently computed classically, and the spatially discretized inhomogeneous heat equation and advection-diffusion equation. 我々は、時間離散化や高次元線形システムの解法を必要としないという意味で、既存のものと概念的に異なる高速フォワードアルゴリズムを提供する。

We study the limitations and fast-forwarding of quantum algorithms for solving linear ordinary differential equation (ODE) systems with particular focus on non-quantum dynamics, where the coefficient matrix in the ODE is not anti-Hermitian or the ODE is inhomogeneous. On the one hand, for generic homogeneous linear ODEs, by proving worst-case lower bounds, we show that quantum algorithms suffer from computational overheads due to two types of ``non-quantumness'': real part gap and non-normality of the coefficient matrix. We then show that ODEs in the absence of both types of ``non-quantumness'' are equivalent to quantum dynamics, and reach the conclusion that quantum algorithms for quantum dynamics work best. We generalize our results to the inhomogeneous case and find that existing generic quantum ODE solvers cannot be substantially improved. To obtain these lower bounds, we propose a general framework for proving lower bounds on quantum algorithms that are amplifiers, meaning that they amplify the difference between a pair of input quantum states. On the other hand, we show how to fast-forward quantum algorithms for solving special classes of ODEs which leads to improved efficiency. More specifically, we obtain quadratic to exponential improvements in terms of the evolution time $T$ and the spectral norm of the coefficient matrix for the following classes of ODEs: inhomogeneous ODEs with a negative definite coefficient matrix, inhomogeneous ODEs with a coefficient matrix having an eigenbasis that can be efficiently prepared on a quantum computer and eigenvalues that can be efficiently computed classically, and the spatially discretized inhomogeneous heat equation and advection-diffusion equation. We give fast-forwarding algorithms that are conceptually different from existing ones in the sense that they neither require time discretization nor solving high-dimensional linear systems.
翻訳日:2023-01-19 20:32:38 公開日:2022-11-09
# スピン圧縮GKP符号による原子アンサンブルの量子誤差補正

Spin squeezed GKP codes for quantum error correction in atomic ensembles ( http://arxiv.org/abs/2211.05181v1 )

ライセンス: Link先を確認
Sivaprasad Omanakuttan and T.J. Volkoff(参考訳) gkp符号は、連続変数(cv)量子システムの変位位相空間コム内の量子ビットを符号化し、様々な重み付きフォトニックエラーの修正に有用である。 本稿では, 量子中心極限定理を用いて, cv系の位相空間構造を量子スピン系のコンパクト位相空間に引き戻すために, 単一モードcv gkp符号の原子アンサンブルアナログを提案する。 確率緩和法と等方的弾道復号法によって記述された誤差チャネルの最適回復性能について,多様性結合法を用いて検討した。 スピンGKP符号は、猫符号や二項符号など、他のスピン系符号よりも優れていることがわかった。 2軸対向相互作用に基づくスピンgkp符号とsu(2)コヒーレント状態の重ね合わせは有限エネルギーcv gkp符号の直接スピンアナログであるが、一方1軸ねじれに基づく我々の符号はよく研究されたcvアナログを持っていない。 CVとスピンGKP設定の両方に適用可能なユニタリ法を線形に組み合わせたスピンGKP符号の実装を提案する。 最後に,量子中心極限定理を用いてcv gkp設定からゲートを変換したスピンgkpエンコード量子ビットを用いた,量子計算のためのフォールトトレラント近似ゲートセットについて考察する。

GKP codes encode a qubit in displaced phase space combs of a continuous-variable (CV) quantum system and are useful for correcting a variety of high-weight photonic errors. Here we propose atomic ensemble analogues of the single-mode CV GKP code by using the quantum central limit theorem to pull back the phase space structure of a CV system to the compact phase space of a quantum spin system. We study the optimal recovery performance of these codes under error channels described by stochastic relaxation and isotropic ballistic dephasing processes using the diversity combining approach for calculating channel fidelity. We find that the spin GKP codes outperform other spin system codes such as cat codes or binomial codes. Our spin GKP codes based on the two-axis countertwisting interaction and superpositions of SU(2) coherent states are direct spin analogues of the finite-energy CV GKP codes, whereas our codes based on one-axis twisting do not yet have well-studied CV analogues. An implementation of the spin GKP codes is proposed which uses the linear combination of unitaries method, applicable to both the CV and spin GKP settings. Finally, we discuss a fault-tolerant approximate gate set for quantum computing with spin GKP-encoded qubits, obtained by translating gates from the CV GKP setting using quantum central limit theorem.
翻訳日:2023-01-19 20:32:10 公開日:2022-11-09
# 量子ドット源から生成する軌道角運動量に基づく粒子内および粒子間絡み合い状態

Orbital angular momentum based intra- and inter- particle entangled states generated via a quantum dot source ( http://arxiv.org/abs/2211.05160v1 )

ライセンス: Link先を確認
Alessia Suprano, Danilo Zia, Mathias Pont, Taira Giordani, Giovanni Rodari, Mauro Valeri, Bruno Piccirillo, Gonzalo Carvacho, Nicol\`o Spagnolo, Pascale Senellart, Lorenzo Marrucci and Fabio Sciarrino(参考訳) Orbital Angular Momentum (OAM) によるエンジニアリングシングル光子状態は、量子情報フォトニック実装のための強力なツールである。 実際、unboundedの性質のおかげで、oamはquditをエンコードするのに適しており、単一のキャリアが大量の情報を転送できる。 今日、実験プラットフォームのほとんどは非線形結晶を使用して自発的なパラメトリックダウン変換プロセスを通じて単一光子を生成する。 半導体量子ドット (QD) は、要求に応じて純粋な単光子状態を生成することができるというこれらの制限を克服するために使われてきたが、最近になってOAMモードの作成に利用されるようになった。 我々の研究は、明るいQD単一光子源を用いて、OAMを付加した光子を用いた情報処理のための完全な量子状態を生成する。 我々はまず,OAMと単一光子の偏光度の自由度とのハイブリッド粒子内絡みについて検討した。 我々は, 連続OAM符号化光子間の相互重なり合いを両立させる, 香港・奥羽・マンデル効果の可視性を利用して, この種のキュディット状態の生成を認証する。 次に, 確率的2つのqudit oamベースの絡み合いゲートを用いて, ハイブリッド粒子間絡み合いについて検討する。 エンタングルメント生成手法の性能を高次元量子状態トモグラフィで評価し,ベルの不等式に違反する。 この結果は,高次元ヒルベルト空間における光量子状態のオンデマンド生成のための決定論的情報源(QD)の利用への道を開いた。

Engineering single-photon states endowed with Orbital Angular Momentum (OAM) is a powerful tool for quantum information photonic implementations. Indeed, thanks to its unbounded nature, OAM is suitable to encode qudits allowing a single carrier to transport a large amount of information. Nowadays, most of the experimental platforms use nonlinear crystals to generate single photons through Spontaneous Parametric Down Conversion processes, even if this kind of approach is intrinsically probabilistic leading to scalability issues for increasing number of qudits. Semiconductors Quantum Dots (QDs) have been used to get over these limitations being able to produce on demand pure and indistinguishable single-photon states, although only recently they were exploited to create OAM modes. Our work employs a bright QD single-photon source to generate a complete set of quantum states for information processing with OAM endowed photons. We first study the hybrid intra-particle entanglement between the OAM and the polarization degree of freedom of a single-photon. We certify the preparation of such a type of qudit states by means of the Hong-Ou-Mandel effect visibility which furnishes the pairwise overlap between consecutive OAM-encoded photons. Then, we investigate the hybrid inter-particle entanglement, by exploiting a probabilistic two qudit OAM-based entangling gate. The performances of our entanglement generation approach are assessed performing high dimensional quantum state tomography and violating Bell inequalities. Our results pave the way toward the use of deterministic sources (QDs) for the on demand generation of photonic quantum states in high dimensional Hilbert spaces.
翻訳日:2023-01-19 20:31:32 公開日:2022-11-09
# 量子ホール状態における電荷変動のフルカウント統計

Full-counting statistics of charge fluctuations in quantum Hall states ( http://arxiv.org/abs/2211.05159v1 )

ライセンス: Link先を確認
Cl\'ement Berthiere, Benoit Estienne, Jean-Marie St\'ephan and William Witczak-Krempa(参考訳) 本研究では, 粒子とフェルミオンの2次元量子ホール状態に対する部分領域の電荷分布の累積について検討し, 角を持つ部分領域に着目した。 分散を含む累積体でさえ、コーナー貢献のような部分領域のより細かい幾何学的詳細に敏感な部分リード補正を伴う領域法則を満たすと同時に、一般相関関数に対する非自明な和則を探索する。 解析的,数値的完全,モンテカルロ計算を組み合わせることで,このようなコーナー項を体系的に研究する。 また, 面積則項が消滅し, 個別のコーナー貢献が現れる奇数電荷累積式についても検討した。 観察された第3累積の形状依存性は、最低ランダウ準位における整数および分数ラウリンホール状態のほぼ普遍的な挙動を示す。 これらの状態が主な例として機能する一方で、我々の発見の多くは、かなりの一般化が期待されている。 図示として、ギャップレスディラックフェルミオンの性質とより一般的な共形場理論について論じる。

We study the cumulants of the charge distribution of a subregion for two-dimensional quantum Hall states of bosons and fermions at both integer and fractional fillings, focusing on subregions with corners. Even cumulants, which include the variance, satisfy an area law with subleading corrections sensitive to finer geometric details of the subregion such as corner contributions, while at the same time probing non-trivial sum rules for general correlation functions. We perform a systematic study of such corner terms, by a combination of analytic, numerically exact, and Monte Carlo computations. We also study odd charge cumulants, for which the area-law term vanishes and distinct corner contributions appear. The observed shape dependence of the third cumulant shows nearly universal behavior for integer and fractional Laughlin Hall states in the lowest Landau level. While these states serve as our main example, many of our finding are expected to hold in considerable generality. As an illustration, we discuss properties of gapless Dirac fermions, and more general conformal field theories.
翻訳日:2023-01-19 20:31:03 公開日:2022-11-09
# 連続可変シャドウトモグラフィ

Continuous-Variable Shadow Tomography ( http://arxiv.org/abs/2211.05149v1 )

ライセンス: Link先を確認
Srilekha Gandhari, Victor V. Albert, Thomas Gerrits, Jacob M. Taylor, Michael J. Gullans(参考訳) シャドウ・トモグラフィー(Shadow tomography)は、古典的なシャドウと呼ばれる量子状態の簡潔な記述を構築するためのフレームワークである。 従来の連続可変トモグラフィーのための実験的プロトコルを古典シェードウフレームワークで再放送し、これらのプロトコルから密度行列を推定するためのサンプル複雑性の厳密な境界を求める。 我々は,ホモダイン,ヘテロダイン,光子数分解(PNR)および光子パリティプロトコルの効率を解析した。 高い確率で$N$-光子密度行列の古典的影に対する所望の精度に達するためには、ホモダイン検出は最悪の場合$\mathcal{O}(N^5)$測定を必要とするのに対し、PNRと光子パリティ検出は最悪の場合$\mathcal{O}(N^4)$測定を必要とする(対数補正の両方)。 本研究は,光学ホモダイン実験の数値シミュレーションと実験データとを比較した。 数値的および実験的なホモダイン・トモグラフィーは我々の限界を著しく上回り、N$で線形に近い測定数のより典型的なスケーリングを示す。 単一モードの結果を局所的な測定に基づくマルチモード影の効率的な構築に拡張する。

Shadow tomography is a framework for constructing succinct descriptions of quantum states, called classical shadows, with powerful methods to bound the estimators used. We recast existing experimental protocols for continuous-variable tomography in the classical-shadow framework, obtaining rigorous bounds on the sample complexity for estimating density matrices from these protocols. We analyze the efficiency of homodyne, heterodyne, photon number resolving (PNR), and photon-parity protocols. To reach a desired precision on the classical shadow of an $N$-photon density matrix with a high probability, we show that homodyne detection requires an order $\mathcal{O}(N^5)$ measurements in the worst case, whereas PNR and photon-parity detection require $\mathcal{O}(N^4)$ measurements in the worst case (both up to logarithmic corrections). We benchmark these results against numerical simulation as well as experimental data from optical homodyne experiments. We find that numerical and experimental homodyne tomography significantly outperforms our bounds, exhibiting a more typical scaling of the number of measurements that is close to linear in $N$. We extend our single-mode results to an efficient construction of multimode shadows based on local measurements.
翻訳日:2023-01-19 20:30:45 公開日:2022-11-09
# 非マルコフメモリ効果で有界な量子Cram\'er-Raoを破る

Breaking the quantum Cram\'er-Rao bound with non-Markovian memory effects ( http://arxiv.org/abs/2211.05142v1 )

ライセンス: Link先を確認
Olli Siltanen(参考訳) 線形光学は開量子系の力学をシミュレートし制御するための多用途手段を提供する。 ここで、光子の偏光と周波数は、それぞれシステムとその環境を表すことが多い。 近年、光子の自由度と干渉の影響も考慮され、「開放系干渉」の概念が生まれた。 このようなモデルは、特定のシナリオにおいて伝統的なパラメータ推定スキームを上回ることが示されている。 本研究では,オープンシステムmach-zehnder干渉計から発生する非マルコフ記憶効果の感度について検討する。 このプロトコルは量子クラム・ラーオの定理を回避し、従来のパラメータ推定プロトコルにとって注目すべき選択肢であることを示す代替手段を提供する。

Linear optics provides versatile means to simulate and control the dynamics of open quantum systems. Here, the polarization and frequency of photons often represent the system and its environment, respectively. Recently, the photon's path degree of freedom and the effects of interference have been considered as well, giving rise to the concept of "open system interference". Such models have been shown to beat traditional parameter estimation schemes in certain scenarios. In this work, we study the sensitivity of non-Markovian memory effects arising from an open system Mach-Zehnder interferometer. Our protocol provides an alternative way to get around the quantum Cram\'er-Rao theorem, proving itself a noteworthy option for more conventional parameter estimation protocols.
翻訳日:2023-01-19 20:30:22 公開日:2022-11-09
# Evident: データマイニング,機械学習,一般知識管理のための開発方法論と知識ベーストポロジー

Evident: a Development Methodology and a Knowledge Base Topology for Data Mining, Machine Learning and General Knowledge Management ( http://arxiv.org/abs/2211.10291v1 )

ライセンス: Link先を確認
Mingwu (Barton) Gao, Samer Haidar(参考訳) ソフトウェアは、30年以上にわたって知識発見、予測、管理のために開発されてきた。 しかしながら、既存のプロジェクト開発やアーティファクト管理方法論を使用する場合、まだ未解決の問題点があります。 歴史的に、適用可能な方法論が欠けている。 さらに、アジャイルのように適用された方法論には、適用可能性を減らす科学的不適合性を含むいくつかの制限がある。 論理的推論の哲学に根ざした開発方法論であるEvidentと知識ベーストポロジであるEKBを提案する。 データマイニング、機械学習、一般知識管理における多くの問題点は概念的に緩和されている。 エビデントは、哲学的な探索、科学の発見、教育、そして世界中の知識共有と保持を加速する可能性がある。 EKBは、情報を知識として保存する1つのソリューションを提供する。 コンピュータ史、ソフトウェア工学、データベース、センサー、哲学、プロジェクト・アンド・組織・軍事管理に関する話題についても論じる。

Software has been developed for knowledge discovery, prediction and management for over 30 years. However, there are still unresolved pain points when using existing project development and artifact management methodologies. Historically, there has been a lack of applicable methodologies. Further, methodologies that have been applied, such as Agile, have several limitations including scientific unfalsifiability that reduce their applicability. Evident, a development methodology rooted in the philosophy of logical reasoning and EKB, a knowledge base topology, are proposed. Many pain points in data mining, machine learning and general knowledge management are alleviated conceptually. Evident can be extended potentially to accelerate philosophical exploration, science discovery, education as well as knowledge sharing & retention across the globe. EKB offers one solution of storing information as knowledge, a granular level above data. Related topics in computer history, software engineering, database, sensor, philosophy, and project & organization & military managements are also discussed.
翻訳日:2022-11-27 13:27:01 公開日:2022-11-09
# 機械学習の概念を大学院に組み込む

Integrating machine learning concepts into undergraduate classes ( http://arxiv.org/abs/2211.06491v1 )

ライセンス: Link先を確認
Chinmay Sahu, Blaine Ayotte, Mahesh K. Banavar(参考訳) 本論文では,電気工学の学部生を対象に,機械学習の概念を教える2つの方法を比較した。 機械学習は現在、いくつかのカリキュラムでシニアレベルの選択語として提供されているが、すべての学生がそれにさらされているわけではない。 機械学習の概念と実践的応用への露出は、現在業界でホットなトピックである機械学習に関わる問題に取り組む準備ができている労働者の創出を支援する。 予備評価は、このアプローチが学生の学習を促進することを示している。 学生は,提案する傍側教育アプローチを好んでいるが,数値比較により,学生の学習にワークショップアプローチがより効果的である可能性が示唆され,この領域でのさらなる作業が必要であることが示唆された。

In this innovative practice work-in-progress paper, we compare two different methods to teach machine learning concepts to undergraduate students in Electrical Engineering. While machine learning is now being offered as a senior-level elective in several curricula, this does not mean all students are exposed to it. Exposure to the concepts and practical applications of machine learning will assist in the creation of a workforce ready to tackle problems related to machine learning, currently a hot topic in industry. Preliminary assessments indicate that this approach promotes student learning. While students prefer the proposed side-by-side teaching approach, numerical comparisons show that the workshop approach may be more effective for student learning, indicating that further work in this area is required.
翻訳日:2022-11-20 13:34:15 公開日:2022-11-09
# QuanGCN:ロバスト量子グラフ畳み込みネットワークのための雑音適応トレーニング

QuanGCN: Noise-Adaptive Training for Robust Quantum Graph Convolutional Networks ( http://arxiv.org/abs/2211.07379v1 )

ライセンス: Link先を確認
Kaixiong Zhou, Zhenyu Zhang, Shengyuan Chen, Tianlong Chen, Xiao Huang, Zhangyang Wang, and Xia Hu(参考訳) 量子コンピューティングと機械学習の学際的な分野である量子ニューラルネットワーク(qnns)は、特定の量子の利点のために大きな研究関心を集めている。 コンピュータビジョン領域で開発された多くの取り組みにもかかわらず、現実世界のグラフプロパティ分類のためのQNNを十分に調べておらず、量子デバイスで評価している。 このギャップを埋めるために,クロスゲート量子演算のシーケンスを用いてノード間の局所的なメッセージパッシングを学習する量子グラフ畳み込みネットワーク(QuanGCN)を提案する。 現代の量子デバイスから固有のノイズを緩和するために、ノードの接続をスパースするためにスパース制約を適用し、量子ゲートのエラー率を緩和し、スキップ接続を使用して元のノード機能で量子出力を増強し、堅牢性を改善する。 実験結果から,我々のQuanGCNは,いくつかのベンチマークグラフデータセットの古典的アルゴリズムよりも機能的に同等か,あるいは優れていることが示された。 シミュレータと実量子マシンの総合的な評価は、将来のグラフ解析問題に適用可能であることを示す。

Quantum neural networks (QNNs), an interdisciplinary field of quantum computing and machine learning, have attracted tremendous research interests due to the specific quantum advantages. Despite lots of efforts developed in computer vision domain, one has not fully explored QNNs for the real-world graph property classification and evaluated them in the quantum device. To bridge the gap, we propose quantum graph convolutional networks (QuanGCN), which learns the local message passing among nodes with the sequence of crossing-gate quantum operations. To mitigate the inherent noises from modern quantum devices, we apply sparse constraint to sparsify the nodes' connections and relieve the error rate of quantum gates, and use skip connection to augment the quantum outputs with original node features to improve robustness. The experimental results show that our QuanGCN is functionally comparable or even superior than the classical algorithms on several benchmark graph datasets. The comprehensive evaluations in both simulator and real quantum machines demonstrate the applicability of QuanGCN to the future graph analysis problem.
翻訳日:2022-11-20 13:32:00 公開日:2022-11-09
# 人工切断タンパク質の自己制御ペプチド配列モデルの訓練

Training self-supervised peptide sequence models on artificially chopped proteins ( http://arxiv.org/abs/2211.06428v1 )

ライセンス: Link先を確認
Gil Sadeh, Zichen Wang, Jasleen Grewal, Huzefa Rangwala, Layne Price(参考訳) タンパク質の表現学習は主に、その長さに関わらず、タンパク質配列のグローバルな理解に焦点を当てている。 しかし、短いタンパク質(ペプチドとして知られる)は、長いタンパク質と異なる構造と機能を持つ。 残念なことに、天然に存在するペプチドの配列はそれほど多くないため、訓練対象のペプチド特異的なデータは少ない。 本稿では,より長い野生型タンパク質の連続部分集合である人工的に構築されたペプチド上で,ペプチド言語モデルを訓練する,新しいペプチドデータ拡張手法を提案する。 切断タンパク質と天然ペプチドを訓練したモデルの表現可能性を評価し、切断タンパク質を用いた訓練言語モデルが短いタンパク質配列に対してより汎用的な埋め込みをもたらすことを見出した。 これらのペプチド特異的モデルは、フル長のタンパク質で訓練された言語モデルよりも、元のタンパク質に由来する情報を保持する。 マスク付き言語モデルトレーニングの目的と,次のペプチド予測,コントラストペプチド選択,進化強調mlmの3つの新しいペプチド特異的トレーニング目標を比較した。 深部突然変異スキャンペプチドベンチマークによるゼロショット学習性能の向上を実証した。

Representation learning for proteins has primarily focused on the global understanding of protein sequences regardless of their length. However, shorter proteins (known as peptides) take on distinct structures and functions compared to their longer counterparts. Unfortunately, there are not as many naturally occurring peptides available to be sequenced and therefore less peptide-specific data to train with. In this paper, we propose a new peptide data augmentation scheme, where we train peptide language models on artificially constructed peptides that are small contiguous subsets of longer, wild-type proteins; we refer to the training peptides as "chopped proteins". We evaluate the representation potential of models trained with chopped proteins versus natural peptides and find that training language models with chopped proteins results in more generalized embeddings for short protein sequences. These peptide-specific models also retain information about the original protein they were derived from better than language models trained on full-length proteins. We compare masked language model training objectives to three novel peptide-specific training objectives: next-peptide prediction, contrastive peptide selection and evolution-weighted MLM. We demonstrate improved zero-shot learning performance for a deep mutational scan peptides benchmark.
翻訳日:2022-11-20 13:31:40 公開日:2022-11-09
# RecD:Deep-to-Endディープラーニング推奨モデルトレーニングインフラストラクチャの重複

RecD: Deduplication for End-to-End Deep Learning Recommendation Model Training Infrastructure ( http://arxiv.org/abs/2211.05239v1 )

ライセンス: Link先を確認
Mark Zhao, Dhruv Choudhary, Devashish Tyagi, Ajay Somani, Max Kaplan, Sung-Han Lin, Sarunya Summa, Jongsoo Park, Aarti Basant, Niket Agarwal, Carole-Jean Wu, Christos Kozyrakis(参考訳) 本稿では,DLRM(Deep Learning Recommendation Model)トレーニングパイプライン間のエンドツーエンドインフラストラクチャ最適化スイートであるRecD(Recommendation Deduplication)を紹介する。 RecDは、産業規模のDLRMトレーニングデータセットに固有の機能の重複に起因する膨大なストレージ、前処理、トレーニングオーバーヘッドに対処する。 DLRMデータセットは相互作用から生成されるため、特徴重複が発生する。 各ユーザセッションは複数のトレーニングサンプルを生成することができるが、多くの機能の価値はこれらのサンプル間で変化しない。 recdがこのプロパティをエンドツーエンドで,デプロイされたトレーニングパイプラインを通じてどのように活用しているかを実証する。 RecDはデータセットストレージの削減とリソース要求の事前処理、トレーニングバッチ内の重複の最大化のために、データ生成パイプラインを最適化する。 RecDは新しいテンソルフォーマット、InverseKeyedJaggedTensors (IKJTs)を導入し、各バッチで機能値の重複を解消した。 DLRMモデルアーキテクチャがIKJTを活用してトレーニングスループットを大幅に向上させる方法を示す。 recdは業界規模のdlrmトレーニングシステムにおいて,最大2.49x,1.79x,3.71xのトレーニングと前処理スループットとストレージ効率を向上させる。

We present RecD (Recommendation Deduplication), a suite of end-to-end infrastructure optimizations across the Deep Learning Recommendation Model (DLRM) training pipeline. RecD addresses immense storage, preprocessing, and training overheads caused by feature duplication inherent in industry-scale DLRM training datasets. Feature duplication arises because DLRM datasets are generated from interactions. While each user session can generate multiple training samples, many features' values do not change across these samples. We demonstrate how RecD exploits this property, end-to-end, across a deployed training pipeline. RecD optimizes data generation pipelines to decrease dataset storage and preprocessing resource demands and to maximize duplication within a training batch. RecD introduces a new tensor format, InverseKeyedJaggedTensors (IKJTs), to deduplicate feature values in each batch. We show how DLRM model architectures can leverage IKJTs to drastically increase training throughput. RecD improves the training and preprocessing throughput and storage efficiency by up to 2.49x, 1.79x, and 3.71x, respectively, in an industry-scale DLRM training system.
翻訳日:2022-11-11 16:24:46 公開日:2022-11-09
# すべてのエッジは必要か? グラフ浄化のための統一フレームワーク

Are All Edges Necessary? A Unified Framework for Graph Purification ( http://arxiv.org/abs/2211.05184v1 )

ライセンス: Link先を確認
Zishan Gu, Jintang Li and Liang Chen(参考訳) グラフ構造データを扱うディープラーニングモデルとしてのグラフニューラルネットワーク(GNN)は多くの研究で高度なパフォーマンスを実現している。 しかし、機械学習モデルのトレーニングにはグラフのすべてのエッジが必要なわけではないことが繰り返し証明されている。 言い換えれば、ノード間の接続の一部が、下流のタスクに冗長あるいは誤った情報をもたらす可能性がある。 本稿では,新たな視点からグラフデータを浄化するために,エッジをドロップする手法を提案する。 具体的には、最小情報損失でグラフを浄化するフレームワークであり、その中核となる問題は、エッジをよりよく評価する方法と、最小情報損失で比較的冗長なエッジを削除する方法である。 上記の2つの問題に対処するために、評価のためのいくつかの測定方法とエッジ削除のための異なる判定とフィルタを提案する。 また,未知情報を必要とする測定のための残差文戦略とサロゲートモデルについても紹介する。 実験結果から,グラフの接続性とエッジの削除を反復的に行う制約付きKL分散測定は,GNNの性能を保ちながら,最もよいエッジを見つけることができることがわかった。 さらに、さらなる実験では、この手法が敵攻撃に対する最良の防御性能を達成することも示している。

Graph Neural Networks (GNNs) as deep learning models working on graph-structure data have achieved advanced performance in many works. However, it has been proved repeatedly that, not all edges in a graph are necessary for the training of machine learning models. In other words, some of the connections between nodes may bring redundant or even misleading information to downstream tasks. In this paper, we try to provide a method to drop edges in order to purify the graph data from a new perspective. Specifically, it is a framework to purify graphs with the least loss of information, under which the core problems are how to better evaluate the edges and how to delete the relatively redundant edges with the least loss of information. To address the above two problems, we propose several measurements for the evaluation and different judges and filters for the edge deletion. We also introduce a residual-iteration strategy and a surrogate model for measurements requiring unknown information. The experimental results show that our proposed measurements for KL divergence with constraints to maintain the connectivity of the graph and delete edges in an iterative way can find out the most edges while keeping the performance of GNNs. What's more, further experiments show that this method also achieves the best defense performance against adversarial attacks.
翻訳日:2022-11-11 16:07:32 公開日:2022-11-09
# ダイナミクスの安定化機械学習予測:ノイズとノイズに触発された正規化

Stabilizing Machine Learning Prediction of Dynamics: Noise and Noise-inspired Regularization ( http://arxiv.org/abs/2211.05262v1 )

ライセンス: Link先を確認
Alexander Wikner, Brian R. Hunt, Joseph Harvey, Michelle Girvan, Edward Ott(参考訳) 近年の研究では、未知のカオス力学系のダイナミクスを正確に予測するために機械学習(ml)モデルを訓練できることが示されている。 このようなMLモデルは、状態進化の短期的な予測と、力学の統計的パターンの長期的な予測(``climate'')の両方に利用できる。 どちらのタスクもフィードバックループを用いることで達成でき、モデルが1回前に予測するようにトレーニングされた後、トレーニングされたモデルが複数の時間ステップに対して反復され、出力が入力として使用される。 しかし、緩和技術の欠如により、この技術は人工的に急速にエラーが増大し、不正確な予測や気候不安定につながる可能性がある。 本稿では,学習中のMLモデル入力に雑音を加える手法を,安定性の向上と予測精度の向上のために体系的に検討する。 さらに、トレーニング中にモデル入力に付加される多数の独立雑音実効化の効果を決定論的に近似する正規化手法であるLinearized Multi-Noise Training (LMNT)を導入する。 本稿では,繰り返しニューラルネットワークを用いた機械学習手法である貯水池計算を用いて,時空間カオスである倉本・シヴァシンスキー方程式の予測を行う。 ノイズやLMNTで訓練された貯水池のコンピュータは、不確定に安定し、真のシステムと非常によく似た気候の気候を予測し、正規化せずに訓練された貯水池のコンピュータは不安定である。 いくつかのケースで安定をもたらす他のタイプの正規化と比較すると、雑音で訓練された貯水池コンピュータやLMNTによる短期および気候予測は、かなり正確である。 最後に、LMNT正則化の決定論的側面は、ノイズのあるトレーニングと比較して高速なハイパーパラメータチューニングを促進することを示す。

Recent work has shown that machine learning (ML) models can be trained to accurately forecast the dynamics of unknown chaotic dynamical systems. Such ML models can be used to produce both short-term predictions of the state evolution and long-term predictions of the statistical patterns of the dynamics (``climate''). Both of these tasks can be accomplished by employing a feedback loop, whereby the model is trained to predict forward one time step, then the trained model is iterated for multiple time steps with its output used as the input. In the absence of mitigating techniques, however, this technique can result in artificially rapid error growth, leading to inaccurate predictions and/or climate instability. In this article, we systematically examine the technique of adding noise to the ML model input during training as a means to promote stability and improve prediction accuracy. Furthermore, we introduce Linearized Multi-Noise Training (LMNT), a regularization technique that deterministically approximates the effect of many small, independent noise realizations added to the model input during training. Our case study uses reservoir computing, a machine-learning method using recurrent neural networks, to predict the spatiotemporal chaotic Kuramoto-Sivashinsky equation. We find that reservoir computers trained with noise or with LMNT produce climate predictions that appear to be indefinitely stable and have a climate very similar to the true system, while reservoir computers trained without regularization are unstable. Compared with other types of regularization that yield stability in some cases, we find that both short-term and climate predictions from reservoir computers trained with noise or with LMNT are substantially more accurate. Finally, we show that the deterministic aspect of our LMNT regularization facilitates fast hyperparameter tuning when compared to training with noise.
翻訳日:2022-11-11 16:06:52 公開日:2022-11-09
# Web検索クエリの監視による大気汚染レベル検出:ディープラーニングによる時系列予測

Detecting Elevated Air Pollution Levels by Monitoring Web Search Queries: Deep Learning-Based Time Series Forecasting ( http://arxiv.org/abs/2211.05267v1 )

ライセンス: Link先を確認
Chen Lin, Safoora Yousefi, Elvis Kahoro, Payam Karisani, Donghai Liang, Jeremy Sarnat, Eugene Agichtein(参考訳) リアルタイム大気汚染モニタリングは公衆衛生と環境監視にとって貴重なツールである。 近年,人工ニューラルネットワーク(ANN)を用いた大気汚染予測とモニタリング研究が劇的に増加している。 以前の研究のほとんどは、屋外オゾン、窒素酸化物、PM2.5の長期予測のための地上観測と気象データから収集した汚染物質濃度のモデル化に頼っていた。 従来の高度に洗練された空気品質モニターは高価であり、一般には利用できないため、これらのモデルは汚染物質モニタリングサイトの近くに住んでいない人々には十分役に立たない。 さらに, センサから収集した物理計測データに基づいて先行モデルを構築したため, 汚染被曝による公衆衛生効果の予測には適さない可能性がある。 本研究では,主要な検索エンジンからほぼリアルタイムで公開されているWeb検索データを用いて,観測された汚染レベルを推定するモデルを開発し,検証することを目的とする。 従来型の教師付き分類法と最先端のディープラーニング法の両方を用いて機械学習に基づく新しいモデルを開発し,一般の気象データとGoogle Trendsから得られたWebベースの検索ボリュームデータを用いて,米国の都市レベルの大気汚染レベルの上昇を検出する。 2017年と2018年に米国の主要10大都市圏(MSA)で3つの大気汚染物質(オゾン(O3)、二酸化窒素(NO2)、微粒子物質(PM2.5))を予測し,その性能を検証した。

Real-time air pollution monitoring is a valuable tool for public health and environmental surveillance. In recent years, there has been a dramatic increase in air pollution forecasting and monitoring research using artificial neural networks (ANNs). Most of the prior work relied on modeling pollutant concentrations collected from ground-based monitors and meteorological data for long-term forecasting of outdoor ozone, oxides of nitrogen, and PM2.5. Given that traditional, highly sophisticated air quality monitors are expensive and are not universally available, these models cannot adequately serve those not living near pollutant monitoring sites. Furthermore, because prior models were built on physical measurement data collected from sensors, they may not be suitable for predicting public health effects experienced from pollution exposure. This study aims to develop and validate models to nowcast the observed pollution levels using Web search data, which is publicly available in near real-time from major search engines. We developed novel machine learning-based models using both traditional supervised classification methods and state-of-the-art deep learning methods to detect elevated air pollution levels at the US city level, by using generally available meteorological data and aggregate Web-based search volume data derived from Google Trends. We validated the performance of these methods by predicting three critical air pollutants (ozone (O3), nitrogen dioxide (NO2), and fine particulate matter (PM2.5)), across ten major U.S. metropolitan statistical areas (MSAs) in 2017 and 2018.
翻訳日:2022-11-11 16:06:22 公開日:2022-11-09
# 複雑な交通環境知覚のための深層学習に基づくコンピュータビジョン手法の検討

Deep Learning based Computer Vision Methods for Complex Traffic Environments Perception: A Review ( http://arxiv.org/abs/2211.05120v1 )

ライセンス: Link先を確認
Talha Azfar, Jinlong Li, Hongkai Yu, Ruey Long Cheu, Yisheng Lv, Ruimin Ke(参考訳) インテリジェントトランスポートシステム(ITS)と自律運転(AD)におけるコンピュータビジョンの応用は、近年、ディープニューラルネットワークアーキテクチャに向けて加速している。 ベンチマークデータセットのパフォーマンスは改善されているようだが、多くの現実世界の課題はまだ研究において十分に考慮されていない。 本稿では,ITSとADにおけるコンピュータビジョンの応用に関する広範な文献レビューを行い,データ,モデル,複雑な都市環境に関する課題について論じる。 データの課題は、トレーニングデータの収集とラベル付け、現実世界の状況との関係、データセットに固有のバイアス、処理に必要な大量のデータ、プライバシの懸念に関連しています。 ディープラーニング(DL)モデルは通常、組み込みハードウェアのリアルタイム処理には複雑すぎるため、説明可能性や一般化性が欠如しており、現実世界の設定ではテストが難しい。 複雑な都市交通環境は不規則な照明と閉塞があり、監視カメラは様々な角度に設置でき、汚れを収集し、風の中で揺れる。 これらの問題に苦しむ典型的な応用としては、交通量の推定、渋滞検出、自動運転認識、車両の相互作用、エッジコンピューティングなどがある。 現実的なデプロイメントを優先しながら、課題に対処する方法も検討されている。

Computer vision applications in intelligent transportation systems (ITS) and autonomous driving (AD) have gravitated towards deep neural network architectures in recent years. While performance seems to be improving on benchmark datasets, many real-world challenges are yet to be adequately considered in research. This paper conducted an extensive literature review on the applications of computer vision in ITS and AD, and discusses challenges related to data, models, and complex urban environments. The data challenges are associated with the collection and labeling of training data and its relevance to real world conditions, bias inherent in datasets, the high volume of data needed to be processed, and privacy concerns. Deep learning (DL) models are commonly too complex for real-time processing on embedded hardware, lack explainability and generalizability, and are hard to test in real-world settings. Complex urban traffic environments have irregular lighting and occlusions, and surveillance cameras can be mounted at a variety of angles, gather dirt, shake in the wind, while the traffic conditions are highly heterogeneous, with violation of rules and complex interactions in crowded scenarios. Some representative applications that suffer from these problems are traffic flow estimation, congestion detection, autonomous driving perception, vehicle interaction, and edge computing for practical deployment. The possible ways of dealing with the challenges are also explored while prioritizing practical deployment.
翻訳日:2022-11-11 15:59:58 公開日:2022-11-09
# ダイナミックツリーカプセルネットワークによる余裕検出

Affordance detection with Dynamic-Tree Capsule Networks ( http://arxiv.org/abs/2211.05200v1 )

ライセンス: Link先を確認
Antonio Rodr\'iguez-S\'anchez, Simon Haller-Seeber, David Peer, Chris Engelhardt, Jakob Mittelberger, Matteo Saveriano(参考訳) 視覚入力からの精度検出は、自律的なロボット操作の基本的なステップである。 余剰検出の問題に対する既存の解決策は畳み込みニューラルネットワークに依存している。 しかし、これらのネットワークは入力データの空間配置や部品間関係を考慮しない。 したがって、新しいオブジェクトインスタンスや新しいビューポイントに直面すると、それらは短くなります。 このような制限を克服するひとつの解決策は、カプセルネットワークに頼ることだ。 本稿では,動的木構造カプセルを用いた3dポイント雲のための第1報アフォーアンス検出ネットワークを提案する。 我々のカプセルベースのネットワークは、評価にのみ使用される新しいデータセットを通じて、新しいオブジェクトインスタンスの視点不変性と部分分割に関する現在の最先端モデルよりも優れており、github.com/gipfelen/DTCG-Netから公開されています。 実験により,本アルゴリズムは,部品間表現を強制するカプセルネットワークにより,未確認物体の把握に直面する場合,現在のアベイランス検出法よりも優れていることを示す。

Affordance detection from visual input is a fundamental step in autonomous robotic manipulation. Existing solutions to the problem of affordance detection rely on convolutional neural networks. However, these networks do not consider the spatial arrangement of the input data and miss parts-to-whole relationships. Therefore, they fall short when confronted with novel, previously unseen object instances or new viewpoints. One solution to overcome such limitations can be to resort to capsule networks. In this paper, we introduce the first affordance detection network based on dynamic tree-structured capsules for sparse 3D point clouds. We show that our capsule-based network outperforms current state-of-the-art models on viewpoint invariance and parts-segmentation of new object instances through a novel dataset we only used for evaluation and it is publicly available from github.com/gipfelen/DTCG-Net. In the experimental evaluation we will show that our algorithm is superior to current affordance detection methods when faced with grasping previously unseen objects thanks to our Capsule Network enforcing a parts-to-whole representation.
翻訳日:2022-11-11 15:59:35 公開日:2022-11-09
# 医用画像放射線医学研究における再現性:ダイナミックヒストグラム・バイニングの寄与

Reproducibility in medical image radiomic studies: contribution of dynamic histogram binning ( http://arxiv.org/abs/2211.05241v1 )

ライセンス: Link先を確認
Darryl E. Wright, Cole Cook, Jason Klug, Panagiotis Korfiatis, Timothy L. Kline(参考訳) 放射能特徴抽出のための動的ヒストグラムのデファクト標準は、アノテート領域のゆらぎに対する感度を上昇させる。 これは最近発表された放射線学研究の大部分に影響を及ぼし、放射能ベースの機械学習の再現性に乏しい問題に寄与し、データ調和への大きな取り組みにつながったかもしれないが、ここで強調される問題は比較的無視されているが、静的な双対を選択することで改善されることが多いと我々は信じている。 放射線学の分野は、PyRadiomicsのようなコミュニティ標準やオープンソースライブラリの開発によって改善されている。 しかし、画像取得の差異、オブザーバーのアノテーションと前処理ステップの系統的な違いは依然として課題となっている。 これらは抽出された特徴を変化させるボクセルの分布を変えることができ、動的ビンニングによりさらに悪化させることができる。

The de facto standard of dynamic histogram binning for radiomic feature extraction leads to an elevated sensitivity to fluctuations in annotated regions. This may impact the majority of radiomic studies published recently and contribute to issues regarding poor reproducibility of radiomic-based machine learning that has led to significant efforts for data harmonization; however, we believe the issues highlighted here are comparatively neglected, but often remedied by choosing static binning. The field of radiomics has improved through the development of community standards and open-source libraries such as PyRadiomics. But differences in image acquisition, systematic differences between observers' annotations, and preprocessing steps still pose challenges. These can change the distribution of voxels altering extracted features and can be exacerbated with dynamic binning.
翻訳日:2022-11-11 15:58:50 公開日:2022-11-09
# オンラインピアツーピアカウンセリングプラットフォームにおけるモチベーション的面接戦略のモデル化

Modeling Motivational Interviewing Strategies On An Online Peer-to-Peer Counseling Platform ( http://arxiv.org/abs/2211.05182v1 )

ライセンス: Link先を確認
Raj Sanjay Shah, Faye Holt, Shirley Anugrah Hayati, Aastha Agarwal, Yi-Chia Wang, Robert E. Kraut, Diyi Yang(参考訳) オンラインピアツーピアサポートセッションには何百万人もの人々が参加しているが、クライアントの満足度に関連して、きめ細かいピアカウンセラー行動の体系的な心理学に基づく評価についてはほとんど研究されていない。 本稿では、ピアカウンセラーチャットメッセージからモチベーションインタビュー(MI)技術にマッピングすることで、このギャップを埋めることを模索する。 我々は,734のチャット会話から17MI技術を用いて14,797発の音声を注釈し,オンラインプラットフォーム上で見られるユニークな会話パターンを考慮に入れるのに不適切である。 大規模ドメイン固有言語モデルの微調整により、mi技術に対する相互カウンセラー応答のラベリングプロセスを自動化し、これらの自動測定を用いて相互カウンセラーの振る舞いを相関研究を通して調査する。 具体的には,MI手法が会話評価に与える影響について検討し,クライアントのカウンセリングセッションに対する満足度を予測する手法について検討する。 カウンセラーがリフレクションや肯定といったテクニックを使う場合、クライアントはより満足する。 ボランティアのカウンセラーによる技術使用の変化を調べることで、カウンセラーは経験を積むにつれてより多くの紹介と質問の開放を学ぶことができる。 この研究は、ピアツーピアカウンセラープラットフォームにおけるモチベーション的な面接技術の利用をより深く理解し、オンラインプラットフォーム上でボランティアカウンセラーのためのより良いトレーニングプログラムを構築する方法に光を当てている。

Millions of people participate in online peer-to-peer support sessions, yet there has been little prior research on systematic psychology-based evaluations of fine-grained peer-counselor behavior in relation to client satisfaction. This paper seeks to bridge this gap by mapping peer-counselor chat-messages to motivational interviewing (MI) techniques. We annotate 14,797 utterances from 734 chat conversations using 17 MI techniques and introduce four new interviewing codes such as chit-chat and inappropriate to account for the unique conversational patterns observed on online platforms. We automate the process of labeling peer-counselor responses to MI techniques by fine-tuning large domain-specific language models and then use these automated measures to investigate the behavior of the peer counselors via correlational studies. Specifically, we study the impact of MI techniques on the conversation ratings to investigate the techniques that predict clients' satisfaction with their counseling sessions. When counselors use techniques such as reflection and affirmation, clients are more satisfied. Examining volunteer counselors' change in usage of techniques suggest that counselors learn to use more introduction and open questions as they gain experience. This work provides a deeper understanding of the use of motivational interviewing techniques on peer-to-peer counselor platforms and sheds light on how to build better training programs for volunteer counselors on online platforms.
翻訳日:2022-11-11 15:51:40 公開日:2022-11-09
# QuerySnout: クエリベースのシステムに対する属性推論攻撃の発見を自動化する

QuerySnout: Automating the Discovery of Attribute Inference Attacks against Query-Based Systems ( http://arxiv.org/abs/2211.05249v1 )

ライセンス: Link先を確認
Ana-Maria Cretu, Florimond Houssiau, Antoine Cully, Yves-Alexandre de Montjoye(参考訳) クエリベースのシステム(QBS)は、データを匿名で共有する主要なソリューションの1つになっていますが、データセットに寄与する個人のプライバシを堅牢に保護するQBSeの構築は難しい問題です。 差分プライバシー保証に依存する理論的ソリューションは、適切な精度で正しく実装することは困難である。 したがって、QBSesが提供するプライバシを評価するには、幅広いプライバシ攻撃の精度を評価する必要がある。 しかし、既存の攻撃では開発に時間と専門知識が必要であり、特定のシステムに対して手動で調整する必要がある。 本稿では,QBSeの脆弱性を自動的に検出する最初の方法であるQuerySnout(QS)を提案する。 qsはターゲットレコードとqbsをブラックボックスとして入力し、その動作を1つまたは複数のデータセットで分析し、ターゲットレコードの繊細な属性を明らかにするために、応答を結合するルールと共に複数のクエリを出力する。 qsは、新しい突然変異演算子に基づく進化的探索技術を使用して、攻撃につながる可能性のある複数のクエリ集合を見つけ、機械学習分類器により、選択されたクエリに対する回答から機密属性を推測する。 2つの攻撃シナリオ,3つの実世界のデータセット,さまざまな保護メカニズムに適用することで,QSの汎用性を示す。 QSが発見した攻撃は、常に等しく、あるいは性能が良く、時には大きなマージンで、文学からの最良の攻撃を示す。 最後に、予算を必要とするQBSeにQSをどのように拡張できるかを示し、Laplaceメカニズムに基づいた単純なQBSにQSを適用する。 分析結果から,qbsesに対する強力かつ正確な攻撃が自動化システムによってすでに検出されていることを示し,高度に複雑なqbsを「ボタンを押せば」自動的にテストできることを示した。

Although query-based systems (QBS) have become one of the main solutions to share data anonymously, building QBSes that robustly protect the privacy of individuals contributing to the dataset is a hard problem. Theoretical solutions relying on differential privacy guarantees are difficult to implement correctly with reasonable accuracy, while ad-hoc solutions might contain unknown vulnerabilities. Evaluating the privacy provided by QBSes must thus be done by evaluating the accuracy of a wide range of privacy attacks. However, existing attacks require time and expertise to develop, need to be manually tailored to the specific systems attacked, and are limited in scope. In this paper, we develop QuerySnout (QS), the first method to automatically discover vulnerabilities in QBSes. QS takes as input a target record and the QBS as a black box, analyzes its behavior on one or more datasets, and outputs a multiset of queries together with a rule to combine answers to them in order to reveal the sensitive attribute of the target record. QS uses evolutionary search techniques based on a novel mutation operator to find a multiset of queries susceptible to lead to an attack, and a machine learning classifier to infer the sensitive attribute from answers to the queries selected. We showcase the versatility of QS by applying it to two attack scenarios, three real-world datasets, and a variety of protection mechanisms. We show the attacks found by QS to consistently equate or outperform, sometimes by a large margin, the best attacks from the literature. We finally show how QS can be extended to QBSes that require a budget, and apply QS to a simple QBS based on the Laplace mechanism. Taken together, our results show how powerful and accurate attacks against QBSes can already be found by an automated system, allowing for highly complex QBSes to be automatically tested "at the pressing of a button".
翻訳日:2022-11-11 15:51:13 公開日:2022-11-09
# 大規模自己教師付き学習による音声分離

Speech separation with large-scale self-supervised learning ( http://arxiv.org/abs/2211.05172v1 )

ライセンス: Link先を確認
Zhuo Chen, Naoyuki Kanda, Jian Wu, Yu Wu, Xiaofei Wang, Takuya Yoshioka, Jinyu Li, Sunit Sivasankaran, Sefik Emre Eskimez(参考訳) WavLMのような自己教師付き学習(SSL)手法は、小規模なシミュレーションに基づく実験で有望な音声分離(SS)結果を示している。 本研究では、事前トレーニングデータ(300K時間以上)と微調整データ(10K時間)の両方を大規模にスケールアップすることで、SSLベースのSSの探索を拡張します。 また,低フレームレートSSLモデルトレーニングセットアップや,事前学習モデルの一部のみを用いた微調整スキームなど,限られた計算予算下で,事前学習モデルとSSネットワークを効率的に統合するための様々な手法についても検討する。 先行した94k時間訓練されたwavlmを用いた特徴埋め込みを用いた教師付きベースラインおよびwavlmベースのssモデルと比較すると,提案モデルはそれぞれ,遠方音素混合テストセットの相対単語誤り率 (wer) の15.9%と11.2%を得る。 連続音声分離を用いた実会議記録における会話の書き起こしでは,AMIおよびICSI評価セット上での純教師付きベースラインに対する相対的なWER削減の6.8%と10.6%を達成し,計算コストを38%削減した。

Self-supervised learning (SSL) methods such as WavLM have shown promising speech separation (SS) results in small-scale simulation-based experiments. In this work, we extend the exploration of the SSL-based SS by massively scaling up both the pre-training data (more than 300K hours) and fine-tuning data (10K hours). We also investigate various techniques to efficiently integrate the pre-trained model with the SS network under a limited computation budget, including a low frame rate SSL model training setup and a fine-tuning scheme using only the part of the pre-trained model. Compared with a supervised baseline and the WavLM-based SS model using feature embeddings obtained with the previously released 94K hours trained WavLM, our proposed model obtains 15.9% and 11.2% of relative word error rate (WER) reductions, respectively, for a simulated far-field speech mixture test set. For conversation transcription on real meeting recordings using continuous speech separation, the proposed model achieves 6.8% and 10.6% of relative WER reductions over the purely supervised baseline on AMI and ICSI evaluation sets, respectively, while reducing the computational cost by 38%.
翻訳日:2022-11-11 15:49:16 公開日:2022-11-09
# HilMeMe: マルチワード表現に着目した機械翻訳評価指標

HilMeMe: A Human-in-the-Loop Machine Translation Evaluation Metric Looking into Multi-Word Expressions ( http://arxiv.org/abs/2211.05201v1 )

ライセンス: Link先を確認
Lifeng Han(参考訳) 機械翻訳(MT)システムの急速な発展、特にニューラルMT(NMT)モデルからの新たな向上により、MTの出力品質は新たなレベルの精度に達した。 しかし、BLEUのような現在の一般的な評価指標は、品質の違いに関して最先端のNTTシステムを正しく区別することはできないと多くの研究者が批判した。 本稿では,慣用的・用語的多語表現(mwes)に着目した,言語的動機づけのある人称評価指標の設計と実装について述べる。 MWEはMTを含む多くの自然言語処理(NLP)タスクにおいてボトルネックとなっている。MWEは、MWEを正確かつ等価な方法で認識・翻訳する能力を検討することで、異なるMTシステムを区別する主要な要因の1つである。

With the fast development of Machine Translation (MT) systems, especially the new boost from Neural MT (NMT) models, the MT output quality has reached a new level of accuracy. However, many researchers criticised that the current popular evaluation metrics such as BLEU can not correctly distinguish the state-of-the-art NMT systems regarding quality differences. In this short paper, we describe the design and implementation of a linguistically motivated human-in-the-loop evaluation metric looking into idiomatic and terminological Multi-word Expressions (MWEs). MWEs have played a bottleneck in many Natural Language Processing (NLP) tasks including MT. MWEs can be used as one of the main factors to distinguish different MT systems by looking into their capabilities in recognising and translating MWEs in an accurate and meaning equivalent manner.
翻訳日:2022-11-11 15:42:01 公開日:2022-11-09
# 関係データベースによる事前学習時のフレーキー性能

Flaky Performances when Pretraining on Relational Databases ( http://arxiv.org/abs/2211.05213v1 )

ライセンス: Link先を確認
Shengchao Liu, David Vazquez, Jian Tang, Pierre-Andr\'e No\"el(参考訳) 本稿では,リレーショナルデータベース(RDB)から抽出したサブグラフに基づいて学習したグラフニューラルネットワーク(GNN)自己教師付き学習(SSL)手法のダウンストリームタスク性能について検討する。 直感的には、SSLとGNNを併用することで、より多くの利用可能なデータを活用することが可能になる。 事前訓練されたモデルからの固定表現に対する線形評価は、ランダムに初期化されたモデルからの表現よりも悪化する。 対照的なSSLはGNNのメッセージパッシング層と矛盾するという予想に基づいて、ノードの初期層と最終層の表現間の相互情報の最大化を目的とした、対比的な損失であるInfoNodeを提案する。 主要な実証結果は、私たちの予想とInfoNodeの有効性を支持します。

We explore the downstream task performances for graph neural network (GNN) self-supervised learning (SSL) methods trained on subgraphs extracted from relational databases (RDBs). Intuitively, this joint use of SSL and GNNs should allow to leverage more of the available data, which could translate to better results. However, we found that naively porting contrastive SSL techniques can cause ``negative transfer'': linear evaluation on fixed representations from a pretrained model performs worse than on representations from the randomly-initialized model. Based on the conjecture that contrastive SSL conflicts with the message passing layers of the GNN, we propose InfoNode: a contrastive loss aiming to maximize the mutual information between a node's initial- and final-layer representation. The primary empirical results support our conjecture and the effectiveness of InfoNode.
翻訳日:2022-11-11 15:41:20 公開日:2022-11-09
# 空間認識トランスを用いた効率的な関節検出と複数物体追跡

Efficient Joint Detection and Multiple Object Tracking with Spatially Aware Transformer ( http://arxiv.org/abs/2211.05654v1 )

ライセンス: Link先を確認
Siddharth Sagar Nijhawan, Leo Hoshikawa, Atsushi Irie, Masakazu Yoshimura, Junji Otsuka, Takeshi Ohashi(参考訳) 完全変換器アーキテクチャを用いた多目的追跡のための軽量で高効率な関節検出・追跡パイプラインを提案する。 TransTrackの修正版であり、設計に伴う計算ボトルネックを克服し、同時に最先端のMOTAスコア73.20%を達成している。 モデル設計はCNNの代わりにトランスフォーマーベースのバックボーンによって駆動される。 また,トランスコーダ層のフィードフォワードネットワークのドロップイン代替として,バタフライ変換操作を用いてチャネル融合と深さ方向畳み込みを行い,特徴マップ内の空間的文脈を学習する手法を提案する。 修正の結果、TransTrackの全体的なモデルサイズを58.73%、複雑さを78.72%削減しました。 そこで我々は,多対象追跡に関する今後の研究において,アーキテクチャ最適化の新しい視点を提供することを期待している。

We propose a light-weight and highly efficient Joint Detection and Tracking pipeline for the task of Multi-Object Tracking using a fully-transformer architecture. It is a modified version of TransTrack, which overcomes the computational bottleneck associated with its design, and at the same time, achieves state-of-the-art MOTA score of 73.20%. The model design is driven by a transformer based backbone instead of CNN, which is highly scalable with the input resolution. We also propose a drop-in replacement for Feed Forward Network of transformer encoder layer, by using Butterfly Transform Operation to perform channel fusion and depth-wise convolution to learn spatial context within the feature maps, otherwise missing within the attention maps of the transformer. As a result of our modifications, we reduce the overall model size of TransTrack by 58.73% and the complexity by 78.72%. Therefore, we expect our design to provide novel perspectives for architecture optimization in future research related to multi-object tracking.
翻訳日:2022-11-11 15:32:14 公開日:2022-11-09
# ルーマニア語テキストにおける著者の帰属に関する複数のai技術の比較

A comparison of several AI techniques for authorship attribution on Romanian texts ( http://arxiv.org/abs/2211.05180v1 )

ライセンス: Link先を確認
Sanda Maria Avram and Mihai Oltean(参考訳) テキストの著者を決定するのは難しい作業です。 ここでは、複数の著者が書いた文章を限定された音声部分(述語、副詞、接続)を考慮して分類する複数のAI技術を比較する。 また、ルーマニア語で書かれたテキストからなる新しいデータセットを導入し、アルゴリズムを実行した。 比較方法は、ニューラルネットワーク、サポートベクトルマシン、マルチ表現プログラミング、C5.0による決定木、k-Nearest Neighbourである。 数値実験では、まず問題は難しいが、いくつかのアルゴリズムはテストセット上で適切なエラーを生成することができる。

Determining the author of a text is a difficult task. Here we compare multiple AI techniques for classifying literary texts written by multiple authors by taking into account a limited number of speech parts (prepositions, adverbs, and conjunctions). We also introduce a new dataset composed of texts written in the Romanian language on which we have run the algorithms. The compared methods are Artificial Neural Networks, Support Vector Machines, Multi Expression Programming, Decision Trees with C5.0, and k-Nearest Neighbour. Numerical experiments show, first of all, that the problem is difficult, but some algorithms are able to generate decent errors on the test set.
翻訳日:2022-11-11 15:14:53 公開日:2022-11-09
# 1GPUで24時間以内に視力変換器をスクラッチから訓練する

Training a Vision Transformer from scratch in less than 24 hours with 1 GPU ( http://arxiv.org/abs/2211.05187v1 )

ライセンス: Link先を確認
Saghar Irandoust, Thibaut Durand, Yunduz Rakhmangulova, Wenjie Zi, Hossein Hajimirsadeghi(参考訳) トランスフォーマーはコンピュータビジョンの最近の進歩の中心となっている。 しかし、視覚変換器(ViT)モデルをスクラッチからトレーニングすることはリソース集約的で時間を要する可能性がある。 本稿では,ViTモデルのトレーニングコストを削減するためのアプローチを提案する。 限られたハードウェア(1GPU)と時間(24時間)のリソースで、スクラッチからViTモデルをトレーニングできるアルゴリズムの改良を導入する。 まず,ViTアーキテクチャに局所性を加えるための効率的なアプローチを提案する。 第2に,トレーニング開始時に各画像から抽出されたパッチ数を削減するための,新しい画像サイズカリキュラム学習戦略を開発した。 最後に、ハードウェアと時間制約を追加することで、人気のあるImageNet1kベンチマークの新たな変種を提案する。 このベンチマークに対するコントリビューションを評価し、提案したトレーニング予算から、パフォーマンスを大幅に改善できることを示す。 コードはhttps://github.com/borealisai/ efficient-vit-trainingで共有します。

Transformers have become central to recent advances in computer vision. However, training a vision Transformer (ViT) model from scratch can be resource intensive and time consuming. In this paper, we aim to explore approaches to reduce the training costs of ViT models. We introduce some algorithmic improvements to enable training a ViT model from scratch with limited hardware (1 GPU) and time (24 hours) resources. First, we propose an efficient approach to add locality to the ViT architecture. Second, we develop a new image size curriculum learning strategy, which allows to reduce the number of patches extracted from each image at the beginning of the training. Finally, we propose a new variant of the popular ImageNet1k benchmark by adding hardware and time constraints. We evaluate our contributions on this benchmark, and show they can significantly improve performances given the proposed training budget. We will share the code in https://github.com/BorealisAI/efficient-vit-training.
翻訳日:2022-11-11 15:12:57 公開日:2022-11-09
# IQAのコンテント・ディバース比較

Content-Diverse Comparisons improve IQA ( http://arxiv.org/abs/2211.05215v1 )

ライセンス: Link先を確認
William Thong, Jose Costa Pereira, Sarah Parisot, Ales Leonardis, Steven McDonagh(参考訳) 画像品質評価(IQA)は人間にとって自然な作業であり、しばしば簡単な作業となるが、タスクの効果的な自動化は非常に困難である。 最近のディープラーニングコミュニティのメトリクスは、トレーニング中のイメージペアを比較して、PSNRやSSIMといった従来のメトリクスを改善するのが一般的です。 しかし、現在の比較では、画像内容が品質評価に影響を及ぼすという事実は無視されている。 これにより、トレーニング中にモデルが露出する画像ペアの多様性と数を制限する。 本稿では,コンテンツ多様性との比較を充実させようとする。 まず,比較制約を緩和し,画像のペアを異なる内容と比較する。 これにより、利用可能な比較の多様性が増す。 次に、リストワイズ比較を導入し、モデルに対する全体観を提供する。 相関係数から導かれる微分可能な正規化子を含むことによって、モデルが互いに相対的に予測スコアを調整できる。 幅広い歪みと画像内容をカバーする複数のベンチマークの評価は,画像品質評価モデルの学習における学習方式の有効性を示す。

Image quality assessment (IQA) forms a natural and often straightforward undertaking for humans, yet effective automation of the task remains highly challenging. Recent metrics from the deep learning community commonly compare image pairs during training to improve upon traditional metrics such as PSNR or SSIM. However, current comparisons ignore the fact that image content affects quality assessment as comparisons only occur between images of similar content. This restricts the diversity and number of image pairs that the model is exposed to during training. In this paper, we strive to enrich these comparisons with content diversity. Firstly, we relax comparison constraints, and compare pairs of images with differing content. This increases the variety of available comparisons. Secondly, we introduce listwise comparisons to provide a holistic view to the model. By including differentiable regularizers, derived from correlation coefficients, models can better adjust predicted scores relative to one another. Evaluation on multiple benchmarks, covering a wide range of distortions and image content, shows the effectiveness of our learning scheme for training image quality assessment models.
翻訳日:2022-11-11 15:12:42 公開日:2022-11-09
# 推論型説明可能なVQAを目指して

Towards Reasoning-Aware Explainable VQA ( http://arxiv.org/abs/2211.05190v1 )

ライセンス: Link先を確認
Rakesh Vaideeswaran, Feng Gao, Abhinav Mathur, Govind Thattai(参考訳) 共同視覚言語理解の領域、特に視覚質問回答(VQA)モデルにおける推論の文脈では、近年大きな注目を集めている。 既存のVQAモデルのほとんどは、VQAの精度向上に重点を置いているが、モデルが解答に到達する方法はしばしばブラックボックスである。 VQA タスクをより説明しやすく解釈できるようにするためのステップとして,本手法は SOTA VQA フレームワーク上にエンド・ツー・エンドの説明生成モジュールで拡張することによって構築される。 本稿では,Long Short-Term Memory (LSTM) と Transformer decoder の2つのネットワークアーキテクチャを説明生成器として検討する。 本手法は, GQA-REX (77.49%) および VQA-E (71.48%) データセット上で SOTA VQA の精度を維持しながら, 可読なテキスト説明を生成する。 生成された説明の約65.16%は、人間が有効と承認している。 生成された説明のおよそ60.5%が有効であり、正しい答えにつながる。

The domain of joint vision-language understanding, especially in the context of reasoning in Visual Question Answering (VQA) models, has garnered significant attention in the recent past. While most of the existing VQA models focus on improving the accuracy of VQA, the way models arrive at an answer is oftentimes a black box. As a step towards making the VQA task more explainable and interpretable, our method is built upon the SOTA VQA framework by augmenting it with an end-to-end explanation generation module. In this paper, we investigate two network architectures, including Long Short-Term Memory (LSTM) and Transformer decoder, as the explanation generator. Our method generates human-readable textual explanations while maintaining SOTA VQA accuracy on the GQA-REX (77.49%) and VQA-E (71.48%) datasets. Approximately 65.16% of the generated explanations are approved by humans as valid. Roughly 60.5% of the generated explanations are valid and lead to the correct answers.
翻訳日:2022-11-11 15:06:27 公開日:2022-11-09
# QCNN: 4次畳み込みニューラルネットワークと非構造化データ圧縮への応用

QCNN: Quadrature Convolutional Neural Network with Application to Unstructured Data Compression ( http://arxiv.org/abs/2211.05151v1 )

ライセンス: Link先を確認
Kevin Doherty, Cooper Simpson, Stephen Becker, Alireza Doostan(参考訳) 本稿では,我々がquadconvと呼ぶ深層学習アーキテクチャのための新しい畳み込み層を提案する。 我々のオペレータは非構造化データでの使用のために明示的に開発され、任意の場所でサンプルできる連続カーネルを学習することでこれを達成する。 ニューラルネットワークの設定において、QuadConvベースのオートエンコーダ(QCNN)は、CNNのように構造化された均一データ上での標準的な離散畳み込みの性能と一致し、非構造化データ上でこの精度を維持することができることを示す。

We present a new convolution layer for deep learning architectures which we call QuadConv -- an approximation to continuous convolution via quadrature. Our operator is developed explicitly for use on unstructured data, and accomplishes this by learning a continuous kernel that can be sampled at arbitrary locations. In the setting of neural compression, we show that a QuadConv-based autoencoder, resulting in a Quadrature Convolutional Neural Network (QCNN), can match the performance of standard discrete convolutions on structured uniform data, as in CNNs, and maintain this accuracy on unstructured data.
翻訳日:2022-11-11 14:55:45 公開日:2022-11-09
# コンテキスト定義アライメントを用いた効率的なゼロショットイベント抽出

Efficient Zero-shot Event Extraction with Context-Definition Alignment ( http://arxiv.org/abs/2211.05156v1 )

ライセンス: Link先を確認
Hongming Zhang, Wenlin Yao, Dong Yu(参考訳) イベント抽出(EE)は、テキストから関心のあるイベント参照を特定するタスクである。 従来の取り組みは主に監督体制に重点を置いていた。 しかし、これらの教師付きモデルは事前定義されたオントロジーからイベントタイプに一般化することはできない。 このギャップを埋めるために、ゼロショットのEE問題に多くの努力が注がれている。 本稿では,イベント型セマンティクスのモデル化の動向について述べるが,さらに一歩前進する。 単一の単語があいまいで、型セマンティクスを正確に定義するための文が必要であるため、イベントタイプ名の静的埋め込みを使用するだけでは不十分かもしれない、と主張する。 定義セマンティクスをモデル化するために、コンテクスト化されたイベント参照とそれに対応する定義を同じ埋め込み空間に投影し、コントラスト学習による埋め込み距離を最小化する。 それに加えて、同様の定義の微妙な違いをモデルが学習するのに役立つ温暖化フェーズも提案する。 我々はZED(Zero-shot Event extract with Definition)と名付けた。 MAVENデータセットを用いた実験の結果,このモデルでは従来のゼロショットEEメソッドよりも高速な推論速度で大幅に優れていた。 さらなる実験では、アノテーションが利用可能で、ベースライン教師付きメソッドを一貫して上回っている場合、ZEDが少数ショット設定に容易に適用可能であることも示している。

Event extraction (EE) is the task of identifying interested event mentions from text. Conventional efforts mainly focus on the supervised setting. However, these supervised models cannot generalize to event types out of the pre-defined ontology. To fill this gap, many efforts have been devoted to the zero-shot EE problem. This paper follows the trend of modeling event-type semantics but moves one step further. We argue that using the static embedding of the event type name might not be enough because a single word could be ambiguous, and we need a sentence to define the type semantics accurately. To model the definition semantics, we use two separate transformer models to project the contextualized event mentions and corresponding definitions into the same embedding space and then minimize their embedding distance via contrastive learning. On top of that, we also propose a warming phase to help the model learn the minor difference between similar definitions. We name our approach Zero-shot Event extraction with Definition (ZED). Experiments on the MAVEN dataset show that our model significantly outperforms all previous zero-shot EE methods with fast inference speed due to the disjoint design. Further experiments also show that ZED can be easily applied to the few-shot setting when the annotation is available and consistently outperforms baseline supervised methods.
翻訳日:2022-11-11 14:55:02 公開日:2022-11-09
# プレトレーニングエンベディングのクラスタリングに関する実証的研究:深部は厳密に優れているか?

An Empirical Study on Clustering Pretrained Embeddings: Is Deep Strictly Better? ( http://arxiv.org/abs/2211.05183v1 )

ライセンス: Link先を確認
Tyler R. Scott, Ting Liu, Michael C. Mozer, Andrew C. Gallagher(参考訳) クラスタリング顔の埋め込みに関する最近の研究によると、$k$-meansや階層的集合的クラスタリングなど、教師なし、浅い、ヒューリスティックな手法が、教師なし、深いインダクティブな手法で実行されている。 報告された改善は実に印象的だが、実験は主に顔データセットに限られており、クラスタ化された埋め込みはクラスによって高度に差別化されている(Recall@1は90%以上、しばしば天井に近い)。 3つのデータセットにまたがる17のクラスタリング手法に関する大規模実証研究を行い,いくつかのロバストな知見を得た。 特に、深層メソッドは、浅くヒューリスティックなメソッドとマッチする、あるいはパフォーマンスが悪い不確実性のある埋め込みに対して、驚くほど脆弱である。 埋め込みが高度に識別される場合、ディープメソッドは過去の結果と一致してベースラインよりも優れているが、メソッド間のマージンは以前報告されたよりもはるかに小さい。 当社のベンチマークは、顔領域を超えて監視クラスタリング手法の範囲を広げ、これらの手法を改善できる基盤として役立てることができると信じています。 再現性を実現するため、付録に必要な詳細をすべて含み、コードのリリースを計画している。

Recent research in clustering face embeddings has found that unsupervised, shallow, heuristic-based methods -- including $k$-means and hierarchical agglomerative clustering -- underperform supervised, deep, inductive methods. While the reported improvements are indeed impressive, experiments are mostly limited to face datasets, where the clustered embeddings are highly discriminative or well-separated by class (Recall@1 above 90% and often nearing ceiling), and the experimental methodology seemingly favors the deep methods. We conduct a large-scale empirical study of 17 clustering methods across three datasets and obtain several robust findings. Notably, deep methods are surprisingly fragile for embeddings with more uncertainty, where they match or even perform worse than shallow, heuristic-based methods. When embeddings are highly discriminative, deep methods do outperform the baselines, consistent with past results, but the margin between methods is much smaller than previously reported. We believe our benchmarks broaden the scope of supervised clustering methods beyond the face domain and can serve as a foundation on which these methods could be improved. To enable reproducibility, we include all necessary details in the appendices, and plan to release the code.
翻訳日:2022-11-11 14:38:30 公開日:2022-11-09
# ニューラルアーキテクチャ探索を用いた資源認識型ヘテロジニアスフェデレート学習

Resource-Aware Heterogeneous Federated Learning using Neural Architecture Search ( http://arxiv.org/abs/2211.05716v1 )

ライセンス: Link先を確認
Sixing Yu, Phuong Nguyen, Waqwoya Abebe, Justin Stanley, Pablo Munoz, Ali Jannesari(参考訳) フェデレートラーニング(FL)は、分散およびプライバシ保護設定におけるAI/MLモデルのトレーニングに広く使用されている。 flシステムの参加者エッジデバイスは、通常、非独立で同一に分散した(非iid)プライベートデータと均一に分散した計算リソースを含んでいる。 ヘテロジニアスフェデレーションネットワークでai/mlモデルを最適化しながら、ユーザデータのプライバシを保護するには、データの異質性とシステム/リソースの異質性に対処する必要があります。 したがって、これらの課題に対処するために、 \underline{R}esource-\underline{a}ware \underline{F}ederated \underline{L}earning~(RaFL)を提案する。 RaFLはNeural Architecture Search~(NAS)を使用してエッジデバイスにリソース認識モデルを割り当て、知識抽出と融合による異種モデルアーキテクチャのデプロイメントを可能にする。 NASをFLに統合することで、リソースの異なるエッジデバイスに対してオンデマンドでカスタマイズされたモデルデプロイメントが可能になる。 さらに,分散学習結果の集約が可能なマルチモデルアーキテクチャ融合スキームを提案する。 その結果,SoTAに比べ,RaFLの資源効率は優れていた。

Federated Learning (FL) is extensively used to train AI/ML models in distributed and privacy-preserving settings. Participant edge devices in FL systems typically contain non-independent and identically distributed~(Non-IID) private data and unevenly distributed computational resources. Preserving user data privacy while optimizing AI/ML models in a heterogeneous federated network requires us to address data heterogeneity and system/resource heterogeneity. Hence, we propose \underline{R}esource-\underline{a}ware \underline{F}ederated \underline{L}earning~(RaFL) to address these challenges. RaFL allocates resource-aware models to edge devices using Neural Architecture Search~(NAS) and allows heterogeneous model architecture deployment by knowledge extraction and fusion. Integrating NAS into FL enables on-demand customized model deployment for resource-diverse edge devices. Furthermore, we propose a multi-model architecture fusion scheme allowing the aggregation of the distributed learning results. Results demonstrate RaFL's superior resource efficiency compared to SoTA.
翻訳日:2022-11-11 14:37:14 公開日:2022-11-09
# 音声認識のための適応型マルチコーポラ言語モデル学習

Adaptive Multi-Corpora Language Model Training for Speech Recognition ( http://arxiv.org/abs/2211.05121v1 )

ライセンス: Link先を確認
Yingyi Ma, Zhe Liu, Xuedong Zhang(参考訳) ニューラルネットワーク言語モデル(NNLM)は、自動音声認識(ASR)システム、特にテキストのみのデータが利用できる場合の適応タスクにおいて重要な役割を果たす。 実際、NNLMは通常、複数のコーパスからサンプリングされたデータの組み合わせに基づいて訓練される。 したがって、データサンプリング戦略は適応性能にとって重要である。 既存の作品の多くは静的サンプリング戦略の設計に焦点を当てている。 しかし、各コーパスは異なるNNLM訓練段階で異なる影響を示す可能性がある。 本稿では,学習過程に沿って各コーパスのサンプリング確率を動的に学習・調整する適応型多コーパス学習アルゴリズムを提案する。 このアルゴリズムはコーパスサイズとドメイン関連性に対して堅牢である。 静的サンプリング戦略ベースラインと比較して,提案手法はドメイン内およびドメイン外適応タスクにおける単語誤り率(WER)の相対7%と9%の削減を達成し,顕著な改善をもたらす。

Neural network language model (NNLM) plays an essential role in automatic speech recognition (ASR) systems, especially in adaptation tasks when text-only data is available. In practice, an NNLM is typically trained on a combination of data sampled from multiple corpora. Thus, the data sampling strategy is important to the adaptation performance. Most existing works focus on designing static sampling strategies. However, each corpus may show varying impacts at different NNLM training stages. In this paper, we introduce a novel adaptive multi-corpora training algorithm that dynamically learns and adjusts the sampling probability of each corpus along the training process. The algorithm is robust to corpora sizes and domain relevance. Compared with static sampling strategy baselines, the proposed approach yields remarkable improvement by achieving up to relative 7% and 9% word error rate (WER) reductions on in-domain and out-of-domain adaptation tasks, respectively.
翻訳日:2022-11-11 14:36:57 公開日:2022-11-09
# Uni-Parser:知識ベースとデータベースに関する質問応答のための統一セマンティックパーザ

Uni-Parser: Unified Semantic Parser for Question Answering on Knowledge Base and Database ( http://arxiv.org/abs/2211.05165v1 )

ライセンス: Link先を確認
Ye Liu, Semih Yavuz, Rui Meng, Dragomir Radev, Caiming Xiong, Yingbo Zhou(参考訳) 自然言語質問を実行可能な論理形式に解析することは、知識ベース(kb)やデータベース(db)といった構造化データに対して質問応答を行うための有用で解釈可能な方法である。 しかし、既存の意味解析のアプローチは、論理形式候補の指数的成長に悩まされ、目に見えないデータにはほとんど一般化できないため、両方のモダリティに適応できない。 本研究では,KBとDBの両方で質問応答(QA)を統一した意味解析器Uni-Parserを提案する。 我々は、このフレームワークに不可欠な要素としてプリミティブ(KBにおけるリレーションとエンティティ、DBにおけるテーブル名、列名、セル値)を導入します。 プリミティブの数は KB と DB の検索関係の数とともに直線的に増加するため,指数論理形式候補に対処できない。 我々はジェネレータを利用して、異なる操作(例えば、セレクト、場所、カウント)で上位のプリミティブを変更し、構成することで、最終的な論理形式を予測する。 対照的なプリミティブローダによる十分に刈り取られた探索空間により、ジェネレータは、その一般化能力を高めるプリミティブの構成を捕捉する権限を有する。 複数のKBおよびDBQAベンチマークにおいて,特に合成およびゼロショット設定において,より効率的に競合結果を得る。

Parsing natural language questions into executable logical forms is a useful and interpretable way to perform question answering on structured data such as knowledge bases (KB) or databases (DB). However, existing approaches on semantic parsing cannot adapt to both modalities, as they suffer from the exponential growth of the logical form candidates and can hardly generalize to unseen data. In this work, we propose Uni-Parser, a unified semantic parser for question answering (QA) on both KB and DB. We introduce the primitive (relation and entity in KB, and table name, column name and cell value in DB) as an essential element in our framework. The number of primitives grows linearly with the number of retrieved relations in KB and DB, preventing us from dealing with exponential logic form candidates. We leverage the generator to predict final logical forms by altering and composing topranked primitives with different operations (e.g. select, where, count). With sufficiently pruned search space by a contrastive primitive ranker, the generator is empowered to capture the composition of primitives enhancing its generalization ability. We achieve competitive results on multiple KB and DB QA benchmarks more efficiently, especially in the compositional and zero-shot settings.
翻訳日:2022-11-11 14:29:03 公開日:2022-11-09
# 時系列異常検出のためのディープラーニング:調査

Deep Learning for Time Series Anomaly Detection: A Survey ( http://arxiv.org/abs/2211.05244v1 )

ライセンス: Link先を確認
Zahra Zamanzadeh Darban, Geoffrey I. Webb, Shirui Pan, Charu C. Aggarwal, Mahsa Salehi(参考訳) 時系列異常検出は、製造業や医療を含む幅広い研究分野や応用分野に応用されている。 異常の存在は、プロダクション障害、システム欠陥、心臓の動揺など、新規または予期せぬ出来事を示す可能性があるため、特に興味深い。 時系列の大規模かつ複雑なパターンにより、研究者は異常パターンを検出するための特別なディープラーニングモデルを開発した。 本調査は,ディープラーニングを用いた構造化および総合的時系列異常検出モデルの提供に焦点を当てる。 異常検出モデルを異なるカテゴリに分割する要因に基づいた分類を提供する。 各カテゴリの基本的な異常検出技術を説明する以外に、利点と限界についても論じる。 さらに,近年の様々なアプリケーション領域にわたる時系列における深部異常検出の例についても紹介する。 最後に、深い異常検出モデルを採用する際に直面する研究と課題に関するオープンな問題を要約する。

Time series anomaly detection has applications in a wide range of research fields and applications, including manufacturing and healthcare. The presence of anomalies can indicate novel or unexpected events, such as production faults, system defects, or heart fluttering, and is therefore of particular interest. The large size and complex patterns of time series have led researchers to develop specialised deep learning models for detecting anomalous patterns. This survey focuses on providing structured and comprehensive state-of-the-art time series anomaly detection models through the use of deep learning. It providing a taxonomy based on the factors that divide anomaly detection models into different categories. Aside from describing the basic anomaly detection technique for each category, the advantages and limitations are also discussed. Furthermore, this study includes examples of deep anomaly detection in time series across various application domains in recent years. It finally summarises open issues in research and challenges faced while adopting deep anomaly detection models.
翻訳日:2022-11-11 14:28:40 公開日:2022-11-09
# DC-Check: 信頼できる機械学習システムの開発をガイドするデータ中心AIチェックリスト

DC-Check: A Data-Centric AI checklist to guide the development of reliable machine learning systems ( http://arxiv.org/abs/2211.05764v1 )

ライセンス: Link先を確認
Nabeel Seedat, Fergus Imrie, Mihaela van der Schaar(参考訳) 機械学習(ML)には目覚ましいブレークスルーがいくつかあるが、その多くがモデル開発に重点を置いている。 しかし、現実の環境で機械学習の可能性を真に実現するためには、MLパイプライン全体で追加の側面を考慮する必要がある。 データ中心のAIは、信頼できるエンドツーエンドパイプラインを可能にする統一パラダイムとして登場しています。 しかし、これはまだ初期段階であり、実践者がデータ中心の考慮を導き、データ中心のMLシステムの設計を伝えるための標準化されたフレームワークがない。 このギャップに対処するため、私たちは、データ、トレーニング、テスト、デプロイメントというMLパイプラインのさまざまな段階におけるデータ中心の考慮を引き出す、実行可能なチェックリストスタイルのフレームワークであるDC-Checkを提案する。 このデータ中心開発レンズは、システム開発に先立って、思慮と透明性を促進することを目的としている。 さらに、データ中心のAIの課題と研究の機会を強調します。 DC-Checkは、実践者と研究者の両方が日々の開発をガイドすることを目的としている。 そのため、DC-Checkとその関連リソースを容易に利用するために、DC-CheckのコンパニオンWebサイト(https://www.vanderschaar-lab.com/dc-check/)を提供する。 メソッドやツールが時間とともに進化するにつれて、webサイトはリソースのアップデートとしても機能する。

While there have been a number of remarkable breakthroughs in machine learning (ML), much of the focus has been placed on model development. However, to truly realize the potential of machine learning in real-world settings, additional aspects must be considered across the ML pipeline. Data-centric AI is emerging as a unifying paradigm that could enable such reliable end-to-end pipelines. However, this remains a nascent area with no standardized framework to guide practitioners to the necessary data-centric considerations or to communicate the design of data-centric driven ML systems. To address this gap, we propose DC-Check, an actionable checklist-style framework to elicit data-centric considerations at different stages of the ML pipeline: Data, Training, Testing, and Deployment. This data-centric lens on development aims to promote thoughtfulness and transparency prior to system development. Additionally, we highlight specific data-centric AI challenges and research opportunities. DC-Check is aimed at both practitioners and researchers to guide day-to-day development. As such, to easily engage with and use DC-Check and associated resources, we provide a DC-Check companion website (https://www.vanderschaar-lab.com/dc-check/). The website will also serve as an updated resource as methods and tooling evolve over time.
翻訳日:2022-11-11 14:21:58 公開日:2022-11-09
# 文法的誤り訂正 : 美術の現状調査

Grammatical Error Correction: A Survey of the State of the Art ( http://arxiv.org/abs/2211.05166v1 )

ライセンス: Link先を確認
Christopher Bryant, Zheng Yuan, Muhammad Reza Qorib, Hannan Cao, Hwee Tou Ng, Ted Briscoe(参考訳) 文法的誤り訂正(英: grammatical error correction、gec)は、テキスト中の誤りを自動的に検出し修正する作業である。 このタスクには、前置詞の欠如や主語-動詞の一致の誤りなどの文法的誤りの修正だけでなく、スペルミスや単語選択エラーなどの正書法と意味的誤りも含んでいる。 この分野は過去10年間に顕著な進歩を遂げており、一部にはルールベースの手法、統計分類器、統計機械翻訳、そして芸術の現在の支配的な状態を表すニューラルネットワーク翻訳システムの開発を推進した5つの共有タスクが動機となっている。 本稿では,この分野を一つの記事にまとめ,まず,課題の言語的課題について概説し,研究者が利用可能な最も一般的なデータセット(英語と他言語)を紹介し,特に人工的エラー生成に焦点を当てた様々な手法とテクニックを要約する。 次に,評価に対する様々なアプローチについて述べるとともに,特に主観的人間の判断に関して,メートル法信頼性に関する懸念について述べるとともに,最近の進歩と今後の課題への提言の概要をまとめる。 この調査が、この分野に新しい研究者や、最近の進歩を評価され続けたい研究者にとって、包括的なリソースになることを期待しています。

Grammatical Error Correction (GEC) is the task of automatically detecting and correcting errors in text. The task not only includes the correction of grammatical errors, such as missing prepositions and mismatched subject-verb agreement, but also orthographic and semantic errors, such as misspellings and word choice errors respectively. The field has seen significant progress in the last decade, motivated in part by a series of five shared tasks, which drove the development of rule-based methods, statistical classifiers, statistical machine translation, and finally neural machine translation systems which represent the current dominant state of the art. In this survey paper, we condense the field into a single article and first outline some of the linguistic challenges of the task, introduce the most popular datasets that are available to researchers (for both English and other languages), and summarise the various methods and techniques that have been developed with a particular focus on artificial error generation. We next describe the many different approaches to evaluation as well as concerns surrounding metric reliability, especially in relation to subjective human judgements, before concluding with an overview of recent progress and suggestions for future work and remaining challenges. We hope that this survey will serve as comprehensive resource for researchers who are new to the field or who want to be kept apprised of recent developments.
翻訳日:2022-11-11 14:20:06 公開日:2022-11-09
# 人間と言語モデルの協調的ファシリテーション

Collateral facilitation in humans and language models ( http://arxiv.org/abs/2211.05198v1 )

ライセンス: Link先を確認
James A. Michaelov, Benjamin K. Bergen(参考訳) 人間と言語モデルの予測は類似するものの影響を受けますか? 言語を理解する一方で、人間は今後の単語について予測し、予測可能な単語をより容易に処理できると研究は示唆している。 しかし、これらの単語が前者の文脈や最も可能性の高い継続と意味的に関連している場合、人間は、非常に異常な単語に対して同様の処理の利点を示すことを示す証拠もある。 3つの心理言語実験からの刺激を用いて、これはほぼ常に8つの現代トランスフォーマー言語モデル(BERT, ALBERT, RoBERTa, XLM-R, GPT-2, GPT-Neo, GPT-J, XGLM)にも当てはまる。 次に、この現象が人間の言語理解と言語モデルによる予測の両方の理解に与える影響について論じる。

Are the predictions of humans and language models affected by similar things? Research suggests that while comprehending language, humans make predictions about upcoming words, with more predictable words being processed more easily. However, evidence also shows that humans display a similar processing advantage for highly anomalous words when these words are semantically related to the preceding context or to the most probable continuation. Using stimuli from 3 psycholinguistic experiments, we find that this is also almost always also the case for 8 contemporary transformer language models (BERT, ALBERT, RoBERTa, XLM-R, GPT-2, GPT-Neo, GPT-J, and XGLM). We then discuss the implications of this phenomenon for our understanding of both human language comprehension and the predictions made by language models.
翻訳日:2022-11-11 14:19:42 公開日:2022-11-09
# 解釈型機械学習を用いたIctal-Interictal-Injury Continuumのマッピング

Mapping the Ictal-Interictal-Injury Continuum Using Interpretable Machine Learning ( http://arxiv.org/abs/2211.05207v1 )

ライセンス: Link先を確認
Alina Jade Barnett, Zhicheng Guo, Jin Jing, Wendong Ge, Cynthia Rudin, M. Brandon Westover(参考訳) IMPORTANCE: 解釈可能な機械学習モデルは、各予測の忠実な説明を提供することができるが、ブラックボックスよりも高いパフォーマンスを維持することができる。 OBJECTIVE: 脳波のプロトパターンを正確に予測する解釈可能な機械学習モデルを設計し、その予測を専門のGUIの助けを借りて説明する。 cEEG潜伏特徴を2次元空間にマッピングし、眼内損傷連続体を可視化し、その高次元構造についての洞察を得る。 2006年7月から2020年3月までにマサチューセッツ州総合病院で採取された2,711 ICU患者の50,697個の50秒CEEGサンプルについて検討した。 サンプルはドメインの専門家によって6つのEEGアクティビティの1つとしてラベル付けされた。 主な結果と測定値: 私たちのニューラルネットワークは、ケースベースの推論を使用するため、解釈可能である。 タスク固有の近傍合意統計を用いて解釈可能性を測定した。 AUROCおよびAUPRCを用いて識別性能を評価した。 RESULTS: このモデルは,Sezure, LPD, GPD, LRDA, GRDAの各クラスに対して0.87, 0.93, 0.96, 0.92, 0.93, 0.80のAUROCを達成する。 この性能は、p<0.0001の対応する解釈不能(ブラックボックス)モデルよりも統計的に有意に高い。 ictal-interictal-injury continuumのビデオを提供する。 ConClusion and Relevance: 私たちの解釈可能なモデルとGUIは、cEEGパターンを扱う実践者の参照として機能します。 さまざまなタイプのcEEGパターンの関係をよりよく理解することができます。 将来的には,臨床現場での介入やトレーニングも可能となる可能性がある。 診断のための追加情報の再確認や提供にも使用できる。

IMPORTANCE: An interpretable machine learning model can provide faithful explanations of each prediction and yet maintain higher performance than its black box counterpart. OBJECTIVE: To design an interpretable machine learning model which accurately predicts EEG protopatterns while providing an explanation of its predictions with assistance of a specialized GUI. To map the cEEG latent features to a 2D space in order to visualize the ictal-interictal-injury continuum and gain insight into its high-dimensional structure. DESIGN, SETTING, AND PARTICIPANTS: 50,697 50-second cEEG samples from 2,711 ICU patients collected between July 2006 and March 2020 at Massachusetts General Hospital. Samples were labeled as one of 6 EEG activities by domain experts, with 124 different experts providing annotations. MAIN OUTCOMES AND MEASURES: Our neural network is interpretable because it uses case-based reasoning: it compares a new EEG reading to a set of learned prototypical EEG samples from the training dataset. Interpretability was measured with task-specific neighborhood agreement statistics. Discriminatory performance was evaluated with AUROC and AUPRC. RESULTS: The model achieves AUROCs of 0.87, 0.93, 0.96, 0.92, 0.93, 0.80 for classes Seizure, LPD, GPD, LRDA, GRDA, Other respectively. This performance is statistically significantly higher than that of the corresponding uninterpretable (black box) model with p<0.0001. Videos of the ictal-interictal-injury continuum are provided. CONCLUSION AND RELEVANCE: Our interpretable model and GUI can act as a reference for practitioners who work with cEEG patterns. We can now better understand the relationships between different types of cEEG patterns. In the future, this system may allow for targeted intervention and training in clinical settings. It could also be used for re-confirming or providing additional information for diagnostics.
翻訳日:2022-11-11 14:12:04 公開日:2022-11-09
# スパース機構シフトモデルによる単一細胞の因果表現の学習

Learning Causal Representations of Single Cells via Sparse Mechanism Shift Modeling ( http://arxiv.org/abs/2211.03553v3 )

ライセンス: Link先を確認
Romain Lopez, Nata\v{s}a Tagasovska, Stephen Ra, Kyunghyn Cho, Jonathan K. Pritchard, Aviv Regev(参考訳) 変分オートエンコーダ(VAE)のような潜在変数モデルは、特に単細胞ゲノミクスの分野において、生物学的データを解析するためのゴーツーツールとなっている。 残る課題の1つは、細胞のアイデンティティを定義する生物学的プロセスとしての潜在変数の解釈である。 生物学的応用以外では、この問題は一般に学習不整合表現と呼ばれる。 単細胞ゲノミクスデータに適用されたVAEの非絡み合い促進型がいくつか導入されているが、このタスクは追加構造を伴わずに独立かつ同一に分散された測定から不可能であることが示されている。 代わりに、近年の手法では、非定常データとスパース機構シフト仮定を利用して、因果意味を持つ非絡み合った表現を学習することを提案する。 本稿では、遺伝学的・化学的摂動を伴う単細胞ゲノミクスデータの解析への方法論的進歩の応用について述べる。 より正確には、各摂動を未知だがスパースな潜在変数のサブセットを対象とする確率的介入として扱う、単一細胞遺伝子発現データの深い生成モデルを提案する。 これらの手法を単細胞シミュレーションデータにベンチマークし,潜在ユニットのリカバリ,因果目標同定,ドメイン外一般化における性能評価を行った。 最後に,この手法を実世界の2つの大規模遺伝子摂動データセットに適用し,スパース機構シフト仮説を応用したモデルが,トランスファー学習タスクにおける現代手法を上回っていることを見出した。 scvi-toolsライブラリを使って新しいモデルとベンチマークを実装し、https://github.com/Genentech/sVAEでオープンソースソフトウェアとしてリリースします。

Latent variable models such as the Variational Auto-Encoder (VAE) have become a go-to tool for analyzing biological data, especially in the field of single-cell genomics. One remaining challenge is the interpretability of latent variables as biological processes that define a cell's identity. Outside of biological applications, this problem is commonly referred to as learning disentangled representations. Although several disentanglement-promoting variants of the VAE were introduced, and applied to single-cell genomics data, this task has been shown to be infeasible from independent and identically distributed measurements, without additional structure. Instead, recent methods propose to leverage non-stationary data, as well as the sparse mechanism shift assumption in order to learn disentangled representations with a causal semantic. Here, we extend the application of these methodological advances to the analysis of single-cell genomics data with genetic or chemical perturbations. More precisely, we propose a deep generative model of single-cell gene expression data for which each perturbation is treated as a stochastic intervention targeting an unknown, but sparse, subset of latent variables. We benchmark these methods on simulated single-cell data to evaluate their performance at latent units recovery, causal target identification and out-of-domain generalization. Finally, we apply those approaches to two real-world large-scale gene perturbation data sets and find that models that exploit the sparse mechanism shift hypothesis surpass contemporary methods on a transfer learning task. We implement our new model and benchmarks using the scvi-tools library, and release it as open-source software at https://github.com/Genentech/sVAE.
翻訳日:2022-11-11 14:04:02 公開日:2022-11-09
# 物理系熱圏モデルのための低次確率的エミュレーション

Reduced Order Probabilistic Emulation for Physics-Based Thermosphere Models ( http://arxiv.org/abs/2211.04392v2 )

ライセンス: Link先を確認
Richard J. Licata and Piyush M. Mehta(参考訳) 空間環境は揮発性があり、高い駆動力を持つ。 宇宙の天気は地球の磁気圏に影響を与え、特に中性質量密度の進化に熱圏で動的かつエニグマティックな反応を引き起こす。 多くのモデルは、密度応答を生成するために宇宙気象ドライバを使用するが、これらのモデルは典型的には計算コストがかかるか、特定の宇宙気象条件に不正確である。 本研究の目的は、確率論的機械学習(ML)手法を用いて、物理学に基づく熱圏モデルである熱圏電離圏電気力学一般循環モデル(TIE-GCM)の効率的なサロゲートを作成することである。 本手法は,TIE-GCMとリカレントニューラルネットワークの次元性を低減し,熱圏の動的挙動を数値モデルよりはるかに高速にモデル化するために主成分分析を利用する。 新たに開発されたrope(reduced order probabilistic emulator)は、長期記憶ニューラルネットワークを使用して、削減された状態において時系列予測を行い、将来の密度の分布を提供する。 利用可能なデータ全体で、TIE-GCM ROPEは従来の線形手法と同様の誤差を示しながら、嵐時モデリングを改善する。 また,2003年11月の豪雨に対する衛星伝搬実験を行い,タイ・gcmロープがタイ・gcm密度が5km以上の偏差から生じる位置を捉えられることを示した。 同時に、線形アプローチは、7 - 18 kmの偏りをもたらす点推定を提供する。

The geospace environment is volatile and highly driven. Space weather has effects on Earth's magnetosphere that cause a dynamic and enigmatic response in the thermosphere, particularly on the evolution of neutral mass density. Many models exist that use space weather drivers to produce a density response, but these models are typically computationally expensive or inaccurate for certain space weather conditions. In response, this work aims to employ a probabilistic machine learning (ML) method to create an efficient surrogate for the Thermosphere Ionosphere Electrodynamics General Circulation Model (TIE-GCM), a physics-based thermosphere model. Our method leverages principal component analysis to reduce the dimensionality of TIE-GCM and recurrent neural networks to model the dynamic behavior of the thermosphere much quicker than the numerical model. The newly developed reduced order probabilistic emulator (ROPE) uses Long-Short Term Memory neural networks to perform time-series forecasting in the reduced state and provide distributions for future density. We show that across the available data, TIE-GCM ROPE has similar error to previous linear approaches while improving storm-time modeling. We also conduct a satellite propagation study for the significant November 2003 storm which shows that TIE-GCM ROPE can capture the position resulting from TIE-GCM density with < 5 km bias. Simultaneously, linear approaches provide point estimates that can result in biases of 7 - 18 km.
翻訳日:2022-11-11 14:03:33 公開日:2022-11-09
# 編集可能な室内照明推定

Editable Indoor Lighting Estimation ( http://arxiv.org/abs/2211.03928v2 )

ライセンス: Link先を確認
Henrique Weber, Mathieu Garon, Jean-Fran\c{c}ois Lalonde(参考訳) 本稿では,室内シーンの単一視点画像から照明を推定する方法を提案する。 従来の室内照明の予測方法は、リアリズムを欠いた単純なパラメトリック照明や、予測後の理解や修正が難しい、あるいは不可能なリッチな表現に重点を置いていた。 本研究では,編集が容易なパラメトリック光を推定し,強いシャドウを持つレンダリングを可能にするパイプラインと,鏡面オブジェクトの現実的なレンダリングに必要な高周波情報を備えた非パラメトリックテクスチャを提案する。 モデルを用いて得られた予測は解釈可能であり,マウスクリック数回でアーティスト/ユーザによって容易に修正できる。 定量的,定性的な結果から,室内照明推定はカジュアルな利用者にとって容易でありながら,競争力のある結果が得られている。

We present a method for estimating lighting from a single perspective image of an indoor scene. Previous methods for predicting indoor illumination usually focus on either simple, parametric lighting that lack realism, or on richer representations that are difficult or even impossible to understand or modify after prediction. We propose a pipeline that estimates a parametric light that is easy to edit and allows renderings with strong shadows, alongside with a non-parametric texture with high-frequency information necessary for realistic rendering of specular objects. Once estimated, the predictions obtained with our model are interpretable and can easily be modified by an artist/user with a few mouse clicks. Quantitative and qualitative results show that our approach makes indoor lighting estimation easier to handle by a casual user, while still producing competitive results.
翻訳日:2022-11-11 13:52:52 公開日:2022-11-09
# 磁場に浸漬した不均一密度材料における素粒子の軌道適合性向上のための人工知能

Artificial intelligence for improved fitting of trajectories of elementary particles in inhomogeneous dense materials immersed in a magnetic field ( http://arxiv.org/abs/2211.04890v1 )

ライセンス: Link先を確認
Sa\'ul Alonso-Monsalve, Davide Sgalaberna, Xingyu Zhao, Clark McGrew, Andr\'e Rubbia(参考訳) 本稿では, プラスチックシンチレータなどの不均一密度検出器において, 素粒子軌道フィッティングの高分解能化を示すために, 人工知能アルゴリズムを用いる。 我々は、より伝統的なベイズフィルタリング法を置き換えるためにディープラーニングを使用し、相互作用する粒子運動学の再構築を劇的に改善する。 自然言語処理の分野から受け継いだ特定の形態のニューラルネットワークは、ハイパーインフォーマティブプリエント(hyper-informative prior)を採用するベイズフィルタの概念に非常に近いことが示されている。 このようなパラダイムの変化は、将来の粒子物理学実験の設計とそのデータ利用に影響を与える可能性がある。

In this article, we use artificial intelligence algorithms to show how to enhance the resolution of the elementary particle track fitting in inhomogeneous dense detectors, such as plastic scintillators. We use deep learning to replace more traditional Bayesian filtering methods, drastically improving the reconstruction of the interacting particle kinematics. We show that a specific form of neural network, inherited from the field of natural language processing, is very close to the concept of a Bayesian filter that adopts a hyper-informative prior. Such a paradigm change can influence the design of future particle physics experiments and their data exploitation.
翻訳日:2022-11-10 18:12:31 公開日:2022-11-09
# 高速ストレージのためのpytorchデータローダのプロファイリングと改善:技術報告

Profiling and Improving the PyTorch Dataloader for high-latency Storage: A Technical Report ( http://arxiv.org/abs/2211.04908v1 )

ライセンス: Link先を確認
Ivan Svogor, Christian Eichenberger, Markus Spanring, Moritz Neun, Michael Kopp(参考訳) 最近、多くの機械学習フレームワークが、複雑なニューラルネットワークアーキテクチャとアルゴリズムを簡単に使用することで、エンジニア、科学者、実践者の幅広いオーディエンスにディープラーニングをアクセス可能にしている。 しかし、ディープラーニングは理論的な進歩だけでなく、ハードウェアやソフトウェアエンジニアリングにおいても急速に進化しているため、MLフレームワークは後方互換性を失い、ボトルネックや準最適リソース利用につながる技術的負債をもたらすことが多い。 さらに、ほとんどの場合、ディープラーニングエンジニアリングではなく、新しいモデルや理論的な進歩に焦点を当てている。 しかしこの作業では、エンジニアリング、特にPyTorch Frameworkのデータ読み込みパイプラインに重点を置いています。 データローディングプロセスの特定のステップのパフォーマンス問題を概説する一連のベンチマークを設計した。 画像など多数のファイルをロードする分類タスクでは,トレーニングウォールタイムが大幅に改善される可能性が示唆された。 新しい変更済みのconcurrentdataloaderを使えば、gpuの利用が改善され、バッチの読み込み時間が最大12倍削減できます。 これにより、クラウドベースのS3ライクなオブジェクトストレージをデータセットに使用でき、データセットがローカルドライブに格納されているようにトレーニング時間も同等になる。

A growing number of Machine Learning Frameworks recently made Deep Learning accessible to a wider audience of engineers, scientists, and practitioners, by allowing straightforward use of complex neural network architectures and algorithms. However, since deep learning is rapidly evolving, not only through theoretical advancements but also with respect to hardware and software engineering, ML frameworks often lose backward compatibility and introduce technical debt that can lead to bottlenecks and sub-optimal resource utilization. Moreover, the focus is in most cases not on deep learning engineering, but rather on new models and theoretical advancements. In this work, however, we focus on engineering, more specifically on the data loading pipeline in the PyTorch Framework. We designed a series of benchmarks that outline performance issues of certain steps in the data loading process. Our findings show that for classification tasks that involve loading many files, like images, the training wall-time can be significantly improved. With our new, modified ConcurrentDataloader we can reach improvements in GPU utilization and significantly reduce batch loading time, up to 12X. This allows for the use of the cloud-based, S3-like object storage for datasets, and have comparable training time as if datasets are stored on local drives.
翻訳日:2022-11-10 18:12:19 公開日:2022-11-09
# 個人別連続数におけるほぼタイトな誤差境界

Almost Tight Error Bounds on Differentially Private Continual Counting ( http://arxiv.org/abs/2211.05006v1 )

ライセンス: Link先を確認
Monika Henzinger and Jalaj Upadhyay and Sarvagya Upadhyay(参考訳) プライベートフェデレーション学習の最初の大規模展開では、継続リリースモデルにおける差分プライベートカウントをサブルーチンとして使用している(“Federated Learning with Formal Differential Privacy Guarantees”と題されたGoogle AIブログ)。 この場合、エラーの具体的なバウンドは、プライバシパラメータを減らすために非常に重要になります。 連続カウントの標準的なメカニズムはバイナリメカニズムである。 本稿では,その平均二乗誤差が漸近的に最適であり,二乗メカニズムの誤差よりも小さい因子10であることを示す。 また, 本解析の定数は, 下級項の定数でのみ異なる非漸近的下限と上限を与えることにより, ほぼタイトであることを示した。 本アルゴリズムは計数行列の行列機構であり,リリース毎に一定時間を要する。 また,デニソフらの私的学習アルゴリズム(NeurIPS 2022)の過剰なリスクに上限を与えるために,算数行列の明示的な因子化も行っている。 連続数え上げ機構に対する我々の下限は、近似微分プライバシーの下での連続数え上げに関する最初の厳密な下限である。 これは、行列の特異値の観点から、$\gamma_F(\cdot)$ で表されるある分解ノルム上の新しい下界を用いて達成される。 特に、任意の複素行列に対して、$A \in \mathbb{C}^{m \times n}$, \[ \gamma_F(A) \geq \frac{1}{\sqrt{m}}\|A\|_1, \] ここで、$\|\cdot \|$はシャッテン-1ノルムを表す。 このテクニックは、より大きな線形クエリのクラスに対する下限を証明するのに役立つと思います。 この手法のパワーを説明するために、パリティクエリに応答する平均二乗誤差の第1下位境界を示す。

The first large-scale deployment of private federated learning uses differentially private counting in the continual release model as a subroutine (Google AI blog titled "Federated Learning with Formal Differential Privacy Guarantees"). In this case, a concrete bound on the error is very relevant to reduce the privacy parameter. The standard mechanism for continual counting is the binary mechanism. We present a novel mechanism and show that its mean squared error is both asymptotically optimal and a factor 10 smaller than the error of the binary mechanism. We also show that the constants in our analysis are almost tight by giving non-asymptotic lower and upper bounds that differ only in the constants of lower-order terms. Our algorithm is a matrix mechanism for the counting matrix and takes constant time per release. We also use our explicit factorization of the counting matrix to give an upper bound on the excess risk of the private learning algorithm of Denisov et al. (NeurIPS 2022). Our lower bound for any continual counting mechanism is the first tight lower bound on continual counting under approximate differential privacy. It is achieved using a new lower bound on a certain factorization norm, denoted by $\gamma_F(\cdot)$, in terms of the singular values of the matrix. In particular, we show that for any complex matrix, $A \in \mathbb{C}^{m \times n}$, \[ \gamma_F(A) \geq \frac{1}{\sqrt{m}}\|A\|_1, \] where $\|\cdot \|$ denotes the Schatten-1 norm. We believe this technique will be useful in proving lower bounds for a larger class of linear queries. To illustrate the power of this technique, we show the first lower bound on the mean squared error for answering parity queries.
翻訳日:2022-11-10 18:11:59 公開日:2022-11-09
# トランスファーラーニングと拡張幾何データ拡張を用いた複数ニューラルネットワークを用いた病理組織像の細胞性スコア評価

Combination of multiple neural networks using transfer learning and extensive geometric data augmentation for assessing cellularity scores in histopathology images ( http://arxiv.org/abs/2211.04675v1 )

ライセンス: Link先を確認
Jacob D. Beckmann, Kosta Popovic(参考訳) 組織サンプル中のがん細胞の分類は、現在、病理学者が手作業で行うプロセスである。 癌の細胞性を決定するこのプロセスは、時間を要する可能性がある。 特に深層学習(DL)技術は、病理学者に匹敵する正確さと性能のために、この目的のためにますます人気が高まっている。 本研究では,SPIE-AAPM-NCI BreastPathQチャレンジデータセットにおいて,全スライド画像(WSI)の癌細胞性を評価するための2つのDLアプローチの有効性を検討する。 平均予測確率pkとして知られる修正型ケンドール tau-b 予測確率メトリックを用いて, 回転による拡張データに対するトレーニングの効果と, 単一ネットワークへの複数のアーキテクチャの組み合わせを解析した。 深層移動学習した畳み込みニューラルネットワーク(CNN)インセプションV3をベースラインとして,平均PK値0.884を達成し,病理医が達成した平均PK値0.83の改善を示した。 その後、ネットワークは1度から360度の間で回転する追加のトレーニングデータセットで訓練され、ピーク時のpkは最大4.2%増加した。 inceptionv3ネットワークと、浅い転送学習cnnであるvgg16で構成される追加のアーキテクチャを並列アーキテクチャで組み合わせた。 この並列アーキテクチャは平均PK値0.907を達成し、どちらのアーキテクチャのパフォーマンスよりも統計的に有意に向上した(p<0.0001 by unpaired t-test)。

Classification of cancer cellularity within tissue samples is currently a manual process performed by pathologists. This process of correctly determining cancer cellularity can be time intensive. Deep Learning (DL) techniques in particular have become increasingly more popular for this purpose, due to the accuracy and performance they exhibit, which can be comparable to the pathologists. This work investigates the capabilities of two DL approaches to assess cancer cellularity in whole slide images (WSI) in the SPIE-AAPM-NCI BreastPathQ challenge dataset. The effects of training on augmented data via rotations, and combinations of multiple architectures into a single network were analyzed using a modified Kendall Tau-b prediction probability metric known as the average prediction probability PK. A deep, transfer learned, Convolutional Neural Network (CNN) InceptionV3 was used as a baseline, achieving an average PK value of 0.884, showing improvement from the average PK value of 0.83 achieved by pathologists. The network was then trained on additional training datasets which were rotated between 1 and 360 degrees, which saw a peak increase of PK up to 4.2%. An additional architecture consisting of the InceptionV3 network and VGG16, a shallow, transfer learned CNN, was combined in a parallel architecture. This parallel architecture achieved a baseline average PK value of 0.907, a statistically significantly improvement over either of the architectures' performances separately (p<0.0001 by unpaired t-test).
翻訳日:2022-11-10 18:09:19 公開日:2022-11-09
# 圧縮映像のビット深さ強調検出

Bit-depth enhancement detection for compressed video ( http://arxiv.org/abs/2211.04799v1 )

ライセンス: Link先を確認
Nickolay Safonov, Dmitriy Vatolin(参考訳) 近年,表示強度とコントラストが大幅に向上している。 多くのディスプレイはハイダイナミックレンジ(HDR)と10ビット色深度をサポートしている。 ハイビット深度は新興技術であるため、ビデオコンテンツは依然としてほとんど撮影され、色成分ごとに8ビット以下のビット深さで送信される。 十分でないビット深度は偽輪郭やバンドリングと呼ばれる歪みを生じさせ、高コントラストスクリーンで見ることができる。 このような歪みに対処するため、研究者はビット深度向上のためのアルゴリズムを提案している。 このような技術は低ビット深度動画(LBD)を高ビット深度動画(HBD)に変換する。 しかし、変換されたLBDビデオの品質は通常、オリジナルのHBDビデオよりも低く、多くの消費者はオリジナルのHBDバージョンを維持することを好んでいる。 本稿では,圧縮前に映像が変換されるかどうかを判定するアルゴリズムを提案する。 この問題は複雑であり、ビデオフレーム内の最小ビット(LSB)に強く影響を及ぼす圧縮が存在する場合、異なる復号化アルゴリズムの結果を検出する。 本アルゴリズムは、トレーニングデータセットにない非量子化アルゴリズムにより、映像が処理されているかどうかを判定できるため、ビット深度拡張を検出でき、良好な一般化能力を示す。

In recent years, display intensity and contrast have increased considerably. Many displays support high dynamic range (HDR) and 10-bit color depth. Since high bit-depth is an emerging technology, video content is still largely shot and transmitted with a bit depth of 8 bits or less per color component. Insufficient bit-depths produce distortions called false contours or banding, and they are visible on high contrast screens. To deal with such distortions, researchers have proposed algorithms for bit-depth enhancement (dequantization). Such techniques convert videos with low bit-depth (LBD) to videos with high bit-depth (HBD). The quality of converted LBD video, however, is usually lower than that of the original HBD video, and many consumers prefer to keep the original HBD versions. In this paper, we propose an algorithm to determine whether a video has undergone conversion before compression. This problem is complex; it involves detecting outcomes of different dequantization algorithms in the presence of compression that strongly affects the least-significant bits (LSBs) in the video frames. Our algorithm can detect bit-depth enhancement and demonstrates good generalization capability, as it is able to determine whether a video has undergone processing by dequantization algorithms absent from the training dataset.
翻訳日:2022-11-10 18:08:52 公開日:2022-11-09
# 状態空間モデルにおける最大確率再帰状態推定:不完全データの統計的解析に基づく新しいアプローチ

Maximum likelihood recursive state estimation in state-space models: A new approach based on statistical analysis of incomplete data ( http://arxiv.org/abs/2211.04631v1 )

ライセンス: Link先を確認
Budhi Arta Surya(参考訳) 本稿では,rauch et al. (1965) の研究を再検討し,一般状態空間モデルに対する再帰的最大度粒子フィルタリング法を開発した。 この新しい手法は、システムの不完全観測の統計解析に基づいている。 不完全な観測/データのスコア関数と条件付き観測情報を導入し,その分布特性について考察した。 不完全なデータのスコア関数と情報行列に関するいくつかのアイデンティティを導出する。 状態ベクトルの最大重み推定は、スコア関数と観測情報行列で表される。 特に非線形状態空間を扱うために,逐次モンテカルロ法が開発されている。 状態推定のためにLange (1995) を拡張した EM-gradient- Particle filtering によって再帰的に与えられる。 状態推定誤差の共分散行列を導出するため、観測情報行列の明示的な形式を提案する。 これは、同じ行列に対するLouis (1982) の一般公式を状態ベクトル推定に拡張する。 状態遷移確率分布の(ノイマン)境界条件の下では、この行列の逆行列は、偏りのない状態推定誤差の共分散行列上のクラー・ラオ下界と一致する。 線形モデルの場合、カルマンフィルタは推定誤差の共分散行列がクレーマー・ラオの下界と一致する完全効率的な状態推定器であることを示す。 主な結果を示すためにいくつかの数値的な例を議論する。

This paper revisits the work of Rauch et al. (1965) and develops a novel method for recursive maximum likelihood particle filtering for general state-space models. The new method is based on statistical analysis of incomplete observations of the systems. Score function and conditional observed information of the incomplete observations/data are introduced and their distributional properties are discussed. Some identities concerning the score function and information matrices of the incomplete data are derived. Maximum likelihood estimation of state-vector is presented in terms of the score function and observed information matrices. In particular, to deal with nonlinear state-space, a sequential Monte Carlo method is developed. It is given recursively by an EM-gradient-particle filtering which extends the work of Lange (1995) for state estimation. To derive covariance matrix of state-estimation errors, an explicit form of observed information matrix is proposed. It extends Louis (1982) general formula for the same matrix to state-vector estimation. Under (Neumann) boundary conditions of state transition probability distribution, the inverse of this matrix coincides with the Cramer-Rao lower bound on the covariance matrix of estimation errors of unbiased state-estimator. In the case of linear models, the method shows that the Kalman filter is a fully efficient state estimator whose covariance matrix of estimation error coincides with the Cramer-Rao lower bound. Some numerical examples are discussed to exemplify the main results.
翻訳日:2022-11-10 18:08:33 公開日:2022-11-09
# クラスタリング付きグラフのための最適グラフフィルタ

Optimal Graph Filters for Clustering Attributed Graphs ( http://arxiv.org/abs/2211.04634v1 )

ライセンス: Link先を確認
Meiby Ortiz-Bouza and Selin Aviyente(参考訳) 多くの現実世界のシステムは、異なる実体がノードによって表現され、それらの相互作用がエッジによって表現されるグラフとして表現できる。 大きなデータセットを研究する上で重要なタスクはグラフクラスタリングである。 ノード間の接続を利用したグラフクラスタリングには多くの作業があったが、多くの実世界のネットワークにもノード属性がある。 クラスタリングされたグラフは、グラフ構造とノード属性の合同モデリングを必要とする。 最近の研究は、構造情報とコンテンツ情報を組み合わせたグラフ畳み込みネットワークとグラフ畳み込みフィルタに焦点を当てている。 しかし、これらの手法はローパスフィルタに限られており、クラスタリングタスクのフィルタを明示的に最適化していない。 本稿では,クラスタリングに最適化された多項式グラフフィルタを設計するグラフ信号処理に基づく手法を提案する。 提案手法は,異なるクラスタ間の分離を最大化しながら,与えられたデータに対して最適かつ解釈可能なグラフフィルタを学習する2段階反復最適化問題として定式化されている。 提案手法は属性付きネットワーク上で評価され,最先端のグラフ畳み込みネットワークアプローチと比較される。

Many real-world systems can be represented as graphs where the different entities are presented by nodes and their interactions by edges. An important task in studying large datasets is graph clustering. While there has been a lot of work on graph clustering using the connectivity between the nodes, many real-world networks also have node attributes. Clustering attributed graphs requires joint modeling of graph structure and node attributes. Recent work has focused on graph convolutional networks and graph convolutional filters to combine structural and content information. However, these methods are mostly limited to lowpass filtering and do not explicitly optimize the filters for the clustering task. In this paper, we introduce a graph signal processing based approach, where we design polynomial graph filters optimized for clustering. The proposed approach is formulated as a two-step iterative optimization problem where graph filters that are interpretable and optimal for the given data are learned while maximizing the separation between different clusters. The proposed approach is evaluated on attributed networks and compared to the state-of-the-art graph convolutional network approaches.
翻訳日:2022-11-10 18:07:22 公開日:2022-11-09
# 対向的フェデレーション・トランスファー学習分類器の枠組み構築

Framework Construction of an Adversarial Federated Transfer Learning Classifier ( http://arxiv.org/abs/2211.04734v1 )

ライセンス: Link先を確認
Hang Yi, Tongxuan Bie and Tongjiang Yan(参考訳) インターネットの人気が高まるにつれて、IoTや金融業界、医療分野など、ますます多くの分類ジョブが、マシンラーニングの進歩にモバイルエッジコンピューティングに依存している。 しかし、医療業界では、大量のラベル付きデータを組み合わせてモデルを訓練する必要があるため、患者のプライバシを危険にさらすのが難しく、高価である。 本稿では,ラベル付きドメインで取得した分類アルゴリズムを,疎いあるいは欠落したラベル付きデータを持つドメインに転送することで,患者データプライバシを確保するために,フェデレート学習プラットフォームを利用した新しい診断フレームワークを提案する。 本フレームワークは, 生成的対向ネットワークではなく, 識別モデルを用いて複数の分類損失関数を構築し, 診断精度の向上を図る。 また、大量のラベル付きデータを集めることの難しさや、大量のサンプルデータを生成するコストも回避している。 実世界の画像データセットを用いた実験により,画像分類を用いた実世界の医療診断応用において,提案手法が期待できることを示す。

As the Internet grows in popularity, more and more classification jobs, such as IoT, finance industry and healthcare field, rely on mobile edge computing to advance machine learning. In the medical industry, however, good diagnostic accuracy necessitates the combination of large amounts of labeled data to train the model, which is difficult and expensive to collect and risks jeopardizing patients' privacy. In this paper, we offer a novel medical diagnostic framework that employs a federated learning platform to ensure patient data privacy by transferring classification algorithms acquired in a labeled domain to a domain with sparse or missing labeled data. Rather than using a generative adversarial network, our framework uses a discriminative model to build multiple classification loss functions with the goal of improving diagnostic accuracy. It also avoids the difficulty of collecting large amounts of labeled data or the high cost of generating large amount of sample data. Experiments on real-world image datasets demonstrates that the suggested adversarial federated transfer learning method is promising for real-world medical diagnosis applications that use image classification.
翻訳日:2022-11-10 18:07:08 公開日:2022-11-09
# Transformer-to-CNN知識蒸留による大規模オーディオタギングの効率化

Efficient Large-scale Audio Tagging via Transformer-to-CNN Knowledge Distillation ( http://arxiv.org/abs/2211.04772v1 )

ライセンス: Link先を確認
Florian Schmid, Khaled Koutini and Gerhard Widmer(参考訳) オーディオスペクトログラムトランスフォーマーモデルは、以前支配していた畳み込みニューラルネットワーク(cnns)を駆逐する、オーディオタグの分野を支配している。 彼らの優位性は、audiosetのような大規模データセットをスケールアップして活用する能力に基づいている。 しかし、トランスフォーマーはcnnと比較してモデルサイズと計算要求の点で要求されている。 高性能だが複雑な変換器からのオフライン知識蒸留(KD)に基づく効率的なCNNの訓練手順を提案する。 提案するトレーニングスキーマとmobilenetv3に基づく効率的なcnn設計は、パラメータや計算効率、予測性能の観点から、以前のソリューションを上回っている。 我々は、低複雑さモデルからAudioSetの.483 mAPの新たな最先端パフォーマンスまで、さまざまな複雑さレベルのモデルを提供する。 ソースコード https://github.com/fschmid56/EfficientAT

Audio Spectrogram Transformer models rule the field of Audio Tagging, outrunning previously dominating Convolutional Neural Networks (CNNs). Their superiority is based on the ability to scale up and exploit large-scale datasets such as AudioSet. However, Transformers are demanding in terms of model size and computational requirements compared to CNNs. We propose a training procedure for efficient CNNs based on offline Knowledge Distillation (KD) from high-performing yet complex transformers. The proposed training schema and the efficient CNN design based on MobileNetV3 results in models outperforming previous solutions in terms of parameter and computational efficiency and prediction performance. We provide models of different complexity levels, scaling from low-complexity models up to a new state-of-the-art performance of .483 mAP on AudioSet. Source Code available at: https://github.com/fschmid56/EfficientAT
翻訳日:2022-11-10 18:06:51 公開日:2022-11-09
# ディープラーニングのための方向性プライバシ

Directional Privacy for Deep Learning ( http://arxiv.org/abs/2211.04686v1 )

ライセンス: Link先を確認
Pedro Faustini, Natasha Fernandes, Annabelle McIver, Mark Dras(参考訳) Differentially Private Stochastic Gradient Descent (DP-SGD)は、ディープラーニングモデルのトレーニングにプライバシーを適用するための重要な方法である。 これはトレーニング中の勾配に等方性ガウスノイズを適用し、任意の方向にこれらの勾配を摂動させ、有用性を損なう。 しかし、メトリックDPは、より適した任意のメトリクスに基づいた代替メカニズムを提供することができる。 本稿では,von mises-fisher (vmf) 分布に基づく機構を用いて,von mises-fisher (vmf) 分布に基づく \textit{directional privacy} を応用し,勾配方向が広く保存されるように \textit{angular distance} を用いて勾配を摂動させる。 これは、ガウスのメカニズムの$(\epsilon, \delta)$-privacyではなく、ディープラーニングトレーニングに$\epsilon d$-privacyを提供することを示している。

Differentially Private Stochastic Gradient Descent (DP-SGD) is a key method for applying privacy in the training of deep learning models. This applies isotropic Gaussian noise to gradients during training, which can perturb these gradients in any direction, damaging utility. Metric DP, however, can provide alternative mechanisms based on arbitrary metrics that might be more suitable. In this paper we apply \textit{directional privacy}, via a mechanism based on the von Mises-Fisher (VMF) distribution, to perturb gradients in terms of \textit{angular distance} so that gradient direction is broadly preserved. We show that this provides $\epsilon d$-privacy for deep learning training, rather than the $(\epsilon, \delta)$-privacy of the Gaussian mechanism; and that experimentally, on key datasets, the VMF mechanism can outperform the Gaussian in the utility-privacy trade-off.
翻訳日:2022-11-10 18:00:04 公開日:2022-11-09
# 準同変連続正規化流れによる分子生成

Semi-Equivariant Continuous Normalizing Flows for Target-Aware Molecule Generation ( http://arxiv.org/abs/2211.04754v1 )

ライセンス: Link先を確認
Eyal Rozenberg and Daniel Freedman(参考訳) 本研究では,対象分子の条件生成モデルを学習するためのアルゴリズムを提案する。 具体的には、ある受容体分子が結合したいと仮定すると、条件付きモデルはそれに結合する候補配位子分子を生成する。 分布は、リガンドと受容体に$\textit{jointly}$を作用する剛体変換に不変であり、リガンドまたは受容体原子の置換にも不変である。 我々の学習アルゴリズムは連続正規化フローに基づいている。 上記の不変性条件を条件分布上で保証する流れ上の半同分散条件を定式化する。 本稿では,この流れを実装し,リガンドと受容体の差が大きいにもかかわらず効果的に学習するグラフニューラルネットワークアーキテクチャを提案する。 提案手法をCrossDocked2020データセット上で評価し,競合する手法に対する結合親和性を大幅に改善した。

We propose an algorithm for learning a conditional generative model of a molecule given a target. Specifically, given a receptor molecule that one wishes to bind to, the conditional model generates candidate ligand molecules that may bind to it. The distribution should be invariant to rigid body transformations that act $\textit{jointly}$ on the ligand and the receptor; it should also be invariant to permutations of either the ligand or receptor atoms. Our learning algorithm is based on a continuous normalizing flow. We establish semi-equivariance conditions on the flow which guarantee the aforementioned invariance conditions on the conditional distribution. We propose a graph neural network architecture which implements this flow, and which is designed to learn effectively despite the vast differences in size between the ligand and receptor. We evaluate our method on the CrossDocked2020 dataset, attaining a significant improvement in binding affinity over competing methods.
翻訳日:2022-11-10 17:59:45 公開日:2022-11-09
# オンラインナイーブベイズを意識した差別とクラス不均衡

Discrimination and Class Imbalance Aware Online Naive Bayes ( http://arxiv.org/abs/2211.04812v1 )

ライセンス: Link先を確認
Maryam Badar, Marco Fisichella, Vasileios Iosifidis, Wolfgang Nejdl(参考訳) 巨大なデータストリームの公正なマイニングは、機械学習の現代的領域において、成長し、挑戦的な関心事である。 多くのストリーム学習アルゴリズムは、従業員の雇用、信用リスクの評価など、重要な意思決定ポイントで人間を置き換えるために使用される。 これにより、大量の受信情報を最小限の応答遅延で処理し、公平で高品質な決定を確実にする必要がある。 近年の識別認識学習法は総合的精度に基づいて最適化されている。 しかし、全体的な精度は多数派に偏っているため、最先端の手法は主に少数派を部分的にあるいは完全に無視することで差別を減らしている。 本稿では,ストリームに埋め込まれた識別を緩和し,多数層と少数層の両方に対する高い予測性能を維持するために,na\"ive bayesの新たな適応を提案する。 提案アルゴリズムは単純で高速で,多目的最適化の目標を達成する。 クラスの不均衡と概念のドリフトに対処するために、動的インスタンス重み付けモジュールが提案されている。 ストリーミングおよび静的データセットの多種多様な実験を行い,提案手法が識別スコアとバランスの取れた精度の両面で,既存の公平性認識手法を上回っていることを推察した。

Fairness-aware mining of massive data streams is a growing and challenging concern in the contemporary domain of machine learning. Many stream learning algorithms are used to replace humans at critical decision-making points e.g., hiring staff, assessing credit risk, etc. This calls for handling massive incoming information with minimum response delay while ensuring fair and high quality decisions. Recent discrimination-aware learning methods are optimized based on overall accuracy. However, the overall accuracy is biased in favor of the majority class; therefore, state-of-the-art methods mainly diminish discrimination by partially or completely ignoring the minority class. In this context, we propose a novel adaptation of Na\"ive Bayes to mitigate discrimination embedded in the streams while maintaining high predictive performance for both the majority and minority classes. Our proposed algorithm is simple, fast, and attains multi-objective optimization goals. To handle class imbalance and concept drifts, a dynamic instance weighting module is proposed, which gives more importance to recent instances and less importance to obsolete instances based on their membership in minority or majority class. We conducted experiments on a range of streaming and static datasets and deduced that our proposed methodology outperforms existing state-of-the-art fairness-aware methods in terms of both discrimination score and balanced accuracy.
翻訳日:2022-11-10 17:59:30 公開日:2022-11-09
# Deep W-Networks: 深層強化学習による多目的最適化問題の解決

Deep W-Networks: Solving Multi-Objective Optimisation Problems With Deep Reinforcement Learning ( http://arxiv.org/abs/2211.04813v1 )

ライセンス: Link先を確認
Jernej Hribar and Luke Hackett and Ivana Dusparic(参考訳) 本稿では,多目的タブ型強化学習(RL)アルゴリズムを大規模状態空間に拡張するために,Deep Q-Networks (DQN) アプローチが導入した進歩に基づいて構築する。 Wラーニングアルゴリズムは、多目的環境における複数の単一ポリシー間の競合を自然に解決することができる。 しかし、表形式のバージョンは大きな状態空間を持つ環境にはうまくスケールしない。 この問題に対処するため、基礎となるqテーブルをdqnに置き換え、表重み(w)表現の代替としてwネットワークの追加を提案する。 我々は,深海宝と多目的マウンテンカーという,広く受け入れられている2つの多目的RLベンチマークにおいて,Deep W-Networks(DWN)アプローチの有効性を評価する。 DWNは、DQNソリューションの形でベースラインを上回りながら、複数のポリシー間の競合を解決する。 さらに,提案アルゴリズムは両テスト環境でParetoフロントを見つけることができることを示した。

In this paper, we build on advances introduced by the Deep Q-Networks (DQN) approach to extend the multi-objective tabular Reinforcement Learning (RL) algorithm W-learning to large state spaces. W-learning algorithm can naturally solve the competition between multiple single policies in multi-objective environments. However, the tabular version does not scale well to environments with large state spaces. To address this issue, we replace underlying Q-tables with DQN, and propose an addition of W-Networks, as a replacement for tabular weights (W) representations. We evaluate the resulting Deep W-Networks (DWN) approach in two widely-accepted multi-objective RL benchmarks: deep sea treasure and multi-objective mountain car. We show that DWN solves the competition between multiple policies while outperforming the baseline in the form of a DQN solution. Additionally, we demonstrate that the proposed algorithm can find the Pareto front in both tested environments.
翻訳日:2022-11-10 17:59:07 公開日:2022-11-09
# 疎ベイズ学習のためのハイパーパラメータ自動チューニング

Hyper-Parameter Auto-Tuning for Sparse Bayesian Learning ( http://arxiv.org/abs/2211.04847v1 )

ライセンス: Link先を確認
Dawei Gao, Qinghua Guo, Ming Jin, Guisheng Liao, and Yonina C. Eldar(参考訳) 疎ベイズ学習(SBL)におけるハイパーパラメータの値の選択は性能に大きな影響を与える。 しかし、ハイパーパラメータは通常手動で調整されるため、しばしば難しい作業である。 最近では、実証的なオートチューニングを用いて効果的な自動パラメータチューニングを実現している。 本研究では,ニューラルネットワーク(NN)に基づく学習を用いたハイパーパラメータ自動チューニングの問題に対処する。 実験的なオートチューニングにインスパイアされ、NNベースのオートチューニングの設計と学習を行い、収束率と回復性能の大幅な向上が達成できることを示す。

Choosing the values of hyper-parameters in sparse Bayesian learning (SBL) can significantly impact performance. However, the hyper-parameters are normally tuned manually, which is often a difficult task. Most recently, effective automatic hyper-parameter tuning was achieved by using an empirical auto-tuner. In this work, we address the issue of hyper-parameter auto-tuning using neural network (NN)-based learning. Inspired by the empirical auto-tuner, we design and learn a NN-based auto-tuner, and show that considerable improvement in convergence rate and recovery performance can be achieved.
翻訳日:2022-11-10 17:58:50 公開日:2022-11-09
# 半後方伝播による逆行性摂動の50%加速

Accelerating Adversarial Perturbation by 50% with Semi-backward Propagation ( http://arxiv.org/abs/2211.04973v1 )

ライセンス: Link先を確認
Zhiqi Bu(参考訳) 対向摂動は、入力データに対する最大化問題を解く対向ロバストネスの分野において重要な役割を果たす。 このような最適化の後方伝播は,出力勾配しか計算しないが,後方伝搬のパラメータ勾配を計算しない場合,$2\times$(従って前方伝播を含む全体的な最適化は$1.5\times$)を加速できることを示す。

Adversarial perturbation plays a significant role in the field of adversarial robustness, which solves a maximization problem over the input data. We show that the backward propagation of such optimization can accelerate $2\times$ (and thus the overall optimization including the forward propagation can accelerate $1.5\times$), without any utility drop, if we only compute the output gradient but not the parameter gradient during the backward propagation.
翻訳日:2022-11-10 17:58:43 公開日:2022-11-09
# dyadic と small group interaction におけるパーソナリティ状態推定と深層学習法

Perceived personality state estimation in dyadic and small group interaction with deep learning methods ( http://arxiv.org/abs/2211.04979v1 )

ライセンス: Link先を確認
Kristian Fenech, \'Ad\'am Fodor, Sean P. Bergeron, Rachid R. Saboundji, Catharine Oertel and Andr\'as L\H{o}rincz(参考訳) dyadicとsmall groupのコラボレーションは進化的に有利な行動であり、このようなコラボレーションの必要性は日々の生活で定期的に発生する。 本稿では,4つのマルチモーダルデータセット上でのインタラクションのシンスライス上で,dyadic と small group の個人が知覚するパーソナリティ特性を推定する。 我々のトランスフォーマーに基づく予測モデルは、参加者の認識される5つの大きな性格特性を予測する人間のアノテータと類似していることがわかった。 このモデルを用いて、小さなグループやダイナドでタスクを行う個人のパーソナリティ特性を推定する。 置換分析の結果, 協調作業を行う小集団の場合, グループメンバークラスタのパーソナリティが認識される場合, 協調問題解決課題におけるdyadsにおいても, 非協調作業条件下ではdyadsでは観察されない。 さらに,グループレベルの平均的個性特性は,グループレベルの平均的自己報告的個性特性よりもグループパフォーマンスの予測に優れていた。

Dyadic and small group collaboration is an evolutionary advantageous behaviour and the need for such collaboration is a regular occurrence in day to day life. In this paper we estimate the perceived personality traits of individuals in dyadic and small groups over thin-slices of interaction on four multimodal datasets. We find that our transformer based predictive model performs similarly to human annotators tasked with predicting the perceived big-five personality traits of participants. Using this model we analyse the estimated perceived personality traits of individuals performing tasks in small groups and dyads. Permutation analysis shows that in the case of small groups undergoing collaborative tasks, the perceived personality of group members clusters, this is also observed for dyads in a collaborative problem solving task, but not in dyads under non-collaborative task settings. Additionally, we find that the group level average perceived personality traits provide a better predictor of group performance than the group level average self-reported personality traits.
翻訳日:2022-11-10 17:58:34 公開日:2022-11-09
# ハイパーGST:グラフサージ、ハイパーグラフ、社会的意味のあるエッジウェイト、時間的爆発を組み込んだメトロ旅客流予測

Hyper-GST: Predict Metro Passenger Flow Incorporating GraphSAGE, Hypergraph, Social-meaningful Edge Weights and Temporal Exploitation ( http://arxiv.org/abs/2211.04988v1 )

ライセンス: Link先を確認
Yuyang Miao, Yao Xu, Danilo Mandic(参考訳) 都市交通計画において,都市交通流の予測は極めて重要である。 ディープラーニングアルゴリズムは非線形システムのモデリングにおける堅牢な性能のために広く応用されている。 しかし、従来のディープラーニングアルゴリズムは、metroシステム内の固有のグラフ構造を完全に破棄する。 グラフベースのディープラーニングアルゴリズムは、グラフ構造を活用するが、エッジの重み付けや、過剰なスムーシング問題に起因する浅い受容フィールドを決定する方法など、いくつかの課題を提起する。 これらの課題をさらに改善するために,エッジウェイト学習者を適用したGraphSAGEに基づくモデルを提案する。 エッジウェイト学習者は、エッジウェイトを生成するために社会的に意味のある特徴を利用する。 hypergraphとtemporal exploitationモジュールも、パフォーマンス向上のためのアドオンとして構築されている。 提案アルゴリズムと,提案アルゴリズムが性能を向上できる最先端グラフニューラルネットワークとの比較研究を行った。

Predicting metro passenger flow precisely is of great importance for dynamic traffic planning. Deep learning algorithms have been widely applied due to their robust performance in modelling non-linear systems. However, traditional deep learning algorithms completely discard the inherent graph structure within the metro system. Graph-based deep learning algorithms could utilise the graph structure but raise a few challenges, such as how to determine the weights of the edges and the shallow receptive field caused by the over-smoothing issue. To further improve these challenges, this study proposes a model based on GraphSAGE with an edge weights learner applied. The edge weights learner utilises socially meaningful features to generate edge weights. Hypergraph and temporal exploitation modules are also constructed as add-ons for better performance. A comparison study is conducted on the proposed algorithm and other state-of-art graph neural networks, where the proposed algorithm could improve the performance.
翻訳日:2022-11-10 17:58:16 公開日:2022-11-09
# カーネルバナッハ空間の再生によるニューラルネットワークの双対性

Duality for Neural Networks through Reproducing Kernel Banach Spaces ( http://arxiv.org/abs/2211.05020v1 )

ライセンス: Link先を確認
Len Spek, Tjeerd Jan Heeringa, Christoph Brune(参考訳) Kernel Hilbert空間(RKHS)の再現は、機械学習の様々な分野で非常に成功したツールである。 近年、バロン空間はニューラルネットワークの一般化誤差の境界を証明するために用いられている。 残念ながら、重みの強い非線形結合のため、バロン空間はRKHSでは理解できない。 より一般的な Reproduction Kernel Banach 空間 (RKBS) を用いてこの問題を解くことができることを示す。 この積分 RKBS のクラスは RKHS 空間の無限統一として理解することができる。 RKBS はヒルベルト空間ではないので、自身の双対空間ではない。 しかし、その双対空間は、データとパラメータの役割が交換されるRKBSであり、双対空間における再生特性を含む随伴対のRKBSを形成することを示す。 これにより、プライマル・ディレクティブ最適化技術の全分野で使用できるニューラルネットワークのサドルポイント問題を構築することができる。

Reproducing Kernel Hilbert spaces (RKHS) have been a very successful tool in various areas of machine learning. Recently, Barron spaces have been used to proof bounds on the generalisation error for neural networks. Unfortunately, Barron spaces cannot be understood in terms of RKHS due to the strong nonlinear coupling of the weights. We show that this can be solved by using the more general Reproducing Kernel Banach spaces (RKBS). This class of integral RKBS can be understood as an infinite union of RKHS spaces. As the RKBS is not a Hilbert space, it is not its own dual space. However, we show that its dual space is again an RKBS where the roles of the data and parameters are interchanged, forming an adjoint pair of RKBSs including a reproducing property in the dual space. This allows us to construct the saddle point problem for neural networks, which can be used in whole field of primal-dual optimisation techniques.
翻訳日:2022-11-10 17:58:02 公開日:2022-11-09
# 自動学習:ランダムベース関数上のA*探索アルゴリズムの実装

Automated Learning: An Implementation of The A* Search Algorithm over The Random Base Functions ( http://arxiv.org/abs/2211.05085v1 )

ライセンス: Link先を確認
Nima Tatari(参考訳) このレターは、基本関数の集合を見つけるアルゴリズムを説明する。 このメソッドは、いくつかのベース関数の観点からデータセットのリード動作をキャプチャすることを目的としている。 a星探索の実装はこれらの関数を見つけるのに役立つが、勾配降下は各探索ステップの関数のパラメータを最適化する。 結果のプロットを示して、外挿と目に見えないデータを比較する。

This letter explains an algorithm for finding a set of base functions. The method aims to capture the leading behavior of the dataset in terms of a few base functions. Implementation of the A-star search will help find these functions, while the gradient descent optimizes the parameters of the functions at each search step. We will show the resulting plots to compare the extrapolation with the unseen data.
翻訳日:2022-11-10 17:57:48 公開日:2022-11-09
# 深層学習に基づく感情認識のためのデータ強化手法の比較検討

A Comparative Study of Data Augmentation Techniques for Deep Learning Based Emotion Recognition ( http://arxiv.org/abs/2211.05047v1 )

ライセンス: Link先を確認
Ravi Shankar, Abdouh Harouna Kenfack, Arjun Somayazulu, Archana Venkataraman(参考訳) 音声における感情の自動認識は長年の課題である。 感情認識に関する初期の研究は手作りの特徴と単純な分類器に依存していたが、この分野は現在、ディープニューラルネットワークを用いたエンドツーエンドの機能学習と分類を受け入れている。 これらのモデルと並行して、研究者は既存のラベル付きデータセットのサイズと可変性を高めるためのいくつかのデータ拡張技術を提案した。 この分野における多くのセミナルな貢献にもかかわらず、ネットワークアーキテクチャとデータ拡張の選択の間の相互作用についてはまだ理解が不十分です。 さらに、ロバストな実世界性能の前提条件である複数のデータセットにまたがる特定のモデルの一般化性を示す研究はごくわずかである。 本稿では,感情認識のための一般的な深層学習手法を包括的に評価する。 バイアスを回避するため,VESUSデータセットを用いてモデルアーキテクチャの修正とハイパーパラメータの最適化を行い,IEMOCAPとCREMA-Dデータセットのパフォーマンスを評価するために,繰り返し5倍のクロスバリデーションを使用する。 以上の結果から,音声信号の長距離依存性は感情認識にとって重要であり,速度/速度の増大はモデル間で最も堅牢な性能向上をもたらすことが示された。

Automated emotion recognition in speech is a long-standing problem. While early work on emotion recognition relied on hand-crafted features and simple classifiers, the field has now embraced end-to-end feature learning and classification using deep neural networks. In parallel to these models, researchers have proposed several data augmentation techniques to increase the size and variability of existing labeled datasets. Despite many seminal contributions in the field, we still have a poor understanding of the interplay between the network architecture and the choice of data augmentation. Moreover, only a handful of studies demonstrate the generalizability of a particular model across multiple datasets, which is a prerequisite for robust real-world performance. In this paper, we conduct a comprehensive evaluation of popular deep learning approaches for emotion recognition. To eliminate bias, we fix the model architectures and optimization hyperparameters using the VESUS dataset and then use repeated 5-fold cross validation to evaluate the performance on the IEMOCAP and CREMA-D datasets. Our results demonstrate that long-range dependencies in the speech signal are critical for emotion recognition and that speed/rate augmentation offers the most robust performance gain across models.
翻訳日:2022-11-10 17:52:20 公開日:2022-11-09
# 緩和交換性を考慮したスケッチデータによる等角周波数推定

Conformal Frequency Estimation with Sketched Data under Relaxed Exchangeability ( http://arxiv.org/abs/2211.04612v1 )

ライセンス: Link先を確認
Matteo Sesia, Stefano Favaro, Edgar Dobriban(参考訳) データのより小さなスケッチに基づいて、非常に大きなデータセットでクエリされたオブジェクトの頻度に対する信頼区間を構築するための柔軟な手法を開発した。 このアプローチでは、データ分布やスケッチアルゴリズムの詳細に関する知識は必要とせず、共形推論アプローチを用いて、ランダムなクエリに対して正当な頻繁な信頼区間を構築する。 提案手法は,データ交換可能性を想定したランダムクエリの限界カバレッジを達成した後,異なるランダムクエリ,冗長クエリ,分散シフトのヘテロジニアス周波数を考慮した,より強い推論を行うように拡張した。 提案手法は広く適用可能であるが,本論文では,先行作業との比較を容易にするために,カウントミンスケッチアルゴリズムとその非線形変動を含むユースケースに焦点を当てる。 特に,sars-cov-2のdna配列と古典英語文献のデータセットを用いたシミュレーションと実験を通じて,経験的比較を行った。

A flexible method is developed to construct a confidence interval for the frequency of a queried object in a very large data set, based on a much smaller sketch of the data. The approach requires no knowledge of the data distribution or of the details of the sketching algorithm; instead, it constructs provably valid frequentist confidence intervals for random queries using a conformal inference approach. After achieving marginal coverage for random queries under the assumption of data exchangeability, the proposed method is extended to provide stronger inferences accounting for possibly heterogeneous frequencies of different random queries, redundant queries, and distribution shifts. While the presented methods are broadly applicable, this paper focuses on use cases involving the count-min sketch algorithm and a non-linear variation thereof, to facilitate comparison to prior work. In particular, the developed methods are compared empirically to frequentist and Bayesian alternatives, through simulations and experiments with data sets of SARS-CoV-2 DNA sequences and classic English literature.
翻訳日:2022-11-10 17:52:00 公開日:2022-11-09
# Manifold Constraint と Composite Quadratic Penalty を用いたマルチタスク機能線形回帰モデルの統一解析

A Unified Analysis of Multi-task Functional Linear Regression Models with Manifold Constraint and Composite Quadratic Penalty ( http://arxiv.org/abs/2211.04874v1 )

ライセンス: Link先を確認
Shiyuan He, Hanxuan Ye, Kejun He(参考訳) この研究は、共変量と未知回帰係数(傾き関数と呼ばれる)の両方が曲線であるマルチタスク関数線形回帰モデルを研究する。 傾斜関数の推定には, バイアス, 分散, 計算複雑性のバランスをとるためにペナルテッドスプラインを用いる。 マルチタスク学習のパワーは、傾斜関数に付加的な構造を課すことによってもたらされる。 スプライン係数行列上の二重正則化をもつ一般モデルを提案する。 一 行列多様体の制約、及び 二 第二項の合計としての複合ペナルティ 多くのマルチタスク学習アプローチは、縮小ランクモデルやグラフラプラシア正規化モデルなど、提案モデルの特別なケースとして扱うことができる。 複合ペナルティは、多様体曲率を定量化し、多様体接空間内の対応する固有部分集合を決定するのに役立つ特定のノルムを誘導する。 接空間部分集合の複雑さは、ジェネリック連鎖を通じて測地線近傍の複雑さにブリッジされる。 縮小ランクモデルとグラフラプラシアン正則化モデルに対して、統一収束上限が得られ、特に適用される。 モデルパラメータの設定が異なるため, 推定器の位相遷移挙動について検討する。

This work studies the multi-task functional linear regression models where both the covariates and the unknown regression coefficients (called slope functions) are curves. For slope function estimation, we employ penalized splines to balance bias, variance, and computational complexity. The power of multi-task learning is brought in by imposing additional structures over the slope functions. We propose a general model with double regularization over the spline coefficient matrix: i) a matrix manifold constraint, and ii) a composite penalty as a summation of quadratic terms. Many multi-task learning approaches can be treated as special cases of this proposed model, such as a reduced-rank model and a graph Laplacian regularized model. We show the composite penalty induces a specific norm, which helps to quantify the manifold curvature and determine the corresponding proper subset in the manifold tangent space. The complexity of tangent space subset is then bridged to the complexity of geodesic neighbor via generic chaining. A unified convergence upper bound is obtained and specifically applied to the reduced-rank model and the graph Laplacian regularized model. The phase transition behaviors for the estimators are examined as we vary the configurations of model parameters.
翻訳日:2022-11-10 17:51:42 公開日:2022-11-09
# 変数共効率$\ell_1$ペナルティによるスパースベイズラッソ

Sparse Bayesian Lasso via a Variable-Coefficient $\ell_1$ Penalty ( http://arxiv.org/abs/2211.05089v1 )

ライセンス: Link先を確認
Nathan Wycoff, Ali Arab, Katharine M. Donato and Lisa O. Singh(参考訳) 現代の統計学習アルゴリズムは驚くほど柔軟性があるが、解釈に苦慮している。 多くのパラメータが同一に 0 と推定されるように推論すると、$\ell_1$ のペナルティのような非滑らかな刑罰が課せられる。 しかし、$\ell_1$ のペナルティは高いスパーシティが要求されるときに大きなバイアスをもたらす。 この記事では、$\ell_1$のペナルティを保ちながら、学習可能なペナルティ重みを$\lambda_p$と定義します。 この記事は、これが引き起こす最適化問題を調査し、$\ell_1$ノルムに関連付けられた近位演算子を開発することから始める。 次に,この変数共効率な$\ell_1$ペナルティの理論的性質をペナルティ化確率の文脈で研究する。 次に,このペナルティを変分ベイズに適用し,ラッソ回帰(lasso regression)のように定性的な振る舞いを任意の変分モデルに適用できる疎ベイズラッソ(sparse bayesian lasso)と呼ばれるモデルを開発した。 シミュレーション研究において、シミュレーションに基づくアプローチにおける不確かさの定量化と低バイアス特性を、桁違いに少ない計算で実現する。 最後に,2013-2017年のイラク内戦中に発生した内部変位のベイズラグ時空間回帰モデルに適用する。

Modern statistical learning algorithms are capable of amazing flexibility, but struggle with interpretability. One possible solution is sparsity: making inference such that many of the parameters are estimated as being identically 0, which may be imposed through the use of nonsmooth penalties such as the $\ell_1$ penalty. However, the $\ell_1$ penalty introduces significant bias when high sparsity is desired. In this article, we retain the $\ell_1$ penalty, but define learnable penalty weights $\lambda_p$ endowed with hyperpriors. We start the article by investigating the optimization problem this poses, developing a proximal operator associated with the $\ell_1$ norm. We then study the theoretical properties of this variable-coefficient $\ell_1$ penalty in the context of penalized likelihood. Next, we investigate application of this penalty to Variational Bayes, developing a model we call the Sparse Bayesian Lasso which allows for behavior qualitatively like Lasso regression to be applied to arbitrary variational models. In simulation studies, this gives us the Uncertainty Quantification and low bias properties of simulation-based approaches with an order of magnitude less computation. Finally, we apply our methodology to a Bayesian lagged spatiotemporal regression model of internal displacement that occurred during the Iraqi Civil War of 2013-2017.
翻訳日:2022-11-10 17:51:17 公開日:2022-11-09
# MP-SeizNet:脳波を用いた青少年型分類のためのマルチパスCNN Bi-LSTMネットワーク

MP-SeizNet: A Multi-Path CNN Bi-LSTM Network for Seizure-Type Classification Using EEG ( http://arxiv.org/abs/2211.04628v1 )

ライセンス: Link先を確認
Hezam Albaqami, Ghulam Mubashar Hassan and Amitava Datta(参考訳) てんかん患者の治療と管理には, 精垂型鑑別が不可欠である。 しかし、時間消費と労働集約であることが知られている難しいプロセスである。 機械学習アルゴリズムの進歩による自動診断システムは、分類プロセスを加速し、患者に警告し、医師が迅速かつ正確な意思決定を行うのをサポートする可能性がある。 本稿では,畳み込み型ニューラルネットワーク(CNN)と,注目機構を備えた双方向長短期記憶型ニューラルネットワーク(Bi-LSTM)からなる,新しいマルチパス発作型分類ディープラーニングネットワーク(MP-SeizNet)を提案する。 本研究の目的は、脳波(EEG)データのみを用いて、複雑な部分的、単純部分的、欠如、緊張性、強直性発作を含む特定の種類の発作を分類することであった。 eegデータは2つの異なる表現で提案モデルに供給されます。 CNNは、脳波信号から抽出したウェーブレットベースの特徴を、Bi-LSTMは生の脳波信号を供給し、MP-SeizNetは、より正確な情報学習のために、異なる発作データの表現から共同で学習する。 提案するmp-seiznetは,最大の脳波データベースであるテンプル大学病院脳波発作コーパスtusz v1.5.2を用いて評価した。 5倍のクロスバリデーションを用いて3倍のクロスバリデーションと5倍のクロスバリデーションと98.1%のF1スコアをそれぞれ評価した。

Seizure type identification is essential for the treatment and management of epileptic patients. However, it is a difficult process known to be time consuming and labor intensive. Automated diagnosis systems, with the advancement of machine learning algorithms, have the potential to accelerate the classification process, alert patients, and support physicians in making quick and accurate decisions. In this paper, we present a novel multi-path seizure-type classification deep learning network (MP-SeizNet), consisting of a convolutional neural network (CNN) and a bidirectional long short-term memory neural network (Bi-LSTM) with an attention mechanism. The objective of this study was to classify specific types of seizures, including complex partial, simple partial, absence, tonic, and tonic-clonic seizures, using only electroencephalogram (EEG) data. The EEG data is fed to our proposed model in two different representations. The CNN was fed with wavelet-based features extracted from the EEG signals, while the Bi-LSTM was fed with raw EEG signals to let our MP-SeizNet jointly learns from different representations of seizure data for more accurate information learning. The proposed MP-SeizNet was evaluated using the largest available EEG epilepsy database, the Temple University Hospital EEG Seizure Corpus, TUSZ v1.5.2. We evaluated our proposed model across different patient data using three-fold cross-validation and across seizure data using five-fold cross-validation, achieving F1 scores of 87.6% and 98.1%, respectively.
翻訳日:2022-11-10 17:49:36 公開日:2022-11-09
# 低精度環境におけるリプシッツ連続損失関数のsgd変異

Variants of SGD for Lipschitz Continuous Loss Functions in Low-Precision Environments ( http://arxiv.org/abs/2211.04655v1 )

ライセンス: Link先を確認
Michael R. Metel(参考訳) この研究は、低ビット浮動小数点環境と固定点環境におけるニューラルネットワークトレーニングによって動機付けられ、計算誤差を伴うSGDの変種収束を研究する。 一般確率リプシッツ連続損失関数を考えると、その確率勾配の近似のみを計算できるだけでなく、SGDステップ自体の誤差を計算できると仮定して、クラーク定常点への新たな収束結果が提示される。 SGDの異なる変種は、様々な低精度の演算環境において実験的にテストされ、2つの画像認識タスクにおいてSGDと比較してテストセットの精度が向上した。

Motivated by neural network training in low-bit floating and fixed-point environments, this work studies the convergence of variants of SGD with computational error. Considering a general stochastic Lipschitz continuous loss function, a novel convergence result to a Clarke stationary point is presented assuming that only an approximation of its stochastic gradient can be computed as well as error in computing the SGD step itself. Different variants of SGD are then tested empirically in a variety of low-precision arithmetic environments, with improved test set accuracy achieved compared to SGD for two image recognition tasks.
翻訳日:2022-11-10 17:49:08 公開日:2022-11-09
# スタック内アテンションニューラルネットワークによる関心予測領域からのビュー記述の自動MRIフィールド

Automated MRI Field of View Prescription from Region of Interest Prediction by Intra-stack Attention Neural Network ( http://arxiv.org/abs/2211.04703v1 )

ライセンス: Link先を確認
Ke Lei, Ali B. Syed, Xucheng Zhu, John M. Pauly, Shreyas S. Vasanawala(参考訳) mri技術者によるフィールドオブビュー(fov)の手動処方は可変であり、走査プロセスを延長する。 FOVは大きすぎるか、作物にとって重要な解剖学であることが多い。 本稿では,放射線科医が指導する深層学習フレームワークを提案する。 スタック内共有特徴抽出ネットワークと注意ネットワークを用いて、2d画像入力のスタックを処理し、関心の矩形領域(roi)の位置を定義する出力スカラーを生成する。 注意機構は、モデルがスタック内の少数の情報的なスライスに焦点を合わせるために使用される。 次に、MRサンプリング理論から導かれる代数演算により、ニューラルネットワークの予測ROIをエイリアシングから解放する最小のFOVを算出する。 2018年2月から2022年2月までに595例を回顧調査した。 フレームワークの性能は、結合(IoU)と位置の画素誤差とを定量的に比較し、また、読者による研究と定性的に比較する。 我々は,全モデルと放射線科医の定量的結果を比較するためにt-testを用いた。 提案モデルでは, 平均IoU 0.867, 平均ROI 誤差は512ピクセル中9.06, 2基モデルではP<0.05) が有意に向上し, 放射線学ではP>0.12) と有意差は認められなかった。 最後に, 提案したフレームワークによるFOVは, 経験者から92%の受入率を達成する。

Manual prescription of the field of view (FOV) by MRI technologists is variable and prolongs the scanning process. Often, the FOV is too large or crops critical anatomy. We propose a deep-learning framework, trained by radiologists' supervision, for automating FOV prescription. An intra-stack shared feature extraction network and an attention network are used to process a stack of 2D image inputs to generate output scalars defining the location of a rectangular region of interest (ROI). The attention mechanism is used to make the model focus on the small number of informative slices in a stack. Then the smallest FOV that makes the neural network predicted ROI free of aliasing is calculated by an algebraic operation derived from MR sampling theory. We retrospectively collected 595 cases between February 2018 and February 2022. The framework's performance is examined quantitatively with intersection over union (IoU) and pixel error on position, and qualitatively with a reader study. We use the t-test for comparing quantitative results from all models and a radiologist. The proposed model achieves an average IoU of 0.867 and average ROI position error of 9.06 out of 512 pixels on 80 test cases, significantly better (P<0.05) than two baseline models and not significantly different from a radiologist (P>0.12). Finally, the FOV given by the proposed framework achieves an acceptance rate of 92% from an experienced radiologist.
翻訳日:2022-11-10 17:43:07 公開日:2022-11-09
# データ収集における表情認識とゲーミフィケーションの解釈可能性

Interpretable Explainability in Facial Emotion Recognition and Gamification for Data Collection ( http://arxiv.org/abs/2211.04769v1 )

ライセンス: Link先を確認
Krist Shingjergji, Deniz Iren, Felix Bottger, Corrie Urlings, Roland Klemke(参考訳) 顔の感情認識モデルのトレーニングには、大量のデータと高価なアノテーションプロセスが必要です。 この問題を軽減するため,人間による明示的なラベル付けを行なわずに,注釈付き表情データを取得するゲーミフィケーション手法を開発した。 Facegameという名前のこのゲームは、プレイヤーに、特定の基本的な感情を表現する顔の表示イメージを模倣するよう挑戦する。 プレイヤーが再生する全てのラウンドは、ターゲットの表情の感情ラベルにアノテートされた一連の顔の特徴とランドマークからなる新しいデータを生成する。 このようなアプローチは、効果的に堅牢で持続可能な、継続的な機械学習トレーニングプロセスを生み出す。 情緒コンピューティングの分野へのいくつかの貢献を明らかにした実験により,facegameを評価した。 まず、ゲーム化されたデータ収集アプローチにより、プレイヤーの表情の自然な変化と表現能力により、基本感情の表情の豊富なバリエーションにアクセスすることが可能となった。 本報告では,収集したデータを用いて知名度の高い表情感情データセットを豊かにし,顔の感情認識モデルのトレーニングに連続して使用する場合の精度の向上を報告する。 第2に、顔ゲームで使用する自然言語処方法は、任意の顔感情認識モデルに適用可能な解釈可能な説明可能性の新しいアプローチを構成する。 最後に,繰り返しのゲームプレイを通じて,プレイヤーの表情知覚と表情スキルの大幅な改善が観察された。

Training facial emotion recognition models requires large sets of data and costly annotation processes. To alleviate this problem, we developed a gamified method of acquiring annotated facial emotion data without an explicit labeling effort by humans. The game, which we named Facegame, challenges the players to imitate a displayed image of a face that portrays a particular basic emotion. Every round played by the player creates new data that consists of a set of facial features and landmarks, already annotated with the emotion label of the target facial expression. Such an approach effectively creates a robust, sustainable, and continuous machine learning training process. We evaluated Facegame with an experiment that revealed several contributions to the field of affective computing. First, the gamified data collection approach allowed us to access a rich variation of facial expressions of each basic emotion due to the natural variations in the players' facial expressions and their expressive abilities. We report improved accuracy when the collected data were used to enrich well-known in-the-wild facial emotion datasets and consecutively used for training facial emotion recognition models. Second, the natural language prescription method used by the Facegame constitutes a novel approach for interpretable explainability that can be applied to any facial emotion recognition model. Finally, we observed significant improvements in the facial emotion perception and expression skills of the players through repeated game play.
翻訳日:2022-11-10 17:42:42 公開日:2022-11-09
# 新しい構造的不確実性尺度と誤差保持曲線:多発性硬化症への応用

Novel structural-scale uncertainty measures and error retention curves: application to multiple sclerosis ( http://arxiv.org/abs/2211.04825v1 )

ライセンス: Link先を確認
Nataliia Molchanova, Vatsal Raina, Andrey Malinin, Francesco La Rosa, Henning Muller, Mark Gales, Cristina Granziera, Mara Graziani, Meritxell Bach Cuadra(参考訳) 磁気共鳴画像(MRI)における白質病変(WML)セグメンテーションの不確実性の評価に焦点をあてる。 一方、ボクセルスケールのセグメンテーションエラーは、病変の誤行を引き起こすが、他方では、病変サイズの検出エラーは間違った病変数を引き起こす。 どちらの因子も多発性硬化症患者の診断に臨床的に有用である。 本研究の目的は,セグメンテーションと病変検出に関する誤りをそれぞれ捉えるために,異なるvoxeland病巣スケールの不確実性尺度の能力を比較することである。 私たちの主な貢献は 一 ボクセル規模の不確実性を利用しない病変規模不確実性の新しい措置を提案すること。 (ii)病変スケールの不確実性評価のための誤差保持曲線分析フレームワークの拡張 58例の多施設試験で得られた結果から, 提案した病変尺度は, 解析結果の中で最高の成績を示した。 すべてのコード実装はhttps://github.com/NataliiaMolch/MS_WML_uncsで提供される。

This paper focuses on the uncertainty estimation of white matter lesions (WML) segmentation in magnetic resonance imaging (MRI). On one side, voxel-scale segmentation errors cause the erroneous delineation of the lesions; on the other side, lesion-scale detection errors lead to wrong lesion counts. Both of these factors are clinically relevant for the assessment of multiple sclerosis patients. This work aims to compare the ability of different voxel- and lesion- scale uncertainty measures to capture errors related to segmentation and lesion detection respectively. Our main contributions are (i) proposing new measures of lesion-scale uncertainty that do not utilise voxel-scale uncertainties; (ii) extending an error retention curves analysis framework for evaluation of lesion-scale uncertainty measures. Our results obtained on the multi-center testing set of 58 patients demonstrate that the proposed lesion-scale measures achieves the best performance among the analysed measures. All code implementations are provided at https://github.com/NataliiaMolch/MS_WML_uncs
翻訳日:2022-11-10 17:42:21 公開日:2022-11-09
# 時系列モデリングによるトラッキングレスフリーハンド超音波の過去・未来への変換

Trackerless freehand ultrasound with sequence modelling and auxiliary transformation over past and future frames ( http://arxiv.org/abs/2211.04867v1 )

ライセンス: Link先を確認
Qi Li, Ziyi Shen, Qian Li, Dean C Barratt, Thomas Dowrick, Matthew J Clarkson, Tom Vercauteren, Yipeng Hu(参考訳) トラッカーのない3次元フリーハンド超音波(US)再建は、多くの臨床応用において、その2次元または追跡された超音波よりも有利である。 本稿では,フィードフォワードおよびリカレントニューラルネットワーク(rnns)を用いて,過去および将来の2次元画像からusフレーム間の3次元空間変換を推定する。 時間的に利用可能なフレームでは、さらに多タスク学習アルゴリズムが提案され、それらの間に多数の補助的な変換予測タスクが利用できる。 ボランティア実験では,19名のボランティアの38名の前腕で228個のスキャンから得られた4万フレーム以上を用いて,フレーム予測精度,ボリューム再構成重ね合わせ,累積追跡誤差,最終ドリフトによりホールドアウトテスト性能を定量化した。 以上の結果から, 時間分布に関連付けられた入力フレームと出力変換のモデル化の重要性が示され, 過去および/または将来のフレームの追加によるさらなる改善が示唆された。 最良性能モデルは,20フレーム/秒 (fps) で10フレーム未満の間隔で,適度な間隔のフレーム間の変換を予測することに関連していた。 LSTMベースのRNNの有無にかかわらず、予測された変換から1秒以上離れたフレームを追加することで、ほとんど利益が得られなかった。 興味深いことに、提案手法では、変換や蓄積エラーの最小化において整合性を促進する明示的なシーケンス内損失はもはや不要である。 実施コードとボランティアデータを公開し、再現性を確保し、さらなる研究を行う。

Three-dimensional (3D) freehand ultrasound (US) reconstruction without a tracker can be advantageous over its two-dimensional or tracked counterparts in many clinical applications. In this paper, we propose to estimate 3D spatial transformation between US frames from both past and future 2D images, using feed-forward and recurrent neural networks (RNNs). With the temporally available frames, a further multi-task learning algorithm is proposed to utilise a large number of auxiliary transformation-predicting tasks between them. Using more than 40,000 US frames acquired from 228 scans on 38 forearms of 19 volunteers in a volunteer study, the hold-out test performance is quantified by frame prediction accuracy, volume reconstruction overlap, accumulated tracking error and final drift, based on ground-truth from an optical tracker. The results show the importance of modelling the temporal-spatially correlated input frames as well as output transformations, with further improvement owing to additional past and/or future frames. The best performing model was associated with predicting transformation between moderately-spaced frames, with an interval of less than ten frames at 20 frames per second (fps). Little benefit was observed by adding frames more than one second away from the predicted transformation, with or without LSTM-based RNNs. Interestingly, with the proposed approach, explicit within-sequence loss that encourages consistency in composing transformations or minimises accumulated error may no longer be required. The implementation code and volunteer data will be made publicly available ensuring reproducibility and further research.
翻訳日:2022-11-10 17:42:06 公開日:2022-11-09
# 性能低下を伴うpalmprintテンプレート保護のための複合固定長順序化機能

Composite Fixed-Length Ordered Features for Palmprint Template Protection with Diminished Performance Loss ( http://arxiv.org/abs/2211.04884v1 )

ライセンス: Link先を確認
Weiqiang Zhao, Heng Zhao, Zhicheng Cao, and Liaojun Pang(参考訳) パームプリント認識は、指紋などの他のバイオメトリック・モダリティよりも、面積が大きく、情報に富み、離れたところで働くことができるという利点により、ますます人気が高まっている。 しかし、palmprintのプライバシーとセキュリティの問題(特にpalmprintのテンプレート保護)は未検討のままである。 ごくわずかな研究成果の中で、そのほとんどは、変換処理によるパームプリントの方向と方向の特徴のみを使用し、不満足な保護と識別性能をもたらす。 そこで本稿では,点特徴と向き特徴を融合させることにより,長さが一定で自然に順序付けられたヤシプリントテンプレート保護指向演算子を提案する。 まず、MFRATに基づいて、より正確に二重方向を抽出する。 そして、SURFのキーポイントを抽出し、固定長および順序特徴に変換する。 最後に、両方向とSURF点を融合する複合的特徴を、IOMの可逆変換を用いて変換し、取り消し可能なパームプリントテンプレートを生成する。 実験の結果,ポリUおよびCASIAデータベース上での非可逆変換後のEERは0.17%, 0.19%であり, 絶対精度損失は0.08%, 0.07%であった。

Palmprint recognition has become more and more popular due to its advantages over other biometric modalities such as fingerprint, in that it is larger in area, richer in information and able to work at a distance. However, the issue of palmprint privacy and security (especially palmprint template protection) remains under-studied. Among the very few research works, most of them only use the directional and orientation features of the palmprint with transformation processing, yielding unsatisfactory protection and identification performance. Thus, this paper proposes a palmprint template protection-oriented operator that has a fixed length and is ordered in nature, by fusing point features and orientation features. Firstly, double orientations are extracted with more accuracy based on MFRAT. Then key points of SURF are extracted and converted to be fixed-length and ordered features. Finally, composite features that fuse up the double orientations and SURF points are transformed using the irreversible transformation of IOM to generate the revocable palmprint template. Experiments show that the EER after irreversible transformation on the PolyU and CASIA databases are 0.17% and 0.19% respectively, and the absolute precision loss is 0.08% and 0.07%, respectively, which proves the advantage of our method.
翻訳日:2022-11-10 17:41:40 公開日:2022-11-09
# バイナリ分類モデルからの脳腫瘍ROI抽出のための最適グローバル摂動攻撃

Optimized Global Perturbation Attacks For Brain Tumour ROI Extraction From Binary Classification Models ( http://arxiv.org/abs/2211.04926v1 )

ライセンス: Link先を確認
Sajith Rajapaksa, Farzad Khalvati(参考訳) ディープラーニング技術はコンピュータ支援診断システムに大きな恩恵を受けている。 しかし, 医用画像では, 手動アノテーションやプライバシー規制のコストが高いため, 3次元腫瘍セグメンテーションなどの大きな細粒度アノテートデータセットの取得が困難である。 これは、弱いラベル付きデータを腫瘍のセグメンテーションに利用する弱い監督手法に関心を寄せている。 本研究では,バイナリクラスラベルを用いた関心領域獲得のための弱教師付きアプローチを提案する。 さらに,事前訓練された二項分類モデルに基づいて生成モデルを学習する目的関数を提案する。 最後に,MRIにおける脳腫瘍のセグメンテーション問題に本手法を適用した。

Deep learning techniques have greatly benefited computer-aided diagnostic systems. However, unlike other fields, in medical imaging, acquiring large fine-grained annotated datasets such as 3D tumour segmentation is challenging due to the high cost of manual annotation and privacy regulations. This has given interest to weakly-supervise methods to utilize the weakly labelled data for tumour segmentation. In this work, we propose a weakly supervised approach to obtain regions of interest using binary class labels. Furthermore, we propose a novel objective function to train the generator model based on a pretrained binary classification model. Finally, we apply our method to the brain tumour segmentation problem in MRI.
翻訳日:2022-11-10 17:41:18 公開日:2022-11-09
# 距離から依存性へ:フル参照画像品質評価のパラダイムシフト

From Distance to Dependency: A Paradigm Shift of Full-reference Image Quality Assessment ( http://arxiv.org/abs/2211.04927v1 )

ライセンス: Link先を確認
Hanwei Zhu, Baoliang Chen, Lingyu Zhu and Shiqi Wang(参考訳) ディープラーニングに基づくフルリファレンス画像品質評価(FR-IQA)モデルは通常、参照画像と歪んだ画像との間の特徴距離に依存する。 しかし、深い特徴領域における距離が品質劣化を定量化できるというこれらのモデルの基本的な仮定は、特にニューラルネットワークによって画像が人工的に生成される場合、科学的に不変なテクスチャ知覚と一致しない。 本稿では,学習機能を用いた品質推定に急進的なシフトをもたらし,深層画像依存性(did)に基づくfr-iqaモデルを提案する。 特徴依存性は、参照画像とテスト画像からの特徴の連成分布と、その辺縁分布を特徴とするブラウン距離共分散と高次的に深層学習特徴の比較を容易にする。 これにより、特徴空間における数値誤差の計算をはるかに超える非線形変換に対する特徴依存性の定量化が可能になる。 画像品質予測,テクスチャ画像類似性,幾何学的不変性の実験により,提案手法の優れた性能が検証された。

Deep learning-based full-reference image quality assessment (FR-IQA) models typically rely on the feature distance between the reference and distorted images. However, the underlying assumption of these models that the distance in the deep feature domain could quantify the quality degradation does not scientifically align with the invariant texture perception, especially when the images are generated artificially by neural networks. In this paper, we bring a radical shift in inferring the quality with learned features and propose the Deep Image Dependency (DID) based FR-IQA model. The feature dependency facilitates the comparisons of deep learning features in a high-order manner with Brownian distance covariance, which is characterized by the joint distribution of the features from reference and test images, as well as their marginal distributions. This enables the quantification of the feature dependency against nonlinear transformation, which is far beyond the computation of the numerical errors in the feature space. Experiments on image quality prediction, texture image similarity, and geometric invariance validate the superior performance of our proposed measure.
翻訳日:2022-11-10 17:41:08 公開日:2022-11-09
# 過渡ヒストグラムによる3次元シーン推定

3D Scene Inference from Transient Histograms ( http://arxiv.org/abs/2211.05094v1 )

ライセンス: Link先を確認
Sacha Jungerman, Atul Ingle, Yin Li, and Mohit Gupta(参考訳) ピコ秒からナノ秒のタイムスケールで光を捉えるタイムリゾルドイメージセンサーは、かつてニッチなアプリケーションに限られていたが、消費者デバイスでは急速に主流になりつつある。 我々は,最小時間分解画像センサからシーン情報を1ピクセルでキャプチャする,低コストで低消費電力の画像モダリティを提案する。 鍵となるアイデアは、大きなシーンパッチ(またはシーン全体)にパルス光源を照射し、照明領域全体を統合することで時間分解された反射光を測定することである。 1次元計測された時間波形は「emph{transient}」と呼ばれ、すべての視覚的なシーンポイントにおいて距離とアルベドの両方を符号化する。 従来のRGBカメラと組み合わさった場合、シーン情報を復元するために、トランスジェント波形の生存可能性と限界を自ら検討する。 本研究では,一過性から平面推定を行うことができ,さらに数秒で全体像の深度マップを復元できることを示す。 また,コンパクト,モバイル,予算制限付きアプリケーションに対する我々のアプローチが実現可能であることを示す2つの概念実証ハードウェアプロトタイプを示す。

Time-resolved image sensors that capture light at pico-to-nanosecond timescales were once limited to niche applications but are now rapidly becoming mainstream in consumer devices. We propose low-cost and low-power imaging modalities that capture scene information from minimal time-resolved image sensors with as few as one pixel. The key idea is to flood illuminate large scene patches (or the entire scene) with a pulsed light source and measure the time-resolved reflected light by integrating over the entire illuminated area. The one-dimensional measured temporal waveform, called \emph{transient}, encodes both distances and albedoes at all visible scene points and as such is an aggregate proxy for the scene's 3D geometry. We explore the viability and limitations of the transient waveforms by themselves for recovering scene information, and also when combined with traditional RGB cameras. We show that plane estimation can be performed from a single transient and that using only a few more it is possible to recover a depth map of the whole scene. We also show two proof-of-concept hardware prototypes that demonstrate the feasibility of our approach for compact, mobile, and budget-limited applications.
翻訳日:2022-11-10 17:40:51 公開日:2022-11-09
# RL-DWA全方向移動計画 : 家庭支援・監視における追従者に対する検討

RL-DWA Omnidirectional Motion Planning for Person Following in Domestic Assistance and Monitoring ( http://arxiv.org/abs/2211.04993v1 )

ライセンス: Link先を確認
Andrea Eirale, Mauro Martini, Marcello Chiaberge(参考訳) ロボットアシスタントは、日常生活の人々を支援するハイテクソリューションとして登場しつつある。 家庭環境における利用者の追跡・支援には, 空間を安全に移動するためには柔軟な移動が必要である。 支援と監視のためにフォローする人に新しいアプローチを導入する。 本手法は,全方向ロボットプラットフォームを用いて,線形および角速度の計算を分離し,支援者の追跡を損なうことなく,国内環境内を走行する。 線形速度は従来の動的ウィンドウアプローチ(DWA)ローカルプランナーによって管理されるが、我々は、最適化された角速度コマンドを予測し、ロボットのユーザに対する向きを維持するために、深層強化学習(DRL)エージェントを訓練した。 各種屋内シナリオにおける実際の全方向プラットフォーム上でのナビゲーションシステムの評価を行い,標準の差動ステアリングと比較して,ソリューションの競争上の優位性を実証した。

Robot assistants are emerging as high-tech solutions to support people in everyday life. Following and assisting the user in the domestic environment requires flexible mobility to safely move in cluttered spaces. We introduce a new approach to person following for assistance and monitoring. Our methodology exploits an omnidirectional robotic platform to detach the computation of linear and angular velocities and navigate within the domestic environment without losing track of the assisted person. While linear velocities are managed by a conventional Dynamic Window Approach (DWA) local planner, we trained a Deep Reinforcement Learning (DRL) agent to predict optimized angular velocities commands and maintain the orientation of the robot towards the user. We evaluate our navigation system on a real omnidirectional platform in various indoor scenarios, demonstrating the competitive advantage of our solution compared to a standard differential steering following.
翻訳日:2022-11-10 17:33:43 公開日:2022-11-09
# マクロ経済学とファイナンスのための強化ベイズニューラルネットワーク

Enhanced Bayesian Neural Networks for Macroeconomics and Finance ( http://arxiv.org/abs/2211.04752v1 )

ライセンス: Link先を確認
Niko Hauzenberger, Florian Huber, Karin Klieber, Massimiliano Marcellino(参考訳) 我々は、(おそらく大きな)マクロ経済・金融変数の一般的な非線形性と時間変動をモデル化できるベイズニューラルネットワーク(BNN)を開発した。 方法論的な観点から、高密度またはスパースなデータセットに適用可能なネットワークの一般的な仕様化を可能にし、様々な活性化関数、おそらく非常に多くのニューロン、エラー項に対する確率的ボラティリティ(SV)を組み合わせた。 計算の観点からは,提案する一般bnnの高速かつ効率的な推定アルゴリズムを開発した。 実証的な観点からは、シミュレーションデータと共通のマクロ・ファイナンシャル・アプリケーションの両方を用いて、特に対象変数の断面分布や時系列分布の尾部での観測において、bnnが実用的な利用が可能であることを示す。

We develop Bayesian neural networks (BNNs) that permit to model generic nonlinearities and time variation for (possibly large sets of) macroeconomic and financial variables. From a methodological point of view, we allow for a general specification of networks that can be applied to either dense or sparse datasets, and combines various activation functions, a possibly very large number of neurons, and stochastic volatility (SV) for the error term. From a computational point of view, we develop fast and efficient estimation algorithms for the general BNNs we introduce. From an empirical point of view, we show both with simulated data and with a set of common macro and financial applications that our BNNs can be of practical use, particularly so for observations in the tails of the cross-sectional or time series distributions of the target variables.
翻訳日:2022-11-10 17:33:28 公開日:2022-11-09
# 音声認識のための非ターゲット領域データによる雑音学習の改善

Improving Noisy Student Training on Non-target Domain Data for Automatic Speech Recognition ( http://arxiv.org/abs/2211.04717v1 )

ライセンス: Link先を確認
Yu Chen, Wen Ding, Junjie Lai(参考訳) 雑音学習(NST)は,最近,音声認識(ASR)において極めて高い性能を示した。 本稿では,ALRタスクにおける非ターゲット領域データに対するNSTの性能を改善するため,LMフィルタというデータ選択手法を提案する。 言語モデルの有無に関わらず仮説を生成し、それらの間のcer差をフィルタしきい値として利用する。 その結果、データフィルタリングベースラインを使わずに10.4%の大幅な改善が見られた。 AISHELL-1テストセットでは3.31%のCERが達成できます。 また、教師付き1000時間AISHELL-2データセットの評価を行い、4.72%のCERの競合結果を得ることができた。

Noisy Student Training (NST) has recently demonstrated extremely strong performance in Automatic Speech Recognition (ASR). In this paper, we propose a data selection strategy named LM Filter to improve the performances of NST on non-target domain data in ASR tasks. Hypothesis with and without Language Model are generated and CER differences between them are utilized as a filter threshold. Results reveal that significant improvements of 10.4% compared with no data filtering baselines. We can achieve 3.31% CER in AISHELL-1 test set, which is best result from our knowledge without any other supervised data. We also perform evaluations on supervised 1000 hour AISHELL-2 dataset and competitive results of 4.72% CER can be achieved.
翻訳日:2022-11-10 17:32:59 公開日:2022-11-09
# 会話における分布に基づく感情認識

Distribution-based Emotion Recognition in Conversation ( http://arxiv.org/abs/2211.04834v1 )

ライセンス: Link先を確認
Wen Wu, Chao Zhang, Philip C. Woodland(参考訳) 会話における自動感情認識(ERC)は、感情認識型会話人工知能にとって不可欠である。 本稿では,感情分布推定のためのシーケンス・ツー・シーケンス問題としてERCを定式化する分布ベースフレームワークを提案する。 感情の本来のあいまいさと人間の知覚の主観性は、感情分布の不確実性推定の観点から、我々の枠組みにおいて自然に扱われる感情ラベルの相違につながる。 発話特異的ディリクレ事前分布に各感情状態を条件付けして不確実性推定を改善するためにベイズ訓練損失を導入する。 IEMOCAPデータセットによる実験結果から,ERCは単一発話に基づくシステムよりも優れており,提案手法は分類精度が向上するだけでなく,不確実性の評価も改善していることがわかった。

Automatic emotion recognition in conversation (ERC) is crucial for emotion-aware conversational artificial intelligence. This paper proposes a distribution-based framework that formulates ERC as a sequence-to-sequence problem for emotion distribution estimation. The inherent ambiguity of emotions and the subjectivity of human perception lead to disagreements in emotion labels, which is handled naturally in our framework from the perspective of uncertainty estimation in emotion distributions. A Bayesian training loss is introduced to improve the uncertainty estimation by conditioning each emotional state on an utterance-specific Dirichlet prior distribution. Experimental results on the IEMOCAP dataset show that ERC outperformed the single-utterance-based system, and the proposed distribution-based ERC methods have not only better classification accuracy, but also show improved uncertainty estimation.
翻訳日:2022-11-10 17:32:50 公開日:2022-11-09
# 事前学習モデルを用いた効率的な音声翻訳

Efficient Speech Translation with Pre-trained Models ( http://arxiv.org/abs/2211.04939v1 )

ライセンス: Link先を確認
Zhaolin Li, Jan Niehues(参考訳) 最先端の音声翻訳モデルを構築する場合、大規模なトレーニングデータサイズと複雑なモデルのため、大規模な計算リソースの必要性は大きな障害となる。 事前学習されたモデルの可用性は、強力な音声翻訳システムを効率的に構築する有望な機会である。 まず,事前学習モデルに基づくケースドとエンド・ツー・エンドの音声翻訳システムを構築するための効率的な手法を検討する。 この戦略を使うことで、1つのGPUでモデルをトレーニングし、適用することができます。 エンドツーエンドモデルはカスケードモデルよりも優れた翻訳性能を示すが、この技術の適用は、追加のエンドツーエンドトレーニングデータの必要性に制限がある。 第2のステップでは、モデルに類似した音声や文字起こしの隠蔽表現を生成するよう促すために、追加の類似性損失を提案する。 この手法を用いることで、エンドツーエンドのトレーニングデータに制限のあるシナリオにおいて、データ効率を向上し、翻訳品質を6点向上することができる。

When building state-of-the-art speech translation models, the need for large computational resources is a significant obstacle due to the large training data size and complex models. The availability of pre-trained models is a promising opportunity to build strong speech translation systems efficiently. In a first step, we investigate efficient strategies to build cascaded and end-to-end speech translation systems based on pre-trained models. Using this strategy, we can train and apply the models on a single GPU. While the end-to-end models show superior translation performance to cascaded ones, the application of this technology has a limitation on the need for additional end-to-end training data. In a second step, we proposed an additional similarity loss to encourage the model to generate similar hidden representations for speech and transcript. Using this technique, we can increase the data efficiency and improve the translation quality by 6 BLEU points in scenarios with limited end-to-end training data.
翻訳日:2022-11-10 17:32:36 公開日:2022-11-09
# 偶然学習者:多言語自己教師モデルにおける言語識別

Accidental Learners: Spoken Language Identification in Multilingual Self-Supervised Models ( http://arxiv.org/abs/2211.05103v1 )

ライセンス: Link先を確認
Travis M. Bartley, Fei Jia, Krishna C. Puvvada, Samuel Kriman, and Boris Ginsburg(参考訳) 本稿では,多言語事前学習パラダイムにおける適合型アーキテクチャを実験し,言語識別のための従来の自己教師ありアプローチを拡張する。 事前学習した音声モデルは下層における言語識別情報を最適に符号化する。 さらに,これらの層から得られた埋め込みは,追加の学習をすることなく,未知の言語や異なる音響環境を分類する上で極めて頑健であることを示す。 VoxLingua107データセット上で事前学習したコンバータモデルを微調整した後、言語識別のための現在の最先端システムと同様の結果が得られる。 さらに、我々のモデルは5倍のパラメータでこれを達成する。 NVIDIA NeMoツールキットを通じてモデルをオープンソースにしています。

In this paper, we extend previous self-supervised approaches for language identification by experimenting with Conformer based architecture in a multilingual pre-training paradigm. We find that pre-trained speech models optimally encode language discriminatory information in lower layers. Further, we demonstrate that the embeddings obtained from these layers are significantly robust to classify unseen languages and different acoustic environments without additional training. After fine-tuning a pre-trained Conformer model on the VoxLingua107 dataset, we achieve results similar to current state-of-the-art systems for language identification. More, our model accomplishes this with 5x less parameters. We open-source the model through the NVIDIA NeMo toolkit.
翻訳日:2022-11-10 17:32:20 公開日:2022-11-09
# 複数の病理組織学的アノテーションに基づく教師あり学習を用いたHER2乳癌生検のゴールドスタンダード

Gold-standard of HER2 breast cancer biopsies using supervised learning based on multiple pathologist annotations ( http://arxiv.org/abs/2211.04649v1 )

ライセンス: Link先を確認
Benjam\'in Hern\'andez and Violeta Chang(参考訳) 乳癌は世界でも最も多いがんの1つである。 診断のために、病理学者は生検で抽出された組織上の免疫組織化学を用いてher2タンパク質などのバイオマーカーを評価する。 顕微鏡検査により、この評価は膜細胞の染色の強度と完全性を推定し、標本を0, 1+, 2+, 3+とスコア付けする: 病理学者の解釈に依存する主観的な決定である。 本論文は,20倍の倍率と1,252ドルの非重複生検パッチを含む同じ試料群に対して,3人の病理医のアノテーションに関する予備的データ解析を行った。 われわれは,FleissのKappa係数に基づき,HER2乳がん生検ゴールドスタンダードの創出に向けて,複数の病理組織から指導的学習を施した前段階として,実質的および適度な一致を達成できる試験内および試験間変動を評価した。

Breast cancer is one of the most common cancer in women around the world. For diagnosis, pathologists evaluate biomarkers such as HER2 protein using immunohistochemistry over tissue extracted by a biopsy. Through microscopic inspection, this assessment estimates the intensity and integrity of the membrane cells' staining and scores the sample as 0, 1+, 2+, or 3+: a subjective decision that depends on the interpretation of the pathologist. This paper presents the preliminary data analysis of the annotations of three pathologists over the same set of samples obtained using 20x magnification and including $1,252$ non-overlapping biopsy patches. We evaluate the intra- and inter-expert variability achieving substantial and moderate agreement, respectively, according to Fleiss' Kappa coefficient, as a previous stage towards a generation of a HER2 breast cancer biopsy gold-standard using supervised learning from multiple pathologist annotations.
翻訳日:2022-11-10 17:31:47 公開日:2022-11-09
# MFDNet: モバイルデバイスでのリアルタイム画像デノーミングを目指す

MFDNet: Towards Real-time Image Denoising On Mobile Devices ( http://arxiv.org/abs/2211.04687v1 )

ライセンス: Link先を確認
Zhuoqun Liu and Meiguang Jin and Ying Chen and Huaida Liu and Canqian Yang and Hongkai Xiong(参考訳) 深層畳み込みニューラルネットワークは、画像復調タスクにおいて大きな進歩を遂げている。 しかし、複雑なアーキテクチャと計算コストにより、モバイルデバイスへのデプロイが妨げられる。 軽量デノゲーションネットワークの設計における最近の取り組みは、FLOP(floating-point operation)の削減とパラメータ数の削減に重点を置いている。 しかしながら、これらのメトリクスはデバイス上のレイテンシに直接相関しない。 広範な分析と実験を行うことで、強力なニューラルプロセッシングユニット(npus)を十分に活用できるネットワークアーキテクチャを特定し、低レイテンシと優れたノイズ処理性能の両方を享受する。 そこで本稿では,モバイルフレンドリーなデノベーションネットワークであるMFDNetを提案する。 実験の結果,mfdnetはリアルタイム遅延下でsiddとdndのリアルタイムデノイジングベンチマークで最先端のパフォーマンスを達成していることがわかった。 コードと事前訓練されたモデルがリリースされる。

Deep convolutional neural networks have achieved great progress in image denoising tasks. However, their complicated architectures and heavy computational cost hinder their deployments on a mobile device. Some recent efforts in designing lightweight denoising networks focus on reducing either FLOPs (floating-point operations) or the number of parameters. However, these metrics are not directly correlated with the on-device latency. By performing extensive analysis and experiments, we identify the network architectures that can fully utilize powerful neural processing units (NPUs) and thus enjoy both low latency and excellent denoising performance. To this end, we propose a mobile-friendly denoising network, namely MFDNet. The experiments show that MFDNet achieves state-of-the-art performance on real-world denoising benchmarks SIDD and DND under real-time latency on mobile devices. The code and pre-trained models will be released.
翻訳日:2022-11-10 17:31:28 公開日:2022-11-09
# pythonでラングするミニマリストデータ

Minimalist Data Wrangling with Python ( http://arxiv.org/abs/2211.04630v1 )

ライセンス: Link先を確認
Marek Gagolewski(参考訳) pythonによるミニマリストデータラングは、学生の最初のデータサイエンス入門として見なされ、ハイレベルな概要と重要な概念を詳細に論じている。 本研究では,異なるソースから収集したデータのクリーニング,変換,選択,特徴抽出,探索的データ解析,次元削減,自然発生データクラスタの同定,データのモデリング,グループ間のデータ比較,結果の報告などについて検討する。 この教科書は非営利プロジェクトです。 オンライン版とPDF版はhttps://datawranglingpy.gagolewski.com/で無料で入手できる。

Minimalist Data Wrangling with Python is envisaged as a student's first introduction to data science, providing a high-level overview as well as discussing key concepts in detail. We explore methods for cleaning data gathered from different sources, transforming, selecting, and extracting features, performing exploratory data analysis and dimensionality reduction, identifying naturally occurring data clusters, modelling patterns in data, comparing data between groups, and reporting the results. This textbook is a non-profit project. Its online and PDF versions are freely available at https://datawranglingpy.gagolewski.com/.
翻訳日:2022-11-10 17:24:30 公開日:2022-11-09
# 領域特徴量を用いた分布シフト適応

Distributional Shift Adaptation using Domain-Specific Features ( http://arxiv.org/abs/2211.04670v1 )

ライセンス: Link先を確認
Anique Tahir, Lu Cheng, Ruocheng Guo and Huan Liu(参考訳) 機械学習アルゴリズムは典型的には、トレーニングとテストサンプルは同じ分布、すなわち分布内から来ていると仮定する。 しかし、オープンワールドのシナリオでは、ビッグデータのストリーミングは分散(ood)外になり、これらのアルゴリズムは非効率になる。 OODチャレンジの以前のソリューションは、異なるトレーニングドメイン間で不変の機能を識別しようとしていた。 基本的な前提は、これらの不変機能はラベルなしのターゲットドメインでも合理的に機能するべきである、ということである。 対照的に、この研究は、不変な特徴と対象ドメイン特有の特徴の両方を含むドメイン固有の機能に興味を持っている。 我々は,その特徴が不変であるか否かに関わらず,一般の相関に依存する単純かつ効果的なアプローチを提案する。 提案手法では,OODベースモデル(教師モデル)によって同定された最も確実なサンプルを用いて,対象領域に効果的に適応する新しいモデル(学生モデル)を訓練する。 ベンチマークデータセットの実証評価では、SOTA上でのパフォーマンスが約10-20%向上している。

Machine learning algorithms typically assume that the training and test samples come from the same distributions, i.e., in-distribution. However, in open-world scenarios, streaming big data can be Out-Of-Distribution (OOD), rendering these algorithms ineffective. Prior solutions to the OOD challenge seek to identify invariant features across different training domains. The underlying assumption is that these invariant features should also work reasonably well in the unlabeled target domain. By contrast, this work is interested in the domain-specific features that include both invariant features and features unique to the target domain. We propose a simple yet effective approach that relies on correlations in general regardless of whether the features are invariant or not. Our approach uses the most confidently predicted samples identified by an OOD base model (teacher model) to train a new model (student model) that effectively adapts to the target domain. Empirical evaluations on benchmark datasets show that the performance is improved over the SOTA by ~10-20%
翻訳日:2022-11-10 17:24:19 公開日:2022-11-09
# 連合学習のための知識蒸留:実践的指導

Knowledge Distillation for Federated Learning: a Practical Guide ( http://arxiv.org/abs/2211.04742v1 )

ライセンス: Link先を確認
Alessio Mora, Irene Tenison, Paolo Bellavista, Irina Rish(参考訳) federated learning (fl)は、センシティブな生データを集中的に収集することなく、ディープラーニングモデルのトレーニングを可能にする。 これにより、予測モデルを構築する際のプライバシー保証が強化される。 flの最もよく使われるアルゴリズムはパラメータ平均化に基づくスキーム(例えば、フェデレーション平均化)であるが、よく知られた制限がある。 (i)クライアントは同じモデルアーキテクチャを実装しなければならない。 二 モデル重み及びモデル更新の伝達は、モデルパラメータの数に応じてスケールアップする高い通信コストを暗示する。 3) 非IIDデータ分布の存在下では,クライアントモデルドリフトによるパラメータ蓄積アグリゲーション方式は不十分である。 正規知識蒸留(regular knowledge distillation, kd)の連合適応は、パラメータ平均flアルゴリズムの弱点を解き、あるいは緩和し、他のトレードオフを導入することができる。 本稿では,特定のFL問題に適したKDベースのアルゴリズムについて概説する。

Federated Learning (FL) enables the training of Deep Learning models without centrally collecting possibly sensitive raw data. This paves the way for stronger privacy guarantees when building predictive models. The most used algorithms for FL are parameter-averaging based schemes (e.g., Federated Averaging) that, however, have well known limits: (i) Clients must implement the same model architecture; (ii) Transmitting model weights and model updates implies high communication cost, which scales up with the number of model parameters; (iii) In presence of non-IID data distributions, parameter-averaging aggregation schemes perform poorly due to client model drifts. Federated adaptations of regular Knowledge Distillation (KD) can solve and/or mitigate the weaknesses of parameter-averaging FL algorithms while possibly introducing other trade-offs. In this article, we provide a review of KD-based algorithms tailored for specific FL issues.
翻訳日:2022-11-10 17:24:01 公開日:2022-11-09
# 構文対応オンザフライコード補完

Syntax-Aware On-the-Fly Code Completion ( http://arxiv.org/abs/2211.04673v1 )

ライセンス: Link先を確認
Wannita Takerngsaksiri, Chakkrit Tantithamthavorn, and Yuan-Fang Li(参考訳) コード補完は、与えられたコンテキストから次のコードトークンを提案することで、開発者の生産性を向上させることを目的としている。 モデルトレーニングにabstract syntax tree(ast)情報を組み込むことで、コード補完がプログラミング言語の構文を認識することを保証する様々なアプローチが提案されている。 しかし、既存の構文を意識したコード補完アプローチは、開発者がタイプするキャラクタの3分の2ごとに、ASTは構文的に正しいソースコードを必要とするため、実際のシナリオでの実用性を制限するため、抽出できません。 一方、既存のオンザフライのコード補完はまだ構文情報を考慮していない。 本稿では,ソースコードの自然な順序と容易に対応可能な,軽量な構文情報の一種であるトークン型を活用するために,pycoderを提案する。 私たちのPyCoderはマルチタスクのトレーニング方法でトレーニングされており、トレーニングフェーズ中にトークンタイプを予測するサポートタスクを学ぶことで、推論フェーズでトークンタイプを必要とせずにトークンやコード行を予測する上で、より優れたパフォーマンスを実現します。 総合的な実験により、pycoder は 77.12% の精度で codexglue leaderboard の第一ランクを達成し、これはベースラインよりも 0.43%-24.25% 正確である。 さらに、PyCoderは、ベースラインよりも3.63%-84.73%正確であるラインレベルの予測に対して43.37%の精度で一致している。 これらの結果から,過去にはほとんど使われなかったトークン型情報(構文情報に代わるもの)は,ASTベースのアプローチのような構文的に正しいソースコードを必要とすることなく,コード補完アプローチの性能を大幅に向上させることができる,という結論に至った。 私たちのPyCoderはHuggingFaceで公開されています。

Code completion aims to help improve developers' productivity by suggesting the next code tokens from a given context. Various approaches have been proposed to incorporate abstract syntax tree (AST) information for model training, ensuring that code completion is aware of the syntax of the programming languages. However, existing syntax-aware code completion approaches are not on-the-fly, as we found that for every two-thirds of characters that developers type, AST fails to be extracted because it requires the syntactically correct source code, limiting its practicality in real-world scenarios. On the other hand, existing on-the-fly code completion does not consider syntactic information yet. In this paper, we propose PyCoder to leverage token types, a kind of lightweight syntactic information, which is readily available and aligns with the natural order of source code. Our PyCoder is trained in a multi-task training manner so that by learning the supporting task of predicting token types during the training phase, the models achieve better performance on predicting tokens and lines of code without the need for token types in the inference phase. Comprehensive experiments show that PyCoder achieves the first rank on the CodeXGLUE leaderboard with an accuracy of 77.12% for the token-level predictions, which is 0.43%-24.25% more accurate than baselines. In addition, PyCoder achieves an exact match of 43.37% for the line-level predictions, which is 3.63%-84.73% more accurate than baselines. These results lead us to conclude that token type information (an alternative to syntactic information) that is rarely used in the past can greatly improve the performance of code completion approaches, without requiring the syntactically correct source code like AST-based approaches do. Our PyCoder is publicly available on HuggingFace.
翻訳日:2022-11-10 17:23:27 公開日:2022-11-09
# 認知機能低下における定量的感受性マッピング : 技術的側面と応用

Quantitative Susceptibility Mapping in Cognitive Decline: A Review of Technical Aspects and Applications ( http://arxiv.org/abs/2211.04764v1 )

ライセンス: Link先を確認
Shradha Verma, Tripti Goel, and M Tanveer(参考訳) ヒト脳では、適切な神経機能に必須の鉄分子がトランスファーリン(tf)およびフェリチン(Fe3)形に存在する。 しかし、その異常な増加は過酸化水素と反応する鉄の過剰を示す。 この反応はヒドロキシルラジカルを生成し、鉄はより高い酸化状態を引き起こす。 さらに、この反応は脳の組織損傷や認知機能低下を引き起こし、また神経変性疾患を引き起こす。 関心量(VOI)内での鉄過負荷による感受性差はMRIの磁場摂動に寄与し、神経障害の推定に有用である。 定量的感受性マッピング(qsm)技術は、感受性変化を推定し、局所組織感受性差の定量化を支援する。 多くの研究者や臨床医がパーキンソン病、アルツハイマー病、多発性硬化症、老化などの神経疾患を診断し、発見している。 本稿では,QSMの基礎とその処理手順について,位相アンラッピング,バックグラウンドフィールド除去,感受性インバージョンなど,体系的な考察を行った。 本研究は、QSMを用いて、様々な神経障害に対する新しい予測バイオマーカーを提供する。 新たな研究者の基本的な知識を強化し、認知低下開示の適用性に関する洞察を提供する。 本稿では、QSMプロセッシングステージの将来範囲とその神経障害に対する新しいバイオマーカー同定への応用について論じる。

In the human brain, essential iron molecules for proper neurological functioning exist in transferrin (tf) and ferritin (Fe3) forms. However, its unusual increment manifests iron overload, which reacts with hydrogen peroxide. This reaction will generate hydroxyl radicals, and irons higher oxidation states. Further, this reaction causes tissue damage or cognitive decline in the brain and also leads to neurodegenerative diseases. The susceptibility difference due to iron overload within the volume of interest (VOI) responsible for field perturbation of MRI and can benefit in estimating the neural disorder. The quantitative susceptibility mapping (QSM) technique can estimate susceptibility alteration and assist in quantifying the local tissue susceptibility differences. It has attracted many researchers and clinicians to diagnose and detect neural disorders such as Parkinsons, Alzheimers, Multiple Sclerosis, and aging. The paper presents a systematic review illustrating QSM fundamentals and its processing steps, including phase unwrapping, background field removal, and susceptibility inversion. Using QSM, the present work delivers novel predictive biomarkers for various neural disorders. It can strengthen new researchers fundamental knowledge and provides insight into its applicability for cognitive decline disclosure. The paper discusses the future scope of QSM processing stages and their applications in identifying new biomarkers for neural disorders.
翻訳日:2022-11-10 17:22:55 公開日:2022-11-09
# 単例による強化学習における逐次学習の活用

Leveraging Sequentiality in Reinforcement Learning from a Single Demonstration ( http://arxiv.org/abs/2211.04786v1 )

ライセンス: Link先を確認
Alexandre Chenu, Olivier Serris, Olivier Sigaud and Nicolas Perrin-Gilbert(参考訳) 深層強化学習はロボット制御の学習に成功している。 しかし、エージェントが複雑なタスクを完了した後のみ報酬を受ける問題に適用した場合、対応するアルゴリズムは苦労する。 この文脈では、デモを使用することで学習プロセスが大幅にスピードアップするが、デモの獲得にはコストがかかる。 本稿では,複雑なロボットタスクの制御方針を1つのデモを用いて学習するために,逐次バイアスを活用することを提案する。 そこで本手法では,低次元目標間のシステムを制御するための目標条件ポリシーを学習する。 このシーケンシャルな目標達成アプローチは、連続した目標間の互換性の問題を引き起こします。 そこで本研究では,DCIL-IIと呼ばれる新しいアルゴリズムを提案する。 dcil-iiは前例のないサンプル効率で解決でき、ヒューマノイドのロコモーションやスタンドアップなどのシミュレートされたタスクや、シミュレーションされたキャシーロボットで高速に走ることができる。 本手法は,次世代自律ロボットの重要な特徴である,最小限の仕様の下での複雑なロボットタスクの解決に向けたステップである。

Deep Reinforcement Learning has been successfully applied to learn robotic control. However, the corresponding algorithms struggle when applied to problems where the agent is only rewarded after achieving a complex task. In this context, using demonstrations can significantly speed up the learning process, but demonstrations can be costly to acquire. In this paper, we propose to leverage a sequential bias to learn control policies for complex robotic tasks using a single demonstration. To do so, our method learns a goal-conditioned policy to control a system between successive low-dimensional goals. This sequential goal-reaching approach raises a problem of compatibility between successive goals: we need to ensure that the state resulting from reaching a goal is compatible with the achievement of the following goals. To tackle this problem, we present a new algorithm called DCIL-II. We show that DCIL-II can solve with unprecedented sample efficiency some challenging simulated tasks such as humanoid locomotion and stand-up as well as fast running with a simulated Cassie robot. Our method leveraging sequentiality is a step towards the resolution of complex robotic tasks under minimal specification effort, a key feature for the next generation of autonomous robots.
翻訳日:2022-11-10 17:22:35 公開日:2022-11-09
# 時相論理パターンに基づく結果指向規範的プロセスモニタリング

Outcome-Oriented Prescriptive Process Monitoring Based on Temporal Logic Patterns ( http://arxiv.org/abs/2211.04880v1 )

ライセンス: Link先を確認
Ivan Donadello, Chiara Di Francescomarino, Fabrizio Maria Maggi, Francesco Ricci, Aladdin Shikhizada(参考訳) 規範的なプロセス監視システムは、ビジネスプロセスの実行中に、もし従えばプロセスのネガティブな結果を防ぐための介入を推奨します。 このような介入は信頼性があり、すなわち、望ましい結果やパフォーマンスの達成を保証する必要があり、柔軟性、すなわち、通常のプロセスの実行をひっくり返したり、特定のアクティビティの実行を強制するのを避ける必要がある。 しかし、既存のPrescriptive Process Monitoringソリューションのほとんどは、レコメンデーションの信頼性の観点からうまく機能する一方で、ユーザにはこれらのレコメンデーションの有効性を気にすることなく、実行しなければならない非常に具体的な(一連の)アクティビティを提供します。 そこで本研究では,プロセス実行中に保証されるべきアクティビティ間の時間的関係を推奨する,新たな成果指向規範的プロセス監視システムを提案する。 これにより、特定の時点におけるアクティビティの強制実行が軟化されるため、実施すべき介入を決定する際に、ユーザにより多くの自由が与えられる。 本稿では,これらの時間関係を有限トレースパターン上の線形時相論理と定義し,プロセス実行を支援する情報システムによってイベントログに記録された履歴プロセスデータを記述する特徴として用いる。 このようなエンコードされたログは、マシンラーニングの分類器をトレーニングして、時間パターンとプロセス実行結果のマッピングを学ぶために使用される。 分類器は実行時に照会され、入力中のプロセス実行に対する特定の結果の可能性を最大化するために満足すべき最も有意義な時間パターンとして返される。 提案システムは,プロセスマイニングコミュニティですでにベンチマークとして使用されている22のリアルタイムイベントログのプールを用いて評価する。

Prescriptive Process Monitoring systems recommend, during the execution of a business process, interventions that, if followed, prevent a negative outcome of the process. Such interventions have to be reliable, that is, they have to guarantee the achievement of the desired outcome or performance, and they have to be flexible, that is, they have to avoid overturning the normal process execution or forcing the execution of a given activity. Most of the existing Prescriptive Process Monitoring solutions, however, while performing well in terms of recommendation reliability, provide the users with very specific (sequences of) activities that have to be executed without caring about the feasibility of these recommendations. In order to face this issue, we propose a new Outcome-Oriented Prescriptive Process Monitoring system recommending temporal relations between activities that have to be guaranteed during the process execution in order to achieve a desired outcome. This softens the mandatory execution of an activity at a given point in time, thus leaving more freedom to the user in deciding the interventions to put in place. Our approach defines these temporal relations with Linear Temporal Logic over finite traces patterns that are used as features to describe the historical process data recorded in an event log by the information systems supporting the execution of the process. Such encoded log is used to train a Machine Learning classifier to learn a mapping between the temporal patterns and the outcome of a process execution. The classifier is then queried at runtime to return as recommendations the most salient temporal patterns to be satisfied to maximize the likelihood of a certain outcome for an input ongoing process execution. The proposed system is assessed using a pool of 22 real-life event logs that have already been used as a benchmark in the Process Mining community.
翻訳日:2022-11-10 17:22:17 公開日:2022-11-09
# 映像行動認識のための時間的データ拡張

Extending Temporal Data Augmentation for Video Action Recognition ( http://arxiv.org/abs/2211.04888v1 )

ライセンス: Link先を確認
Artjoms Gorpincenko, Michal Mackiewicz(参考訳) ピクセル空間拡張は、その有効性、単純性、計算コストの低さから、多くの深層学習領域で人気が高まっている。 しかし、ビデオのデータ拡張は依然として未調査の研究課題であり、ほとんどの作品では、入力を時系列に連結されたデータではなく、静的画像のスタックとして扱っている。 近年,拡張設計時の時間次元の関与が,映像動作認識のための空間のみの変種よりも優れていることが示されている。 本稿では,空間領域と時間領域の関係を強化し,より深い摂動レベルを達成するために,これらの手法の新たな拡張を提案する。 その結果,UCF-101データセットとHMDB-51データセットのTop-1およびTop-5設定では,ビデオアクション認識結果がそれぞれより優れていた。

Pixel space augmentation has grown in popularity in many Deep Learning areas, due to its effectiveness, simplicity, and low computational cost. Data augmentation for videos, however, still remains an under-explored research topic, as most works have been treating inputs as stacks of static images rather than temporally linked series of data. Recently, it has been shown that involving the time dimension when designing augmentations can be superior to its spatial-only variants for video action recognition. In this paper, we propose several novel enhancements to these techniques to strengthen the relationship between the spatial and temporal domains and achieve a deeper level of perturbations. The video action recognition results of our techniques outperform their respective variants in Top-1 and Top-5 settings on the UCF-101 and the HMDB-51 datasets.
翻訳日:2022-11-10 17:16:05 公開日:2022-11-09
# シーンテキスト認識のための統合エキスパートによる純変換器

Pure Transformer with Integrated Experts for Scene Text Recognition ( http://arxiv.org/abs/2211.04963v1 )

ライセンス: Link先を確認
Yew Lee Tan, Adams Wai-kin Kong, Jung-Jae Kim(参考訳) シーンテキスト認識(str)は、自然シーンの切り抜き画像でテキストを読む作業である。 STRの従来のモデルは畳み込みニューラルネットワーク(CNN)を使用し、続いてエンコーダ-デコーダフレームワークで繰り返しニューラルネットワークを使用する。 近年,このトランスフォーマーアーキテクチャがSTRで広く採用されているのは,シーンテキスト画像に顕著な長期依存を捕捉する強力な能力を示すためである。 多くの研究者がトランスフォーマをcnn-トランスフォーマエンコーダのハイブリッドとして利用し、トランスフォーマデコーダが続いた。 しかし、そのような手法はエンコーディングプロセスを通しての長期的な依存関係のみを利用する。 視覚変換器(ViT)はそのような依存を早期に捉えることができるが、その利用はSTRでは明らかにされていない。 本研究は,ハイブリッドCNN変換器モデルより優れた単純なベースラインとして,トランスフォーマーのみのモデルを提案する。 さらに,改善すべき2つの重要な領域が特定された。 まず、第1復号文字は、予測精度が最低となる。 第2に、異なる元のアスペクト比のイメージはパッチ解像度と異なる反応を示し、ViTは1つの固定パッチ解像度のみを使用する。 これらの分野を探るために,ptie(pure transformer with integrated experts)を提案する。 PTIEは、複数のパッチ解像度を処理し、元の文字順と逆文字順の両方でデコードできるトランスフォーマーモデルである。 7つの一般的なベンチマークで調べられ、20以上の最先端の手法と比較される。 実験結果から,提案手法はそれらの性能を上回り,ほとんどのベンチマークで最先端の結果を得た。

Scene text recognition (STR) involves the task of reading text in cropped images of natural scenes. Conventional models in STR employ convolutional neural network (CNN) followed by recurrent neural network in an encoder-decoder framework. In recent times, the transformer architecture is being widely adopted in STR as it shows strong capability in capturing long-term dependency which appears to be prominent in scene text images. Many researchers utilized transformer as part of a hybrid CNN-transformer encoder, often followed by a transformer decoder. However, such methods only make use of the long-term dependency mid-way through the encoding process. Although the vision transformer (ViT) is able to capture such dependency at an early stage, its utilization remains largely unexploited in STR. This work proposes the use of a transformer-only model as a simple baseline which outperforms hybrid CNN-transformer models. Furthermore, two key areas for improvement were identified. Firstly, the first decoded character has the lowest prediction accuracy. Secondly, images of different original aspect ratios react differently to the patch resolutions while ViT only employ one fixed patch resolution. To explore these areas, Pure Transformer with Integrated Experts (PTIE) is proposed. PTIE is a transformer model that can process multiple patch resolutions and decode in both the original and reverse character orders. It is examined on 7 commonly used benchmarks and compared with over 20 state-of-the-art methods. The experimental results show that the proposed method outperforms them and obtains state-of-the-art results in most benchmarks.
翻訳日:2022-11-10 17:15:14 公開日:2022-11-09
# 2D-shapesの類似性と相違点の解析

Similarity among the 2D-shapes and the analysis of dissimilarity scores ( http://arxiv.org/abs/2211.04998v1 )

ライセンス: Link先を確認
Karel Zimmermann(参考訳) 本研究では,概念的に単純で直感的な2次元形状間の相似性を計算し,測定する手法を提案する。 結果の相似性行列を解釈し視覚化するためのいくつかの方法が提示され、比較される。

We present a conceptually simple and intuitive method to calculate and to measure the dissimilarities among 2D shapes. Several methods to interpret and to visualize the resulting dissimilarity matrix are presented and compared.
翻訳日:2022-11-10 17:14:53 公開日:2022-11-09
# シーンテキスト認識のためのポートマントーイング機能

Portmanteauing Features for Scene Text Recognition ( http://arxiv.org/abs/2211.05036v1 )

ライセンス: Link先を確認
Yew Lee Tan, Ernest Yu Kai Chew, Adams Wai-Kin Kong, Jung-Jae Kim, Joo Hwee Lim(参考訳) シーンテキスト画像は異なる形状を持ち、視点歪みなど様々な歪みを受ける。 これらの課題に対処するため、最先端の手法はテキスト認識ネットワークに接続された修正ネットワークに依存している。 それらは線形パイプラインを形成し、すべての入力画像に対してテキストの整流を、それなしで認識できる画像に対しても使用する。 間違いなく、修正ネットワークは、全体的なテキスト認識性能を改善する。 しかし、場合によっては、整流ネットワークが不必要な画像の歪みを発生させ、そうでなければ正しくなかった画像の誤った予測を生じさせることもある。 不要な歪みを軽減するため,特徴のポートマントーニングが提案されている。 Portmanteau という単語にインスパイアされた Portmanteau 機能は、元のテキスト画像と修正画像の両方からの情報を含む機能である。 ポートマントー特徴を生成するために、ブロック行列初期化を備えた非線形入力パイプラインを示す。 本研究では,ポートマントーの特徴を効果的に処理できる注意と本質的並列性を利用した認識ネットワークとしてトランスフォーマーを選択した。 提案手法は6つのベンチマークで検討し,13の最先端手法と比較した。 実験の結果,提案手法は様々なベンチマークにおいて最先端の手法よりも優れていた。

Scene text images have different shapes and are subjected to various distortions, e.g. perspective distortions. To handle these challenges, the state-of-the-art methods rely on a rectification network, which is connected to the text recognition network. They form a linear pipeline which uses text rectification on all input images, even for images that can be recognized without it. Undoubtedly, the rectification network improves the overall text recognition performance. However, in some cases, the rectification network generates unnecessary distortions on images, resulting in incorrect predictions in images that would have otherwise been correct without it. In order to alleviate the unnecessary distortions, the portmanteauing of features is proposed. The portmanteau feature, inspired by the portmanteau word, is a feature containing information from both the original text image and the rectified image. To generate the portmanteau feature, a non-linear input pipeline with a block matrix initialization is presented. In this work, the transformer is chosen as the recognition network due to its utilization of attention and inherent parallelism, which can effectively handle the portmanteau feature. The proposed method is examined on 6 benchmarks and compared with 13 state-of-the-art methods. The experimental results show that the proposed method outperforms the state-of-the-art methods on various of the benchmarks.
翻訳日:2022-11-10 17:14:48 公開日:2022-11-09
# 構成概念学習のための大規模事前学習型視覚言語モデルの提案

Prompting Large Pre-trained Vision-Language Models For Compositional Concept Learning ( http://arxiv.org/abs/2211.05077v1 )

ライセンス: Link先を確認
Guangyue Xu, Parisa Kordjamshidi, Joyce Chai(参考訳) 本研究では,大規模な事前学習型視覚言語モデル(VLM)のゼロショット合成学習能力について検討し,合成ゼロショット学習(CZSL)問題を解決するためのモデル(\textit{PromptCompVL})を提案する。 まず、ハードプロンプティングの代わりにソフトプロンプティングを使用して学習可能なパラメータを注入し、VLMを合成学習のためにプログラムする。 第二に、構成上の課題に対処するために、ソフト埋め込み層を使用して、異なる組み合わせで原始概念を学ぶ。 ソフトエンベディングとソフトプロンプトを組み合わせることで、 \textit{PromptCompVL}はMIT-Statesデータセット上で最先端のパフォーマンスを実現する。 さらに,提案手法は,CZSLにおける提案手法の有効性を示す他のCLIP法と比較して一貫した改善を実現している。

This work explores the zero-shot compositional learning ability of large pre-trained vision-language models(VLMs) within the prompt-based learning framework and propose a model (\textit{PromptCompVL}) to solve the compositonal zero-shot learning (CZSL) problem. \textit{PromptCompVL} makes two design choices: first, it uses a soft-prompting instead of hard-prompting to inject learnable parameters to reprogram VLMs for compositional learning. Second, to address the compositional challenge, it uses the soft-embedding layer to learn primitive concepts in different combinations. By combining both soft-embedding and soft-prompting, \textit{PromptCompVL} achieves state-of-the-art performance on the MIT-States dataset. Furthermore, our proposed model achieves consistent improvement compared to other CLIP-based methods which shows the effectiveness of the proposed prompting strategies for CZSL.
翻訳日:2022-11-10 17:14:30 公開日:2022-11-09
# aiを利用したクリエイティビティ・ライティング・アシスタント:プロのライターからの視点

Creative Writing with an AI-Powered Writing Assistant: Perspectives from Professional Writers ( http://arxiv.org/abs/2211.05030v1 )

ライセンス: Link先を確認
Daphne Ippolito, Ann Yuan, Andy Coenen, Sehmon Burnam(参考訳) 最近のニューラル言語モデルを用いた自然言語生成(nlg)の発展は、ai駆動の創造的ライティングツールの構築という目標に、これまで以上に近づいた。 しかし、クリエイティビティライティング領域における人間とaiのコラボレーションに関するほとんどの先行研究は、アマチュアライターとの新しいシステムを評価してきた。 この作業で、私たちは、AIを活用した文章支援ツールを備えたテキストエディタであるWordcraftを使って、さまざまなクリエイティブな執筆背景から13のプロフェッショナルなライターを依頼しました。 インタビューや参加者誌を用いて,NLGが創造的執筆領域(特にブレインストーミング,ストーリーの細部の生成,ワールドビルディング,研究支援)に大きな影響を与える可能性について議論する。 経験豊富な作家は、素人よりも、典型的には、独特な声とターゲットオーディエンスだけでなく、文章を書くための体系や方法論が発達している。 nlg技術は、スタイルと権威の声を保存するのに苦労しており、ストーリーの内容に対する深い理解が欠如しています。 aiを活用した文字アシスタントがその潜在能力を最大限に発揮するためには、人間の作家の多様な目標と専門知識を考慮に入れることが不可欠である。

Recent developments in natural language generation (NLG) using neural language models have brought us closer than ever to the goal of building AI-powered creative writing tools. However, most prior work on human-AI collaboration in the creative writing domain has evaluated new systems with amateur writers, typically in contrived user studies of limited scope. In this work, we commissioned 13 professional, published writers from a diverse set of creative writing backgrounds to craft stories using Wordcraft, a text editor with built-in AI-powered writing assistance tools. Using interviews and participant journals, we discuss the potential of NLG to have significant impact in the creative writing domain--especially with respect to brainstorming, generation of story details, world-building, and research assistance. Experienced writers, more so than amateurs, typically have well-developed systems and methodologies for writing, as well as distinctive voices and target audiences. Our work highlights the challenges in building for these writers; NLG technologies struggle to preserve style and authorial voice, and they lack deep understanding of story contents. In order for AI-powered writing assistants to realize their full potential, it is essential that they take into account the diverse goals and expertise of human writers.
翻訳日:2022-11-10 17:14:14 公開日:2022-11-09
# PoSタグと意味認識の強化による自動キーワード抽出(AKE)手法の性能向上

Improving Performance of Automatic Keyword Extraction (AKE) Methods Using PoS-Tagging and Enhanced Semantic-Awareness ( http://arxiv.org/abs/2211.05031v1 )

ライセンス: Link先を確認
Enes Altuncu, Jason R.C. Nurse, Yang Xu, Jie Guo, Shujun Li(参考訳) 自動キーワード抽出(AKE)は、現代のコンピュータシステムで処理されるデジタルテキストデータの量の増加により、より重要になっている。 情報検索(IR)や自然言語処理(NLP)には、テキスト要約、トピック分析、文書インデックス作成など、さまざまな応用がある。 本稿では, PoS-tagging による意味認識の高度化による AKE 手法の性能向上のための, 単純だが効果的なポストプロセッシング方式を提案する。 提案手法の性能を示すために,pos-taggingステップから得られた単語タイプと,1つ以上の文脈依存のthesauriで定義された2つの意味情報の典型的情報源,およびwikipediaで名前付きエンティティについて検討した。 上記の3つのステップは、ポストプロセッサの一部として、任意の ake メソッドの最後に簡単に追加することができる。 sota法(state-of-the-art-ake)の5つのake法について,提案手法は17のデータセットを用いた実験結果から,3つの強化ステップがすべて使用される場合において,提案手法が一貫して(10.2\%,53.8\%,平均25.8\%,平均25.8\%)の性能向上を示した。 提案手法を任意のAKE手法に適用し,さらに拡張することの容易さを考慮して,本研究の結果は深い意味を持つ。

Automatic keyword extraction (AKE) has gained more importance with the increasing amount of digital textual data that modern computing systems process. It has various applications in information retrieval (IR) and natural language processing (NLP), including text summarisation, topic analysis and document indexing. This paper proposes a simple but effective post-processing-based universal approach to improve the performance of any AKE methods, via an enhanced level of semantic-awareness supported by PoS-tagging. To demonstrate the performance of the proposed approach, we considered word types retrieved from a PoS-tagging step and two representative sources of semantic information -- specialised terms defined in one or more context-dependent thesauri, and named entities in Wikipedia. The above three steps can be simply added to the end of any AKE methods as part of a post-processor, which simply re-evaluate all candidate keywords following some context-specific and semantic-aware criteria. For five state-of-the-art (SOTA) AKE methods, our experimental results with 17 selected datasets showed that the proposed approach improved their performances both consistently (up to 100\% in terms of improved cases) and significantly (between 10.2\% and 53.8\%, with an average of 25.8\%, in terms of F1-score and across all five methods), especially when all the three enhancement steps are used. Our results have profound implications considering the ease to apply our proposed approach to any AKE methods and to further extend it.
翻訳日:2022-11-10 17:13:53 公開日:2022-11-09
# refu: 細部を保存した1枚の画像3d再構成のための、観察できないビューの精製と融合

ReFu: Refine and Fuse the Unobserved View for Detail-Preserving Single-Image 3D Human Reconstruction ( http://arxiv.org/abs/2211.04753v1 )

ライセンス: Link先を確認
Gyumin Shim, Minsoo Lee and Jaegul Choo(参考訳) シングルイメージの3次元再構成は,1枚の画像から人体の3次元テクスチャ面を再構築することを目的としている。 暗黙的機能に基づく手法は最近、合理的な再構成性能を達成したが、表面形状とテクスチャの両方において、観察不能な視点で品質の低下を示す限界がある。 現実的なテクスチャ面を生成するために,提案するReFuは,投影された背景像を精細化し,その精細な画像を融合して最終人体を予測する。 投影画像や再構成メッシュにノイズを引き起こす拡散占有を抑制するため,2次元と3次元の監督と占有ベースのボリュームレンダリングを同時に活用し,占有確率のトレーニングを行う。 また,フロント・ツー・バック・ワープによる奥行き保存画像を生成する改良アーキテクチャを導入する。 広汎な実験により,本手法は1枚の画像から3次元人物再構成を行い,観察不能な視界から幾何やテクスチャの質を高めた。

Single-image 3D human reconstruction aims to reconstruct the 3D textured surface of the human body given a single image. While implicit function-based methods recently achieved reasonable reconstruction performance, they still bear limitations showing degraded quality in both surface geometry and texture from an unobserved view. In response, to generate a realistic textured surface, we propose ReFu, a coarse-to-fine approach that refines the projected backside view image and fuses the refined image to predict the final human body. To suppress the diffused occupancy that causes noise in projection images and reconstructed meshes, we propose to train occupancy probability by simultaneously utilizing 2D and 3D supervisions with occupancy-based volume rendering. We also introduce a refinement architecture that generates detail-preserving backside-view images with front-to-back warping. Extensive experiments demonstrate that our method achieves state-of-the-art performance in 3D human reconstruction from a single image, showing enhanced geometry and texture quality from an unobserved view.
翻訳日:2022-11-10 17:07:08 公開日:2022-11-09
# sg-shuffle:シーングラフ生成のためのマルチスペクトルシャッフルトランス

SG-Shuffle: Multi-aspect Shuffle Transformer for Scene Graph Generation ( http://arxiv.org/abs/2211.04773v1 )

ライセンス: Link先を確認
Anh Duc Bui, Soyeon Caren Han, Josiah Poon(参考訳) シーングラフ生成(SGG)は、人間の理解と視覚的理解のための画像の包括的表現を提供する。 利用可能な注釈データにおけるオブジェクトと述語ラベルのロングテールバイアス問題のため、現在の手法から生成されたシーングラフは、共通の非インフォーマティブな関係ラベルに偏ることができる。 関係は時として非相互排他的であり、幾何学的関係や意味的関係といった複数の観点から説明できるため、最も適切な関係ラベルを予測することはさらに困難である。 本研究では,3成分からなるシーングラフ生成のためのSG-Shuffleパイプラインを提案する。 1) 関係ラベルを類似の目的の群にグループ化して,より排他的な方法でオブジェクト関係を予測することを学ぶ並列トランスフォーマエンコーダ 2) 前のステップで生成されたカテゴリ固有の特徴から最終関係ラベルを選択することを学ぶシャッフル変換器 3)不均衡データセットに起因するトレーニングバイアスを軽減するために使用される重み付きce損失。

Scene Graph Generation (SGG) serves a comprehensive representation of the images for human understanding as well as visual understanding tasks. Due to the long tail bias problem of the object and predicate labels in the available annotated data, the scene graph generated from current methodologies can be biased toward common, non-informative relationship labels. Relationship can sometimes be non-mutually exclusive, which can be described from multiple perspectives like geometrical relationships or semantic relationships, making it even more challenging to predict the most suitable relationship label. In this work, we proposed the SG-Shuffle pipeline for scene graph generation with 3 components: 1) Parallel Transformer Encoder, which learns to predict object relationships in a more exclusive manner by grouping relationship labels into groups of similar purpose; 2) Shuffle Transformer, which learns to select the final relationship labels from the category-specific feature generated in the previous step; and 3) Weighted CE loss, used to alleviate the training bias caused by the imbalanced dataset.
翻訳日:2022-11-10 17:06:48 公開日:2022-11-09
# 機械学習を用いた国民健康栄養状態調査データにおける肥満サブグループのプロファイリング--ブルネイ・ダルサラムの事例研究

Profiling Obese Subgroups in National Health and Nutritional Status Survey Data using Machine Learning Techniques: A Case Study from Brunei Darussalam ( http://arxiv.org/abs/2211.04781v1 )

ライセンス: Link先を確認
Usman Khalil, Owais Ahmed Malik, Daphne Teck Ching Lai, Ong Sok King(参考訳) 国家衛生栄養状態調査(National Health and Nutritional Status Survey、NHANSS)は、ネガラ・ブルネイ・ダルサラムの保健省によって毎年実施され、人口の健康と栄養のパターンと特徴を評価する。 本研究の目的は,nhanssデータの肥満サンプルから,データ削減と解釈手法を適用して有意義なパターン(グループ)を発見することである。 データセットにおける変数の混合の性質(質的かつ定量的)は、研究に新規性をもたらした。 その結果, カテゴリー主成分 (CATPCA) 法が選択され, 有意な結果が得られた。 肥満と生活習慣因子(デモグラフィ,社会経済状態,身体活動,食事行動,血圧履歴,糖尿病など)との関係は,catpcaが生成する主成分に基づいて決定された。 その結果, 分割手法の助けを借りて, 生成したグループの正当性を検証した。 分析と結果から,データセットに2つのサブグループがあり,これらのサブグループの健全な特徴が報告されている。 これらの結果は、医療産業の改善のために提案できる。

National Health and Nutritional Status Survey (NHANSS) is conducted annually by the Ministry of Health in Negara Brunei Darussalam to assess the population health and nutritional patterns and characteristics. The main aim of this study was to discover meaningful patterns (groups) from the obese sample of NHANSS data by applying data reduction and interpretation techniques. The mixed nature of the variables (qualitative and quantitative) in the data set added novelty to the study. Accordingly, the Categorical Principal Component (CATPCA) technique was chosen to interpret the meaningful results. The relationships between obesity and the lifestyle factors like demography, socioeconomic status, physical activity, dietary behavior, history of blood pressure, diabetes, etc., were determined based on the principal components generated by CATPCA. The results were validated with the help of the split method technique to counter verify the authenticity of the generated groups. Based on the analysis and results, two subgroups were found in the data set, and the salient features of these subgroups have been reported. These results can be proposed for the betterment of the healthcare industry.
翻訳日:2022-11-10 17:06:31 公開日:2022-11-09
# シーンテキスト認識のためのマスク付き視覚言語トランスフォーマー

Masked Vision-Language Transformers for Scene Text Recognition ( http://arxiv.org/abs/2211.04785v1 )

ライセンス: Link先を確認
Jie Wu, Ying Peng, Shengming Zhang, Weigang Qi, Jian Zhang(参考訳) Scene Text Recognition (STR) は、コンピュータが様々な現実世界のシーンでテキストを認識し読み取ることを可能にする。 近年のSTRモデルは視覚的手がかりに加えて言語情報を取り入れることの恩恵を受けている。 本稿では,暗黙的および暗黙的言語情報の両方を捉えるために,Masked Vision-Language Transformers (MVLT)を提案する。 私たちのエンコーダはビジョントランスフォーマーで、デコーダはマルチモーダルトランスフォーマーです。 MVLTは,第1段階ではマスキング戦略に基づくSTR調整事前訓練法を設計し,第2段階ではモデルを微調整し,反復補正法を適用して性能を向上させる。 MVLTは、いくつかのベンチマークで最先端のSTRモデルよりも優れた結果が得られる。 私たちのコードとモデルはhttps://github.com/onealwj/mvltで利用可能です。

Scene text recognition (STR) enables computers to recognize and read the text in various real-world scenes. Recent STR models benefit from taking linguistic information in addition to visual cues into consideration. We propose a novel Masked Vision-Language Transformers (MVLT) to capture both the explicit and the implicit linguistic information. Our encoder is a Vision Transformer, and our decoder is a multi-modal Transformer. MVLT is trained in two stages: in the first stage, we design a STR-tailored pretraining method based on a masking strategy; in the second stage, we fine-tune our model and adopt an iterative correction method to improve the performance. MVLT attains superior results compared to state-of-the-art STR models on several benchmarks. Our code and model are available at https://github.com/onealwj/MVLT.
翻訳日:2022-11-10 17:06:13 公開日:2022-11-09
# radformer: 解釈可能かつ正確な胆嚢癌検出のためのグローバル局所的注意を持つトランスフォーマー

RadFormer: Transformers with Global-Local Attention for Interpretable and Accurate Gallbladder Cancer Detection ( http://arxiv.org/abs/2211.04793v1 )

ライセンス: Link先を確認
Soumen Basu, Mayank Gupta, Pratyaksha Rana, Pankaj Gupta, Chetan Arora(参考訳) 医用画像解析のための解釈可能な表現を学ぶための,新しい深層ニューラルネットワークアーキテクチャを提案する。 このアーキテクチャは,関心領域のグローバルな注目を喚起し,局所的な注目を伴う単語スタイルの深い特徴埋め込みを学習する。 グローバルかつ局所的な特徴マップは、超音波(USG)画像からの高精度胆嚢癌(GBC)検出のために、同時代のトランスフォーマーアーキテクチャを用いて合成される。 実験の結果,本モデルの検出精度はヒトの放射線科医よりも優れており,GBC診断における第2読影器としての利用が提唱されている。 単語の埋め込みにより、医学文献で報告されているGBC検出の解釈可能な説明を生成するために、我々のモデルを探索することができる。 提案モデルは,ニューラルネットワークモデルの決定を理解するだけでなく,GBCの診断に関連する新たな視覚的特徴の発見にも有効であることを示す。 ソースコードとモデルはhttps://github.com/sbasu276/RadFormerで入手できる。

We propose a novel deep neural network architecture to learn interpretable representation for medical image analysis. Our architecture generates a global attention for region of interest, and then learns bag of words style deep feature embeddings with local attention. The global, and local feature maps are combined using a contemporary transformer architecture for highly accurate Gallbladder Cancer (GBC) detection from Ultrasound (USG) images. Our experiments indicate that the detection accuracy of our model beats even human radiologists, and advocates its use as the second reader for GBC diagnosis. Bag of words embeddings allow our model to be probed for generating interpretable explanations for GBC detection consistent with the ones reported in medical literature. We show that the proposed model not only helps understand decisions of neural network models but also aids in discovery of new visual features relevant to the diagnosis of GBC. Source-code and model will be available at https://github.com/sbasu276/RadFormer
翻訳日:2022-11-10 17:05:57 公開日:2022-11-09
# 勾配経路解析によるネットワーク設計戦略の設計

Designing Network Design Strategies Through Gradient Path Analysis ( http://arxiv.org/abs/2211.04800v1 )

ライセンス: Link先を確認
Chien-Yao Wang, Hong-Yuan Mark Liao, I-Hau Yeh(参考訳) 高性能で高品質な表現型ネットワークアーキテクチャを設計することは、ディープラーニング分野における最も重要な研究トピックである。 今日のネットワーク設計戦略のほとんどは、異なるレイヤから抽出された機能を統合する方法と、これらの機能を効果的に抽出し、ネットワークの表現力を高めるコンピューティングユニットを設計する方法に焦点を当てている。 本稿では,勾配経路解析に基づいてネットワークアーキテクチャを設計するための新しいネットワーク設計戦略を提案する。 全体として、今日の主流のネットワーク設計戦略のほとんどはフィードフォワードパスに基づいており、すなわち、ネットワークアーキテクチャはデータパスに基づいて設計されている。 本稿では,ネットワーク学習能力の向上により,学習モデルの表現能力の向上を期待する。 ネットワークパラメータ学習を駆動するメカニズムが後方伝搬アルゴリズムであるため,バック伝搬経路に基づくネットワーク設計戦略を設計する。 本研究では, 層レベル, ステージレベル, ネットワークレベルに対する勾配経路設計戦略を提案し, 設計戦略が理論的解析と実験から優れていることが証明された。

Designing a high-efficiency and high-quality expressive network architecture has always been the most important research topic in the field of deep learning. Most of today's network design strategies focus on how to integrate features extracted from different layers, and how to design computing units to effectively extract these features, thereby enhancing the expressiveness of the network. This paper proposes a new network design strategy, i.e., to design the network architecture based on gradient path analysis. On the whole, most of today's mainstream network design strategies are based on feed forward path, that is, the network architecture is designed based on the data path. In this paper, we hope to enhance the expressive ability of the trained model by improving the network learning ability. Due to the mechanism driving the network parameter learning is the backward propagation algorithm, we design network design strategies based on back propagation path. We propose the gradient path design strategies for the layer-level, the stage-level, and the network-level, and the design strategies are proved to be superior and feasible from theoretical analysis and experiments.
翻訳日:2022-11-10 17:05:41 公開日:2022-11-09
# 3DFill:自己監督型3次元画像アライメントによる参照誘導画像インペインティング

3DFill:Reference-guided Image Inpainting by Self-supervised 3D Image Alignment ( http://arxiv.org/abs/2211.04831v1 )

ライセンス: Link先を確認
Liang Zhao, Xinyuan Zhao, Hailong Ma, Xinyu Zhang, Long Zeng(参考訳) 既存の画像塗装アルゴリズムのほとんどは、1つのビューに基づいており、大きな穴や複雑なシーンを含む穴に悩まされている。 いくつかの参照誘導アルゴリズムは、別の視点画像を参照して穴を埋め、2次元画像アライメントを使用する。 カメラの撮像プロセスのため、単純な2次元変換は良好な結果を得るのは難しい。 本稿では,参照誘導画像インパインティングの簡易かつ効率的な手法である3dfillを提案する。 任意の穴領域と別の視点からの参照画像を持つ対象画像が与えられると、3dfillはまず2段階の方法で2つの画像を整列する: 3dプロジェクション + 2d変換、これは2次元画像アライメントよりも優れた結果を与える。 3Dプロジェクションは画像間の全体的アライメントであり、2D変換はホール領域に焦点を当てた局所アライメントである。 画像アライメントの全プロセスは自己管理される。 次に、アライメントされた画像の内容で対象画像の穴を埋める。 最後に, 条件生成ネットワークを用いて, 補充画像の精細化を行い, 塗装結果を得る。 3DFillは、様々な広視野シフトにまたがる画像インペイントにおける最先端のパフォーマンスを実現し、他のインペイントモデルよりも高速な推論速度を持つ。

Most existing image inpainting algorithms are based on a single view, struggling with large holes or the holes containing complicated scenes. Some reference-guided algorithms fill the hole by referring to another viewpoint image and use 2D image alignment. Due to the camera imaging process, simple 2D transformation is difficult to achieve a satisfactory result. In this paper, we propose 3DFill, a simple and efficient method for reference-guided image inpainting. Given a target image with arbitrary hole regions and a reference image from another viewpoint, the 3DFill first aligns the two images by a two-stage method: 3D projection + 2D transformation, which has better results than 2D image alignment. The 3D projection is an overall alignment between images and the 2D transformation is a local alignment focused on the hole region. The entire process of image alignment is self-supervised. We then fill the hole in the target image with the contents of the aligned image. Finally, we use a conditional generation network to refine the filled image to obtain the inpainting result. 3DFill achieves state-of-the-art performance on image inpainting across a variety of wide view shifts and has a faster inference speed than other inpainting models.
翻訳日:2022-11-10 17:05:23 公開日:2022-11-09
# ERNIE-UniX2: 理解と生成のための統一言語間クロスモーダルフレームワーク

ERNIE-UniX2: A Unified Cross-lingual Cross-modal Framework for Understanding and Generation ( http://arxiv.org/abs/2211.04861v1 )

ライセンス: Link先を確認
Bin Shan, Yaqian Han, Weichong Yin, Shuohuan Wang, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang(参考訳) 近年の言語間クロスモーダルな研究は、VLP(Vision-Language Pre-Training)モデルを英語以外の入力に拡張し、優れた性能を実現しようとしている。 しかし、これらのモデルはエンコーダのみのアーキテクチャを用いたタスクの理解のみに焦点を当てている。 本稿では,タスクの生成と理解のための言語間クロスモーダル事前学習フレームワークであるERNIE-UniX2を提案する。 ERNIE-UniX2は、エンコーダ・デコーダアーキテクチャに基づく複数の事前学習パラダイム(例えば、コントラスト学習と言語モデリング)を統合し、言語とモダリティをまたいだより良い共同表現を学ぼうとしている。 さらに、ERNIE-UniX2は、下流タスクの生成と理解のためにシームレスに微調整できる。 ERNIE-UniX2は、多言語テキストのみと画像テキストの両方のデータセットに基づいて事前訓練され、多言語間クロスモーダル生成および多言語機械翻訳や多言語視覚質問応答などの理解タスクにおけるSOTA結果を達成する。

Recent cross-lingual cross-modal works attempt to extend Vision-Language Pre-training (VLP) models to non-English inputs and achieve impressive performance. However, these models focus only on understanding tasks utilizing encoder-only architecture. In this paper, we propose ERNIE-UniX2, a unified cross-lingual cross-modal pre-training framework for both generation and understanding tasks. ERNIE-UniX2 integrates multiple pre-training paradigms (e.g., contrastive learning and language modeling) based on encoder-decoder architecture and attempts to learn a better joint representation across languages and modalities. Furthermore, ERNIE-UniX2 can be seamlessly fine-tuned for varieties of generation and understanding downstream tasks. Pre-trained on both multilingual text-only and image-text datasets, ERNIE-UniX2 achieves SOTA results on various cross-lingual cross-modal generation and understanding tasks such as multimodal machine translation and multilingual visual question answering.
翻訳日:2022-11-10 17:05:03 公開日:2022-11-09
# スタイル指向リプレイとドメイン感応性特徴白化を用いた領域増分心画像分割

Domain-incremental Cardiac Image Segmentation with Style-oriented Replay and Domain-sensitive Feature Whitening ( http://arxiv.org/abs/2211.04862v1 )

ライセンス: Link先を確認
Kang Li, Lequan Yu, and Pheng-Ann Heng(参考訳) 現代の方法は、心臓画像のセグメンテーションにおいて有望な結果を示しているが、単に静的学習、すなわちネットワークの最適化においてのみ、モデル更新の必要性を無視している。 現実のシナリオでは、時間とともに複数の機関から新しいデータが収集され続け、新しい要求はより満足のいくパフォーマンスを追求するために増え続けています。 望ましいモデルは、各入ってくるデータセットから段階的に学び、時間が経つにつれて機能を改善して段階的に更新するべきです。 複数のサイトからシーケンシャルに配信されるデータセットは、通常、ドメインの不一致と異質なので、更新されたモデルは、以前の学習したドメインを壊滅的に忘れてはならない。 医療シナリオでは、過去のデータへのアクセスや保存はデータのプライバシのために一般的に許可されないため、これは特に難しい。 そこで本研究では,まず過去のドメイン入力を復元し,モデル最適化中に定期的に再生する新しいドメイン増分学習フレームワークを提案する。 特に,過去データの構造現実的でメモリ効率のよい再現を可能にするために,まずスタイル指向のリプレイモジュールを提示し,そのリプレイした過去のデータを組み込んで,現在のデータと協調してモデル最適化を行い,破滅的な忘れを緩和する。 また、最適化の際には、ドメイン変更に敏感な機能(例えば、ドメイン識別スタイルの特徴)へのモデル依存性を抑えるために、ドメイン非変性機能探索を補助し、ネットワークの一般化性能を徐々に改善する。 我々は、m&msデータセットを用いた単ドメインおよび複合ドメインインクリメンタル学習環境でのアプローチを広範囲に評価し、他の比較アプローチよりもパフォーマンスを改善した。

Contemporary methods have shown promising results on cardiac image segmentation, but merely in static learning, i.e., optimizing the network once for all, ignoring potential needs for model updating. In real-world scenarios, new data continues to be gathered from multiple institutions over time and new demands keep growing to pursue more satisfying performance. The desired model should incrementally learn from each incoming dataset and progressively update with improved functionality as time goes by. As the datasets sequentially delivered from multiple sites are normally heterogenous with domain discrepancy, each updated model should not catastrophically forget previously learned domains while well generalizing to currently arrived domains or even unseen domains. In medical scenarios, this is particularly challenging as accessing or storing past data is commonly not allowed due to data privacy. To this end, we propose a novel domain-incremental learning framework to recover past domain inputs first and then regularly replay them during model optimization. Particularly, we first present a style-oriented replay module to enable structure-realistic and memory-efficient reproduction of past data, and then incorporate the replayed past data to jointly optimize the model with current data to alleviate catastrophic forgetting. During optimization, we additionally perform domain-sensitive feature whitening to suppress model's dependency on features that are sensitive to domain changes (e.g., domain-distinctive style features) to assist domain-invariant feature exploration and gradually improve the generalization performance of the network. We have extensively evaluated our approach with the M&Ms Dataset in single-domain and compound-domain incremental learning settings with improved performance over other comparison approaches.
翻訳日:2022-11-10 17:04:45 公開日:2022-11-09
# 赤外・可視画像融合のためのインタラクティブ特徴埋め込み

Interactive Feature Embedding for Infrared and Visible Image Fusion ( http://arxiv.org/abs/2211.04877v1 )

ライセンス: Link先を確認
Fan Zhao and Wenda Zhao and Huchuan Lu(参考訳) 赤外線および可視画像融合の一般的な深層学習手法は、精巧に設計された損失関数を活用し、重要な情報保持のための教師なし機構に依存している。 しかし、教師なしのメカニズムは、ソース画像のすべての重要な情報が十分に抽出されていることを保証できない、よく設計された損失関数に依存する。 本研究では,赤外線と可視光融合のための自己教師型学習フレームワークに,新たなインタラクティブな特徴を組み込んで,重要な情報劣化の問題を克服する手法を提案する。 自己教師付き学習フレームワークの助けを借りて、ソースイメージの階層表現を効率的に抽出することができる。 特に、インタラクティブな特徴埋め込みモデルは、自己教師付き学習と赤外線と可視画像融合学習の間の橋梁を構築するために設計され、重要な情報保持を実現する。 定性的かつ定量的な評価は,提案手法が最先端の手法に対して良好に動作することを示す。

General deep learning-based methods for infrared and visible image fusion rely on the unsupervised mechanism for vital information retention by utilizing elaborately designed loss functions. However, the unsupervised mechanism depends on a well designed loss function, which cannot guarantee that all vital information of source images is sufficiently extracted. In this work, we propose a novel interactive feature embedding in self-supervised learning framework for infrared and visible image fusion, attempting to overcome the issue of vital information degradation. With the help of self-supervised learning framework, hierarchical representations of source images can be efficiently extracted. In particular, interactive feature embedding models are tactfully designed to build a bridge between the self-supervised learning and infrared and visible image fusion learning, achieving vital information retention. Qualitative and quantitative evaluations exhibit that the proposed method performs favorably against state-of-the-art methods.
翻訳日:2022-11-10 17:04:14 公開日:2022-11-09
# ほとんどの言語でローカル構造が最も重要である

Local Structure Matters Most in Most Languages ( http://arxiv.org/abs/2211.05025v1 )

ライセンス: Link先を確認
Louis Clou\^atre and Prasanna Parthasarathi and Amal Zouaq and Sarath Chandar(参考訳) 近年の摂動研究の多くは、自然言語理解(NLU)タスクを英語で実行する際に何が重要で、何が重要でないかについて、直感的な結果を見出している。 単語の順序などの符号化特性は、下流のパフォーマンスに影響を与えることなくシャッフルによって取り除くことができる。 このような洞察は、将来の英語NLPモデルの研究に役立てることができる。 多言語設定における多くの改善は、英語のアプローチの包括的適応で構成されているため、これらの研究が多言語設定で複製されるか否かを検証することが重要である。 本研究では,局所構造の重要性とグローバル構造の重要性について,多言語環境下での再現を行った。 英語で見られる現象は、120以上の言語に広く翻訳され、いくつかの注意点がある。

Many recent perturbation studies have found unintuitive results on what does and does not matter when performing Natural Language Understanding (NLU) tasks in English. Coding properties, such as the order of words, can often be removed through shuffling without impacting downstream performances. Such insight may be used to direct future research into English NLP models. As many improvements in multilingual settings consist of wholesale adaptation of English approaches, it is important to verify whether those studies replicate or not in multilingual settings. In this work, we replicate a study on the importance of local structure, and the relative unimportance of global structure, in a multilingual setting. We find that the phenomenon observed on the English language broadly translates to over 120 languages, with a few caveats.
翻訳日:2022-11-10 16:58:26 公開日:2022-11-09
# MACSum: 混合属性による制御可能な要約

MACSum: Controllable Summarization with Mixed Attributes ( http://arxiv.org/abs/2211.05041v1 )

ライセンス: Link先を確認
Yusen Zhang, Yang Liu, Ziyi Yang, Yuwei Fang, Yulong Chen, Dragomir Radev, Chenguang Zhu, Michael Zeng, Rui Zhang(参考訳) 制御可能な要約により、ユーザーは特定の属性でカスタマイズされた要約を生成することができる。 しかし、制御された要約のアノテーションがないため、既存の研究は一般的な要約ベンチマークを適用して擬似データセットを作成する必要がある。 さらに、ほとんどの研究は、属性の混合(例えば、短く抽象的な要約)を制御するのではなく、単一の属性を個別に(例えば、短い要約または高度に抽象的な要約)管理することに焦点を当てている。 本稿では,混合属性を制御するための最初の人間アノテーションによる要約データセットであるMACSumを提案する。 これには、ニュース記事と対話という2つのドメインの原文が含まれており、5つの設計属性(長文、抽出性、特異性、トピック、話者)で人称注釈の要約が制御されている。 ハードプロンプトチューニングとソフトプレフィックスチューニングに基づく混合制御可能な要約の新しいタスクに対して,2つの単純かつ効果的なパラメータ効率のアプローチを提案する。 結果と分析は、ハードプロンプトモデルがすべての指標と人間の評価において最高のパフォーマンスをもたらすことを示している。 しかし,混合属性制御は,相変わらず難しい課題である。 データセットとコードはhttps://github.com/psunlpgroup/MACSum.orgから入手可能です。

Controllable summarization allows users to generate customized summaries with specified attributes. However, due to the lack of designated annotations of controlled summaries, existing works have to craft pseudo datasets by adapting generic summarization benchmarks. Furthermore, most research focuses on controlling single attributes individually (e.g., a short summary or a highly abstractive summary) rather than controlling a mix of attributes together (e.g., a short and highly abstractive summary). In this paper, we propose MACSum, the first human-annotated summarization dataset for controlling mixed attributes. It contains source texts from two domains, news articles and dialogues, with human-annotated summaries controlled by five designed attributes (Length, Extractiveness, Specificity, Topic, and Speaker). We propose two simple and effective parameter-efficient approaches for the new task of mixed controllable summarization based on hard prompt tuning and soft prefix tuning. Results and analysis demonstrate that hard prompt models yield the best performance on all metrics and human evaluations. However, mixed-attribute control is still challenging for summarization tasks. Our dataset and code are available at https://github.com/psunlpgroup/MACSum.
翻訳日:2022-11-10 16:58:15 公開日:2022-11-09
# BLOOM:176Bパラメータオープンアクセシブル言語モデル

BLOOM: A 176B-Parameter Open-Access Multilingual Language Model ( http://arxiv.org/abs/2211.05100v1 )

ライセンス: Link先を確認
Teven Le Scao, Angela Fan, Christopher Akiki, Ellie Pavlick, Suzana Ili\'c, Daniel Hesslow, Roman Castagn\'e, Alexandra Sasha Luccioni, Fran\c{c}ois Yvon, Matthias Gall\'e, Jonathan Tow, Alexander M. Rush, Stella Biderman, Albert Webson, Pawan Sasanka Ammanamanchi, Thomas Wang, Beno\^it Sagot, Niklas Muennighoff, Albert Villanova del Moral, Olatunji Ruwase, Rachel Bawden, Stas Bekman, Angelina McMillan-Major, Iz Beltagy, Huu Nguyen, Lucile Saulnier, Samson Tan, Pedro Ortiz Suarez, Victor Sanh, Hugo Lauren\c{c}on, Yacine Jernite, Julien Launay, Margaret Mitchell, Colin Raffel, Aaron Gokaslan, Adi Simhi, Aitor Soroa, Alham Fikri Aji, Amit Alfassy, Anna Rogers, Ariel Kreisberg Nitzav, Canwen Xu, Chenghao Mou, Chris Emezue, Christopher Klamm, Colin Leong, Daniel van Strien, David Ifeoluwa Adelani, Dragomir Radev, Eduardo Gonz\'alez Ponferrada, Efrat Levkovizh, Ethan Kim, Eyal Bar Natan, Francesco De Toni, G\'erard Dupont, Germ\'an Kruszewski, Giada Pistilli, Hady Elsahar, Hamza Benyamina, Hieu Tran, Ian Yu, Idris Abdulmumin, Isaac Johnson, Itziar Gonzalez-Dios, Javier de la Rosa, Jenny Chim, Jesse Dodge, Jian Zhu, Jonathan Chang, J\"org Frohberg, Joseph Tobing, Joydeep Bhattacharjee, Khalid Almubarak, Kimbo Chen, Kyle Lo, Leandro Von Werra, Leon Weber, Long Phan, Loubna Ben allal, Ludovic Tanguy, Manan Dey, Manuel Romero Mu\~noz, Maraim Masoud, Mar\'ia Grandury, Mario \v{S}a\v{s}ko, Max Huang, Maximin Coavoux, Mayank Singh, Mike Tian-Jian Jiang, Minh Chien Vu, Mohammad A. Jauhar, Mustafa Ghaleb, Nishant Subramani, Nora Kassner, Nurulaqilla Khamis, Olivier Nguyen, Omar Espejel, Ona de Gibert, Paulo Villegas, Peter Henderson, Pierre Colombo, Priscilla Amuok, Quentin Lhoest, Rheza Harliman, Rishi Bommasani, Roberto Luis L\'opez, Rui Ribeiro, Salomey Osei, Sampo Pyysalo, Sebastian Nagel, Shamik Bose, Shamsuddeen Hassan Muhammad, Shanya Sharma, Shayne Longpre, Somaieh Nikpoor, Stanislav Silberberg, Suhas Pai, Sydney Zink, Tiago Timponi Torrent, Timo Schick, Tristan Thrush, Valentin Danchev, Vassilina Nikoulina, Veronika Laippala, Violette Lepercq, Vrinda Prabhu, Zaid Alyafeai, Zeerak Talat, Arun Raja, Benjamin Heinzerling, Chenglei Si, Elizabeth Salesky, Sabrina J. Mielke, Wilson Y. Lee, Abheesht Sharma, Andrea Santilli, Antoine Chaffin, Arnaud Stiegler, Debajyoti Datta, Eliza Szczechla, Gunjan Chhablani, Han Wang, Harshit Pandey, Hendrik Strobelt, Jason Alan Fries, Jos Rozen, Leo Gao, Lintang Sutawika, M Saiful Bari, Maged S. Al-shaibani, Matteo Manica, Nihal Nayak, Ryan Teehan, Samuel Albanie, Sheng Shen, Srulik Ben-David, Stephen H. Bach, Taewoon Kim, Tali Bers, Thibault Fevry, Trishala Neeraj, Urmish Thakker, Vikas Raunak, Xiangru Tang, Zheng-Xin Yong, Zhiqing Sun, Shaked Brody, Yallow Uri, Hadar Tojarieh, Adam Roberts, Hyung Won Chung, Jaesung Tae, Jason Phang, Ofir Press, Conglong Li, Deepak Narayanan, Hatim Bourfoune, Jared Casper, Jeff Rasley, Max Ryabinin, Mayank Mishra, Minjia Zhang, Mohammad Shoeybi, Myriam Peyrounette, Nicolas Patry, Nouamane Tazi, Omar Sanseviero, Patrick von Platen, Pierre Cornette, Pierre Fran\c{c}ois Lavall\'ee, R\'emi Lacroix, Samyam Rajbhandari, Sanchit Gandhi, Shaden Smith, St\'ephane Requena, Suraj Patil, Tim Dettmers, Ahmed Baruwa, Amanpreet Singh, Anastasia Cheveleva, Anne-Laure Ligozat, Arjun Subramonian, Aur\'elie N\'ev\'eol, Charles Lovering, Dan Garrette, Deepak Tunuguntla, Ehud Reiter, Ekaterina Taktasheva, Ekaterina Voloshina, Eli Bogdanov, Genta Indra Winata, Hailey Schoelkopf, Jan-Christoph Kalo, Jekaterina Novikova, Jessica Zosa Forde, Jordan Clive, Jungo Kasai, Ken Kawamura, Liam Hazan, Marine Carpuat, Miruna Clinciu, Najoung Kim, Newton Cheng, Oleg Serikov, Omer Antverg, Oskar van der Wal, Rui Zhang, Ruochen Zhang, Sebastian Gehrmann, Shani Pais, Tatiana Shavrina, Thomas Scialom, Tian Yun, Tomasz Limisiewicz, Verena Rieser, Vitaly Protasov, Vladislav Mikhailov, Yada Pruksachatkun, Yonatan Belinkov, Zachary Bamberger, Zden\v{e}k Kasner, Alice Rueda, Amanda Pestana, Amir Feizpour, Ammar Khan, Amy Faranak, Ana Santos, Anthony Hevia, Antigona Unldreaj, Arash Aghagol, Arezoo Abdollahi, Aycha Tammour, Azadeh HajiHosseini, Bahareh Behroozi, Benjamin Ajibade, Bharat Saxena, Carlos Mu\~noz Ferrandis, Danish Contractor, David Lansky, Davis David, Douwe Kiela, Duong A. Nguyen, Edward Tan, Emi Baylor, Ezinwanne Ozoani, Fatima Mirza, Frankline Ononiwu, Habib Rezanejad, Hessie Jones, Indrani Bhattacharya, Irene Solaiman, Irina Sedenko, Isar Nejadgholi, Jesse Passmore, Josh Seltzer, Julio Bonis Sanz, Karen Fort, Livia Dutra, Mairon Samagaio, Maraim Elbadri, Margot Mieskes, Marissa Gerchick, Martha Akinlolu, Michael McKenna, Mike Qiu, Muhammed Ghauri, Mykola Burynok, Nafis Abrar, Nazneen Rajani, Nour Elkott, Nour Fahmy, Olanrewaju Samuel, Ran An, Rasmus Kromann, Ryan Hao, Samira Alizadeh, Sarmad Shubber, Silas Wang, Sourav Roy, Sylvain Viguier, Thanh Le, Tobi Oyebade, Trieu Le, Yoyo Yang, Zach Nguyen, Abhinav Ramesh Kashyap, Alfredo Palasciano, Alison Callahan, Anima Shukla, Antonio Miranda-Escalada, Ayush Singh, Benjamin Beilharz, Bo Wang, Caio Brito, Chenxi Zhou, Chirag Jain, Chuxin Xu, Cl\'ementine Fourrier, Daniel Le\'on Peri\~n\'an, Daniel Molano, Dian Yu, Enrique Manjavacas, Fabio Barth, Florian Fuhrimann, Gabriel Altay, Giyaseddin Bayrak, Gully Burns, Helena U. Vrabec, Imane Bello, Ishani Dash, Jihyun Kang, John Giorgi, Jonas Golde, Jose David Posada, Karthik Rangasai Sivaraman, Lokesh Bulchandani, Lu Liu, Luisa Shinzato, Madeleine Hahn de Bykhovetz, Maiko Takeuchi, Marc P\`amies, Maria A Castillo, Marianna Nezhurina, Mario S\"anger, Matthias Samwald, Michael Cullan, Michael Weinberg, Michiel De Wolf, Mina Mihaljcic, Minna Liu, Moritz Freidank, Myungsun Kang, Natasha Seelam, Nathan Dahlberg, Nicholas Michio Broad, Nikolaus Muellner, Pascale Fung, Patrick Haller, Ramya Chandrasekhar, Renata Eisenberg, Robert Martin, Rodrigo Canalli, Rosaline Su, Ruisi Su, Samuel Cahyawijaya, Samuele Garda, Shlok S Deshmukh, Shubhanshu Mishra, Sid Kiblawi, Simon Ott, Sinee Sang-aroonsiri, Srishti Kumar, Stefan Schweter, Sushil Bharati, Tanmay Laud, Th\'eo Gigant, Tomoya Kainuma, Wojciech Kusa, Yanis Labrak, Yash Shailesh Bajaj, Yash Venkatraman, Yifan Xu, Yingxin Xu, Yu Xu, Zhe Tan, Zhongli Xie, Zifan Ye, Mathilde Bras, Younes Belkada, Thomas Wolf(参考訳) 大規模言語モデル(LLM)は、いくつかのデモや自然言語命令に基づいて新しいタスクを実行できることが示されている。 これらの能力は広く採用されているが、ほとんどのLLMはリソース豊富な組織によって開発され、一般には公開されていない。 この強力な技術を民主化するためのステップとして、数百人の研究者が協力して設計・構築した176Bのオープンアクセス言語モデルBLOOMを紹介します。 bloomは、ルートコーパスでトレーニングされたデコーダのみのトランスフォーマー言語モデルで、46の自然言語と13のプログラミング言語(合計59)の数百のソースからなるデータセットである。 BLOOMは多種多様なベンチマークで競争性能が向上し,マルチタスクの実施によりファインタニングが促進された。 LLMを用いた将来の研究やアプリケーションを容易にするため、Responsible AI Licenseの下で、当社のモデルとコードを公開しています。

Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
翻訳日:2022-11-10 16:57:56 公開日:2022-11-09
# ベイジアンニューラルネットワークを用いたロジスティックノードのワークロード予測

Workload Forecasting of a Logistic Node Using Bayesian Neural Networks ( http://arxiv.org/abs/2211.04976v1 )

ライセンス: Link先を確認
Emin Nakilcioglu, Anisa Rizvanolli und Olaf Rendel(参考訳) 目的: 空のコンテナデポの交通量は, 外部要因により非常に揮発性が高い。 コンテナトラックのトラフィックを予測し、将来のワークロードを予測するための動的モジュールを持つことは、作業効率を改善する上で重要な役割を果たす。 本稿では,関連文献を調査し,上記の問題に対処する予測モデルを設計する。 方法論: ベイジアンニューラルネットワークに基づくモデルを用いて, 空のコンテナ倉庫におけるコンテナトラックの時間的作業量と交通量を予測する予測モデルを開発した。 さらに,異なる特徴を持つデータセットを用いて,様々なデータソースに対するモデルの予測範囲を評価する。 知見: 空のコンテナデポの実際のデータは、予測モデルを開発し、後にモデルの能力を検証するために利用される。 この結果から, 空のコンテナ・デポに対して, 効率的な交通・負荷計画システムを構築するための基盤となるモデルの有効性が示唆された。 原点:本論文では,実世界のデータを用いた空のコンテナデポのトラフィックとワークロードに対するベイジアン深層学習に基づく予測モデルを提案する。 この設計および実装された予測モデルは、コンテナトラック輸送のすべてのアクタが最適化されたワークロードから恩恵を受けるソリューションを提供する。

Purpose: Traffic volume in empty container depots has been highly volatile due to external factors. Forecasting the expected container truck traffic along with having a dynamic module to foresee the future workload plays a critical role in improving the work efficiency. This paper studies the relevant literature and designs a forecasting model addressing the aforementioned issues. Methodology: The paper develops a forecasting model to predict hourly work and traffic volume of container trucks in an empty container depot using a Bayesian Neural Network based model. Furthermore, the paper experiments with datasets with different characteristics to assess the model's forecasting range for various data sources. Findings: The real data of an empty container depot is utilized to develop a forecasting model and to later verify the capabilities of the model. The findings show the performance validity of the model and provide the groundwork to build an effective traffic and workload planning system for the empty container depot in question. Originality: This paper proposes a Bayesian deep learning-based forecasting model for traffic and workload of an empty container depot using real-world data. This designed and implemented forecasting model offers a solution with which every actor in the container truck transportation benefits from the optimized workload.
翻訳日:2022-11-10 16:57:39 公開日:2022-11-09
# 画像分類のためのソフト強化

Soft Augmentation for Image Classification ( http://arxiv.org/abs/2211.04625v1 )

ライセンス: Link先を確認
Yang Liu, Shen Yan, Laura Leal-Taix\'e, James Hays, Deva Ramanan(参考訳) 現代のニューラルネットワークは過パラメータであり、データの強化や重みの減衰といった強力な正規化に依存し、過剰フィッティングを減らし、一般化を改善する。 データ拡張の主流形態は不変変換を適用し、サンプルの学習対象はそのサンプルに適用された変換に不変である。 本研究では,人間の視覚分類研究から着想を得て,不変変換による増補をソフト増補へ一般化し,学習対象が標本に適用された変換の度合の関数として非線形に軟化する手法を提案する。 私たちは、ソフトターゲットがより積極的なデータ拡張を可能にし、より堅牢なパフォーマンス向上を提供し、他の拡張ポリシーと連携し、より優れたキャリブレーションモデルを生成することを実証しています。 既存の攻撃的増進戦略 ソフトターゲットと組み合わさって 1) cifar-10, cifar-100, imagenet-1k, imagenet-v2におけるtop-1の精度向上。 2)モデルのオクルージョン性能を最大$4\times$で改善し、 3) 期待校正誤差(ECE)を半減する。 最後に,ソフト拡張が自己教師付き分類タスクに一般化されることを示す。

Modern neural networks are over-parameterized and thus rely on strong regularization such as data augmentation and weight decay to reduce overfitting and improve generalization. The dominant form of data augmentation applies invariant transforms, where the learning target of a sample is invariant to the transform applied to that sample. We draw inspiration from human visual classification studies and propose generalizing augmentation with invariant transforms to soft augmentation where the learning target softens non-linearly as a function of the degree of the transform applied to the sample: e.g., more aggressive image crop augmentations produce less confident learning targets. We demonstrate that soft targets allow for more aggressive data augmentation, offer more robust performance boosts, work with other augmentation policies, and interestingly, produce better calibrated models (since they are trained to be less confident on aggressively cropped/occluded examples). Combined with existing aggressive augmentation strategies, soft target 1) doubles the top-1 accuracy boost across Cifar-10, Cifar-100, ImageNet-1K, and ImageNet-V2, 2) improves model occlusion performance by up to $4\times$, and 3) halves the expected calibration error (ECE). Finally, we show that soft augmentation generalizes to self-supervised classification tasks.
翻訳日:2022-11-10 16:57:05 公開日:2022-11-09
# MEVID: ビデオパーソン再識別のためのアイデンティティ付きマルチビュー拡張ビデオ

MEVID: Multi-view Extended Videos with Identities for Video Person Re-Identification ( http://arxiv.org/abs/2211.04656v1 )

ライセンス: Link先を確認
Daniel Davila, Dawei Du, Bryon Lewis, Christopher Funk, Joseph Van Pelt, Roderick Collins, Kellie Corona, Matt Brown, Scott McCloskey, Anthony Hoogs, Brian Clipp(参考訳) 本稿では,大規模ビデオパーソン再識別(ReID)のためのMulti-view Extended Videos with Identities(MEVID)データセットを提案する。 私たちの知る限り、MEVIDは最も有望なビデオ人物ReIDデータセットであり、73日間の窓で9つのユニークな日付の屋内および屋外環境、様々なカメラ視点、そして実体的な衣服の変化にまたがる。 具体的には,大規模 meva パーソン・アクティビティ・データセット の 33 台のカメラ・ビュー で見た,8,092 個のトラックレット,約 590 フレームの平均長の 598 個の衣装を身に着けた 158 人の身元を分類した。 他のデータセットには、よりユニークなアイデンティティがあるが、MEVIDでは、CCVIDの4つの服/アイデンティティ対2の服/アイデンティティ、MTAの5つのシミュレーションされたロケーションの6つに対して33の視点、LS-VIDの1000万フレーム対300万といった、個々の情報の豊富なセットを強調している。 MEVAビデオデータセットをベースとして、人口統計学的にアメリカ大陸にバランスのとれたデータを継承する。 アノテーション処理を高速化するために,オブジェクト検出,ポーズ推定,人物ReID,多対象追跡のための最先端のリアルタイムモデルを組み合わせた半自動アノテーションフレームワークとGUIを開発した。 我々は,MEVID問題に対するいくつかの最先端手法を評価し,その堅牢性を,衣装,規模,背景位置の変化の観点から総合的に定量化する。 MEVIDの現実的でユニークな側面を定量的に分析したところ、ビデオパーソンのReIDには大きな課題が残っており、今後の研究にとって重要な方向性を示している。

In this paper, we present the Multi-view Extended Videos with Identities (MEVID) dataset for large-scale, video person re-identification (ReID) in the wild. To our knowledge, MEVID represents the most-varied video person ReID dataset, spanning an extensive indoor and outdoor environment across nine unique dates in a 73-day window, various camera viewpoints, and entity clothing changes. Specifically, we label the identities of 158 unique people wearing 598 outfits taken from 8, 092 tracklets, average length of about 590 frames, seen in 33 camera views from the very large-scale MEVA person activities dataset. While other datasets have more unique identities, MEVID emphasizes a richer set of information about each individual, such as: 4 outfits/identity vs. 2 outfits/identity in CCVID, 33 viewpoints across 17 locations vs. 6 in 5 simulated locations for MTA, and 10 million frames vs. 3 million for LS-VID. Being based on the MEVA video dataset, we also inherit data that is intentionally demographically balanced to the continental United States. To accelerate the annotation process, we developed a semi-automatic annotation framework and GUI that combines state-of-the-art real-time models for object detection, pose estimation, person ReID, and multi-object tracking. We evaluate several state-of-the-art methods on MEVID challenge problems and comprehensively quantify their robustness in terms of changes of outfit, scale, and background location. Our quantitative analysis on the realistic, unique aspects of MEVID shows that there are significant remaining challenges in video person ReID and indicates important directions for future research.
翻訳日:2022-11-10 16:56:44 公開日:2022-11-09
# 2次元表現に基づく3次元推論の基本問題の解法

A Solution for a Fundamental Problem of 3D Inference based on 2D Representations ( http://arxiv.org/abs/2211.04691v1 )

ライセンス: Link先を確認
Thien An L. Nguyen(参考訳) ニューラルネットワークを用いた単眼視からの3次元推論はコンピュータビジョンの重要な研究領域である。 研究分野の応用は多種多様であり、多くの提案された解決策があり、顕著な性能を示している。 多くの努力が投資されているが、未回答の質問がまだあるが、その一部は基本的なものである。 本稿では,Blind Perspective-n-Point (Blind PnP) 問題を2次元表現に基づくオブジェクト駆動型3次元推論の一般化として扱うことを期待する。 基本問題とブラインドPnP問題との重要な違いは、基本問題における3次元推論パラメータが直接3Dポイントにアタッチされ、カメラの概念がこれらのポイントのパラメータの共有によって表現されることである。 そこで本稿では,2次元画像から3次元物体のポーズ推定に関する問題を解くために,利用可能な情報に基づく学習手法を用いた新しい手法を提案する。

3D inference from monocular vision using neural networks is an important research area of computer vision. Applications of the research area are various with many proposed solutions and have shown remarkable performance. Although many efforts have been invested, there are still unanswered questions, some of which are fundamental. In this paper, I discuss a problem that I hope will come to be known as a generalization of the Blind Perspective-n-Point (Blind PnP) problem for object-driven 3D inference based on 2D representations. The vital difference between the fundamental problem and the Blind PnP problem is that 3D inference parameters in the fundamental problem are attached directly to 3D points and the camera concept will be represented through the sharing of the parameters of these points. By providing an explainable and robust gradient-decent solution based on 2D representations for an important special case of the problem, the paper opens up a new approach for using available information-based learning methods to solve problems related to 3D object pose estimation from 2D images.
翻訳日:2022-11-10 16:56:09 公開日:2022-11-09
# ディープグラフマッチング(TPAMIバージョン)に基づくロバストポイントクラウド登録フレームワーク

Robust Point Cloud Registration Framework Based on Deep Graph Matching(TPAMI Version) ( http://arxiv.org/abs/2211.04696v1 )

ライセンス: Link先を確認
Kexue Fu, Jiazheng Luo, Xiaoyuan Luo, Shaolei Liu, Chenxi Zhang, Manning Wang(参考訳) 3Dポイントクラウドの登録は、コンピュータビジョンとロボティクスの基本的な問題である。 近年,学習に基づくポイントクラウド登録手法が大きな進歩を遂げている。 しかし、これらの手法は外れ値に敏感であり、より誤った対応をもたらす。 本稿では,ポイントクラウド登録のための新しいディープグラフマッチングベースのフレームワークを提案する。 具体的には、まず点雲をグラフに変換し、各点の深い特徴を抽出する。 次に,深部グラフマッチングに基づくモジュールを開発し,ソフト対応行列を計算する。 グラフマッチングを用いることで、各点の局所幾何学だけでなく、より広い範囲におけるその構造やトポロジーも対応付けを確立することで、より正確な対応が見出される。 我々は,対応者に直接定義された損失でネットワークを訓練し,テスト段階ではソフト対応をハードな1対1対応に変換し,対応ベースの解法で登録を行う。 さらに,グラフ構築のためのエッジを生成するトランスベース手法を導入し,対応文の品質をさらに向上させる。 オブジェクトレベルおよびシーンレベルのベンチマークデータセットに対する大規模な実験により、提案手法が最先端の性能を達成することを示す。 コードは \href{https://github.com/fukexue/rgm}{https://github.com/fukexue/rgm} で入手できる。

3D point cloud registration is a fundamental problem in computer vision and robotics. Recently, learning-based point cloud registration methods have made great progress. However, these methods are sensitive to outliers, which lead to more incorrect correspondences. In this paper, we propose a novel deep graph matching-based framework for point cloud registration. Specifically, we first transform point clouds into graphs and extract deep features for each point. Then, we develop a module based on deep graph matching to calculate a soft correspondence matrix. By using graph matching, not only the local geometry of each point but also its structure and topology in a larger range are considered in establishing correspondences, so that more correct correspondences are found. We train the network with a loss directly defined on the correspondences, and in the test stage the soft correspondences are transformed into hard one-to-one correspondences so that registration can be performed by a correspondence-based solver. Furthermore, we introduce a transformer-based method to generate edges for graph construction, which further improves the quality of the correspondences. Extensive experiments on object-level and scene-level benchmark datasets show that the proposed method achieves state-of-the-art performance. The code is available at: \href{https://github.com/fukexue/RGM}{https://github.com/fukexue/RGM}.
翻訳日:2022-11-10 16:55:54 公開日:2022-11-09
# NoiSER:ノイズはタスク関連データなしで低照度画像をエンハンスするのに必要

NoiSER: Noise is All You Need for Enhancing Low-Light Images Without Task-Related Data ( http://arxiv.org/abs/2211.04700v1 )

ライセンス: Link先を確認
Zhao Zhang, Suiyi Zhao, Xiaojie Jin, Mingliang Xu, Yi Yang, Shuicheng Yan(参考訳) この論文は異常な現象に関するものである。 低照度画像をトレーニングデータとして使用しない場合,ディープラーニングによる低照度画像の強化は可能か? ディープニューラルネットワークは、膨大なトレーニングデータ、特にタスク関連のデータを使って、パラメータのスケードをトレーニングする必要があるため、現在の手法ではそうはならない。 本稿では,基本的な深層学習の文脈において,タスク関連のトレーニングデータなしで低照度画像を向上させることができることを示す。 本稿では,低照度画像強調(LLIE)のためのガウス分布からグレーワールドマッピングを学習する,新しい,魔法的,効果的で効率的な手法である,Shaunderline{Noi}se \underline{SE}lf-\underline{R}egression (NoiSER)を提案する。 具体的には、トレーニング中にグレイワールドマッピングを学ぶためのキャリアとして自己回帰モデルを構築し、ランダムノイズを反復的に送る。 推論中は、学習したマッピングに直接低照度画像を供給し、通常照度画像を生成する。 大規模実験により,現在のタスク関連データに基づくLLIEモデルに対して,パラメータ数,トレーニング時間,推論速度の点で高い性能を示しながら,定量的かつ視覚的な結果を得た。 約1Kのパラメータだけで、NoiSERはトレーニングに約1分、推論に1.2ms、RTX 2080 Tiで600$\times$400の解像度を実現している。 さらに、NoiSERは、生まれつきの自動露光抑制機能があり、追加の操作をすることなく、自動的に明るさや暗さを調整できる。

This paper is about an extraordinary phenomenon. Suppose we don't use any low-light images as training data, can we enhance a low-light image by deep learning? Obviously, current methods cannot do this, since deep neural networks require to train their scads of parameters using copious amounts of training data, especially task-related data. In this paper, we show that in the context of fundamental deep learning, it is possible to enhance a low-light image without any task-related training data. Technically, we propose a new, magical, effective and efficient method, termed \underline{Noi}se \underline{SE}lf-\underline{R}egression (NoiSER), which learns a gray-world mapping from Gaussian distribution for low-light image enhancement (LLIE). Specifically, a self-regression model is built as a carrier to learn a gray-world mapping during training, which is performed by simply iteratively feeding random noise. During inference, a low-light image is directly fed into the learned mapping to yield a normal-light one. Extensive experiments show that our NoiSER is highly competitive to current task-related data based LLIE models in terms of quantitative and visual results, while outperforming them in terms of the number of parameters, training time and inference speed. With only about 1K parameters, NoiSER realizes about 1 minute for training and 1.2 ms for inference with 600$\times$400 resolution on RTX 2080 Ti. Besides, NoiSER has an inborn automated exposure suppression capability and can automatically adjust too bright or too dark, without additional manipulations.
翻訳日:2022-11-10 16:55:36 公開日:2022-11-09
# 関連施策の最近の展開に関する調査研究

A survey of some recent developments in measures of association ( http://arxiv.org/abs/2211.04702v1 )

ライセンス: Link先を確認
Sourav Chatterjee(参考訳) 本稿では,著者が導入した新たな相関係数に関連する関連尺度の最近の展開について調査する。 この係数を標準的なボレル空間(ポーランド空間を含む)へ直接拡張することは、これまでの文献で見落とされ、調査の終わりに提案されている。

This paper surveys some recent developments in measures of association related to a new coefficient of correlation introduced by the author. A straightforward extension of this coefficient to standard Borel spaces (which includes all Polish spaces), overlooked in the literature so far, is proposed at the end of the survey.
翻訳日:2022-11-10 16:48:31 公開日:2022-11-09
# ゼロラベルプロンプト選択

Zero-Label Prompt Selection ( http://arxiv.org/abs/2211.04668v1 )

ライセンス: Link先を確認
Chonghua Liao, Yanan Zheng, Zhilin Yang(参考訳) 自然言語プロンプトは、大規模言語モデルのクロスタスク一般化を促進することが示されている。 しかし,ラベル付き例がほとんどあるいは限定されていない場合,クロスタスク性能はプロンプトの選択に非常に敏感であり,ラベルの不足からハイパフォーマンスなプロンプトを選択することは困難である。 この問題に対処するために,ラベル付きデータや勾配更新なしにプロンプトを選択するゼロラベルプロンプト選択(zps)手法を提案する。 具体的には、タスクの候補となる人書きプロンプトを考慮し、ZPSは未ラベルデータのセットをプロンプトアンサンブルでラベル付けし、擬似ラベルを使ってプロンプトセレクションを行う。 実験により、ZPSはゼロラベル性能において、従来手法よりも大きなマージンで改善されていることが示された。 また、ZPSを数ショット設定にまで拡張し、プロンプトチューニングやモデルチューニングといった強力なベースラインよりも優れていることを示す。

Natural language prompts have been shown to facilitate cross-task generalization for large language models. However, with no or limited labeled examples, the cross-task performance is highly sensitive to the choice of prompts, while selecting a high-performing prompt is challenging given the scarcity of labels. To address the issue, we propose a Zero-Label Prompt Selection (ZPS) method that selects prompts without any labeled data or gradient update. Specifically, given the candidate human-written prompts for a task, ZPS labels a set of unlabeled data with a prompt ensemble and uses the pseudo-labels for prompt selection. Experiments show that ZPS improves over prior methods by a sizeable margin in zero-label performance. We also extend ZPS to a few-shot setting and show its advantages over strong baselines such as prompt tuning and model tuning.
翻訳日:2022-11-10 16:48:08 公開日:2022-11-09
# 異種グラフ埋め込みを用いた中国語文書の教師なし抽出要約

Unsupervised Extractive Summarization with Heterogeneous Graph Embeddings for Chinese Document ( http://arxiv.org/abs/2211.04698v1 )

ライセンス: Link先を確認
Chen Lin, Ye Liu, Siyu An, Di Yin(参考訳) 教師なし抽出要約のシナリオでは、質の高い文表現の学習は、入力文書から突出した文を選択するのに不可欠である。 従来の研究では、文の埋め込みを抽出するために統計的アプローチや事前訓練された言語モデル(PLM)を採用することに注力し、単語と文間の異種相互作用に固有の豊富な情報を無視した。 本稿では,中国語文書にヘテロジニアスグラフ埋め込み (HGE) を組み込んだ非教師なし抽出要約音法を初めて提案する。 異種テキストグラフは、グラフ構造情報を組み込むことで、異なる相互作用の粒度をキャプチャするために構築される。 さらに,提案するグラフは汎用的で柔軟性があり,キーワードなどの追加ノードを容易に統合できる。 実験結果から,本手法は3つの要約データセットにおいて強いベースラインを一貫して上回ることを示した。

In the scenario of unsupervised extractive summarization, learning high-quality sentence representations is essential to select salient sentences from the input document. Previous studies focus more on employing statistical approaches or pre-trained language models (PLMs) to extract sentence embeddings, while ignoring the rich information inherent in the heterogeneous types of interaction between words and sentences. In this paper, we are the first to propose an unsupervised extractive summarizaiton method with heterogeneous graph embeddings (HGEs) for Chinese document. A heterogeneous text graph is constructed to capture different granularities of interactions by incorporating graph structural information. Moreover, our proposed graph is general and flexible where additional nodes such as keywords can be easily integrated. Experimental results demonstrate that our method consistently outperforms the strong baseline in three summarization datasets.
翻訳日:2022-11-10 16:47:53 公開日:2022-11-09
# FF2: 句読点復元のためのフィーチャフュージョン2ストリームフレームワーク

FF2: A Feature Fusion Two-Stream Framework for Punctuation Restoration ( http://arxiv.org/abs/2211.04699v1 )

ライセンス: Link先を確認
Yangjun Wu, Kebin Fang, Yao Zhao, Hao Zhang, Lifeng Shi, Mengqi Zhang(参考訳) 句読点の復元を達成するために、既存の手法のほとんどは追加情報(例えば、一部スピーチ)の導入やクラス不均衡問題への対処に焦点を当てている。 近年,大規模トランスフォーマー型事前学習言語モデル (plms) が広く活用され,成功を収めている。 しかしPLMSは、マークのない小さなデータセットに適さないような、マーク付きの大きなデータセットでトレーニングされているため、収束は理想的ではない。 本研究では,このギャップを埋めるためのFeature Fusion two-stream framework (FF2)を提案する。 具体的には、あるストリームはトレーニング済みの言語モデルを利用してセマンティック機能をキャプチャし、別の補助モジュールは手元にある機能をキャプチャする。 また,頭部間のコミュニケーションを促進するため,複数頭部注意の計算も修正した。 次に、異なる視点を持つ2つの特徴を集約し、情報を融合し、文脈認識を高める。 IWSLT のベンチマーク実験の結果,FF2 が SOTA の新たな性能を実現し,本手法が有効であることを検証した。

To accomplish punctuation restoration, most existing methods focus on introducing extra information (e.g., part-of-speech) or addressing the class imbalance problem. Recently, large-scale transformer-based pre-trained language models (PLMS) have been utilized widely and obtained remarkable success. However, the PLMS are trained on the large dataset with marks, which may not fit well with the small dataset without marks, causing the convergence to be not ideal. In this study, we propose a Feature Fusion two-stream framework (FF2) to bridge the gap. Specifically, one stream leverages a pre-trained language model to capture the semantic feature, while another auxiliary module captures the feature at hand. We also modify the computation of multi-head attention to encourage communication among heads. Then, two features with different perspectives are aggregated to fuse information and enhance context awareness. Without additional data, the experimental results on the popular benchmark IWSLT demonstrate that FF2 achieves new SOTA performance, which verifies that our approach is effective.
翻訳日:2022-11-10 16:47:37 公開日:2022-11-09
# 脊髄木を意識したサブセンテンシャルコンテンツ選択を用いた新章要約

Novel Chapter Abstractive Summarization using Spinal Tree Aware Sub-Sentential Content Selection ( http://arxiv.org/abs/2211.04903v1 )

ライセンス: Link先を確認
Hardy Hardy, Miguel Ballesteros, Faisal Ladhak, Muhammad Khalifa, Vittorio Castelli, Kathleen McKeown(参考訳) 新たな章の要約は、入力の長さと所望の要約に現れる文章が章全体の複数の場所から内容を引き出すという事実から、難しい作業である。 本稿では,抽出ステップが抽象コンポーネントに渡されるコンテンツをフィルタリングするパイプライン抽出・抽象アプローチを提案する。 極端に長い入力は、抽出要約のための負のインスタンスに対して非常に歪んだデータセットをもたらすので、正の例と負の例の分離を促進するためにマージンランキングの損失を採用する。 この問題に対する我々のアプローチは、抽出モデルに構文的文脈(成分の形で)を提供する脊柱木情報を含むテキストを豊かにする。 本稿では,既存の新章データセットの先行研究で報告された最良結果よりも3.71 Rouge-1点の改善を示す。

Summarizing novel chapters is a difficult task due to the input length and the fact that sentences that appear in the desired summaries draw content from multiple places throughout the chapter. We present a pipelined extractive-abstractive approach where the extractive step filters the content that is passed to the abstractive component. Extremely lengthy input also results in a highly skewed dataset towards negative instances for extractive summarization; we thus adopt a margin ranking loss for extraction to encourage separation between positive and negative examples. Our extraction component operates at the constituent level; our approach to this problem enriches the text with spinal tree information which provides syntactic context (in the form of constituents) to the extraction model. We show an improvement of 3.71 Rouge-1 points over best results reported in prior work on an existing novel chapter dataset.
翻訳日:2022-11-10 16:47:21 公開日:2022-11-09
# DoSA : ヒューマン・イン・ザ・ループによるビジネス文書のアノテーションの高速化システム

DoSA : A System to Accelerate Annotations on Business Documents with Human-in-the-Loop ( http://arxiv.org/abs/2211.04934v1 )

ライセンス: Link先を確認
Neelesh K Shukla, Msp Raja, Raghu Katikeri, Amit Vaid(参考訳) ビジネス文書にはさまざまな構造、フォーマット、情報要求があり、情報抽出が困難な作業になる。 これらのバリエーションにより、すべての種類のドキュメントとすべてのユースケースでうまく機能するドキュメントジェネリックモデルを持つことは、はるかに困難に思える。 ドキュメント特化モデルには、カスタマイズされたドキュメント特化ラベルが必要です。 DoSA(Document Specific Automated Annotations)を導入し、ドキュメントジェネリックデータセットとモデルを活用することで、新しいブートストラップアプローチを使用して、アノテーションの自動生成を支援する。 これらの初期アノテーションは、人間によってさらに正しくレビューすることができる。 最初のドキュメント固有のモデルはトレーニングでき、推論はより自動化されたアノテーションを生成するためのフィードバックとして使うことができる。 これらの自動アノテーションは、正確性のためにHuman-in-the-loopによってレビューすることができ、新しい改善されたモデルは、次のイテレーションに進む前に、トレーニング済みモデルとして現在のモデルを使用してトレーニングすることができる。 本稿では,汎用的なアノテートデータセットが利用可能な範囲が限られているため,私たちの範囲はドキュメント形式に制限されているが,より多くのデータセットが構築されるにつれて,この考え方を他のさまざまなドキュメントにも拡張することができる。 オープンソース実装はgithub https://github.com/neeleshkshukla/dosaで入手できる。

Business documents come in a variety of structures, formats and information needs which makes information extraction a challenging task. Due to these variations, having a document generic model which can work well across all types of documents and for all the use cases seems far-fetched. For document-specific models, we would need customized document-specific labels. We introduce DoSA (Document Specific Automated Annotations), which helps annotators in generating initial annotations automatically using our novel bootstrap approach by leveraging document generic datasets and models. These initial annotations can further be reviewed by a human for correctness. An initial document-specific model can be trained and its inference can be used as feedback for generating more automated annotations. These automated annotations can be reviewed by human-in-the-loop for the correctness and a new improved model can be trained using the current model as pre-trained model before going for the next iteration. In this paper, our scope is limited to Form like documents due to limited availability of generic annotated datasets, but this idea can be extended to a variety of other documents as more datasets are built. An open-source ready-to-use implementation is made available on GitHub https://github.com/neeleshkshukla/DoSA.
翻訳日:2022-11-10 16:47:07 公開日:2022-11-09
# 自己完結型ディストラクションを用いたマルチTurn応答生成における文脈注意分布の評価と改善

Evaluating and Improving Context Attention Distribution on Multi-Turn Response Generation using Self-Contained Distractions ( http://arxiv.org/abs/2211.04943v1 )

ライセンス: Link先を確認
Yujie Xing and Jon Atle Gulla(参考訳) オープンドメイン生成に基づく会話エージェントの急速な進歩にもかかわらず、ほとんどのデプロイされたシステムは対話コンテキストをシングルターンとして扱う。 マルチターンモデリングを評価するための信頼できるメトリクスや、それを改善するための効果的なソリューションが欠如している。 本稿では,マルチターン生成型対話エージェントの本質的構成要素であるコンテキストアテンション分布,すなわち,システムが対話のコンテキストにどのように注意を分散させるかに焦点を当てる。 本稿では,この要素を評価するために,新しい注意機構に基づく計量:DAS比を導入する。 このコンポーネントの性能向上のために,自己完結型分散を用いた最適化戦略を提案する。 ubuntu chatlogsデータセットを用いた実験では,コンテクストアテンション分布の能力によって,同等のパープレキシティを持つモデルを見分けることができた。 提案手法は,提案指標の非階層モデルと階層モデルの両方をベースラインから約10%改善する。

Despite the rapid progress of open-domain generation-based conversational agents, most deployed systems treat dialogue contexts as single-turns, while systems dealing with multi-turn contexts are less studied. There is a lack of a reliable metric for evaluating multi-turn modelling, as well as an effective solution for improving it. In this paper, we focus on an essential component of multi-turn generation-based conversational agents: context attention distribution, i.e. how systems distribute their attention on dialogue's context. For evaluation of this component, We introduce a novel attention-mechanism-based metric: DAS ratio. To improve performance on this component, we propose an optimization strategy that employs self-contained distractions. Our experiments on the Ubuntu chatlogs dataset show that models with comparable perplexity can be distinguished by their ability on context attention distribution. Our proposed optimization strategy improves both non-hierarchical and hierarchical models on the proposed metric by about 10% from baselines.
翻訳日:2022-11-10 16:46:45 公開日:2022-11-09
# Discord Questions:ニュース報道における多様性分析への計算的アプローチ

Discord Questions: A Computational Approach To Diversity Analysis in News Coverage ( http://arxiv.org/abs/2211.05007v1 )

ライセンス: Link先を確認
Philippe Laban, Chien-Sheng Wu, Lidiya Murakhovs'ka, Xiang 'Anthony' Chen, Caiming Xiong(参考訳) さまざまなソースにアクセスするニュース読者には、潜在的なメリットが多数ある。 現代のニュースアグリゲータは、ニュースを整理し、読者に大量のソースオプションを提供するが、どのソースを読むかは依然として難しい。 本稿では,情報源の差異を識別し,ニュースカバレッジの多様性を理解するための新しいフレームワークを提案する。 このフレームワークは、さまざまな回答プールを持つ不一致な質問の生成に基づいており、ソースの違いを明確に示している。 To assemble a prototype of the framework, we focus on two components: (1) discord question generation, the task of generating questions answered differently by sources, for which we propose an automatic scoring method, and create a model that improves performance from current question generation (QG) methods by 5%, (2) answer consolidation, the task of grouping answers to a question that are semantically similar, for which we collect data and repurpose a method that achieves 81% balanced accuracy on our realistic test set. プロトタイプインターフェースを通じてフレームワークの実現可能性を説明します。 discord qgのモデルパフォーマンスは依然として人間のパフォーマンスを15%以上遅れているが、生成された質問は事実的な質問よりも興味深いと判断され、ニュース報道の情報源の細部、感情、推論のレベルの違いを明らかにすることができる。

There are many potential benefits to news readers accessing diverse sources. Modern news aggregators do the hard work of organizing the news, offering readers a plethora of source options, but choosing which source to read remains challenging. We propose a new framework to assist readers in identifying source differences and gaining an understanding of news coverage diversity. The framework is based on the generation of Discord Questions: questions with a diverse answer pool, explicitly illustrating source differences. To assemble a prototype of the framework, we focus on two components: (1) discord question generation, the task of generating questions answered differently by sources, for which we propose an automatic scoring method, and create a model that improves performance from current question generation (QG) methods by 5%, (2) answer consolidation, the task of grouping answers to a question that are semantically similar, for which we collect data and repurpose a method that achieves 81% balanced accuracy on our realistic test set. We illustrate the framework's feasibility through a prototype interface. Even though model performance at discord QG still lags human performance by more than 15%, generated questions are judged to be more interesting than factoid questions and can reveal differences in the level of detail, sentiment, and reasoning of sources in news coverage.
翻訳日:2022-11-10 16:46:29 公開日:2022-11-09
# 局所構造プローブによる多言語モデルに不可知な言語の検出

Detecting Languages Unintelligible to Multilingual Models through Local Structure Probes ( http://arxiv.org/abs/2211.05015v1 )

ライセンス: Link先を確認
Louis Clou\^atre and Prasanna Parthasarathi and Amal Zouaq and Sarath Chandar(参考訳) 低リソース言語と絶滅危惧言語のためのより良い言語ツールの提供は、公平な成長に不可欠である。 多言語事前学習モデルによる最近の進歩は、さまざまな言語へのゼロショット転送に驚くほど効果的であることが証明されている。 しかし、この変換は普遍的ではなく、現在多くの言語が多言語的アプローチで理解されていない。 モデルのパフォーマンスをテストできる"小さなラベル付きデータセット"を持つ言語は72言語に過ぎないと推定されています。 本研究では,どの言語が,現在そのような移行の恩恵を受けていないかを明らかにする。 この目的のために,言語間モデルでは理解できない言語を検出するために,ラベルのないテキストのみを必要とする一般的なアプローチを開発した。 我々のアプローチは、もしモデルの理解が言語のテキストに対する摂動に影響を受けないなら、その言語に対する理解が限られている可能性が高いという仮説に由来する。 我々は、言語間類似性タスクを構築し、350言語(主に低リソース言語)で経験的に評価する。

Providing better language tools for low-resource and endangered languages is imperative for equitable growth. Recent progress with massively multilingual pretrained models has proven surprisingly effective at performing zero-shot transfer to a wide variety of languages. However, this transfer is not universal, with many languages not currently understood by multilingual approaches. It is estimated that only 72 languages possess a "small set of labeled datasets" on which we could test a model's performance, the vast majority of languages not having the resources available to simply evaluate performances on. In this work, we attempt to clarify which languages do and do not currently benefit from such transfer. To that end, we develop a general approach that requires only unlabelled text to detect which languages are not well understood by a cross-lingual model. Our approach is derived from the hypothesis that if a model's understanding is insensitive to perturbations to text in a language, it is likely to have a limited understanding of that language. We construct a cross-lingual sentence similarity task to evaluate our approach empirically on 350, primarily low-resource, languages.
翻訳日:2022-11-10 16:46:09 公開日:2022-11-09
# ストリートネットワークのためのグラフ表現学習

Graph representation learning for street networks ( http://arxiv.org/abs/2211.04984v1 )

ライセンス: Link先を確認
Mateo Neira and Roberto Murcio(参考訳) 街路ネットワークは、私たちの都市で出現する時間的・空間的なパターンに関する貴重な情報源を提供する。 これらの通りはしばしばグラフとして表現され、交差点はノードとしてモデル化され、道路はそれらの間のリンクとしてモデル化される。 以前の研究では、元のデータのラスター表現は、ストリートネットワークの低次元表現の学習アルゴリズムによって作成できることが示されている。 対照的に、高レベルの都市ネットワークメトリクスをキャプチャするモデルは畳み込みニューラルネットワークを通じてトレーニングすることができる。 しかし、詳細なトポロジーデータはストリートネットワークのラスタライズによって失われる。 モデルは画像のみからこれらの情報を復元することができず、複雑なストリートネットワーク機能をキャプチャできない。 本稿では,街路ネットワークから直接優れた表現を推測できるモデルを提案する。 具体的には、グラフ畳み込み層を持つ変分オートエンコーダと、確率論的完全連結グラフを出力するデコーダを用いて、局所ネットワーク構造とノードの空間分布の両方を符号化する潜在表現を学習する。 私たちは、何千ものストリートネットワークセグメントでモデルをトレーニングし、学習表現を使用して合成されたストリート構成を生成します。 最後に,学習空間における共通の特徴を解明し,異なるネットワークセグメントの都市形態を分類するアプリケーションを提案する。

Streets networks provide an invaluable source of information about the different temporal and spatial patterns emerging in our cities. These streets are often represented as graphs where intersections are modelled as nodes and streets as links between them. Previous work has shown that raster representations of the original data can be created through a learning algorithm on low-dimensional representations of the street networks. In contrast, models that capture high-level urban network metrics can be trained through convolutional neural networks. However, the detailed topological data is lost through the rasterisation of the street network. The models cannot recover this information from the image alone, failing to capture complex street network features. This paper proposes a model capable of inferring good representations directly from the street network. Specifically, we use a variational autoencoder with graph convolutional layers and a decoder that outputs a probabilistic fully-connected graph to learn latent representations that encode both local network structure and the spatial distribution of nodes. We train the model on thousands of street network segments and use the learnt representations to generate synthetic street configurations. Finally, we proposed a possible application to classify the urban morphology of different network segments by investigating their common characteristics in the learnt space.
翻訳日:2022-11-10 16:41:23 公開日:2022-11-09
# 意思決定による予測損失の補正によるタスク認識損失の一考察

A Note on Task-Aware Loss via Reweighing Prediction Loss by Decision-Regret ( http://arxiv.org/abs/2211.05116v1 )

ライセンス: Link先を確認
Connor Lawless and Angela Zhou(参考訳) 本稿では,文脈情報に基づいてコスト係数を予測可能な場合の確率線形最適化を解く,文脈線形最適化のための意思決定学習のベースラインを提案する。 我々は予測最適化の意思決定対応版を提案する。 我々は,意思決定予測器を得るためのコストの(重みのない)パイロット推定器が犯した決定後悔による予測誤差を再検討し,意思決定予測器からのコスト予測で最適化する。 この方法は、従来提案されていたエンドツーエンド学習アルゴリズムの勾配の有限差分、反復非依存近似として動機付けることができる。 このベースラインは、容易に利用可能な重み付き予測オラクルと線形最適化で実装が容易であり、予測誤差の最小化が凸である限り凸最適化で実装できる。 経験的に、このアプローチは、不特定なモデルで設定する"予測テーマ最適化"フレームワークよりも改善され、他のエンドツーエンドアプローチと競合することを示す。 したがって、そのシンプルさと使いやすさから、エンドツーエンドおよび意思決定学習のシンプルなベースラインとして提案する。

In this short technical note we propose a baseline for decision-aware learning for contextual linear optimization, which solves stochastic linear optimization when cost coefficients can be predicted based on context information. We propose a decision-aware version of predict-then-optimize. We reweigh the prediction error by the decision regret incurred by an (unweighted) pilot estimator of costs to obtain a decision-aware predictor, then optimize with cost predictions from the decision-aware predictor. This method can be motivated as a finite-difference, iterate-independent approximation of the gradients of previously proposed end-to-end learning algorithms; it is also consistent with previously suggested intuition for end-to-end learning. This baseline is computationally easy to implement with readily available reweighted prediction oracles and linear optimization, and can be implemented with convex optimization so long as the prediction error minimization is convex. Empirically, we demonstrate that this approach can lead to improvements over a "predict-then-optimize" framework for settings with misspecified models, and is competitive with other end-to-end approaches. Therefore, due to its simplicity and ease of use, we suggest it as a simple baseline for end-to-end and decision-aware learning.
翻訳日:2022-11-10 16:41:06 公開日:2022-11-09
# ディープネットワークのためのコールドスタートストリーミング学習

Cold Start Streaming Learning for Deep Networks ( http://arxiv.org/abs/2211.04624v1 )

ライセンス: Link先を確認
Cameron R. Wolfe and Anastasios Kyrillidis(参考訳) ニューラルネットワークを新たに使用可能なデータに動的に適応させる能力は、ディープラーニングアプリケーションに革命をもたらす。 ストリーミング学習(つまり、あるデータ例から一度に学習する)は、そのようなリアルタイム適応を可能にする可能性があるが、現在のアプローチ 一 ストリーミング中にネットワークパラメータの大部分を凍結すること i) 大規模なデータサブセットに対するオフラインのベース初期化手順に依存するため、パフォーマンスが損なわれ、適用性が制限される。 これらの欠点を軽減するために,我々は,リプレイとデータ拡張を組み合わせた深層ネットワークによるストリーミング学習のための,シンプルなエンドツーエンドアプローチであるCold Start Streaming Learning (CSSL)を提案する。 CSSLはストリーミング中にすべてのモデルパラメータを更新するため、アルゴリズムはランダムな初期化からストリーミングを開始することができ、ベースの初期化を任意にすることができる。 さらに、アルゴリズムの単純さは、ニューラルネットワークの接ランダム特徴(ntrf)の分析を用いて理論的収束保証を導出することを可能にする。 実験では、CIFAR100、ImageNet、Core50データセットの実験において、CSSLが既存のストリーミング学習のベースラインよりも優れています。 さらに,新しいマルチタスクストリーミング学習環境を提案し,この領域でCSSLが良好に動作することを示す。 簡単に言うと、CSSLはうまく機能し、ほとんどのストリーミング手法で採用されている複雑なマルチステップのトレーニングパイプラインが、パフォーマンスを犠牲にすることなく、シンプルなエンドツーエンドの学習アプローチに置き換えられることを示した。

The ability to dynamically adapt neural networks to newly-available data without performance deterioration would revolutionize deep learning applications. Streaming learning (i.e., learning from one data example at a time) has the potential to enable such real-time adaptation, but current approaches i) freeze a majority of network parameters during streaming and ii) are dependent upon offline, base initialization procedures over large subsets of data, which damages performance and limits applicability. To mitigate these shortcomings, we propose Cold Start Streaming Learning (CSSL), a simple, end-to-end approach for streaming learning with deep networks that uses a combination of replay and data augmentation to avoid catastrophic forgetting. Because CSSL updates all model parameters during streaming, the algorithm is capable of beginning streaming from a random initialization, making base initialization optional. Going further, the algorithm's simplicity allows theoretical convergence guarantees to be derived using analysis of the Neural Tangent Random Feature (NTRF). In experiments, we find that CSSL outperforms existing baselines for streaming learning in experiments on CIFAR100, ImageNet, and Core50 datasets. Additionally, we propose a novel multi-task streaming learning setting and show that CSSL performs favorably in this domain. Put simply, CSSL performs well and demonstrates that the complicated, multi-step training pipelines adopted by most streaming methodologies can be replaced with a simple, end-to-end learning approach without sacrificing performance.
翻訳日:2022-11-10 16:40:44 公開日:2022-11-09
# 内視鏡下マルチモーダルセグメンテーション改善のための超ピクセル誘導損失法

SUPRA: Superpixel Guided Loss for Improved Multi-modal Segmentation in Endoscopy ( http://arxiv.org/abs/2211.04658v1 )

ライセンス: Link先を確認
Rafael Martinez Garcia-Pe\~na, Mansoor Ali Teevno, Gilberto Ochoa-Ruiz, Sharib Ali(参考訳) ドメインシフトは医療画像コミュニティでよく知られた問題である。 特に、データが異なるモダリティを持つ内視鏡画像解析では、ディープラーニング(DL)手法の性能に悪影響を及ぼす。 言い換えれば、1つのモダリティで開発されたメソッドは異なるモダリティには使用できない。 しかし、実際の臨床環境では、内視鏡医は粘膜の視認性を改善するためにモダリティを切り替える。 本稿では,このようなシナリオでdlメソッドを使用できるドメイン一般化手法について検討する。 この拡張のために, SUPeRpixel Augmented 法では "SUPRA" と呼ぶ, Simple Linear Iterative Clustering (SLIC) で生成されたスーパーピクセルを提案する。 supraはまず,新しい損失"スライス"を利用したプリミティブセグメンテーションマスクを生成し,精度と色に一貫性のあるセグメンテーションを奨励する。 SLICLossとバイナリクロスエントロピー損失(BCE)を組み合わせることで、大きなドメインシフトを示すデータによるモデルの一般化性を向上させることができることを示す。 本研究では,バレット食道とポリープの画像を含むEndoUDAデータセットを用いて,バニラU-Net上の新規化合物の損失を検証する。 その結果,本手法では,ベースラインに比べて目標領域の25%近くの改善が得られた。

Domain shift is a well-known problem in the medical imaging community. In particular, for endoscopic image analysis where the data can have different modalities the performance of deep learning (DL) methods gets adversely affected. In other words, methods developed on one modality cannot be used for a different modality. However, in real clinical settings, endoscopists switch between modalities for better mucosal visualisation. In this paper, we explore the domain generalisation technique to enable DL methods to be used in such scenarios. To this extend, we propose to use super pixels generated with Simple Linear Iterative Clustering (SLIC) which we refer to as "SUPRA" for SUPeRpixel Augmented method. SUPRA first generates a preliminary segmentation mask making use of our new loss "SLICLoss" that encourages both an accurate and color-consistent segmentation. We demonstrate that SLICLoss when combined with Binary Cross Entropy loss (BCE) can improve the model's generalisability with data that presents significant domain shift. We validate this novel compound loss on a vanilla U-Net using the EndoUDA dataset, which contains images for Barret's Esophagus and polyps from two modalities. We show that our method yields an improvement of nearly 25% in the target domain set compared to the baseline.
翻訳日:2022-11-10 16:40:15 公開日:2022-11-09
# ディープニューラルネットワークモデルの記述のロバスト性について:サーベイ

On the Robustness of Explanations of Deep Neural Network Models: A Survey ( http://arxiv.org/abs/2211.04780v1 )

ライセンス: Link先を確認
Amlan Jyoti, Karthik Balaji Ganesh, Manoj Gayala, Nandita Lakshmi Tunuguntla, Sandesh Kamath, Vineeth N Balasubramanian(参考訳) 説明可能性は、機械学習モデルの責任と信頼に値する使用の基盤として広く述べられている。 Deep Neural Network(DNN)モデルのユビキタスな使用により、リスクに敏感で安全に重要なドメインに拡張され、これらのモデルの決定を説明する多くの方法が提案されている。 近年では、このような説明を小さな入力の摂動によって歪め(攻撃)ることができることを示す努力も行われている。 説明可能性の方法自体をレビューする調査は数多く行われているが、DNNモデルの説明の堅牢性を研究するために提案された様々な方法とメトリクスを同化するための努力は、これまでなかった。 本研究では,dnnモデルの説明を研究し,理解し,攻撃し,防御する手法に関する総合的な調査を行う。 また,説明方法の評価に用いるさまざまな指標の詳細なレビューや,帰属攻撃や防御手法について述べる。 我々は、DNNモデル予測の堅牢な説明を保証するための教訓とコミュニティへの取り組みを締めくくる。

Explainability has been widely stated as a cornerstone of the responsible and trustworthy use of machine learning models. With the ubiquitous use of Deep Neural Network (DNN) models expanding to risk-sensitive and safety-critical domains, many methods have been proposed to explain the decisions of these models. Recent years have also seen concerted efforts that have shown how such explanations can be distorted (attacked) by minor input perturbations. While there have been many surveys that review explainability methods themselves, there has been no effort hitherto to assimilate the different methods and metrics proposed to study the robustness of explanations of DNN models. In this work, we present a comprehensive survey of methods that study, understand, attack, and defend explanations of DNN models. We also present a detailed review of different metrics used to evaluate explanation methods, as well as describe attributional attack and defense methods. We conclude with lessons and take-aways for the community towards ensuring robust explanations of DNN model predictions.
翻訳日:2022-11-10 16:39:43 公開日:2022-11-09
# 脳梗塞急性期における最終梗塞予測

Final infarct prediction in acute ischemic stroke ( http://arxiv.org/abs/2211.04850v1 )

ライセンス: Link先を確認
Jeroen Bertels, David Robben, Dirk Vandermeulen, Robin Lemmens(参考訳) この記事では、各人体の制御中心である脳に焦点を当てる。 脳血管の役割と、その複雑なメカニズムが被験者によってどのように異なるのかを指摘する。 次に,急性期脳梗塞の特定の病態,すなわち急性期脳梗塞を強調し,その治療の定義に医用画像とその解析がどのように用いられるかを示す。 我々は、ミスマッチ基準を用いて、コアペンブラの概念が実際にどのように使われているか、機械学習を用いて、デコンボリューションまたは畳み込みニューラルネットワークを介して最終梗塞の予測を行うかを示す。

This article focuses on the control center of each human body: the brain. We will point out the pivotal role of the cerebral vasculature and how its complex mechanisms may vary between subjects. We then emphasize a specific acute pathological state, i.e., acute ischemic stroke, and show how medical imaging and its analysis can be used to define the treatment. We show how the core-penumbra concept is used in practice using mismatch criteria and how machine learning can be used to make predictions of the final infarct, either via deconvolution or convolutional neural networks.
翻訳日:2022-11-10 16:39:15 公開日:2022-11-09
# ユーザ生成コンテンツの映像品質評価における美的・技術的効果の相違

Disentangling Aesthetic and Technical Effects for Video Quality Assessment of User Generated Content ( http://arxiv.org/abs/2211.04894v1 )

ライセンス: Link先を確認
Haoning Wu, Liang Liao, Chaofeng Chen, Jingwen Hou, Annan Wang, Wenxiu Sun, Qiong Yan, Weisi Lin(参考訳) 近年,ユーザ生成コンテンツ(UGC)ビデオがインターネットを支配している。 UGCビデオの品質を客観的に評価するために多くの手法が試みられているが、UGC-VQA問題における人間の品質知覚のメカニズムはまだ解明されていない。 UGC-VQA問題における複雑な映像生成プロセスによって生じる審美的品質問題と技術的品質問題の影響を解消することを目的として,品質認識機構をより深く説明し,より堅牢な表現を学習する。 そこで本研究では,各課題に特化して設計された分割ビューを用いて2つの個別評価器を訓練する限定ビューバイアスドスーパービジョン(LVBS)方式を提案する。 LVBS方式下での審美品質評価器 (AQE) と技術品質評価器 (TQE) から構成され,UGC-VQA問題において提案した遠方形映像品質評価器 (DOVER) は, KoNViD-1kでは0.91 SRCC, LSVQでは0.89 SRCC, YouTube-UGCでは0.88 SRCC) に優れていた。 さらに重要なことは、我々の盲目主観的研究は、DOVERの別個の評価器が、異なる品質問題に対する人間の知覚と効果的に一致できることを証明している。 コードとデモはhttps://github.com/teowu/dover.comで公開されている。

User-generated-content (UGC) videos have dominated the Internet during recent years. While many methods attempt to objectively assess the quality of these UGC videos, the mechanisms of human quality perception in the UGC-VQA problem is still yet to be explored. To better explain the quality perception mechanisms and learn more robust representations, we aim to disentangle the effects of aesthetic quality issues and technical quality issues risen by the complicated video generation processes in the UGC-VQA problem. To overcome the absence of respective supervisions during disentanglement, we propose the Limited View Biased Supervisions (LVBS) scheme where two separate evaluators are trained with decomposed views specifically designed for each issue. Composed of an Aesthetic Quality Evaluator (AQE) and a Technical Quality Evaluator (TQE) under the LVBS scheme, the proposed Disentangled Objective Video Quality Evaluator (DOVER) reach excellent performance (0.91 SRCC for KoNViD-1k, 0.89 SRCC for LSVQ, 0.88 SRCC for YouTube-UGC) in the UGC-VQA problem. More importantly, our blind subjective studies prove that the separate evaluators in DOVER can effectively match human perception on respective disentangled quality issues. Codes and demos are released in https://github.com/teowu/dover.
翻訳日:2022-11-10 16:39:03 公開日:2022-11-09
# バイオマーカー検出のための臨床コントラスト学習

Clinical Contrastive Learning for Biomarker Detection ( http://arxiv.org/abs/2211.05092v1 )

ライセンス: Link先を確認
Kiran Kokilepersaud and Mohit Prabhushankar and Ghassan AlRegib(参考訳) 本稿では,臨床データから抽出可能なラベルに基づく医用画像の対比学習のための,新しい正負のセット選択戦略を提案する。 医学分野では、診断と治療のプロセスの異なる段階で異なる目的のために機能するデータのための様々なラベルが存在する。 臨床ラベルとバイオマーカーは2つの例である。 一般的に、臨床ラベルは定期的な臨床治療中に定期的に収集されるため、より多くの量で入手しやすいが、バイオマーカーラベルは専門家による分析と解釈を必要とする。 眼科領域では,光学コヒーレンストモグラフィー(OCT)スキャンで現れるバイオマーカー構造と臨床値の相関が示されている。 臨床とバイオマーカーデータの関係を利用して,バイオマーカー分類の性能を向上させる。 これは、バイオマーカーラベルを使わずに、大量の臨床データを擬似ラベルとして活用することで、教師付きコントラスト損失のあるバックボーンネットワークをトレーニングするための正と負のインスタンスを選択することで達成される。 このようにして、バックボーンネットワークは、利用可能な臨床データ分布に合わせて表現空間を学習する。 次に、この方法で訓練されたネットワークを、クロスエントロピー損失を伴うバイオマーカーラベルデータの少ない量で微調整し、これらの主要な疾患指標をoctスキャンから直接分類する。 本手法は, 個々のバイオマーカー検出精度において, 最大5%の精度で自己監督手法の精度を向上することを示した。

This paper presents a novel positive and negative set selection strategy for contrastive learning of medical images based on labels that can be extracted from clinical data. In the medical field, there exists a variety of labels for data that serve different purposes at different stages of a diagnostic and treatment process. Clinical labels and biomarker labels are two examples. In general, clinical labels are easier to obtain in larger quantities because they are regularly collected during routine clinical care, while biomarker labels require expert analysis and interpretation to obtain. Within the field of ophthalmology, previous work has shown that clinical values exhibit correlations with biomarker structures that manifest within optical coherence tomography (OCT) scans. We exploit this relationship between clinical and biomarker data to improve performance for biomarker classification. This is accomplished by leveraging the larger amount of clinical data as pseudo-labels for our data without biomarker labels in order to choose positive and negative instances for training a backbone network with a supervised contrastive loss. In this way, a backbone network learns a representation space that aligns with the clinical data distribution available. Afterwards, we fine-tune the network trained in this manner with the smaller amount of biomarker labeled data with a cross-entropy loss in order to classify these key indicators of disease directly from OCT scans. Our method is shown to outperform state of the art self-supervised methods by as much as 5% in terms of accuracy on individual biomarker detection.
翻訳日:2022-11-10 16:38:32 公開日:2022-11-09
# バイタリティ:線形テイラー注意による視覚変圧器加速度の低ランクとスパース近似の統一

ViTALiTy: Unifying Low-rank and Sparse Approximation for Vision Transformer Acceleration with a Linear Taylor Attention ( http://arxiv.org/abs/2211.05109v1 )

ライセンス: Link先を確認
Jyotikrishna Dass, Shang Wu, Huihong Shi, Chaojian Li, Zhifan Ye, Zhongfeng Wang and Yingyan Lin(参考訳) Vision Transformer (ViT)は、様々なコンピュータビジョンアプリケーションのための畳み込みニューラルネットワークの競合代替として登場した。 具体的には、ViTマルチヘッドアテンションレイヤは、全体像に情報をグローバルに埋め込むことができる。 それにもかかわらず、そのような注意行列の計算と保存はパッチの数に二次的なコスト依存を伴い、その実現可能な効率とスケーラビリティを制限し、リソース制約のあるデバイス上でより広範な実世界のvitアプリケーションを禁止している。 スパースアテンションはNLPモデルのハードウェアアクセラレーション効率を向上させる上で有望な方向であることが示されている。 しかし、ViTモデルを加速する体系的なアプローチはいまだに欠けている。 上記のギャップを埋めるため,VitaliTy と呼ばれる,アルゴリズムにハードウェアを組み込んだ最初のフレームワークを提案し,ViT の推論効率を向上する。 NLP用のスパシティベースのTransformerアクセラレータとは異なり、ViTALiTyはViTの注目点の低ランクとスパースの両方を統一する。 アルゴリズムレベルでは,1次テイラー注意によるドット積ソフトマックス操作をローランク成分として行平均中心に近似し,注目ブロックのコストを線形化し,疎度に基づく正規化を導入することにより精度を高める。 ハードウェアレベルでは、ViTALiTyの線形Taylorアテンションから得られる作業負荷とパイプラインをよりよく活用する専用のアクセラレータを開発し、低ランクコンポーネントのみの実行を必要とし、ハードウェア効率をさらに向上させる。 広範な実験とアブレーションの研究によって、バイタリティは、最先端のソリューションに関して、同等の精度でエンドツーエンドの効率(例えば、$3\times$高速で$3\times$エネルギー効率)をもたらすことが証明された。

Vision Transformer (ViT) has emerged as a competitive alternative to convolutional neural networks for various computer vision applications. Specifically, ViT multi-head attention layers make it possible to embed information globally across the overall image. Nevertheless, computing and storing such attention matrices incurs a quadratic cost dependency on the number of patches, limiting its achievable efficiency and scalability and prohibiting more extensive real-world ViT applications on resource-constrained devices. Sparse attention has been shown to be a promising direction for improving hardware acceleration efficiency for NLP models. However, a systematic counterpart approach is still missing for accelerating ViT models. To close the above gap, we propose a first-of-its-kind algorithm-hardware codesigned framework, dubbed ViTALiTy, for boosting the inference efficiency of ViTs. Unlike sparsity-based Transformer accelerators for NLP, ViTALiTy unifies both low-rank and sparse components of the attention in ViTs. At the algorithm level, we approximate the dot-product softmax operation via first-order Taylor attention with row-mean centering as the low-rank component to linearize the cost of attention blocks and further boost the accuracy by incorporating a sparsity-based regularization. At the hardware level, we develop a dedicated accelerator to better leverage the resulting workload and pipeline from ViTALiTy's linear Taylor attention which requires the execution of only the low-rank component, to further boost the hardware efficiency. Extensive experiments and ablation studies validate that ViTALiTy offers boosted end-to-end efficiency (e.g., $3\times$ faster and $3\times$ energy-efficient) under comparable accuracy, with respect to the state-of-the-art solution.
翻訳日:2022-11-10 16:38:10 公開日:2022-11-09
# バインディングなしの機械学習排他限界

Machine-Learned Exclusion Limits without Binning ( http://arxiv.org/abs/2211.04806v1 )

ライセンス: Link先を確認
Ernesto Arganda, Andres D. Perez, Martin de los Rios, Rosa Mar\'ia Sand\'a Seoane(参考訳) MLL(Machine-Learned Likelihoods)は、現代の機械学習分類技術と確率に基づく推論テストを組み合わせることで、高次元データセットの実験感度を推定する手法である。 排除仮説テストを含むmll法を拡張し,カーネル密度推定器の追加により,結果の1次元信号と背景確率密度関数を抽出するために,分類器出力をビン化する必要がなくなることを示した。 まず,実確率分布関数が知られている多変量ガウス分布で生成された玩具モデルについて実験を行った。 次に, hl-lhc における新物理学探索において, $z^\prime$ boson がレプトン対に崩壊する場合に適用し, 95\% cl 排他限界を推定する手法の性能と, 機械学習分類器出力にビン化確率を適用した結果との比較を行った。

Machine-Learned Likelihoods (MLL) is a method that, by combining modern machine-learning classification techniques with likelihood-based inference tests, allows to estimate the experimental sensitivity of high-dimensional data sets. We extend the MLL method by including the exclusion hypothesis tests and show that the addition of Kernel Density Estimators avoids the need to bin the classifier output in order to extract the resulting one-dimensional signal and background probability density functions. We first test our method on toy models generated with multivariate Gaussian distributions, where the true probability distribution functions are known. We then apply it to a case of interest in the search for new physics at the HL-LHC, in which a $Z^\prime$ boson decays into lepton pairs, comparing the performance of our method for estimating 95\% CL exclusion limits to the results obtained applying a binned likelihood to the machine-learning classifier output.
翻訳日:2022-11-10 16:37:15 公開日:2022-11-09
# ParGAN: 真の並列変換を学ぶ

ParGAN: Learning Real Parametrizable Transformations ( http://arxiv.org/abs/2211.04996v1 )

ライセンス: Link先を確認
Diego Martin Arroyo, Alessio Tonioni, Federico Tombari(参考訳) 現在の画像から画像への翻訳方法は説得力のある結果をもたらすが、既存のメカニズムはしばしば制限され直感的ではないため、応用された変換は制御が難しい。 本稿では、シンプルで直感的な制御で画像変換を学習するサイクル一貫性GANフレームワークの一般化であるParGANを提案する。 提案するジェネレータは、画像と変換のパラメータの両方を入力として取ります。 我々は、入力画像の内容を保存するためにこのネットワークをトレーニングし、その結果が与えられたパラメトリゼーションと一致していることを保証する。 当社のアプローチでは、ペアデータを必要としないため、複数のタスクやデータセットで変換を学習することが可能です。 アノテーション付きパラメトリゼーションを伴わない非結合画像ドメインでは、フレームワークがスムーズな補間を生成でき、同時に複数の変換を学習できることを示す。

Current methods for image-to-image translation produce compelling results, however, the applied transformation is difficult to control, since existing mechanisms are often limited and non-intuitive. We propose ParGAN, a generalization of the cycle-consistent GAN framework to learn image transformations with simple and intuitive controls. The proposed generator takes as input both an image and a parametrization of the transformation. We train this network to preserve the content of the input image while ensuring that the result is consistent with the given parametrization. Our approach does not require paired data and can learn transformations across several tasks and datasets. We show how, with disjoint image domains with no annotated parametrization, our framework can create smooth interpolations as well as learn multiple transformations simultaneously.
翻訳日:2022-11-10 16:30:45 公開日:2022-11-09
# 無人地上車両の局所化のための効率的なニューラルマッピング

Efficient Neural Mapping for Localisation of Unmanned Ground Vehicles ( http://arxiv.org/abs/2211.04718v1 )

ライセンス: Link先を確認
Christopher J. Holder and Muhammad Shafique(参考訳) 視覚データからのグローバルローカライズは多くのロボティクス分野に適用できる困難な問題である。 以前の研究によると、ニューラルネットワークは環境の画像をその環境内の絶対的なカメラポーズにマッピングするように訓練でき、その過程で暗黙のニューラルマッピングを学ぶことができる。 本研究では, 実世界のロボットシナリオに適用可能性を評価し, 問題を2次元に制限し, トレーニングデータの量を大幅に増加させることで, 組込みプラットフォーム上でリアルタイム推論が可能なコンパクトモデルを用いて, 数センチの局所化精度を実現できることを示す。 私たちはトレーニングしたモデルをugvプラットフォームにデプロイし、waypointナビゲーションタスクでその効果を示しています。 この作業に加えて、シミュレーションと実環境で構成された新しいローカライズデータセットをリリースします。

Global localisation from visual data is a challenging problem applicable to many robotics domains. Prior works have shown that neural networks can be trained to map images of an environment to absolute camera pose within that environment, learning an implicit neural mapping in the process. In this work we evaluate the applicability of such an approach to real-world robotics scenarios, demonstrating that by constraining the problem to 2-dimensions and significantly increasing the quantity of training data, a compact model capable of real-time inference on embedded platforms can be used to achieve localisation accuracy of several centimetres. We deploy our trained model onboard a UGV platform, demonstrating its effectiveness in a waypoint navigation task. Along with this work we will release a novel localisation dataset comprising simulated and real environments, each with training samples numbering in the tens of thousands.
翻訳日:2022-11-10 16:30:32 公開日:2022-11-09
# テキスト上の複雑な推論のための説明可能な説明可能な方法

Accountable and Explainable Methods for Complex Reasoning over Text ( http://arxiv.org/abs/2211.04946v1 )

ライセンス: Link先を確認
Pepa Atanasova(参考訳) 機械学習(ML)モデルの主な関心事は、その不透明さである。 それらはますます多くのアプリケーションにデプロイされ、しばしばブラックボックスとして動作し、予測の説明を提供しない。 とりわけ、モデルの理論的根拠の理解の欠如に伴う潜在的な害には、プライバシー侵害、敵対的操作、不公平な差別が含まれる。 その結果、MLモデルの説明責任と透明性は、政策と法学、哲学、コンピュータ科学の研究によって批判的なデシダータとして提示された。 計算機科学において、MLモデルの意思決定プロセスは、説明責任と透明性の方法を開発することによって研究されている。 敵攻撃や診断データセットなどのアカウンタビリティメソッドは、悪意のある操作やシステム障害につながる可能性のあるMLモデルの脆弱性を公開する。 透明性の手法は、モデルが関連する利害関係者の信頼を得て、モデル決定における誤りと不公平を発見できる可能性を明らかにする。 この目的のためには、透明性の手法は、例えば、モデルの基本的理性に堅牢で忠実であるなど、説明責任の要件を満たす必要がある。 この論文は、テキストによる複雑な推論タスクのために開発されたMLモデルのアカウンタビリティと透明性の領域における、私たちの集合的知識を拡大する私の研究を提示する。

A major concern of Machine Learning (ML) models is their opacity. They are deployed in an increasing number of applications where they often operate as black boxes that do not provide explanations for their predictions. Among others, the potential harms associated with the lack of understanding of the models' rationales include privacy violations, adversarial manipulations, and unfair discrimination. As a result, the accountability and transparency of ML models have been posed as critical desiderata by works in policy and law, philosophy, and computer science. In computer science, the decision-making process of ML models has been studied by developing accountability and transparency methods. Accountability methods, such as adversarial attacks and diagnostic datasets, expose vulnerabilities of ML models that could lead to malicious manipulations or systematic faults in their predictions. Transparency methods explain the rationales behind models' predictions gaining the trust of relevant stakeholders and potentially uncovering mistakes and unfairness in models' decisions. To this end, transparency methods have to meet accountability requirements as well, e.g., being robust and faithful to the underlying rationales of a model. This thesis presents my research that expands our collective knowledge in the areas of accountability and transparency of ML models developed for complex reasoning tasks over text.
翻訳日:2022-11-10 16:30:17 公開日:2022-11-09
# LiCo-Net: ハードウェア効率の良いキーワードスポッティングのための線形畳み込みネットワーク

LiCo-Net: Linearized Convolution Network for Hardware-efficient Keyword Spotting ( http://arxiv.org/abs/2211.04635v1 )

ライセンス: Link先を確認
Haichuan Yang, Zhaojun Yang, Li Wan, Biqiao Zhang, Yangyang Shi, Yiteng Huang, Ivaylo Enchev, Limin Tang, Raziel Alvarez, Ming Sun, Xin Lei, Raghuraman Krishnamoorthi, Vikas Chandra(参考訳) 本稿では,キーワードスポッティングのためのハードウェア効率の良いLinearized Convolution Network(LiCo-Net)を提案する。 マイクロコントローラのような低消費電力プロセッサユニットに最適化されている。 mlオペレータは、電力効率のハードウェア上で異種効率プロファイルを示す。 正確な理論計算コストを考えると、int8演算子はフロート演算子よりも計算効率が高く、線形層は他の層よりも効率的であることが多い。 提案するlico-netは,int8線形演算子を推論フェーズで効率的に使用し,訓練段階でのストリーミング畳み込みを適用し,高いモデル容量を維持する2相システムである。 実験の結果,LiCo-Netはハードウェア効率において単一値分解フィルタ(SVDF)よりも高い性能を示し,オンパー検出性能を示した。 SVDFと比較して、LiCo-NetはHiFi4 DSPでサイクルを40%削減する。

This paper proposes a hardware-efficient architecture, Linearized Convolution Network (LiCo-Net) for keyword spotting. It is optimized specifically for low-power processor units like microcontrollers. ML operators exhibit heterogeneous efficiency profiles on power-efficient hardware. Given the exact theoretical computation cost, int8 operators are more computation-effective than float operators, and linear layers are often more efficient than other layers. The proposed LiCo-Net is a dual-phase system that uses the efficient int8 linear operators at the inference phase and applies streaming convolutions at the training phase to maintain a high model capacity. The experimental results show that LiCo-Net outperforms single-value decomposition filter (SVDF) on hardware efficiency with on-par detection performance. Compared to SVDF, LiCo-Net reduces cycles by 40% on HiFi4 DSP.
翻訳日:2022-11-10 16:28:58 公開日:2022-11-09
# ストリーミングによる粒子内シミュレーションのための連続学習オートエンコーダ訓練

Continual learning autoencoder training for a particle-in-cell simulation via streaming ( http://arxiv.org/abs/2211.04770v1 )

ライセンス: Link先を確認
Patrick Stiller, Varun Makdani, Franz P\"oschel, Richard Pausch, Alexander Debus, Michael Bussmann, Nico Hoffmann(参考訳) 今度のexascale時代は、新しい世代の物理シミュレーションを提供するだろう。 これらのシミュレーションは時空間分解能が高く、大量のシミュレーションデータをディスクに保存することはほぼ不可能であるため、機械学習モデルのトレーニングに影響を与える。 したがって,今後のエクサスケール時代のシミュレーションのために,機械学習モデルのトレーニングを再考する必要がある。 この研究は、ディスクにデータを格納することなく、実行中のシミュレーションにニューラルネットワークを同時にトレーニングするアプローチを示す。 トレーニングパイプラインは、インメモリストリーミングによってトレーニングデータにアクセスする。 さらに,モデルの一般化を促進するために,連続学習領域からの手法を適用する。 我々は,レーザーウェイクフィールド加速粒子対セルシミュレーションを並行して訓練した3次元オートエンコーダのトレーニングでパイプラインをテストした。 さらに,様々な連続学習手法を実験し,その一般化に対する効果を検討した。

The upcoming exascale era will provide a new generation of physics simulations. These simulations will have a high spatiotemporal resolution, which will impact the training of machine learning models since storing a high amount of simulation data on disk is nearly impossible. Therefore, we need to rethink the training of machine learning models for simulations for the upcoming exascale era. This work presents an approach that trains a neural network concurrently to a running simulation without storing data on a disk. The training pipeline accesses the training data by in-memory streaming. Furthermore, we apply methods from the domain of continual learning to enhance the generalization of the model. We tested our pipeline on the training of a 3d autoencoder trained concurrently to laser wakefield acceleration particle-in-cell simulation. Furthermore, we experimented with various continual learning methods and their effect on the generalization.
翻訳日:2022-11-10 16:28:45 公開日:2022-11-09
# 正のモメンタムによる外勾配は、クロスシェープジャコビアンスペクトルを持つゲームに最適である

Extragradient with Positive Momentum is Optimal for Games with Cross-Shaped Jacobian Spectrum ( http://arxiv.org/abs/2211.04659v1 )

ライセンス: Link先を確認
Junhyung Lyle Kim, Gauthier Gidel, Anastasios Kyrillidis, Fabian Pedregosa(参考訳) 滑らかなゲーム上での収束挙動が原因で,近年,段階的な手法が注目されている。 n$-player の微分可能ゲームでは、ベクトル場のヤコビアンの固有値が複素平面上に分布し、古典的(すなわち単一プレイヤー)の最小化と比較してより畳み込みのあるダイナミクスを示す。 本研究では,複素平面上の\emph{cross-shaped} ジャコビアンスペクトルを持つゲームを最適化するための運動量を持つ超次数の多項式に基づく解析を行う。 結果は2つあります まず、ハイパーパラメータのセットアップに基づいて、運動量を持つ退化度は3つの異なる収束モードを示す: 固有値が実数直線上で分散されたとき、$ii)$ は実数直線上で複素共役と共に分布し、$iii)$ は複素共役としてのみ成立する。 そして、生成逆数ネットワークのトレーニングで見られるように、ヤコビアンの固有値が \emph{cross-shaped} 構造を持つ場合、$$$(ii)$に焦点をあてる。 この問題のクラスでは、運動量外勾配法の最適ハイパーパラメータを導出し、それが加速収束率を達成することを示す。

The extragradient method has recently gained increasing attention, due to its convergence behavior on smooth games. In $n$-player differentiable games, the eigenvalues of the Jacobian of the vector field are distributed on the complex plane, exhibiting more convoluted dynamics compared to classical (i.e., single player) minimization. In this work, we take a polynomial-based analysis of the extragradient with momentum for optimizing games with \emph{cross-shaped} Jacobian spectrum on the complex plane. We show two results. First, based on the hyperparameter setup, the extragradient with momentum exhibits three different modes of convergence: when the eigenvalues are distributed $i)$ on the real line, $ii)$ both on the real line along with complex conjugates, and $iii)$ only as complex conjugates. Then, we focus on the case $ii)$, i.e., when the eigenvalues of the Jacobian have \emph{cross-shaped} structure, as observed in training generative adversarial networks. For this problem class, we derive the optimal hyperparameters of the momentum extragradient method, and show that it achieves an accelerated convergence rate.
翻訳日:2022-11-10 16:28:34 公開日:2022-11-09
# 量子機械学習のためのリソースフラガー最適化器

Resource frugal optimizer for quantum machine learning ( http://arxiv.org/abs/2211.04965v1 )

ライセンス: Link先を確認
Charles Moussa, Max Hunter Gordon, Michal Baczyk, M. Cerezo, Lukasz Cincio, Patrick J. Coles(参考訳) qml(quantum machine learning)とも呼ばれる量子エンハンスドデータサイエンスは、短期量子コンピュータの応用として注目されている。 変分QMLアルゴリズムは、特に量子データを含む場合、実際のハードウェアにおける実用的な問題を解く可能性がある。 しかし、これらのアルゴリズムのトレーニングは困難であり、最適化手順の調整が求められる。 特に、QMLアプリケーションは、大きなデータセットに関連するため、ショットカウントのオーバーヘッドが大きい可能性がある。 本研究では,損失関数を定義する測度演算子だけでなく,データセット上での同時ランダムサンプリングを提唱する。 我々は、多くのQMLアプリケーションを含む非常に一般的な損失関数を考察し、その勾配の偏りのない推定器を構築する方法を示す。 これにより、Refoqus (Resource Frugal Optimizer for QUantum Stochastic gradient descent) と呼ばれるショットフルーガル勾配勾配最適化器を提案することができる。 私たちの数値は、refoqusは、測定演算子単独でサンプルを最適化するオプティマイザと比較しても、数桁のショットコストを節約できることを示している。

Quantum-enhanced data science, also known as quantum machine learning (QML), is of growing interest as an application of near-term quantum computers. Variational QML algorithms have the potential to solve practical problems on real hardware, particularly when involving quantum data. However, training these algorithms can be challenging and calls for tailored optimization procedures. Specifically, QML applications can require a large shot-count overhead due to the large datasets involved. In this work, we advocate for simultaneous random sampling over both the dataset as well as the measurement operators that define the loss function. We consider a highly general loss function that encompasses many QML applications, and we show how to construct an unbiased estimator of its gradient. This allows us to propose a shot-frugal gradient descent optimizer called Refoqus (REsource Frugal Optimizer for QUantum Stochastic gradient descent). Our numerics indicate that Refoqus can save several orders of magnitude in shot cost, even relative to optimizers that sample over measurement operators alone.
翻訳日:2022-11-10 16:28:10 公開日:2022-11-09
# グラフに基づくデータ評価とルール推論によるDeep Explainable Learning

Deep Explainable Learning with Graph Based Data Assessing and Rule Reasoning ( http://arxiv.org/abs/2211.04693v1 )

ライセンス: Link先を確認
Yuanlong Li, Gaopan Huang, Min Zhou, Chuan Fu, Honglin Qiao, Yan He(参考訳) 説明可能な分類器の学習は、しばしば低い精度のモデルや巨大なルールセットで終わるが、深層モデルの学習は、通常、大規模にノイズの多いデータを扱うことができるが、その結果を説明するのが難しく、一般化が弱い。 このギャップを緩和するために,ノイズハンドリングにおける深いモデルの利点と,エキスパートルールに基づく解釈可能性を組み合わせた,エンドツーエンドの深い説明可能な学習手法を提案する。 具体的には,各観測結果の相関関係をグラフとしてモデル化した深部データ評価モデルを学習し,その出力を重要データの特徴抽出に用いることを提案する。 主要な機能は、トレーニング可能なパラメータを持つノイズの多いエキスパートルールに従って構築されたルールネットワークに入力される。 これらのモデルが相関しているため、ルール分類損失を利用してルール学習モデルとデータ評価モデルを同時に最適化するエンドツーエンドのトレーニングフレームワークを提案する。 ルールベースの計算は微分不可能であるため、ルール学習モデルからデータ評価モデルへの勾配情報を運ぶための勾配リンク探索モジュールを提案する。 提案手法は産業生産システムにおいて,適切な深層アンサンブルベースラインと比較して高い予測精度,より高い一般化安定性,より優れた解釈性を示すとともに,純粋なルールベースアプローチよりもはるかに優れた適合力を示す。

Learning an explainable classifier often results in low accuracy model or ends up with a huge rule set, while learning a deep model is usually more capable of handling noisy data at scale, but with the cost of hard to explain the result and weak at generalization. To mitigate this gap, we propose an end-to-end deep explainable learning approach that combines the advantage of deep model in noise handling and expert rule-based interpretability. Specifically, we propose to learn a deep data assessing model which models the data as a graph to represent the correlations among different observations, whose output will be used to extract key data features. The key features are then fed into a rule network constructed following predefined noisy expert rules with trainable parameters. As these models are correlated, we propose an end-to-end training framework, utilizing the rule classification loss to optimize the rule learning model and data assessing model at the same time. As the rule-based computation is none-differentiable, we propose a gradient linking search module to carry the gradient information from the rule learning model to the data assessing model. The proposed method is tested in an industry production system, showing comparable prediction accuracy, much higher generalization stability and better interpretability when compared with a decent deep ensemble baseline, and shows much better fitting power than pure rule-based approach.
翻訳日:2022-11-10 16:21:29 公開日:2022-11-09
# 強化学習における意味的ノベルティの基礎モデル

Foundation Models for Semantic Novelty in Reinforcement Learning ( http://arxiv.org/abs/2211.04878v1 )

ライセンス: Link先を確認
Tarun Gupta, Peter Karkus, Tong Che, Danfei Xu, Marco Pavone(参考訳) 環境を効果的に探索することは強化学習(RL)の重要な課題である。 本研究では,世界に関するドメインに依存しない意味的視覚言語知識を豊富にエンコードするコントラスト言語画像事前学習(CLIP)のような基礎モデルに基づく,新たな本質的な報酬を定義することで,この問題に対処する。 具体的には、我々の本質的な報酬は、ターゲットのRLタスクに対して微調整や学習を行わずに、事前訓練されたCLIP埋め込みに基づいて定義される。 我々は,クリップに基づく内在的な報酬が意味的に意味のある状態への探索を促進し,スパース・リワードの手続き的生成環境への挑戦において最先端の手法を上回ることを実証する。

Effectively exploring the environment is a key challenge in reinforcement learning (RL). We address this challenge by defining a novel intrinsic reward based on a foundation model, such as contrastive language image pretraining (CLIP), which can encode a wealth of domain-independent semantic visual-language knowledge about the world. Specifically, our intrinsic reward is defined based on pre-trained CLIP embeddings without any fine-tuning or learning on the target RL task. We demonstrate that CLIP-based intrinsic rewards can drive exploration towards semantically meaningful states and outperform state-of-the-art methods in challenging sparse-reward procedurally-generated environments.
翻訳日:2022-11-10 16:21:05 公開日:2022-11-09
# ベイズネットワークを用いたうつ病とその症状の堅牢な予測のためのマルチモーダルデータと専門家の意見の組み合わせ

Utilising Bayesian Networks to combine multimodal data and expert opinion for the robust prediction of depression and its symptoms ( http://arxiv.org/abs/2211.04924v1 )

ライセンス: Link先を確認
Salvatore Fara, Orlaith Hickey, Alexandra Georgescu, Stefano Goria, Emilia Molimpakis, Nicholas Cummins(参考訳) 行動的および認知的信号を用いた大うつ病性障害(mdd)の存在の予測は非常に非自明な作業である。 MDDの異種臨床プロファイルは、任意の音声、表情、および/または観察された認知パターンが、うつ症状のユニークな組み合わせと関連していることを意味する。 従来の判別機械学習モデルは、この異質性を堅牢にモデル化する複雑さを欠いている可能性がある。 しかし、ベイジアンネットワークはそのようなシナリオに適しているかもしれない。 これらのネットワークは確率的グラフィカルモデルであり、条件依存を明示的に捉えることにより、確率変数の集合上の合同確率分布を効率的に記述する。 このフレームワークは、モデルのグラフィカルな構造に専門家の意見を組み込む可能性を提供し、説明可能なモデル予測を生成し、予測の不確実性について通知し、欠落したデータを自然に処理することで、標準的な差別的モデリングよりもさらなる利点を提供する。 本研究では,抑うつ,抑うつ症状,胸腺で収集された発話,表情,認知ゲームデータから得られた特徴との関係を捉えるために,ベイズ的枠組みを適用した。

Predicting the presence of major depressive disorder (MDD) using behavioural and cognitive signals is a highly non-trivial task. The heterogeneous clinical profile of MDD means that any given speech, facial expression and/or observed cognitive pattern may be associated with a unique combination of depressive symptoms. Conventional discriminative machine learning models potentially lack the complexity to robustly model this heterogeneity. Bayesian networks, however, may instead be well-suited to such a scenario. These networks are probabilistic graphical models that efficiently describe the joint probability distribution over a set of random variables by explicitly capturing their conditional dependencies. This framework provides further advantages over standard discriminative modelling by offering the possibility to incorporate expert opinion in the graphical structure of the models, generating explainable model predictions, informing about the uncertainty of predictions, and naturally handling missing data. In this study, we apply a Bayesian framework to capture the relationships between depression, depression symptoms, and features derived from speech, facial expression and cognitive game data collected at thymia.
翻訳日:2022-11-10 16:20:53 公開日:2022-11-09
# 適応的な読み出しを伴うグラフニューラルネットワーク

Graph Neural Networks with Adaptive Readouts ( http://arxiv.org/abs/2211.04952v1 )

ライセンス: Link先を確認
David Buterez, Jon Paul Janet, Steven J. Kiddle, Dino Oglic, Pietro Li\`o(参考訳) グラフニューラルネットワークを含む多くの学習タスクにおいて、読み出し関数によるグラフレベルの表現へのノード機能の効果的な集約が不可欠である。 通常、読み出しは単純で非適応な関数であり、結果として生じる仮説空間は置換不変である。 ディープ集合に関する以前の研究は、そのような読み出しには、標準的な近傍の集約スキームを通して習得が難しい複雑なノード埋め込みが必要であることを示している。 そこで本研究では,ニューラルネットワークが与える適応的読み出しの可能性について検討する。 分子が典型的な形で提示されるような親和性予測の結合のような問題においては、仮説空間の置換不変性の制約を緩和し、適応的な可読関数を用いることで親和性のより効率的なモデルを学ぶことができる。 実験の結果、異なる領域とグラフ特性にまたがる40以上のデータセット上での神経読み出しの有効性が実証された。 さらに,近傍集合の反復数や異なる畳み込み演算子と比較して,標準読み出し(和,最大,平均)に対する一貫した改善が観察される。

An effective aggregation of node features into a graph-level representation via readout functions is an essential step in numerous learning tasks involving graph neural networks. Typically, readouts are simple and non-adaptive functions designed such that the resulting hypothesis space is permutation invariant. Prior work on deep sets indicates that such readouts might require complex node embeddings that can be difficult to learn via standard neighborhood aggregation schemes. Motivated by this, we investigate the potential of adaptive readouts given by neural networks that do not necessarily give rise to permutation invariant hypothesis spaces. We argue that in some problems such as binding affinity prediction where molecules are typically presented in a canonical form it might be possible to relax the constraints on permutation invariance of the hypothesis space and learn a more effective model of the affinity by employing an adaptive readout function. Our empirical results demonstrate the effectiveness of neural readouts on more than 40 datasets spanning different domains and graph characteristics. Moreover, we observe a consistent improvement over standard readouts (i.e., sum, max, and mean) relative to the number of neighborhood aggregation iterations and different convolutional operators.
翻訳日:2022-11-10 16:20:33 公開日:2022-11-09
# リアルタイム情報を用いたグリーンセキュリティゲームのための解釈可能な深層強化学習

Interpretable Deep Reinforcement Learning for Green Security Games with Real-Time Information ( http://arxiv.org/abs/2211.04987v1 )

ライセンス: Link先を確認
Vishnu Dutt Sharma, John P. Dickerson, Pratap Tokekar(参考訳) リアルタイム情報(GSG-I)を備えたグリーンセキュリティゲームは、エージェントの動きに関するリアルタイム情報をGSGの定式化に追加する。 GSG-Iの先行研究は、深層強化学習(DRL)を用いて、GSG-Iの膨大な数の状態表現を保存することなく、エージェントの最良のポリシーを学習してきた。 しかし、DRL法の決定過程はほとんど不透明であり、その結果、予測に対する信頼が欠如している。 この問題に対処するために,DDRLアルゴリズムが行う決定を説明する可視化を生成するGSG-Iの解釈可能なDRL法を提案する。 また,本手法は既存の手法と比較して,より簡単なトレーニングレジームでうまく機能することを示す。

Green Security Games with real-time information (GSG-I) add the real-time information about the agents' movement to the typical GSG formulation. Prior works on GSG-I have used deep reinforcement learning (DRL) to learn the best policy for the agent in such an environment without any need to store the huge number of state representations for GSG-I. However, the decision-making process of DRL methods is largely opaque, which results in a lack of trust in their predictions. To tackle this issue, we present an interpretable DRL method for GSG-I that generates visualization to explain the decisions taken by the DRL algorithm. We also show that this approach performs better and works well with a simpler training regimen compared to the existing method.
翻訳日:2022-11-10 16:20:15 公開日:2022-11-09
# ファッションビジネスのプロセス改善のための学習に基づく予測手法の利用について:ポジションペーパー

On the use of learning-based forecasting methods for ameliorating fashion business processes: A position paper ( http://arxiv.org/abs/2211.04798v1 )

ライセンス: Link先を確認
Geri Skenderi, Christian Joppi, Matteo Denitto, Marco Cristani(参考訳) ファッション産業は世界で最も活発で競争力のある市場の一つであり、何百万もの製品を生産し、毎年大勢の聴衆にリーチしている。 この大規模産業には多くのビジネスプロセスが関与しているが、衣料品のライフサイクルが比較的短いため、サプライチェーン管理と小売戦略は優れた市場パフォーマンスに不可欠である。 顧客のニーズとニーズを正しく理解し、ロジスティックな問題を管理し、正しいプロダクトをマーケティングすることは、影響する要因の数を考えると、それらに関連する多くの不確実性を伴うハイレベルな問題である。 したがって、ファッションの真の目的は、多くの人が特定の製品やスタイルを身に着け、これらのアイテムをレンダリングし、その結果、ファッション可能なブランドをつくりだすような、あらゆるビジネスプロセスを改善するためには、未来を予測する予測方法が不可欠である。 本稿では、あらゆるファッション企業が産業・市場への影響を改善するために適用できる3つの具体的な予測タスクの概要について述べる。 我々は,3つの課題すべてにおける進歩と課題を明らかにし,その重要性と産業レベルでのインパクトについて論じる。 最後に,学習に基づく予測手法がファッション産業にどのように役立つかを反映し,今後の作業の課題と方向性を強調する。

The fashion industry is one of the most active and competitive markets in the world, manufacturing millions of products and reaching large audiences every year. A plethora of business processes are involved in this large-scale industry, but due to the generally short life-cycle of clothing items, supply-chain management and retailing strategies are crucial for good market performance. Correctly understanding the wants and needs of clients, managing logistic issues and marketing the correct products are high-level problems with a lot of uncertainty associated to them given the number of influencing factors, but most importantly due to the unpredictability often associated with the future. It is therefore straightforward that forecasting methods, which generate predictions of the future, are indispensable in order to ameliorate all the various business processes that deal with the true purpose and meaning of fashion: having a lot of people wear a particular product or style, rendering these items, people and consequently brands fashionable. In this paper, we provide an overview of three concrete forecasting tasks that any fashion company can apply in order to improve their industrial and market impact. We underline advances and issues in all three tasks and argue about their importance and the impact they can have at an industrial level. Finally, we highlight issues and directions of future work, reflecting on how learning-based forecasting methods can further aid the fashion industry.
翻訳日:2022-11-10 16:19:23 公開日:2022-11-09
# シーン記述を生成するv&lモデルにおけるクロスモーダル相互作用の理解

Understanding Cross-modal Interactions in V&L Models that Generate Scene Descriptions ( http://arxiv.org/abs/2211.04971v1 )

ライセンス: Link先を確認
Michele Cafagna, Albert Gatt, Kees van Deemter(参考訳) 画像キャプションモデルは、オブジェクト中心の方法でイメージを記述する傾向があり、可視オブジェクトを強調する。 しかし、画像記述はオブジェクトから抽象化され、描写されたシーンのタイプを記述することもできる。 本稿では,(1)オブジェクト中心とシーン記述を組み合わせた新しいデータセットを用いて,映像をシーンレベルでキャプションする,最先端のビジョン・アンド・ランゲージモデル VinVL の可能性を検討する。 2) 微調整の効果の詳細な分析を通して,(3) シーン内のオブジェクトレベルの概念を識別する能力を失うことなく,少量のキュレートデータでシーン記述を生成することができることを示す。 本稿では,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。

Image captioning models tend to describe images in an object-centric way, emphasising visible objects. But image descriptions can also abstract away from objects and describe the type of scene depicted. In this paper, we explore the potential of a state-of-the-art Vision and Language model, VinVL, to caption images at the scene level using (1) a novel dataset which pairs images with both object-centric and scene descriptions. Through (2) an in-depth analysis of the effect of the fine-tuning, we show (3) that a small amount of curated data suffices to generate scene descriptions without losing the capability to identify object-level concepts in the scene; the model acquires a more holistic view of the image compared to when object-centric descriptions are generated. We discuss the parallels between these results and insights from computational and cognitive science research on scene perception.
翻訳日:2022-11-10 16:12:53 公開日:2022-11-09
# スパイキングニューラルネットワーク決定フィードバック等化

Spiking Neural Network Decision Feedback Equalization ( http://arxiv.org/abs/2211.04756v1 )

ライセンス: Link先を確認
Eike-Manuel Bansbach, Alexander von Bank, Laurent Schmalen(参考訳) 近年では、従来の手法では解決が難しい通信工学の課題を解決するために、人工知能(anns)がデファクトスタンダードとなっている。 並行して、人工知能コミュニティは生物学に触発された脳のようなスパイクニューラルネットワーク(SNN)の研究を推進している。 本稿では,超低複雑性受信機におけるチャネル等化の文脈におけるSNNの利用について検討する。 決定フィードバック等化器(DFE)に似たフィードバック構造を持つSNNベースの等化器を提案する。 実世界のデータをスパイク信号に変換するために,新たな3次符号化を導入し,従来のログスケールエンコーディングと比較する。 提案手法は, 従来の線形等化器よりも明らかに優れていることを示す。 我々は、主にチャンネル出力からスパイクへの変換は、小さなパフォーマンス上のペナルティをもたらすことを強調する。 決定フィードバック構造を持つSNNは、競合エネルギー効率の良いトランシーバへのパスを可能にする。

In the past years, artificial neural networks (ANNs) have become the de-facto standard to solve tasks in communications engineering that are difficult to solve with traditional methods. In parallel, the artificial intelligence community drives its research to biology-inspired, brain-like spiking neural networks (SNNs), which promise extremely energy-efficient computing. In this paper, we investigate the use of SNNs in the context of channel equalization for ultra-low complexity receivers. We propose an SNN-based equalizer with a feedback structure akin to the decision feedback equalizer (DFE). For conversion of real-world data into spike signals we introduce a novel ternary encoding and compare it with traditional log-scale encoding. We show that our approach clearly outperforms conventional linear equalizers for three different exemplary channels. We highlight that mainly the conversion of the channel output to spikes introduces a small performance penalty. The proposed SNN with a decision feedback structure enables the path to competitive energy-efficient transceivers.
翻訳日:2022-11-10 16:12:37 公開日:2022-11-09
# ARNet:ノイズのある部分ラベル学習のための自動リファインメントネットワーク

ARNet: Automatic Refinement Network for Noisy Partial Label Learning ( http://arxiv.org/abs/2211.04774v1 )

ライセンス: Link先を確認
Zheng Lian, Mingyu Xu, Lan Chen, Licai Sun, Bin Liu, Jianhua Tao(参考訳) 部分ラベル学習 (pll) は典型的な弱い教師付き学習であり、各サンプルは候補ラベルのセットに関連付けられる。 PLLの基本的な前提は、基底真実ラベルが候補集合内にある必要があることである。 しかし、この仮定はアノテータの非専門的な判断により満たされず、したがって PLL の実践的適用が制限される。 本稿では,この仮定を緩和し,候補集合に基底ラベルが存在しないような,より一般的な問題である雑音pllに注目する。 この課題に対処するため、我々はさらに「ARNet(Automatic Refinement Network)」と呼ばれる新しいフレームワークを提案する。 本手法は複数ラウンドからなる。 各ラウンドにおいて、ノイズサンプルを2つのキーモジュール、すなわちノイズサンプル検出とラベル補正によって浄化する。 これらのモジュールの性能を保証するため、ウォームアップトレーニングを開始し、適切な修正時期を自動的に選択する。 また,arnetにおける予測誤差をさらに低減するために,データ拡張を利用する。 理論的解析により,本手法がデータセットの雑音レベルを低減し,最終的にベイズ最適分類器を近似できることを示す。 ARNetの有効性を検証するために、複数のベンチマークデータセットで実験を行う。 実験の結果,我々のARNetはノイズの多いPLLにおける既存の最先端アプローチよりも優れていることがわかった。 私たちのコードはもうすぐ公開されるでしょう。

Partial label learning (PLL) is a typical weakly supervised learning, where each sample is associated with a set of candidate labels. The basic assumption of PLL is that the ground-truth label must reside in the candidate set. However, this assumption may not be satisfied due to the unprofessional judgment of the annotators, thus limiting the practical application of PLL. In this paper, we relax this assumption and focus on a more general problem, noisy PLL, where the ground-truth label may not exist in the candidate set. To address this challenging problem, we further propose a novel framework called "Automatic Refinement Network (ARNet)". Our method consists of multiple rounds. In each round, we purify the noisy samples through two key modules, i.e., noisy sample detection and label correction. To guarantee the performance of these modules, we start with warm-up training and automatically select the appropriate correction epoch. Meanwhile, we exploit data augmentation to further reduce prediction errors in ARNet. Through theoretical analysis, we prove that our method is able to reduce the noise level of the dataset and eventually approximate the Bayes optimal classifier. To verify the effectiveness of ARNet, we conduct experiments on multiple benchmark datasets. Experimental results demonstrate that our ARNet is superior to existing state-of-the-art approaches in noisy PLL. Our code will be made public soon.
翻訳日:2022-11-10 16:12:01 公開日:2022-11-09
# Visual Named Entity Linking: 新しいデータセットとベースライン

Visual Named Entity Linking: A New Dataset and A Baseline ( http://arxiv.org/abs/2211.04872v1 )

ライセンス: Link先を確認
Wenxiang Sun, Yixing Fan, Jiafeng Guo, Ruqing Zhang, Xueqi Cheng(参考訳) 視覚エンティティリンク(英語: visual entity link、vel)は、画像の領域とその対応するエンティティを知識ベース(kbs)にリンクするタスクであり、画像検索、画像キャプション、視覚的質問応答など多くのコンピュータビジョンタスクに有用である。 velの既存のタスクは、マルチモーダルリンクを補完するためにテキストデータに依存するか、オブジェクトと一般的なエンティティのみをリンクするが、大量の画像データで名前付きエンティティリンクを実行できない。 本稿では、入力が画像のみで構成される純粋にビジュアルな名前付きエンティティリンク(vnel)タスクを検討する。 そのタスクは、画像中の興味あるオブジェクト(すなわち、ビジュアルエンティティの参照)を特定し、KB内の対応する名前のエンティティにリンクすることである。 各エンティティはKBにリッチな視覚的・テキスト的情報を含むことが多いため、視覚的・視覚的エンティティリンク(V2VEL)、視覚的・テキスト的エンティティリンク(V2TEL)、視覚的・テキスト的エンティティリンク(V2VEL)という3つのサブタスクを提案する。 さらに, WIKIPerson という高品質な視覚的人物リンクデータセットを提案する。 WIKIPersonに基づいて,各サブタスクの解に対する一連のベースラインアルゴリズムを構築し,提案したデータセットの品質とベースライン手法の有効性を検証する実験を行う。 本研究は今後,VNELに関するさらなる研究の募集に役立てられるものと期待している。 コードとデータセットはhttps://github.com/ict-bigdatalab/VNELで公開されている。

Visual Entity Linking (VEL) is a task to link regions of images with their corresponding entities in Knowledge Bases (KBs), which is beneficial for many computer vision tasks such as image retrieval, image caption, and visual question answering. While existing tasks in VEL either rely on textual data to complement a multi-modal linking or only link objects with general entities, which fails to perform named entity linking on large amounts of image data. In this paper, we consider a purely Visual-based Named Entity Linking (VNEL) task, where the input only consists of an image. The task is to identify objects of interest (i.e., visual entity mentions) in images and link them to corresponding named entities in KBs. Since each entity often contains rich visual and textual information in KBs, we thus propose three different sub-tasks, i.e., visual to visual entity linking (V2VEL), visual to textual entity linking (V2TEL), and visual to visual-textual entity linking (V2VTEL). In addition, we present a high-quality human-annotated visual person linking dataset, named WIKIPerson. Based on WIKIPerson, we establish a series of baseline algorithms for the solution of each sub-task, and conduct experiments to verify the quality of proposed datasets and the effectiveness of baseline methods. We envision this work to be helpful for soliciting more works regarding VNEL in the future. The codes and datasets are publicly available at https://github.com/ict-bigdatalab/VNEL.
翻訳日:2022-11-10 16:11:38 公開日:2022-11-09
# miCSE:低ショット文埋め込みのための相互情報コントラスト学習

miCSE: Mutual Information Contrastive Learning for Low-shot Sentence Embeddings ( http://arxiv.org/abs/2211.04928v1 )

ライセンス: Link先を確認
Tassilo Klein and Moin Nabi(参考訳) 本稿では,相互情報に基づくコントラスト学習フレームワークであるmiCSEについて述べる。 提案手法は,コントラスト学習における異なる視点の注意パターンの整合性を示す。 miCSEによる学習文の埋め込みは、各文に対する拡張ビュー間の統語的一貫性を強制し、対照的な自己教師型学習をより効率的にする。 その結果,提案手法は,単発学習領域において高い性能を示す。 数ショットの学習では、複数のベンチマークの最先端メソッドと比較して優れた結果が得られるが、フルショットのシナリオでは同等である。 提案されたアプローチは概念的にはシンプルで、実装も最適化も容易ですが、経験的に強力です。 本研究は,従来の文埋め込み法よりも頑健な,効率的な自己指導型学習手法の道を開くものである。

This paper presents miCSE, a mutual information-based Contrastive learning framework that significantly advances the state-of-the-art in few-shot sentence embedding. The proposed approach imposes alignment between the attention pattern of different views during contrastive learning. Learning sentence embeddings with miCSE entails enforcing the syntactic consistency across augmented views for every single sentence, making contrastive self-supervised learning more sample efficient. As a result, the proposed approach shows strong performance in the few-shot learning domain. While it achieves superior results compared to state-of-the-art methods on multiple benchmarks in few-shot learning, it is comparable in the full-shot scenario. The proposed approach is conceptually simple, easy to implement and optimize, yet empirically powerful. This study opens up avenues for efficient self-supervised learning methods that are more robust than current contrastive methods for sentence embedding.
翻訳日:2022-11-10 16:11:11 公開日:2022-11-09
# コントラスト学習と知識グラフ埋め込みの併用によるイタリア語用医療単語埋め込みの開発

Combining Contrastive Learning and Knowledge Graph Embeddings to develop medical word embeddings for the Italian language ( http://arxiv.org/abs/2211.05035v1 )

ライセンス: Link先を確認
Denys Amore Bondarenko, Roger Ferrod, Luigi Di Caro(参考訳) 単語埋め込みは、今日の自然言語処理タスクやアプリケーションにおいて重要な役割を果たす。 事前トレーニングされたモデルは、直接採用され、既存のパイプラインに統合されることもあるが、特定の言語やドメインに適合するように細分化されることが多い。 本稿では,Contrastive Learning (CL) と Knowledge Graph Embedding (KGE) を組み合わせることで,イタリアの医療領域の未発見ニッチへの埋め込みを改善することを試みる。 主な目的は、評価課題としても用いられる医療用語間の意味的類似性の精度を向上させることである。 イタリア語は医学的テキストや制御語彙を欠いているため、既存のCL手法(多重相似損失、文脈化、動的サンプリング)とKGEの統合を組み合わせることで特定の解を開発し、損失の新しい変種を作り出した。 多言語モデルで表される最先端技術に優れることなく、得られた結果が奨励され、データ量を大幅に削減しつつ、開始モデルと比較して性能が飛躍的に向上した。

Word embeddings play a significant role in today's Natural Language Processing tasks and applications. While pre-trained models may be directly employed and integrated into existing pipelines, they are often fine-tuned to better fit with specific languages or domains. In this paper, we attempt to improve available embeddings in the uncovered niche of the Italian medical domain through the combination of Contrastive Learning (CL) and Knowledge Graph Embedding (KGE). The main objective is to improve the accuracy of semantic similarity between medical terms, which is also used as an evaluation task. Since the Italian language lacks medical texts and controlled vocabularies, we have developed a specific solution by combining preexisting CL methods (multi-similarity loss, contextualization, dynamic sampling) and the integration of KGEs, creating a new variant of the loss. Although without having outperformed the state-of-the-art, represented by multilingual models, the obtained results are encouraging, providing a significant leap in performance compared to the starting model, while using a significantly lower amount of data.
翻訳日:2022-11-10 16:10:57 公開日:2022-11-09
# 変圧器推論の効率化

Efficiently Scaling Transformer Inference ( http://arxiv.org/abs/2211.05102v1 )

ライセンス: Link先を確認
Reiner Pope, Sholto Douglas, Aakanksha Chowdhery, Jacob Devlin, James Bradbury, Anselm Levskaya, Jonathan Heek, Kefan Xiao, Shivani Agrawal, Jeff Dean(参考訳) 本稿では,トランスフォーマーモデルに対する効率的な生成的推論の問題を,大きな深層モデル,厳密な遅延目標,長いシーケンス長など,最も困難な設定の1つを用いて検討する。 大規模トランスフォーマーモデルに対する推論のエンジニアリングトレードオフをより深く理解することは、アプリケーション領域でこれらのモデルのユースケースが急速に拡大しているため重要である。 アプリケーション要求に基づいて,TPU v4スライスに最適化された最適多次元分割手法を選択するための,推論効率の簡易解析モデルを開発した。 我々はこれらを低レベルの最適化スイートと組み合わせて、500B+パラメータモデルにおけるレイテンシとモデルFLOPS(MFU)のトレードオフを新しいParetoフロンティアを実現する。 さらに,複数の問合せヘッドが1つのキー/値ヘッドを共有するようなマルチクエリのメモリ要求の低減により,最大32倍のコンテキスト長のスケールアップが可能となることを示す。 最後に,PaLM 540Bパラメータモデルを用いて,入力トークンの大規模処理において,1トークンあたり29msの低バッチレイテンシ(Int8重み量子化)と76%のMFUを実現し,2048token長のコンテキスト長をサポートした。

We study the problem of efficient generative inference for Transformer models, in one of its most challenging settings: large deep models, with tight latency targets and long sequence lengths. Better understanding of the engineering tradeoffs for inference for large Transformer-based models is important as use cases of these models are growing rapidly throughout application areas. We develop a simple analytical model for inference efficiency to select the best multi-dimensional partitioning techniques optimized for TPU v4 slices based on the application requirements. We combine these with a suite of low-level optimizations to achieve a new Pareto frontier on the latency and model FLOPS utilization (MFU) tradeoffs on 500B+ parameter models that outperforms the FasterTransformer suite of benchmarks. We further show that with appropriate partitioning, the lower memory requirements of multiquery attention (i.e. multiple query heads share single key/value head) enables scaling up to 32x larger context lengths. Finally, we achieve a low-batch-size latency of 29ms per token during generation (using int8 weight quantization) and a 76% MFU during large-batch-size processing of input tokens, while supporting a long 2048-token context length on the PaLM 540B parameter model.
翻訳日:2022-11-10 16:10:38 公開日:2022-11-09
# twitter上でのチェック可能なクレーム識別のための言語間転送学習

Cross-lingual Transfer Learning for Check-worthy Claim Identification over Twitter ( http://arxiv.org/abs/2211.05087v1 )

ライセンス: Link先を確認
Maram Hasanain and Tamer Elsayed(参考訳) ソーシャルメディアに拡散する誤報は、疑わしいインフォデミックになっている。 しかし、全ての主張が等しくされるわけではない。 伝播すれば、一部の主張は個人レベルだけでなく、組織や国にも破壊的になる可能性がある。 ファクトチェックに優先すべきクレームの検出は、偽ニュースの拡散と戦うための第一歩と考えられている。 トレーニングデータは少数の言語に限定されているため、低リソース言語に対処する教師付きモデルの開発は現在不可能である。 そこで本研究の目的は,既存のデータセットを用いて,他の言語でのツイートにおけるクレームの検証の価値を予測するモデルをトレーニングできるかどうかを検討することである。 我々は,多言語BERT(mBERT)モデルを用いて,5つの多言語対をまたいだ言語間チェックハーネス推定手法の体系的比較を行った。 我々は,最先端の多言語twitterデータセットを用いて実験を行う。 以上の結果から,いくつかの言語対では,ゼロショットの言語間移動が可能であり,対象言語で訓練された単言語モデルに匹敵する性能が得られた。 いくつかの言語では、このアプローチが最先端のモデルよりも優れている(少なくとも同等)ことも示しています。

Misinformation spread over social media has become an undeniable infodemic. However, not all spreading claims are made equal. If propagated, some claims can be destructive, not only on the individual level, but to organizations and even countries. Detecting claims that should be prioritized for fact-checking is considered the first step to fight against spread of fake news. With training data limited to a handful of languages, developing supervised models to tackle the problem over lower-resource languages is currently infeasible. Therefore, our work aims to investigate whether we can use existing datasets to train models for predicting worthiness of verification of claims in tweets in other languages. We present a systematic comparative study of six approaches for cross-lingual check-worthiness estimation across pairs of five diverse languages with the help of Multilingual BERT (mBERT) model. We run our experiments using a state-of-the-art multilingual Twitter dataset. Our results show that for some language pairs, zero-shot cross-lingual transfer is possible and can perform as good as monolingual models that are trained on the target language. We also show that in some languages, this approach outperforms (or at least is comparable to) state-of-the-art models.
翻訳日:2022-11-10 16:10:15 公開日:2022-11-09
# トランスファーラーニングによるグローバル作物マップを目指して

Towards Global Crop Maps with Transfer Learning ( http://arxiv.org/abs/2211.04755v1 )

ライセンス: Link先を確認
Hyun-Woo Jo, Alkiviadis Koukos, Vasileios Sitokonstantinou, Woo-Kyun Lee and Charalampos Kontoes(参考訳) 世界人口の継続的な増加と気候変動が作物生産に与える影響は、食料セクターに大きな影響を及ぼすと予想されている。 この文脈では、証拠に基づく意思決定のために作物のタイムリーで大規模で正確なマッピングが必要である。 この方向に向けた重要なイネーブルは、高時空間解像度とグローバルカバレッジの巨大なリモートセンシングデータを自由に提供する新しい衛星ミッションである。 過去10年間、この大規模な地球観測の急増により、深層学習はリモートセンシングと作物マッピングの文献を支配してきた。 それにもかかわらず、ディープラーニングモデルは大量の注釈付きデータを必要とする。 この問題を解決するために、移動学習法は利用可能なアノテーションを利用して、他の地域、作物の種類、年次検査のための作物マッピングを可能にする。 本研究では,sentinel-1 vh時系列を用いた韓国における水稲検出のための深層学習モデルを開発した。 次にモデルを微調整する 一 フランス及びスペインにおける水田水稲の検出及び検出 二 オランダにおける大麦の検出 さらに,付加的な入力特徴(Sentinel-1 VV)を組み込むために,事前訓練した重量の修正を提案する。 本手法は,同じ作物の異なる地域での移動において優れた性能を示し,異なる地域での移動において,より有望な結果を示す。

The continuous increase in global population and the impact of climate change on crop production are expected to affect the food sector significantly. In this context, there is need for timely, large-scale and precise mapping of crops for evidence-based decision making. A key enabler towards this direction are new satellite missions that freely offer big remote sensing data of high spatio-temporal resolution and global coverage. During the previous decade and because of this surge of big Earth observations, deep learning methods have dominated the remote sensing and crop mapping literature. Nevertheless, deep learning models require large amounts of annotated data that are scarce and hard-to-acquire. To address this problem, transfer learning methods can be used to exploit available annotations and enable crop mapping for other regions, crop types and years of inspection. In this work, we have developed and trained a deep learning model for paddy rice detection in South Korea using Sentinel-1 VH time-series. We then fine-tune the model for i) paddy rice detection in France and Spain and ii) barley detection in the Netherlands. Additionally, we propose a modification in the pre-trained weights in order to incorporate extra input features (Sentinel-1 VV). Our approach shows excellent performance when transferring in different areas for the same crop type and rather promising results when transferring in a different area and crop type.
翻訳日:2022-11-10 16:04:12 公開日:2022-11-09
# 安全な潜伏拡散:拡散モデルにおける不適切な変性の緩和

Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models ( http://arxiv.org/abs/2211.05105v1 )

ライセンス: Link先を確認
Patrick Schramowski, Manuel Brack, Bj\"orn Deiseroth, Kristian Kersting(参考訳) テキスト条件付き画像生成モデルは近年,画像品質とテキストアライメントの驚くべき結果が得られ,急速に成長するアプリケーションに採用されている。 それらは高度にデータ駆動であり、インターネットからランダムにスクレイピングされた数十億規模のデータセットに依存しているため、デジェネレーションや偏りのある人間の行動からも苦しんでいます。 逆に、これらのバイアスを補強することもある。 好ましくない副作用に対処するために,安全な潜伏拡散(SLD)を示す。 具体的には, トレーニングセットの不整合による不適切な変性を測定するため, ヌード性や暴力などの概念を包含する, ベッド不適切な画像プロンプト(I2P)を含む新しい画像生成テスト用画像プロンプトを確立する。 以上の結果から,SLDは拡散過程において不適切な画像部分を除去・抑制し,追加の訓練を必要とせず,全体的な画像品質やテキストアライメントに悪影響を及ぼさない。

Text-conditioned image generation models have recently achieved astonishing results in image quality and text alignment and are consequently employed in a fast-growing number of applications. Since they are highly data-driven, relying on billion-sized datasets randomly scraped from the internet, they also suffer, as we demonstrate, from degenerated and biased human behavior. In turn, they may even reinforce such biases. To help combat these undesired side effects, we present safe latent diffusion (SLD). Specifically, to measure the inappropriate degeneration due to unfiltered and imbalanced training sets, we establish a novel image generation test bed-inappropriate image prompts (I2P)-containing dedicated, real-world image-to-text prompts covering concepts such as nudity and violence. As our exhaustive empirical evaluation demonstrates, the introduced SLD removes and suppresses inappropriate image parts during the diffusion process, with no additional training required and no adverse effect on overall image quality or text alignment.
翻訳日:2022-11-10 16:03:51 公開日:2022-11-09
# DeepE:知識グラフの埋め込みのためのディープニューラルネットワーク

DeepE: a deep neural network for knowledge graph embedding ( http://arxiv.org/abs/2211.04620v1 )

ライセンス: Link先を確認
Zhu Danhao, Shen Si, Huang Shujian, Yin Chang, Ding Ziqi(参考訳) 近年,ニューラルネットワークに基づく手法は,知識グラフ埋め込み(KGE)タスクにおいて,より表現力のある特徴を学習する能力を示している。 しかし、深層メソッドのパフォーマンスはしばしば単純なグラフの浅いものより遅れている。 1つの可能性として、深層モデルは訓練が難しいが、浅いモデルは単純なKGの構造を正確に表すのに十分である。 本稿では,この問題に対処するために,複数のビルディングブロックを積み重ねたニューラルネットワークモデルdeepeを提案する。 各ビルディングブロックは、線形関数と非線形関数の追加である。 積み重ねられたビルディングブロックは、非線形深さが異なる学習関数のグループと等価である。 したがって、深層関数は深い特徴を学習し、浅層関数は浅い特徴を学習することができる。 広範な実験を通じて、deepeは他の最先端のベースラインメソッドよりも優れています。 DeepEの大きな利点は、堅牢性です。 deepeは平均ランク(mr)スコアを fb15k-237, wn18rr, yago3-10 の最高基準法より6%, 30%, 65%低い値で達成する。 我々の設計では、FB15k-237上の40層のようなKGE上のより深いネットワークをトレーニングでき、単純な関係の精度を損なわない。

Recently, neural network based methods have shown their power in learning more expressive features on the task of knowledge graph embedding (KGE). However, the performance of deep methods often falls behind the shallow ones on simple graphs. One possible reason is that deep models are difficult to train, while shallow models might suffice for accurately representing the structure of the simple KGs. In this paper, we propose a neural network based model, named DeepE, to address the problem, which stacks multiple building blocks to predict the tail entity based on the head entity and the relation. Each building block is an addition of a linear and a non-linear function. The stacked building blocks are equivalent to a group of learning functions with different non-linear depth. Hence, DeepE allows deep functions to learn deep features, and shallow functions to learn shallow features. Through extensive experiments, we find DeepE outperforms other state-of-the-art baseline methods. A major advantage of DeepE is the robustness. DeepE achieves a Mean Rank (MR) score that is 6%, 30%, 65% lower than the best baseline methods on FB15k-237, WN18RR and YAGO3-10. Our design makes it possible to train much deeper networks on KGE, e.g. 40 layers on FB15k-237, and without scarifying precision on simple relations.
翻訳日:2022-11-10 16:03:01 公開日:2022-11-09
# 事前学習モデルに基づく古典詩のスタイル判断法

A Method to Judge the Style of Classical Poetry Based on Pre-trained Model ( http://arxiv.org/abs/2211.04657v1 )

ライセンス: Link先を確認
Ziyao Wang, Jiandong Zhang, Jun Ma(参考訳) 漢詩の研究分野における重要な話題の1つは、歌風の分析である。 研究者は、前王朝の関連作品を調べることで、主に主観的な感情から詩風を判断し、一定の結論に達した以前の評価を参照する。 この判断方法はしばしば有効であるが、いくつかの誤りがあるかもしれない。 本論文は、現在最も完璧な漢詩のデータセットを構築し、このデータセットに基づいてBART-poem事前学習モデルを訓練し、このBART-poemモデルに基づいて、一般的に適用可能な詩スタイル判断手法を提案し、計算形式学の分野に深層学習を革新的に導入し、古典詩研究の新しい研究手法を提供する。 本論では、唐・宋朝における詩体識別の問題にこの手法を応用し、香港吉子・江西歌学派・唐詩学派など、比較的明快で一貫した歌風とされる歌流を研究対象とし、代表的歌人の詩を試験対象とする。 実験の結果, テストされた詩文の判断結果は, 従来王朝の批判者による結論と基本的に一致し, 清州氏の前衛的な判断を検証し, 唐宋の詩文認識の課題をよりよく解決した。

One of the important topics in the research field of Chinese classical poetry is to analyze the poetic style. By examining the relevant works of previous dynasties, researchers judge a poetic style mostly by their subjective feelings, and refer to the previous evaluations that have become a certain conclusion. Although this judgment method is often effective, there may be some errors. This paper builds the most perfect data set of Chinese classical poetry at present, trains a BART-poem pre -trained model on this data set, and puts forward a generally applicable poetry style judgment method based on this BART-poem model, innovatively introduces in-depth learning into the field of computational stylistics, and provides a new research method for the study of classical poetry. This paper attempts to use this method to solve the problem of poetry style identification in the Tang and Song Dynasties, and takes the poetry schools that are considered to have a relatively clear and consistent poetic style, such as the Hongzheng Qizi and Jiajing Qizi, Jiangxi poetic school and Tongguang poetic school, as the research object, and takes the poems of their representative poets for testing. Experiments show that the judgment results of the tested poetry work made by the model are basically consistent with the conclusions given by critics of previous dynasties, verify some avant-garde judgments of Mr. Qian Zhongshu, and better solve the task of poetry style recognition in the Tang and Song dynasties.
翻訳日:2022-11-10 16:02:39 公開日:2022-11-09
# 映画におけるマイノリティ理解 : 思考理論のメタラーニングと評価

Few-Shot Character Understanding in Movies as an Assessment to Meta-Learning of Theory-of-Mind ( http://arxiv.org/abs/2211.04684v1 )

ライセンス: Link先を確認
Mo Yu, Yisi Sang, Kangsheng Pu, Zekai Wei, Han Wang, Jing Li, Yue Yu, Jie Zhou(参考訳) 物語を読むとき、人間はいくつかの観察で新しい架空のキャラクターを素早く理解することができる。 これは、人間によるキャラクターの精神状態の推論、すなわち、既存の研究でほとんど無視されている人間の思考の理論(tom)の、少数かつメタラーニングの本質を反映している。 このギャップを新しいNLPベンチマークであるTOM-IN-AMCで埋め、現実的な物語理解シナリオにおけるToMのメタラーニング能力の最初の評価を行う。 私たちのベンチマークは、1000ドル(約10万円)で解析された映画スクリプトで構成されており、それぞれが数発のキャラクタ理解タスクに対応しており、新しい映画で数シーンの開始シーンで、人間の高速なキャラクタを消化する能力を模倣するモデルを必要としています。 私たちのヒューマンスタディでは、以前見た映画に基づいてキャラクターの精神状態を推測することで、人間が問題を解決できることが確認されましたが、私たちのタスクに適応した最先端のメトリックラーニングとメタラーニングのアプローチは30%遅れています。

When reading a story, humans can rapidly understand new fictional characters with a few observations, mainly by drawing analogy to fictional and real people they met before in their lives. This reflects the few-shot and meta-learning essence of humans' inference of characters' mental states, i.e., humans' theory-of-mind (ToM), which is largely ignored in existing research. We fill this gap with a novel NLP benchmark, TOM-IN-AMC, the first assessment of models' ability of meta-learning of ToM in a realistic narrative understanding scenario. Our benchmark consists of $\sim$1,000 parsed movie scripts for this purpose, each corresponding to a few-shot character understanding task; and requires models to mimic humans' ability of fast digesting characters with a few starting scenes in a new movie. Our human study verified that humans can solve our problem by inferring characters' mental states based on their previously seen movies; while the state-of-the-art metric-learning and meta-learning approaches adapted to our task lags 30% behind.
翻訳日:2022-11-10 16:02:15 公開日:2022-11-09
# 医用テキストからのNested Named Entity Recognition: Attentive CRFを用いた適応型共有ネットワークアーキテクチャ

Nested Named Entity Recognition from Medical Texts: An Adaptive Shared Network Architecture with Attentive CRF ( http://arxiv.org/abs/2211.04759v1 )

ライセンス: Link先を確認
Junzhe Jiang, Mingyue Cheng, Qi Liu, Zhi Li, and Enhong Chen(参考訳) 医療情報処理において有用な名前の認識が重要な役割を担い、医療分野の研究の進展を促進する。 深層学習法は医学的名前付きエンティティ認識(ner)において良好な結果を得た。 しかし、ネストされた名前のエンティティを扱う場合、既存のメソッドは大きな課題に直面している。 本研究では, ネスト現象によるジレンマを解決するためのASACと呼ばれる新しい手法を提案する。 提案手法は,適応共有(AS)部と注意条件付きランダムフィールド(ACRF)モジュールの2つの鍵モジュールを含む。 前部は、各タスクに適応重みを自動的に割り当て、多層ネットワークにおいて最適な認識精度を実現する。 後者のモジュールは、異なるエンティティ間の依存関係をモデル化するために注意操作を使用する。 このようにして、我々のモデルは、異なるカテゴリのエンティティ間の暗黙の区別と関係をキャプチャすることで、より良いエンティティ表現を学ぶことができる。 公開データセットに関する広範な実験により,本手法の有効性が検証された。 また, この手法を深く理解するために, アブレーション解析を行う。

Recognizing useful named entities plays a vital role in medical information processing, which helps drive the development of medical area research. Deep learning methods have achieved good results in medical named entity recognition (NER). However, we find that existing methods face great challenges when dealing with the nested named entities. In this work, we propose a novel method, referred to as ASAC, to solve the dilemma caused by the nested phenomenon, in which the core idea is to model the dependency between different categories of entity recognition. The proposed method contains two key modules: the adaptive shared (AS) part and the attentive conditional random field (ACRF) module. The former part automatically assigns adaptive weights across each task to achieve optimal recognition accuracy in the multi-layer network. The latter module employs the attention operation to model the dependency between different entities. In this way, our model could learn better entity representations by capturing the implicit distinctions and relationships between different categories of entities. Extensive experiments on public datasets verify the effectiveness of our method. Besides, we also perform ablation analyses to deeply understand our methods.
翻訳日:2022-11-10 16:01:56 公開日:2022-11-09
# Mask More and Mask Later: [MASK]トークンのアンタングルによるマスク言語モデルの効率的な事前学習

Mask More and Mask Later: Efficient Pre-training of Masked Language Models by Disentangling the [MASK] Token ( http://arxiv.org/abs/2211.04898v1 )

ライセンス: Link先を確認
Baohao Liao, David Thulke, Sanjika Hewavitharana, Hermann Ney, Christof Monz(参考訳) マスク付き言語モデル(MLM)の事前学習は、大量の計算を消費し、下流のNLPタスクにおいて良好な結果を得る。 バニラMLMでは、仮想トークンである[MASK]がプレースホルダーとして動作し、不正なトークンからコンテキスト情報を収集して、破損した情報を復元する。 後続のレイヤに[MASK]を追加することで、以前のレイヤのシーケンス長を短縮し、事前トレーニングをより効率的にできるかどうか、という疑問が持ち上がります。 1)[MASK]は後続の層に付加され,単語の埋め込みから切り離されていること,(2)未知のトークンからのコンテキスト情報の収集は,いくつかの層で行うことができること,などが示される。 さらにマスキング率を15%から50%に向上させることで、GLUEベンチマークの劣化なしに、オリジナルの計算予算の78%と68%でRoBERTa-baseとRoBERTa-largeをスクラッチからトレーニングすることができる。 当初の予算で事前トレーニングを行う場合,提案手法は8つのGLUEタスク中6つのRoBERTaを平均0.4%上回った。

The pre-training of masked language models (MLMs) consumes massive computation to achieve good results on downstream NLP tasks, resulting in a large carbon footprint. In the vanilla MLM, the virtual tokens, [MASK]s, act as placeholders and gather the contextualized information from unmasked tokens to restore the corrupted information. It raises the question of whether we can append [MASK]s at a later layer, to reduce the sequence length for earlier layers and make the pre-training more efficient. We show: (1) [MASK]s can indeed be appended at a later layer, being disentangled from the word embedding; (2) The gathering of contextualized information from unmasked tokens can be conducted with a few layers. By further increasing the masking rate from 15% to 50%, we can pre-train RoBERTa-base and RoBERTa-large from scratch with only 78% and 68% of the original computational budget without any degradation on the GLUE benchmark. When pre-training with the original budget, our method outperforms RoBERTa for 6 out of 8 GLUE tasks, on average by 0.4%.
翻訳日:2022-11-10 16:01:38 公開日:2022-11-09
# 物語を語れない言語モデルと何が間違っているのか?

What is Wrong with Language Models that Can Not Tell a Story? ( http://arxiv.org/abs/2211.05044v1 )

ライセンス: Link先を確認
Ivan P. Yamshchikov and Alexey Tikhonov(参考訳) 本稿では,物語のより深い理解と,より主観的に興味深いテキストの生成の成功は,現代自然言語処理(nlp)の進展を妨げる重要なボトルネックであり,人工知能の分野全体に存在する可能性も示唆する。 ナラティブ処理の作業に使用できる適切なデータセットや評価方法,さらには運用上の概念さえ存在しないことを実証する。

This paper argues that a deeper understanding of narrative and the successful generation of longer subjectively interesting texts is a vital bottleneck that hinders the progress in modern Natural Language Processing (NLP) and may even be in the whole field of Artificial Intelligence. We demonstrate that there are no adequate datasets, evaluation methods, and even operational concepts that could be used to start working on narrative processing.
翻訳日:2022-11-10 16:01:15 公開日:2022-11-09
# マルチアーマッドバンドによる適応データ深さ

Adaptive Data Depth via Multi-Armed Bandits ( http://arxiv.org/abs/2211.03985v2 )

ライセンス: Link先を確認
Tavor Z. Baharav, Tze Leung Lai(参考訳) tukey (1975) によって導入されたデータ深さは、データサイエンス、ロバスト統計学、計算幾何学において重要なツールである。 より広範な実用性に対する大きな障壁は、深度に関する多くの一般的な測度が計算集約的であり、$d$次元空間における$n$点のデータセット内の単一の点の深さを正確に計算するために$n^d$演算の順序に依存することである。 しかし、しばしば、私たちは点の絶対的な深さに直接関心はなく、むしろ相対的な順序に関心を持つ。 例えば、データセットの最も中央にある点(一般的な中央値)を見つけたり、すべての外れ値(低い深さのデータセットのフリンジ上の点)を識別して削除したりしたいかもしれません。 そこで本研究では,$n$deepsを$n$の確率的マルチアームバンディット問題に正確に計算することで,適応的なデータ深度計算のための新しい,インスタンス適応型アルゴリズムを開発した。 我々は、Liu (1990)によって開発されたsimplicial depth(simplicial depth)に焦点をあてる。 提案手法では,大域的深さ,oja深さ,ラピッド深さなど,データ深さの他の多くの一般的な尺度に容易に拡張できる。 データ内のギャップがパラメータ$\alpha<2$のパワーロー分布に従う場合に特化した場合、データセットの最も深い点(単純な中央値)を特定する複雑さを、$o(n^d)$から$\tilde{o}(n^{d-(d-1)\alpha/2})$に削減できることを示し、ここで$\tilde{o}$は対数因子を抑制する。 提案手法の実用性を示すため, 合成データに関する数値実験により理論的結果を相関させる。

Data depth, introduced by Tukey (1975), is an important tool in data science, robust statistics, and computational geometry. One chief barrier to its broader practical utility is that many common measures of depth are computationally intensive, requiring on the order of $n^d$ operations to exactly compute the depth of a single point within a data set of $n$ points in $d$-dimensional space. Often however, we are not directly interested in the absolute depths of the points, but rather in their relative ordering. For example, we may want to find the most central point in a data set (a generalized median), or to identify and remove all outliers (points on the fringe of the data set with low depth). With this observation, we develop a novel and instance-adaptive algorithm for adaptive data depth computation by reducing the problem of exactly computing $n$ depths to an $n$-armed stochastic multi-armed bandit problem which we can efficiently solve. We focus our exposition on simplicial depth, developed by Liu (1990), which has emerged as a promising notion of depth due to its interpretability and asymptotic properties. We provide general instance-dependent theoretical guarantees for our proposed algorithms, which readily extend to many other common measures of data depth including majority depth, Oja depth, and likelihood depth. When specialized to the case where the gaps in the data follow a power law distribution with parameter $\alpha<2$, we show that we can reduce the complexity of identifying the deepest point in the data set (the simplicial median) from $O(n^d)$ to $\tilde{O}(n^{d-(d-1)\alpha/2})$, where $\tilde{O}$ suppresses logarithmic factors. We corroborate our theoretical results with numerical experiments on synthetic data, showing the practical utility of our proposed methods.
翻訳日:2022-11-10 15:55:51 公開日:2022-11-09
# 説明可能な医療詐欺検出のための教師なし機械学習

Unsupervised Machine Learning for Explainable Medicare Fraud Detection ( http://arxiv.org/abs/2211.02927v2 )

ライセンス: Link先を確認
Shubhranshu Shekhar, Jetson Leder-Luis, Leman Akoglu(参考訳) 連邦政府は医療に年間1兆ドル以上を費やしており、主に民間の第三者が提供し、政府から払い戻されている。 このシステムにおける大きな懸念は、より高い支払いを受けるために自分の主張を誤報するインセンティブに直面するプロバイダによる過大な請求、ムダ、詐欺である。 本稿では,高齢者と障害者に対する米国連邦政府の健康保険プログラムであるメディケアを超過するプロバイダを識別する新しい機械学習ツールを開発する。 大規模メディケアの請求データを用いて,入院患者の不正行為や転倒に伴うパターンを同定する。 提案手法は,ラベル付きトレーニングデータに依存しず,完全に教師なしであり,エンドユーザに説明可能であり,フラグ付きプロバイダの疑わしい行動に対する推論と解釈可能な洞察を提供する。 反詐欺訴訟に直面する提供者に関する司法省のデータと、いくつかのケーススタディは、我々のアプローチと発見を定量的かつ質的に検証している。

The US federal government spends more than a trillion dollars per year on health care, largely provided by private third parties and reimbursed by the government. A major concern in this system is overbilling, waste and fraud by providers, who face incentives to misreport on their claims in order to receive higher payments. In this paper, we develop novel machine learning tools to identify providers that overbill Medicare, the US federal health insurance program for elderly adults and the disabled. Using large-scale Medicare claims data, we identify patterns consistent with fraud or overbilling among inpatient hospitalizations. Our proposed approach for Medicare fraud detection is fully unsupervised, not relying on any labeled training data, and is explainable to end users, providing reasoning and interpretable insights into the potentially suspicious behavior of the flagged providers. Data from the Department of Justice on providers facing anti-fraud lawsuits and several case studies validate our approach and findings both quantitatively and qualitatively.
翻訳日:2022-11-10 15:55:16 公開日:2022-11-09
# マルチモーダル時間データに対するアクティブな獲得: 整合的意思決定タスク

Active Acquisition for Multimodal Temporal Data: A Challenging Decision-Making Task ( http://arxiv.org/abs/2211.05039v1 )

ライセンス: Link先を確認
Jannik Kossen, C\u{a}t\u{a}lina Cangea, Eszter V\'ertes, Andrew Jaegle, Viorica Patraucean, Ira Ktena, Nenad Tomasev, Danielle Belgrave(参考訳) 我々は,マルチモーダル時間データ(A2MT)の能動的取得という,困難な意思決定タスクを導入する。 多くの現実世界のシナリオでは、入力機能はテスト時に簡単に利用できず、大きなコストで取得する必要がある。 A2MTでは,取得する入力のモダリティ,取得コスト,予測性能を積極的に選択するエージェントを学習することを目的としている。 A2MTは、アクティブ特徴獲得と呼ばれる以前のタスクを拡張して、高次元入力に関する時間的決定を行う。 さらに,実際にA2MTに対処するためのPerceiver IOアーキテクチャに基づく手法を提案する。 我々のエージェントは、実用的なクロスモーダル推論スキルを必要とする新しい合成シナリオを解くことができる。 実世界の2つの大規模データセット、kinetics-700とaudiosetにおいて、エージェントはコスト-反応性獲得行動の学習に成功しました。 しかし、アブレーションは適応的な獲得戦略を学べないことを明らかにし、最先端のモデルでもタスクの難易度を強調している。 a2mtの応用は、医療、ロボティクス、金融などの分野において、買収コストと情報性においてモダリティが異なる可能性がある。

We introduce a challenging decision-making task that we call active acquisition for multimodal temporal data (A2MT). In many real-world scenarios, input features are not readily available at test time and must instead be acquired at significant cost. With A2MT, we aim to learn agents that actively select which modalities of an input to acquire, trading off acquisition cost and predictive performance. A2MT extends a previous task called active feature acquisition to temporal decision making about high-dimensional inputs. Further, we propose a method based on the Perceiver IO architecture to address A2MT in practice. Our agents are able to solve a novel synthetic scenario requiring practically relevant cross-modal reasoning skills. On two large-scale, real-world datasets, Kinetics-700 and AudioSet, our agents successfully learn cost-reactive acquisition behavior. However, an ablation reveals they are unable to learn to learn adaptive acquisition strategies, emphasizing the difficulty of the task even for state-of-the-art models. Applications of A2MT may be impactful in domains like medicine, robotics, or finance, where modalities differ in acquisition cost and informativeness.
翻訳日:2022-11-10 15:54:59 公開日:2022-11-09
# ホログラフィック知覚表現の記憶内因子化

In-memory factorization of holographic perceptual representations ( http://arxiv.org/abs/2211.05052v1 )

ライセンス: Link先を確認
Jovin Langenegger, Geethan Karunaratne, Michael Hersche, Luca Benini, Abu Sebastian, Abbas Rahimi(参考訳) 感覚信号の構成因子の分散は知覚と認知の中心であり、将来の人工知能システムにとって重要な課題である。 本稿では、脳にインスパイアされた超次元コンピューティングの計算-重畳能力と、ナノスケールのメムリシティブデバイスに基づくアナログインメモリコンピューティングに付随する固有確率を利用して、ホログラムの知覚表現を効率的に分解できる計算エンジンを提案する。 このような反復的インメモリファクターは、他の方法では解決できない、少なくとも5桁以上の大きな問題を解くとともに、計算時間と空間の複雑さを著しく低下させる。 本稿では,位相変化型memriデバイスに基づく2つのインメモリ計算チップを用いて,因子化器の大規模実験を行う。 行列ベクトル乗算演算は O(1) で実行されるので、計算時間の複雑さを単に反復数だけに減らすことができる。 さらに,視覚的知覚表現を確実かつ効率的に分解する能力を実験的に実証した。

Disentanglement of constituent factors of a sensory signal is central to perception and cognition and hence is a critical task for future artificial intelligence systems. In this paper, we present a compute engine capable of efficiently factorizing holographic perceptual representations by exploiting the computation-in-superposition capability of brain-inspired hyperdimensional computing and the intrinsic stochasticity associated with analog in-memory computing based on nanoscale memristive devices. Such an iterative in-memory factorizer is shown to solve at least five orders of magnitude larger problems that cannot be solved otherwise, while also significantly lowering the computational time and space complexity. We present a large-scale experimental demonstration of the factorizer by employing two in-memory compute chips based on phase-change memristive devices. The dominant matrix-vector multiply operations are executed at O(1) thus reducing the computational time complexity to merely the number of iterations. Moreover, we experimentally demonstrate the ability to factorize visual perceptual representations reliably and efficiently.
翻訳日:2022-11-10 15:54:18 公開日:2022-11-09
# 制御可能な作業メモリを備えた大規模言語モデル

Large Language Models with Controllable Working Memory ( http://arxiv.org/abs/2211.05110v1 )

ライセンス: Link先を確認
Daliang Li, Ankit Singh Rawat, Manzil Zaheer, Xin Wang, Michal Lukasik, Andreas Veit, Felix Yu, Sanjiv Kumar(参考訳) 大規模言語モデル(LLM)は、その優れた理解と生成能力のために、自然言語処理(NLP)の一連のブレークスルーをもたらした。 注目すべきは、これらのモデルをさらに分けているのは、事前訓練中に内在する膨大な量の世界的知識だ。 多くのダウンストリームアプリケーションは、基礎となるタスクのパフォーマンスを補助する情報コンテキストをモデルに提供するが、モデルの世界知識がコンテキストで提示される事実情報とどのように相互作用するかはまだ検討されていない。 望ましい振る舞いとして、LLMは、モデルが記憶した知識と矛盾するタスク関連情報を含む場合、コンテキストに優先順位を与えるべきである。 これにより、モデル予測をコンテキストにグラウンド化することが可能になり、頻繁に再トレーニングすることなく、特定のモデル予測を更新または修正することができる。 対照的に、コンテキストがタスクと無関係である場合、モデルはそれを無視し、内部知識にフォールバックするべきである。 本稿では, 上記の2つの特性,すなわち可制御性と頑健性について, LLMの文脈での最初の共同研究を行う。 我々は,最先端のT5およびPaLM(どちらも事前訓練および微調整)が,モデルサイズの増加とともにスケールしない制御性と堅牢性を示すことを示した。 そこで本研究では,標準教師付きデータセットに非現実的・無関係なコンテキストを組み込むことにより,制御性とロバスト性を両立させる新しい手法であるKnowledge Aware FineTuning(KAFT)を提案する。 当社の総合評価では,kaftがモデルアーキテクチャとサイズにまたがる有用性を示す。

Large language models (LLMs) have led to a series of breakthroughs in natural language processing (NLP), owing to their excellent understanding and generation abilities. Remarkably, what further sets these models apart is the massive amounts of world knowledge they internalize during pretraining. While many downstream applications provide the model with an informational context to aid its performance on the underlying task, how the model's world knowledge interacts with the factual information presented in the context remains under explored. As a desirable behavior, an LLM should give precedence to the context whenever it contains task-relevant information that conflicts with the model's memorized knowledge. This enables model predictions to be grounded in the context, which can then be used to update or correct specific model predictions without frequent retraining. By contrast, when the context is irrelevant to the task, the model should ignore it and fall back on its internal knowledge. In this paper, we undertake a first joint study of the aforementioned two properties, namely controllability and robustness, in the context of LLMs. We demonstrate that state-of-the-art T5 and PaLM (both pretrained and finetuned) could exhibit poor controllability and robustness, which do not scale with increasing model size. As a solution, we propose a novel method - Knowledge Aware FineTuning (KAFT) - to strengthen both controllability and robustness by incorporating counterfactual and irrelevant contexts to standard supervised datasets. Our comprehensive evaluation showcases the utility of KAFT across model architectures and sizes.
翻訳日:2022-11-10 15:53:22 公開日:2022-11-09
# オンライン強化学習におけるオフラインデータ活用

Leveraging Offline Data in Online Reinforcement Learning ( http://arxiv.org/abs/2211.04974v1 )

ライセンス: Link先を確認
Andrew Wagenmaker, Aldo Pacchiano(参考訳) 強化学習(RL)コミュニティには,オンラインRLとオフラインRLという,2つの中心的なパラダイムが出現している。 オンラインRL設定では、エージェントは環境に関する事前の知識を持っておらず、$\epsilon$-Optimal Policyを見つけるためにそれと対話する必要がある。 オフラインのrl設定では、学習者は、学習する固定データセットにアクセスするが、それ以外は環境とのインタラクションができず、オフラインデータから可能な最高のポリシーを取得する必要がある。 もしいくつかのオフラインデータがあり、環境と相互作用する可能性があるなら、オフラインデータを使って$\epsilon$-Optimalポリシーを学ぶのに必要なオンラインインタラクションの数を最小化できるだろうか? 本研究では、線形構造を持つmdpに対して、この設定を \textsf{finetunerl} 設定と呼ぶ。 オフラインデータセットへのアクセスによって、この設定に必要なオンラインサンプルの数を特徴付け、アルゴリズムである \textsc{ftpedel} を開発する。 オフラインデータとオンラインインタラクションを組み合わせることで、純粋にオフラインまたは純粋にオンラインRLよりも証明可能な改善がもたらされる、という明確な例を示す。 最後に、オンラインRLにおける典型的な設定である「emph{verible}学習」と、オフラインRLにおいてしばしば考慮される「emph{unverible}学習」の区別を示し、これらの制度間に正式な分離が存在することを示す。

Two central paradigms have emerged in the reinforcement learning (RL) community: online RL and offline RL. In the online RL setting, the agent has no prior knowledge of the environment, and must interact with it in order to find an $\epsilon$-optimal policy. In the offline RL setting, the learner instead has access to a fixed dataset to learn from, but is unable to otherwise interact with the environment, and must obtain the best policy it can from this offline data. Practical scenarios often motivate an intermediate setting: if we have some set of offline data and, in addition, may also interact with the environment, how can we best use the offline data to minimize the number of online interactions necessary to learn an $\epsilon$-optimal policy? In this work, we consider this setting, which we call the \textsf{FineTuneRL} setting, for MDPs with linear structure. We characterize the necessary number of online samples needed in this setting given access to some offline dataset, and develop an algorithm, \textsc{FTPedel}, which is provably optimal. We show through an explicit example that combining offline data with online interactions can lead to a provable improvement over either purely offline or purely online RL. Finally, our results illustrate the distinction between \emph{verifiable} learning, the typical setting considered in online RL, and \emph{unverifiable} learning, the setting often considered in offline RL, and show that there is a formal separation between these regimes.
翻訳日:2022-11-10 15:52:56 公開日:2022-11-09
# 両世界のベスト: 劣化予測と高性能超解像ネットワークを組み合わせたフレームワーク

The Best of Both Worlds: a Framework for Combining Degradation Prediction with High Performance Super-Resolution Networks ( http://arxiv.org/abs/2211.05018v1 )

ライセンス: Link先を確認
Matthew Aquilina, Keith George Ciantar, Christian Galea, Kenneth P. Camilleri, Reuben A. Farrugia, John Abela(参考訳) A) 合成低分解能-高分解能(LR - HR)ペア、またはB) LRイメージが被った劣化を予測し、それらをカスタマイズされたSRネットワークに通知する。 大幅な進歩にもかかわらず、前者の加入者はSRプロセスを改善するために使用できる有用な劣化情報を見逃した。 一方、後者の支持者はより弱いSRネットワークに依存しており、最新のアーキテクチャの進歩によって著しく優れています。 本研究では,どのブラインドSR予測機構も深部SRネットワークと組み合わせ,メタデータ挿入ブロックを用いて予測ベクトルをSRネットワークの特徴マップに挿入するフレームワークを提案する。 総合的なテストを通じて、我々のフレームワーク内でRCANやHANのような高性能なSRネットワークと、最先端のコントラストおよび反復予測スキームをうまく組み合わせることができることを示す。 我々のハイブリッドモデルは、非盲目モデルと盲目モデルの両方よりも強いSR性能を実現する。 さらに, ボケ, ノイズ, 圧縮の複雑なパイプラインから, 劣化や超解像を予測して, フレームワークの堅牢性を示す。

To date, the best-performing blind super-resolution (SR) techniques follow one of two paradigms: A) generate and train a standard SR network on synthetic low-resolution - high-resolution (LR - HR) pairs or B) attempt to predict the degradations an LR image has suffered and use these to inform a customised SR network. Despite significant progress, subscribers to the former miss out on useful degradation information that could be used to improve the SR process. On the other hand, followers of the latter rely on weaker SR networks, which are significantly outperformed by the latest architectural advancements. In this work, we present a framework for combining any blind SR prediction mechanism with any deep SR network, using a metadata insertion block to insert prediction vectors into SR network feature maps. Through comprehensive testing, we prove that state-of-the-art contrastive and iterative prediction schemes can be successfully combined with high-performance SR networks such as RCAN and HAN within our framework. We show that our hybrid models consistently achieve stronger SR performance than both their non-blind and blind counterparts. Furthermore, we demonstrate our framework's robustness by predicting degradations and super-resolving images from a complex pipeline of blurring, noise and compression.
翻訳日:2022-11-10 15:52:31 公開日:2022-11-09
# 数ショットクラスインクリメンタルラーニングのためのプロトタイプ四脚

Prototypical quadruplet for few-shot class incremental learning ( http://arxiv.org/abs/2211.02947v2 )

ライセンス: Link先を確認
Sanchar Palit, Biplab Banerjee, Subhasis Chaudhuri(参考訳) 現代のコンピュータビジョンアルゴリズムの多くは、データの不足と新しいタスクの段階的な学習という2つの大きなボトルネックに悩まされている。 モデルが新しいデータバッチでモデルをトレーニングしている間、モデルは以前のデータを無秩序に分類する能力を失います。 従来の方法では、これまでの学習したデータの破滅的な忘れを軽減しつつ、現在のセッションでのトレーニングが妥協されている。 最先端のジェネレーティブ・リプレイベースのアプローチは、ジェネレーティブ・逆境ネットワーク(GAN)のような複雑な構造を使って破滅的な忘れ物に対処する。 さらに、サンプルが少ないGANのトレーニングは不安定につながる可能性がある。 本稿では,これら2つの大きなハードルに対処する新しい手法を提案する。 提案手法では, コントラスト損失が向上し, より堅牢な埋め込み空間を同定する。 さらに,本手法では,新しいクラスで学習した場合でも,組込み空間における事前の知識を保持できる。 真のクラス平均を表現することができるようにトレーニングしながら、以前のセッションクラスのプロトタイプを更新します。 我々の分類規則は最寄りのクラス平均分類戦略に基づいているので、これは最も重要なことです。 我々は、新しいクラスでモデルをトレーニングした後も埋め込み空間が無傷であることを示し、その結果を実証した。 提案手法は,各セッションの精度において,既存の最先端アルゴリズムよりも優れていた。

Many modern computer vision algorithms suffer from two major bottlenecks: scarcity of data and learning new tasks incrementally. While training the model with new batches of data the model looses it's ability to classify the previous data judiciously which is termed as catastrophic forgetting. Conventional methods have tried to mitigate catastrophic forgetting of the previously learned data while the training at the current session has been compromised. The state-of-the-art generative replay based approaches use complicated structures such as generative adversarial network (GAN) to deal with catastrophic forgetting. Additionally, training a GAN with few samples may lead to instability. In this work, we present a novel method to deal with these two major hurdles. Our method identifies a better embedding space with an improved contrasting loss to make classification more robust. Moreover, our approach is able to retain previously acquired knowledge in the embedding space even when trained with new classes. We update previous session class prototypes while training in such a way that it is able to represent the true class mean. This is of prime importance as our classification rule is based on the nearest class mean classification strategy. We have demonstrated our results by showing that the embedding space remains intact after training the model with new classes. We showed that our method preformed better than the existing state-of-the-art algorithms in terms of accuracy across different sessions.
翻訳日:2022-11-10 15:45:17 公開日:2022-11-09
# 知識蒸留における混合の役割の理解--実証的研究

Understanding the Role of Mixup in Knowledge Distillation: An Empirical Study ( http://arxiv.org/abs/2211.03946v2 )

ライセンス: Link先を確認
Hongjun Choi, Eun Som Jeon, Ankita Shukla, Pavan Turaga(参考訳) Mixupは、トレーニングされたモデルの一般化と堅牢性を改善するために、2つのデータサンプル間の線形補間によって新しいサンプルを作成することに基づく、一般的なデータ拡張技術である。 一方、知識蒸留(KD)は、より大きなネットワークの暗黙の知識を用いてより小さなネットワークの学習を導くモデル圧縮と伝達学習に広く用いられている。 一見すると、これらの2つのテクニックは非常に異なるように見えるが、「滑らかさ」は両者のつながりであり、KDとミックスアップの相互作用を理解する上でも重要な属性である。 多くの混合変種や蒸留法が提案されているが、知識蒸留における混合変種の役割については多くは理解されていない。 本稿では,ミキシングと知識蒸留の相溶性に関する様々な重要な側面について,実験的に考察する。 また,画像分類に関する広範な解析,可視化,総合的な実験を通じて,知識蒸留の観点で混合学習したネットワークの挙動を検証した。 最後に,本研究の成果に基づいて,学生ネットワークの有効性を高めるための改善戦略を提案する。 さらに,本研究の知見は,kdの手法を一般的に使用する研究者や実践者に対して,洞察に富んだ提案を与えるものである。 私たちのコードはhttps://github.com/hchoi71/mix-kdで利用可能です。

Mixup is a popular data augmentation technique based on creating new samples by linear interpolation between two given data samples, to improve both the generalization and robustness of the trained model. Knowledge distillation (KD), on the other hand, is widely used for model compression and transfer learning, which involves using a larger network's implicit knowledge to guide the learning of a smaller network. At first glance, these two techniques seem very different, however, we found that "smoothness" is the connecting link between the two and is also a crucial attribute in understanding KD's interplay with mixup. Although many mixup variants and distillation methods have been proposed, much remains to be understood regarding the role of a mixup in knowledge distillation. In this paper, we present a detailed empirical study on various important dimensions of compatibility between mixup and knowledge distillation. We also scrutinize the behavior of the networks trained with a mixup in the light of knowledge distillation through extensive analysis, visualizations, and comprehensive experiments on image classification. Finally, based on our findings, we suggest improved strategies to guide the student network to enhance its effectiveness. Additionally, the findings of this study provide insightful suggestions to researchers and practitioners that commonly use techniques from KD. Our code is available at https://github.com/hchoi71/MIX-KD.
翻訳日:2022-11-10 15:44:54 公開日:2022-11-09
# 医用画像における近道検出 -胸部x線撮影例-

Detecting Shortcuts in Medical Images -- A Case Study in Chest X-rays ( http://arxiv.org/abs/2211.04279v2 )

ライセンス: Link先を確認
Amelia Jim\'enez-S\'anchez, Dovile Juodelyte, Bethany Chamberlain, Veronika Cheplygina(参考訳) 大規模な公開データセットの可用性と計算能力の増大により、医療コミュニティの関心は高性能なアルゴリズムへとシフトした。 しかし、データの品質とアノテーションにはほとんど注意が払われていない。 ベンチマークデータセットのハイパフォーマンスは、データ内のショートカットやアーティファクトを考慮せずに報告することができる。 本研究は,ショートカット問題に対する意識を高めることを目的としている。 過去の知見を検証し,2つの公開データセットを用いて胸部X線検査を行った。 気胸画像のサブセットに対するアノテーションをドレインで共有する。 医用画像分類の一般的な推奨事項をまとめる。

The availability of large public datasets and the increased amount of computing power have shifted the interest of the medical community to high-performance algorithms. However, little attention is paid to the quality of the data and their annotations. High performance on benchmark datasets may be reported without considering possible shortcuts or artifacts in the data, besides, models are not tested on subpopulation groups. With this work, we aim to raise awareness about shortcuts problems. We validate previous findings, and present a case study on chest X-rays using two publicly available datasets. We share annotations for a subset of pneumothorax images with drains. We conclude with general recommendations for medical image classification.
翻訳日:2022-11-10 15:44:34 公開日:2022-11-09
# 正規化摂動: 実世界の領域シフトに対するシンプルなドメイン一般化法

Normalization Perturbation: A Simple Domain Generalization Method for Real-World Domain Shifts ( http://arxiv.org/abs/2211.04393v2 )

ライセンス: Link先を確認
Qi Fan, Mattia Segu, Yu-Wing Tai, Fisher Yu, Chi-Keung Tang, Bernt Schiele, Dengxin Dai(参考訳) ドメインシフトに対するモデルの一般化性の向上は、特に自律運転のような安全クリティカルなアプリケーションにおいて重要である。 実世界のドメインスタイルは環境の変化やセンサノイズによって大きく異なるが、深層モデルはトレーニングドメインスタイルしか知らない。 このようなドメインスタイルのギャップは、様々な実世界のドメインのモデル一般化を妨げる。 提案する正規化摂動(np)は,この問題を効果的に克服することができる。 この問題は主に浅層cnn層で学習された低レベル特徴の偏り分布に起因していると考えられる。 そこで本研究では,学習対象のドメインデータの観測を必要とせずに,訓練対象のドメインを多種多様に認識し,一般化することができるように,ソースドメインの特徴のチャネル統計を摂動させ,様々な潜在スタイルを合成することを提案する。 効果的なスタイル合成のためのスタイルに敏感なチャネルについても検討する。 正規化摂動は単一のソースドメインのみに依存し、驚くほど効果的で実装が容易である。 実世界の領域シフトの下でモデルを一般化するための手法の有効性を検証する。

Improving model's generalizability against domain shifts is crucial, especially for safety-critical applications such as autonomous driving. Real-world domain styles can vary substantially due to environment changes and sensor noises, but deep models only know the training domain style. Such domain style gap impedes model generalization on diverse real-world domains. Our proposed Normalization Perturbation (NP) can effectively overcome this domain style overfitting problem. We observe that this problem is mainly caused by the biased distribution of low-level features learned in shallow CNN layers. Thus, we propose to perturb the channel statistics of source domain features to synthesize various latent styles, so that the trained deep model can perceive diverse potential domains and generalizes well even without observations of target domain data in training. We further explore the style-sensitive channels for effective style synthesis. Normalization Perturbation only relies on a single source domain and is surprisingly effective and extremely easy to implement. Extensive experiments verify the effectiveness of our method for generalizing models under real-world domain shifts.
翻訳日:2022-11-10 15:44:24 公開日:2022-11-09
# 暗黙のグラフェン神経表現

Implicit Graphon Neural Representation ( http://arxiv.org/abs/2211.03329v2 )

ライセンス: Link先を確認
Xinyue Xia, Gal Mishne, Yusu Wang(参考訳) グラフェンは、様々なサイズのグラフを生成するための一般的かつ強力なモデルである。 本稿では,ニューラルネットワークを用いて直接グラフをモデル化し,Implicit Graphon Neural Representation (IGNR) を得る。 グラノンのモデリングと再構成における既存の作業は、しばしば固定解像度のピースワイド定数表現によって標的グラノンを近似する。 我々のIGNRは、任意の解像度までグラフを表現できることの利点があり、モデルが学習されると、所望の構造を持つ任意のサイズのグラフを自然かつ効率的に生成できる。 さらに,Gromov-Wasserstein距離を利用して,入力グラフデータを不整合にし,異なるサイズにすることができる。 まず,グラフ学習タスクにおいて,その優れた性能を示すことにより,モデルの有効性を実証する。 次に,自動エンコーダフレームワークに組み込むことができるignrの拡張を提案し,graphon学習のより一般的な設定下でその優れた性能を示す。 また,このモデルがグラフ表現学習やグラフ生成に適していることを示す。

Graphons are general and powerful models for generating graphs of varying size. In this paper, we propose to directly model graphons using neural networks, obtaining Implicit Graphon Neural Representation (IGNR). Existing work in modeling and reconstructing graphons often approximates a target graphon by a fixed resolution piece-wise constant representation. Our IGNR has the benefit that it can represent graphons up to arbitrary resolutions, and enables natural and efficient generation of arbitrary sized graphs with desired structure once the model is learned. Furthermore, we allow the input graph data to be unaligned and have different sizes by leveraging the Gromov-Wasserstein distance. We first demonstrate the effectiveness of our model by showing its superior performance on a graphon learning task. We then propose an extension of IGNR that can be incorporated into an auto-encoder framework, and demonstrate its good performance under a more general setting of graphon learning. We also show that our model is suitable for graph representation learning and graph generation.
翻訳日:2022-11-10 15:44:09 公開日:2022-11-09
# キャッシングと再現性: データサイエンス実験の高速化とFAIRer

Caching and Reproducibility: Making Data Science experiments faster and FAIRer ( http://arxiv.org/abs/2211.04049v2 )

ライセンス: Link先を確認
Moritz Schubotz, Ankit Satpute, Andre Greiner-Petter, Akiko Aizawa, Bela Gipp(参考訳) 小規模から中規模のデータサイエンス実験は、個々の科学者や小さなチームによってアドホックに開発された研究ソフトウェアに依存することが多い。 しばしば、研究ソフトウェアを速く、再利用し、オープンアクセスにする時間はありません。 その結果は2倍になる。 第一に、その後の研究者は提案された仮説や実験的な枠組みに基づいてかなりの時間を費やしなければならない。 最悪の場合、実験を再現し、その結果をその後の研究のために再利用することはできない。 第二に、このアドホックな研究ソフトウェアは、しばしば長期にわたる計算コストの高い実験で失敗すると仮定する。 この場合、ソフトウェアを反復的に改善し、実験を再実行するための全体的な努力は、研究者にかなりの時間的プレッシャーを与えます。 コードの最初の行を書く前にも、キャッシュを研究ソフトウェア開発プロセスの不可欠な部分にすることを提案します。 本稿では,データサイエンスプロジェクトにおける研究ソフトウェア開発のためのキャッシュレコメンデーションについて概説する。 当社の勧告は、合理性依存や速度などの共通問題を回避するための視点を提供する。 同時に、キャッシュはオープンサイエンスのワークフローにおける実験の再現性に寄与する。 ファインダビリティ、アクセシビリティ、インターオペラビリティ、リユースビリティ(FAIR)の4つの原則に関して、研究ソフトウェア開発における提案された推奨を含めると、マシンと人間の両方のソフトウェアFAIRerに関連するデータが得られると予測している。 本稿では,最近完了した研究ソフトウェアプロジェクトにおける数理情報検索における提案提案の有用性を示す。

Small to medium-scale data science experiments often rely on research software developed ad-hoc by individual scientists or small teams. Often there is no time to make the research software fast, reusable, and open access. The consequence is twofold. First, subsequent researchers must spend significant work hours building upon the proposed hypotheses or experimental framework. In the worst case, others cannot reproduce the experiment and reuse the findings for subsequent research. Second, suppose the ad-hoc research software fails during often long-running computationally expensive experiments. In that case, the overall effort to iteratively improve the software and rerun the experiments creates significant time pressure on the researchers. We suggest making caching an integral part of the research software development process, even before the first line of code is written. This article outlines caching recommendations for developing research software in data science projects. Our recommendations provide a perspective to circumvent common problems such as propriety dependence, speed, etc. At the same time, caching contributes to the reproducibility of experiments in the open science workflow. Concerning the four guiding principles, i.e., Findability, Accessibility, Interoperability, and Reusability (FAIR), we foresee that including the proposed recommendation in a research software development will make the data related to that software FAIRer for both machines and humans. We exhibit the usefulness of some of the proposed recommendations on our recently completed research software project in mathematical information retrieval.
翻訳日:2022-11-10 15:43:53 公開日:2022-11-09
# ビットレベル深層学習に基づくMIMO CSIフィードバックのための量子化アダプタ

Quantization Adaptor for Bit-Level Deep Learning-Based Massive MIMO CSI Feedback ( http://arxiv.org/abs/2211.02937v2 )

ライセンス: Link先を確認
Xudong Zhang, Zhilin Lu, Rui Zeng and Jintao Wang(参考訳) 大規模なマルチインプット多重出力(MIMO)システムでは、ユーザ機器(UE)は、以下のビームフォーミングのためにチャネル状態情報(CSI)を基地局(BS)に返送する必要がある。 しかし、大規模なMIMOシステムにおける大規模なアンテナは、大きなフィードバックオーバーヘッドを引き起こす。 深層学習(DL)に基づく手法は、UEでCSIを圧縮し、BSで回復し、フィードバックコストを大幅に削減することができる。 しかし、圧縮csiは送信のためにビットストリームに量子化されなければならない。 本稿では,ビットレベルDLベースのCSIフィードバックに対する適応型量子化手法を提案する。 まず,ネットワーク支援適応器と高度トレーニングスキームの設計を行い,量子化と再構成の精度を適応的に向上させる。 さらに,データ流通に関する専門家の知識を紹介するとともに,プラグイン可能でコストフリーなアダプタスキームを提案する。 実験により, 最新のフィードバック量子化法と比較して, この適応型量子化戦略は, 高い量子化精度と再構成性能を, 少ない, または全くのコストで達成できることがわかった。 オープンソースコードはhttps://github.com/zhang-xd18/qcrnetで入手できる。

In massive multiple-input multiple-output (MIMO) systems, the user equipment (UE) needs to feed the channel state information (CSI) back to the base station (BS) for the following beamforming. But the large scale of antennas in massive MIMO systems causes huge feedback overhead. Deep learning (DL) based methods can compress the CSI at the UE and recover it at the BS, which reduces the feedback cost significantly. But the compressed CSI must be quantized into bit streams for transmission. In this paper, we propose an adaptor-assisted quantization strategy for bit-level DL-based CSI feedback. First, we design a network-aided adaptor and an advanced training scheme to adaptively improve the quantization and reconstruction accuracy. Moreover, for easy practical employment, we introduce the expert knowledge of data distribution and propose a pluggable and cost-free adaptor scheme. Experiments show that compared with the state-of-the-art feedback quantization method, this adaptor-aided quantization strategy can achieve better quantization accuracy and reconstruction performance with less or no additional cost. The open-source codes are available at https://github.com/zhang-xd18/QCRNet.
翻訳日:2022-11-10 15:43:30 公開日:2022-11-09